論文の概要: Problem-Oriented Segmentation and Retrieval: Case Study on Tutoring Conversations
- arxiv url: http://arxiv.org/abs/2411.07598v1
- Date: Tue, 12 Nov 2024 07:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:57.054876
- Title: Problem-Oriented Segmentation and Retrieval: Case Study on Tutoring Conversations
- Title(参考訳): 問題指向セグメンテーションと検索:チュータ会話の事例研究
- Authors: Rose E. Wang, Pawan Wirawarn, Kenny Lam, Omar Khattab, Dorottya Demszky,
- Abstract要約: 本稿では,会話をセグメントに分割し,各セグメントを関連する参照項目にリンクするタスクであるPOSRを紹介する。
実世界の家庭教師教育の最初のデータセットであるLessonLinkについて紹介する。3500のセグメントがあり、24,300分に及ぶ指導と116のSAT数学問題に関連付けられている。
この結果から,POSR法は独立セグメンテーションと検索パイプラインを最大で76%向上させることがわかった。
- 参考スコア(独自算出の注目度): 7.078994835839743
- License:
- Abstract: Many open-ended conversations (e.g., tutoring lessons or business meetings) revolve around pre-defined reference materials, like worksheets or meeting bullets. To provide a framework for studying such conversation structure, we introduce Problem-Oriented Segmentation & Retrieval (POSR), the task of jointly breaking down conversations into segments and linking each segment to the relevant reference item. As a case study, we apply POSR to education where effectively structuring lessons around problems is critical yet difficult. We present LessonLink, the first dataset of real-world tutoring lessons, featuring 3,500 segments, spanning 24,300 minutes of instruction and linked to 116 SAT math problems. We define and evaluate several joint and independent approaches for POSR, including segmentation (e.g., TextTiling), retrieval (e.g., ColBERT), and large language models (LLMs) methods. Our results highlight that modeling POSR as one joint task is essential: POSR methods outperform independent segmentation and retrieval pipelines by up to +76% on joint metrics and surpass traditional segmentation methods by up to +78% on segmentation metrics. We demonstrate POSR's practical impact on downstream education applications, deriving new insights on the language and time use in real-world lesson structures.
- Abstract(参考訳): 多くのオープンエンドな会話(例:授業の指導やビジネスミーティング)は、ワークシートや会議の弾丸など、事前に定義されたリファレンス資料を中心に展開します。
このような会話構造を研究するための枠組みとして,会話をセグメントに分割し,各セグメントを関連する参照項目にリンクする問題指向セグメンテーション&検索(POSR)を導入する。
ケーススタディとして,問題に関する学習を効果的に構成する教育にPOSRを適用することは極めて困難である。
実世界の家庭教師教育の最初のデータセットであるLessonLinkについて紹介する。3500のセグメントがあり、24,300分に及ぶ指導と116のSAT数学問題に関連付けられている。
我々は、セグメンテーション(例: TextTiling)、検索(例: ColBERT)、大規模言語モデル(例:LLM)など、POSRのいくつかの共同および独立的なアプローチを定義し、評価する。
POSR法は, 独立セグメンテーションと検索パイプラインを最大で76%, 従来のセグメンテーション法を最大で78%上回っている。
我々は、現実世界の授業構造における言語と時間利用に関する新たな洞察を導き、下流教育応用に対するPOSRの実践的影響を実証する。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - Contextrast: Contextual Contrastive Learning for Semantic Segmentation [9.051352746190448]
コントラスト学習に基づくセマンティックセグメンテーション手法であるContextrastを提案する。
提案手法は,文脈コントラスト学習 (CCL) と境界認識型負サンプリング (B) の2つの部分からなる。
我々のContextrastはセマンティックセグメンテーションネットワークの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-04-16T15:04:55Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Few-Shot Learning for Annotation-Efficient Nucleus Instance Segmentation [50.407071700154674]
少数ショット学習(FSL)の観点から、アノテーション効率の良い核インスタンスセグメンテーションを定式化することを提案する。
我々の研究は、計算病理学の隆盛とともに、多くの完全注釈付きデータセットが一般に公開されていることに動機づけられた。
いくつかの公開データセットに対する大規模な実験は、SGFSISが他のアノテーション効率のよい学習ベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-26T03:49:18Z) - One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。
すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。
InSTRUCTORを70の埋め込み評価タスクで評価する。
論文 参考訳(メタデータ) (2022-12-19T18:57:05Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Improving Unsupervised Dialogue Topic Segmentation with Utterance-Pair
Coherence Scoring [8.31009800792799]
発話対ペアコヒーレンススコアのトレーニングコーパスを生成するための戦略を提案する。
そして,得られた学習コーパスを用いて,BERTに基づくニューラル発話対ペアコヒーレンスモデルを訓練する。
最後に、このようなモデルを用いて発話間の話題関係を計測し、セグメンテーション推論の基盤として機能する。
論文 参考訳(メタデータ) (2021-06-12T08:49:20Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Text Segmentation by Cross Segment Attention [2.525236250247906]
文書と談話のセグメンテーションは、テキストを構成要素に分割する2つの基本的なNLPタスクである。
我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。
論文 参考訳(メタデータ) (2020-04-30T01:36:52Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。