論文の概要: Domain-Adapted Retrieval for In-Context Annotation of Pedagogical Dialogue Acts
- arxiv url: http://arxiv.org/abs/2604.03127v1
- Date: Fri, 03 Apr 2026 15:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.518979
- Title: Domain-Adapted Retrieval for In-Context Annotation of Pedagogical Dialogue Acts
- Title(参考訳): 語学対話法の文脈内アノテーションに対するドメイン適応検索
- Authors: Jinsook Lee, Kirk Vanacore, Zhuqian Zhou, Bakhtawar Ahtisham, Rene F. Kizilcec,
- Abstract要約: 我々は、移動アノテーションを学習するためのドメイン適応RAGパイプラインを提案する。
学習コーパスに軽量な埋め込みモデルを微調整して,ラベル付き数発のデモを検索する。
私たちの最高の構成は、TalkMovesのCohenの0.526-0.580ドル、Eediの0.659-0.743ドルです。
- 参考スコア(独自算出の注目度): 0.18268488712787334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated annotation of pedagogical dialogue is a high-stakes task where LLMs often fail without sufficient domain grounding. We present a domain-adapted RAG pipeline for tutoring move annotation. Rather than fine-tuning the generative model, we adapt retrieval by fine-tuning a lightweight embedding model on tutoring corpora and indexing dialogues at the utterance level to retrieve labeled few-shot demonstrations. Evaluated across two real tutoring dialogue datasets (TalkMoves and Eedi) and three LLM backbones (GPT-5.2, Claude Sonnet 4.6, Qwen3-32b), our best configuration achieves Cohen's $κ$ of 0.526-0.580 on TalkMoves and 0.659-0.743 on Eedi, substantially outperforming no-retrieval baselines ($κ= 0.275$-$0.413$ and $0.160$-$0.410$). An ablation study reveals that utterance-level indexing, rather than embedding quality alone, is the primary driver of these gains, with top-1 label match rates improving from 39.7\% to 62.0\% on TalkMoves and 52.9\% to 73.1\% on Eedi under domain-adapted retrieval. Retrieval also corrects systematic label biases present in zero-shot prompting and yields the largest improvements for rare and context-dependent labels. These findings suggest that adapting the retrieval component alone is a practical and effective path toward expert-level pedagogical dialogue annotation while keeping the generative model frozen.
- Abstract(参考訳): 台詞対話の自動アノテーションは、LLMが十分なドメイン基盤を持たずに失敗することが多い、ハイテイクなタスクである。
我々は、移動アノテーションを学習するためのドメイン適応RAGパイプラインを提案する。
生成モデルを微調整する代わりに,発話レベルにおけるコーパスの学習と対話の索引付けに軽量な埋め込みモデルを微調整し,ラベル付き数発のデモを検索する。
2つの実際のチュータリング対話データセット(TalkMovesとEedi)と3つのLCMバックボーン(GPT-5.2、Claude Sonnet 4.6、Qwen3-32b)で評価された私たちの最高の構成は、CohenのTalkMovesでのκ$ of 0.526-0.580、Eediでの0.659-0.743を達成し、非検索ベースライン(κ=0.275$-0.413$および0.160$-0.410$)を大幅に上回る。
アブレーション研究では、品質のみを埋め込むのではなく、発話レベルの索引付けがこれらの利得の主要な要因であることが示されており、トップ-1ラベルのマッチングレートはTalkMovesでは39.7\%から62.0\%、ドメイン適応検索では52.9\%から73.1\%に改善されている。
Retrievalはまた、ゼロショットプロンプトに存在する体系的なラベルバイアスを補正し、レアおよびコンテキスト依存のラベルに対して最大の改善をもたらす。
これらの結果から, 検索成分を単独で適用することは, 生成モデルを凍結したまま, 専門家レベルの教育対話アノテーションへの実践的かつ効果的な経路であることが示唆された。
関連論文リスト
- Automatic Essay Scoring and Feedback Generation in Basque Language Learning [4.218073067465283]
本稿では,CEFR C1の習熟度を目標とした,AES(Automatic Essay Scoring)とフィードバック生成のための最初の公開データセットを紹介する。
データセットは、HABEから3,200のエッセイで構成され、それぞれ専門家評価者によって注釈付けされ、正確さ、豊かさ、一貫性、凝集度、タスクアライメントを詳細にフィードバックとエラーの例で表現する。
RoBERTa-EusCrawlやLatxa 8B/70Bといったオープンソースモデルを、スコアリングと説明生成の両方のために微調整します。
論文 参考訳(メタデータ) (2025-12-09T15:28:35Z) - Fine-tuning with RAG for Improving LLM Learning of New Skills [8.825427873545063]
大規模言語モデル(LLM)エージェントは予測可能な方法で頻繁に失敗する。
本稿では,推論時間検索を蒸留による学習能力に変換する単純なパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-01T19:03:48Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass [109.34230156454574]
大規模言語モデル(LM)は一般的に、新しい文脈におけるパフォーマンスを改善するために適応される。
微調整によってトレーニングコストが大幅に増加し、推論オーバーヘッドが増加する。
我々は、新しいコンテキストを低ランクLMアダプタに直接マッピングする効率的で効率的な適応手法である$GenerativeAdapter$を紹介した。
論文 参考訳(メタデータ) (2024-11-08T00:42:47Z) - An Unsupervised Dialogue Topic Segmentation Model Based on Utterance Rewriting [3.5399864027190366]
本研究では,Utterance Rewriting(UR)技術と教師なし学習アルゴリズムを組み合わせた,教師なし対話トピックセグメンテーション手法を提案する。
The proposed Discourse Rewriting Topic Model (UR-DTS) is significantly improves the accuracy of topic segmentation。
論文 参考訳(メタデータ) (2024-09-12T00:27:31Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation [31.633351104278194]
本フレームワークは,意味表現学習の強化を目的としたゲーティング機構を通じて,AMRグラフ情報を統合する。
本フレームワークは,複数のデータセットにまたがる人間の判断と強い相関関係を達成し,対話評価のための新たなベンチマークを確立する。
論文 参考訳(メタデータ) (2024-04-01T14:11:45Z) - Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue
Embeddings [41.79937481022846]
教師なし対話の埋め込みを学習するタスクについて紹介する。
事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。
本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T11:14:06Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。