論文の概要: Context-Informed Grounding Supervision
- arxiv url: http://arxiv.org/abs/2506.15480v1
- Date: Wed, 18 Jun 2025 14:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.685882
- Title: Context-Informed Grounding Supervision
- Title(参考訳): 文脈インフォームド・グラウンド・スーパービジョン
- Authors: Hyunji Lee, Seunghyun Yoon, Yunjae Won, Hanseok Oh, Geewook Kim, Trung Bui, Franck Dernoncourt, Elias Stengel-Eskin, Mohit Bansal, Minjoon Seo,
- Abstract要約: コンテキストインフォームド・グラウンド(Context-Informed Grounding Supervision, CINGS)は、モデルが応答に先立って関連するコンテキストでトレーニングされる訓練後の監督である。
実験により, CINGSで訓練したモデルでは, テキスト領域と視覚領域の両方において, より強い基底が示されることがわかった。
- 参考スコア(独自算出の注目度): 102.11698329887226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are often supplemented with external knowledge to provide information not encoded in their parameters or to reduce hallucination. In such cases, we expect the model to generate responses by grounding its response in the provided external context. However, prior work has shown that simply appending context at inference time does not ensure grounded generation. To address this, we propose Context-INformed Grounding Supervision (CINGS), a post-training supervision in which the model is trained with relevant context prepended to the response, while computing the loss only over the response tokens and masking out the context. Our experiments demonstrate that models trained with CINGS exhibit stronger grounding in both textual and visual domains compared to standard instruction-tuned models. In the text domain, CINGS outperforms other training methods across 11 information-seeking datasets and is complementary to inference-time grounding techniques. In the vision-language domain, replacing a vision-language model's LLM backbone with a CINGS-trained model reduces hallucinations across four benchmarks and maintains factual consistency throughout the generated response. This improved grounding comes without degradation in general downstream performance. Finally, we analyze the mechanism underlying the enhanced grounding in CINGS and find that it induces a shift in the model's prior knowledge and behavior, implicitly encouraging greater reliance on the external context.
- Abstract(参考訳): 大型言語モデル(LLM)は、パラメータにエンコードされていない情報や幻覚を減らすために、外部知識を補うことが多い。
このような場合、提案した外部コンテキストで応答を基底にすることで、モデルが応答を生成することを期待する。
しかし、以前の研究は、推論時に単にコンテキストを追加するだけで基底生成が保証されないことを示した。
そこで本研究では,応答トークンのみの損失を計算し,コンテキストを隠蔽しながら,応答に先立って適切なコンテキストでモデルを訓練する,学習後の監視手法であるContext-Informed Grounding Supervision (CINGS)を提案する。
実験により、CINGSで訓練されたモデルは、標準的な命令調整モデルと比較して、テキスト領域と視覚領域の両方においてより強い基礎性を示すことが示された。
テキストドメインでは、CINGSは11のインフォメーション検索データセットで他のトレーニング手法よりも優れており、推論時間グラウンド手法を補完する。
視覚言語領域では、視覚言語モデルのLLMバックボーンをCINGS訓練モデルに置き換えることで、4つのベンチマークにおける幻覚を低減し、生成した応答全体を通して事実整合性を維持する。
この改良されたグラウンド化は、一般的に下流のパフォーマンスを劣化させることなく実現される。
最後に、CINGSの強化基盤の基盤となるメカニズムを分析し、それがモデルの以前の知識と振る舞いの変化を誘発し、外部コンテキストへの依存を暗黙的に促進することを示した。
関連論文リスト
- SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Grounded Image Text Matching with Mismatched Relation Reasoning [39.524420144738684]
GITM-MR(Gunded Image Text Matching with Mismatched Relation)は,新しい視覚言語共同作業である。
GITM-MRは、式が画像を記述するかどうかを最初に決定するためにモデルを必要とし、次に参照オブジェクトをローカライズするか、テキストのミスマッチ部分をグラウンドする。
本稿では、双方向メッセージ伝搬による関係認識推論を組み込んだRCRN(Relation-sensitive Cor correspondence Reasoning Network)を提案する。
論文 参考訳(メタデータ) (2023-08-02T15:44:36Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。