論文の概要: On Synthesizing Data for Context Attribution in Question Answering
- arxiv url: http://arxiv.org/abs/2504.05317v2
- Date: Mon, 16 Jun 2025 16:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:30.689669
- Title: On Synthesizing Data for Context Attribution in Question Answering
- Title(参考訳): 質問応答における文脈属性の合成データについて
- Authors: Gorjan Radevski, Kiril Gashteovski, Shahbaz Syed, Christopher Malon, Sebastien Nicolas, Chia-Chien Hung, Timo Sztyler, Verena Heußer, Wiem Ben Rim, Masafumi Enomoto, Kunihiro Takeoka, Masafumi Oyamada, Goran Glavaš, Carolin Lawrence,
- Abstract要約: QA ( Question Answering) は LLM の「野生における」使用のかなりの部分を占めている。
この情報を提供することがコンテキスト属性のタスクである。
主要な貢献は、コンテキスト属性データを合成するための新しい生成戦略であるSynQAである。
我々は,SynQAを用いて合成した属性データは,文脈属性の微調整に極めて有効であることを示す。
- 参考スコア(独自算出の注目度): 23.88187851528156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question Answering (QA) accounts for a significant portion of LLM usage "in the wild". However, LLMs sometimes produce false or misleading responses, also known as "hallucinations". Therefore, grounding the generated answers in contextually provided information -- i.e., providing evidence for the generated text -- is paramount for LLMs' trustworthiness. Providing this information is the task of context attribution. In this paper, we systematically study LLM-based approaches for this task, namely we investigate (i) zero-shot inference, (ii) LLM ensembling, and (iii) fine-tuning of small LMs on synthetic data generated by larger LLMs. Our key contribution is SynQA: a novel generative strategy for synthesizing context attribution data. Given selected context sentences, an LLM generates QA pairs that are supported by these sentences. This leverages LLMs' natural strengths in text generation while ensuring clear attribution paths in the synthetic training data. We show that the attribution data synthesized via SynQA is highly effective for fine-tuning small LMs for context attribution in different QA tasks and domains. Finally, with a user study, we validate the usefulness of small LMs (fine-tuned on synthetic data from SynQA) in context attribution for QA.
- Abstract(参考訳): 質問回答(QA: Question Answering)は、LLMの「野生における」使用のかなりの部分を占めている。
しかし、LSMは時に「幻覚(hallucinations)」とも呼ばれる誤った、あるいは誤解を招く反応を生じさせる。
したがって、生成された回答を文脈的に提供された情報(すなわち、生成されたテキストの証拠を提供する)で根拠付けることは、LLMの信頼性にとって最優先事項である。
この情報を提供することがコンテキスト属性のタスクである。
本稿では,この課題に対するLCMに基づくアプローチ,すなわち本研究を体系的に研究する。
(i)ゼロショット推論
二 LLM アンサンブル、及び
3) 大型LLMによる合成データに対する小型LMの微調整
我々の重要な貢献は、文脈属性データを合成するための新しい生成戦略であるSynQAである。
選択された文脈文が与えられた場合、LLMはこれらの文によって支持されるQAペアを生成する。
これにより、LLMのテキスト生成における自然な強みを生かし、合成トレーニングデータにおける明確な帰属経路を確保することができる。
我々は,SynQAを用いて合成した属性データは,異なるQAタスクやドメインにおけるコンテキスト属性の微調整に極めて有効であることを示す。
最後に,SynQA の合成データに微調整した小型 LM の有用性を,QA の文脈属性として検証した。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。