論文の概要: From Models to Microtheories: Distilling a Model's Topical Knowledge for Grounded Question Answering
- arxiv url: http://arxiv.org/abs/2412.17701v1
- Date: Mon, 23 Dec 2024 16:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:33.050659
- Title: From Models to Microtheories: Distilling a Model's Topical Knowledge for Grounded Question Answering
- Title(参考訳): モデルからマイクロ理論へ:基礎質問応答のためのモデルのトピック知識を蒸留する
- Authors: Nathaniel Weir, Bhavana Dalvi Mishra, Orion Weller, Oyvind Tafjord, Sam Hornstein, Alexander Sabol, Peter Jansen, Benjamin Van Durme, Peter Clark,
- Abstract要約: マイクロ理論は、あるトピックに関するLMのコア知識をカプセル化した文である。
一般コーパス(例えばウィキペディア)に追加されると、マイクロ理論はコーパスに必ずしも存在しない重要なトピック情報を供給できることを示す。
また, 医療分野での人体評価において, 我々の蒸留マイクロ理論は, 局所的に重要な事実の集中度が著しく高いことも示している。
- 参考スコア(独自算出の注目度): 86.36792996924244
- License:
- Abstract: Recent reasoning methods (e.g., chain-of-thought, entailment reasoning) help users understand how language models (LMs) answer a single question, but they do little to reveal the LM's overall understanding, or "theory," about the question's $\textit{topic}$, making it still hard to trust the model. Our goal is to materialize such theories - here called $\textit{microtheories}$ (a linguistic analog of logical microtheories) - as a set of sentences encapsulating an LM's core knowledge about a topic. These statements systematically work together to entail answers to a $\textit{set}$ of questions to both engender trust and improve performance. Our approach is to first populate a knowledge store with (model-generated) sentences that entail answers to training questions and then distill those down to a core microtheory that is concise, general, and non-redundant. We show that, when added to a general corpus (e.g., Wikipedia), microtheories can supply critical, topical information not necessarily present in the corpus, improving both a model's ability to ground its answers to verifiable knowledge (i.e., show how answers are systematically entailed by documents in the corpus, fully grounding up to +8% more answers), and the accuracy of those grounded answers (up to +8% absolute). We also show that, in a human evaluation in the medical domain, our distilled microtheories contain a significantly higher concentration of topically critical facts than the non-distilled knowledge store. Finally, we show we can quantify the coverage of a microtheory for a topic (characterized by a dataset) using a notion of $p$-relevance. Together, these suggest that microtheories are an efficient distillation of an LM's topic-relevant knowledge, that they can usefully augment existing corpora, and can provide both performance gains and an interpretable, verifiable window into the model's knowledge of a topic.
- Abstract(参考訳): 最近の推論手法(例えば、チェーン・オブ・シンク、entailment reasoning)は、言語モデル(LM)が一つの質問にどのように答えるかを理解するのに役立ちますが、その質問の$\textit{topic}$について、LMの全体的な理解や"理論"を明らかにすることはほとんどありません。
私たちのゴールは、あるトピックに関するLMの中核的な知識をカプセル化した文の集合として、このような理論($\textit{microtheories}$(論理的マイクロ理論の言語的アナロジー)を成立させることです。
これらのステートメントは、信頼とパフォーマンスを改善するために、$\textit{set}$に対する回答を体系的に処理します。
我々のアプローチは、まず知識ストアに、訓練された質問に対する答えを含む(モデル生成)文を投入し、それらを簡潔で一般的で非冗長な中核的なマイクロ理論に抽出することである。
一般コーパス(例えばウィキペディア)に追加されると、マイクロ理論は、コーパスに必ずしも存在しない重要なトピック情報を提供し、検証可能な知識(すなわち、コーパス内の文書によってどのように答えが体系的に関連付けられているかを示す)にモデルが答える能力を改善し、その答えの正確さ(最大8%の絶対性)を示す。
また, 医療分野での人的評価において, 蒸留マイクロ理論は, 非蒸留ナレッジストアよりも, トポラルクリティカルな事実の濃度が有意に高いことが示唆された。
最後に、$p$-relevance(p$-relevance)という概念を用いて、トピック(データセットによって特徴付けられる)のマイクロセロリのカバレッジを定量化できることを示します。
これらと合わせて、マイクロ理論は、LMのトピック関連知識の効率的な蒸留であり、既存のコーパスを効果的に増強することができ、性能向上とトピックに関するモデルの知識の解釈可能な窓を提供することができることを示唆している。
関連論文リスト
- Large Language Models as a Tool for Mining Object Knowledge [0.42970700836450487]
大きな言語モデルは、その答えの根拠の不透明さと、疑問が持たれたときに事実を議論する傾向があるため、信頼できるインテリジェントシステムとして不足する。
本稿では,日常の共通アーティファクトに関する明示的な知識について考察する。
約2,300個のオブジェクトとそのサブタイプの部品や材料に関するデータのリポジトリを作成します。
この知識マイニングへの貢献は、物体の構造と構成に関する推論に関するAI研究に有用であることが証明されるべきである。
論文 参考訳(メタデータ) (2024-10-16T18:46:02Z) - What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on
Curiosity-Driven Questioning [4.3512163406552]
大規模言語モデル(LLM)は膨大な量の知識を格納できるが、新しい知識を取得する可能性はまだ不明である。
本稿では,この能力を評価する新しい評価フレームワークを提案する。
GPT-4 や Mistral 8x7b のような大規模モデルはコヒーレントで関連する質問を生成するには適しているが、より小さな Phi-2 モデルは等しく、より効果的である。
論文 参考訳(メタデータ) (2024-09-19T22:12:16Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - WikiWhy: Answering and Explaining Cause-and-Effect Questions [62.60993594814305]
自然言語で答えが正しい理由を説明するために構築されたQAデータセットであるWikiWhyを紹介する。
WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。
GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正しさを38.7%しか達成していない。
論文 参考訳(メタデータ) (2022-10-21T17:59:03Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning [59.16962123636579]
本稿では,Prologベースの推論エンジンを新たに提案する。
我々は手作りのルールを、ニューラルネットワークモデリング、ガイド付き生成、半密検索の組み合わせで置き換える。
我々の実装であるNELLIEは、完全に解釈可能なエンドツーエンドの基底QAを示す最初のシステムである。
論文 参考訳(メタデータ) (2022-09-16T00:54:44Z) - GreaseLM: Graph REASoning Enhanced Language Models for Question
Answering [159.9645181522436]
GreaseLMは、事前訓練されたLMとグラフニューラルネットワークの符号化された表現を、複数の層にわたるモダリティ相互作用操作で融合する新しいモデルである。
GreaseLMは、状況制約と構造化知識の両方の推論を必要とする問題に、より確実に答えることができる。
論文 参考訳(メタデータ) (2022-01-21T19:00:05Z) - Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer
Explanation [22.20733260041759]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。
我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。
本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T17:18:17Z) - Explaining Question Answering Models through Text Generation [42.36596190720944]
大規模な事前学習言語モデル(LM)は、常識と世界知識を必要とするタスクを微調整するときに驚くほどうまく機能することが示されている。
エンドツーエンドのアーキテクチャで正しい予測ができるような、LMの知識が何であるかを説明するのは難しい。
エンド・ツー・エンドのアーキテクチャに匹敵するパフォーマンスに達するタスクをいくつか示します。
論文 参考訳(メタデータ) (2020-04-12T09:06:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。