Fugu-MT 論文翻訳(概要): Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

論文の概要: Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation

arxiv url: http://arxiv.org/abs/2505.11754v1
Date: Fri, 16 May 2025 23:29:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.827129
Title: Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation
Title（参考訳）: マルチホップQAにおけるマスキング:文脈順応による言語モデルの性能解析
Authors: Wenyu Huang, Pavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan,
Abstract要約: MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
参考スコア（独自算出の注目度）: 56.69064935192318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-hop Question Answering (MHQA) adds layers of complexity to question answering, making it more challenging. When Language Models (LMs) are prompted with multiple search results, they are tasked not only with retrieving relevant information but also employing multi-hop reasoning across the information sources. Although LMs perform well on traditional question-answering tasks, the causal mask can hinder their capacity to reason across complex contexts. In this paper, we explore how LMs respond to multi-hop questions by permuting search results (retrieved documents) under various configurations. Our study reveals interesting findings as follows: 1) Encoder-decoder models, such as the ones in the Flan-T5 family, generally outperform causal decoder-only LMs in MHQA tasks, despite being significantly smaller in size; 2) altering the order of gold documents reveals distinct trends in both Flan T5 models and fine-tuned decoder-only models, with optimal performance observed when the document order aligns with the reasoning chain order; 3) enhancing causal decoder-only models with bi-directional attention by modifying the causal mask can effectively boost their end performance. In addition to the above, we conduct a thorough investigation of the distribution of LM attention weights in the context of MHQA. Our experiments reveal that attention weights tend to peak at higher values when the resulting answer is correct. We leverage this finding to heuristically improve LMs' performance on this task. Our code is publicly available at https://github.com/hwy9855/MultiHopQA-Reasoning.
Abstract（参考訳）: MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。言語モデル(LM)に複数の検索結果が入力されると、関連する情報を取得するだけでなく、情報ソースをまたいだマルチホップ推論も行う。 LMは従来の質問応答タスクではうまく機能するが、因果マスクは複雑なコンテキストをまたいで推論する能力を妨げる可能性がある。本稿では,マルチホップ質問に対するLMの応答について,さまざまな構成で検索結果(検索文書)を置換することによって検討する。我々の研究は、以下の興味深い発見を明らかにしている。 1) Flan-T5 ファミリーのようなエンコーダデコーダモデルは、MHQA タスクにおいて、サイズが著しく小さいにもかかわらず、一般的に因果デコーダのみのLMを上回ります。 2) 書類の順序を変更することで,Flan T5モデルと微調整デコーダのみモデルの両方の傾向が明らかとなり,書類の順序が推論連鎖順序と整合した場合に最適な性能が観察される。 3) 因果マスクを改良することにより, 因果デコーダのみのモデルに双方向の注意を向けることにより, 終末性能を効果的に向上させることができる。以上に加えて,本研究は,MHQAの文脈におけるLM注意重みの分布を徹底的に調査する。実験の結果,回答が正しければ,注目重みは高い値でピークに達する傾向にあることがわかった。我々はこの発見を利用して、このタスクにおけるLMのパフォーマンスをヒューリスティックに改善する。私たちのコードはhttps://github.com/hwy9855/MultiHopQA-Reasoning.comで公開されています。

関連論文リスト

Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文参考訳（メタデータ） (2024-11-06T16:30:26Z)
SG-FSM: A Self-Guiding Zero-Shot Prompting Paradigm for Multi-Hop Question Answering Based on Finite State Machine [27.274219226254026]
MHQA (Multi-hop Question Answering) は、多くの既存モデルにおいて依然として困難である。マルチホップ推論能力を高めるために,SG-FSM(Self-Guiding prompting Finite State Machine)を提案する。
論文参考訳（メタデータ） (2024-10-22T13:47:38Z)
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。 MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文参考訳（メタデータ） (2024-09-18T18:40:02Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文参考訳（メタデータ） (2024-03-04T19:12:48Z)
PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文参考訳（メタデータ） (2023-12-23T08:32:13Z)
Uncertainty Guided Global Memory Improves Multi-Hop Question Answering [3.7013865226473848]
本稿では,まず文書全体からメモリに関連情報を収集し,それをローカルコンテキストと組み合わせてタスクを解く2段階の手法を提案する。実験結果から, メモリ拡張入力を用いた事前学習モデルの微調整により, モデルの性能が向上することが示唆された。
論文参考訳（メタデータ） (2023-11-29T23:45:57Z)
Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。 PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2022-05-18T21:57:59Z)
Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文参考訳（メタデータ） (2020-10-19T06:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。