Fugu-MT 論文翻訳(概要): Auto-Patching: Enhancing Multi-Hop Reasoning in Language Models

論文の概要: Auto-Patching: Enhancing Multi-Hop Reasoning in Language Models

arxiv url: http://arxiv.org/abs/2506.00483v1
Date: Sat, 31 May 2025 09:30:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.100537
Title: Auto-Patching: Enhancing Multi-Hop Reasoning in Language Models
Title（参考訳）: 自動パッチ:言語モデルにおけるマルチホップ推論の強化
Authors: Aviv Jan, Dean Tahory, Omer Talmi, Omar Abo Mokh,
Abstract要約: 大規模言語モデル(LLM)におけるマルチホップ推論を強化するために,推論中に隠れた状態を動的にパッチする新しい手法であるAuto-Patchを導入する。オートパッチは18.45%(ベースライン)から23.63$pm$0.7%(ラン)に改善し、チェーン・オブ・ソート(27.44%)へのギャップを狭める。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-hop questions still stump large language models (LLMs), which struggle to link information across multiple reasoning steps. We introduce Auto-Patch, a novel method that dynamically patches hidden states during inference to enhance multi-hop reasoning in LLMs. Building on the PatchScopes framework, Auto-Patch selectively modifies internal representations using a learned classifier. Evaluated on the MuSiQue dataset, Auto-Patch improves the solve rate from 18.45\% (baseline) to 23.63~$\pm$~0.7\% (3 runs), narrowing the gap to Chain-of-Thought prompting (27.44\%). Our results highlight the potential of dynamic hidden state interventions for advancing complex reasoning in LLMs.
Abstract（参考訳）: マルチホップ質問は大きな言語モデル(LLM)をいまだに突破しており、複数の推論ステップで情報をリンクするのに苦労している。我々は,LLMにおけるマルチホップ推論を強化するために,推論中に隠れた状態を動的にパッチする新しい手法であるAuto-Patchを紹介する。 PatchScopesフレームワーク上に構築されているAuto-Patchは、学習した分類器を使用して内部表現を選択的に修正する。 MuSiQueデータセットに基づいて、Auto-Patchは18.45\%(ベースライン)から23.63~$\pm$~0.7\%(3ラン)に改善し、Chain-of-Thoughtプロンプト(27.44\%)とのギャップを狭める。以上の結果から, LLMの複雑な推論を推し進めるための動的隠れ状態介入の可能性が示唆された。

関連論文リスト

Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation [56.69064935192318]
MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
論文参考訳（メタデータ） (2025-05-16T23:29:47Z)
PolyPrompt: Automating Knowledge Extraction from Multilingual Language Models with Dynamic Prompt Generation [0.0]
大規模言語モデル(LLM)の多言語機能を強化するための新しいパラメータ効率フレームワークであるPolyPromptを紹介する。提案手法では,各言語に対するトリガトークンの集合を勾配に基づく探索により学習し,入力クエリの言語を識別し,推論中にプロンプトにプリコンパイルされた対応するトリガトークンを選択する。我々は20億のパラメータモデルで実験を行い、15の類型的および資源的多様言語にわたる世界MMLUベンチマークで評価を行い、ナイーブおよびトランスレーショナル・ピペリンベースラインと比較して3.7%-19.9%の精度向上を示した。
論文参考訳（メタデータ） (2025-02-27T04:41:22Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文参考訳（メタデータ） (2024-11-06T16:30:26Z)
Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文参考訳（メタデータ） (2024-09-16T23:52:41Z)
Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文参考訳（メタデータ） (2023-10-20T14:51:10Z)
Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models [4.343604069244352]
そこで本研究では,アテンションヘッドにターゲットメモリを注入することで,マルチホップ推論失敗をピンポイントし,修正する手法を提案する。キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。
論文参考訳（メタデータ） (2023-09-11T16:39:30Z)
Triggering Multi-Hop Reasoning for Question Answering in Language Models using Soft Prompts and Random Walks [1.5254598796939924]
構造化知識グラフ上のランダムウォークを頼りにすることで,この制限を改善する手法を提案する。具体的には、ソフトプロンプトを使用して、複数のホップ質問をランダムなウォークパスにマッピングすることで、LMのコード化された知識をチェーン化する。 2 つの T5 LM にメソッドを適用することで、2 ホップ推論を必要とする問題に答える上で、標準チューニングアプローチよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-06-06T20:45:18Z)
Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering [40.86455734818704]
オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T04:57:31Z)
Learning to Ask Conversational Questions by Optimizing Levenshtein Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-30T08:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。