論文の概要: Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2603.14636v1
- Date: Sun, 15 Mar 2026 22:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.931462
- Title: Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
- Title(参考訳): 隠れ状態:大規模オーディオ言語モデルにおけるチェーン・オブ・ソート推論のための訓練不要モデルステアリング
- Authors: Lok-Lam Ieong, Chia-Chien Chen, Chih-Kai Yang, Yu-Han Huang, An-Yu Cheng, Hung-yi Lee,
- Abstract要約: チェーン・オブ・シンクレット(CoT)のプロンプトは、推論を引き出すために大規模な音声言語モデル(LALM)に拡張されている。
我々は、LALM推論を改善するためのトレーニング不要アプローチとして、推論時モデルステアリングについて検討した。
- 参考スコア(独自算出の注目度): 42.22938679651947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.
- Abstract(参考訳): チェーン・オブ・シンクレット(CoT)のプロンプトは、推論を引き出すために大規模な音声言語モデル(LALM)に拡張されているが、トレーニングなしでの有効性を高めることは依然として困難である。
我々は、LALM推論を改善するためのトレーニング不要アプローチとして、推論時モデルステアリングについて検討した。
多様な情報ソースを用いた3つの戦略を導入し、4つのLALMと4つのベンチマークで評価する。
その結果、CoTのプロンプトよりも一般精度が4.4%向上した。
特に,テキストサンプルが少ないことから導かれるステアリングベクトルが音声に基づく推論を効果的にガイドし,高いデータ効率を示すクロスモーダル転送を同定する。
また、これらのアプローチの堅牢性を理解するために、ハイパーパラメータ感度についても検討する。
LALM推論の実践的方向としての位置モデルステアリングについて検討した。
関連論文リスト
- When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [15.560280546809457]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。
提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
精度は4.0%から44.3%に向上した。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。