論文の概要: FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.11190v1
- Date: Mon, 13 Oct 2025 09:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.293941
- Title: FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models
- Title(参考訳): FlexAC:マルチモーダル大言語モデルにおける連想推論の柔軟な制御を目指して
- Authors: Shengming Yuan, Xinyu Lyu, Shuailong Wang, Beitao Chen, Jingkuan Song, Lianli Gao,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、忠実さと創造性の間に固有のトレードオフに直面します。
既存の方法には、この推論強度を調節する柔軟性がない。
本稿では,連想推論を柔軟に制御する機構を備えたMLLMを提案する。
- 参考スコア(独自算出の注目度): 80.6268239673988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) face an inherent trade-off between faithfulness and creativity, as different tasks require varying degrees of associative reasoning. However, existing methods lack the flexibility to modulate this reasoning strength, limiting MLLMs' adaptability across factual and creative scenarios. To bridge this gap, we propose equipping MLLMs with mechanisms that enable flexible control over associative reasoning. We begin by investigating the internal mechanisms underlying associative behavior in MLLMs and find that: (1) middle layers play a pivotal role in shaping model's associative tendencies, (2) modifying representations in these layers effectively regulates associative reasoning strength, and (3) hallucinations can be exploited to derive steering vectors that guide this modulation. Building on these findings, we introduce Flexible Association Control (FlexAC), a lightweight and training-free framework for modulating associative behavior in MLLMs. FlexAC first induces hallucination-guided intermediate representations to encode associative directions. Then, it selects high-association instances to construct effective associative steering vectors, whose strengths are adaptively calibrated to balance creative guidance with output stability. Finally, recognizing the multi-dimensional nature of associative reasoning, FlexAC incorporates task-specific associative vectors derived from a forward pass on a few target-domain samples, enabling models to follow diverse associative directions and better adapt to creative tasks. Notably, our method achieves up to a 5.8x improvement in creativity on Creation-MMBench and a 29% reduction in hallucination rate on CHAIR, surpassing existing baselines and demonstrating its effectiveness in enabling flexible control over associative reasoning in MLLMs. Our code is available at https://github.com/ylhz/FlexAC.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は、様々なタスクが連想的推論の度合いを必要とするため、忠実さと創造性の間に固有のトレードオフに直面している。
しかし、既存の手法では、この推論強度を調節する柔軟性が欠如しており、MLLMの適応性は現実的および創造的なシナリオで制限されている。
このギャップを埋めるために,連想推論を柔軟に制御する機構を備えたMLLMを提案する。
MLLMにおける連想行動の基礎となる内部メカニズムを考察し,(1)中間層が連想傾向を形成する上で重要な役割を担い,(2)これらの層における表現の修飾が連想的推論の強さを効果的に制御し,(3)幻覚を利用してこの変調を導出するステアリングベクトルを導出する。
これらの知見に基づいて,MLLMにおける連想行動を調整するための軽量でトレーニング不要なフレームワークFlexACを紹介した。
FlexACは、まず幻覚誘導中間表現を誘導し、連想方向を符号化する。
そして、高結合インスタンスを選択して効果的な連想ステアリングベクターを構築し、その強度を適応的に調整し、創造的なガイダンスと出力安定性のバランスをとる。
最後に、アソシエーション推論の多次元の性質を認識し、FlexACはフォワードパスから派生したタスク固有のアソシエイトベクトルをいくつかのターゲットドメインサンプルに組み込んで、モデルが多様なアソシエイト方向を辿り、創造的なタスクに適応できるようにする。
特に,Creation-MMBenchのクリエイティビティを最大5.8倍改善し,CHAIRの幻覚率を29%低減し,既存のベースラインを越え,MLLMにおける連想推論の柔軟な制御を可能にする効果を示した。
私たちのコードはhttps://github.com/ylhz/FlexAC.comで利用可能です。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.31926740841128]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - MoL-RL: Distilling Multi-Step Environmental Feedback into LLMs for Feedback-Independent Reasoning [3.486190892832845]
MoL-RLは、多段階EF信号を大規模言語モデルに統合する新しい訓練パラダイムである。
我々は,MoL-RLがQwen3-8Bモデルを用いて最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-07-27T13:52:15Z) - Reasoning and Behavioral Equilibria in LLM-Nash Games: From Mindsets to Actions [15.764094200832071]
LLM-Nashフレームワークは、エージェントが大言語モデル(LLM)を介して意思決定をガイドする推論プロンプトを選択するゲーム理論モデルである。
効用最大化エージェントを完全合理性で仮定する古典ゲームとは異なり、このフレームワークは推論過程を明示的にモデル化することによって有界合理性を取得する。
論文 参考訳(メタデータ) (2025-07-10T22:43:00Z) - Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment [15.51412479114864]
クロスモーダル表現学習を導く新しいフレームワークであるMAPLE(Modality-Aligned Preference Learning for Embeddings)を紹介する。
MaPLEは、学習過程を強化学習として定式化し、既成のMLLMを用いた自動選好データ構築と、新たなRPA(Relative Preference Alignment)損失という2つの重要な要素を定式化している。
実験結果から,我々の嗜好誘導アライメントは細粒度クロスモーダル検索において著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-08T02:33:35Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - User-Controlled Knowledge Fusion in Large Language Models: Balancing
Creativity and Hallucination [5.046007553593371]
大規模言語モデル(LLM)は多様な、関連性があり、創造的な応答を生成する。
LLMの想像力と事実情報への固執のバランスを取ることは重要な課題である。
本稿では,LLMの想像能力と現実情報への忠実さのバランスを調節する,革新的なユーザ制御機構を提案する。
論文 参考訳(メタデータ) (2023-07-30T06:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。