論文の概要: Chain of Questions: Guiding Multimodal Curiosity in Language Models
- arxiv url: http://arxiv.org/abs/2508.04350v1
- Date: Wed, 06 Aug 2025 11:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.698898
- Title: Chain of Questions: Guiding Multimodal Curiosity in Language Models
- Title(参考訳): 質問の連鎖:言語モデルにおけるマルチモーダル好奇心の指導
- Authors: Nima Iji, Kia Dashtipour,
- Abstract要約: 質問の連鎖 (Chain of Questions, CoQ) は好奇心を駆使した推論手法であり, マルチモーダル言語モデルにより, 周辺環境に関する対象とする質問を生成する。
我々は、WebGPT、ScienceQA、AVSD、ScanQAデータセットを統合した新しいマルチモーダルベンチマークデータセットについて、我々のフレームワークを評価する。
- 参考スコア(独自算出の注目度): 2.0180882714261568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-driven reasoning approach that encourages multimodal language models to dynamically generate targeted questions regarding their surroundings. These generated questions guide the model to selectively activate relevant modalities, thereby gathering critical information necessary for accurate reasoning and response generation. We evaluate our framework on a novel multimodal benchmark dataset, assembled by integrating WebGPT, ScienceQA, AVSD, and ScanQA datasets. Experimental results demonstrate that our CoQ method improves a foundation model's ability to effectively identify and integrate pertinent sensory information. This leads to improved accuracy, interpretability, and alignment of the reasoning process with diverse multimodal tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論能力は、チェーン・オブ・シントや明示的なステップ・バイ・ステップの説明のような手法によって大幅に進歩している。
しかし、これらの改善はマルチモーダル環境に完全に移行していないため、複雑な現実世界の環境と対話する際には、モデルが視覚、音声、空間知覚などの感覚的モダリティを積極的に決定する必要がある。
本稿では,マルチモーダル言語モデルに対して,対象とする質問を動的に生成する好奇心駆動型推論手法であるChain of Questions(CoQ)フレームワークを紹介する。
これらの質問は、モデルに対して、関連するモダリティを選択的に活性化させ、正確な推論と応答生成に必要な重要な情報を集めるように誘導する。
我々は、WebGPT、ScienceQA、AVSD、ScanQAデータセットを統合した新しいマルチモーダルベンチマークデータセットについて、我々のフレームワークを評価する。
実験結果から,本手法は知覚情報を効果的に識別し,統合する基礎モデルの能力を向上することが示された。
これにより、精度、解釈可能性、推論プロセスと多様なマルチモーダルタスクのアライメントが改善される。
関連論文リスト
- A Survey of Generative Categories and Techniques in Multimodal Large Language Models [3.7507324448128876]
MLLM(Multimodal Large Language Models)はテキスト生成を超えて急速に進化してきた。
本調査では,6つの主要な生成モダリティを分類し,基礎技術がクロスモーダル機能を実現する方法について検討する。
論文 参考訳(メタデータ) (2025-05-29T12:29:39Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - SDRT: Enhance Vision-Language Models by Self-Distillation with Diverse Reasoning Traces [11.462550020102935]
視覚言語モデルのための新しい自己蒸留フレームワークを提案する。
我々は、多様なコンテキスト内質問を生成するために、視覚的推論タスクに適したプロンプトライブラリを採用する。
次に,2段階の推論手法を用いて推論誘導応答を導出する。
これらの反応は自己蒸留に使用され、モデルが推論プロセスの内部化を可能にする。
論文 参考訳(メタデータ) (2025-03-03T17:24:42Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection [44.35734602609513]
大規模言語モデルを用いた多スペクトル歩行者検出におけるモダリティバイアスの軽減方法について検討する。
我々は,MSCoTプロンプトをマルチスペクトル歩行者検出に統合する新しいMSCoTDetフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-22T13:50:27Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。