論文の概要: MMAPG: A Training-Free Framework for Multimodal Multi-hop Question Answering via Adaptive Planning Graphs
- arxiv url: http://arxiv.org/abs/2508.16051v1
- Date: Fri, 22 Aug 2025 02:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.231989
- Title: MMAPG: A Training-Free Framework for Multimodal Multi-hop Question Answering via Adaptive Planning Graphs
- Title(参考訳): MMAPG:アダプティブプランニンググラフによるマルチモーダルマルチホップ質問応答のための学習自由フレームワーク
- Authors: Yiheng Hu, Xiaoyang Wang, Qing Liu, Xiwei Xu, Qian Fu, Wenjie Zhang, Liming Zhu,
- Abstract要約: マルチモーダルな質問応答は、画像やテキストなどの様々なソースからの情報を統合して答えを導き出す必要がある。
既存の方法は典型的にはシーケンシャルな検索と推論に依存し、各ステップは前の出力に基づいて構築される。
本稿では,計画,検索,推論モジュールからなる適応計画グラフによってガイドされる学習自由フレームワークを提案する。
提案手法は,タスク固有のトレーニングを犠牲にすることなく,マルチモーダル情報の特徴を保存し,最新のモデルとのシームレスな統合を可能にする。
- 参考スコア(独自算出の注目度): 20.03107299445341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Multi-hop question answering requires integrating information from diverse sources, such as images and texts, to derive answers. Existing methods typically rely on sequential retrieval and reasoning, where each step builds on the previous output. However, this single-path paradigm makes them vulnerable to errors due to misleading intermediate steps. Moreover, developing multimodal models can be computationally expensive, often requiring extensive training. To address these limitations, we propose a training-free framework guided by an Adaptive Planning Graph, which consists of planning, retrieval and reasoning modules. The planning module analyzes the current state of the Adaptive Planning Graph, determines the next action and where to expand the graph, which enables dynamic and flexible exploration of reasoning paths. To handle retrieval of text to unspecified target modalities, we devise modality-specific strategies that dynamically adapt to distinct data types. Our approach preserves the characteristics of multimodal information without costly task-specific training, enabling seamless integration with up-to-date models. Finally, the experiments on MultimodalQA and WebQA show that our approach matches or outperforms existing models that rely on training.
- Abstract(参考訳): マルチモーダルなマルチホップ質問応答では、画像やテキストなどの様々なソースからの情報を統合して答えを導出する必要がある。
既存の方法は典型的にはシーケンシャルな検索と推論に依存し、各ステップは前の出力に基づいて構築される。
しかし、このシングルパスパラダイムは、中間ステップを誤解させる原因でエラーに弱い。
さらに、マルチモーダルモデルの開発には計算コストがかかるため、大規模なトレーニングが必要となることが多い。
これらの制約に対処するため、我々はアダプティブプランニンググラフ(Adaptive Planning Graph)によってガイドされる、計画、検索、推論モジュールからなるトレーニングフリーフレームワークを提案する。
計画モジュールは、アダプティブプランニンググラフの現在の状態を分析し、次のアクションとグラフの拡張場所を決定し、推論パスの動的かつ柔軟な探索を可能にする。
そこで本研究では,不特定対象モダリティに対するテキストの検索を扱うために,異なるデータタイプに動的に適応するモダリティ固有の戦略を考案する。
提案手法は,タスク固有のトレーニングを犠牲にすることなく,マルチモーダル情報の特徴を保存し,最新のモデルとのシームレスな統合を可能にする。
最後に、MultimodalQAとWebQAの実験は、我々のアプローチがトレーニングに依存している既存のモデルと一致しているか、または性能を上回っていることを示している。
関連論文リスト
- Multimodal RAG Enhanced Visual Description [3.2771631221674333]
事前訓練された大型マルチモーダルモデル(LMM)は、テキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。
本稿では,RAG(Retrieval-Augmented Generation)を利用した軽量な学習自由アプローチを提案する。
2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-08-06T19:04:38Z) - Anomaly Detection in Smart Power Grids with Graph-Regularized MS-SVDD: a Multimodal Subspace Learning Approach [14.794452134569474]
マルチモーダル部分空間支援ベクトルデータ記述(MS-SVDD)を用いたスマートパワーグリッドの異常検出問題に対処する。
このアプローチは、異なるモダリティから来るデータを考慮して、より良い特徴関係を活用することを目的としている。
トレーニングプロセスを強化するために、各モーダルにグラフ情報を利用する新しいマルチモーダルグラフ埋め込み正規化器を導入する。
論文 参考訳(メタデータ) (2025-02-18T16:47:54Z) - Multimodal Multihop Source Retrieval for Web Question Answering [0.0]
この研究はマルチモーダルなマルチホップ質問応答(QA)に対する学習と推論の課題を扱う。
文の意味構造に基づくグラフ推論ネットワークを提案し,多元的推論経路を学習する。
論文 参考訳(メタデータ) (2025-01-07T22:53:56Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - A Survey of Graph Prompting Methods: Techniques, Applications, and
Challenges [25.32529044997131]
ラベル付きデータに制限のある一般化可能なモデルを学習する手段として,「事前訓練,プロンプト,予測訓練」が人気を集めている。
複雑なタスクにおいて、プロンプトの設計は困難で時間を要するプロセスになり得る。
この調査は、将来の方法論開発を促進するために、グラフと設計の間のギャップを埋める。
論文 参考訳(メタデータ) (2023-03-13T16:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。