論文の概要: OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows
- arxiv url: http://arxiv.org/abs/2602.04144v1
- Date: Wed, 04 Feb 2026 02:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.34148
- Title: OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows
- Title(参考訳): OMG-Agent: 疎結合なエージェントワークフローによるロバストな欠落モダリティ生成を目指して
- Authors: Ruiting Dai, Zheyu Wang, Haoyu Yang, Yihan Liu, Chengzhi Wang, Zekun Zhang, Zishan Huang, Jiaman Cen, Lisi Mo,
- Abstract要約: textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
- 参考スコア(独自算出の注目度): 9.617220633655716
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data incompleteness severely impedes the reliability of multimodal systems. Existing reconstruction methods face distinct bottlenecks: conventional parametric/generative models are prone to hallucinations due to over-reliance on internal memory, while retrieval-augmented frameworks struggle with retrieval rigidity. Critically, these end-to-end architectures are fundamentally constrained by Semantic-Detail Entanglement -- a structural conflict between logical reasoning and signal synthesis that compromises fidelity. In this paper, we present \textbf{\underline{O}}mni-\textbf{\underline{M}}odality \textbf{\underline{G}}eneration Agent (\textbf{OMG-Agent}), a novel framework that shifts the paradigm from static mapping to a dynamic coarse-to-fine Agentic Workflow. By mimicking a \textit{deliberate-then-act} cognitive process, OMG-Agent explicitly decouples the task into three synergistic stages: (1) an MLLM-driven Semantic Planner that resolves input ambiguity via Progressive Contextual Reasoning, creating a deterministic structured semantic plan; (2) a non-parametric Evidence Retriever that grounds abstract semantics in external knowledge; and (3) a Retrieval-Injected Executor that utilizes retrieved evidence as flexible feature prompts to overcome rigidity and synthesize high-fidelity details. Extensive experiments on multiple benchmarks demonstrate that OMG-Agent consistently surpasses state-of-the-art methods, maintaining robustness under extreme missingness, e.g., a $2.6$-point gain on CMU-MOSI at $70$\% missing rates.
- Abstract(参考訳): データ不完全性はマルチモーダルシステムの信頼性を著しく損なう。
従来のパラメトリック/生成モデルは、内部記憶の過度な信頼性によって幻覚を起こす傾向があり、一方、検索強化されたフレームワークは、復元剛性に苦しむ。
批判的に言えば、これらのエンドツーエンドアーキテクチャは基本的にセマンティック・ディテール・エンタングルメント(Semantic-Detail Entanglement)によって制約されている。
本稿では,静的なマッピングから動的粗いエージェントワークフローへパラダイムをシフトする新しいフレームワークである, {textbf{\underline{O}}mni-\textbf{\underline{M}}odality \textbf{\underline{G}}eneration Agent (\textbf{OMG-Agent})を提案する。
OMG-Agent は,(1) MLLM を駆動するセマンティックプランナーは,(1) プログレッシブ・コンテクスト・リ推論による入力あいまいさを解消し,決定論的構造的セマンティックプランを作成し,(2) 外部知識の抽象的セマンティックスを基盤とした非パラメトリック・エビデンス・レトリバー,(3) 検索されたエビデンスを柔軟な特徴として活用し,剛性を克服し,高忠実性の詳細を合成するレトリーバル・インジェクト・エクセクターの3つの相乗的段階に明確に分解する。
複数のベンチマークに関する大規模な実験は、OMG-Agentが最先端の手法を一貫して上回り、極端に欠落した状態で頑健さを維持することを示し、例えば、CMU-MOSIの2.6$ポイントの上昇を70$\%の損失率で示した。
関連論文リスト
- Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory [4.8183840404266185]
E-memは、メモリ前処理からエピソードコンテキスト再構成に移行するフレームワークである。
E-memは54%以上のF1を達成し、最先端のGAMを7.75%上回り、トークンコストを70%以上削減している。
論文 参考訳(メタデータ) (2026-01-29T13:42:42Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - PRISM: Purified Representation and Integrated Semantic Modeling for Generative Sequential Recommendation [28.629759086187352]
本稿では,PRISMとPureified RepresentationとIntegrated Semantic Modelingを組み合わせた新しい生成レコメンデーションフレームワークを提案する。
PRISMは4つの実世界のデータセットで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-23T08:50:16Z) - Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T03:29:18Z) - CAMF: Collaborative Adversarial Multi-agent Framework for Machine Generated Text Detection [16.113113157328662]
既存のゼロショット検出パラダイムは、しばしば重大な欠陥を示す。
マルチLLMエージェントを用いた新しいアーキテクチャである textbfCAMF を紹介する。
この構造化された協調的・敵対的プロセスは、非人間の起源を示す微妙でクロス次元のテキストの不一致の深い分析を可能にする。
論文 参考訳(メタデータ) (2025-08-16T06:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。