論文の概要: Integrating Multimodal Large Language Model Knowledge into Amodal Completion
- arxiv url: http://arxiv.org/abs/2603.28333v1
- Date: Mon, 30 Mar 2026 12:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.374237
- Title: Integrating Multimodal Large Language Model Knowledge into Amodal Completion
- Title(参考訳): マルチモーダル大言語モデルの知識をアモーダルコンプリートに統合する
- Authors: Heecheol Yun, Eunho Yang,
- Abstract要約: 画像中の人物や物体の隠蔽部分を再構築するアモーダル・コンプリートがますます重要になっている。
AmodalCGは,マルチモーダル言語モデル(MLLM)の現実的な知識を利用して,アモーダル補完を導くフレームワークである。
- 参考スコア(独自算出の注目度): 41.74937802823227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of autonomous vehicles and robotics, amodal completion, which reconstructs the occluded parts of people and objects in an image, has become increasingly crucial. Just as humans infer hidden regions based on prior experience and common sense, this task inherently requires physical knowledge about real-world entities. However, existing approaches either depend solely on the image generation ability of visual generative models, which lack such knowledge, or leverage it only during the segmentation stage, preventing it from explicitly guiding the completion process. To address this, we propose AmodalCG, a novel framework that harnesses the real-world knowledge of Multimodal Large Language Models (MLLMs) to guide amodal completion. Our framework first assesses the extent of occlusion to selectively invoke MLLM guidance only when the target object is heavily occluded. If guidance is required, the framework further incorporates MLLMs to reason about both the (1) extent and (2) content of the missing regions. Finally, a visual generative model integrates these guidance and iteratively refines imperfect completions that may arise from inaccurate MLLM guidance. Experimental results on various real-world images show impressive improvements compared to all existing works, suggesting MLLMs as a promising direction for addressing challenging amodal completion.
- Abstract(参考訳): 自動運転車やロボティクスの普及により、人や物体の隠された部分を画像に再構築するアモーダル・コンプリートがますます重要になっている。
人間が事前の経験と常識に基づいて隠れた領域を推論するのと同じように、このタスクは本質的に現実世界の実体に関する物理的な知識を必要とする。
しかし、既存のアプローチは、そのような知識が欠如している視覚生成モデルの画像生成能力にのみ依存するか、あるいはセグメンテーション段階でのみ利用することにより、完了プロセスを明示的に導くことを妨げている。
そこで本研究では,マルチモーダル大規模言語モデル(MLLM)の現実的な知識を活用して,アモーダル補完を導く新しいフレームワークであるAmodalCGを提案する。
本フレームワークは,まず,対象対象物が多用されている場合にのみ,MLLMガイダンスを選択的に実行するためのオクルージョンの程度を評価する。
ガイダンスが必要な場合、このフレームワークはさらにMLLMを組み込んで、(1)の範囲と(2)の欠落した領域の内容の両方を推論する。
最後に、視覚生成モデルがこれらのガイダンスを統合し、不正確なMLLMガイダンスから生じる可能性のある不完全な完了を反復的に洗練する。
実世界の様々な画像に対する実験結果から, MLLM がアモーダル完了に挑戦する上で有望な方向であることが示唆された。
関連論文リスト
- Bridging Perception and Language: A Systematic Benchmark for LVLMs' Understanding of Amodal Completion Reports [10.925743866700037]
本研究では,アモーダル完了に関連するテキストに基づいて,大規模視覚言語モデルの推論能力について検討する。
以上の結果から,LVLMは人間に比較可能な性能を全般的に達成するが,その精度は特定の種類のオブジェクトに対してばらつきが生じることが示唆された。
興味深いことに、この格差は日本語のプロンプトの下でのみ出現し、これらのモデルにおいて日本語固有の言語能力の欠如が示唆されている。
論文 参考訳(メタデータ) (2025-07-08T09:06:47Z) - Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。