論文の概要: MIRAGE: A Micro-Interaction Relational Architecture for Grounded Exploration in Multi-Figure Artworks
- arxiv url: http://arxiv.org/abs/2604.23788v1
- Date: Sun, 26 Apr 2026 16:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.549198
- Title: MIRAGE: A Micro-Interaction Relational Architecture for Grounded Exploration in Multi-Figure Artworks
- Title(参考訳): MIRAGE: マルチフィールドアートワークにおける地中探査のためのマイクロインタラクション関係アーキテクチャ
- Authors: Jui-Cheng Chiu, Yu-Chao Wang, Shengyang Luo, Tongyan Wang, Qi Yang, Nabin Khanal, Yingjie Victor Chen,
- Abstract要約: MIRAGEは,多機能アートワークにおける「マイクロインタラクション」の探索を足場として設計されたエビデンス中心のフレームワークである。
その結果、MIRAGEはアイデンティティの整合性を著しく改善し、関係幻覚を低減し、微妙な相互作用のカバレッジを増大させることがわかった。
- 参考スコア(独自算出の注目度): 9.397297838455238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Appreciating multi-figure paintings requires understanding how characters relate through subtle cues like gaze alignment, gesture, and spatial arrangement. We present MIRAGE, an evidence-centric framework designed to scaffold the exploration of these "micro-interactions" in multi-figure artworks. While such cues are essential for deep narrative appreciation, they are often distributed across complex scenes and difficult for viewers to systematically identify. Existing vision-language models (VLMs) frequently fail to provide reliable assistance, offering ungrounded interpretations that lack traceable visual evidence. MIRAGE addresses this by constructing a structured intermediate representation capturing identities, pose cues, and gaze hypotheses. However, the challenge extends beyond extracting these cues to coordinating them during interpretation. Without an explicit mechanism to organize and reconcile relational evidence, models often collapse multiple interaction hypotheses into a single unstable or weakly grounded narrative, even when low-level signals are available. This representation allows users to verify how high-level interpretations are anchored in low-level visual facts. By separating spatial grounding from narrative generation, MIRAGE enables users to inspect and reason about figure-to-figure relationships through a verifiable evidence layer. We evaluate MIRAGE against painting-only VLM baselines using a blind assessment protocol. Results show that MIRAGE significantly improves identity consistency, reduces relational hallucinations, and increases the coverage of subtle interactions. These findings suggest that structured grounding can serve as a critical interaction control layer, providing the necessary scaffolding for a more reliable, transparent, and human-led understanding of complex visual narratives.
- Abstract(参考訳): マルチフィギュア絵画の鑑賞には、視線アライメントやジェスチャー、空間的アレンジメントといった微妙な方法を通じて、文字がどのように関係しているかを理解する必要がある。
MIRAGE(エビデンス中心のフレームワーク)は、多機能アートワークにおけるこれらの「マイクロインタラクション」の探索を足場として設計されている。
このような手口は深い物語の鑑賞には不可欠であるが、複雑な場面に分散し、視聴者が体系的に識別することが困難であることが多い。
既存の視覚言語モデル(VLM)は、しばしば信頼できる補助を提供しず、追跡可能な視覚的証拠を欠く未解決の解釈を提供する。
MIRAGEは、アイデンティティをキャプチャし、キューをポーズし、仮説を見つめる構造化された中間表現を構築することで、この問題に対処する。
しかし、この課題は、解釈中にこれらを調整するためにこれらの手がかりを抽出することを超えて拡張される。
リレーショナルエビデンスを組織化し、調整するための明確なメカニズムがなければ、低レベル信号が利用可能であっても、モデルは複数の相互作用仮説を単一の不安定または弱い基底の物語に分解することが多い。
この表現により、ユーザーは低レベルの視覚的事実に高レベルの解釈がどのように固定されているかを検証することができる。
物語生成から空間的接地を分離することにより、MIRAGEは、検証されたエビデンス層を通じて、図形-図形関係の検査と推論を可能にする。
ブラインドアセスメントプロトコルを用いて,絵画のみのVLMベースラインに対するMIRAGEの評価を行った。
その結果、MIRAGEはアイデンティティの整合性を著しく改善し、関係幻覚を低減し、微妙な相互作用のカバレッジを増大させることがわかった。
これらの結果は、構造的接地が重要な相互作用制御層として機能し、より信頼性が高く透明で人間主導の複雑な視覚的物語理解に必要な足場を提供することを示唆している。
関連論文リスト
- Using Machine Mental Imagery for Representing Common Ground in Situated Dialogue [3.1039961644960186]
話し手は、共有コンテキストの信頼性のある表現を維持する必要がある。
現在の会話エージェントは、しばしばこの要件に苦しむ。
本稿では,対話状態を永続的な視覚履歴に変換するアクティブな視覚足場フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-22T23:15:42Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games [7.184720967960135]
マルチターンインタラクションにおける意図認識のための総合ベンチマークMISIDを紹介する。
ハイテイクなソーシャルストラテジーゲームから派生したMISIDは、長文の談話分析とエビデンスに基づく因果追跡に適した、きめ細かい2次元の多次元アノテーションスキームを特徴としている。
MISIDにおける最先端マルチモーダル言語モデル (MLLM) の体系的評価により, テキスト優先視覚幻覚, クロスモーダルシナジーの障害, 連鎖型因果的手がかりの制限など, 複雑なシナリオにおける重要な欠陥が明らかとなった。
論文 参考訳(メタデータ) (2026-04-14T13:07:54Z) - SceneAlign: Aligning Multimodal Reasoning to Scene Graphs in Complex Visual Scenes [69.03114625064282]
マルチモーダルな大きな言語モデルは、複雑な視覚シーンにおいて忠実な推論に苦しむことが多い。
既存の嗜好ベースのアプローチでは、モデルが視覚的グラウンドをバイパスするために言語事前を活用できるため、この課題に対処できない。
我々は,シーングラフを構造化視覚情報として活用し,制御可能な構造介入を行うフレームワークであるSceneAlignを提案する。
論文 参考訳(メタデータ) (2026-01-09T07:40:39Z) - Uncovering Grounding IDs: How External Cues Shape Multi-Modal Binding [8.918147502104603]
そこで本稿では,オブジェクトをモダリティを越えて指定したパーティションにバインドする外部キューによって誘導される潜在識別子であるグラウンディングIDの概念を提案する。
また, 接地IDは, 関連成分間の注意力を高め, それによって相互接地が向上し, 幻覚を減少させることを示した。
論文 参考訳(メタデータ) (2025-09-28T21:15:07Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding [10.787807888885888]
インタラクティブ・リレーション・アウェアによる弱教師付きアフォーダンス・グラウンドディング(INTRA)を提案する。
従来の芸術とは異なり、INTRAはこの問題を表現学習として再認識し、異中心画像のみとの対照的な学習を通じて相互作用のユニークな特徴を識別する。
提案手法はAGD20K, IIT-AFF, CAD, UMDなどの各種データセットにおいて先行技術より優れていた。
論文 参考訳(メタデータ) (2024-09-10T04:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。