論文の概要: LINA: Learning INterventions Adaptively for Physical Alignment and Generalization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.13290v1
- Date: Mon, 15 Dec 2025 12:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.667794
- Title: LINA: Learning INterventions Adaptively for Physical Alignment and Generalization in Diffusion Models
- Title(参考訳): LINA:拡散モデルにおける物理的アライメントと一般化を適応的に学習する
- Authors: Shu Yu, Chaochao Lu,
- Abstract要約: 拡散モデル(DM)は画像およびビデオ生成において顕著な成功を収めた。
しかし、(1)物理的アライメントと(2)アウト・オブ・ディストリビューション(OOD)命令に苦戦している。
これらの問題は、モデルが因果方向を学習し、新しい組み換えのための因果的要因を解き放つことに起因している、と我々は主張する。
本稿では,迅速な介入を予測する新しいフレームワークLINAを紹介する。
- 参考スコア(独自算出の注目度): 19.37375277387649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have achieved remarkable success in image and video generation. However, they still struggle with (1) physical alignment and (2) out-of-distribution (OOD) instruction following. We argue that these issues stem from the models' failure to learn causal directions and to disentangle causal factors for novel recombination. We introduce the Causal Scene Graph (CSG) and the Physical Alignment Probe (PAP) dataset to enable diagnostic interventions. This analysis yields three key insights. First, DMs struggle with multi-hop reasoning for elements not explicitly determined in the prompt. Second, the prompt embedding contains disentangled representations for texture and physics. Third, visual causal structure is disproportionately established during the initial, computationally limited denoising steps. Based on these findings, we introduce LINA (Learning INterventions Adaptively), a novel framework that learns to predict prompt-specific interventions, which employs (1) targeted guidance in the prompt and visual latent spaces, and (2) a reallocated, causality-aware denoising schedule. Our approach enforces both physical alignment and OOD instruction following in image and video DMs, achieving state-of-the-art performance on challenging causal generation tasks and the Winoground dataset. Our project page is at https://opencausalab.github.io/LINA.
- Abstract(参考訳): 拡散モデル(DM)は画像およびビデオ生成において顕著な成功を収めた。
しかし、(1)物理的アライメントと(2)アウト・オブ・ディストリビューション(OOD)命令に苦戦している。
これらの問題は、モデルが因果方向を学習し、新しい組み換えのための因果的要因を解き放つことに起因している、と我々は主張する。
本稿では、診断介入を可能にするために、Causal Scene Graph(CSG)とPhysical Alignment Probe(PAP)データセットを紹介する。
この分析は3つの重要な洞察をもたらす。
第一に、DMはプロンプトで明示的に決定されていない要素のマルチホップ推論に苦労する。
第二に、プロンプト埋め込みはテクスチャと物理のための不整合表現を含む。
第3に、視覚因果構造は、計算的に制限された初期段階において不均等に確立される。
これらの知見に基づき, LINA (Learning Interventions Adaptively) を導入し, 1) 即発的および視覚的潜伏空間における目標誘導と(2) 再配置された因果認識型認知スケジュールを用いた, 即発的介入の予測を学習する新しいフレームワークを提案する。
提案手法は,画像およびビデオDMにおける物理アライメントとOODインストラクションの両方を適用し,因果生成課題とWinogroundデータセットに対する最先端のパフォーマンスを実現する。
プロジェクトページはhttps://opencausalab.github.io/LINA.orgにある。
関連論文リスト
- From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Causal Machine Learning: A Survey and Open Problems [33.76115961143128]
Causal Machine Learning (CausalML)は、データ生成過程を構造因果モデル(Structure causal model, SCM)として定式化する機械学習手法の略称である。
1) 因果関係の学習, (2) 因果関係の生成モデル, (3) 因果関係の説明, (4) 因果関係の公正性,(5) 因果関係の強化学習。
論文 参考訳(メタデータ) (2022-06-30T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。