論文の概要: LINA: Learning INterventions Adaptively for Physical Alignment and Generalization in Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.13290v1
- Date: Mon, 15 Dec 2025 12:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.667794
- Title: LINA: Learning INterventions Adaptively for Physical Alignment and Generalization in Diffusion Models
- Title(参考訳): LINA:拡散モデルにおける物理的アライメントと一般化を適応的に学習する
- Authors: Shu Yu, Chaochao Lu,
- Abstract要約: 拡散モデル(DM)は画像およびビデオ生成において顕著な成功を収めた。
しかし、(1)物理的アライメントと(2)アウト・オブ・ディストリビューション(OOD)命令に苦戦している。
これらの問題は、モデルが因果方向を学習し、新しい組み換えのための因果的要因を解き放つことに起因している、と我々は主張する。
本稿では,迅速な介入を予測する新しいフレームワークLINAを紹介する。
- 参考スコア(独自算出の注目度): 19.37375277387649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have achieved remarkable success in image and video generation. However, they still struggle with (1) physical alignment and (2) out-of-distribution (OOD) instruction following. We argue that these issues stem from the models' failure to learn causal directions and to disentangle causal factors for novel recombination. We introduce the Causal Scene Graph (CSG) and the Physical Alignment Probe (PAP) dataset to enable diagnostic interventions. This analysis yields three key insights. First, DMs struggle with multi-hop reasoning for elements not explicitly determined in the prompt. Second, the prompt embedding contains disentangled representations for texture and physics. Third, visual causal structure is disproportionately established during the initial, computationally limited denoising steps. Based on these findings, we introduce LINA (Learning INterventions Adaptively), a novel framework that learns to predict prompt-specific interventions, which employs (1) targeted guidance in the prompt and visual latent spaces, and (2) a reallocated, causality-aware denoising schedule. Our approach enforces both physical alignment and OOD instruction following in image and video DMs, achieving state-of-the-art performance on challenging causal generation tasks and the Winoground dataset. Our project page is at https://opencausalab.github.io/LINA.
- Abstract(参考訳): 拡散モデル(DM)は画像およびビデオ生成において顕著な成功を収めた。
しかし、(1)物理的アライメントと(2)アウト・オブ・ディストリビューション(OOD)命令に苦戦している。
これらの問題は、モデルが因果方向を学習し、新しい組み換えのための因果的要因を解き放つことに起因している、と我々は主張する。
本稿では、診断介入を可能にするために、Causal Scene Graph(CSG)とPhysical Alignment Probe(PAP)データセットを紹介する。
この分析は3つの重要な洞察をもたらす。
第一に、DMはプロンプトで明示的に決定されていない要素のマルチホップ推論に苦労する。
第二に、プロンプト埋め込みはテクスチャと物理のための不整合表現を含む。
第3に、視覚因果構造は、計算的に制限された初期段階において不均等に確立される。
これらの知見に基づき, LINA (Learning Interventions Adaptively) を導入し, 1) 即発的および視覚的潜伏空間における目標誘導と(2) 再配置された因果認識型認知スケジュールを用いた, 即発的介入の予測を学習する新しいフレームワークを提案する。
提案手法は,画像およびビデオDMにおける物理アライメントとOODインストラクションの両方を適用し,因果生成課題とWinogroundデータセットに対する最先端のパフォーマンスを実現する。
プロジェクトページはhttps://opencausalab.github.io/LINA.orgにある。
関連論文リスト
- Cross-Modal Dual-Causal Learning for Long-Term Action Recognition [0.0]
長期的行動認識(LTAR)は、複雑な原子的行動相関と視覚的共同創設者による時間的範囲の延長によって困難である。
本稿では,ビデオとラベルテキスト間の因果関係を明らかにするための構造因果モデルを提案する。
論文 参考訳(メタデータ) (2025-07-09T07:22:54Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Causal Machine Learning: A Survey and Open Problems [33.76115961143128]
Causal Machine Learning (CausalML)は、データ生成過程を構造因果モデル(Structure causal model, SCM)として定式化する機械学習手法の略称である。
1) 因果関係の学習, (2) 因果関係の生成モデル, (3) 因果関係の説明, (4) 因果関係の公正性,(5) 因果関係の強化学習。
論文 参考訳(メタデータ) (2022-06-30T17:59:15Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。