論文の概要: CauSight: Learning to Supersense for Visual Causal Discovery
- arxiv url: http://arxiv.org/abs/2512.01827v1
- Date: Mon, 01 Dec 2025 16:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.94733
- Title: CauSight: Learning to Supersense for Visual Causal Discovery
- Title(参考訳): CauSight: 視覚因果発見のためのスーパーセンスを学ぶ
- Authors: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu,
- Abstract要約: 現代AIシステムにおける視覚因果発見の課題を紹介する。
まず、エンティティレベルの因果グラフを付加した32,000以上の画像の大規模なコレクションである、Visual Causal Graphデータセット(VCG-32K)を構築した。
我々はさらに、因果認識推論により視覚因果発見を行う新しい視覚言語モデルであるCauSightを開発した。
- 参考スコア(独自算出の注目度): 28.328029926321616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.
- Abstract(参考訳): 因果的思考は、人間が目に見えるものだけでなく、それがなぜ起こるのかを理解できるようにする。
現代のAIシステムでこの機能を再現するために、視覚因果発見のタスクを導入する。
それは、単にその存在を知覚するのではなく、様々なシナリオで視覚的実体間の因果関係を推測するモデルを必要とする。
そこで我々はまず,エンティティレベルの因果グラフを付加した32,000以上の画像の大規模コレクションであるVisual Causal Graph データセット (VCG-32K) を構築し,因果的推論による視覚因果探索を行う新しい視覚言語モデル CauSight を開発した。
本稿では,(1)VCG-32Kからのトレーニングデータキュレーション,(2)推論軌道の合成のためのToCT,(3)推論ポリシーを洗練させるために設計された因果報酬を用いた強化学習の3つの要素を統合する。
実験の結果、CauSightは視覚因果発見においてGPT-4.1を上回っ、3倍のパフォーマンス向上(21%の絶対ゲイン)を達成した。
私たちのコード、モデル、データセットは、プロジェクトページで完全にオープンソース化されています。
関連論文リスト
- BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning [109.84783476090028]
我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。
スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。
微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
論文 参考訳(メタデータ) (2025-07-22T16:35:36Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - CAUSAL3D: A Comprehensive Benchmark for Causal Learning from Visual Data [12.103564519719525]
我々は、構造化されたデータ(テーブル)と対応する視覚表現(画像)を統合する新しいベンチマークであるtextsctextbfCausal3Dを導入し、因果推論を評価する。
Causal3Dは、多様な因果関係、ビュー、背景をキャプチャする19の3Dシーンデータセットで構成されている。
論文 参考訳(メタデータ) (2025-03-06T03:40:01Z) - Causal Discovery in Recommender Systems: Example and Discussion [3.013819656993265]
因果関係は人工知能と機械学習のコミュニティから注目を集めている。
本稿では,因果グラフを用いたレコメンデータシステム問題のモデル化例を示す。
論文 参考訳(メタデータ) (2024-09-16T13:31:04Z) - CELLO: Causal Evaluation of Large Vision-Language Models [9.928321287432365]
因果推論は人間の知性の基本であり、現実世界の環境における効果的な意思決定に不可欠である。
我々は,人間と物体の相互作用を含む因果関係の微細で統一的な定義を導入する。
我々は,4段階の因果関係に関する14,094の因果関係質問からなる新しいデータセットであるCellOを構築した。
論文 参考訳(メタデータ) (2024-06-27T12:34:52Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。