論文の概要: Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2507.11761v1
- Date: Tue, 15 Jul 2025 21:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.162993
- Title: Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning
- Title(参考訳): Task-Specific Reasoningを超えて: 抽象的なビジュアル推論のための統一された条件生成フレームワーク
- Authors: Fan Shi, Bin Li, Xiangyang Xue,
- Abstract要約: 抽象視覚推論(AVR)は、抽象ルールを素早く発見し、新しいシナリオに一般化することを可能にする。
本稿では,統一フレームワークにおける複数のタスクに対処する,統一条件生成解法(UCGS)を提案する。
UCGSはゼロショット推論の能力を示しており、テストフェーズで目に見えないタスクから問題に対する抽象的推論を行うことができる。
- 参考スコア(独自算出の注目度): 52.107043437362556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract visual reasoning (AVR) enables humans to quickly discover and generalize abstract rules to new scenarios. Designing intelligent systems with human-like AVR abilities has been a long-standing topic in the artificial intelligence community. Deep AVR solvers have recently achieved remarkable success in various AVR tasks. However, they usually use task-specific designs or parameters in different tasks. In such a paradigm, solving new tasks often means retraining the model, and sometimes retuning the model architectures, which increases the cost of solving AVR problems. In contrast to task-specific approaches, this paper proposes a novel Unified Conditional Generative Solver (UCGS), aiming to address multiple AVR tasks in a unified framework. First, we prove that some well-known AVR tasks can be reformulated as the problem of estimating the predictability of target images in problem panels. Then, we illustrate that, under the proposed framework, training one conditional generative model can solve various AVR tasks. The experiments show that with a single round of multi-task training, UCGS demonstrates abstract reasoning ability across various AVR tasks. Especially, UCGS exhibits the ability of zero-shot reasoning, enabling it to perform abstract reasoning on problems from unseen AVR tasks in the testing phase.
- Abstract(参考訳): 抽象視覚推論(AVR)は、抽象ルールを素早く発見し、新しいシナリオに一般化することを可能にする。
人間のようなAVR能力を持つインテリジェントなシステムを設計することは、人工知能コミュニティにおいて長年の話題となっている。
ディープAVRソルバは最近、様々なAVRタスクで顕著な成功を収めた。
しかしながら、彼らは通常、異なるタスクでタスク固有の設計やパラメータを使用する。
このようなパラダイムでは、新しいタスクの解決は、しばしばモデルの再トレーニングを意味し、時にはモデルアーキテクチャを再調整することで、AVR問題を解決するコストが増大する。
本稿では,タスク固有のアプローチとは対照的に,複数のAVRタスクを統一フレームワークで処理することを目的とした,統一条件生成解法(UCGS)を提案する。
まず、問題パネルにおけるターゲット画像の予測可能性の予測問題として、よく知られたAVRタスクを再構築できることを実証する。
そして,提案手法を用いて,条件付き生成モデルの訓練により,様々なAVRタスクを解くことができることを示す。
実験の結果、UCGSはマルチタスクトレーニングの1ラウンドで、様々なAVRタスクにまたがる抽象推論能力を実証した。
特に、UCGSはゼロショット推論の能力を示しており、テストフェーズで目に見えないAVRタスクの問題を抽象推論することができる。
関連論文リスト
- Absolute Zero: Reinforced Self-play Reasoning with Zero Data [61.46462130246158]
検証可能な報奨付き強化学習(RLVR)は,大規模言語モデルの推論能力を高めることを約束している。
本稿では,AZR(Absolute Zero Reasoner)について紹介する。
AZRは、コーディングおよび数学的推論タスクにおける全体的なSOTA性能を達成し、既存のゼロセットモデルより優れている。
論文 参考訳(メタデータ) (2025-05-06T09:08:00Z) - On Data Synthesis and Post-training for Visual Abstract Reasoning [15.055924556135857]
我々は,LLaVANeXT 7Bモデルを用いて,特定の問題に対する認識と推論を行う。
これまでのほとんどのVLMは、代表ベンチマークでほとんどランダムなパフォーマンスを示しなかったため、これは素晴らしいブレークスルーです。
論文 参考訳(メタデータ) (2025-04-02T03:18:24Z) - DWIM: Towards Tool-aware Visual Reasoning via Discrepancy-aware Workflow Generation & Instruct-Masking Tuning [57.285435980459205]
構成的視覚的推論アプローチは、エンド・ツー・エンドのVR手法よりも効果的な戦略として期待されている。
DWIM: ツールの使用状況を評価し, より訓練に有効である抽出を行う, 離散性を考慮したトレーニング生成手法を提案する。
Instruct-Masking fine-tuning — モデルに効果的なアクションをクローンすることのみをガイドし、より実用的なソリューションの生成を可能にする。
論文 参考訳(メタデータ) (2025-03-25T01:57:59Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - A Unified View of Abstract Visual Reasoning Problems [0.0]
タスクの統一的なビューを導入し、各インスタンスは、パネルの数、場所、役割に関する前提のない単一のイメージとしてレンダリングされる。
統一された視点の主な利点は、様々なタスクに適用可能な普遍的な学習モデルを開発する能力である。
Raven's Progressive Matrices と Visual Analogy Problems の4つのデータセットで実施された実験は、提案されたタスクの統一表現が、最先端のディープラーニング(DL)モデルや、より広範に、現代のDL画像認識方法に挑戦していることを示している。
論文 参考訳(メタデータ) (2024-06-16T20:52:44Z) - One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。
提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。
実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文 参考訳(メタデータ) (2023-12-15T18:15:20Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - A Review of Emerging Research Directions in Abstract Visual Reasoning [0.0]
入力形態,隠蔽規則,目標課題,認知機能,主な課題の5次元に沿ってタスクを分類する分類法を提案する。
この調査で取り上げられた視点は、共有された異なる性質に関する問題を特徴づけることを可能にし、タスクを解くための既存のアプローチについて統一された視点を提供する。
そのうちの1つは、機械学習の文献において、異なるタスクが独立して検討されていることを示しており、これは人間の知性を測定するためにタスクが使用される方法とは対照的である。
論文 参考訳(メタデータ) (2022-02-21T14:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。