論文の概要: OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad
- arxiv url: http://arxiv.org/abs/2503.18695v1
- Date: Mon, 24 Mar 2025 14:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:48.576280
- Title: OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad
- Title(参考訳): OCRT: オブジェクト指向リレーショナルトライアドによるオープンワールドのファンデーションモデル強化
- Authors: Luyao Tang, Yuxuan Yuan, Chaoqi Chen, Zeyu Zhang, Yue Huang, Kun Zhang,
- Abstract要約: 我々は、FMが疎結合で高レベルな概念を抽出し、生の視覚的入力から複雑な関係構造を抽出できる新しいフレームワーク、Object-Concept-Relation Triad (OCRT)を提案する。
具体的には、オブジェクト中心の表現をセマンティックな概念空間に投影し、モデルが容易に解釈し、その重要性を推定し、無関係な要素をフィルタリングする。
具体的には、複数の下流タスクにおけるSAMとCLIPの一般化性と堅牢性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 22.358084538002327
- License:
- Abstract: Although foundation models (FMs) claim to be powerful, their generalization ability significantly decreases when faced with distribution shifts, weak supervision, or malicious attacks in the open world. On the other hand, most domain generalization or adversarial fine-tuning methods are task-related or model-specific, ignoring the universality in practical applications and the transferability between FMs. This paper delves into the problem of generalizing FMs to the out-of-domain data. We propose a novel framework, the Object-Concept-Relation Triad (OCRT), that enables FMs to extract sparse, high-level concepts and intricate relational structures from raw visual inputs. The key idea is to bind objects in visual scenes and a set of object-centric representations through unsupervised decoupling and iterative refinement. To be specific, we project the object-centric representations onto a semantic concept space that the model can readily interpret and estimate their importance to filter out irrelevant elements. Then, a concept-based graph, which has a flexible degree, is constructed to incorporate the set of concepts and their corresponding importance, enabling the extraction of high-order factors from informative concepts and facilitating relational reasoning among these concepts. Extensive experiments demonstrate that OCRT can substantially boost the generalizability and robustness of SAM and CLIP across multiple downstream tasks.
- Abstract(参考訳): 基礎モデル(FM)は強力であると主張するが、その一般化能力は、分散シフト、弱い監督、またはオープンワールドにおける悪意ある攻撃に直面すると著しく低下する。
一方、ほとんどの領域の一般化や逆さまの微調整法はタスク関連あるいはモデル特化であり、実践的応用における普遍性とFM間の転送可能性を無視している。
本稿では、FMを領域外データに一般化する問題を考察する。
我々は、FMが疎結合で高レベルな概念を抽出し、生の視覚的入力から複雑な関係構造を抽出できる新しいフレームワーク、Object-Concept-Relation Triad (OCRT)を提案する。
キーとなるアイデアは、視覚的なシーンにおけるオブジェクトと、教師なしの疎結合と反復的な洗練を通じて、オブジェクト中心の表現のセットを結合することである。
具体的には、オブジェクト中心の表現をセマンティックな概念空間に投影し、モデルが容易に解釈し、その重要性を推定し、無関係な要素をフィルタリングする。
次に,概念の集合とそれに対応する重要性を取り入れ,情報的概念から高次因子を抽出し,それらの概念間の関係推論を容易にするために,フレキシブルな度合いを持つ概念ベースグラフを構築した。
大規模な実験により、OCRTは複数の下流タスクにおけるSAMとCLIPの一般化性と堅牢性を大幅に向上させることができることが示された。
関連論文リスト
- ASCENT-ViT: Attention-based Scale-aware Concept Learning Framework for Enhanced Alignment in Vision Transformers [29.932706137805713]
ASCENT-ViTは、視覚変換器(ViT)のための注意に基づく概念学習フレームワークである。
マルチスケールの特徴ピラミッドとViTパッチの表現から、スケールと位置認識の表現をそれぞれ構成する。
標準的なViTバックボーンの上の分類ヘッドとして利用でき、予測性能を改善し、正確で堅牢な概念説明を行うことができる。
論文 参考訳(メタデータ) (2025-01-16T00:45:05Z) - Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスクに訓練されたRNNにおいて、これらの予測を実験的に検証し、連続的な誘引子の形で非絡み合った表現を学習する。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文 参考訳(メタデータ) (2024-07-15T21:32:58Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Concept-Centric Transformers: Enhancing Model Interpretability through
Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。
本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-25T06:37:39Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - Entity Concept-enhanced Few-shot Relation Extraction [35.10974511223129]
長尾分布問題において,FSRE (Few-shot relation extract) が重要である。
ほとんどの既存のFSREアルゴリズムは、認識されたエンティティペアと共に文の情報に基づいて関係を正確に分類することができない。
本稿では,エンティティ固有の概念を導入し,関係予測の手がかりを提供する,エンティティ強化型FEw-shot Relation extract scheme(ConceptFERE)を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。