論文の概要: Global and Local Entailment Learning for Natural World Imagery
- arxiv url: http://arxiv.org/abs/2506.21476v1
- Date: Thu, 26 Jun 2025 17:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.207242
- Title: Global and Local Entailment Learning for Natural World Imagery
- Title(参考訳): 自然界イメージのためのグローバル・ローカルエンターテイメント学習
- Authors: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs,
- Abstract要約: Radial Cross-Modal Embeddings (RCME) は、推移性強化エンテーメントの明示的なモデリングを可能にするフレームワークである。
生活樹の階層を表現できる階層的視覚言語基盤モデルを構築した。
- 参考スコア(独自算出の注目度): 7.874291189886743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning the hierarchical structure of data in vision-language models is a significant challenge. Previous works have attempted to address this challenge by employing entailment learning. However, these approaches fail to model the transitive nature of entailment explicitly, which establishes the relationship between order and semantics within a representation space. In this work, we introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the explicit modeling of transitivity-enforced entailment. Our proposed framework optimizes for the partial order of concepts within vision-language models. By leveraging our framework, we develop a hierarchical vision-language foundation model capable of representing the hierarchy in the Tree of Life. Our experiments on hierarchical species classification and hierarchical retrieval tasks demonstrate the enhanced performance of our models compared to the existing state-of-the-art models. Our code and models are open-sourced at https://vishu26.github.io/RCME/index.html.
- Abstract(参考訳): 視覚言語モデルでデータの階層構造を学ぶことは大きな課題である。
従来の研究は、エンテーメント・ラーニング(entailment learning)を採用することで、この問題に対処しようと試みてきた。
しかし、これらのアプローチは包含の推移的な性質を明示的にモデル化することができず、表現空間内の順序と意味論の関係を確立する。
本稿では,移動度強化エンテーメントの明示的なモデリングを可能にするフレームワークであるRadar Cross-Modal Embeddings (RCME)を紹介する。
提案するフレームワークは,視覚言語モデルにおける概念の部分順序を最適化する。
フレームワークを活用することで,生活の樹冠の階層を表現できる階層的視覚言語基盤モデルを構築した。
階層的種分類と階層的検索タスクに関する実験は、既存の最先端モデルと比較して、モデルの性能が向上したことを示す。
私たちのコードとモデルはhttps://vishu26.github.io/RCME/index.htmlでオープンソース化されています。
関連論文リスト
- Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。
提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。
提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文 参考訳(メタデータ) (2024-12-08T20:46:23Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。
既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。
この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Interpreting and Controlling Vision Foundation Models via Text
Explanations [45.30541722925515]
本稿では,視覚変換器の潜在トークンを自然言語で解釈するフレームワークを提案する。
我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順の理解を可能にする。
論文 参考訳(メタデータ) (2023-10-16T17:12:06Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。