論文の概要: ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension
- arxiv url: http://arxiv.org/abs/2406.11327v2
- Date: Thu, 23 Jan 2025 14:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:43:28.627647
- Title: ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension
- Title(参考訳): ClawMachine: 参照理解のためのビジュアルトークンのフェッチを学ぶ
- Authors: Tianren Ma, Lingxi Xie, Yunjie Tian, Boyu Yang, Qixiang Ye,
- Abstract要約: 我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 71.03445074045092
- License:
- Abstract: Aligning vision and language concepts at a finer level remains an essential topic of multimodal large language models (MLLMs), particularly for tasks such as referring and grounding. Existing methods, such as proxy encoding and geometry encoding, incorporate additional syntax to encode spatial information, imposing extra burdens when communicating between language and vision modules. In this study, we propose ClawMachine, offering a new methodology that explicitly notates each entity using token collectives groups of visual tokens that collaboratively represent higher level semantics. A hybrid perception mechanism is also explored to perceive and understand scenes from both discrete and continuous spaces. Our method unifies the prompt and answer of visual referential tasks without using additional syntax. By leveraging a joint vision-language vocabulary, ClawMachine further integrates referring and grounding in an auto-regressive manner, demonstrating great potential with scaled-up pre-training data. Experiments show that ClawMachine achieves superior performance on scene-level and referential understanding tasks with higher efficiency. It also exhibits the potential to integrate multi-source information for complex visual reasoning, which is beyond the capability of many MLLMs. Our code is available at github.com/martian422/ClawMachine.
- Abstract(参考訳): 視覚と言語の概念をより細かいレベルで調整することは、特に参照や接地といったタスクにおいて、マルチモーダルな大規模言語モデル(MLLM)の重要なトピックである。
プロキシエンコーディングや幾何エンコーディングといった既存の手法では、空間情報をエンコードするための追加構文が組み込まれており、言語と視覚モジュール間の通信において余分な負担が課される。
本研究では,より高度な意味論を協調的に表現する視覚トークン群からなるトークン集合を用いて,各エンティティに明示的に通知する手法を提案する。
ハイブリッド認識機構は、離散空間と連続空間の両方からシーンを知覚し、理解するためにも研究される。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
共同視覚言語語彙を活用することで、ClawMachineはさらに参照とグラウンドを自動回帰的に統合し、スケールアップ事前トレーニングデータで大きなポテンシャルを示す。
実験の結果,ClawMachineはシーンレベルおよび参照理解タスクにおいて高い効率で優れた性能を発揮することが示された。
また、複雑な視覚的推論のためのマルチソース情報を統合する可能性も示しており、これは多くのMLLMの能力を超えている。
私たちのコードはgithub.com/martian422/ClawMachineで利用可能です。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [26.24115839983423]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Spoken Language Understanding for Conversational AI: Recent Advances and
Future Direction [5.829344935864271]
本チュートリアルでは,Spoken Language Understanding/Natural Language Understanding (SLU/NLU) とDeep Learning技術を紹介する。
本稿では,最新のNLPおよびDeep Learning技術を用いて共同作業に対処する方法について述べる。
論文 参考訳(メタデータ) (2022-12-21T02:47:52Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。