Fugu-MT 論文翻訳(概要): ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding

論文の概要: ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding

arxiv url: http://arxiv.org/abs/2406.11327v1
Date: Mon, 17 Jun 2024 08:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 15:41:08.147390
Title: ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding
Title（参考訳）: ClawMachine: 参照とグラウンドのためのエンティティとしてビジュアルトークンをフェッチする
Authors: Tianren Ma, Lingxi Xie, Yunjie Tian, Boyu Yang, Yuan Zhang, David Doermann, Qixiang Ye,
Abstract要約: プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
参考スコア（独自算出の注目度）: 67.63933036920012
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An essential topic for multimodal large language models (MLLMs) is aligning vision and language concepts at a finer level. In particular, we devote efforts to encoding visual referential information for tasks such as referring and grounding. Existing methods, including proxy encoding and geometry encoding, incorporate additional syntax to encode the object's location, bringing extra burdens in training MLLMs to communicate between language and vision. This study presents ClawMachine, offering a new methodology that notates an entity directly using the visual tokens. It allows us to unify the prompt and answer of visual referential tasks without additional syntax. Upon a joint vision-language vocabulary, ClawMachine unifies visual referring and grounding into an auto-regressive format and learns with a decoder-only architecture. Experiments validate that our model achieves competitive performance across visual referring and grounding tasks with a reduced demand for training data. Additionally, ClawMachine demonstrates a native ability to integrate multi-source information for complex visual reasoning, which prior MLLMs can hardly perform without specific adaptions.
Abstract（参考訳）: マルチモーダルな大言語モデル(MLLM)にとって重要なトピックは、視覚と言語の概念をより細かいレベルで整列させることである。特に,参照や接地といったタスクにおいて,視覚的参照情報を符号化する努力を払っている。プロキシエンコーディングやジオメトリエンコーディングなどの既存の手法では、オブジェクトの位置をエンコードするための追加構文が組み込まれており、言語と視覚の間のコミュニケーションのためにMLLMを訓練する際の負担が増している。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。これにより、追加の構文を使わずに、視覚的参照タスクのプロンプトと応答を統一できます。 ClawMachineは視覚的参照とグラウンドを自動回帰形式に統一し、デコーダのみのアーキテクチャで学習する。実験により,学習データに対する需要が減少し,視覚的参照タスクと接地タスクの競合性能が向上することを確認した。さらにClawMachineは、複雑な視覚的推論のために複数のソース情報をネイティブに統合する能力を示している。

関連論文リスト

How Can Objects Help Video-Language Understanding? [16.63183488540909]
本稿では,任意のコンピュータビジョンアルゴリズムを利用して視覚表現を抽出・構造化するフレームワークであるObjectMLを紹介する。 6つのビデオ質問ベンチマークの広範な評価を通じて、対象中心表現の明示的な統合が依然として必要であることを確認した。意外なことに、連続的、構造化されたオブジェクト情報を定量化し、それらをプレーンテキストとして表現する単純なアプローチが最善である。
論文参考訳（メタデータ） (2025-04-10T04:59:28Z)
Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [21.500920290909843]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-18T09:44:25Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文参考訳（メタデータ） (2024-10-09T17:55:02Z)
Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文参考訳（メタデータ） (2024-09-05T08:47:34Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。 MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文参考訳（メタデータ） (2024-06-27T17:59:01Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Spoken Language Understanding for Conversational AI: Recent Advances and Future Direction [5.829344935864271]
本チュートリアルでは,Spoken Language Understanding/Natural Language Understanding (SLU/NLU) とDeep Learning技術を紹介する。本稿では,最新のNLPおよびDeep Learning技術を用いて共同作業に対処する方法について述べる。
論文参考訳（メタデータ） (2022-12-21T02:47:52Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。