論文の概要: Re-Aligning Language to Visual Objects with an Agentic Workflow
- arxiv url: http://arxiv.org/abs/2503.23508v1
- Date: Sun, 30 Mar 2025 16:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.156831
- Title: Re-Aligning Language to Visual Objects with an Agentic Workflow
- Title(参考訳): エージェントワークフローによる言語から視覚オブジェクトへの変換
- Authors: Yuming Chen, Jiangyan Feng, Haodong Zhang, Lijun Gong, Feng Zhu, Rui Zhao, Qibin Hou, Ming-Ming Cheng, Yibing Song,
- Abstract要約: 言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
- 参考スコア(独自算出の注目度): 73.73778652260911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-based object detection (LOD) aims to align visual objects with language expressions. A large amount of paired data is utilized to improve LOD model generalizations. During the training process, recent studies leverage vision-language models (VLMs) to automatically generate human-like expressions for visual objects, facilitating training data scaling up. In this process, we observe that VLM hallucinations bring inaccurate object descriptions (e.g., object name, color, and shape) to deteriorate VL alignment quality. To reduce VLM hallucinations, we propose an agentic workflow controlled by an LLM to re-align language to visual objects via adaptively adjusting image and text prompts. We name this workflow Real-LOD, which includes planning, tool use, and reflection steps. Given an image with detected objects and VLM raw language expressions, Real-LOD reasons its state automatically and arranges action based on our neural symbolic designs (i.e., planning). The action will adaptively adjust the image and text prompts and send them to VLMs for object re-description (i.e., tool use). Then, we use another LLM to analyze these refined expressions for feedback (i.e., reflection). These steps are conducted in a cyclic form to gradually improve language descriptions for re-aligning to visual objects. We construct a dataset that contains a tiny amount of 0.18M images with re-aligned language expression and train a prevalent LOD model to surpass existing LOD methods by around 50% on the standard benchmarks. Our Real-LOD workflow, with automatic VL refinement, reveals a potential to preserve data quality along with scaling up data quantity, which further improves LOD performance from a data-alignment perspective.
- Abstract(参考訳): 言語に基づくオブジェクト検出(LOD)は、視覚オブジェクトを言語表現に合わせることを目的としている。
大量のペアデータを用いてLODモデルの一般化を改善する。
トレーニング過程において、近年の研究は視覚言語モデル(VLM)を活用して視覚オブジェクトのための人間のような表現を自動的に生成し、トレーニングデータのスケールアップを容易にする。
この過程で、VLM幻覚は、不正確なオブジェクト記述(例えば、オブジェクト名、色、形状)をもたらし、VLアライメントの品質を低下させる。
VLMの幻覚を軽減するために,画像とテキストのプロンプトを適応的に調整することで視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
このワークフローには、計画、ツールの使用、リフレクションステップが含まれています。
検出されたオブジェクトとVLMの生の言語表現を持つ画像が与えられた場合、Real-LODはその状態を自動的に理由付け、私たちのニューラルシンボリックデザイン(つまり計画)に基づいてアクションをアレンジする。
アクションは、画像とテキストのプロンプトを適応的に調整し、オブジェクトの再記述(つまりツールの使用)のためにVLMに送信する。
次に、別のLLMを用いて、これらの洗練された表現をフィードバック(リフレクション)として分析する。
これらのステップは、視覚オブジェクトに再適応するための言語記述を徐々に改善するために、循環形式で実行される。
我々は,言語表現が整合した少数の0.18M画像を含むデータセットを構築し,標準ベンチマークで既存のLODメソッドを約50%超えるように,一般的なLODモデルを訓練する。
我々のReal-LODワークフローは、自動VLリファインメントにより、データ量のスケールアップとともにデータ品質を維持する可能性を明らかにし、データアライメントの観点からLODのパフォーマンスをさらに向上します。
関連論文リスト
- OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-09-17T13:02:19Z) - Do Pre-trained Vision-Language Models Encode Object States? [13.4206464539947]
視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。
コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。
オブジェクト状態のエンコードを改善するための3つの領域を同定する。
論文 参考訳(メタデータ) (2024-09-16T17:22:18Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。