Fugu-MT 論文翻訳(概要): Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning

論文の概要: Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning

arxiv url: http://arxiv.org/abs/2411.10252v1
Date: Fri, 15 Nov 2024 15:02:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.095119
Title: Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning
Title（参考訳）: 視覚言語エージェント:協調的文脈オブジェクト推論を目指して
Authors: Jingru Yang, Huan Yu, Yang Jingxin, Chentianye Xu, Yin Biao, Yu Sun, Shengfeng He,
Abstract要約: Visual-Linguistic Agent (VLA)は、MLLMのリレーショナル推論強度と従来の物体検出器の正確な位置決め能力を組み合わせた協調的なフレームワークである。 VLAは空間的推論とオブジェクトローカライゼーションの両方を強化し、マルチモーダル理解における重要な課題に対処する。
参考スコア（独自算出の注目度）: 26.35257570870916
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) excel at descriptive tasks within images but often struggle with precise object localization, a critical element for reliable visual interpretation. In contrast, traditional object detection models provide high localization accuracy but frequently generate detections lacking contextual coherence due to limited modeling of inter-object relationships. To address this fundamental limitation, we introduce the \textbf{Visual-Linguistic Agent (VLA), a collaborative framework that combines the relational reasoning strengths of MLLMs with the precise localization capabilities of traditional object detectors. In the VLA paradigm, the MLLM serves as a central Linguistic Agent, working collaboratively with specialized Vision Agents for object detection and classification. The Linguistic Agent evaluates and refines detections by reasoning over spatial and contextual relationships among objects, while the classification Vision Agent offers corrective feedback to improve classification accuracy. This collaborative approach enables VLA to significantly enhance both spatial reasoning and object localization, addressing key challenges in multimodal understanding. Extensive evaluations on the COCO dataset demonstrate substantial performance improvements across multiple detection models, highlighting VLA's potential to set a new benchmark in accurate and contextually coherent object detection.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は画像内の記述的タスクに優れるが、正確なオブジェクトのローカライゼーションに苦慮することが多い。対照的に、従来のオブジェクト検出モデルは、高い位置決め精度を提供するが、オブジェクト間の関係のモデリングが限定されているため、コンテキストコヒーレンスに欠ける検出を頻繁に生成する。この基本的な制限に対処するため、従来の物体検出器の正確な位置決め機能とMLLMの相関推論強度を組み合わせた協調的フレームワークである「textbf{Visual-Linguistic Agent (VLA)」を導入する。 VLAパラダイムでは、MLLMは中央言語エージェントとして機能し、オブジェクトの検出と分類のために専門の視覚エージェントと連携する。言語エージェントは、オブジェクト間の空間的および文脈的関係を推論して検出を評価し、洗練する一方、視覚エージェントは、分類精度を改善するための補正フィードバックを提供する。この協調的なアプローチにより、VLAは空間的推論とオブジェクトローカライゼーションの両方を大幅に強化し、マルチモーダル理解における重要な課題に対処することができる。 COCOデータセットの大規模な評価は、複数の検出モデル間で大幅なパフォーマンス向上を示し、VLAが正確でコンテキストに整合したオブジェクト検出で新しいベンチマークを設定する可能性を強調している。

関連論文リスト

Vision-Language Models Struggle to Align Entities across Modalities [13.100184125419695]
クロスモーダルなエンティティリンクは、マルチモーダルコード生成のような現実世界のアプリケーションに必要な基本的なスキルである。我々のベンチマークであるMATEは5.5kの評価インスタンスで構成されており、視覚シーンはテキスト表現と一致している。現状のビジョン・ランゲージ・モデル(VLM)と人間をこの課題で評価し,VLMが人間と比べ有意に苦労していることを見いだした。
論文参考訳（メタデータ） (2025-03-05T19:36:43Z)
Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD) メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2025-02-23T06:59:22Z)
VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis [8.676256316312877]
対象物間相互作用(HOI)検出タスク(bfVLM-HOI)の目的関数形式としてVLMを明示的に活用する新しい手法を提案する。 VLMの言語理解を十分に活用するために言語的にHOI三重項を表現し、その局所化とオブジェクト中心の性質からCLIPモデルよりも適している。提案手法の有効性を実証し,ベンチマーク上での最先端HOI検出精度を実現する。
論文参考訳（メタデータ） (2024-11-27T04:13:23Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Integrating Object Detection Modality into Visual Language Model for Enhanced Autonomous Driving Agent [8.212818176634116]
我々は,YOLOSに基づく検出ネットワークをCLIP認識ネットワークと組み合わせることで,Llama-Adapterアーキテクチャを拡張した。本手法では, 総合的な環境認識に欠かせないマルチビュー処理を改善するために, カメラIDセパレータを導入している。
論文参考訳（メタデータ） (2024-11-08T15:50:30Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。 CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文参考訳（メタデータ） (2024-07-31T08:42:48Z)
OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文参考訳（メタデータ） (2024-06-02T21:36:31Z)
Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。 MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文参考訳（メタデータ） (2024-03-24T15:10:22Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Weakly-Supervised HOI Detection from Interaction Labels Only and Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文参考訳（メタデータ） (2023-03-09T19:08:02Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Exploiting Multi-Object Relationships for Detecting Adversarial Attacks in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文参考訳（メタデータ） (2021-08-19T00:52:10Z)
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。 RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文参考訳（メタデータ） (2020-09-10T16:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。