Fugu-MT 論文翻訳(概要): Evaluating the Robustness of Open-Source Vision-Language Models to Domain Shift in Object Captioning

論文の概要: Evaluating the Robustness of Open-Source Vision-Language Models to Domain Shift in Object Captioning

arxiv url: http://arxiv.org/abs/2506.19579v2
Date: Tue, 16 Sep 2025 15:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 15:46:32.788128
Title: Evaluating the Robustness of Open-Source Vision-Language Models to Domain Shift in Object Captioning
Title（参考訳）: オープンソースビジョンランゲージモデルのオブジェクトキャプションにおけるドメインシフトに対するロバスト性の評価
Authors: Federico Tavella, Amber Drinkwater, Angelo Cangelosi,
Abstract要約: VLM(Vision-Language Models)は、視覚データからテキスト記述を生成する強力なツールとして登場した。本稿では,単視点オブジェクトキャプションタスクにおけるVLM性能の体系的評価について述べる。我々は,2つの異なるオブジェクトセットのキャプション精度を比較した。複数の素材,現実世界のツールの集合と,1つの素材,3Dプリントされたアイテムの集合である。
参考スコア（独自算出の注目度）: 4.180203626942459
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have emerged as powerful tools for generating textual descriptions from visual data. While these models excel on web-scale datasets, their robustness to the domain shifts inherent in many real-world applications remains under-explored. This paper presents a systematic evaluation of VLM performance on a single-view object captioning task when faced with a controlled, physical domain shift. We compare captioning accuracy across two distinct object sets: a collection of multi-material, real-world tools and a set of single-material, 3D-printed items. The 3D-printed set introduces a significant domain shift in texture and material properties, challenging the models' generalization capabilities. Our quantitative results demonstrate that all tested VLMs show a marked performance degradation when describing the 3D-printed objects compared to the real-world tools. This underscores a critical limitation in the ability of current models to generalize beyond surface-level features and highlights the need for more robust architectures for real-world signal processing applications.
Abstract（参考訳）: VLM(Vision-Language Models)は、視覚データからテキスト記述を生成する強力なツールとして登場した。これらのモデルはWebスケールのデータセットに優れていますが、多くの現実世界のアプリケーションに固有のドメインシフトに対する堅牢性は、まだ解明されていないままです。本稿では,制御された物理領域シフトに直面した単視点オブジェクトキャプションタスクにおいて,VLMの性能を体系的に評価する。我々は,2つの異なるオブジェクトセットのキャプション精度を比較した。複数の素材,現実世界のツールの集合と,1つの素材,3Dプリントされたアイテムの集合である。 3Dプリントセットはテクスチャと材料特性の大幅なドメインシフトを導入し、モデルの一般化能力に挑戦する。実物と比較すると, 実物と比較すると, 実物に3Dプリントした物体を記述する場合, 試験対象のVLMは顕著な性能低下を示した。このことは、現在のモデルが表面的な機能を超えて一般化する能力に重大な制限を課し、現実世界の信号処理アプリケーションのためのより堅牢なアーキテクチャの必要性を強調している。

関連論文リスト

Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。 VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文参考訳（メタデータ） (2025-06-25T16:40:17Z)
OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文参考訳（メタデータ） (2025-06-01T22:15:45Z)
Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文参考訳（メタデータ） (2025-04-22T17:38:01Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
LIV: Language-Image Representations and Rewards for Robotic Control [37.12560985663822]
テキストアノテーションを用いたアクションフリービデオから視覚言語表現と報酬学習の統一的な目的について述べる。我々はLIVを用いて、EpicKitchenのような大規模な人間のビデオデータセットから制御中心の視覚言語表現を事前学習する。本研究は,統合されたコンパクトなLIVフレームワークにおける共同視覚言語表現と報酬学習の利点を検証した。
論文参考訳（メタデータ） (2023-06-01T17:52:23Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文参考訳（メタデータ） (2023-02-13T15:18:27Z)
Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文参考訳（メタデータ） (2023-01-31T21:28:13Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。