Fugu-MT 論文翻訳(概要): Beyond Referring Expressions: Scenario Comprehension Visual Grounding

論文の概要: Beyond Referring Expressions: Scenario Comprehension Visual Grounding

arxiv url: http://arxiv.org/abs/2604.02323v1
Date: Thu, 02 Apr 2026 17:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.990766
Title: Beyond Referring Expressions: Scenario Comprehension Visual Grounding
Title（参考訳）: 表現の参照を超えて:シナリオ理解ビジュアルグラウンド
Authors: Ruozhen He, Nisarg A. Shah, Qihua Dong, Zilin Xiao, Jaywon Koo, Vicente Ordonez,
Abstract要約: 既存のベンチマークは、主に画像領域とリテラル参照表現のアライメントを評価する。シナリオベースの視覚的グラウンドの補完的かつより困難な設定について検討し、明確な命名ではなく、ターゲットを役割、意図、文脈から推論する必要がある。この設定のために設計されたベンチマークであるReferring Scenario(RSC)を紹介する。RCCには、約31kのトレーニング例、4kのドメイン内テスト例と、見えないオブジェクトカテゴリで分割された3kのアウト・オブ・ディストリビューションが含まれている。
参考スコア（独自算出の注目度）: 18.49037321302958
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Existing visual grounding benchmarks primarily evaluate alignment between image regions and literal referring expressions, where models can often succeed by matching a prominent named category. We explore a complementary and more challenging setting of scenario-based visual grounding, where the target must be inferred from roles, intentions, and relational context rather than explicit naming. We introduce Referring Scenario Comprehension (RSC), a benchmark designed for this setting. The queries in this benchmark are paragraph-length texts that describe object roles, user goals, and contextual cues, including deliberate references to distractor objects that often require deep understanding to resolve. Each instance is annotated with interpretable difficulty tags for uniqueness, clutter, size, overlap, and position which expose distinct failure modes and support fine-grained analysis. RSC contains approximately 31k training examples, 4k in-domain test examples, and a 3k out-of-distribution split with unseen object categories. We further propose ScenGround, a curriculum reasoning method serving as a reference point for this setting, combining supervised warm-starting with difficulty-aware reinforcement learning. Experiments show that scenario-based queries expose systematic failures in current models that standard benchmarks do not reveal, and that curriculum training improves performance on challenging slices and transfers to standard benchmarks.
Abstract（参考訳）: 既存のビジュアルグラウンドベンチマークは、主に画像領域とリテラル参照表現のアライメントを評価する。シナリオベースの視覚的グラウンドの補完的かつより困難な設定について検討し、明確な命名ではなく、目的を役割、意図、関係的な文脈から推論する必要がある。本稿では,この設定のために設計されたベンチマークであるReferring Scenario Comprehension (RSC)を紹介する。このベンチマークのクエリは、オブジェクトロール、ユーザゴール、コンテキストキューを記述した段落長のテキストである。各インスタンスには、独自の障害モードを示し、きめ細かい分析をサポートする、ユニークさ、クラッタ、サイズ、重複、位置の解釈可能な難易度タグがアノテートされている。 RSCには、約31kのトレーニング例、4kのドメイン内テスト例、不明なオブジェクトカテゴリで分割された3kのアウト・オブ・ディストリビューションが含まれている。さらに、この設定の基準点として機能するカリキュラム推論手法であるScenGroundを提案し、教師付きウォームスタートと難易度強化学習を組み合わせた。実験により、シナリオベースのクエリは、標準ベンチマークが明らかにしていない現在のモデルにおける体系的な障害を明らかにし、カリキュラムのトレーニングは、挑戦的なスライスと標準ベンチマークへの転送のパフォーマンスを改善することが示された。

関連論文リスト

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding [4.918510966192794]
本稿では,教師付き学習モデルとオープンボキャブラリ視覚モデルの比較評価を行った。 FloodNet+、RescueNet、DFire、LADDなど、複数のデータセットにわたるセマンティックセグメンテーションとオブジェクト検出に重点を置いています。評価されたベンチマークでもっとも注目すべき点は、教師付きトレーニングが最も信頼できるアプローチであることだ。
論文参考訳（メタデータ） (2026-03-01T23:50:08Z)
Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images [52.7196029918473]
リモートセンシングにおけるオープンボキャブラリオブジェクト検出は、テキストのみに依存してターゲットカテゴリを指定する。実際には、タスクやアプリケーション固有のカテゴリセマンティクスによって、リモートセンシングのシナリオでは、この仮定は分解されることが多い。テキストのみのプロンプト以外のカテゴリ仕様を再構成するマルチモーダルなオープン語彙検出フレームワークRS-MPODを提案する。
論文参考訳（メタデータ） (2026-02-02T11:03:01Z)
SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文参考訳（メタデータ） (2025-10-11T10:50:58Z)
Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。 COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文参考訳（メタデータ） (2025-08-06T13:11:40Z)
The Devil is in Fine-tuning and Long-tailed Problems:A New Benchmark for Scene Text Detection [2.4829769683482437]
シーンテキスト検出手法は、現実のシナリオでこのような成功を再現できないことが多い。この相違に寄与する2つの重要な要因を、広範な実験を通して明らかにした。本稿では,様々な長期課題に対処する能力を評価するために,Long-Tailed Benchmark (LTB)を提案する。
論文参考訳（メタデータ） (2025-05-21T15:26:46Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Generalized Few-Shot Semantic Segmentation in Remote Sensing: Challenge and Benchmark [18.636210870172675]
ほとんどショットのセマンティックセグメンテーションは、訓練中に見られない新しいクラスのラベル付き例から学ぶことをディープラーニングモデルに促す。一般化された数ショットセグメンテーション設定では、モデルが新しいクラスに適応するだけでなく、トレーニングベースクラスで強力なパフォーマンスを維持することを奨励する追加の課題がある。一般化された数ショット評価設定のためにラベル付けされた追加クラスを備えたOpenEarthMapの拡張データセットをリリースする。
論文参考訳（メタデータ） (2024-09-17T14:20:47Z)
Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-06T12:18:43Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。