論文の概要: $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations
- arxiv url: http://arxiv.org/abs/2403.04924v1
- Date: Thu, 7 Mar 2024 22:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:35:21.469056
- Title: $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations
- Title(参考訳): $\text{r}^2$-bench:摂動下における知覚モデルのロバスト性ベンチマーク
- Authors: Xiang Li, Kai Qiu, Jinglu Wang, Xiaohao Xu, Rita Singh, Kashu Yamazak,
Hao Chen, Xiaonan Huang, Bhiksha Raj
- Abstract要約: 摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
- 参考スコア(独自算出の注目度): 36.74309198908876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring perception, which aims at grounding visual objects with multimodal
referring guidance, is essential for bridging the gap between humans, who
provide instructions, and the environment where intelligent systems perceive.
Despite progress in this field, the robustness of referring perception models
(RPMs) against disruptive perturbations is not well explored. This work
thoroughly assesses the resilience of RPMs against various perturbations in
both general and specific contexts. Recognizing the complex nature of referring
perception tasks, we present a comprehensive taxonomy of perturbations, and
then develop a versatile toolbox for synthesizing and evaluating the effects of
composite disturbances. Employing this toolbox, we construct
$\text{R}^2$-Bench, a benchmark for assessing the Robustness of Referring
perception models under noisy conditions across five key tasks. Moreover, we
propose the $\text{R}^2$-Agent, an LLM-based agent that simplifies and
automates model evaluation via natural language instructions. Our investigation
uncovers the vulnerabilities of current RPMs to various perturbations and
provides tools for assessing model robustness, potentially promoting the safe
and resilient integration of intelligent systems into complex real-world
scenarios.
- Abstract(参考訳): 視覚オブジェクトをマルチモーダル参照誘導で接地することを目的とした参照認識は、指示を提供する人間と知的システムが知覚する環境とのギャップを埋めるのに不可欠である。
この分野での進歩にもかかわらず、破壊的摂動に対する参照知覚モデル(RPM)の堅牢性は十分に研究されていない。
この研究は、一般および特定の文脈における様々な摂動に対するRPMのレジリエンスを徹底的に評価する。
知覚課題を参照する複雑な性質を認識し,摂動の包括的分類法を提案し,複合外乱の効果を合成評価するための汎用ツールボックスを開発した。
このツールボックスを用いて,5つのタスクのノイズ条件下での知覚モデルのロバスト性を評価するベンチマークである$\text{R}^2$-Benchを構築する。
さらに,自然言語命令によるモデル評価を単純化し,自動化するllmベースのエージェントである$\text{r}^2$-agentを提案する。
今回の調査は、現在のrpmの脆弱性をさまざまな摂動に明らかにし、モデルの堅牢性を評価するツールを提供し、インテリジェントシステムの複雑な現実シナリオへの安全で回復力のある統合を促進する。
関連論文リスト
- Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - From Perfect to Noisy World Simulation: Customizable Embodied Multi-modal Perturbations for SLAM Robustness Benchmarking [32.52171076424419]
エンボディードエージェントは、非構造環境で運用するために堅牢なナビゲーションシステムを必要とする。
ノイズの多いデータ合成のための,新しい,カスタマイズ可能なパイプラインを提案する。
我々はニューラル(NeRF)モデルと非ニューラルSLAMモデルの両方の障害に対する感受性を明らかにする。
論文 参考訳(メタデータ) (2024-06-24T17:57:05Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。
ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。
本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文 参考訳(メタデータ) (2024-05-10T06:28:42Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Speech Robust Bench: A Robustness Benchmark For Speech Recognition [20.758654420612793]
Speech Robust Bench (SRB) は、さまざまな汚職に対するASRモデルの堅牢性を評価するためのベンチマークである。
SRBは114の入力摂動で構成されており、ASRモデルが野生に展開する際の不均一な破損をシミュレートする。
論文 参考訳(メタデータ) (2024-03-08T08:10:29Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。