論文の概要: $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations
- arxiv url: http://arxiv.org/abs/2403.04924v1
- Date: Thu, 7 Mar 2024 22:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:35:21.469056
- Title: $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception
Models under Perturbations
- Title(参考訳): $\text{r}^2$-bench:摂動下における知覚モデルのロバスト性ベンチマーク
- Authors: Xiang Li, Kai Qiu, Jinglu Wang, Xiaohao Xu, Rita Singh, Kashu Yamazak,
Hao Chen, Xiaonan Huang, Bhiksha Raj
- Abstract要約: 摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。
LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
- 参考スコア(独自算出の注目度): 36.74309198908876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring perception, which aims at grounding visual objects with multimodal
referring guidance, is essential for bridging the gap between humans, who
provide instructions, and the environment where intelligent systems perceive.
Despite progress in this field, the robustness of referring perception models
(RPMs) against disruptive perturbations is not well explored. This work
thoroughly assesses the resilience of RPMs against various perturbations in
both general and specific contexts. Recognizing the complex nature of referring
perception tasks, we present a comprehensive taxonomy of perturbations, and
then develop a versatile toolbox for synthesizing and evaluating the effects of
composite disturbances. Employing this toolbox, we construct
$\text{R}^2$-Bench, a benchmark for assessing the Robustness of Referring
perception models under noisy conditions across five key tasks. Moreover, we
propose the $\text{R}^2$-Agent, an LLM-based agent that simplifies and
automates model evaluation via natural language instructions. Our investigation
uncovers the vulnerabilities of current RPMs to various perturbations and
provides tools for assessing model robustness, potentially promoting the safe
and resilient integration of intelligent systems into complex real-world
scenarios.
- Abstract(参考訳): 視覚オブジェクトをマルチモーダル参照誘導で接地することを目的とした参照認識は、指示を提供する人間と知的システムが知覚する環境とのギャップを埋めるのに不可欠である。
この分野での進歩にもかかわらず、破壊的摂動に対する参照知覚モデル(RPM)の堅牢性は十分に研究されていない。
この研究は、一般および特定の文脈における様々な摂動に対するRPMのレジリエンスを徹底的に評価する。
知覚課題を参照する複雑な性質を認識し,摂動の包括的分類法を提案し,複合外乱の効果を合成評価するための汎用ツールボックスを開発した。
このツールボックスを用いて,5つのタスクのノイズ条件下での知覚モデルのロバスト性を評価するベンチマークである$\text{R}^2$-Benchを構築する。
さらに,自然言語命令によるモデル評価を単純化し,自動化するllmベースのエージェントである$\text{r}^2$-agentを提案する。
今回の調査は、現在のrpmの脆弱性をさまざまな摂動に明らかにし、モデルの堅牢性を評価するツールを提供し、インテリジェントシステムの複雑な現実シナリオへの安全で回復力のある統合を促進する。
関連論文リスト
- Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Speech Robust Bench: A Robustness Benchmark For Speech Recognition [2.806656131056252]
Speech Robust Bench (SRB) は、さまざまな汚職に対するASRモデルの堅牢性を評価するためのベンチマークである。
SRBは69の入力摂動で構成されており、ASRモデルが物理的およびデジタルの世界で遭遇する可能性のある様々な腐敗をシミュレートすることを目的としている。
論文 参考訳(メタデータ) (2024-03-08T08:10:29Z) - Zero-shot sampling of adversarial entities in biomedical question
answering [0.6990493129893112]
高精度かつ知識集約的なタスクでは、モデル予測の信頼性を定量化する上で、モデルの脆弱性を理解することが不可欠である。
そこで本研究では,多種多様な対向性物体をインタプリタとして検出するために,埋め込み空間におけるパワースケール距離重み付きサンプリング手法を提案する。
本研究では,大規模言語モデルにおけるドメイン知識の脆さについて考察し,高容量モデルに対する標準評価の欠点を明らかにした。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - A Comprehensive Study on the Robustness of Image Classification and
Object Detection in Remote Sensing: Surveying and Benchmarking [17.012502610423006]
ディープニューラルネットワーク(DNN)は、リモートセンシング(RS)画像の解釈に広く応用されている。
従来の研究では、DNNは様々な種類のノイズ、特に敵対的なノイズに弱いことが示されている。
本研究は,RS課題における自然的頑健性と対角的頑健性の両方を包括的に検討した初めての事例である。
論文 参考訳(メタデータ) (2023-06-21T08:52:35Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。