Fugu-MT 論文翻訳(概要): $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations

論文の概要: $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations

arxiv url: http://arxiv.org/abs/2403.04924v1
Date: Thu, 7 Mar 2024 22:18:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:35:21.469056
Title: $\text{R}^2$-Bench: Benchmarking the Robustness of Referring Perception Models under Perturbations
Title（参考訳）: $\text{r}^2$-bench:摂動下における知覚モデルのロバスト性ベンチマーク
Authors: Xiang Li, Kai Qiu, Jinglu Wang, Xiaohao Xu, Rita Singh, Kashu Yamazak, Hao Chen, Xiaonan Huang, Bhiksha Raj
Abstract要約: 摂動の包括的分類法を提案し, 複合障害の効果を合成・評価するための汎用ツールボックスを開発した。 LLMをベースとしたエージェントであるtextR2$-Agentを提案する。
参考スコア（独自算出の注目度）: 36.74309198908876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring perception, which aims at grounding visual objects with multimodal referring guidance, is essential for bridging the gap between humans, who provide instructions, and the environment where intelligent systems perceive. Despite progress in this field, the robustness of referring perception models (RPMs) against disruptive perturbations is not well explored. This work thoroughly assesses the resilience of RPMs against various perturbations in both general and specific contexts. Recognizing the complex nature of referring perception tasks, we present a comprehensive taxonomy of perturbations, and then develop a versatile toolbox for synthesizing and evaluating the effects of composite disturbances. Employing this toolbox, we construct $\text{R}^2$-Bench, a benchmark for assessing the Robustness of Referring perception models under noisy conditions across five key tasks. Moreover, we propose the $\text{R}^2$-Agent, an LLM-based agent that simplifies and automates model evaluation via natural language instructions. Our investigation uncovers the vulnerabilities of current RPMs to various perturbations and provides tools for assessing model robustness, potentially promoting the safe and resilient integration of intelligent systems into complex real-world scenarios.
Abstract（参考訳）: 視覚オブジェクトをマルチモーダル参照誘導で接地することを目的とした参照認識は、指示を提供する人間と知的システムが知覚する環境とのギャップを埋めるのに不可欠である。この分野での進歩にもかかわらず、破壊的摂動に対する参照知覚モデル(RPM)の堅牢性は十分に研究されていない。この研究は、一般および特定の文脈における様々な摂動に対するRPMのレジリエンスを徹底的に評価する。知覚課題を参照する複雑な性質を認識し,摂動の包括的分類法を提案し,複合外乱の効果を合成評価するための汎用ツールボックスを開発した。このツールボックスを用いて,5つのタスクのノイズ条件下での知覚モデルのロバスト性を評価するベンチマークである$\text{R}^2$-Benchを構築する。さらに,自然言語命令によるモデル評価を単純化し,自動化するllmベースのエージェントである$\text{r}^2$-agentを提案する。今回の調査は、現在のrpmの脆弱性をさまざまな摂動に明らかにし、モデルの堅牢性を評価するツールを提供し、インテリジェントシステムの複雑な現実シナリオへの安全で回復力のある統合を促進する。

関連論文リスト

Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文参考訳（メタデータ） (2025-04-24T16:36:19Z)
Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。 Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-04-22T13:43:58Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-04-02T11:37:39Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文参考訳（メタデータ） (2024-07-04T14:36:49Z)
From Perfect to Noisy World Simulation: Customizable Embodied Multi-modal Perturbations for SLAM Robustness Benchmarking [32.52171076424419]
エンボディードエージェントは、非構造環境で運用するために堅牢なナビゲーションシステムを必要とする。ノイズの多いデータ合成のための,新しい,カスタマイズ可能なパイプラインを提案する。我々はニューラル(NeRF)モデルと非ニューラルSLAMモデルの両方の障害に対する感受性を明らかにする。
論文参考訳（メタデータ） (2024-06-24T17:57:05Z)
Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文参考訳（メタデータ） (2024-06-13T17:59:44Z)
Learning Latent Dynamic Robust Representations for World Models [9.806852421730165]
Visual Model-Based Reinforcement Learning (MBL)は、環境の基盤となるダイナミクスに関する知識をエージェントに伝えることを約束する。ドリーマーのような時空エージェントは、観測空間に無関係なノイズが存在する場合、しばしば視覚的なピクセルベースの入力に苦しむ。本研究では,世界モデルにおけるタスク固有の環境の内在的側面を捉えるために,アテンポ的マスキング戦略と潜在的再構築を併用して適用する。
論文参考訳（メタデータ） (2024-05-10T06:28:42Z)
Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文参考訳（メタデータ） (2024-04-29T17:51:47Z)
Speech Robust Bench: A Robustness Benchmark For Speech Recognition [20.758654420612793]
Speech Robust Bench (SRB) は、さまざまな汚職に対するASRモデルの堅牢性を評価するためのベンチマークである。 SRBは114の入力摂動で構成されており、ASRモデルが野生に展開する際の不均一な破損をシミュレートする。
論文参考訳（メタデータ） (2024-03-08T08:10:29Z)
Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-01-09T05:16:52Z)
On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文参考訳（メタデータ） (2023-04-19T11:07:43Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。