論文の概要: Robustness as an Emergent Property of Task Performance
- arxiv url: http://arxiv.org/abs/2602.03344v1
- Date: Tue, 03 Feb 2026 10:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.385545
- Title: Robustness as an Emergent Property of Task Performance
- Title(参考訳): タスクパフォーマンスの創発的特性としてのロバスト性
- Authors: Shir Ashury-Tahan, Ariel Gera, Elron Bandel, Michal Shmueli-Scheuer, Leshem Choshen,
- Abstract要約: モデルがタスク上で高いパフォーマンスに近づくにつれ、ロバスト性は効果的に達成されることを示す。
頑健性は、本質的にモデルレベルの特性ではなく、主にタスク固有の能力によって引き起こされる。
- 参考スコア(独自算出の注目度): 20.251897847782857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness is often regarded as a critical future challenge for real-world applications, where stability is essential. However, as models often learn tasks in a similar order, we hypothesize that easier tasks will be easier regardless of how they are presented to the model. Indeed, in this paper, we show that as models approach high performance on a task, robustness is effectively achieved. Through an empirical analysis of multiple models across diverse datasets and configurations (e.g., paraphrases, different temperatures), we find a strong positive correlation. Moreover, we find that robustness is primarily driven by task-specific competence rather than inherent model-level properties, challenging current approaches that treat robustness as an independent capability. Thus, from a high-level perspective, we may expect that as new tasks saturate, model robustness on these tasks will emerge accordingly. For researchers, this implies that explicit efforts to measure and improve robustness may warrant reduced emphasis, as such robustness is likely to develop alongside performance gains. For practitioners, it acts as a sign that indeed the tasks that the literature deals with are unreliable, but on easier past tasks, the models are reliable and ready for real-world deployment.
- Abstract(参考訳): ロバスト性はしばしば、安定性が不可欠である現実世界のアプリケーションにとって重要な未来の課題とみなされる。
しかし、モデルはしばしば同様の順序でタスクを学習するので、モデルにどのように提示されたかに関わらず、簡単なタスクがより簡単になる、という仮説を立てる。
実際、本論文では、モデルがタスク上で高いパフォーマンスに近づくにつれて、ロバスト性が効果的に達成されることを示す。
多様なデータセットと構成(例:パラフレーズ、異なる温度)にわたる複数のモデルの実証分析により、強い正の相関関係が見つかる。
さらに、ロバストネスは、本質的なモデルレベルの特性ではなく、タスク固有の能力によって主に駆動され、ロバストネスを独立した能力として扱う現在のアプローチに挑戦する。
したがって、ハイレベルの観点からは、新しいタスクが飽和するにつれて、これらのタスクに対するモデルロバストネスが出現することが期待できる。
研究者にとってこれは、ロバスト性の測定と改善のための明示的な努力は、ロバスト性がパフォーマンスの向上と共に発展する可能性が高いため、強調を減らし得ることを意味している。
実践者にとってこれは、文献が扱うタスクは信頼できないが、過去のタスクがより容易になった場合には、モデルは信頼性が高く、現実のデプロイメントの準備が整っている、というサインとして機能する。
関連論文リスト
- Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [26.005367102695317]
マルチモーダル大規模言語モデルでは,非関連信号とタスク関連情報を区別することが困難である。
無関係なモダリティからの急激な情報は、しばしば大幅な性能低下をもたらすことを示す。
本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:31:32Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - A Retention-Centric Framework for Continual Learning with Guaranteed Model Developmental Safety [75.8161094916476]
現実世界のアプリケーションでは、学習可能なシステムは、しばしば課題や新しいタスクに対処するために反復的なモデル開発を行う。
既存の能力の新規または改善は、必然的に旧モデルの優れた能力を失う可能性がある。
本稿では,データ依存制約を伴う保持中心のフレームワークを提案し,既存の画像分類能力の獲得や改善を目的とした事前学習型CLIPモデルを継続的に開発する方法について検討する。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Measure and Improve Robustness in NLP Models: A Survey [23.515869499536237]
堅牢性は視覚やNLPなどのアプリケーションで別々に研究されており、様々な定義、評価、緩和戦略が研究の複数のラインで行われている。
まず、ロバスト性の定義を複数結合し、その後、ロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統一します。
我々は、NLPモデルの堅牢性を効果的に改善する方法をより体系的な視点で、データ駆動型、モデル駆動型、インダクティブプライオリベースである緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T18:02:04Z) - Robust Active Learning: Sample-Efficient Training of Robust Deep
Learning Models [23.45276407731157]
本稿では, 対人訓練を統合した能動的学習プロセスである, インプロバスト能動的学習を提案する。
我々は、頑健なアクティブラーニングが2.35%から63.85%の範囲の頑健さ(敵の例の精度)を持つモデルを生成することを示した。
エントロピーを用いた密度ベースロバストサンプリング(DRE)は、ロバスト性の観点から、他の(ランダムを含む)取得関数よりも優れている。
論文 参考訳(メタデータ) (2021-12-05T11:13:50Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。