論文の概要: Evaluating and Improving Robustness in Large Language Models: A Survey and Future Directions
- arxiv url: http://arxiv.org/abs/2506.11111v1
- Date: Sun, 08 Jun 2025 16:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.471319
- Title: Evaluating and Improving Robustness in Large Language Models: A Survey and Future Directions
- Title(参考訳): 大規模言語モデルにおけるロバスト性の評価と改善:調査と今後の方向性
- Authors: Kun Zhang, Le Wu, Kui Yu, Guangyi Lv, Dacao Zhang,
- Abstract要約: 大規模言語モデル(LLM)は,近年,自然言語の理解と生成能力から注目されている。
本稿では,この分野に関する概念や手法の包括的用語を提供し,コミュニティの促進を目的とする。
- 参考スコア(独自算出の注目度): 23.024212585005714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have gained enormous attention in recent years due to their capability of understanding and generating natural languages. With the rapid development and wild-range applications (e.g., Agents, Embodied Intelligence), the robustness of LLMs has received increased attention. As the core brain of many AI applications, the robustness of LLMs requires that models should not only generate consistent contents, but also ensure the correctness and stability of generated content when dealing with unexpeted application scenarios (e.g., toxic prompts, limited noise domain data, outof-distribution (OOD) applications, etc). In this survey paper, we conduct a thorough review of the robustness of LLMs, aiming to provide a comprehensive terminology of concepts and methods around this field and facilitate the community. Specifically, we first give a formal definition of LLM robustness and present the collection protocol of this survey paper. Then, based on the types of perturbated inputs, we organize this survey from the following perspectives: 1) Adversarial Robustness: tackling the problem that prompts are manipulated intentionally, such as noise prompts, long context, data attack, etc; 2) OOD Robustness: dealing with the unexpected real-world application scenarios, such as OOD detection, zero-shot transferring, hallucinations, etc; 3) Evaluation of Robustness: summarizing the new evaluation datasets, metrics, and tools for verifying the robustness of LLMs. After reviewing the representative work from each perspective, we discuss and highlight future opportunities and research directions in this field. Meanwhile, we also organize related works and provide an easy-to-search project (https://github.com/zhangkunzk/Awesome-LLM-Robustness-papers) to support the community.
- Abstract(参考訳): 大規模言語モデル(LLM)は,近年,自然言語の理解と生成能力から注目されている。
急速な開発とワイルドレンジの応用(エージェント、エンボディード・インテリジェンスなど)により、LSMの堅牢性は注目されている。
多くのAIアプリケーションの中核となる脳として、LLMの堅牢性は、モデルが一貫性のあるコンテンツを生成するだけでなく、未解決のアプリケーションシナリオ(例えば、有毒なプロンプト、限られたノイズドメインデータ、オフ・オブ・ディストリビューション(OOD)アプリケーションなど)を扱う際に生成されたコンテンツの正確性と安定性を保証することを要求する。
本稿では,LLMのロバスト性について概観し,この分野における概念・手法の包括的用語を提供し,コミュニティを促進することを目的とする。
具体的には、まずLLMのロバスト性の公式定義と、この調査論文の収集プロトコルについて述べる。
そして、摂動入力のタイプに基づいて、以下の視点からこの調査を整理する。
1) 敵対的ロバスト性:ノイズプロンプト、長期コンテキスト、データアタック等、プロンプトが意図的に操作される問題に対処すること。
2) OODロバストネス:OOD検出、ゼロショット転送、幻覚など、予期せぬ現実世界のアプリケーションシナリオを扱う。
3)ロバスト性の評価: LLMの堅牢性を検証するための新しい評価データセット,メトリクス,ツールを要約する。
それぞれの視点から代表作をレビューした後、この分野での今後の機会と研究の方向性を議論し、強調する。
また、関連する作業の整理や、コミュニティを支援するための簡単な調査プロジェクト(https://github.com/zhangkunzk/Awesome-LLM-Robustness-papers)も提供しています。
関連論文リスト
- Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。