論文の概要: TRUSTVIS: A Multi-Dimensional Trustworthiness Evaluation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.13106v1
- Date: Wed, 15 Oct 2025 02:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.480723
- Title: TRUSTVIS: A Multi-Dimensional Trustworthiness Evaluation Framework for Large Language Models
- Title(参考訳): TRUSTVIS:大規模言語モデルのための多次元信頼性評価フレームワーク
- Authors: Ruoyu Sun, Da Song, Jiayang Song, Yuheng Huang, Lei Ma,
- Abstract要約: 大規模言語モデル(LLM)の自動評価フレームワークTRUSTVISを紹介する。
私たちのフレームワークの重要な特徴は、インタラクティブなユーザーインターフェイスであり、信頼度メトリクスの直感的な視覚化を提供するように設計されています。
Vicuna-7b, Llama2-7b, GPT-3.5 などのモデルに対する予備的ケーススタディにより, 本フレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 15.15598506870428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) continue to revolutionize Natural Language Processing (NLP) applications, critical concerns about their trustworthiness persist, particularly in safety and robustness. To address these challenges, we introduce TRUSTVIS, an automated evaluation framework that provides a comprehensive assessment of LLM trustworthiness. A key feature of our framework is its interactive user interface, designed to offer intuitive visualizations of trustworthiness metrics. By integrating well-known perturbation methods like AutoDAN and employing majority voting across various evaluation methods, TRUSTVIS not only provides reliable results but also makes complex evaluation processes accessible to users. Preliminary case studies on models like Vicuna-7b, Llama2-7b, and GPT-3.5 demonstrate the effectiveness of our framework in identifying safety and robustness vulnerabilities, while the interactive interface allows users to explore results in detail, empowering targeted model improvements. Video Link: https://youtu.be/k1TrBqNVg8g
- Abstract(参考訳): 大規模言語モデル(LLM)が自然言語処理(NLP)アプリケーションに革命をもたらし続けている中、信頼性に関する重要な懸念は、特に安全性と堅牢性において持続している。
これらの課題に対処するために,LLMの信頼性を総合的に評価する自動評価フレームワークTRUSTVISを導入する。
私たちのフレームワークの重要な特徴は、インタラクティブなユーザーインターフェイスであり、信頼度メトリクスの直感的な視覚化を提供するように設計されています。
TRUSTVISは、AutoDANのようなよく知られた摂動手法を統合し、様々な評価手法で多数決を行うことで、信頼性の高い結果を提供するだけでなく、複雑な評価プロセスをユーザに提供する。
Vicuna-7b、Llama2-7b、GPT-3.5といったモデルに関する予備的なケーススタディでは、安全性と堅牢性の脆弱性を識別する上で、我々のフレームワークの有効性が示されています。
ビデオリンク:https://youtu.be/k1TrBqNVg8g
関連論文リスト
- Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [377.2483044466149]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - A Survey on Uncertainty Toolkits for Deep Learning [3.113304966059062]
ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。
モデリングおよび評価能力に関する11のツールキットについて検討する。
最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
論文 参考訳(メタデータ) (2022-05-02T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。