Fugu-MT 論文翻訳(概要): TEL'M: Test and Evaluation of Language Models

論文の概要: TEL'M: Test and Evaluation of Language Models

arxiv url: http://arxiv.org/abs/2404.10200v1
Date: Tue, 16 Apr 2024 00:54:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:31:57.297972
Title: TEL'M: Test and Evaluation of Language Models
Title（参考訳）: TEL'M:言語モデルの試験と評価
Authors: George Cybenko, Joshua Ackerman, Paul Lintilhac,
Abstract要約: 言語モデルは、いくつかのタスクで顕著な能力を示しながら、他のタスクで劇的に失敗しています。これは、医療、レーダー信号処理、その他の防衛分野で使用されるテストや評価プロセスとは対照的である。この手法は他の人工知能(AI)技術にも応用できると考えている。
参考スコア（独自算出の注目度）: 2.2940141855172036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language Models have demonstrated remarkable capabilities on some tasks while failing dramatically on others. The situation has generated considerable interest in understanding and comparing the capabilities of various Language Models (LMs) but those efforts have been largely ad hoc with results that are often little more than anecdotal. This is in stark contrast with testing and evaluation processes used in healthcare, radar signal processing, and other defense areas. In this paper, we describe Test and Evaluation of Language Models (TEL'M) as a principled approach for assessing the value of current and future LMs focused on high-value commercial, government and national security applications. We believe that this methodology could be applied to other Artificial Intelligence (AI) technologies as part of the larger goal of "industrializing" AI.
Abstract（参考訳）: 言語モデルは、いくつかのタスクで顕著な能力を示しながら、他のタスクで劇的に失敗しています。この状況は、様々な言語モデル(LM)の機能の理解と比較にかなりの関心を惹きつけてきたが、これらの取り組みは、しばしば逸話にすぎない結果に大差ないものだった。これは、医療、レーダー信号処理、その他の防衛分野で使用されるテストや評価プロセスとは対照的である。本稿では,言語モデル(TEL'M)のテストと評価を,高価値な商業・政府・国家安全アプリケーションに焦点をあてた,現在および将来のLMの価値を評価するための原則的アプローチとして記述する。この手法は他の人工知能(AI)技術にも応用できると考えている。

関連論文リスト

Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation [7.8735930411335895]
Vision-Language-Action(VLA)モデルは、ロボット操作タスクのための統合されたソリューションである。 VLAモデルのデータ駆動性は、解釈可能性の欠如と相まって、その有効性と堅牢性を保証することが難しい課題である。本稿では,VLAモデルの評価に特化して設計された,包括的で効率的なプラットフォームであるLADEVを提案する。
論文参考訳（メタデータ） (2024-10-07T16:49:16Z)
How to Measure the Intelligence of Large Language Models? [0.24578723416255752]
言語モデルのインテリジェンスは、タスク固有の統計指標によってのみ評価されるべきではない、と我々は主張する。我々は,メトリクスの選択が,潜在的なインテリジェンスの発生に対する評価に劇的な影響を及ぼすことを示した。
論文参考訳（メタデータ） (2024-07-30T13:53:48Z)
Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level [23.833528781431884]
社会シミュレーションタスク (Social Simulation Tasks in Sandbox, STSS) は、マルチエージェントシミュレーションのための言語レベルのベンチマークである。我々の評価結果は、STSSベンチマークが最先端の言語エージェントに挑戦していることを示している。
論文参考訳（メタデータ） (2024-04-08T09:25:32Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability [0.0]
グラデーションに対する自然言語理解に依存した評価は、他の言語モデルを使用することで、大規模に行うことができる。モデルグレード評価のロバストさを、新しい認識方程式を含む異なるデータセットに対するインジェクションで検証する。将来、よりインテリジェントなモデルが、彼らの評価モデルを操作したり、協力したりする可能性があると説明します。
論文参考訳（メタデータ） (2023-11-26T17:11:55Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
Supporting Human-AI Collaboration in Auditing LLMs with LLMs [33.56822240549913]
大きな言語モデルは偏見があり、無責任に振る舞うことが示されている。これらの言語モデルを厳格に監査することは重要である。既存の監査ツールは、人間とAIの両方を活用して失敗を見つける。
論文参考訳（メタデータ） (2023-04-19T21:59:04Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。