論文の概要: Pseudointelligence: A Unifying Framework for Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2310.12135v1
- Date: Wed, 18 Oct 2023 17:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:26:15.412684
- Title: Pseudointelligence: A Unifying Framework for Language Model Evaluation
- Title(参考訳): Pseudointelligence: 言語モデル評価のための統一フレームワーク
- Authors: Shikhar Murty, Orr Paradise, Pratyusha Sharma
- Abstract要約: 本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
- 参考スコア(独自算出の注目度): 14.95543156914676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With large language models surpassing human performance on an increasing
number of benchmarks, we must take a principled approach for targeted
evaluation of model capabilities. Inspired by pseudorandomness, we propose
pseudointelligence, which captures the maxim that "(perceived) intelligence
lies in the eye of the beholder". That is, that claims of intelligence are
meaningful only when their evaluator is taken into account. Concretely, we
propose a complexity-theoretic framework of model evaluation cast as a dynamic
interaction between a model and a learned evaluator. We demonstrate that this
framework can be used to reason about two case studies in language model
evaluation, as well as analyze existing evaluation methods.
- Abstract(参考訳): 大規模言語モデルが人間のパフォーマンスを上回るベンチマーク数が増えると、モデル能力の評価を目標とする原則的なアプローチをとらなければならない。
疑似ランダム性に触発されて,我々は疑似知性を提案し,「(知覚された)知性はベホルダの眼の中にある」という極意を捉えた。
つまり、インテリジェンスの主張は、評価者が考慮される場合にのみ意味のあるものである。
具体的には,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークを,言語モデル評価における2つのケーススタディの推論や,既存の評価手法の分析に活用できることを実証する。
関連論文リスト
- PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation [0.0]
本稿では,言語モデルのロールプレイング能力を評価するための新しいベンチマークを提案する。
このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価する判断モデルという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-09-10T19:00:44Z) - Estimating Knowledge in Large Language Models Without Generating a Single Token [12.913172023910203]
大規模言語モデル(LLM)における知識を評価するための現在の手法は、モデルをクエリし、生成した応答を評価する。
本研究では,モデルがテキストを生成する前に評価を行うことができるかどうかを問う。
様々なLLMを用いた実験では、内部の主題表現を訓練した単純なプローブであるKEENが、両方のタスクで成功することが示された。
論文 参考訳(メタデータ) (2024-06-18T14:45:50Z) - Can I understand what I create? Self-Knowledge Evaluation of Large Language Models [31.85129258347539]
大規模言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げた。
フェインマンの創造を通して理解する原理に触発され、自己知識評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-10T09:53:54Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Knowledge-Grounded Dialogue Generation with Pre-trained Language Models [74.09352261943911]
我々は、事前学習された言語モデルを用いた知識基底対話生成について研究する。
本稿では,知識選択モジュールを用いた事前学習言語モデルによって定義された等価応答生成を提案する。
論文 参考訳(メタデータ) (2020-10-17T16:49:43Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z) - Asking the Right Questions: Learning Interpretable Action Models Through
Query Answering [33.08099403894141]
本稿では,ブラックボックス型自律エージェントの解釈可能なリレーショナルモデルを設計・動作可能な新しいアプローチを開発する。
我々の主な貢献は、エージェントとの最小クエリインタフェースを用いてそのようなモデルを推定するための新しいパラダイムと、エージェントの内部モデルを推定するための尋問ポリシーを生成する階層的なクエリアルゴリズムである。
論文 参考訳(メタデータ) (2019-12-29T09:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。