論文の概要: Towards the Scalable Evaluation of Cooperativeness in Language Models
- arxiv url: http://arxiv.org/abs/2303.13360v1
- Date: Thu, 16 Mar 2023 15:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 02:32:33.349252
- Title: Towards the Scalable Evaluation of Cooperativeness in Language Models
- Title(参考訳): 言語モデルにおける協調性のスケーラブルな評価に向けて
- Authors: Alan Chan, Maxime Rich\'e, Jesse Clifton
- Abstract要約: 我々は, PLMのマルチエージェント行動を理解し, 形成することを目的としている。
クラウドワーカーと言語モデルの両方で、特定の構造でシナリオを生成します。
インストラクションをチューニングしたモデルは、スケールアップ時に協調的と見なされるような振る舞いをする傾向にある。
- 参考スコア(独自算出の注目度): 1.7875811547963403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is likely that AI systems driven by pre-trained language models (PLMs)
will increasingly be used to assist humans in high-stakes interactions with
other agents, such as negotiation or conflict resolution. Consistent with the
goals of Cooperative AI \citep{dafoe_open_2020}, we wish to understand and
shape the multi-agent behaviors of PLMs in a pro-social manner. An important
first step is the evaluation of model behaviour across diverse cooperation
problems. Since desired behaviour in an interaction depends upon precise
game-theoretic structure, we focus on generating scenarios with particular
structures with both crowdworkers and a language model. Our work proceeds as
follows. First, we discuss key methodological issues in the generation of
scenarios corresponding to particular game-theoretic structures. Second, we
employ both crowdworkers and a language model to generate such scenarios. We
find that the quality of generations tends to be mediocre in both cases. We
additionally get both crowdworkers and a language model to judge whether given
scenarios align with their intended game-theoretic structure, finding mixed
results depending on the game. Third, we provide a dataset of scenario based on
our data generated. We provide both quantitative and qualitative evaluations of
UnifiedQA and GPT-3 on this dataset. We find that instruct-tuned models tend to
act in a way that could be perceived as cooperative when scaled up, while other
models seemed to have flat scaling trends.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)によって駆動されるAIシステムは、交渉や紛争解決など、他のエージェントとの高度な対話において、人間を支援するために、ますます使用されるようになるだろう。
協調型AI \citep{dafoe_open_2020} の目標と一致して,我々は PLM のマルチエージェント行動の理解と形成を社会的な方法で行おうとする。
重要な第一歩は、様々な協力問題におけるモデル行動の評価である。
インタラクションにおける望ましい振る舞いは、正確なゲーム理論の構造に依存するため、クラウドワーカーと言語モデルの両方で特定の構造を持つシナリオを生成することに焦点を合わせます。
我々の仕事は次のとおりである。
まず,特定のゲーム理論構造に対応するシナリオの生成における重要な方法論的問題について議論する。
第二に、このようなシナリオを生成するために、クラウドワーカーと言語モデルの両方を使用します。
どちらの場合も世代ごとの質は劣る傾向にある。
さらに、クラウドワーカーと言語モデルの両方に、与えられたシナリオが意図したゲーム理論構造と一致しているかを判断させ、ゲームに応じて混合結果を求める。
第3に、生成したデータに基づいてシナリオのデータセットを提供します。
本データセットでは,UnifiedQA と GPT-3 の定量および定性評価を行う。
インストラクションチューニングモデルでは,スケールアップ時に協調的と見なされる傾向があり,他のモデルではフラットなスケーリング傾向が見られた。
関連論文リスト
- Towards "Differential AI Psychology" and in-context Value-driven Statement Alignment with Moral Foundations Theory [0.0]
本研究は,Moral Foundationのアンケートにおいて,パーソナライズされた言語モデルと調査参加者のアライメントについて検討する。
我々は、異なる政治的ペルソナにテキスト・トゥ・テキスト・モデルを適用し、繰り返しアンケートを行い、ペルソナとモデルの組み合わせの合成人口を生成する。
その結果, 適応型モデルでは, 政治的イデオロギーに対する調査をリードする評価が困難であることが示唆された。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Feature Interactions Reveal Linguistic Structure in Language Models [2.0178765779788495]
本研究では,ポストホック解釈における特徴帰属手法の文脈における特徴的相互作用について検討した。
私たちは、正規言語分類タスクで完璧にモデルをトレーニングする灰色のボックスの方法論を開発します。
特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2023-06-21T11:24:41Z) - Structured Like a Language Model: Analysing AI as an Automated Subject [0.0]
我々は、大規模言語モデルに対する主観性の意図的な予測は、AIの振る舞いを分析できる別のフレームを生み出すことができると論じる。
我々は、最先端の自然言語処理性能を実現するシステムのリリースにおいて、言語モデルに関する短い歴史を辿る。
批判的メディア手法と精神分析理論が組み合わさって、AI駆動型言語システムの強力な新しい能力を把握するための生産的枠組みを提供すると結論付けている。
論文 参考訳(メタデータ) (2022-12-08T21:58:43Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。