論文の概要: Self-Agreement: A Framework for Fine-tuning Language Models to Find
Agreement among Diverse Opinions
- arxiv url: http://arxiv.org/abs/2305.11460v1
- Date: Fri, 19 May 2023 06:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:04:52.180865
- Title: Self-Agreement: A Framework for Fine-tuning Language Models to Find
Agreement among Diverse Opinions
- Title(参考訳): 自己アグリメント: さまざまな意見の一致を見つけるための微調整言語モデルのためのフレームワーク
- Authors: Shiyao Ding and Takayuki Ito
- Abstract要約: 自己集約(Self-Agreement)は、合意を自律的に見つけるための、大規模言語モデルを微調整するための新しいフレームワークである。
提案手法では,生成事前学習型トランスフォーマー3を用いて,質問データセットの各質問に対して複数の意見を生成する。
変換器ベースモデル(BERT)からの双方向エンコーダ表現は、一致スコアが最も高いものを選択する。
注目すべきは、我々のSelf-Agreementフレームワークによって微調整された事前学習LLMは、パラメータの1/25しか持たないGPT-3に匹敵する性能を達成することである。
- 参考スコア(独自算出の注目度): 1.6752182911522517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding an agreement among diverse opinions is a challenging topic in
multiagent systems. Recently, large language models (LLMs) have shown great
potential in addressing this challenge due to their remarkable capabilities in
comprehending human opinions and generating human-like text. However, they
typically rely on extensive human-annotated data. In this paper, we propose
Self-Agreement, a novel framework for fine-tuning LLMs to autonomously find
agreement using data generated by LLM itself. Specifically, our approach
employs the generative pre-trained transformer-3 (GPT-3) to generate multiple
opinions for each question in a question dataset and create several agreement
candidates among these opinions. Then, a bidirectional encoder representations
from transformers (BERT)-based model evaluates the agreement score of each
agreement candidate and selects the one with the highest agreement score. This
process yields a dataset of question-opinion-agreements, which we use to
fine-tune a pre-trained LLM for discovering agreements among diverse opinions.
Remarkably, a pre-trained LLM fine-tuned by our Self-Agreement framework
achieves comparable performance to GPT-3 with only 1/25 of its parameters,
showcasing its ability to identify agreement among various opinions without the
need for human-annotated data.
- Abstract(参考訳): 多様な意見の合意を見つけることは、マルチエージェントシステムにおいて難しいトピックである。
近年,大きな言語モデル (LLM) は,人的意見の理解や人間的な文章の生成に際し,この課題に対処する大きな可能性を示している。
しかし、一般的には人間の注釈付きデータに依存する。
本稿では,LLM自体が生成するデータを用いて合意を自律的に見つけるための,微調整LDMのための新しいフレームワークであるSelf-Agreementを提案する。
具体的には,質問データセットの各質問に対して複数の意見を生成し,これらの意見の中から複数の合意候補を作成するために,生成前訓練トランスフォーマ3(gpt-3)を用いる。
そして、変換器(BERT)ベースのモデルから双方向エンコーダ表現を行い、各合意候補の合意スコアを評価し、最も合意スコアの高いものを選択する。
このプロセスは、様々な意見の合意を発見するために、事前学習されたLLMを微調整するために使用する質問-回答-アグリメントのデータセットを生成する。
注目すべきは、我々のセルフアグリメントフレームワークによって微調整されたLLMは、パラメータの1/25しか持たないGPT-3に匹敵する性能を達成し、人間に注釈付けされたデータを必要としない様々な意見の合意を識別する能力を示していることである。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Automatically Generating Numerous Context-Driven SFT Data for LLMs across Diverse Granularity [0.0]
AugConは、さまざまなレベルの粒度のコンテキスト駆動SFTデータを、多様性、品質、忠実度で自動生成することができる。
コントラスト学習を通じてスコアラーをトレーニングし、CSTと協調してクエリのランク付けと洗練を行う。
その結果、AugConがいくつかの最先端手法に対して高多様性、品質、忠実度SFTデータを生成する際の大きな利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-26T14:14:18Z) - Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T10:06:04Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。