論文の概要: Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements
- arxiv url: http://arxiv.org/abs/2402.10614v2
- Date: Fri, 7 Jun 2024 20:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:33:30.690908
- Title: Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements
- Title(参考訳): LLMs Speak for Diverse People? 議論を通じてLLMをチューニングして、制御可能な議論文を生成する
- Authors: Ming Li, Jiuhai Chen, Lichang Chen, Tianyi Zhou,
- Abstract要約: 我々は,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を向上させる。
我々は,LLMを微調整する新しい議論・チューニングパイプラインを開発し,議論を通じて得られた文を生成する。
- 参考スコア(独自算出の注目度): 30.970994382186944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making LLMs speak for different, especially minority groups of people, and generate statements supporting their diverse or even controversial perspectives is critical to creating an inclusive environment. However, existing LLMs lack sufficient controllability to the stance of their generated content, which often contains inconsistent, neutral, or biased statements. In this paper, we improve the controllability of LLMs in generating statements supporting an argument the user defined in the prompt. We find that multi-round debates between two LLMs with opposite stances generate higher-quality and more salient statements for each, which are important training data to improve the controllability of LLMs. Motivated by this, we develop a novel debate & tuning (DEBATUNE) pipeline finetuning LLMs to generate the statements obtained via debate. To examine DEBATUNE, we curate the largest dataset of debate topics so far, which covers 710 controversial topics and corresponding arguments for each topic. Evaluations by the GPT-4 judge with a novel controversy controllability metric show that LLMs' capability of generating diverse perspectives is significantly improved by DEBATUNE. Moreover, such controllability can be generalized to unseen topics, generating high-quality statements supporting controversial arguments.
- Abstract(参考訳): LLMをさまざまな、特に少数派の人々に対して話すようにし、多様性や議論の的になっている視点を支持する声明を生成することは、包括的環境を作る上で非常に重要である。
しかし、既存のLCMは、しばしば矛盾、中立、偏見のある文を含む、生成されたコンテンツのスタンスに対して十分な制御性を持っていない。
本稿では,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を改善する。
逆姿勢の2つのLLM間の複数ラウンドの議論は、それぞれに高品質でより健全なステートメントを生成し、LLMの制御性を改善するための重要なトレーニングデータである。
そこで我々は,LLMを微調整する新しい議論&チューニング(DEBATUNE)パイプラインを開発し,議論によって得られた文を生成する。
DEBATUNEを検証するために、議論トピックの最大データセットをキュレートし、710の議論トピックと各トピックに対する対応する議論をカバーした。
GPT-4審査員による新しい議論の制御性指標による評価は、LLMが多様な視点を生成できる能力は、DEBATUNEによって著しく改善されていることを示している。
さらに、このような制御性は目に見えないトピックに一般化することができ、議論の的となっている議論を裏付ける高品質なステートメントを生成する。
関連論文リスト
- DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。
私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。
DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文 参考訳(メタデータ) (2024-08-02T17:54:34Z) - DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。
我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。
評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - Counterfactual Debating with Preset Stances for Hallucination Elimination of LLMs [45.38821594541265]
大規模言語モデル(LLM)は様々な自然言語処理タスクに優れるが、幻覚に苦しむ。
本稿では, LLM 固有のバイアスをオーバーライドして解答検査を行うために, CFMAD フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-17T13:21:23Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Your Large Language Model is Secretly a Fairness Proponent and You
Should Prompt it Like One [43.37522760105383]
フェアシンキング(FairThinking)は、LLMが公正表現に対して様々な視点を明確化できる役割を自動生成するパイプラインである。
FairThinkingを評価するために、3つのフェアネス関連トピックをカバーする1000項目のデータセットを作成し、GPT-3.5、GPT-4、Llama2、Mistralで実験を行う。
論文 参考訳(メタデータ) (2024-02-19T14:02:22Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。