論文の概要: FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs
- arxiv url: http://arxiv.org/abs/2410.19317v1
- Date: Fri, 25 Oct 2024 06:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:59.238519
- Title: FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs
- Title(参考訳): FairMT-Bench:会話LLMにおけるマルチターン対話のためのベンチマークフェアネス
- Authors: Zhiting Fan, Ruizhe Chen, Tianxiang Hu, Zuozhu Liu,
- Abstract要約: マルチターン対話シナリオである textbfFairMT-Bench における大規模言語モデル(LLM)ベースのチャットボットの公平性ベンチマークを提案する。
多様なバイアスタイプや属性のカバレッジを確保するため,マルチターン対話データセットである texttFairMT-10K を構築した。
textttFairMT-10Kの実験と分析により、マルチターン対話シナリオでは、現在のLLMは偏りのある応答を生成する傾向があり、様々なタスクやモデルのパフォーマンスに顕著なばらつきがあることが明らかになった。
- 参考スコア(独自算出の注目度): 8.37667737406383
- License:
- Abstract: The growing use of large language model (LLM)-based chatbots has raised concerns about fairness. Fairness issues in LLMs can lead to severe consequences, such as bias amplification, discrimination, and harm to marginalized communities. While existing fairness benchmarks mainly focus on single-turn dialogues, multi-turn scenarios, which in fact better reflect real-world conversations, present greater challenges due to conversational complexity and potential bias accumulation. In this paper, we propose a comprehensive fairness benchmark for LLMs in multi-turn dialogue scenarios, \textbf{FairMT-Bench}. Specifically, we formulate a task taxonomy targeting LLM fairness capabilities across three stages: context understanding, user interaction, and instruction trade-offs, with each stage comprising two tasks. To ensure coverage of diverse bias types and attributes, we draw from existing fairness datasets and employ our template to construct a multi-turn dialogue dataset, \texttt{FairMT-10K}. For evaluation, GPT-4 is applied, alongside bias classifiers including Llama-Guard-3 and human validation to ensure robustness. Experiments and analyses on \texttt{FairMT-10K} reveal that in multi-turn dialogue scenarios, current LLMs are more likely to generate biased responses, and there is significant variation in performance across different tasks and models. Based on this, we curate a challenging dataset, \texttt{FairMT-1K}, and test 15 current state-of-the-art (SOTA) LLMs on this dataset. The results show the current state of fairness in LLMs and showcase the utility of this novel approach for assessing fairness in more realistic multi-turn dialogue contexts, calling for future work to focus on LLM fairness improvement and the adoption of \texttt{FairMT-1K} in such efforts.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのチャットボットの利用が増加し、公正性に対する懸念が高まっている。
LLMの公平性の問題は、偏見の増幅、差別、辺境化社会への害など、深刻な結果をもたらす可能性がある。
既存の公正度ベンチマークは、主にシングルターン対話に焦点を当てているが、実世界の会話をよりよく反映するマルチターンシナリオは、会話の複雑さと潜在的なバイアス蓄積による大きな課題を提示する。
本稿では,マルチターン対話シナリオにおけるLLMの総合的公正度ベンチマークである \textbf{FairMT-Bench} を提案する。
具体的には、文脈理解、ユーザインタラクション、命令トレードオフの3段階にわたるLLMフェアネス機能を対象としたタスク分類を、各段階が2つのタスクで構成されるように定式化する。
多様なバイアスタイプや属性のカバレッジを確保するため、既存の公正データセットから抽出し、テンプレートを使用してマルチターン対話データセットである \texttt{FairMT-10K} を構築します。
評価には、Llama-Guard-3を含むバイアス分類器と人間の検証と合わせてGPT-4を適用し、堅牢性を確保する。
texttt{FairMT-10K} の実験と分析により、マルチターン対話シナリオでは、現在の LLM は偏りのある応答を生成する傾向があり、様々なタスクやモデルのパフォーマンスに顕著なばらつきがあることが明らかになった。
これに基づいて、挑戦的なデータセットである \texttt{FairMT-1K} をキュレートし、このデータセット上で15の現在のSOTA (State-of-the-art) LLMをテストする。
その結果,LLMにおけるフェアネスの現状を示すとともに,より現実的な多面的対話文脈におけるフェアネスを評価するための新しいアプローチの有用性を示すとともに,今後の取り組みとして,LLMのフェアネスの改善と,そのような取り組みにおける \texttt{FairMT-1K} の導入が求められている。
関連論文リスト
- Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Fairness in Large Language Models in Three Hours [2.443957114877221]
このチュートリアルは、大規模言語モデルに関する文献の最近の進歩を体系的に概説する。
LLMにおける公平性の概念を考察し、バイアスを評価するための戦略と公正性を促進するために設計されたアルゴリズムを要約する。
論文 参考訳(メタデータ) (2024-08-02T03:44:14Z) - Evaluating Fairness in Large Vision-Language Models Across Diverse Demographic Attributes and Prompts [27.66626125248612]
いくつかの主流大規模視覚言語モデル(LVLM)の視覚的公正性について実験的に検討する。
我々の公正度評価フレームワークは、視覚的質問応答/分類タスクにおいて、直接的および単選択的な質問プロンプトを用いている。
我々は,オープンソースのLVLMとクローズドソースの両方に適用可能な,バイアス軽減のためのマルチモーダル・チェーン・オブ・シント(CoT)ベースの戦略を提案する。
論文 参考訳(メタデータ) (2024-06-25T23:11:39Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - Your Large Language Model is Secretly a Fairness Proponent and You
Should Prompt it Like One [43.37522760105383]
フェアシンキング(FairThinking)は、LLMが公正表現に対して様々な視点を明確化できる役割を自動生成するパイプラインである。
FairThinkingを評価するために、3つのフェアネス関連トピックをカバーする1000項目のデータセットを作成し、GPT-3.5、GPT-4、Llama2、Mistralで実験を行う。
論文 参考訳(メタデータ) (2024-02-19T14:02:22Z) - A Group Fairness Lens for Large Language Models [34.0579082699443]
大規模な言語モデルは、ソーシャルメディアの文脈に展開する際の偏見と不公平さを永久に防ぐことができる。
多様な社会集団を特徴付ける新しい階層型スキーマを用いて,グループフェアネスレンズからLLMバイアスを評価する。
我々は,グループフェアネスの観点からLLMのバイアスを軽減するために,GF-Thinkという新しいチェーン・オブ・シンク法を考案した。
論文 参考訳(メタデータ) (2023-12-24T13:25:15Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。