論文の概要: OccuQuest: Mitigating Occupational Bias for Inclusive Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.16517v1
- Date: Wed, 25 Oct 2023 10:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:21:42.825356
- Title: OccuQuest: Mitigating Occupational Bias for Inclusive Large Language
Models
- Title(参考訳): OccuQuest: 包括的大規模言語モデルにおけるOccupational Biasの緩和
- Authors: Mingfeng Xue, Dayiheng Liu, Kexin Yang, Guanting Dong, Wenqiang Lei,
Zheng Yuan, Chang Zhou, Jingren Zhou
- Abstract要約: emphOccuQuestという名前のインストラクションチューニングデータセットを作成し、26の職業カテゴリで1,000以上の職業をカバーする11000以上のプロンプト補完ペアと30,000以上の対話を含む。
次に、OccuQuest上でLLaMAを微調整し、OccuLLaMAを得る。
- 参考スコア(独自算出の注目度): 73.49209444768057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of large language models (LLMs) has revolutionized natural
language processing tasks. However, existing instruction-tuning datasets suffer
from occupational bias: the majority of data relates to only a few occupations,
which hampers the instruction-tuned LLMs to generate helpful responses to
professional queries from practitioners in specific fields. To mitigate this
issue and promote occupation-inclusive LLMs, we create an instruction-tuning
dataset named \emph{OccuQuest}, which contains 110,000+ prompt-completion pairs
and 30,000+ dialogues covering over 1,000 occupations in 26 occupational
categories. We systematically request ChatGPT, organizing queries
hierarchically based on Occupation, Responsibility, Topic, and Question, to
ensure a comprehensive coverage of occupational specialty inquiries. By
comparing with three commonly used datasets (Dolly, ShareGPT, and WizardLM), we
observe that OccuQuest exhibits a more balanced distribution across
occupations. Furthermore, we assemble three test sets for comprehensive
evaluation, an occu-test set covering 25 occupational categories, an estate set
focusing on real estate, and an occu-quora set containing real-world questions
from Quora. We then fine-tune LLaMA on OccuQuest to obtain OccuLLaMA, which
significantly outperforms state-of-the-art LLaMA variants (Vicuna, Tulu, and
WizardLM) on professional questions in GPT-4 and human evaluations. Notably, on
the occu-quora set, OccuLLaMA reaches a high win rate of 86.4\% against
WizardLM.
- Abstract(参考訳): 大規模言語モデル(llm)の出現は自然言語処理タスクに革命をもたらした。
しかし、既存のインストラクションチューニングデータセットは職業バイアスに悩まされており、ほとんどのデータは少数の職業に関係しており、インストラクションチューニング LLM は特定の分野の実践者からプロのクエリに対する有用な応答を生成する。
この問題を緩和し、職業包括的LLMを促進するために、12000以上のプロンプト・コンプリートペアと30,000以上の対話を含む、26の職業カテゴリーで1,000以上の職業をカバーする命令チューニングデータセット「emph{OccuQuest}」を作成しました。
我々はChatGPTを体系的に要求し、職業専門質問の包括的カバレッジを確保するために、職業、責任、トピック、質問に基づいて階層的にクエリを編成する。
一般的な3つのデータセット(Dolly、ShareGPT、WizardLM)と比較することにより、OccuQuestは職業間でよりバランスの取れた分布を示す。
さらに,包括的評価のための3つのテストセット,25の職種を対象としたオククテストセット,不動産に焦点を当てた不動産セット,およびQuoraの現実世界質問を含むオククキュラセットを組み立てた。
次に、OccuQuest上でLLaMAを微調整し、OccuLLaMAを得る。これは、GPT-4および人間の評価における専門的な質問に対して、最先端のLLaMA(Vicuna、Tulu、WizardLM)を著しく上回る。
特にオククキュラセットでは、オクキュラマはウィザードLMに対して86.4\%の勝利率に達する。
関連論文リスト
- CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Rewriting Conversational Utterances with Instructed Large Language Models [9.38751103209178]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成することができる。
本稿では,最高の検索性能をもたらす最も情報に富んだ発話を提示する手法について検討する。
その結果、LLMによる会話音声の書き直しは、MRRで25.2%、Precision@1で31.7%、NDCG@3で27%、Recall@500で11.5%の大幅な改善が達成された。
論文 参考訳(メタデータ) (2024-10-10T10:30:28Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。
我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文 参考訳(メタデータ) (2024-04-20T10:41:02Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based
Queries [2.4816250611120547]
マルチレベルAspect-based queries (DORIS-MAE) を用いた科学的文書検索手法を提案する。
複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。
Anno-GPTは、専門家レベルのデータセットアノテーションタスクにおいて、LLM(Large Language Models)のパフォーマンスを検証するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-07T03:25:06Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。