論文の概要: Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering
- arxiv url: http://arxiv.org/abs/2406.00037v1
- Date: Mon, 27 May 2024 14:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:09:32.325210
- Title: Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering
- Title(参考訳): プログラミング質問応答のためのマルチパースペクティブなユーザの選好ランク付けに基づくフィードバックによるLCMの調整
- Authors: Hongyu Yang, Liyang He, Min Hou, Shuanghong Shen, Rui Li, Jiahui Hou, Jianhui Ma, Junda Zhao,
- Abstract要約: Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。
RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。
本稿では,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づくALMupQA(Aligning LLMs)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.394601658945625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code Community Question Answering (CCQA) seeks to tackle programming-related issues, thereby boosting productivity in both software engineering and academic research. Recent advancements in Reinforcement Learning from Human Feedback (RLHF) have transformed the fine-tuning process of Large Language Models (LLMs) to produce responses that closely mimic human behavior. Leveraging LLMs with RLHF for practical CCQA applications has thus emerged as a promising area of study. Unlike standard code question-answering tasks, CCQA involves multiple possible answers, with varying user preferences for each response. Additionally, code communities often show a preference for new APIs. These challenges prevent LLMs from generating responses that cater to the diverse preferences of users in CCQA tasks. To address these issues, we propose a novel framework called Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering (ALMupQA) to create user-focused responses. Our approach starts with Multi-perspective Preference Ranking Alignment (MPRA), which synthesizes varied user preferences based on the characteristics of answers from code communities. We then introduce a Retrieval-augmented In-context Learning (RIL) module to mitigate the problem of outdated answers by retrieving responses to similar questions from a question bank. Due to the limited availability of high-quality, multi-answer CCQA datasets, we also developed a dataset named StaCCQA from real code communities. Extensive experiments demonstrated the effectiveness of the ALMupQA framework in terms of accuracy and user preference. Compared to the base model, ALMupQA showed nearly an 11% improvement in BLEU, with increases of 20% and 17.5% in BERTScore and CodeBERTScore, respectively.
- Abstract(参考訳): Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。
RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。
実用的なCCQA応用のためのRLHFを用いたLCMの活用が,将来性のある研究分野として浮上している。
通常のコード問合せタスクとは異なり、CCQAは複数の可能な回答を伴い、応答ごとにユーザの好みが変わる。
さらに、コードコミュニティは、しばしば新しいAPIを好む。
これらの課題は、LCMがCCQAタスクにおけるユーザの多様な好みに対応する応答を生成するのを防ぐ。
これらの問題に対処するために,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づく新しいフレームワークであるAligning LLMを提案する。
提案手法は,コードコミュニティからの回答の特徴に基づいて,多様なユーザの嗜好を合成するMPRA(Multi-perspective Preference Ranking Alignment)から始める。
次に、質問銀行から同様の質問に対する回答を検索することで、古い回答の問題を軽減するために、Retrieval-augmented In-context Learning (RIL)モジュールを導入する。
高品質でマルチ回答可能なCCQAデータセットが限られているため、実際のコードコミュニティからStaCCQAという名前のデータセットも開発しました。
ALMupQAフレームワークの有効性を、精度とユーザ嗜好の観点から実証した。
ベースモデルと比較すると、ALMupQAはBLEUが11%改善し、BERTScoreとCodeBERTScoreはそれぞれ20%と17.5%増加した。
関連論文リスト
- AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Putting People in LLMs' Shoes: Generating Better Answers via Question Rewriter [17.736962215696366]
本稿では,単一ラウンドのインスタンスレベルのプロンプト最適化について述べる。
ブラックボックスLSMに対する人間の質問の信頼性を高めることにより、質問書き直しは生成した回答の品質を向上させる。
論文 参考訳(メタデータ) (2024-08-20T06:24:47Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Enhancing Answer Selection in Community Question Answering with
Pre-trained and Large Language Models [0.9065034043031668]
まず,質問応答型クロスアテンションネットワーク(QAN)を提案する。
次に,大規模言語モデル(LLM)を用いて,知識拡張による回答選択を行う。
実験の結果、QANモデルが2つのデータセット、SemEval2015とSemEval 2017の最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-29T10:24:50Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs
Answering [13.735277588793997]
クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討する。
本研究は,同じ数学的推論ステップと問題解決手順を含む類似のクエリをユーザが質問する典型的な状況に焦点を当てる。
本稿では,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語質問を改善することを提案する。
論文 参考訳(メタデータ) (2023-04-27T01:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。