論文の概要: Refining the Responses of LLMs by Themselves
- arxiv url: http://arxiv.org/abs/2305.04039v1
- Date: Sat, 6 May 2023 13:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 18:07:41.266586
- Title: Refining the Responses of LLMs by Themselves
- Title(参考訳): 膜によるLDMの応答の精製
- Authors: Tianqiang Yan and Tiansheng Xu
- Abstract要約: 繰り返し自己評価最適化機構を導入し、イテレーションが進むにつれて出力品質が向上する可能性を秘めている。
実験結果から, GPT-3.5モデルにおける応答改善フレームワークの利用は, 最先端の GPT-4 モデルと同等あるいはそれ以上の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we propose a simple yet efficient approach based on prompt
engineering that leverages the large language model itself to optimize its
answers without relying on auxiliary models. We introduce an iterative
self-evaluating optimization mechanism, with the potential for improved output
quality as iterations progress, removing the need for manual intervention. The
experiment's findings indicate that utilizing our response refinement framework
on the GPT-3.5 model yields results that are on par with, or even surpass,
those generated by the cutting-edge GPT-4 model. Detailed implementation
strategies and illustrative examples are provided to demonstrate the
superiority of our proposed solution.
- Abstract(参考訳): 本稿では,大規模言語モデル自体を活用して補助モデルに頼らずに解答を最適化する,プロンプトエンジニアリングに基づく単純かつ効率的な手法を提案する。
反復的な自己評価最適化機構を導入し,反復が進行するにつれて出力品質が向上し,手作業による介入が不要になる可能性がある。
実験結果から, GPT-3.5モデルにおける応答改善フレームワークの利用は, 最先端の GPT-4 モデルと同等あるいはそれ以上の結果が得られることがわかった。
提案手法の優位性を示すための詳細な実装戦略と図示例を提供する。
関連論文リスト
- Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。
本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。
ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:11:59Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Model-based Preference Optimization in Abstractive Summarization without Human Feedback [5.438770095369458]
人間のフィードバックを伴わずに要約能力を向上させるために,モデルベース推論最適化(MPO)を導入している。
標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-27T10:35:45Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。