論文の概要: On the Transformations across Reward Model, Parameter Update, and In-Context Prompt
- arxiv url: http://arxiv.org/abs/2406.16377v1
- Date: Mon, 24 Jun 2024 07:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:53:24.587931
- Title: On the Transformations across Reward Model, Parameter Update, and In-Context Prompt
- Title(参考訳): 逆モデル、パラメータ更新、文脈内プロンプト間の変換について
- Authors: Deng Cai, Huayang Li, Tingchen Fu, Siheng Li, Weiwen Xu, Shuaiyi Li, Bowen Cao, Zhisong Zhang, Xinting Huang, Leyang Cui, Yan Wang, Lemao Liu, Taro Watanabe, Shuming Shi,
- Abstract要約: 本稿では,パラメータ更新,報酬モデリング,コンテキスト内プロンプトという,一般的な3つの適応ツールの互換性を示す。
我々の研究は、既存の多くの研究を統一し、潜在的研究の方向性を示唆する総合的な見解を提供する。
- 参考スコア(独自算出の注目度): 83.48364984314127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the general capabilities of pre-trained large language models (LLMs), they still need further adaptation to better serve practical applications. In this paper, we demonstrate the interchangeability of three popular and distinct adaptation tools: parameter updating, reward modeling, and in-context prompting. This interchangeability establishes a triangular framework with six transformation directions, each of which facilitates a variety of applications. Our work offers a holistic view that unifies numerous existing studies and suggests potential research directions. We envision our work as a useful roadmap for future research on LLMs.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)の一般的な機能にもかかわらず、実用的アプリケーションに役立てるためには、さらなる適応が必要である。
本稿では,パラメータ更新,報酬モデリング,コンテキスト内プロンプトという,一般的な3つの適応ツールの互換性を示す。
この交換性は、6つの変換方向を持つ三角形のフレームワークを確立し、それぞれが様々なアプリケーションを促進する。
我々の研究は、既存の多くの研究を統一し、潜在的研究の方向性を示唆する総合的な見解を提供する。
LLMの今後の研究に有用なロードマップとして,我々の研究を想定する。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - A Review of Prominent Paradigms for LLM-Based Agents: Tool Use (Including RAG), Planning, and Feedback Learning [0.6247103460512108]
ツールの使用、計画、フィードバック学習は、現在、LLM(Large Language Model)ベースのエージェントを開発するための3つの重要なパラダイムである。
この調査では、これらのフレームワークを体系的にレビューし、議論するための統合された分類法を導入している。
論文 参考訳(メタデータ) (2024-06-09T14:42:55Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey [15.571673103536414]
パラメータ効率のよい微調整(PEFT)を研究中
PEFTは最小パラメータ修正による完全微調整の性能を上回ることを目指している。
本調査は視覚的PEFTの総合的概要と今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-02-03T19:12:20Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Subequivariant Graph Reinforcement Learning in 3D Environments [34.875774768800966]
本稿では,3次元環境における変分グラフRL(Subequivariant Graph RL)という,形態に依存しないRLの新たなセットアップを提案する。
具体的には、まず3D空間でより実用的で挑戦的なベンチマークを新たに導入する。
拡張状態-作用空間上のポリシーを最適化するために,幾何対称性を注入することを提案する。
論文 参考訳(メタデータ) (2023-05-30T11:34:57Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。