論文の概要: LLaVA Finds Free Lunch: Teaching Human Behavior Improves Content Understanding Abilities Of LLMs
- arxiv url: http://arxiv.org/abs/2405.00942v2
- Date: Thu, 16 May 2024 21:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 18:02:35.089844
- Title: LLaVA Finds Free Lunch: Teaching Human Behavior Improves Content Understanding Abilities Of LLMs
- Title(参考訳): LLaVAが無料ランチ発見:LLMのコンテンツ理解能力を改善する人間行動を教える
- Authors: Somesh Singh, Harini S I, Yaman K Singla, Veeky Baths, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy,
- Abstract要約: 受信者の振る舞いに関するLLMのトレーニングは、コンテンツ理解能力の向上に役立つ。
この性能は、23のベンチマークデータセット上で、40以上のビデオおよび画像理解タスクで向上する。
我々は、複数のプラットフォームから収集された750kの画像やビデオのレシーバ動作のクリーン化コメントやお気に入りを、インストラクションチューニングデータとともにリリースする。
- 参考スコア(独自算出の注目度): 56.574610730939646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is defined as "Who says what to whom with what effect." A message from a communicator generates downstream receiver effects, also known as behavior. Receiver behavior, being a downstream effect of the message, carries rich signals about it. Even after carrying signals about the message, the behavior data is often ignored while training large language models. We show that training LLMs on receiver behavior can actually help improve their content-understanding abilities. Specifically, we show that training LLMs to predict the receiver behavior of likes and comments improves the LLM's performance on a wide variety of downstream content understanding tasks. We show this performance increase over 40 video and image understanding tasks over 23 benchmark datasets across both 0-shot and fine-tuning settings, outperforming many supervised baselines. Moreover, since receiver behavior, such as likes and comments, is collected by default on the internet and does not need any human annotations to be useful, the performance improvement we get after training on this data is essentially free-lunch. We release the receiver behavior cleaned comments and likes of 750k images and videos collected from multiple platforms along with our instruction-tuning data.
- Abstract(参考訳): コミュニケーションは "Who says what to who with what effect" と定義される。
コミュニケータからのメッセージは、ダウンストリームレシーバエフェクト(振舞いとしても知られる)を生成する。
受信者の振る舞いは、メッセージの下流効果であり、それに関する豊富な信号を運ぶ。
メッセージに関する信号を伝達した後でも、大きな言語モデルをトレーニングしている間、振る舞いデータは無視されることが多い。
受信者の行動に対するLLMの訓練は,コンテンツ理解能力の向上に有効であることを示す。
具体的には,多種多様なダウンストリームコンテンツ理解タスクにおけるLLMの性能向上を図るために,LLMを学習し,好みやコメントの受信行動を予測できることを示す。
この性能は、0ショットと微調整の両方の設定で23のベンチマークデータセットに対して、40以上のビデオおよび画像理解タスクで向上し、多くの教師付きベースラインよりも優れています。
さらに、愛やコメントなどのレシーバの動作はデフォルトでインターネット上で収集されるため、人間のアノテーションが役に立たないため、このデータのトレーニング後に得られるパフォーマンス改善は基本的に無料です。
我々は、複数のプラットフォームから収集された750kの画像やビデオのレシーバ動作をクリーン化したコメントやお気に入りを、インストラクションチューニングデータとともにリリースする。
関連論文リスト
- Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior [66.4024040742149]
LLMのトレーニングコーパスでは、受信者の「行動トークン」、例えば、シェア、お気に入り、クリック、購入、リツイートを紹介し、受信者のコンテンツを最適化し、その振る舞いを予測する。
コンテンツ理解タスクにおけるLLMと同じような性能を示す以外に、トレーニングされたモデルでは、行動次元における一般化能力を示す。
これらのモデルをLCBM(Large Content and Behavior Models)と呼ぶ。
論文 参考訳(メタデータ) (2023-09-01T09:34:49Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。