論文の概要: LLaVA Finds Free Lunch: Teaching Human Behavior Improves Content Understanding Abilities Of LLMs
- arxiv url: http://arxiv.org/abs/2405.00942v1
- Date: Thu, 2 May 2024 02:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-03 18:14:01.354743
- Title: LLaVA Finds Free Lunch: Teaching Human Behavior Improves Content Understanding Abilities Of LLMs
- Title(参考訳): LLaVAが無料ランチ発見:LLMのコンテンツ理解能力を改善する人間行動を教える
- Authors: Somesh Singh, Harini S I, Yaman K Singla, Veeky Baths, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy,
- Abstract要約: 受信者の行動に対するLLMの訓練は,コンテンツ理解能力の向上に有効であることを示す。
この性能は、23のベンチマークデータセット上で、40以上のビデオおよび画像理解タスクで向上する。
我々は、複数のプラットフォームから収集された750kの画像やビデオのレシーバ動作のクリーン化コメントやお気に入りを、インストラクションチューニングデータとともにリリースする。
- 参考スコア(独自算出の注目度): 56.574610730939646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication is defined as ``Who says what to whom with what effect.'' A message from a communicator generates downstream receiver effects, also known as behavior. Receiver behavior, being a downstream effect of the message, carries rich signals about it. Even after carrying signals about the message, the behavior data is often ignored while training large language models. We show that training LLMs on receiver behavior can actually help improve their content-understanding abilities. Specifically, we show that training LLMs to predict the receiver behavior of likes and comments improves the LLM's performance on a wide variety of downstream content understanding tasks. We show this performance increase over 40 video and image understanding tasks over 23 benchmark datasets across both 0-shot and fine-tuning settings, outperforming many supervised baselines. Moreover, since receiver behavior, such as likes and comments, is collected by default on the internet and does not need any human annotations to be useful, the performance improvement we get after training on this data is essentially free-lunch. We release the receiver behavior cleaned comments and likes of 750k images and videos collected from multiple platforms along with our instruction-tuning data.
- Abstract(参考訳): コミュニケーションは ``Who say what to who with what effect。
''コミュニケータからのメッセージは下流の受信側エフェクトを生成します。
受信者の振る舞いは、メッセージの下流効果であり、それに関する豊富な信号を運ぶ。
メッセージに関する信号を伝達した後でも、大きな言語モデルをトレーニングしている間、振る舞いデータは無視されることが多い。
受信者の行動に対するLLMの訓練は,コンテンツ理解能力の向上に有効であることを示す。
具体的には,多種多様なダウンストリームコンテンツ理解タスクにおけるLLMの性能向上を図るために,LLMを学習し,好みやコメントの受信行動を予測できることを示す。
この性能は、0ショットと微調整の両方の設定で23のベンチマークデータセットに対して、40以上のビデオおよび画像理解タスクで向上し、多くの教師付きベースラインよりも優れています。
さらに、愛やコメントなどのレシーバの動作はデフォルトでインターネット上で収集されるため、人間のアノテーションが役に立たないため、このデータのトレーニング後に得られるパフォーマンス改善は基本的に無料です。
我々は、複数のプラットフォームから収集された750kの画像やビデオのレシーバ動作をクリーン化したコメントやお気に入りを、インストラクションチューニングデータとともにリリースする。
関連論文リスト
- LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale [35.58838734226919]
本研究では,ASR単語とビデオフレームをタイムスタンプに応じて密にインターリーブする新たなストリーミングトレーニング手法を提案する。
ASRを用いた視覚言語表現における従来の研究と比較して,本手法はASRのストリーミング特性に自然に適合する。
実験の結果,LiveCC-7B-Instructモデルは,リアルタイムモードでも高度な72Bモデルを上回るコメント品質が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-22T16:52:09Z) - Learning to Instruct for Visual Instruction Tuning [56.23557578405653]
視覚インストラクションチューニング(VIT)の進歩であるLITを提案する。
LITは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことによって、シンプルだが効果的なアプローチを採用する。
驚くべきことに、LITは極めて基本的な視覚能力を備えており、キャプション性能は最大で18%向上している。
論文 参考訳(メタデータ) (2025-03-28T08:04:51Z) - HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models [58.04006758854256]
ビデオ理解のための2段階データアノテーションパイプラインを提案する。
まず、インターネットからの人間の行動を明確にした動画を蓄積する戦略を設計する。
第2に、ビデオは、人間の属性を使って個人を識別する標準化されたキャプション形式で注釈付けされる。
論文 参考訳(メタデータ) (2025-02-28T07:53:40Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior [66.4024040742149]
LLMのトレーニングコーパスでは、受信者の「行動トークン」、例えば、シェア、お気に入り、クリック、購入、リツイートを紹介し、受信者のコンテンツを最適化し、その振る舞いを予測する。
コンテンツ理解タスクにおけるLLMと同じような性能を示す以外に、トレーニングされたモデルでは、行動次元における一般化能力を示す。
これらのモデルをLCBM(Large Content and Behavior Models)と呼ぶ。
論文 参考訳(メタデータ) (2023-09-01T09:34:49Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。