論文の概要: TLDR: Token-Level Detective Reward Model for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2410.04734v1
- Date: Mon, 7 Oct 2024 04:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 02:17:53.675624
- Title: TLDR: Token-Level Detective Reward Model for Large Vision Language Models
- Title(参考訳): TLDR:大規模視覚言語モデルのためのトークンレベル検出リワードモデル
- Authors: Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen,
- Abstract要約: 既存の報酬モデルは、任意のテキストに1つのバイナリフィードバックを割り当てることによって、人間のアノテーションを模倣するだけである。
我々は、各テキストトークンにきめ細かいアノテーションを提供するために、$textbfT$oken-$textbfL$evel $textbfD$etective $textbfR$eward Modelを提案する。
- 参考スコア(独自算出の注目度): 57.41524422460438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although reward models have been successful in improving multimodal large language models, the reward models themselves remain brutal and contain minimal information. Notably, existing reward models only mimic human annotations by assigning only one binary feedback to any text, no matter how long the text is. In the realm of multimodal language models, where models are required to process both images and texts, a naive reward model may learn implicit biases toward texts and become less grounded in images. In this paper, we propose a $\textbf{T}$oken-$\textbf{L}$evel $\textbf{D}$etective $\textbf{R}$eward Model ($\textbf{TLDR}$) to provide fine-grained annotations to each text token. We first introduce a perturbation-based method to generate synthetic hard negatives and their token-level labels to train TLDR models. Then we show the rich usefulness of TLDR models both in assisting off-the-shelf models to self-correct their generations, and in serving as a hallucination evaluation tool. Finally, we show that TLDR models can significantly speed up human annotation by 3 times to acquire a broader range of high-quality vision language data.
- Abstract(参考訳): 報酬モデルはマルチモーダルな大言語モデルの改善に成功しているが、報酬モデル自体は残酷であり、最小限の情報を含んでいる。
特に、既存の報酬モデルは、テキストがどれだけ長くても、任意のテキストに1つのバイナリフィードバックだけを割り当てることによって、人間のアノテーションを模倣するだけである。
画像とテキストの両方を処理するためにモデルを必要とするマルチモーダル言語モデルの領域では、単純報酬モデルがテキストに対する暗黙の偏見を学習し、画像の基盤を狭めることができる。
本稿では、各テキストトークンに詳細なアノテーションを提供するために、$\textbf{T}$oken-$\textbf{L}$evel $\textbf{D}$etective $\textbf{R}$eward Model$\textbf{TLDR}$)を提案する。
まず,TLDRモデルのトレーニングを行うために,合成ハードネガティブとそのトークンレベルラベルを生成する摂動に基づく手法を提案する。
そこで本論文では,TLDRモデルの有用性について述べるとともに,自己修正モデルと幻覚評価ツールとしての有用性について述べる。
最後に,TLDRモデルにより人間のアノテーションを3倍に高速化し,高品質な視覚言語データが得られることを示す。
関連論文リスト
- The Accuracy Paradox in RLHF: When Better Reward Models Don't Yield Better Language Models [18.64902083536956]
適度に正確な報酬モデルで訓練された言語モデルは、高い精度で指導された言語よりも優れていることを示す。
このことは、より強力な報酬モデルが常により良い言語モデルにつながるという広く信じられている信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-09T05:17:08Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
制御された知覚生成と要約では、チューニングされていない$textttgpt2$sを使用して、追加のトレーニングなしで大規模モデルのアライメントを改善する。
より難しい命令追従ベンチマークでは、市販の小型モデルの再利用により、ホワイトボックスモデルとブラックボックスモデルの両方の長制御された勝利率を改善することが示されている。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。