論文の概要: Investigating the Decoders of Maximum Likelihood Sequence Models: A
Look-ahead Approach
- arxiv url: http://arxiv.org/abs/2003.03716v1
- Date: Sun, 8 Mar 2020 04:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:15:28.481575
- Title: Investigating the Decoders of Maximum Likelihood Sequence Models: A
Look-ahead Approach
- Title(参考訳): 最大類似配列モデルのデコーダの検討:ルックアヘッドアプローチ
- Authors: Yu-Siang Wang, Yen-Ling Kuo, Boris Katz
- Abstract要約: 我々は,k段までのロールアウトの可能性を考慮した「k段ルックアヘッド」モジュールを提案する。
様々な難易度を持つ3つのデータセットに対して、ルックアヘッドモジュールを評価した。
- 参考スコア(独自算出の注目度): 16.082705588773806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate how we can practically incorporate multi-step future
information into a decoder of maximum likelihood sequence models. We propose a
"k-step look-ahead" module to consider the likelihood information of a rollout
up to k steps. Unlike other approaches that need to train another value network
to evaluate the rollouts, we can directly apply this look-ahead module to
improve the decoding of any sequence model trained in a maximum likelihood
framework. We evaluate our look-ahead module on three datasets of varying
difficulties: IM2LATEX-100k OCR image to LaTeX, WMT16 multimodal machine
translation, and WMT14 machine translation. Our look-ahead module improves the
performance of the simpler datasets such as IM2LATEX-100k and WMT16 multimodal
machine translation. However, the improvement of the more difficult dataset
(e.g., containing longer sequences), WMT14 machine translation, becomes
marginal. Our further investigation using the k-step look-ahead suggests that
the more difficult tasks suffer from the overestimated EOS (end-of-sentence)
probability. We argue that the overestimated EOS probability also causes the
decreased performance of beam search when increasing its beam width. We tackle
the EOS problem by integrating an auxiliary EOS loss into the training to
estimate if the model should emit EOS or other words. Our experiments show that
improving EOS estimation not only increases the performance of our proposed
look-ahead module but also the robustness of the beam search.
- Abstract(参考訳): 我々は,多段階の将来の情報を,最大次数列モデルのデコーダに実際に組み込む方法を示す。
我々は,kステップまでのロールアウトの可能性を考慮し,kステップルックアヘッドモジュールを提案する。
ロールアウトを評価するために他のバリューネットワークをトレーニングする他のアプローチとは異なり、このルックアヘッドモジュールを直接適用して、最大限のフレームワークでトレーニングされた任意のシーケンスモデルのデコードを改善することができる。
IM2LATEX-100k OCR画像からLaTeX、WMT16マルチモーダル機械翻訳、WMT14機械翻訳の3つの難易度データセットに対するルックアヘッドモジュールの評価を行った。
我々のルックアヘッドモジュールは、IM2LATEX-100kやWMT16マルチモーダル機械翻訳のような単純なデータセットの性能を向上させる。
しかし、より難しいデータセット(例えば、長いシーケンスを含む)、WMT14機械翻訳の改善は限界に達している。
k-step look-aheadを用いたさらなる調査は、より困難なタスクが過大評価されたEOS(end-of-sentence)確率に悩まされることを示唆している。
過大評価されたEOS確率はビーム幅を増大させる際にビーム探索の性能を低下させる。
モデルがEOSや他の単語を出力するかどうかを推定するために、トレーニングに補助的なEOS損失を統合することで、EOS問題に取り組む。
実験の結果,EOS推定の改善は,提案したルックアヘッドモジュールの性能を高めるだけでなく,ビームサーチの堅牢性も向上することがわかった。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding [1.2781698000674653]
PerspectiveNetは、複数のカメラビューにわたる長い記述を生成するための軽量モデルである。
提案手法では,視覚エンコーダ,コンパクトコネクタモジュール,および大規模言語モデルを用いる。
結果として得られるモデルは軽量で、効率的なトレーニングと推論を確実にします。
論文 参考訳(メタデータ) (2024-10-22T08:57:17Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs [45.41083125321069]
マルチモーダル機械翻訳(MMT)システムは、テキスト入力が完了すると視覚情報に対する感度が低下する。
ソーステキストからVQAスタイルのペアを並列に生成する手法が提案されている。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
論文 参考訳(メタデータ) (2023-10-26T04:13:49Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。