Fugu-MT 論文翻訳(概要): Autoregressive Modeling with Lookahead Attention

論文の概要: Autoregressive Modeling with Lookahead Attention

arxiv url: http://arxiv.org/abs/2305.12272v1
Date: Sat, 20 May 2023 19:29:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 23:19:55.906721
Title: Autoregressive Modeling with Lookahead Attention
Title（参考訳）: ルックアヘッド注意による自己回帰モデリング
Authors: Li Du, Hongyuan Mei, Jason Eisner
Abstract要約: 本稿では,過去の複数継続を補間することにより,次のトーケン分布を推定するトランスフォーマーベースの自己回帰アーキテクチャについて考察する。このアーキテクチャは、ボードゲームプレイヤーのような古典的なAIシステムから洞察を引き出す。
参考スコア（独自算出の注目度）: 31.289304696262903
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To predict the next token, autoregressive models ordinarily examine the past. Could they also benefit from also examining hypothetical futures? We consider a novel Transformer-based autoregressive architecture that estimates the next-token distribution by extrapolating multiple continuations of the past, according to some proposal distribution, and attending to these extended strings. This architecture draws insights from classical AI systems such as board game players: when making a local decision, a policy may benefit from exploring possible future trajectories and analyzing them. On multiple tasks including morphological inflection and Boolean satisfiability, our lookahead model is able to outperform the ordinary Transformer model of comparable size. However, on some tasks, it appears to be benefiting from the extra computation without actually using the lookahead information. We discuss possible variant architectures as well as future speedups.
Abstract（参考訳）: 次のトークンを予測するために、自己回帰モデルは通常過去を検査する。また、仮説的な未来も調べられるだろうか? 提案手法では,過去の複数継続を外挿し,これらの拡張文字列に付随させることで,次のトーケン分布を推定するトランスフォーマーに基づく新しい自己回帰アーキテクチャを提案する。このアーキテクチャは、ボードゲームプレイヤーのような古典的なAIシステムから洞察を引き出す: ローカルな決定を行うとき、ポリシーは将来の軌道を探究し、それらを分析することの恩恵を受ける。形態的インフレクションやブール適合性を含む複数のタスクにおいて、我々のルックアヘッドモデルは、同等の大きさの通常のトランスフォーマーモデルよりも優れている。しかし、一部のタスクでは、実際にルックアヘッド情報を使わずに余分な計算の恩恵を受けているようだ。将来的なスピードアップだけでなく、変更可能なアーキテクチャについても論じる。

関連論文リスト

What can we learn from signals and systems in a transformer? Insights for probabilistic modeling and inference architecture [0.5801044612920815]
本稿では,変圧器の信号を条件付き測度の代理として解釈する確率モデルを提案する。モデルが隠れマルコフモデルである特別な場合、固定点更新の明示的な形式が記述される。
論文参考訳（メタデータ） (2025-08-27T18:37:55Z)
Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework [2.8470354623829577]
本研究では,時系列変換器の解釈可能性を実現するための概念ボトルネックモデルに基づくフレームワークを開発する。我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。
論文参考訳（メタデータ） (2024-10-08T14:22:40Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文参考訳（メタデータ） (2024-02-12T16:15:25Z)
Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文参考訳（メタデータ） (2023-10-23T04:35:58Z)
VQ-AR: Vector Quantized Autoregressive Probabilistic Time Series Forecasting [10.605719154114354]
時系列モデルは過去の予測を正確に予測することを目的としており、そこではビジネス上の意思決定のような重要な下流のタスクに予測が使用される。本稿では,新しい自己回帰型アーキテクチャであるVQ-ARを提案する。
論文参考訳（メタデータ） (2022-05-31T15:43:46Z)
Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文参考訳（メタデータ） (2021-08-26T17:55:11Z)
FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。 FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文参考訳（メタデータ） (2021-06-24T17:20:21Z)
What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文参考訳（メタデータ） (2020-11-20T21:27:10Z)
Probabilistic Future Prediction for Video Scene Understanding [11.236856606065514]
本稿では,ビデオからの確率論的未来予測のための新しいディープラーニングアーキテクチャを提案する。我々は、未来の意味論、複雑な現実世界の都市シーンの動きを予測し、この表現を使って自動運転車を制御する。
論文参考訳（メタデータ） (2020-03-13T17:48:21Z)
Stochastic Latent Residual Video Prediction [0.0]
本稿では,残差更新規則により動的に潜在空間に支配される新しい時間モデルを提案する。ビデオのダイナミックスを自然にモデル化し、よりシンプルで解釈しやすく、潜在的なモデルによって、挑戦的なデータセットに関する最先端の手法を上回ります。
論文参考訳（メタデータ） (2020-02-21T10:44:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。