Fugu-MT 論文翻訳(概要): The Power of External Memory in Increasing Predictive Model Capacity

論文の概要: The Power of External Memory in Increasing Predictive Model Capacity

arxiv url: http://arxiv.org/abs/2302.00003v1
Date: Tue, 31 Jan 2023 00:29:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 14:01:37.192234
Title: The Power of External Memory in Increasing Predictive Model Capacity
Title（参考訳）: 予測モデル容量の増大における外部記憶の力
Authors: Cenk Baykal, Dylan J Cutler, Nishanth Dikkala, Nikhil Ghosh, Rina Panigrahy, Xin Wang
Abstract要約: ディープネットワークに疎結合を導入する方法の1つは、ネットワークの異なるレイヤをわずかに見上げるパラメータの外部テーブルをアタッチすることである。パラメータの大部分を外部テーブルに格納することで、必ずしも推論時間を増大させることなく、モデルのキャパシティを増大させることができる。
参考スコア（独自算出の注目度）: 15.364501124633179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One way of introducing sparsity into deep networks is by attaching an external table of parameters that is sparsely looked up at different layers of the network. By storing the bulk of the parameters in the external table, one can increase the capacity of the model without necessarily increasing the inference time. Two crucial questions in this setting are then: what is the lookup function for accessing the table and how are the contents of the table consumed? Prominent methods for accessing the table include 1) using words/wordpieces token-ids as table indices, 2) LSH hashing the token vector in each layer into a table of buckets, and 3) learnable softmax style routing to a table entry. The ways to consume the contents include adding/concatenating to input representation, and using the contents as expert networks that specialize to different inputs. In this work, we conduct rigorous experimental evaluations of existing ideas and their combinations. We also introduce a new method, alternating updates, that enables access to an increased token dimension without increasing the computation time, and demonstrate its effectiveness in language modeling.
Abstract（参考訳）: ディープネットワークに疎結合を導入する方法の1つは、ネットワークの異なるレイヤをわずかに見上げるパラメータの外部テーブルをアタッチすることである。パラメータの大部分を外部テーブルに格納することで、推論時間を増加させることなく、モデルのキャパシティを増加させることができる。テーブルにアクセスするためのルックアップ関数は何で、テーブルの内容はどのように消費されますか? テーブルにアクセスするための顕著な方法 1)表のインデックスとして単語/ワードピースのトークンidを使用する。 2) lshは各レイヤのトークンベクトルをバケットのテーブルにハッシュし、 3) テーブルエントリへの学習可能なsoftmaxスタイルのルーティング。コンテンツを使用するには、入力表現の追加/連結、異なる入力を専門とするエキスパートネットワークとしてコンテンツを使用する。本研究では,既存のアイデアとその組み合わせの厳密な実験的評価を行う。また,計算時間を増加させることなくトークン次元を増加させる新たな手法を提案するとともに,言語モデリングにおけるその効果を実証する。

関連論文リスト

TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models [57.005158277893194]
TableLoRA は、PEFT における LLM のテーブル構造理解を改善するために設計されたモジュールである。テーブルを特別なトークンエンコーダでシリアライズするための特別なトークンを組み込み、2D LoRAを使ってセル位置の低ランク情報をエンコードする。
論文参考訳（メタデータ） (2025-03-06T12:50:14Z)
TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文参考訳（メタデータ） (2024-06-03T13:54:05Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
Augment before You Try: Knowledge-Enhanced Table Question Answering via Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文参考訳（メタデータ） (2024-01-28T03:37:11Z)
SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。 SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文参考訳（メタデータ） (2023-03-08T05:15:01Z)
OmniTab: Pretraining with Natural and Synthetic Data for Few-shot Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文参考訳（メタデータ） (2022-07-08T01:23:45Z)
Split, embed and merge: An accurate table structure recognizer [42.579215135672094]
テーブル構造認識器としてSplit, Embed, Merge (SEM) を導入する。 SEM は SciTSR データセットで平均 F-Measure の 96.9% を達成できる。
論文参考訳（メタデータ） (2021-07-12T06:26:19Z)
Lookup-Table Recurrent Language Models for Long Tail Speech Recognition [40.76888403139426]
単一のトークンではなく、前のn-gramトークンシーケンスを埋め込んだ埋め込みテーブルをインスタンス化する。これにより、埋め込みテーブルを任意にスケールアップできる。 LookupLMは、下流音声認識タスクにおいて、ロングテールログのPerplexityを2.44、ロングテールWERを23.4%改善する。
論文参考訳（メタデータ） (2021-04-09T18:31:30Z)
TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文参考訳（メタデータ） (2021-02-17T02:18:10Z)
Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文参考訳（メタデータ） (2020-10-15T09:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。