Fugu-MT 論文翻訳(概要): The Architectural Bottleneck Principle

論文の概要: The Architectural Bottleneck Principle

arxiv url: http://arxiv.org/abs/2211.06420v1
Date: Fri, 11 Nov 2022 18:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 15:29:03.369758
Title: The Architectural Bottleneck Principle
Title（参考訳）: アーキテクチャボトルネックの原則
Authors: Tiago Pimentel, Josef Valvoda, Niklas Stoehr, Ryan Cotterell
Abstract要約: アーキテクチャボトルネックの原則である探索のための新しい原則を提案する。あるコンポーネントがどれだけ情報を抽出できるかを見積もるためには、プローブはコンポーネントと全く同じように見えるべきです。 3つのモデル(BERT, ALBERT, RoBERTa)において,文の構文木は探索によって抽出可能であることがわかった。
参考スコア（独自算出の注目度）: 67.20385981822746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we seek to measure how much information a component in a neural network could extract from the representations fed into it. Our work stands in contrast to prior probing work, most of which investigates how much information a model's representations contain. This shift in perspective leads us to propose a new principle for probing, the architectural bottleneck principle: In order to estimate how much information a given component could extract, a probe should look exactly like the component. Relying on this principle, we estimate how much syntactic information is available to transformers through our attentional probe, a probe that exactly resembles a transformer's self-attention head. Experimentally, we find that, in three models (BERT, ALBERT, and RoBERTa), a sentence's syntax tree is mostly extractable by our probe, suggesting these models have access to syntactic information while composing their contextual representations. Whether this information is actually used by these models, however, remains an open question.
Abstract（参考訳）: 本稿では、ニューラルネットワークのコンポーネントが入力した表現からどれだけの情報を抽出することができるかを測定する。私たちの研究は、モデル表現がどれだけの情報を含んでいるかを調べる事前調査とは対照的です。この視点の変化は、探索のための新しい原則、すなわちアーキテクチャボトルネックの原則を提案している: あるコンポーネントがどれだけの情報を引き出すことができるかを見積もるために、プローブはコンポーネントと全く同じように見えるべきである。この原理に依拠して、我々はトランスフォーマーの自己着脱ヘッドと正確に類似したプローブである注意プローブを通して、トランスフォーマーにどの程度の構文情報が得られるかを推定する。実験により、3つのモデル(bert、albert、roberta)において、文の構文木は、主にプローブによって抽出可能であり、これらのモデルが文脈表現を合成しながら構文情報にアクセス可能であることを示唆する。しかし、この情報が実際にこれらのモデルで使われているかどうかは未解決のままだ。

関連論文リスト

Statistical signatures of abstraction in deep neural networks [0.0]
我々は、ベンチマークデータセットに基づいてトレーニングされたDeep Belief Network(DBN)において、抽象表現がどのように現れるかを研究する。表現は最大関連性の原理によって決定される普遍モデルに近づくことを示す。また、プラスチック度は脳のそれと同じような深さで増加することも示しています。
論文参考訳（メタデータ） (2024-07-01T14:13:11Z)
Prompt Based Tri-Channel Graph Convolution Neural Network for Aspect Sentiment Triplet Extraction [63.0205418944714]
Aspect Sentiment Triplet extract (ASTE)は、ある文の三つ子を抽出する新しいタスクである。近年の研究では、単語関係を二次元テーブルにエンコードするテーブル充填パラダイムを用いてこの問題に対処する傾向にある。本稿では, 関係表をグラフに変換し, より包括的な関係情報を探索する, Prompt-based Tri-Channel Graph Convolution Neural Network (PT-GCN) と呼ばれるASTEタスクの新しいモデルを提案する。
論文参考訳（メタデータ） (2023-12-18T12:46:09Z)
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文参考訳（メタデータ） (2023-08-23T18:53:00Z)
On the Transition from Neural Representation to Symbolic Knowledge [2.2528422603742304]
本稿では,EMアルゴリズムを用いてデータのトランザクショナル表現を学習するニューラルネットワークトランザクショナル辞書学習(TDL)フレームワークを提案する。我々は,協調ゲームとしての入力の分解に関して,拡散モデルを用いてフレームワークを実装した。さらに、マルコフモデルによって実現されたRLを用いて、学習したプロトタイプをさらに調整する。
論文参考訳（メタデータ） (2023-08-03T19:29:35Z)
All Roads Lead to Rome? Exploring the Invariance of Transformers' Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。 BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文参考訳（メタデータ） (2023-05-23T22:30:43Z)
VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。 LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文参考訳（メタデータ） (2023-05-22T19:04:56Z)
ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文参考訳（メタデータ） (2022-12-12T13:10:19Z)
Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2021-03-22T08:11:43Z)
HittER: Hierarchical Transformers for Knowledge Graph Embeddings [85.93509934018499]
複雑な知識グラフにおける実体と関係の表現を学習するためにHittを提案する。実験結果から,Hittは複数リンク予測において最先端の新たな結果が得られることがわかった。さらに,HittをBERTに統合する簡単なアプローチを提案し,その効果を2つのFreebaseファクトイド対応データセットで示す。
論文参考訳（メタデータ） (2020-08-28T18:58:15Z)
Do Syntax Trees Help Pre-trained Transformers Extract Information? [8.133145094593502]
本稿では,情報抽出タスクにおいて,依存木を事前学習した変換器に組み込むことの有用性について検討する。依存関係構造を組み込むための2つの異なる戦略を提案し,検討する。それらの性能向上は,人間による注釈付き依存関係解析の可用性に大きく影響していることがわかった。
論文参考訳（メタデータ） (2020-08-20T17:17:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。