論文の概要: An Information Extraction Study: Take In Mind the Tokenization!
- arxiv url: http://arxiv.org/abs/2303.15100v2
- Date: Sat, 1 Apr 2023 19:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:24:21.869867
- Title: An Information Extraction Study: Take In Mind the Tokenization!
- Title(参考訳): 情報抽出研究:トークン化を念頭に置いて!
- Authors: Christos Theodoropoulos, Marie-Francine Moens
- Abstract要約: 文書から情報を抽出する際のトークン化の影響について検討する。
本稿では,サブワードベースモデルと文字ベースモデルの比較研究と解析を行う。
トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 18.20319269401045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current research on the advantages and trade-offs of using characters,
instead of tokenized text, as input for deep learning models, has evolved
substantially. New token-free models remove the traditional tokenization step;
however, their efficiency remains unclear. Moreover, the effect of tokenization
is relatively unexplored in sequence tagging tasks. To this end, we investigate
the impact of tokenization when extracting information from documents and
present a comparative study and analysis of subword-based and character-based
models. Specifically, we study Information Extraction (IE) from biomedical
texts. The main outcome is twofold: tokenization patterns can introduce
inductive bias that results in state-of-the-art performance, and the
character-based models produce promising results; thus, transitioning to
token-free IE models is feasible.
- Abstract(参考訳): 深層学習モデルの入力としてトークン化テキストの代わりに文字を使うことの利点とトレードオフに関する最近の研究は、大きく進歩している。
新しいトークンフリーモデルでは従来のトークン化のステップが取り除かれるが、その効率性はまだ不明である。
さらに、トークン化の効果はシーケンスタギングタスクでは比較的未探索である。
そこで本研究では,文書から情報を抽出する際のトークン化の影響を調査し,サブワードモデルと文字モデルの比較検討と分析を行う。
具体的には,生物医学文献からの情報抽出(ie)について検討する。
トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスを導入し、文字ベースのモデルは有望な結果をもたらす。
関連論文リスト
- Efficient Knowledge Distillation: Empowering Small Language Models with Teacher Model Insights [0.412484724941528]
そこで本研究では,小言語モデルの性能向上を目的とした,単純かつ効果的な知識蒸留手法を提案する。
提案手法では,約30億のパラメータを持つ教師モデルを用いて,意思決定プロセスにおいて最も影響力のあるトークンを同定する。
この方法は、4つの多様なデータセットでテストすることによって実証されたように、効果的であることが証明されている。
論文 参考訳(メタデータ) (2024-09-19T09:09:53Z) - Common Steps in Machine Learning Might Hinder The Explainability Aims in Medicine [0.0]
本稿では、機械学習におけるデータ前処理のステップとそのモデルの説明可能性および解釈可能性への影響について論じる。
これらのステップはモデルの精度を向上させるが、特に医学において慎重に考慮されていない場合、モデルの説明可能性を妨げる可能性がある。
論文 参考訳(メタデータ) (2024-08-30T12:09:14Z) - Topic Modelling: Going Beyond Token Outputs [3.072340427031969]
本稿では、従来のトピックモデリング手法の出力を孤立トークンのリストを超えて拡張する新しいアプローチを提案する。
従来のトピックモデリング手法と比較して提案した出力の解釈可能性を測定するため、独立アノテータは各出力を手動で評価した。
論文 参考訳(メタデータ) (2024-01-16T16:05:54Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Metric Tools for Sensitivity Analysis with Applications to Neural
Networks [0.0]
説明可能な人工知能(XAI)は、機械学習モデルによる予測の解釈を提供することを目的としている。
本稿では,計量手法を用いてMLモデルの感性を研究するための理論的枠組みを提案する。
$alpha$-curvesと呼ばれる新しいメトリクスの完全なファミリーが抽出される。
論文 参考訳(メタデータ) (2023-05-03T18:10:21Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。