論文の概要: Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction
- arxiv url: http://arxiv.org/abs/2306.11386v1
- Date: Tue, 20 Jun 2023 08:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:02:04.982327
- Title: Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction
- Title(参考訳): モデルはドキュメントを理解できたか?
文書レベル関係抽出における言語理解のためのベンチマークモデル
- Authors: Haotian Chen, Bingsheng Chen, Xiangdong Zhou
- Abstract要約: 近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
- 参考スコア(独自算出の注目度): 2.4665182280122577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document-level relation extraction (DocRE) attracts more research interest
recently. While models achieve consistent performance gains in DocRE, their
underlying decision rules are still understudied: Do they make the right
predictions according to rationales? In this paper, we take the first step
toward answering this question and then introduce a new perspective on
comprehensively evaluating a model. Specifically, we first conduct annotations
to provide the rationales considered by humans in DocRE. Then, we conduct
investigations and reveal the fact that: In contrast to humans, the
representative state-of-the-art (SOTA) models in DocRE exhibit different
decision rules. Through our proposed RE-specific attacks, we next demonstrate
that the significant discrepancy in decision rules between models and humans
severely damages the robustness of models and renders them inapplicable to
real-world RE scenarios. After that, we introduce mean average precision (MAP)
to evaluate the understanding and reasoning capabilities of models. According
to the extensive experimental results, we finally appeal to future work to
consider evaluating both performance and the understanding ability of models
for the development of their applications. We make our annotations and code
publicly available.
- Abstract(参考訳): 近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルがDocREで一貫したパフォーマンス向上を達成する一方で、その根底にある決定ルールはまだ検討されている。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
具体的には、DocREで人間が考える理性を提供するために、まずアノテーションを実践する。
人間とは対照的に、DocREの代表的な最先端(SOTA)モデルは、異なる決定ルールを示します。
提案する再特定攻撃により、モデルと人間の決定規則の重大な不一致がモデルの堅牢性に重大なダメージを与え、実際のreシナリオに適用できないことを実証する。
その後、モデルの理解と推論能力を評価するために平均平均精度(MAP)を導入する。
広範な実験結果により,性能評価とモデル理解能力の両立について検討する今後の研究に,我々は最終的にアピールする。
私たちはアノテーションとコードを公開しています。
関連論文リスト
- RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。