論文の概要: LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from
Short to Long Contexts and for Implication-Based Retrieval
- arxiv url: http://arxiv.org/abs/2212.03222v1
- Date: Tue, 6 Dec 2022 18:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:43:31.562129
- Title: LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from
Short to Long Contexts and for Implication-Based Retrieval
- Title(参考訳): LawngNLI: 短期から長期までのドメイン内一般化と含意に基づく検索のための長期ベンチマーク
- Authors: William Bruno, Dan Roth
- Abstract要約: LawngNLIは米国法的な見解から構築されており、高い精度で自動ラベルが付けられている。
短いコンテキストから長いコンテキストまでドメイン内の一般化のベンチマークを行うことができる。
LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。
- 参考スコア(独自算出の注目度): 72.4859717204905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language inference has trended toward studying contexts beyond the
sentence level. An important application area is law: past cases often do not
foretell how they apply to new situations and implications must be inferred.
This paper introduces LawngNLI, constructed from U.S. legal opinions with
automatic labels with high human-validated accuracy. Premises are long and
multigranular. Experiments show two use cases. First, LawngNLI can benchmark
for in-domain generalization from short to long contexts. It has remained
unclear if large-scale long-premise NLI datasets actually need to be
constructed: near-top performance on long premises could be achievable by
fine-tuning using short premises. Without multigranularity, benchmarks cannot
distinguish lack of fine-tuning on long premises versus domain shift between
short and long datasets. In contrast, our long and short premises share the
same examples and domain. Models fine-tuned using several past NLI datasets
and/or our short premises fall short of top performance on our long premises.
So for at least certain domains (such as ours), large-scale long-premise
datasets are needed. Second, LawngNLI can benchmark for implication-based
retrieval. Queries are entailed or contradicted by target documents, allowing
users to move between arguments and evidence. Leading retrieval models perform
reasonably zero shot on a LawngNLI-derived retrieval task. We compare different
systems for re-ranking, including lexical overlap and cross-encoders fine-tuned
using a modified LawngNLI or past NLI datasets. LawngNLI can train and test
systems for implication-based case retrieval and argumentation.
- Abstract(参考訳): 自然言語推論は文レベルを超えて文脈を研究する傾向がある。
重要な応用分野は法である:過去の事件は、新しい状況に適用する方法を予見しないことが多い。
本稿では,米国における法的意見から構築したLongNLIについて,高い精度で自動ラベルで紹介する。
敷地は長く多様である。
実験は2つのユースケースを示す。
第一に、lawngnliは短いコンテキストから長いコンテキストへのドメイン内一般化をベンチマークできる。
大規模な長期的NLIデータセットが実際に構築される必要があるかどうかは、いまだ不明である。
マルチグラニュラ性がなければ、ベンチマークでは、長い前提における微調整の欠如と、短いデータセットと長いデータセット間のドメインシフトを区別できない。
対照的に、私たちの長く短い前提は同じ例とドメインを共有しています。
過去のNLIデータセットと/または短い前提を使用して微調整されたモデルは、長い前提でのトップパフォーマンスに欠けています。
ですから、少なくとも特定のドメイン(例えば私たちのもの)には、大規模な長期データセットが必要です。
第二に、lawngnliは含意に基づく検索のベンチマークを行うことができる。
クエリは、ターゲット文書によって複雑または矛盾しており、ユーザーは議論と証拠の間を移動できる。
先行検索モデルは、LongNLI由来の検索タスクで合理的にゼロショットを実行する。
我々は、LongNLIの修正や過去のNLIデータセットを用いて、語彙重なりやクロスエンコーダを微調整するなど、再ランク付けのための異なるシステムを比較する。
LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Natural Language Inference in Context -- Investigating Contextual
Reasoning over Long Texts [19.894104911338353]
ConTRoLは、Longテキスト上のConTextual Reasoningのための新しいデータセットである。
8,325人の専門家が設計した"context-hypothesis"ペアとゴールドラベルで構成されている。
これは、警察の徴兵のための競争的選択と採用試験(言語推論テスト)から派生し、専門家レベルの品質を持つ。
論文 参考訳(メタデータ) (2020-11-10T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。