論文の概要: [Lions: 1] and [Tigers: 2] and [Bears: 3], Oh My! Literary Coreference
Annotation with LLMs
- arxiv url: http://arxiv.org/abs/2401.17922v1
- Date: Wed, 31 Jan 2024 15:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:04:13.865193
- Title: [Lions: 1] and [Tigers: 2] and [Bears: 3], Oh My! Literary Coreference
Annotation with LLMs
- Title(参考訳): [行 1] と [行 2] と [行 3], Oh My!
LLMを用いたリテラリー参照アノテーション
- Authors: Rebecca M. M. Hicke and David Mimno
- Abstract要約: 文芸研究のための新しい言語モデルベースのセク2seqシステムを開発した。
コア推論のために、いくつかのトレーニング済みモデルを作成し、評価し、リリースします。
- 参考スコア(独自算出の注目度): 4.2243058640527575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coreference annotation and resolution is a vital component of computational
literary studies. However, it has previously been difficult to build high
quality systems for fiction. Coreference requires complicated structured
outputs, and literary text involves subtle inferences and highly varied
language. New language-model-based seq2seq systems present the opportunity to
solve both these problems by learning to directly generate a copy of an input
sentence with markdown-like annotations. We create, evaluate, and release
several trained models for coreference, as well as a workflow for training new
models.
- Abstract(参考訳): 参照アノテーションと解像度は、計算文学研究の重要な構成要素である。
しかし、以前はフィクションの高品質なシステムを構築することは困難であった。
校正には複雑な構造化された出力が必要であり、文学的テキストには微妙な推論と非常に多様な言語が含まれる。
新しい言語モデルベースのseq2seqシステムは、マークダウンのようなアノテーションで入力文のコピーを直接生成することで、これらの問題を解決する機会を提供する。
コア推論のためのトレーニング済みモデルの作成、評価、リリースに加えて、新しいモデルをトレーニングするためのワークフローも用意しています。
関連論文リスト
- Towards Verifiable Generation: A Benchmark for Knowledge-aware Language
Model Attribution [48.92960579675478]
我々は知識認識型言語モデル属性(KaLMA)の新しいタスクを定義する。
まず、構造化されていないテキストから知識グラフ(KG)へ属性ソースを拡張する。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Improving Automatic Quotation Attribution in Literary Novels [21.164701493247794]
文学小説における引用帰属の現在のモデルでは、トレーニングやテストデータに利用可能な情報のレベルが異なると仮定している。
文芸小説における注釈付きコア推論と引用の膨大なデータセットを用いて、各サブタスクの最先端モデルを個別にベンチマークする。
また、話者帰属タスクのモデルの評価を行い、簡単な逐次予測モデルが最先端のモデルと同等の精度のスコアを得ることを示す。
論文 参考訳(メタデータ) (2023-07-07T17:37:01Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Knowledge-enriched, Type-constrained and Grammar-guided Question
Generation over Knowledge Bases [20.412744079015475]
知識ベース上の質問生成(KBQG)は、サブグラフに関する自然言語の質問を生成することを目的としている。
現在のエンコーダデコーダベースの手法、特に小さなサブグラフでは、大きな課題が2つ残っている。
我々は、KTGという、知識に富んだ、型に制約のある、文法に制約のあるKBQGモデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T04:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。