論文の概要: FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction
- arxiv url: http://arxiv.org/abs/2510.20926v1
- Date: Thu, 23 Oct 2025 18:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.294656
- Title: FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction
- Title(参考訳): FicSim:ロングフォームフィクションにおける多面的セマンティック類似性のためのデータセット
- Authors: Natasha Johnson, Amanda Bertsch, Maria-Emil Deal, Emma Strubell,
- Abstract要約: 著者が作成したメタデータから情報を得た12軸の類似点を含む長文のフィクションのデータセットであるFICSIMをリリースする。
このタスクに組込みモデルを組み込んで評価し、セマンティックなカテゴリよりも表面的な特徴にフォーカスする傾向を示す。
- 参考スコア(独自算出の注目度): 11.216252240451183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models become capable of processing increasingly long and complex texts, there has been growing interest in their application within computational literary studies. However, evaluating the usefulness of these models for such tasks remains challenging due to the cost of fine-grained annotation for long-form texts and the data contamination concerns inherent in using public-domain literature. Current embedding similarity datasets are not suitable for evaluating literary-domain tasks because of a focus on coarse-grained similarity and primarily on very short text. We assemble and release FICSIM, a dataset of long-form, recently written fiction, including scores along 12 axes of similarity informed by author-produced metadata and validated by digital humanities scholars. We evaluate a suite of embedding models on this task, demonstrating a tendency across models to focus on surface-level features over semantic categories that would be useful for computational literary studies tasks. Throughout our data-collection process, we prioritize author agency and rely on continual, informed author consent.
- Abstract(参考訳): 言語モデルは、ますます長く複雑なテキストを処理できるようになり、計算文学研究におけるそれらの応用への関心が高まっている。
しかし、長文テキストの微粒化アノテーションのコストと、パブリックドメイン文献の利用に固有のデータ汚染に関する懸念から、これらのモデルの有効性を評価することは依然として困難である。
現在の埋め込み類似性データセットは、粗い粒度の類似性や主に非常に短いテキストに焦点が当てられているため、文学領域のタスクを評価するには適していない。
著者が作成したメタデータから情報を得て、デジタル人文科学の学者が検証した12軸の類似性のスコアを含む、長文のフィクションのデータセットであるFICSIMを組み立ててリリースする。
本研究では,本課題における組込みモデルの評価を行い,計算文学研究に有用なセマンティックカテゴリよりも表面的な特徴に注目する傾向を示す。
データ収集プロセスを通じて、著者代理店を優先し、継続的で情報のある著者の同意に依存します。
関連論文リスト
- Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - Empirical Evaluation of Embedding Models in the Context of Text Classification in Document Review in Construction Delay Disputes [6.076874513889027]
テキスト埋め込みはテキストデータの数値表現であり、単語、フレーズ、文書全体を実数のベクトルに変換する。
本稿では,4つの異なるモデルの包括的比較分析を通じて,異なる埋め込みを評価する作業について述べる。
K-Nearest Neighbors (KNN) と Logistic Regression (LR) の両方を用いてバイナリ分類タスクを行い、特にラベル付きデータセット内でテキストスニペットが 'delay' あるいは 'not delay' に関連付けられているかどうかを判断する。
論文 参考訳(メタデータ) (2025-01-16T22:12:11Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Visual Analytics for Fine-grained Text Classification Models and Datasets [3.6873612681664016]
SemLaは、きめ細かいテキスト分類に適した、新しいビジュアル分析システムである。
本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。
論文 参考訳(メタデータ) (2024-03-21T17:26:28Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - A Novel Multidimensional Reference Model For Heterogeneous Textual
Datasets Using Context, Semantic And Syntactic Clues [4.453735522794044]
本研究の目的は、異種データセットのカテゴリを用いた新しい多次元参照モデルを作ることである。
MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。
論文 参考訳(メタデータ) (2023-11-10T17:02:25Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。