論文の概要: Enriching Social Science Research via Survey Item Linking
- arxiv url: http://arxiv.org/abs/2412.15831v1
- Date: Fri, 20 Dec 2024 12:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:26.284495
- Title: Enriching Social Science Research via Survey Item Linking
- Title(参考訳): 調査項目リンクによる社会科学研究の充実
- Authors: Tornike Tsereteli, Daniel Ruffinelli, Simone Paolo Ponzetto,
- Abstract要約: 本研究では,SIL(Survey Item Linking)と呼ばれるタスクを2段階に分けてモデル化する。
この目的のために、20,454の英語文とドイツ語文からなる高品質でリッチな注釈付きデータセットを作成します。
タスクが実現可能であることを実証するが、エラーが第1段階から伝播し、全体のタスク性能が低下するのを観察する。
- 参考スコア(独自算出の注目度): 11.902701975866595
- License:
- Abstract: Questions within surveys, called survey items, are used in the social sciences to study latent concepts, such as the factors influencing life satisfaction. Instead of using explicit citations, researchers paraphrase the content of the survey items they use in-text. However, this makes it challenging to find survey items of interest when comparing related work. Automatically parsing and linking these implicit mentions to survey items in a knowledge base can provide more fine-grained references. We model this task, called Survey Item Linking (SIL), in two stages: mention detection and entity disambiguation. Due to an imprecise definition of the task, existing datasets used for evaluating the performance for SIL are too small and of low-quality. We argue that latent concepts and survey item mentions should be differentiated. To this end, we create a high-quality and richly annotated dataset consisting of 20,454 English and German sentences. By benchmarking deep learning systems for each of the two stages independently and sequentially, we demonstrate that the task is feasible, but observe that errors propagate from the first stage, leading to a lower overall task performance. Moreover, mentions that require the context of multiple sentences are more challenging to identify for models in the first stage. Modeling the entire context of a document and combining the two stages into an end-to-end system could mitigate these problems in future work, and errors could additionally be reduced by collecting more diverse data and by improving the quality of the knowledge base. The data and code are available at https://github.com/e-tornike/SIL .
- Abstract(参考訳): 調査項目と呼ばれる調査項目内の質問は、生活満足度に影響を与える要因など、潜伏した概念を研究するために社会科学で使用される。
明示的な引用を使う代わりに、研究者は、彼らがテキストで使用する調査項目の内容を言い換える。
しかし、関連する作業を比較する際に関心のある調査項目を見つけることは困難である。
これらの暗黙の言及を知識ベースの調査項目に自動解析しリンクすることで、よりきめ細かい参照を提供することができる。
我々はこのタスクをSIL(Survey Item Linking)と呼ぶ2つの段階でモデル化する。
タスクの不正確な定義のため、SILのパフォーマンスを評価するために使われる既存のデータセットは小さすぎ、低品質である。
我々は、潜在概念と調査項目の言及は区別されるべきであると主張している。
この目的のために、20,454の英語文とドイツ語文からなる高品質でリッチな注釈付きデータセットを作成します。
各段階の深層学習システムを個別かつ逐次的にベンチマークすることにより、タスクが実行可能であることを実証するが、エラーが第1段階から伝播し、全体のタスク性能が低下する。
さらに、複数の文のコンテキストを必要とする言及は、最初の段階でモデルを特定することがより困難である。
文書のコンテキスト全体をモデル化し、2つのステージをエンドツーエンドシステムに組み込むことで、将来の作業においてこれらの問題を緩和することができる。
データとコードはhttps://github.com/e-tornike/SIL で公開されている。
関連論文リスト
- Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations [3.3018718917393297]
本稿では,複数の有効な回答が存在するあいまいな環境下で,ソースを引用した質問応答のタスクを提案する。
1)新しい5つのデータセット,(2)実世界の自然発生コンテキストを特徴とする最初のあいまいなマルチホップQAデータセット,(3)モデルの性能を評価するための2つの新しい指標からなる包括的フレームワークを構築した。
この新しいタスク、データセット、メトリクス、ベースラインは、コミュニティにQA研究の境界を押し進め、より信頼できる、解釈可能なシステムを開発するよう促すことを期待しています。
論文 参考訳(メタデータ) (2024-10-05T17:37:01Z) - Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation [13.205613282888676]
本稿では,議論のための議論的エッセイを作成するエンドツーエンドの過程を捉えた議論マイニングデータセットを提案する。
私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。
ベンチマークでは,各タスクに対する有望な結果を示す一方で,4つのタスクすべてに対するエンドツーエンドのパフォーマンスが著しく低下していることが判明した。
論文 参考訳(メタデータ) (2024-06-05T11:15:45Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Detection, Disambiguation, Re-ranking: Autoregressive Entity Linking as
a Multi-Task Problem [46.028180604304985]
本稿では,2つの補助的なタスクで訓練された自己回帰エンティティリンクモデルを提案する。
我々は,2つの補助課題のそれぞれがパフォーマンスを向上し,再ランク付けが増加の重要な要因であることをアブレーション研究を通して示す。
論文 参考訳(メタデータ) (2022-04-12T17:55:22Z) - Double-Barreled Question Detection at Momentive [6.783610970053343]
ダブルバレル質問(ダブルバレル質問、DBQ)は、ある質問において2つの側面を問うバイアス付き質問の一種である。
MomentiveはDBQを検出して,高品質な偏見のない調査データを収集するための変更を,サーベイクリエータに推奨する。
本稿では,DBQ分類のためのエンドツーエンドの機械学習手法を提案する。
論文 参考訳(メタデータ) (2022-02-12T00:04:24Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。