論文の概要: Towards Efficient Quantity Retrieval from Text:an Approach via Description Parsing and Weak Supervision
- arxiv url: http://arxiv.org/abs/2507.08322v1
- Date: Fri, 11 Jul 2025 05:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.249571
- Title: Towards Efficient Quantity Retrieval from Text:an Approach via Description Parsing and Weak Supervision
- Title(参考訳): テキストからの効率的な量検索に向けて:記述パーシングと弱スーパービジョンによるアプローチ
- Authors: Yixuan Cao, Zhengrong Chen, Chengxuan Xia, Kun Wu, Ping Luo,
- Abstract要約: 定量的事実の説明が与えられたら、システムは関連する価値を返し、証拠を裏付ける。
テキストを構造化した(記述量、量)ペアに変換して効率的な検索を行う記述解析に基づくフレームワークを提案する。
我々は,財務年度報告の大規模コーパスと,新たに注釈付き量記述データセットについて検討した。
- 参考スコア(独自算出の注目度): 29.941457252419493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantitative facts are continually generated by companies and governments, supporting data-driven decision-making. While common facts are structured, many long-tail quantitative facts remain buried in unstructured documents, making them difficult to access. We propose the task of Quantity Retrieval: given a description of a quantitative fact, the system returns the relevant value and supporting evidence. Understanding quantity semantics in context is essential for this task. We introduce a framework based on description parsing that converts text into structured (description, quantity) pairs for effective retrieval. To improve learning, we construct a large paraphrase dataset using weak supervision based on quantity co-occurrence. We evaluate our approach on a large corpus of financial annual reports and a newly annotated quantity description dataset. Our method significantly improves top-1 retrieval accuracy from 30.98 percent to 64.66 percent.
- Abstract(参考訳): 定量的事実は企業や政府によって継続的に生成され、データ駆動意思決定をサポートする。
一般的な事実は構造化されているが、多くの長い量的事実は構造化されていない文書に埋もれており、アクセスが困難である。
本稿では,量的事実を記述した上で,関連する価値をシステムに返却し,証拠を裏付ける,量的検索の課題を提案する。
この作業には、文脈における量の意味を理解することが不可欠である。
テキストを構造化した(記述量、量)ペアに変換して効率的な検索を行う記述解析に基づくフレームワークを提案する。
学習を改善するために,量共起に基づく弱監督を用いた大規模なパラフレーズデータセットを構築した。
我々は,財務年度報告の大規模コーパスと,新たに注釈付き量記述データセットについて検討した。
検索精度は30.98パーセントから64.6%に大幅に向上した。
関連論文リスト
- StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文 参考訳(メタデータ) (2025-07-28T21:20:44Z) - Map&Make: Schema Guided Text to Table Generation [41.52038779169547]
テキスト・ツー・テイブル・ジェネレーションは情報検索に欠かせない課題である。
テキストを命題のアトミックステートメントに"識別"する汎用的なアプローチであるMap&Makeを導入する。
このアプローチは、RotowireとLivesumという2つの挑戦的なデータセットに対してテストされています。
論文 参考訳(メタデータ) (2025-05-29T07:12:46Z) - Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization [7.218054628599005]
本研究では,事実整合性エラーを考察し,それらと談話分析の行を結びつける。
長文を談話にインスパイアされたチャンクに分解するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T06:30:15Z) - Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.82274763974443]
ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。
原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。
私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文 参考訳(メタデータ) (2025-01-07T05:43:23Z) - Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - CQE: A Comprehensive Quantity Extractor [2.2079886535603084]
テキストデータから包括的量抽出フレームワークを提案する。
値と単位の組み合わせ、量の振る舞い、量と関連する概念を効率的に検出する。
本フレームワークは, 依存解析と単位辞書を利用して, 検出された量の適切な正規化と標準化を実現する。
論文 参考訳(メタデータ) (2023-05-15T17:59:41Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Evaluation of Automatically Constructed Word Meaning Explanations [0.0]
非常に大規模なコーパスからの集合情報に基づいて,説明を自動的に導き出す新しいツールを提案する。
提案手法は,約90%のケースにおいて,単語の意味を理解するのに有用なデータを含む説明を作成できることを示す。
論文 参考訳(メタデータ) (2023-02-27T09:47:55Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。