論文の概要: CF-RAG: A Dataset and Method for Carbon Footprint QA Using Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.03489v1
- Date: Tue, 05 Aug 2025 14:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.009393
- Title: CF-RAG: A Dataset and Method for Carbon Footprint QA Using Retrieval-Augmented Generation
- Title(参考訳): CF-RAG:検索付加生成を用いたカーボンフットプリントQAのデータセットと方法
- Authors: Kaiwen Zhao, Bharathan Balaji, Stephen Lee,
- Abstract要約: 我々は、PDF形式で利用可能な持続可能性レポート内の炭素フットプリントに関する質問に答えることに挑戦する。
従来のアプローチとは異なり、PDF解析から抽出したテキストの非構造的かつ一貫性のない性質によって引き起こされる困難に対処することに注力する。
LLMに基づく手法であるCarbonPDFを提案する。
- 参考スコア(独自算出の注目度): 1.408654956134213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product sustainability reports provide valuable insights into the environmental impacts of a product and are often distributed in PDF format. These reports often include a combination of tables and text, which complicates their analysis. The lack of standardization and the variability in reporting formats further exacerbate the difficulty of extracting and interpreting relevant information from large volumes of documents. In this paper, we tackle the challenge of answering questions related to carbon footprints within sustainability reports available in PDF format. Unlike previous approaches, our focus is on addressing the difficulties posed by the unstructured and inconsistent nature of text extracted from PDF parsing. To facilitate this analysis, we introduce CarbonPDF-QA, an open-source dataset containing question-answer pairs for 1735 product report documents, along with human-annotated answers. Our analysis shows that GPT-4o struggles to answer questions with data inconsistencies. To address this limitation, we propose CarbonPDF, an LLM-based technique specifically designed to answer carbon footprint questions on such datasets. We develop CarbonPDF by fine-tuning Llama 3 with our training data. Our results show that our technique outperforms current state-of-the-art techniques, including question-answering (QA) systems finetuned on table and text data.
- Abstract(参考訳): 製品持続可能性レポートは、製品の環境影響に関する貴重な洞察を与え、しばしばPDF形式で配布される。
これらのレポートには、しばしばテーブルとテキストの組み合わせが含まれており、その分析を複雑にしている。
報告形式における標準化の欠如と多様性により、大量の文書から関連情報を抽出し解釈することの難しさはさらに悪化する。
本稿では,PDF形式で利用可能なサステナビリティレポートにおいて,炭素フットプリントに関する疑問に答えることに挑戦する。
従来のアプローチとは異なり、PDF解析から抽出したテキストの非構造的かつ一貫性のない性質によって引き起こされる困難に対処することに注力する。
この分析を容易にするために,我々は1735の製品レポート文書に対する質問応答対を含むオープンソースデータセットであるCarbonPDF-QAを紹介した。
分析の結果,GPT-4oはデータ不整合の解答に苦慮していることがわかった。
この制限に対処するために、これらのデータセットの炭素フットプリント問題に特に答えるように設計されたLCMベースの技術であるCarbonPDFを提案する。
Llama 3を微調整したCarbonPDFをトレーニングデータで開発する。
提案手法は,質問応答システム(QA)をテーブルやテキストデータに微調整するなど,現在の最先端技術よりも優れていることを示す。
関連論文リスト
- PDF Retrieval Augmented Question Answering [14.617711623828248]
本稿では,Retrieval Augmented Generation (RAG) フレームワークを用いた質問応答システム(QA)の進歩について述べる。
我々は,複雑なマルチモーダル質問を効果的に解決する総合的なRAGベースのQAシステムの構築を目指している。
論文 参考訳(メタデータ) (2025-06-22T13:14:19Z) - DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation [24.091769825963173]
DeFine(Decomposed and Fine-fine annotated dataset for long-form article generation)を紹介する。
DeFineは階層的な分解戦略とドメイン固有の知識とマルチレベルアノテーションの統合によって特徴付けられる。
実験結果から, テキスト品質, 特にトピックカバレッジ, 情報深度, 内容の忠実度が有意に向上した。
論文 参考訳(メタデータ) (2025-03-10T10:48:00Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis [20.038120319271773]
本研究では,ESGレポートを構造化解析可能な形式に変換する革新的な手法を提案する。
提案手法は,高精度なテキストクリーニング,画像からのテキストの適切な識別と抽出,およびこれらのレポート内の表の標準化を実現する。
この研究は、産業生態学と企業持続可能性評価の分野に多大な貢献をしている。
論文 参考訳(メタデータ) (2024-01-04T06:26:59Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - DCQA: Document-Level Chart Question Answering towards Complex Reasoning
and Common-Sense Understanding [19.713647367008143]
文書レベルの質問応答(DCQA)という新しいタスクを導入する。
新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合した50,010の合成文書からなる。
本稿では,テーブルデータ,リッチな色集合,および基本的な質問テンプレートを利用する強力な質問応答生成エンジンの開発について述べる。
論文 参考訳(メタデータ) (2023-10-29T11:38:08Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。