論文の概要: BR-TaxQA-R: A Dataset for Question Answering with References for Brazilian Personal Income Tax Law, including case law
- arxiv url: http://arxiv.org/abs/2505.15916v1
- Date: Wed, 21 May 2025 18:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.853625
- Title: BR-TaxQA-R: A Dataset for Question Answering with References for Brazilian Personal Income Tax Law, including case law
- Title(参考訳): BR-TaxQA-R:ブラジルの個人所得税法を参考にした質問回答データセット
- Authors: Juvenal Domingos Júnior, Augusto Faria, E. Seiti de Oliveira, Erick de Brito, Matheus Teotonio, Andre Assumpção, Diedre Carmo, Roberto Lotufo, Jayr Pereira,
- Abstract要約: このデータセットには、ブラジル内国歳入庁が発行した2024年の公式Q&A文書から715の質問が含まれている。
検索用OpenAI埋め込みと応答生成用GPT-4o-miniを用いた検索用RAGパイプラインを実装した。
- 参考スコア(独自算出の注目度): 2.1476602063616554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents BR-TaxQA-R, a novel dataset designed to support question answering with references in the context of Brazilian personal income tax law. The dataset contains 715 questions from the 2024 official Q\&A document published by Brazil's Internal Revenue Service, enriched with statutory norms and administrative rulings from the Conselho Administrativo de Recursos Fiscais (CARF). We implement a Retrieval-Augmented Generation (RAG) pipeline using OpenAI embeddings for searching and GPT-4o-mini for answer generation. We compare different text segmentation strategies and benchmark our system against commercial tools such as ChatGPT and Perplexity.ai using RAGAS-based metrics. Results show that our custom RAG pipeline outperforms commercial systems in Response Relevancy, indicating stronger alignment with user queries, while commercial models achieve higher scores in Factual Correctness and fluency. These findings highlight a trade-off between legally grounded generation and linguistic fluency. Crucially, we argue that human expert evaluation remains essential to ensure the legal validity of AI-generated answers in high-stakes domains such as taxation. BR-TaxQA-R is publicly available at https://huggingface.co/datasets/unicamp-dl/BR-TaxQA-R.
- Abstract(参考訳): 本稿ではブラジルの個人所得税法における基準付き質問応答を支援するための新しいデータセットBR-TaxQA-Rを提案する。
このデータセットには、ブラジル内国歳入庁が発行する2024年の公式Q\&A文書からの715の質問が含まれており、Conselho Administrativo de Recursos Fiscais (CARF) の法的な規範と行政上の判断に富んでいる。
検索用OpenAI埋め込みと応答生成用GPT-4o-miniを用いた検索用RAGパイプラインを実装した。
我々は、異なるテキストセグメンテーション戦略を比較し、RAGASベースのメトリクスを使用して、ChatGPTやPerplexity.aiといった商用ツールと比較する。
その結果、当社のカスタムRAGパイプラインはReponse Relevancyにおいて商用システムよりも優れており、ユーザクエリとの整合性が強く、商用モデルはFactual Correctnessとfluencyのスコアが高いことがわかった。
これらの知見は、法的根拠のある世代と言語流布の間のトレードオフを浮き彫りにしている。
重要なことは、税制などの高額な分野において、AIが生み出す回答の法的妥当性を確保するためには、人間の専門家による評価が不可欠である、と我々は主張する。
BR-TaxQA-Rはhttps://huggingface.co/datasets/unicamp-dl/BR-TaxQA-Rで公開されている。
関連論文リスト
- A Reasoning-Focused Legal Retrieval Benchmark [28.607778538115642]
本稿では,Bar Exam QAとHousing Statute QAの2つの新しい法的RAGベンチマークを紹介する。
以上の結果から,法的なRAGは依然として困難な応用であり,今後の研究の動機となることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T20:44:03Z) - LegalRAG: A Hybrid RAG System for Multilingual Legal Information Retrieval [7.059964549363294]
我々は、規制文書、特にバングラデシュ警察ガゼットのための効率的なバイリンガル質問応答フレームワークを開発する。
提案手法では,情報検索と応答生成を強化するために,現代の検索拡張生成(RAG)パイプラインを用いる。
このシステムは、特定の政府法的な通知を効率的に検索し、法的な情報をよりアクセスしやすくする。
論文 参考訳(メタデータ) (2025-04-19T06:09:54Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - On the Potential and Limitations of Few-Shot In-Context Learning to
Generate Metamorphic Specifications for Tax Preparation Software [12.071874385139395]
納税者の50%近くが、FY22にアメリカで税ソフトウェアを使って個人所得税を申告した。
本稿では,税制文書から抽出した属性間の翻訳タスクとして,変成仕様を作成するタスクを定式化する。
論文 参考訳(メタデータ) (2023-11-20T18:12:28Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Finding the Law: Enhancing Statutory Article Retrieval via Graph Neural
Networks [3.5880535198436156]
本稿では,グラフニューラルネットワークを用いて法制構造を組み込んだグラフ拡張高密度法規検索(G-DSR)モデルを提案する。
実験の結果,本手法は,実世界のエキスパートアノテートされたSARデータセットにおいて,強力な検索ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T12:59:09Z) - Algorithmic Fairness and Vertical Equity: Income Fairness with IRS Tax
Audit Models [73.24381010980606]
本研究は、IRSによる税務監査選択を通知するシステムの文脈におけるアルゴリズムフェアネスの問題について検討する。
監査を選択するための柔軟な機械学習手法が、垂直エクイティにどのように影響するかを示す。
この結果は,公共セクター全体でのアルゴリズムツールの設計に影響を及ぼす。
論文 参考訳(メタデータ) (2022-06-20T16:27:06Z) - Towards Automatic Comparison of Data Privacy Documents: A Preliminary
Experiment on GDPR-like Laws [1.3537117504260623]
一般データ保護規則(NLP)は多くの国で保護のための標準法となっている。
12カ国で類似性のような規制が採用されているが、違いを評価するのに時間がかかり、法律の専門家による手作業が必要になる。
本稿では,この問題に対処するための自然言語処理(NLP)アプローチについて検討する。
論文 参考訳(メタデータ) (2021-05-21T03:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。