論文の概要: AUEB-Archimedes at RIRAG-2025: Is obligation concatenation really all you need?
- arxiv url: http://arxiv.org/abs/2412.11567v1
- Date: Mon, 16 Dec 2024 08:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:36.891882
- Title: AUEB-Archimedes at RIRAG-2025: Is obligation concatenation really all you need?
- Title(参考訳): RIRAG-2025のAUEB-Archimedes: 義務は本当に必要なものなのでしょうか?
- Authors: Ioannis Chasandras, Odysseas S. Chlapanis, Ion Androutsopoulos,
- Abstract要約: 本稿では,RIRAG-2025のために開発したシステムについて述べる。
生成された回答は、参照フリーでモデルベースのメトリクスであるRePASを用いて評価される。
抽出された節から重要な文(「無視」)を抽出するRePASの神経成分を利用することで、精度の高いスコア(0.947)が得られることを示す。
そして、いくつかの代替案の中で最も優れたRePASで答えを選択することで、より可読で比較的高い結果が得られる可読で一貫性のある回答を生成することができることを示す。
- 参考スコア(独自算出の注目度): 11.172264842171682
- License:
- Abstract: This paper presents the systems we developed for RIRAG-2025, a shared task that requires answering regulatory questions by retrieving relevant passages. The generated answers are evaluated using RePASs, a reference-free and model-based metric. Our systems use a combination of three retrieval models and a reranker. We show that by exploiting a neural component of RePASs that extracts important sentences ('obligations') from the retrieved passages, we achieve a dubiously high score (0.947), even though the answers are directly extracted from the retrieved passages and are not actually generated answers. We then show that by selecting the answer with the best RePASs among a few generated alternatives and then iteratively refining this answer by reducing contradictions and covering more obligations, we can generate readable, coherent answers that achieve a more plausible and relatively high score (0.639).
- Abstract(参考訳): 本稿では,RIRAG-2025のために開発したシステムについて述べる。
生成された回答は、参照フリーでモデルベースのメトリクスであるRePASを用いて評価される。
我々のシステムは3つの検索モデルとリランカの組み合わせを使用している。
抽出された文から重要な文(「無視」)を抽出するRePASの神経成分を利用することで,検索された文から直接抽出された結果が実際に生成されていないにもかかわらず,精度の高いスコア(0.947)が得られることを示す。
次に、いくつかの生成した選択肢の中で最高のRePASで回答を選択し、矛盾を減らし、より多くの義務を負うことで、繰り返しこの答えを精査することにより、より可読で、比較的高いスコア(0.639)を得ることのできる、読みやすい、一貫性のある回答を生成することができることを示す。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - From RAG to RICHES: Retrieval Interlaced with Sequence Generation [3.859418700143553]
本稿では、シーケンス生成タスクで検索をインターリーブする新しいアプローチであるRICHESを提案する。
コーパスに拘束された内容を直接デコードすることで、ドキュメントを検索する。
本稿では,属性付きQAやマルチホップQAを含むODQAタスクにおけるRICHESの強い性能を示す。
論文 参考訳(メタデータ) (2024-06-29T08:16:58Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - Enhancing Complex Question Answering over Knowledge Graphs through
Evidence Pattern Retrieval [12.584696527589868]
証拠事実間の構造的依存関係の重要性を過小評価する。
本稿では,部分グラフ抽出時の構造的依存関係を明示的にモデル化するEvidence Pattern Retrievalを提案する。
実験結果から, IR-KGQA法において, EPRに基づくアプローチによりF1スコアが大幅に向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-03T14:54:13Z) - Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-09T05:06:39Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z) - Joint Passage Ranking for Diverse Multi-Answer Retrieval [56.43443577137929]
質問に対する複数の異なる回答をカバーするために、パスの取得を必要とする探索不足の問題であるマルチアンサー検索について検討する。
モデルが別の有効な答えを逃す費用で同じ答えを含む通路を繰り返すべきではないので、このタスクは、検索された通路の共同モデリングを必要とします。
本稿では,再順位に着目したジョイントパス検索モデルであるJPRを紹介する。
回収された通路の合同確率をモデル化するために、JPRは、新しい訓練および復号アルゴリズムを備えた通路のシーケンスを選択する自動回帰リタイナを利用する。
論文 参考訳(メタデータ) (2021-04-17T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。