論文の概要: Paladin-mini: A Compact and Efficient Grounding Model Excelling in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2506.20384v1
- Date: Wed, 25 Jun 2025 12:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.739788
- Title: Paladin-mini: A Compact and Efficient Grounding Model Excelling in Real-World Scenarios
- Title(参考訳): Paladin-mini: 現実シナリオにおけるコンパクトで効率的なグラウンドモデルエクセルリング
- Authors: Dror Ivry, Oran Nahum,
- Abstract要約: データをグラウンドドまたはアングラウンドドとしてラベル付けするためのコンパクトな(3.8Bパラメータ)オープンソース分類器モデルであるPaldin-miniを導入する。
また、現在の最先端技術に対するベンチマークでPaldin-miniの結果を示し、明確で再現可能な結果を共有します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces two significant contributions to address the issue of grounding claims in a given context. Grounding means that given a context (document) and a claim, there's at least one supportive evidence for the claim in the document. We will introduce Paladin-mini, a compact (3.8B parameters) open-source classifier model (used for labeling data as grounded or ungrounded) engineered for robust performance in real-world scenarios, and the grounding-benchmark, a new evaluation dataset designed to assess performance on critical reasoning tasks. We'll also demonstrate the results of Paladin-mini with benchmarks against the current State-of-the-art and share clear and reproducible results.
- Abstract(参考訳): 本稿では,ある文脈における根拠的主張の問題に対処するための2つの重要な貢献を紹介する。
根拠とは、コンテキスト(文書)とクレームが与えられた場合、文書にそのクレームを裏付ける証拠が少なくとも1つあります。
実世界のシナリオにおいて、ロバストなパフォーマンスを実現するために設計されたコンパクトな3.8Bパラメータのオープンソース分類器モデルPaldin-miniと、クリティカルな推論タスクのパフォーマンスを評価するために設計された新しい評価データセットGaulting-benchmarkを紹介する。
また、現在の最先端技術に対するベンチマークでPaldin-miniの結果を示し、明確で再現可能な結果を共有します。
関連論文リスト
- Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Probing Factually Grounded Content Transfer with Factual Ablation [68.78413677690321]
グラウンドドジェネレーションは、事実情報の信頼性のある外部文書(グラウンドディング)に描画する。
事実を計測するのも簡単で、すべての事実ではなく、世代が根拠に同意するかどうかをテストする。
本稿では,現実的な根拠からの情報を用いて,世代がプロンプトを拡大するコンテンツ転送問題について検討する。
論文 参考訳(メタデータ) (2022-03-18T19:18:54Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A character representation enhanced on-device Intent Classification [2.2625832119364153]
デバイス上で効率的に実行可能な意図分類のための新しい軽量アーキテクチャを提案する。
本実験は,提案モデルが既存手法より優れ,ベンチマークデータセットの最先端結果が得られたことを実証する。
我々のモデルは5MBのメモリフットプリントと2ミリ秒の低推論時間を持ち、資源制約環境においてその効率を実証する。
論文 参考訳(メタデータ) (2021-01-12T13:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。