論文の概要: NC-Bench: An LLM Benchmark for Evaluating Conversational Competence
- arxiv url: http://arxiv.org/abs/2601.06426v1
- Date: Sat, 10 Jan 2026 04:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.809376
- Title: NC-Bench: An LLM Benchmark for Evaluating Conversational Competence
- Title(参考訳): NC-Bench: 会話能力評価のためのLLMベンチマーク
- Authors: Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala,
- Abstract要約: NC-Benchは自然な会話の形態と構造に焦点を当てている。
IBM Natural Conversation Framework (NCF)において、NC-Benchは3つの異なるセットから構成されている。
各ベンチマークは、特徴的な相互作用パターンに応答して、文脈的に適切な会話アクションを生成するモデルの能力をテストする。
- 参考スコア(独自算出の注目度): 3.5603751458493975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Natural Conversation Benchmark (NC-Bench) introduce a new approach to evaluating the general conversational competence of large language models (LLMs). Unlike prior benchmarks that focus on the content of model behavior, NC-Bench focuses on the form and structure of natural conversation. Grounded in the IBM Natural Conversation Framework (NCF), NC-Bench comprises three distinct sets. The Basic Conversation Competence set evaluates fundamental sequence management practices, such as answering inquiries, repairing responses, and closing conversational pairs. The RAG set applies the same sequence management patterns as the first set but incorporates retrieval-augmented generation (RAG). The Complex Request set extends the evaluation to complex requests involving more intricate sequence management patterns. Each benchmark tests a model's ability to produce contextually appropriate conversational actions in response to characteristic interaction patterns. Initial evaluations across 6 open-source models and 14 interaction patterns show that models perform well on basic answering tasks, struggle more with repair tasks (especially repeat), have mixed performance on closing sequences, and find complex multi-turn requests most challenging, with Qwen models excelling on the Basic set and Granite models on the RAG set and the Complex Request set. By operationalizing fundamental principles of human conversation, NC-Bench provides a lightweight, extensible, and theory-grounded framework for assessing and improving the conversational abilities of LLMs beyond topical or task-specific benchmarks.
- Abstract(参考訳): The Natural Conversation Benchmark (NC-Bench)は、大規模言語モデル(LLM)の一般的な会話能力を評価する新しいアプローチを導入する。
モデル行動の内容に焦点を当てた以前のベンチマークとは異なり、NC-Benchは自然な会話の形態と構造に焦点を当てている。
IBM Natural Conversation Framework (NCF)において、NC-Benchは3つの異なるセットから構成されている。
基本会話能力セットは、質問への回答、応答の修復、会話ペアの閉じなど、基本的なシーケンス管理プラクティスを評価する。
RAGセットは、最初のセットと同じシーケンス管理パターンを適用するが、検索拡張生成(RAG)が組み込まれている。
複雑なリクエストセットは、より複雑なシーケンス管理パターンを含む複雑なリクエストまで評価を拡張します。
各ベンチマークは、特徴的な相互作用パターンに応答して、文脈的に適切な会話アクションを生成するモデルの能力をテストする。
6つのオープンソースモデルと14のインタラクションパターンでの最初の評価では、モデルは基本的な応答タスクでうまく機能し、補修タスク(特に繰り返し)にもっと苦労し、クローズドシーケンスで混合パフォーマンスを持ち、複雑なマルチターン要求を見つけることが最も困難であることが示され、Qwenモデルはベーシックセットと複雑なリクエストセットでグラナイトモデルに優れていた。
NC-Benchは人間の会話の基本原理を運用することにより、トピックやタスク固有のベンチマークを超えてLLMの会話能力を評価し改善するための軽量で拡張性があり理論的な基盤となるフレームワークを提供する。
関連論文リスト
- KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models [7.399563588835834]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。