論文の概要: Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
- arxiv url: http://arxiv.org/abs/2502.07956v1
- Date: Tue, 11 Feb 2025 21:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:37.176943
- Title: Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
- Title(参考訳): 会話型SEアシスタント評価のためのブリッジングHCIとAI研究
- Authors: Jonan Richards, Mairieli Wessel,
- Abstract要約: 大規模言語モデル(LLM)は近年,対話型アシスタントという形で,ソフトウェア工学においてますます採用されている。
我々は、人間中心の自動評価を可能にするために、ヒューマン・コンピュータ・インタラクション(HCI)と人工知能(AI)の研究からの洞察を組み合わせることを提唱する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As Large Language Models (LLMs) are increasingly adopted in software engineering, recently in the form of conversational assistants, ensuring these technologies align with developers' needs is essential. The limitations of traditional human-centered methods for evaluating LLM-based tools at scale raise the need for automatic evaluation. In this paper, we advocate combining insights from human-computer interaction (HCI) and artificial intelligence (AI) research to enable human-centered automatic evaluation of LLM-based conversational SE assistants. We identify requirements for such evaluation and challenges down the road, working towards a framework that ensures these assistants are designed and deployed in line with user needs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、近年、会話アシスタントという形で、ソフトウェア工学においてますます採用されているため、これらの技術が開発者のニーズに合致することを保証することが不可欠である。
LLMベースのツールを大規模に評価するための従来の人間中心の手法の限界は、自動評価の必要性を高めている。
本稿では,人間とコンピュータのインタラクション(HCI)と人工知能(AI)の研究から得られた知見を組み合わせて,LLMベースの会話型SEアシスタントの人間中心による自動評価を可能にすることを提唱する。
このような評価と課題の要件を特定し、これらのアシスタントがユーザニーズに合わせて設計され、デプロイされることを保証するためのフレームワークを目指しています。
関連論文リスト
- Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - AI-Based IVR [0.0]
本稿では,コールセンターにおけるシステム効率向上のための人工知能(AI)技術の適用について検討する。
提案手法は、音声からテキストへの変換、大規模言語モデル(LLM)を用いたテキストクエリ分類、音声合成の統合に基づく。
これらの技術をカザフ語に適応させることに特に注意が払われている。
論文 参考訳(メタデータ) (2024-08-20T05:04:40Z) - Towards Scalable Automated Alignment of LLMs: A Survey [54.820256625544225]
本稿では,最近登場した自動アライメントの手法を体系的にレビューする。
既存の自動アライメント手法をアライメント信号のソースに基づいて4つの主要なカテゴリに分類する。
本稿では,アライメントの基本的役割から,自動アライメント技術の実現を可能にする重要な要因について論じる。
論文 参考訳(メタデータ) (2024-06-03T12:10:26Z) - Human-Centered Automation [0.3626013617212666]
この論文は、自動化システムの設計と開発におけるユーザニーズと嗜好を優先するHCA(Human-Centered Automation)の新たな領域について論じている。
本稿は、既存の自動化アプローチの限界、AIとRPAの統合の課題、生産性、イノベーション、そしてこれらの技術へのアクセスを民主化するための人間中心の自動化の利点について論じる。
論文 参考訳(メタデータ) (2024-05-24T22:12:28Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Requirements Engineering Framework for Human-centered Artificial
Intelligence Software Systems [9.642259026572175]
我々は、人間中心AIガイドラインとユーザーサーベイに基づいて、人間中心AIベースのソフトウェアに対する要件収集を支援する新しいフレームワークを提案する。
本フレームワークは,仮想現実(VR)ユーザを対象とした360度ビデオの品質向上に必要な要件を抽出し,モデル化するために,ケーススタディに適用される。
論文 参考訳(メタデータ) (2023-03-06T06:37:50Z) - The Roles and Modes of Human Interactions with Automated Machine
Learning Systems [7.670270099306412]
自動機械学習(AutoML)システムは、洗練とパフォーマンスの両面で進歩を続けている。
これらのフレームワーク内でのヒューマン・コンピュータ・インタラクション(HCI)の方法と理由を理解することが重要である。
このレビューは、現在のAutoMLシステムと将来のAutoMLシステムの両方におけるヒューマンインタラクションの役割とモードの促進を目的とした、重要な研究方向を特定するのに役立つ。
論文 参考訳(メタデータ) (2022-05-09T09:28:43Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。