このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240219となっている論文です。

PDF登録状況(公開日: 20240219)

TitleAuthorsAbstract論文公表日・翻訳日
# 実践におけるAIサステナビリティ その1:サステナブルなAIプロジェクトのための基盤

AI Sustainability in Practice Part One: Foundations for Sustainable AI Projects ( http://arxiv.org/abs/2403.14635v1 )

ライセンス: Link先を確認
David Leslie, Cami Rincon, Morgan Briggs, Antonella Perini, Smera Jayadeva, Ann Borda, SJ Bennett, Christopher Burr, Mhairi Aitken, Michael Katell, Claudia Fischer, Janis Wong, Ismael Kherroubi Garcia, (参考訳) 持続可能なAIプロジェクトは、AI技術の設計、開発、展開が持つ可能性のある個人や社会に対する短期的、中長期的影響と同様に、変革的な影響に継続的に反応する。 AIサステナビリティを中心とするプロジェクトは、価値を主導し、協調し、予想される反映を確実にすることで、潜在的な社会的および倫理的影響の評価を導き、イノベーションの実践に責任を負う。 このワークブックは、AIサステナビリティを実践するために必要な概念とツールを提供する、ペアの最初の部分です。 SUM Valuesを導入し、AIプロジェクトチームがプロジェクトの潜在的な社会的影響と倫理的許容性を評価するのに役立つ。 次に、SEP(Stakeholder Engagement Process)を提示し、公平で有意義な参加と位置認識を重視した利害関係者の参加とインプットの比率付けを容易にするツールを提供する。

Sustainable AI projects are continuously responsive to the transformative effects as well as short-, medium-, and long-term impacts on individuals and society that the design, development, and deployment of AI technologies may have. Projects, which centre AI Sustainability, ensure that values-led, collaborative, and anticipatory reflection both guides the assessment of potential social and ethical impacts and steers responsible innovation practices. This workbook is the first part of a pair that provides the concepts and tools needed to put AI Sustainability into practice. It introduces the SUM Values, which help AI project teams to assess the potential societal impacts and ethical permissibility of their projects. It then presents a Stakeholder Engagement Process (SEP), which provides tools to facilitate proportionate engagement of and input from stakeholders with an emphasis on equitable and meaningful participation and positionality awareness.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-19
# AIフェアネスの実践

AI Fairness in Practice ( http://arxiv.org/abs/2403.14636v1 )

ライセンス: Link先を確認
David Leslie, Cami Rincon, Morgan Briggs, Antonella Perini, Smera Jayadeva, Ann Borda, SJ Bennett, Christopher Burr, Mhairi Aitken, Michael Katell, Claudia Fischer, Janis Wong, Ismael Kherroubi Garcia, (参考訳) AIフェアネスの定義に対するコンセンサスの獲得は、長い間、AI倫理とガバナンスにおける中心的な課題であった。 フェアネスの概念が何を意味するのか、どのように実践されるべきなのか、社会全体に幅広い視点がある。 このワークブックでは、AIフェアネスを理解するためのコンテキストベースで社会中心のアプローチが、プロジェクトチームがAIプロジェクトワークフロー全体にわたって不公平な偏見と差別を拾い上げる多くの方法を特定し、緩和し、管理する上で、どのように役立つかを探求することで、この問題に取り組みます。 公平さの意味に関する複数の理解にもかかわらず、平等と非差別の優先順位が、その応用の広く受け入れられた核を実践原理としてどのように構成するかを探求することから始まる。 我々は、これらの優先事項が、直接的および間接的な差別と差別的嫌がらせから平等に保護される形でどのように現れるかに焦点を当てる。 これらの要素は、不公平な偏見と差別の事例を識別し、AIプロジェクトワークフロー全体で緩和できる倫理的および法的基準を形成する。 次に、AIプロジェクトのライフサイクルの異なるコンテキストが、さまざまな公正な懸念を引き起こす方法について、より深く調査します。 これにより、バイアス識別、緩和、管理に対するマルチレンズアプローチの基礎となる、いくつかのタイプのAIフェアネス(データフェアネス、アプリケーションフェアネス、モデル設計と開発フェアネス、メトリックベースのフェアネス、システム実装フェアネス、エコシステムフェアネス)を特定できます。 これに基づいて、我々は、バイアス自己評価とバイアスリスク管理を通じて、AIプロジェクトのワークフロー全体にわたってAIフェアネスの原則を実践する方法、およびフェアネスポジションステートメントにおけるメトリックベースのフェアネス基準の文書を通して議論する。

Reaching consensus on a commonly accepted definition of AI Fairness has long been a central challenge in AI ethics and governance. There is a broad spectrum of views across society on what the concept of fairness means and how it should best be put to practice. In this workbook, we tackle this challenge by exploring how a context-based and society-centred approach to understanding AI Fairness can help project teams better identify, mitigate, and manage the many ways that unfair bias and discrimination can crop up across the AI project workflow. We begin by exploring how, despite the plurality of understandings about the meaning of fairness, priorities of equality and non-discrimination have come to constitute the broadly accepted core of its application as a practical principle. We focus on how these priorities manifest in the form of equal protection from direct and indirect discrimination and from discriminatory harassment. These elements form ethical and legal criteria based upon which instances of unfair bias and discrimination can be identified and mitigated across the AI project workflow. We then take a deeper dive into how the different contexts of the AI project lifecycle give rise to different fairness concerns. This allows us to identify several types of AI Fairness (Data Fairness, Application Fairness, Model Design and Development Fairness, Metric-Based Fairness, System Implementation Fairness, and Ecosystem Fairness) that form the basis of a multi-lens approach to bias identification, mitigation, and management. Building on this, we discuss how to put the principle of AI Fairness into practice across the AI project workflow through Bias Self-Assessment and Bias Risk Management as well as through the documentation of metric-based fairness criteria in a Fairness Position Statement.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-19
# SimGrade: より正確な人間の彫刻にコードの類似性対策を使う

SimGrade: Using Code Similarity Measures for More Accurate Human Grading ( http://arxiv.org/abs/2403.14637v1 )

ライセンス: Link先を確認
Sonja Johnson-Yu, Nicholas Bowman, Mehran Sahami, Chris Piech, (参考訳) 試験におけるプログラミング問題の利用は、CSコースにおける要約的評価の一般的な形態であるが、そのような試験問題を格付けすることは困難かつ矛盾するプロセスである。 歴史的グレーティングパターンの分析を通して、CS1コースにおいて、自由応答プログラミング問題の不正確で一貫性のないグレーディングが広く行われていることを示す。 これらの矛盾は、より公平で正確なグレーディングを保証する方法の開発を必要とする。 この履歴試験データを解析した結果,学生がこれまで類似した論文を目にしたとき,より正確なスコアを学生に提出できることが判明した。 その結果, 受験者が見た各受験者が, これまでに見た少なくとも1件の受験に類似していることを保証することで, 受験成績の精度を向上させることができると仮定した。 そこで本稿では,(1) 学生の応募を学士に割り当てるアルゴリズムを提案し,(2) 受験者が以前に類似した解を見た確率を最大化するために,学生コードの分散表現を活用して,受験者の類似度を測定する。 最後に、これらのアルゴリズムは、現在の標準乱数割当プロセスよりも高い階調精度を実現することをシミュレーションで示している。

While the use of programming problems on exams is a common form of summative assessment in CS courses, grading such exam problems can be a difficult and inconsistent process. Through an analysis of historical grading patterns we show that inaccurate and inconsistent grading of free-response programming problems is widespread in CS1 courses. These inconsistencies necessitate the development of methods to ensure more fairer and more accurate grading. In subsequent analysis of this historical exam data we demonstrate that graders are able to more accurately assign a score to a student submission when they have previously seen another submission similar to it. As a result, we hypothesize that we can improve exam grading accuracy by ensuring that each submission that a grader sees is similar to at least one submission they have previously seen. We propose several algorithms for (1) assigning student submissions to graders, and (2) ordering submissions to maximize the probability that a grader has previously seen a similar solution, leveraging distributed representations of student code in order to measure similarity between submissions. Finally, we demonstrate in simulation that these algorithms achieve higher grading accuracy than the current standard random assignment process used for grading.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-19
# メンタルヘルスのための大規模言語モデル:システムレビュー

Large Language Model for Mental Health: A Systematic Review ( http://arxiv.org/abs/2403.15401v1 )

ライセンス: Link先を確認
Zhijun Guo, Alvina Lai, Johan Hilge Thygesen, Joseph Farrington, Thomas Keen, Kezhi Li, (参考訳) 大規模言語モデル(LLM)は、デジタルヘルスにおいてその可能性を示しつつも、メンタルヘルスへの応用は、現在進行中の議論の対象となっている。 本システムレビューは, 精神保健におけるLSMの使用を, LLMにおける最新の研究の強みと限界を調査し, 早期スクリーニング, デジタル介入, その他のメンタルヘルスにおける臨床応用の課題と機会を論じることによって, 精神保健におけるLSMの使用を要約し特徴付けることを目的としている。 PRISMAガイドラインに従って,2017年1月1日から2023年9月1日までに公開された,PubMed,DBLP Computer Science Bibliography,IEEE Xploreの英語記事について検討した。 分析対象は,ソーシャルメディアデータセット(n=13),メンタルヘルスチャットボット(n=10),その他のメンタルヘルスアプリケーション(n=9。 発見は、LLMsが精神保健問題の検出と、個人化された医療を通じて遠隔医療サービスの強化に有効であることを明らかにしている。 それでも、テキストの不整合、幻覚的内容、倫理的枠組みの欠如といったリスクは、臨床的使用に対する懸念を引き起こす。 これらの課題にもかかわらず、LSMの進歩は、彼らの革新的な臨床ツールとしての可能性を強調し、さらなる研究と開発を必要としている。 レビューでは、LSMは専門的なメンタルヘルスサービスを補完するものではなく、補完するべきだと強調している。

Large language models (LLMs) have received much attention and shown their potential in digital health, while their application in mental health is subject to ongoing debate. This systematic review aims to summarize and characterize the use of LLMs in mental health by investigating the strengths and limitations of the latest work in LLMs and discusses the challenges and opportunities for early screening, digital interventions, and other clinical applications in mental health. Following PRISMA guidelines, we examined English articles from PubMed, DBLP Computer Science Bibliography, and IEEE Xplore, published between 1 January 2017, and 1 September 2023, focusing on mental health and LLMs. The review analyzed 32 articles, including mental health analysis using social media datasets (n=13), mental health chatbots (n=10), and other mental health applications (n=9). Findings reveal LLMs' effectiveness in mental health issue detection and the enhancement of telepsychological services through personalised healthcare. Nonetheless, risks like text inconsistencies, hallucinatory content, and the lack of an ethical framework raise concerns about their clinical use. Despite these challenges, the advancement of LLMs underscores their potential as innovative clinical tools, necessitating further research and development. The review emphasizes that LLMs should complement, not replace, professional mental health services.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-19
# このクラスは、デザイン教育におけるAbleistトレンドを認識し、包括的で持続可能な未来のために再設計する

This Class Isn't Designed For Me: Recognizing Ableist Trends In Design Education, And Redesigning For An Inclusive And Sustainable Future ( http://arxiv.org/abs/2403.15402v1 )

ライセンス: Link先を確認
Sourojit Ghosh, Sarah Coppola, (参考訳) 伝統的かつ現在広く普及しているデザインの教育は、デザイナーであることの意味について、有能で排他的な概念を永久に持つ。 本稿では,デザイン教育の歴史的排他的規範を追究し,デザイン教育者としての経験から現代事例を強調した。 デザイン教育のより包括的で持続可能な未来を推し進めるために、視覚障害者(BLV)、聴覚障害・難聴学生(DHH)、その他の障害のある学生を対象に、デザイン教育者としての経験から3つのケーススタディを提示した。 成功し、失敗するプラクティスを文書化する上で、私たちはデザイン教育におけるケアの実践がどのようなものになるかを想像します。

Traditional and currently-prevalent pedagogies of design perpetuate ableist and exclusionary notions of what it means to be a designer. In this paper, we trace such historically exclusionary norms of design education, and highlight modern-day instances from our own experiences as design educators in such epistemologies. Towards imagining a more inclusive and sustainable future of design education, we present three case studies from our own experience as design educators in redesigning course experiences for blind and low-vision (BLV), deaf and hard-of-hearing (DHH) students, and students with other disabilities. In documenting successful and unsuccessful practices, we imagine what a pedagogy of care in design education would look like.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-19
# AI倫理とガバナンスの実践 - 序文

AI Ethics and Governance in Practice: An Introduction ( http://arxiv.org/abs/2403.15403v1 )

ライセンス: Link先を確認
David Leslie, Cami Rincon, Morgan Briggs, Antonella Perini, Smera Jayadeva, Ann Borda, SJ Bennett, Christopher Burr, Mhairi Aitken, Michael Katell, Claudia Fischer, (参考訳) AIシステムは個人や社会に変革的かつ長期的影響を及ぼす可能性がある。 これらの影響を責任を持って管理し、最適な公共利益に向けてAIシステムの開発を指示するためには、AI倫理とガバナンスの考慮が第一の優先事項である必要がある。 このワークブックでは、プロジェクトチームが倫理的価値と実践的原則をイノベーションプラクティスに統合し、これを実証および文書化するための明確なメカニズムを持つことを可能にする、多層ガバナンスモデルPBG Frameworkを紹介し、説明します。

AI systems may have transformative and long-term effects on individuals and society. To manage these impacts responsibly and direct the development of AI systems toward optimal public benefit, considerations of AI ethics and governance must be a first priority. In this workbook, we introduce and describe our PBG Framework, a multi-tiered governance model that enables project teams to integrate ethical values and practical principles into their innovation practices and to have clear mechanisms for demonstrating and documenting this.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-19
# 実践におけるAIサステナビリティ その2:AIワークフローを通してのサステナビリティ

AI Sustainability in Practice Part Two: Sustainability Throughout the AI Workflow ( http://arxiv.org/abs/2403.15404v1 )

ライセンス: Link先を確認
David Leslie, Cami Rincon, Morgan Briggs, Antonella Perini, Smera Jayadeva, Ann Borda, SJ Bennett, Christopher Burr, Mhairi Aitken, Michael Katell, Claudia Fischer, Janis Wong, Ismael Kherroubi Garcia, (参考訳) AIシステムの持続性は、実世界の潜在的な影響と変革的な影響に対して、継続的な感度で進むためのプロジェクトチームの能力に依存する。 Stakeholder Impact Assessments(SIAs)は、このような応答性を実現するガバナンスメカニズムである。 それらは、AIイノベーションプロジェクトの害と利益に関する、共同評価と反射的な予測のための手順を作成し、文書化するためのツールである。 SIAは1対1のガバナンス行動ではない。 プロジェクトチームは、AI生産と使用のダイナミックで変化している特性と、AI技術が組み込まれている現実環境のシフト状況に継続的な注意を払う必要がある。 このワークブックは、AIサステナビリティに関する2つのワークブックの一部である。 SIAと活動のテンプレートを提供し、その重要な部分を深く掘り下げることができます。 SIAにおける価値の重み付けとトレードオフを検討する方法について論じる。 また、SIAを応答性評価と再評価のエンドツーエンドプロセスとして扱う必要性を強調している。

The sustainability of AI systems depends on the capacity of project teams to proceed with a continuous sensitivity to their potential real-world impacts and transformative effects. Stakeholder Impact Assessments (SIAs) are governance mechanisms that enable this kind of responsiveness. They are tools that create a procedure for, and a means of documenting, the collaborative evaluation and reflective anticipation of the possible harms and benefits of AI innovation projects. SIAs are not one-off governance actions. They require project teams to pay continuous attention to the dynamic and changing character of AI production and use and to the shifting conditions of the real-world environments in which AI technologies are embedded. This workbook is part two of two workbooks on AI Sustainability. It provides a template of the SIA and activities that allow a deeper dive into crucial parts of it. It discusses methods for weighing values and considering trade-offs during the SIA. And, it highlights the need to treat the SIA as an end-to-end process of responsive evaluation and re-assessment.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-19
# プライバシ保護による会計認証:ユニバーサルログインのためのLarchシステム

Accountable authentication with privacy protection: The Larch system for universal login ( http://arxiv.org/abs/2305.19241v6 )

ライセンス: Link先を確認
Emma Dauterman, Danny Lin, Henry Corrigan-Gibbs, David Mazières, (参考訳) クレデンシャル妥協は検出が難しく、緩和が難しい。 この問題に対処するために,強力なセキュリティとプライバシ特性を備えた説明可能な認証フレームワークであるlarchを提案する。 Larchはユーザのプライバシを保護し、larchログサーバがすべての認証を正しく記録することを保証する。 具体的には、ユーザのデバイスを侵害した攻撃者は、ログに証拠を作成せずに認証することができず、ログは、ユーザが認証しているWebサービス(サードパーティ)を学習することはできない。 迅速な採用を実現するため、larchはFIDO2、TOTP、パスワードベースのログインをサポートするサードパーティと後方互換性がある。 さらに、larchは、ユーザがすでに期待しているセキュリティとプライバシを劣化させません。ログサーバは、ユーザに代わって認証することができません。 FIDO2、TOTP、パスワードベースのログインのためのlarchを実装している。 4コアのクライアントと8コアのログサーバが与えられた後、larchによる認証はFIDO2で150ms、TOTPで91ms、パスワードで74ms(TOTPで1.23s)。

Credential compromise is hard to detect and hard to mitigate. To address this problem, we present larch, an accountable authentication framework with strong security and privacy properties. Larch protects user privacy while ensuring that the larch log server correctly records every authentication. Specifically, an attacker who compromises a user's device cannot authenticate without creating evidence in the log, and the log cannot learn which web service (relying party) the user is authenticating to. To enable fast adoption, larch is backwards-compatible with relying parties that support FIDO2, TOTP, and password-based login. Furthermore, larch does not degrade the security and privacy a user already expects: the log server cannot authenticate on behalf of a user, and larch does not allow relying parties to link a user across accounts. We implement larch for FIDO2, TOTP, and password-based login. Given a client with four cores and a log server with eight cores, an authentication with larch takes 150ms for FIDO2, 91ms for TOTP, and 74ms for passwords (excluding preprocessing, which takes 1.23s for TOTP).
翻訳日:2024-03-25 23:48:38 公開日:2024-02-19
# zk-IoT: ブロックチェーンプラットフォーム上のゼロ知識証明によるモノのインターネットのセキュア化

zk-IoT: Securing the Internet of Things with Zero-Knowledge Proofs on Blockchain Platforms ( http://arxiv.org/abs/2402.08322v2 )

ライセンス: Link先を確認
Gholamreza Ramezan, Ehsan Meamari, (参考訳) 本稿では,Zero-Knowledge Proofs(ZKP)をブロックチェーンプラットフォーム上で使用することにより,モノのインターネット(IoT)エコシステムのセキュリティを強化する,新たなアプローチであるzk-IoTフレームワークを紹介する。 我々のフレームワークは、潜在的に侵害されたIoTデバイスにおけるファームウェアの実行とデータ処理の完全性を保証する。 ZKPの概念を活用することで、デバイスが本質的に相互に信頼できない環境において、IoTデバイス間のセキュアで自律的な通信を容易にする信頼層を確立します。 このフレームワークには、実行プログラムの証明を生成するための機能的なコミットメントを利用するzk-Devicesと、デバイス間のインタラクションロジックをエンコードするサービスコントラクトが含まれている。 また、ブロックチェーン層とリレーをそれぞれZKPストレージとデータ通信プロトコルとして使用する。 実験では, システム設定のそれぞれ約694, 5078, 19ミリ秒の証明生成, 読み出し, 検証を行う。 これらのタイミングは、IoTデバイス通信の実践的な要件を満たし、ソリューションの実現可能性と効率を実証します。 zk-IoTフレームワークはIoTセキュリティの領域において,スマートシティインフラストラクチャやヘルスケアシステム,産業自動化など,さまざまなアプリケーションにまたがる信頼性とスケーラブルなIoTネットワークの実現という,大きな進歩を示している。

This paper introduces the zk-IoT framework, a novel approach to enhancing the security of Internet of Things (IoT) ecosystems through the use of Zero-Knowledge Proofs (ZKPs) on blockchain platforms. Our framework ensures the integrity of firmware execution and data processing in potentially compromised IoT devices. By leveraging the concept of ZKP, we establish a trust layer that facilitates secure, autonomous communication between IoT devices in environments where devices may not inherently trust each other. The framework includes zk-Devices, which utilize functional commitment to generate proofs for executed programs, and service contracts for encoding interaction logic among devices. It also utilizes a blockchain layer and a relayer as a ZKP storage and data communication protocol, respectively. Our experiments demonstrate that proof generation, reading, and verification take approximately 694, 5078, and 19 milliseconds in our system setup, respectively. These timings meet the practical requirements for IoT device communication, demonstrating the feasibility and efficiency of our solution. The zk-IoT framework represents a significant advancement in the realm of IoT security, paving the way for reliable and scalable IoT networks across various applications, such as smart city infrastructures, healthcare systems, and industrial automation.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-19
# 攻撃的セキュリティ課題解決のためのLLMの実証評価

An Empirical Evaluation of LLMs for Solving Offensive Security Challenges ( http://arxiv.org/abs/2402.11814v1 )

ライセンス: Link先を確認
Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg, Ramesh Karri, Muhammad Shafique, (参考訳) Capture The Flag (CTF)チャレンジは、コンピュータセキュリティシナリオに関連するパズルである。 大規模言語モデル(LLM)の出現に伴い、より多くのCTF参加者がこの課題を理解し解決するためにLLMを使用している。 しかし、完全に自動化されたワークフローでCTFの課題を解決する上でのLLMの有効性を評価する研究は今のところない。 我々は,Human-in-the-loop(HITL)と完全自動化の2つのCTF解決ワークフローを開発し,選択したCTF課題の解決能力を検討する。 また,LLMが平均的な人間よりも高い成功率を達成できることを示す。 この研究は、現実の競争から完全に自動化されたワークフローに至るまで、現実のCTF課題を解決するためのLLMの能力を総合的に評価する。 本研究は,LLMをサイバーセキュリティ教育に適用するための参考資料を提供し,LLMの攻撃的サイバーセキュリティ能力を体系的に評価する方法について検討した。

Capture The Flag (CTF) challenges are puzzles related to computer security scenarios. With the advent of large language models (LLMs), more and more CTF participants are using LLMs to understand and solve the challenges. However, so far no work has evaluated the effectiveness of LLMs in solving CTF challenges with a fully automated workflow. We develop two CTF-solving workflows, human-in-the-loop (HITL) and fully-automated, to examine the LLMs' ability to solve a selected set of CTF challenges, prompted with information about the question. We collect human contestants' results on the same set of questions, and find that LLMs achieve higher success rate than an average human participant. This work provides a comprehensive evaluation of the capability of LLMs in solving real world CTF challenges, from real competition to fully automated workflow. Our results provide references for applying LLMs in cybersecurity education and pave the way for systematic evaluation of offensive cybersecurity capabilities in LLMs.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-19
# 追跡・セキュリティ機能強化による高度・インテリジェントロジスティックス車両の展開

Deployment of Advanced and Intelligent Logistics Vehicles with Enhanced Tracking and Security Features ( http://arxiv.org/abs/2402.11829v1 )

ライセンス: Link先を確認
Iqtiar Md Siddique, Selim Molla, MD Rakib Hasan, Anamika Ahmed Siddique, (参考訳) 本研究は、高度追跡とセキュリティ機能を備えた近代的かつインテリジェントなロジスティクス車両の実装に焦点を当てる。 物流管理の進展に対応するため, 提案システムは最先端技術を統合し, 効率を高め, 物流プロセス全体の安全性を確保する。 この実装の中核となるコンポーネントは、車両の位置と動きのリアルタイムモニタリングを可能にする最先端のトラッキングメカニズムの導入である。 さらに,高度なセキュリティ対策を導入することで,セキュリティに関する最重要事項に対処する。 高度な追跡技術とセキュリティプロトコルを活用することにより、提案するロジスティクスは、顧客データとプロバイダデータの保護を目的としている。 この実装にはQRコードの概念の統合、機密情報を隠蔽し、認証されたユーザのみへのアクセスを保証するバイナリイメージシステムの構築が含まれている。 追跡とセキュリティに加えて、この研究は情報マイニングの領域を掘り下げ、分類、クラスタリング、膨大なデータセットから意味のあるパターンを抽出する推奨といったテクニックを取り入れている。 ユーザの好みや履歴データに基づくサービスを推奨することで、顧客エクスペリエンスを高めるために、協調フィルタリング技術が組み込まれている。 この抽象概念は、現代のロジスティクス車両の展開に関する包括的なアプローチをカプセル化し、高度な追跡、堅牢なセキュリティ対策、データ駆動の洞察を通じて、そのインテリジェンスを強調している。 提案システムは,動的ロジスティクスのランドスケープにおいて,顧客とサービス提供者双方にとってシームレスかつセキュアなエクスペリエンスを提供することを目的としている。

This study focuses on the implementation of modern and intelligent logistics vehicles equipped with advanced tracking and security features. In response to the evolving landscape of logistics management, the proposed system integrates cutting edge technologies to enhance efficiency and ensure the security of the entire logistics process. The core component of this implementation is the incorporation of state-of-the art tracking mechanisms, enabling real-time monitoring of vehicle locations and movements. Furthermore, the system addresses the paramount concern of security by introducing advanced security measures. Through the utilization of sophisticated tracking technologies and security protocols, the proposed logistics vehicles aim to safeguard both customer and provider data. The implementation includes the integration of QR code concepts, creating a binary image system that conceals sensitive information and ensures access only to authorized users. In addition to tracking and security, the study delves into the realm of information mining, employing techniques such as classification, clustering, and recommendation to extract meaningful patterns from vast datasets. Collaborative filtering techniques are incorporated to enhance customer experience by recommending services based on user preferences and historical data. This abstract encapsulates the comprehensive approach of deploying modern logistics vehicles, emphasizing their intelligence through advanced tracking, robust security measures, and data-driven insights. The proposed system aims to revolutionize logistics management, providing a seamless and secure experience for both customers and service providers in the dynamic logistics landscape.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-19
# プロセスマイニングによる攻撃木生成

Attack Tree Generation via Process Mining ( http://arxiv.org/abs/2402.12040v1 )

ライセンス: Link先を確認
Alyzia-Maria Konsta, Gemma Di Federico, Alberto Lluch Lafuente, Andrea Burattin, (参考訳) アタックツリーは、脅威シナリオを研究するために使用されるセキュリティのグラフィカルモデルである。 しっかりとした理論や効果的なツールによって視覚的にアピールされサポートされているが、セキュリティの専門家がゼロから設計するのに要する労力の量には大きな欠点がある。 この作業は、アタックログからアタックツリーを自動的に生成する方法を提供することで、この問題を解決することを目的としている。 私たちのアプローチの本来の特徴は、例えば統計的に無関係なイベントを破棄して、ログの集合をアタックツリーとして要約する方法をカスタマイズできる、アタックツリーを合成するためのプロセスマイニングアルゴリズムを使用することです。 我々のアプローチは,モデルの導出と翻訳とは別に,リスクモデリングとアタックツリーを用いた分析を行うツールであるRisQFLanフォーマットのアタックツリーをユーザに提供するプロトタイプによって支持されている。 本稿では,最先端のプロトコルアナライザによって生成された通信プロトコルに対する攻撃事例について述べる。

Attack Trees are a graphical model of security used to study threat scenarios. While visually appealing and supported by solid theories and effective tools, one of their main drawbacks remains the amount of effort required by security experts to design them from scratch. This work aims to remedy this by providing a method for the automatic generation of Attack Trees from attack logs. The main original feature of our approach w.r.t existing ones is the use of Process Mining algorithms to synthesize Attack Trees, which allow users to customize the way a set of logs are summarized as an Attack Tree, for example by discarding statistically irrelevant events. Our approach is supported by a prototype that, apart from the derivation and translation of the model, provides the user with an Attack Tree in the RisQFLan format, a tool used for quantitative risk modeling and analysis with Attack Trees. We illustrate our approach with the case study of attacks on a communication protocol, produced by a state-of-the-art protocol analyzer.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-19
# SCARF: 生産時ハードウェアトロイの木馬に対するロバストフレームワークによるセキュアチップ

SCARF: Securing Chips with a Robust Framework against Fabrication-time Hardware Trojans ( http://arxiv.org/abs/2402.12162v1 )

ライセンス: Link先を確認
Mohammad Eslami, Tara Ghasempouri, Samuel Pagliarini, (参考訳) 半導体産業のグローバル化は、IC(Integrated Circuits)、特にハードウェアトロイの木馬(HT)の脅威に関連するセキュリティ問題を導入している。 ICの正しさと信頼性を検証するために多大な努力が払われているが、セキュリティは見過ごされがちである。 本稿では,設計のフロントエンドからバックエンドまでのICセキュリティを強化するための包括的アプローチを提案する。 まず,検証アサーションを再利用することで,既存の検証アセットを強力なセキュリティチェッカーに変換するシステムについて概説する。 セキュリティをさらに向上するために,物理合成中にオンラインモニタを統合する革新的な技術を導入する。 実験の結果,導入した指標であるセキュリティカバー (SC) によって測定されたセキュリティの著しい増加が示され,面積と電力消費の限界が20 %未満であることがわかった。 物理合成中のオンラインモニターの挿入は、セキュリティメトリクスを最大33.5\%向上させる。 この総合的なアプローチは、IC設計の全スペクトルにわたって包括的で弾力的な防御機構を提供する。

The globalization of the semiconductor industry has introduced security challenges to Integrated Circuits (ICs), particularly those related to the threat of Hardware Trojans (HTs) - malicious logic that can be introduced during IC fabrication. While significant efforts are directed towards verifying the correctness and reliability of ICs, their security is often overlooked. In this paper, we propose a comprehensive approach to enhance IC security from the front-end to back-end stages of design. Initially, we outline a systematic method to transform existing verification assets into potent security checkers by repurposing verification assertions. To further improve security, we introduce an innovative technique for integrating online monitors during physical synthesis - a back-end insertion providing an additional layer of defense. Experimental results demonstrate a significant increase in security, measured by our introduced metric, Security Coverage (SC), with a marginal rise in area and power consumption, typically under 20\%. The insertion of online monitors during physical synthesis enhances security metrics by up to 33.5\%. This holistic approach offers a comprehensive and resilient defense mechanism across the entire spectrum of IC design.
翻訳日:2024-03-25 08:56:22 公開日:2024-02-19
# 構造とセマンティックスにおけるEHRのマルチモーダル融合 : 臨床記録とノートとハイパーグラフとLCMの統合

Multimodal Fusion of EHR in Structures and Semantics: Integrating Clinical Records and Notes with Hypergraph and LLM ( http://arxiv.org/abs/2403.08818v1 )

ライセンス: Link先を確認
Hejie Cui, Xinyu Fang, Ran Xu, Xuan Kan, Joyce C. Ho, Carl Yang, (参考訳) 電子健康記録(Electronic Health Records, EHRs)は、近年、臨床意思決定と医療をサポートするために人気が高まっている。 EHRは通常、表形式の構造データやテキストノートの非構造データのような異種情報を含む。 EHRの異なる種類の情報は互いに補完し合い、患者の健康状態をより完全な画像を提供する。 構造化EHRデータの表現学習には多くの研究がなされているが、異なるタイプのEHRデータの融合(マルチモーダルフュージョン)は十分に研究されていない。 これは主に、使用する複雑な医療用コーディングシステムと、メモに記載されているノイズと冗長性のためである。 本研究では,EHRにおける構造と意味を効果的に統合するMINGLEという新しいフレームワークを提案する。 我々のフレームワークは,医療概念のセマンティクスと臨床ノートのセマンティクスを組み合わせた2段階のインフュージョン戦略を用いて,異なるタイプのデータ間の複雑な相互作用を学習し,下流予測のための訪問表現を生成する。 2つのEHRデータセット(パブリックMIMIC-IIIとプライベートCRADLE)の実験結果から、MINGLEは、構造的およびテキスト的EHRデータに対するマルチモーダル融合と同様に、セマンティック統合を強化し、予測性能を11.83%向上させることができることが示された。

Electronic Health Records (EHRs) have become increasingly popular to support clinical decision-making and healthcare in recent decades. EHRs usually contain heterogeneous information, such as structural data in tabular form and unstructured data in textual notes. Different types of information in EHRs can complement each other and provide a more complete picture of the health status of a patient. While there has been a lot of research on representation learning of structured EHR data, the fusion of different types of EHR data (multimodal fusion) is not well studied. This is mostly because of the complex medical coding systems used and the noise and redundancy present in the written notes. In this work, we propose a new framework called MINGLE, which integrates both structures and semantics in EHR effectively. Our framework uses a two-level infusion strategy to combine medical concept semantics and clinical note semantics into hypergraph neural networks, which learn the complex interactions between different types of data to generate visit representations for downstream prediction. Experiment results on two EHR datasets, the public MIMIC-III and private CRADLE, show that MINGLE can effectively improve predictive performance by 11.83% relatively, enhancing semantic integration as well as multimodal fusion for structural and textual EHR data.
翻訳日:2024-03-25 08:16:13 公開日:2024-02-19
# 微調整拡散モデルに対するブラックボックスメンバーシップ推論攻撃

Black-box Membership Inference Attacks against Fine-tuned Diffusion Models ( http://arxiv.org/abs/2312.08207v2 )

ライセンス: Link先を確認
Yan Pang, Tianhao Wang, (参考訳) 拡散に基づく画像生成モデルの急速な進歩により、生成画像の品質はますますフォトリアリスティックになりつつある。 さらに、高品質なトレーニング済み画像生成モデルのリリースにより、多くのユーザーがこれらのトレーニング済みモデルをダウンロードして、さまざまな画像生成タスクのための下流データセットで微調整している。 しかし、下流タスクにそのような強力なトレーニング済みモデルを採用すると、重大なプライバシー漏洩のリスクが生じる。 本稿では,近年の拡散モデルに適した再構成型メンバシップ推論攻撃フレームワークと,より厳密なブラックボックスアクセス設定を提案する。 4つの異なる攻撃シナリオと3種類の攻撃を考えると、このフレームワークは一般的な条件付きジェネレータモデルをターゲットにし、0.95ドルの印象的なAUCによって証明された高い精度を達成することができる。

With the rapid advancement of diffusion-based image-generative models, the quality of generated images has become increasingly photorealistic. Moreover, with the release of high-quality pre-trained image-generative models, a growing number of users are downloading these pre-trained models to fine-tune them with downstream datasets for various image-generation tasks. However, employing such powerful pre-trained models in downstream tasks presents significant privacy leakage risks. In this paper, we propose the first reconstruction-based membership inference attack framework, tailored for recent diffusion models, and in the more stringent black-box access setting. Considering four distinct attack scenarios and three types of attacks, this framework is capable of targeting any popular conditional generator model, achieving high precision, evidenced by an impressive AUC of $0.95$.
翻訳日:2024-03-18 12:17:07 公開日:2024-02-19
# 再利用可能なmlops: 再利用可能なデプロイメント、再利用可能なインフラストラクチャ、ホットスワップ可能な機械学習モデルとサービス

Reusable MLOps: Reusable Deployment, Reusable Infrastructure and Hot-Swappable Machine Learning models and services ( http://arxiv.org/abs/2403.00787v1 )

ライセンス: Link先を確認
D Panchal, P Verma, I Baran, D Musgrove, D Lu(参考訳) 機械学習モデルの構築は多くのツールやライブラリ、アルゴリズムが自由に利用できるため、ますますアクセスしやすくなってきたが、これらのモデルの操作性は依然として問題となっている。 データエンジニアリング、ソフトウェア開発、クラウド、DevOpsに関する専門知識が必要です。 また、本番環境が完成すれば、そのモデルがどのようにビジネスアプリケーションによって使用されるのか、新しいデータがどのように継続的にトレーニングされるのか、そして、新しいモデルが既存のモデルを置き換えるのか、といった計画、合意、ビジョンも必要です。 これにより、開発者とデータサイエンティストがサイロで作業し、最適でない決定を下すことになる。 また、時間と労力の浪費にも繋がる。 私たちは開発したAcumos AIプラットフォームを導入し、Acumosモデルランナーが持ついくつかのユニークな新機能を示し、上記の問題を解決するのに役立ちます。 そこでは、既存のデプロイメントとインフラストラクチャを再利用して、インフラストラクチャやマイクロサービスを分解することなく、新たなモデルをホットスワッピングして、新たなモデルを提供する。

Although Machine Learning model building has become increasingly accessible due to a plethora of tools, libraries and algorithms being available freely, easy operationalization of these models is still a problem. It requires considerable expertise in data engineering, software development, cloud and DevOps. It also requires planning, agreement, and vision of how the model is going to be used by the business applications once it is in production, how it is going to be continuously trained on fresh incoming data, and how and when a newer model would replace an existing model. This leads to developers and data scientists working in silos and making suboptimal decisions. It also leads to wasted time and effort. We introduce the Acumos AI platform we developed and we demonstrate some unique novel capabilities that the Acumos model runner possesses, that can help solve the above problems. We introduce a new sustainable concept in the field of AI/ML operations - called Reusable MLOps - where we reuse the existing deployment and infrastructure to serve new models by hot-swapping them without tearing down the infrastructure or the microservice, thus achieving reusable deployment and operations for AI/ML models while still having continuously trained models in production.
翻訳日:2024-03-11 00:09:58 公開日:2024-02-19
# ニュースとメディアの感性分析によるForexトレーディング信号の生成

Applying News and Media Sentiment Analysis for Generating Forex Trading Signals ( http://arxiv.org/abs/2403.00785v1 )

ライセンス: Link先を確認
Oluwafemi F Olaiyapo(参考訳) 本研究の目的は、外国為替(Forex)市場のトレーディングシグナルを生成するために、感情分析をどのように活用できるかを検討することである。 筆者は,lexicon-based analysisとnaive bayes machine learningアルゴリズムを組み合わせた手法を用いて,米国ドルに関連するソーシャルメディア投稿やニュース記事における感情評価を行った。 この結果は、感情分析が市場の動きを予測し、取引シグナルを考案する上で有用であることを示している。 特に、その効果は異なる市場条件で一致している。 著者は、ニュースやソーシャルメディアで表現された感情を分析することで、トレーダーはusdや他の関連する国々に対する市場感情について洞察を得ることができ、取引意思決定を支援することができると結論づけている。 本研究は、市場動態を予測する重要なツールとして、トレーディング戦略に感情分析を織ることの重要性を強調する。

The objective of this research is to examine how sentiment analysis can be employed to generate trading signals for the Foreign Exchange (Forex) market. The author assessed sentiment in social media posts and news articles pertaining to the United States Dollar (USD) using a combination of methods: lexicon-based analysis and the Naive Bayes machine learning algorithm. The findings indicate that sentiment analysis proves valuable in forecasting market movements and devising trading signals. Notably, its effectiveness is consistent across different market conditions. The author concludes that by analyzing sentiment expressed in news and social media, traders can glean insights into prevailing market sentiments towards the USD and other pertinent countries, thereby aiding trading decision-making. This study underscores the importance of weaving sentiment analysis into trading strategies as a pivotal tool for predicting market dynamics.
翻訳日:2024-03-11 00:09:39 公開日:2024-02-19
# 小型言語モデルの構築による大規模言語モデルの浄化

Purifying Large Language Models by Ensembling a Small Language Model ( http://arxiv.org/abs/2402.14845v1 )

ライセンス: Link先を確認
Tianlin Li, Qian Liu, Tianyu Pang, Chao Du, Qing Guo, Yang Liu, Min Lin(参考訳) 大規模言語モデル(llm)の新たな成功は、外部(信頼できない)ソースからの豊富なトレーニングデータ収集に大きく依存している。 データクリーニングとキュレーションに多大な努力を払っているにもかかわらず、よく構築されたLLMは著作権侵害、データ中毒、および/またはプライバシー侵害に悩まされていると報告されている。 本研究では,良性および小言語モデル(slms)を用いたllmのセンシングを通じて,不正確なデータに起因する悪影響から,簡易かつ容易にllmを浄化する手法を提案する。 理論的保証は別として,著作権侵害,データ中毒,プライバシー侵害などの問題を緩和しつつ,LSMとSLMの併用の有効性を実証的に検証する包括的実験を行う。

The emerging success of large language models (LLMs) heavily relies on collecting abundant training data from external (untrusted) sources. Despite substantial efforts devoted to data cleaning and curation, well-constructed LLMs have been reported to suffer from copyright infringement, data poisoning, and/or privacy violations, which would impede practical deployment of LLMs. In this study, we propose a simple and easily implementable method for purifying LLMs from the negative effects caused by uncurated data, namely, through ensembling LLMs with benign and small language models (SLMs). Aside from theoretical guarantees, we perform comprehensive experiments to empirically confirm the efficacy of ensembling LLMs with SLMs, which can effectively preserve the performance of LLMs while mitigating issues such as copyright infringement, data poisoning, and privacy violations.
翻訳日:2024-03-03 19:39:55 公開日:2024-02-19
# 動的価格の新しい時代:教師付き学習と二次プログラミングの融合

The New Era of Dynamic Pricing: Synergizing Supervised Learning and Quadratic Programming ( http://arxiv.org/abs/2402.14844v1 )

ライセンス: Link先を確認
Gustavo Bramao, Ilia Tarygin(参考訳) 本稿では,カーレンタル業界における動的価格モデルを洗練するための教師付き学習と二次プログラミングの新たな組み合わせについて検討する。 価格弾性の動的モデリングを用いて,p値,ホモシedasticity,error normalityといった平均最小二乗法(ols)の指標から情報を得た。 これらの測度は、基礎となる仮定が成り立つとき、二次プログラミングエージェントを導くのに不可欠である。 プログラムは与えられた有限集合の目標に対してマージンを最適化する。

In this paper, we explore a novel combination of supervised learning and quadratic programming to refine dynamic pricing models in the car rental industry. We utilize dynamic modeling of price elasticity, informed by ordinary least squares (OLS) metrics such as p-values, homoscedasticity, error normality. These metrics, when their underlying assumptions hold, are integral in guiding a quadratic programming agent. The program is tasked with optimizing margin for a given finite set target.
翻訳日:2024-03-03 19:39:38 公開日:2024-02-19
# 強化コンディショニングによるテキスト拡散

Text Diffusion with Reinforced Conditioning ( http://arxiv.org/abs/2402.14843v1 )

ライセンス: Link先を確認
Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang(参考訳) 拡散モデルは高品質な画像、ビデオ、オーディオを生成するのに異常な能力を示した。 反復的洗練における適応性のため、より優れた非自己回帰的シーケンス生成を実現する強力なポテンシャルを提供する。 しかし、既存のテキスト拡散モデルは、言語の離散性を扱うことの難しさから、まだ性能が劣っている。 本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。 本研究の動機は,強化コンディショニングによる劣化を緩和し,時間認識分散スケーリングによる誤用を緩和する,trecと呼ばれる新しいテキスト拡散モデルを提案することにある。 本研究では,TRECの自己回帰的,非自己回帰的,拡散的ベースラインに対する競争性を示す。 さらに, 定性解析により, 試料の拡散過程を十分に活用する能力が得られた。

Diffusion models have demonstrated exceptional capability in generating high-quality images, videos, and audio. Due to their adaptiveness in iterative refinement, they provide a strong potential for achieving better non-autoregressive sequence generation. However, existing text diffusion models still fall short in their performance due to a challenge in handling the discreteness of language. This paper thoroughly analyzes text diffusion models and uncovers two significant limitations: degradation of self-conditioning during training and misalignment between training and sampling. Motivated by our findings, we propose a novel Text Diffusion model called TREC, which mitigates the degradation with Reinforced Conditioning and the misalignment by Time-Aware Variance Scaling. Our extensive experiments demonstrate the competitiveness of TREC against autoregressive, non-autoregressive, and diffusion baselines. Moreover, qualitative analysis shows its advanced ability to fully utilize the diffusion process in refining samples.
翻訳日:2024-03-03 19:39:31 公開日:2024-02-19
# RJUA-MedDQA: 医療文書質問応答と臨床推論のためのマルチモーダルベンチマーク

RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning ( http://arxiv.org/abs/2402.14840v1 )

ライセンス: Link先を確認
Congyun Jin, Ming Zhang, Xiaowei Ma, Li Yujiao, Yingbo Wang, Yabo Jia, Yuliang Du, Tao Sun, Haowen Wang, Cong Fan, Jinjie Gu, Chenfei Chi, Xiangguo Lv, Fangzhou Li, Wei Xue, Yiran Huang(参考訳) 近年のLLM(Large Language Models)やLMM(Large Multi-modal Models)の進歩は、インテリジェント医療診断など、様々な医学的応用に可能性を示している。 優れた結果が得られたが、既存のベンチマークでは、実際の医療報告の複雑さや詳細な推論能力が反映されていない。 本稿では,医療専門分野における包括的ベンチマークであるrjua-meddqaについて紹介する。多種多様な課題レイアウトにわたるicgageコンテンツの包括的解釈,異常指標を識別する数値推論能力,医療状況に基づく疾患診断,状態,アドバイスのステートメントを提供する臨床推論能力を示す。 我々は,データ生成パイプラインを慎重に設計し,医療報告画像中のテキストや表の内容を復元することを目的としたESRA(Efficient Structure Restoration Annotation)法を提案する。 この方法は、アノテーション効率を大幅に向上し、各アノテータの生産性を2倍にし、精度が26.8%向上する。 われわれは,中国のQA課題を解決できる5つのLMMの少数評価を含む,広範な評価を行っている。 本研究では,現在のLMMの限界と可能性について,ESRA法により生成された画像テキストを用いて比較実験を行った。 1) 既存のLMMの全体的な性能はまだ限られているが、LMMはLLMに比べて低品質で多彩な画像に対してより堅牢である。 3) コンテキストと画像コンテンツ間の推論には大きな課題がある。 このベンチマークが、マルチモーダル医療文書理解におけるこれらの困難なタスクの進捗をコミュニティが支援し、医療への応用を促進することを願っています。

Recent advancements in Large Language Models (LLMs) and Large Multi-modal Models (LMMs) have shown potential in various medical applications, such as Intelligent Medical Diagnosis. Although impressive results have been achieved, we find that existing benchmarks do not reflect the complexity of real medical reports and specialized in-depth reasoning capabilities. In this work, we introduced RJUA-MedDQA, a comprehensive benchmark in the field of medical specialization, which poses several challenges: comprehensively interpreting imgage content across diverse challenging layouts, possessing numerical reasoning ability to identify abnormal indicators and demonstrating clinical reasoning ability to provide statements of disease diagnosis, status and advice based on medical contexts. We carefully design the data generation pipeline and proposed the Efficient Structural Restoration Annotation (ESRA) Method, aimed at restoring textual and tabular content in medical report images. This method substantially enhances annotation efficiency, doubling the productivity of each annotator, and yields a 26.8% improvement in accuracy. We conduct extensive evaluations, including few-shot assessments of 5 LMMs which are capable of solving Chinese medical QA tasks. To further investigate the limitations and potential of current LMMs, we conduct comparative experiments on a set of strong LLMs by using image-text generated by ESRA method. We report the performance of baselines and offer several observations: (1) The overall performance of existing LMMs is still limited; however LMMs more robust to low-quality and diverse-structured images compared to LLMs. (3) Reasoning across context and image content present significant challenges. We hope this benchmark helps the community make progress on these challenging tasks in multi-modal medical document understanding and facilitate its application in healthcare.
翻訳日:2024-03-03 19:39:16 公開日:2024-02-19
# SemEval-2024 Task 8におけるRFBES:AI生成・人文テキストの識別のための構文的・意味的特徴の調査

RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts ( http://arxiv.org/abs/2402.14838v1 )

ライセンス: Link先を確認
Mohammad Heydari Rad, Farhan Farsi, Shayan Bali, Romina Etezadi, Mehrnoush Shamsfard(参考訳) 現在では、大規模言語モデル(llm)の使用が増加し、llmは異なる言語と異なるタスクでテキストを生成するのに使われている。 加えて、GoogleやOpenAIといった注目すべき企業が参加しているため、LLMはよりアクセスしやすくなり、簡単に使用できるようになった。 しかし、重要な問題は、人間が書いたテキストからAIが生成したテキストを検出する方法である。 本稿では,aiが生成するテキスト検出の問題を,意味論と構文という2つの異なる側面から検討する。 最後に、M4データセットを用いて、多言語タスクと単言語タスクの両方で高精度にAI生成テキストと人書きテキストを区別できるAIモデルを提示した。 私たちの結果によると、セマンティックなアプローチを使うことは、検出にもっと役立つでしょう。 しかし、構文的アプローチには改善の余地がたくさんありますし、将来の作業には良いアプローチでしょう。

Nowadays, the usage of Large Language Models (LLMs) has increased, and LLMs have been used to generate texts in different languages and for different tasks. Additionally, due to the participation of remarkable companies such as Google and OpenAI, LLMs are now more accessible, and people can easily use them. However, an important issue is how we can detect AI-generated texts from human-written ones. In this article, we have investigated the problem of AI-generated text detection from two different aspects: semantics and syntax. Finally, we presented an AI model that can distinguish AI-generated texts from human-written ones with high accuracy on both multilingual and monolingual tasks using the M4 dataset. According to our results, using a semantic approach would be more helpful for detection. However, there is a lot of room for improvement in the syntactic approach, and it would be a good approach for future work.
翻訳日:2024-03-03 19:38:43 公開日:2024-02-19
# NMTのための非同期・セグメント双方向符号化

Asynchronous and Segmented Bidirectional Encoding for NMT ( http://arxiv.org/abs/2402.14849v1 )

ライセンス: Link先を確認
Jingpu Yang, Zehua Han, Mengyu Xiang, Helin Wang, Yuxiao Huang, Miao Fang(参考訳) ニューラルネットワーク翻訳(NMT)の急速な進歩により、翻訳効率と品質の向上が研究の焦点となっている。 トランスフォーマーのような様々な面における一般的なモデルの賞賛できる性能にもかかわらず、長い文の処理と双方向の文脈情報を完全に活用することにはまだ不足している。 本稿では,翻訳効率と精度の向上を目的とした,非同期かつセグメント化された双方向デコード戦略を実装したトランスフォーマに基づく改良モデルを提案する。 左から右へ、右から左へ、従来の一方向の翻訳と比較すると、特に長文の処理において、効率の向上と翻訳品質の向上が示される。 IWSLT2017データセットを用いた実験結果から,翻訳の高速化と精度の向上,特に長文翻訳における従来の一方向戦略を超越したアプローチの有効性が確認された。 さらに, 文長が復号結果に与える影響を分析し, 様々なシナリオにおけるモデルの性能について検討する。 この研究の成果は、nmtフィールドの効果的なエンコーディング戦略を提供するだけでなく、将来の研究のために新しい道筋や方向を舗装する。

With the rapid advancement of Neural Machine Translation (NMT), enhancing translation efficiency and quality has become a focal point of research. Despite the commendable performance of general models such as the Transformer in various aspects, they still fall short in processing long sentences and fully leveraging bidirectional contextual information. This paper introduces an improved model based on the Transformer, implementing an asynchronous and segmented bidirectional decoding strategy aimed at elevating translation efficiency and accuracy. Compared to traditional unidirectional translations from left-to-right or right-to-left, our method demonstrates heightened efficiency and improved translation quality, particularly in handling long sentences. Experimental results on the IWSLT2017 dataset confirm the effectiveness of our approach in accelerating translation and increasing accuracy, especially surpassing traditional unidirectional strategies in long sentence translation. Furthermore, this study analyzes the impact of sentence length on decoding outcomes and explores the model's performance in various scenarios. The findings of this research not only provide an effective encoding strategy for the NMT field but also pave new avenues and directions for future studies.
翻訳日:2024-03-03 19:27:11 公開日:2024-02-19
# 同じタスク、より多くのトークン:入力長が大規模言語モデルの推論性能に及ぼす影響

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models ( http://arxiv.org/abs/2402.14848v1 )

ライセンス: Link先を確認
Mosh Levy, Alon Jacoby, Yoav Goldberg(参考訳) 本稿では,入力長がLarge Language Models (LLMs) の能力に与える影響について検討する。 近年のLSMの進歩にもかかわらず、異なる入力長にわたる性能の整合性はよく理解されていない。 本稿では,入力長の影響を評価するための新しいQA推論フレームワークを導入することで,この側面を考察する。 同一サンプルの複数バージョンを用いて入力長の影響を分離し,それぞれが異なる長さ,タイプ,位置のパッドで拡張した。 その結果,LLMの推理性能は技術的最大値よりもはるかに短い入力長で顕著に低下していた。 異なる強度ではありますが、データセットのすべてのバージョンで劣化傾向が見られます。 さらに,従来のパープレキシティ指標は長期入力推論タスクにおけるLLMの性能と相関しないことが明らかとなった。 結果を分析し、将来の研究の有用なガイドとして機能する障害モードを特定し、LLMで観測される限界に対処するための戦略を示す可能性がある。

This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
翻訳日:2024-03-03 19:26:51 公開日:2024-02-19
# 完全ターダネスを最小化する単一機械問題の深層学習型スケジューリングアルゴリズム

Deep learning-driven scheduling algorithm for a single machine problem minimizing the total tardiness ( http://arxiv.org/abs/2402.14847v1 )

ライセンス: Link先を確認
Michal Bou\v{s}ka, P\v{r}emysl \v{S}\r{u}cha, Anton\'in Nov\'ak, Zden\v{e}k Hanz\'alek(参考訳) 本稿では,np-hard 単一マシンスケジューリング問題を解くための深層学習法について,全ターダネスを最小化することを目的として検討する。 della croceらによって提唱されたローラーの分解と対称分解に基づく単一パススケジューリングアルゴリズムで使用される基準値の多項式時間推定器として機能するディープニューラルネットワークを提案する。 本質的に、ニューラルネットワークは問題の最良の分割をサブプロブレムに推定することでアルゴリズムを導く。 また、トレーニングデータセットの生成を高速化し、ソリューションの平均最適性ギャップを減らし、トレーニングデータセットを生成する新しい方法についても述べる。 実験の結果,機械学習によるアプローチは,学習段階からはるかに大きなインスタンスへの情報を効率的に一般化できることがわかった。 トレーニングフェーズで使用されるインスタンスは75から100までだが、最大800ジョブのインスタンスの平均最適化ギャップは0.26%であり、最先端のヒューリスティックのギャップの約5倍である。

In this paper, we investigate the use of the deep learning method for solving a well-known NP-hard single machine scheduling problem with the objective of minimizing the total tardiness. We propose a deep neural network that acts as a polynomial-time estimator of the criterion value used in a single-pass scheduling algorithm based on Lawler's decomposition and symmetric decomposition proposed by Della Croce et al. Essentially, the neural network guides the algorithm by estimating the best splitting of the problem into subproblems. The paper also describes a new method for generating the training data set, which speeds up the training dataset generation and reduces the average optimality gap of solutions. The experimental results show that our machine learning-driven approach can efficiently generalize information from the training phase to significantly larger instances. Even though the instances used in the training phase have from 75 to 100 jobs, the average optimality gap on instances with up to 800 jobs is 0.26%, which is almost five times less than the gap of the state-of-the-art heuristic.
翻訳日:2024-03-03 19:26:36 公開日:2024-02-19
# あなたの役割に固執! 大規模言語モデルにおける個人価値の安定性

Stick to your Role! Stability of Personal Values Expressed in Large Language Models ( http://arxiv.org/abs/2402.14846v1 )

ライセンス: Link先を確認
Grgur Kova\v{c}, R\'emy Portelas, Masataka Sawayama, Peter Ford Dominey, Pierre-Yves Oudeyer(参考訳) ベンチマークや心理学のアンケートを通じて、LLM(Large Language Models)を研究する標準的な方法は、同様の最小限の文脈から多くの異なるクエリを提供することである。 しかし、LLMの高度にコンテキストに依存した性質のため、そのような最小限のコンテキスト評価から得られた結論は、デプロイメントにおけるモデルの振る舞い(多くの新しいコンテキストに露呈する)についてほとんど意味がないかもしれない。 文脈依存は、認知能力、知識、モデルサイズなどとLLMの比較の別の次元として研究されるべきである。 本稿では,様々な文脈における価値表現の安定性に関するケーススタディ(異なる話題に関する会話のシミュレーション)と,標準心理学アンケート(pvq)と行動下流課題を用いて測定した。 5つのファミリーから19のオープンソース LLM を考える。 心理学的手法を用いて,集団(対人)レベルでのランク順安定性と個人(対人)レベルでのIpsative stabilityを検討した。 特定の個性をシミュレートするための LLM の指導と指導の2つの設定を探索する。 モデルとモデルファミリー(ミクトラル、ミストラル、qwenファミリー)の安定性は、llama-2とphiよりも安定している。 特定のペルソナをシミュレートするように指示されると、LLMは低いランク順安定性を示し、この安定性は会話の長さによってさらに低下する。 このことは、パーソナの多様性をコヒーレントにシミュレートできるLCMの今後の研究方向の必要性と、より徹底的で効率的な方法でコンテキスト依存がどのように研究されるかを強調している。 本稿は,その方向への基本的なステップを提供するとともに,LLMにおける価値安定性に関する最初の研究である。

The standard way to study Large Language Models (LLMs) through benchmarks or psychology questionnaires is to provide many different queries from similar minimal contexts (e.g. multiple choice questions). However, due to LLM's highly context-dependent nature, conclusions from such minimal-context evaluations may be little informative about the model's behavior in deployment (where it will be exposed to many new contexts). We argue that context-dependence should be studied as another dimension of LLM comparison alongside others such as cognitive abilities, knowledge, or model size. In this paper, we present a case-study about the stability of value expression over different contexts (simulated conversations on different topics), and as measured using a standard psychology questionnaire (PVQ) and a behavioral downstream task. We consider 19 open-sourced LLMs from five families. Reusing methods from psychology, we study Rank-order stability on the population (interpersonal) level, and Ipsative stability on the individual (intrapersonal) level. We explore two settings: with and without instructing LLMs to simulate particular personalities. We observe similar trends in the stability of models and model families - Mixtral, Mistral and Qwen families being more stable than LLaMa-2 and Phi - over those two settings, two different simulated populations, and even in the downstream behavioral task. When instructed to simulate particular personas, LLMs exhibit low Rank-Order stability, and this stability further diminishes with conversation length. This highlights the need for future research directions on LLMs that can coherently simulate a diversity of personas, as well as how context-dependence can be studied in more thorough and efficient ways. This paper provides a foundational step in that direction, and, to our knowledge, it is the first study of value stability in LLMs.
翻訳日:2024-03-03 19:26:19 公開日:2024-02-19
# フラーミング理論による誤情報検出:フレーム要素モデル

Detecting misinformation through Framing Theory: the Frame Element-based Model ( http://arxiv.org/abs/2402.15525v1 )

ライセンス: Link先を確認
Guan Wang, Rebecca Frederick, Jinglong Duan, William Wong, Verica Rupar, Weihua Li, and Quan Bai(参考訳) 本稿では,aiコミュニティ内の未調査領域であるナラティブフレームのニュアンス操作に注目し,誤情報検出の急速に進展する課題について考察する。 Generative AIモデルが誤解を招く物語を生成する可能性は、この問題の緊急性を強調している。 コミュニケーションやフレーミング理論から、正確な情報の提示や「フレーミング」が解釈を劇的に変え、誤情報につながる可能性があると仮定する。 実世界の例を通してこの問題を強調し、物語フレームの変化が事実に基づく情報を誤情報に変換する方法を示す。 そこで本研究では,事前学習された大規模言語モデルと深層ニューラルネットワークを用いて,異なるフレームで表現された正確な事実に基づく誤情報を検出する手法を提案する。 これらの高度なai技術は、ナラティブフレームの微妙な性質を調べるために重要な非構造化データ内の複雑なパターンを識別する前例のない機能を提供する。 本稿の目的は、AI領域における重要な研究ギャップを埋めることであり、フレーミングによる誤報に対処するための貴重な洞察と方法論を提供することであり、責任と信頼できるAI技術の進歩に寄与する。 いくつかの実験が集中的に行われ、実験結果は、誤情報検出の性能を高めるためにフレーミング理論を適用する理性を証明するフレーミング理論の要素の様々な影響を明確に示している。

In this paper, we delve into the rapidly evolving challenge of misinformation detection, with a specific focus on the nuanced manipulation of narrative frames - an under-explored area within the AI community. The potential for Generative AI models to generate misleading narratives underscores the urgency of this problem. Drawing from communication and framing theories, we posit that the presentation or 'framing' of accurate information can dramatically alter its interpretation, potentially leading to misinformation. We highlight this issue through real-world examples, demonstrating how shifts in narrative frames can transmute fact-based information into misinformation. To tackle this challenge, we propose an innovative approach leveraging the power of pre-trained Large Language Models and deep neural networks to detect misinformation originating from accurate facts portrayed under different frames. These advanced AI techniques offer unprecedented capabilities in identifying complex patterns within unstructured data critical for examining the subtleties of narrative frames. The objective of this paper is to bridge a significant research gap in the AI domain, providing valuable insights and methodologies for tackling framing-induced misinformation, thus contributing to the advancement of responsible and trustworthy AI technologies. Several experiments are intensively conducted and experimental results explicitly demonstrate the various impact of elements of framing theory proving the rationale of applying framing theory to increase the performance in misinformation detection.
翻訳日:2024-03-03 19:18:02 公開日:2024-02-19
# 最小不満足なサブセット列挙のためのグラフプルーニング

Graph Pruning for Enumeration of Minimal Unsatisfiable Subsets ( http://arxiv.org/abs/2402.15524v1 )

ライセンス: Link先を確認
Panagiotis Lymperopoulos and Liping Liu(参考訳) 双対制約の最小不満足な部分集合(MUS)を見つけることは、過制約系の不実現性解析において一般的な問題である。 しかし、問題の指数関数的探索空間のため、museの列挙は実際のアプリケーションでは極めて時間がかかる。 本研究では,mus列挙を高速化するために学習モデルを用いたprune式を提案する。 式をグラフとして表現し、グラフベースの学習モデルを開発し、公式のどの部分を刈り取るべきかを予測する。 重要なことに、このアルゴリズムは、刈り取った公式の満足度だけをチェックすることで、データラベリングを必要としない。 異なる分散を持つデータに外挿するため、ターゲットアプリケーションからのトレーニングデータさえ必要としない。 実験では,本アルゴリズムを既存のMUS列挙子と組み合わせ,トレーニング分布外の実世界の問題を含む複数のベンチマークで有効性を検証する。 実験の結果,本手法はベンチマーク問題において平均でmuse列挙を著しく高速化することが示された。

Finding Minimal Unsatisfiable Subsets (MUSes) of binary constraints is a common problem in infeasibility analysis of over-constrained systems. However, because of the exponential search space of the problem, enumerating MUSes is extremely time-consuming in real applications. In this work, we propose to prune formulas using a learned model to speed up MUS enumeration. We represent formulas as graphs and then develop a graph-based learning model to predict which part of the formula should be pruned. Importantly, our algorithm does not require data labeling by only checking the satisfiability of pruned formulas. It does not even require training data from the target application because it extrapolates to data with different distributions. In our experiments we combine our algorithm with existing MUS enumerators and validate its effectiveness in multiple benchmarks including a set of real-world problems outside our training distribution. The experiment results show that our method significantly accelerates MUS enumeration on average on these benchmark problems.
翻訳日:2024-03-03 19:17:38 公開日:2024-02-19
# 基板スコープの対比学習:原子表現を学ぶために人間のバイアスを再提案する

Substrate Scope Contrastive Learning: Repurposing Human Bias to Learn Atomic Representations ( http://arxiv.org/abs/2402.16882v1 )

ライセンス: Link先を確認
Wenhao Gao, Priyanka Raghavan, Ron Shprints, Connor W. Coley(参考訳) 分子表現の学習は、モデリングの成功に大きな影響を及ぼす分子機械学習における重要なステップである。 ニューラルネットワークを広く事前学習する概念には、コンピュータビジョン、自然言語処理、タンパク質工学といった高度な分野がある。 しかし、小さな有機分子に対する同様のアプローチは、同等の成功を得られていない。 本研究では, 化学反応性に合わせた原子表現を学習する新しい事前学習戦略, 基板スコープコントラスト学習を提案する。 本手法では, 基質の類似性や化学反応性の相違の指標として, 公開基板スコープ表における基質群とそれらの収量について考察する。 我々は, 数千の出版物にまたがるCASコンテントコレクションにおいて, 20,798 のアリルハロゲン化物に着目し, アリルハロゲン化物反応性の表現を学習した。 直感的な可視化と従来の反応性記述子との比較と物理有機化学の原理による事前学習アプローチを検証する。 これらの埋め込みの汎用性はさらに、それらの応用によって予測、回帰選択性予測、および新しい基質の多彩な選択が証明されている。 この研究は、反応性整合原子表現を学ぶための化学カスタマイズニューラルネットワーク事前学習戦略を示すだけでなく、基板のスコープ設計における人間のバイアスから利益を得るためのits-kindアプローチを示すものである。

Learning molecular representation is a critical step in molecular machine learning that significantly influences modeling success, particularly in data-scarce situations. The concept of broadly pre-training neural networks has advanced fields such as computer vision, natural language processing, and protein engineering. However, similar approaches for small organic molecules have not achieved comparable success. In this work, we introduce a novel pre-training strategy, substrate scope contrastive learning, which learns atomic representations tailored to chemical reactivity. This method considers the grouping of substrates and their yields in published substrate scope tables as a measure of their similarity or dissimilarity in terms of chemical reactivity. We focus on 20,798 aryl halides in the CAS Content Collection spanning thousands of publications to learn a representation of aryl halide reactivity. We validate our pre-training approach through both intuitive visualizations and comparisons to traditional reactivity descriptors and physical organic chemistry principles. The versatility of these embeddings is further evidenced in their application to yield prediction, regioselectivity prediction, and the diverse selection of new substrates. This work not only presents a chemistry-tailored neural network pre-training strategy to learn reactivity-aligned atomic representations, but also marks a first-of-its-kind approach to benefit from the human bias in substrate scope design.
翻訳日:2024-03-03 19:07:11 公開日:2024-02-19
# 古典的な潤滑液

A Classical Luttinger liquid ( http://arxiv.org/abs/2402.13283v1 )

ライセンス: Link先を確認
Riccardo Fantoni(参考訳) ルッティンガー液体の古典的極限の例として,二成分非添加の朝倉大沢様混合物を提案する。 この混合状態の方程式と構造を定式化し、基底状態を持たない量子液体を扱う際に直面するパラドックス的状況について議論する。 次に, 1次元古典流体の新しいクラスを提案する。

We propose a binary nonadditive Asakura-Oosawa-like mixture as an example for the classical limit of a Luttinger liquid. We determine the equation of state and structure of this mixture and discuss the paradoxical situation that one faces when working with a quantum liquid without a ground state. We then propose a new class of one dimensional classical fluids.
翻訳日:2024-02-22 18:51:36 公開日:2024-02-19
# バッチデータによる隠れマルコフモデル推論の操作

Manipulating hidden-Markov-model inferences by corrupting batch data ( http://arxiv.org/abs/2402.13287v1 )

ライセンス: Link先を確認
William N. Caballero, Jose Manuel Camacho, Tahir Ekin, Roi Naveiro(参考訳) 時系列モデルは典型的に不確定で正当なデータストリームを仮定する。 しかし、利害的な敵は、このデータを腐敗させ、意思決定者の推測を変えるインセンティブを持つかもしれない。 敵対的機械学習の広い分野において、この研究は腐敗したデータによる隠れマルコフモデル推論の操作に対する新しい確率論的視点を提供する。 特に,敵対的リスク分析アプローチを活用したフィルタリング,スムース化,デコード推論のための汚職問題のスイートを提供する。 複数の確率的プログラミングモデルは、現実的な不確実性と様々な攻撃目標を含む。 3つの一般的な解法は、頻度主義やベイズ的視点から問題を見ることによって開発される。 それぞれの方法の有効性は、広範な実証試験によって示される。 開発した手法は, 解法の品質と計算作業によって特徴付けられ, 様々な問題インスタンスアーキテクチャにまたがる技術が階層化される。 本研究は,敵活動下での隠れマルコフモデルの弱点を浮き彫りにして,その安全性を確保するための堅牢化技術の必要性を喚起するものである。

Time-series models typically assume untainted and legitimate streams of data. However, a self-interested adversary may have incentive to corrupt this data, thereby altering a decision maker's inference. Within the broader field of adversarial machine learning, this research provides a novel, probabilistic perspective toward the manipulation of hidden Markov model inferences via corrupted data. In particular, we provision a suite of corruption problems for filtering, smoothing, and decoding inferences leveraging an adversarial risk analysis approach. Multiple stochastic programming models are set forth that incorporate realistic uncertainties and varied attacker objectives. Three general solution methods are developed by alternatively viewing the problem from frequentist and Bayesian perspectives. The efficacy of each method is illustrated via extensive, empirical testing. The developed methods are characterized by their solution quality and computational effort, resulting in a stratification of techniques across varying problem-instance architectures. This research highlights the weaknesses of hidden Markov models under adversarial activity, thereby motivating the need for robustification techniques to ensure their security.
翻訳日:2024-02-22 18:36:54 公開日:2024-02-19
# 複素度測定を伴う一般化境界に対するPAC-Bayes理論の活用とギブズ分布

Leveraging PAC-Bayes Theory and Gibbs Distributions for Generalization Bounds with Complexity Measures ( http://arxiv.org/abs/2402.13285v1 )

ライセンス: Link先を確認
Paul Viallard, R\'emi Emonet, Amaury Habrard, Emilie Morvant, Valentina Zantedeschi(参考訳) 統計的学習理論において、一般化境界は通常、理論的な枠組みによって課される複雑性測度を含む。 これは、他の種類の容量測度や正規化がアルゴリズムで使用されるため、そのような境界の範囲を制限する。 本稿では,分解されたpac-bayes境界の枠組みを利用して,任意の複雑性測度でインスタンス化可能な一般一般化を導出する。 そのような結果を証明する一つのトリックは、よく使われる分布の族、ギブス分布を考えることである。 私たちの境界は仮説と学習サンプルを共同で確率に立っており、仮説クラスとタスクの両方に適合するようにカスタマイズできるため、複雑性を一般化ギャップに適合させることができる。

In statistical learning theory, a generalization bound usually involves a complexity measure imposed by the considered theoretical framework. This limits the scope of such bounds, as other forms of capacity measures or regularizations are used in algorithms. In this paper, we leverage the framework of disintegrated PAC-Bayes bounds to derive a general generalization bound instantiable with arbitrary complexity measures. One trick to prove such a result involves considering a commonly used family of distributions: the Gibbs distributions. Our bound stands in probability jointly over the hypothesis and the learning sample, which allows the complexity to be adapted to the generalization gap as it can be customized to fit both the hypothesis class and the task.
翻訳日:2024-02-22 18:36:38 公開日:2024-02-19
# SQL生成のための構造ガイド付き大規模言語モデル

Structure Guided Large Language Model for SQL Generation ( http://arxiv.org/abs/2402.13284v1 )

ライセンス: Link先を確認
Qinggang Zhang, Junnan Dong, Hao Chen, Wentao Li, Feiran Huang, Xiao Huang(参考訳) 正確な構造化クエリ言語(sql)の生成は、特にユーザのセマンティッククエリと構造化データベースのマッチングと構造化sqlの生成において、長年にわたる問題である。 既存のモデルは通常、LLMにクエリとデータベーススキーマを入力し、LLMに依存してセマンティック構造マッチングを実行し、構造化SQLを生成する。 しかし、そのようなソリューションは、構造化SQLの生成を促進するために利用できるユーザクエリやデータベースの構造情報を見落としている。 この監視は、不正確なあるいは実行不可能なSQL生成につながる可能性がある。 この構造をフル活用するために,LLMのSQL生成を改善するために固有構造情報を活用する構造間SQLフレームワークを提案する。 具体的には、Structure Guided SQL~(SGU-SQL)生成モデルを紹介します。 SGU-SQLはまず、構造化された方法でユーザクエリとデータベースをリンクする。 その後、複雑な連結構造と文法木を分解し、LCMを誘導してSQLステップをステップごとに生成する。 2つのベンチマークデータセットに対する大規模な実験は、SGU-SQLが16のSQL生成ベースラインを上回っていることを示している。

Generating accurate Structured Querying Language (SQL) is a long-standing problem, especially in matching users' semantic queries with structured databases and then generating structured SQL. Existing models typically input queries and database schemas into the LLM and rely on the LLM to perform semantic-structure matching and generate structured SQL. However, such solutions overlook the structural information within user queries and databases, which can be utilized to enhance the generation of structured SQL. This oversight can lead to inaccurate or unexecutable SQL generation. To fully exploit the structure, we propose a structure-to-SQL framework, which leverages the inherent structure information to improve the SQL generation of LLMs. Specifically, we introduce our Structure Guided SQL~(SGU-SQL) generation model. SGU-SQL first links user queries and databases in a structure-enhanced manner. It then decomposes complicated linked structures with grammar trees to guide the LLM to generate the SQL step by step. Extensive experiments on two benchmark datasets illustrate that SGU-SQL can outperform sixteen SQL generation baselines.
翻訳日:2024-02-22 18:36:25 公開日:2024-02-19
# 競合を意識したマルチロボットシステムの最適目標割当てアルゴリズム

A Conflict-Aware Optimal Goal Assignment Algorithm for Multi-Robot Systems ( http://arxiv.org/abs/2402.13292v1 )

ライセンス: Link先を確認
Aakash and Indranil Saha(参考訳) マルチロボットアプリケーションの基本的な目標割り当て問題は、衝突のない経路を確保しながら各ロボットにユニークな目標を割り当てることであり、全体の移動コストを最小化することである。 このNPハード問題に対する妥当なアルゴリズム的解法は、ロボット間の衝突可能性を無視しながら、タスクプランナーを統合してゴール割り当てを計算する反復プロセスと、与えられた割り当てに対する衝突のない軌道を見つけるマルチエージェントパスフィンディングアルゴリズムを含む。 この手順は、現在の最高の割り当てから次の最適な割り当てを計算する方法を含む。 最先端のソリューションで行われているように、次の最高の割り当てを単純で計算する方法は、全体的な問題を解決する上でスケーラビリティを達成するための障害となります。 このボトルネックを回避するために,次の最適な割り当てを計算するための効率的な競合誘導手法を提案する。 さらに,このアルゴリズムにさらに2つの最適化を導入する。1つはロボットとゴーアペア間の制約のない経路計算を可能な限り回避すること,もう1つは複数のロボットとゴーアペアに対する制約付き経路計算の重複を防止することである。 複数のベンチマークワークスペース上で,最大100個のロボットのアルゴリズムを広範囲に評価した。 その結果,提案アルゴリズムは最先端のアルゴリズムに対してほぼ1桁の高速化を達成し,実世界のシナリオでの有効性を示した。

The fundamental goal assignment problem for a multi-robot application aims to assign a unique goal to each robot while ensuring collision-free paths, minimizing the total movement cost. A plausible algorithmic solution to this NP-hard problem involves an iterative process that integrates a task planner to compute the goal assignment while ignoring the collision possibilities among the robots and a multi-agent path-finding algorithm to find the collision-free trajectories for a given assignment. This procedure involves a method for computing the next best assignment given the current best assignment. A naive way of computing the next best assignment, as done in the state-of-the-art solutions, becomes a roadblock to achieving scalability in solving the overall problem. To obviate this bottleneck, we propose an efficient conflict-guided method to compute the next best assignment. Additionally, we introduce two more optimizations to the algorithm -- first for avoiding the unconstrained path computations between robot-goal pairs wherever possible, and the second to prevent duplicate constrained path computations for multiple robot-goal pairs. We extensively evaluate our algorithm for up to a hundred robots on several benchmark workspaces. The results demonstrate that the proposed algorithm achieves nearly an order of magnitude speedup over the state-of-the-art algorithm, showcasing its efficacy in real-world scenarios.
翻訳日:2024-02-22 18:22:10 公開日:2024-02-19
# deepcode ai修正: 大きな言語モデルによるセキュリティ脆弱性の修正

DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models ( http://arxiv.org/abs/2402.13291v1 )

ライセンス: Link先を確認
Berkay Berabi, Alexey Gronskiy, Veselin Raychev, Gishor Sivanrupan, Victor Chibotaru, Martin Vechev(参考訳) 自動プログラム修復の分野は長年にわたって大きな関心を集めてきたが、重大な研究努力にもかかわらず、セキュリティ脆弱性のような複雑なセマンティックなバグにうまく対応できるシステムを作ることは困難である。 この課題を解決するための有望な方向は,さまざまなプログラミングタスクの解決にますます使用される大規模言語モデル(LLM)を活用することだ。 本稿では,LLMによるコード修復課題の解法の有効性について検討する。 大量のトレーニングデータに本質的に依存するタスクである長距離コード関係を学習するモデルを必要とするため、このタスクは困難であることを示す。 同時に、複雑なプログラムバグとその修正のための大規模でクリーンなデータセットの作成も簡単ではない。 本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。 プログラム分析を使用して、修正に必要なコードの一部をLCMの注意機構に制限し、必要なトレーニングデータの量を劇的に削減する、という考え方だ。 具体的には、トレーニングと推論のために、LLMにプログラム全体を供給するのではなく、報告された欠陥と必要なコンテキストを含むより短いスニペットにコードを縮小し、代わりにそれを使用します。 評価の結果、このコード削減手法は、GPT-4のような利用可能なモデルを大幅に改善することが示された。 システムのトレーニングと評価のために、我々は156のバグパターン(40のセキュリティルールを含む)を広範囲にラベル付けして包括的なコード修正データセットを作成しました。 Mixtral-8x7Bの最良のシステムは、報告された欠陥の80%以上を取り除き、人間の修正を正確に10から50%のケースでマッチングし、GPT-3.5とGPT-4に基づいてベースラインを上回り、TFixのようなウィンドウベースのモデルでベースラインを上回ります。

The automated program repair field has attracted substantial interest over the years, but despite significant research efforts, creating a system that works well for complex semantic bugs such as security vulnerabilities has proven difficult. A promising direction to solve this challenge is by leveraging large language models (LLMs), which are increasingly used to solve various programming tasks. In this paper, we investigate the effectiveness of LLMs for solving code-repair task. We show that the task is difficult as it requires the model to learn long-range code relationships, a task that inherently relies on extensive amounts of training data. At the same time, creating a large, clean dataset for complex program bugs and their corresponding fixes is non-trivial. We propose a technique to address these challenges with a new approach for querying and fine-tuning LLMs. The idea is to use program analysis to limit the LLM's attention mechanism on the portions of code needed to perform the fix, drastically reducing the amount of required training data. Concretely, for training and inference, rather than feeding the entire program to the LLM, we reduce its code to a much shorter snippet that contains the reported defect together with the necessary context - and use that instead. Our evaluation shows that this code reduction approach substantially improves available models such as GPT-4 using few-shot learning, as well as fine-tuning models. To train and evaluate our system, we created a comprehensive code fixing dataset by extensively labeling 156 bug patterns (including 40 security rules), requiring complex interprocedural dataflow to discover. Our best system with Mixtral-8x7B can remove more than 80% of the reported defects while exactly matching the human fix in between 10 and 50% of cases, outperforming baselines based on GPT-3.5 and GPT-4, or based on window-based models like TFix.
翻訳日:2024-02-22 18:21:47 公開日:2024-02-19
# AIと認知科学レンズの接地

Grounding from an AI and Cognitive Science Lens ( http://arxiv.org/abs/2402.13290v1 )

ライセンス: Link先を確認
Goonmeet Bajaj, Srinivasan Parthasarathy, Valerie L. Shalin, Amit Sheth(参考訳) グラウンディングは難しい問題であり、正式な定義と異なるレベルの抽象化を必要とする。 本稿では,認知科学と機械学習の両面から基礎を考察する。 グラウンドングの微妙な性質、協調エージェントにとっての意義、および両コミュニティにおけるグラウンドングアプローチの類似性と相違を識別する。 本稿では, 接地作業に適したニューロシンボリックアプローチの可能性について検討し, 接地作業をより包括的に扱えるかを示した。 最後に,地盤のさらなる探査・開発分野について論じる。

Grounding is a challenging problem, requiring a formal definition and different levels of abstraction. This article explores grounding from both cognitive science and machine learning perspectives. It identifies the subtleties of grounding, its significance for collaborative agents, and similarities and differences in grounding approaches in both communities. The article examines the potential of neuro-symbolic approaches tailored for grounding tasks, showcasing how they can more comprehensively address grounding. Finally, we discuss areas for further exploration and development in grounding.
翻訳日:2024-02-22 18:21:12 公開日:2024-02-19
# SQLクエリ分解によるテーブル質問回答のトレーニング

Training Table Question Answering via SQL Query Decomposition ( http://arxiv.org/abs/2402.13288v1 )

ライセンス: Link先を確認
Rapha\"el Mouravieff and Benjamin Piwowarski and Sylvain Lamprier(参考訳) テーブルの質問応答には、自然言語クエリの理解と、入力テーブルのコンテキストの接地の両方があり、関連する情報を抽出する。 この文脈では、多くのメソッドがSQLクエリから中間的な事前トレーニングの利点を強調している。 しかし、ほとんどのアプローチは入力から最終的な回答を直接生成することを目指しているが、トレーニング中にsqlクエリを使う方がよいと主張している。 SQLのような代数演算の制限された部分を模倣することを学ぶことで、それらの実行フローが、その分野の古典的アプローチと比較して一般化と構造的推論の増大を可能にする中間的な監視ステップを提供することを示す。 本研究は,意味解析法と直接応答法とのギャップを橋渡しし,生成的アーキテクチャで予測すべき操作の種類や,好ましくは外部アルゴリズムで実行すべき操作について有用な洞察を与える。

Table Question-Answering involves both understanding the natural language query and grounding it in the context of the input table to extract the relevant information. In this context, many methods have highlighted the benefits of intermediate pre-training from SQL queries. However, while most approaches aim at generating final answers from inputs directly, we claim that there is better to do with SQL queries during training. By learning to imitate a restricted portion of SQL-like algebraic operations, we show that their execution flow provides intermediate supervision steps that allow increased generalization and structural reasoning compared with classical approaches of the field. Our study bridges the gap between semantic parsing and direct answering methods and provides useful insights regarding what types of operations should be predicted by a generative architecture or be preferably executed by an external algorithm.
翻訳日:2024-02-22 18:21:03 公開日:2024-02-19
# Polyp-PVT:ピラミッド型ビジョントランスを用いたポリプセグメンテーション

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers ( http://arxiv.org/abs/2108.06932v8 )

ライセンス: Link先を確認
Bo Dong, Wenhai Wang, Deng-Ping Fan, Jinpeng Li, Huazhu Fu, Ling Shao(参考訳) ほとんどのpolypセグメンテーションメソッドはCNNをバックボーンとして使用しており、エンコーダとデコーダの間で情報を交換する際に2つの重要な問題を引き起こしている。 1)異なるレベルの特徴間の貢献の相違を考慮して 2)これらの特徴を融合させる効果的なメカニズムを設計する。 既存のcnnベースの手法とは異なり、より強力でロバストな表現を学ぶトランスフォーマエンコーダを採用する。 また,ポリプのイメージ取得の影響と解像性を考慮すると,カスケード融合モジュール(CFM),カモフラージュ識別モジュール(CIM),類似集合モジュール(SAM)の3つの標準モジュールを導入する。 これらのうち、CFMは、ポリプのセマンティック情報と位置情報を高レベル特徴から収集するために使用され、CIMは、低レベル特徴に偽装されたポリプ情報をキャプチャするために適用され、SAMは、ポリプ領域全体の高レベルなセマンティック位置情報でポリプ領域の画素特徴を拡張して、効果的にクロスレベル特徴を融合させる。 提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。 5つの広く採用されているデータセットの大規模な実験により、提案モデルは既存の代表的手法よりも様々な困難な状況(外観変化、小さな物体、回転など)に対してより堅牢であることが示された。 提案されたモデルはhttps://github.com/DengPingFan/Polyp-PVTで公開されている。

Most polyp segmentation methods use CNNs as their backbone, leading to two key issues when exchanging information between the encoder and decoder: 1) taking into account the differences in contribution between different-level features and 2) designing an effective mechanism for fusing these features. Unlike existing CNN-based methods, we adopt a transformer encoder, which learns more powerful and robust representations. In addition, considering the image acquisition influence and elusive properties of polyps, we introduce three standard modules, including a cascaded fusion module (CFM), a camouflage identification module (CIM), and a similarity aggregation module (SAM). Among these, the CFM is used to collect the semantic and location information of polyps from high-level features; the CIM is applied to capture polyp information disguised in low-level features, and the SAM extends the pixel features of the polyp area with high-level semantic position information to the entire polyp area, thereby effectively fusing cross-level features. The proposed model, named Polyp-PVT, effectively suppresses noises in the features and significantly improves their expressive capabilities. Extensive experiments on five widely adopted datasets show that the proposed model is more robust to various challenging situations (e.g., appearance changes, small objects, rotation) than existing representative methods. The proposed model is available at https://github.com/DengPingFan/Polyp-PVT.
翻訳日:2024-02-21 22:08:34 公開日:2024-02-19
# 深部プロキシ因果学習とバンドポリシー評価への活用

Deep Proxy Causal Learning and its Application to Confounded Bandit Policy Evaluation ( http://arxiv.org/abs/2106.03907v4 )

ライセンス: Link先を確認
Liyuan Xu, Heishiro Kanagawa, Arthur Gretton(参考訳) プロキシ因果学習 (proxy causal learning, pcl) は、共同設立者のプロキシ(構造化側情報)を用いて、観察されていない共同研究の存在下での成果に対する治療の因果効果を推定する手法である。 第1段階では、治療とプロキシの関係をモデル化し、第2段階では、プロキシによって提供されるコンテキストを考慮して、治療が結果に与える影響を学習するためにこのモデルを使用します。 pclは同一性条件下で真の因果効果の回復を保証する。 深部ニューラルネットワークの特徴によって表現されるような,高次元かつ非線形な複雑な関係を持つプロキシ,治療,結果を扱うため,PCLの新しい手法であるDFPV(Deep Feature proxy variable method)を提案する。 DFPVは,高次元画像データを含む設定を含む,最新のPCL法よりも高い性能を示すことを示す。 さらに, DFPV が競合性能を示す包括的バンディット問題に対して, PCL を非政治的評価に適用できることが示唆された。

Proxy causal learning (PCL) is a method for estimating the causal effect of treatments on outcomes in the presence of unobserved confounding, using proxies (structured side information) for the confounder. This is achieved via two-stage regression: in the first stage, we model relations among the treatment and proxies; in the second stage, we use this model to learn the effect of treatment on the outcome, given the context provided by the proxies. PCL guarantees recovery of the true causal effect, subject to identifiability conditions. We propose a novel method for PCL, the deep feature proxy variable method (DFPV), to address the case where the proxies, treatments, and outcomes are high-dimensional and have nonlinear complex relationships, as represented by deep neural network features. We show that DFPV outperforms recent state-of-the-art PCL methods on challenging synthetic benchmarks, including settings involving high dimensional image data. Furthermore, we show that PCL can be applied to off-policy evaluation for the confounded bandit problem, in which DFPV also exhibits competitive performance.
翻訳日:2024-02-21 22:06:58 公開日:2024-02-19
# サイズ制約付き非単調部分モジュラー最大化のための実用的並列化アルゴリズム

Practical and Parallelizable Algorithms for Non-Monotone Submodular Maximization with Size Constraint ( http://arxiv.org/abs/2009.01947v5 )

ライセンス: Link先を確認
Yixin Chen and Alan Kuhnle(参考訳) サイズ制約に関して、必ずしも単調ではない部分モジュラ函数を最大化するための組合せおよび並列化可能なアルゴリズムを提案する。 最適な適応性とほぼ最適なクエリ複雑性を持つアルゴリズムによって達成される最適な近似係数を0.193\varepsilon$に改善する。 この研究のカンファレンスバージョンでは、非単調な部分モジュラー関数では機能しないサブルーチンを誤って採用した。 このバージョンでは、高い平均マージンゲインを持つ集合 threshseq を追加するために、固定および改良されたサブルーチンを提案し、これは高い確率で$o( \log(n) )$適応ラウンドで解を返す。 さらに2つの近似アルゴリズムを提案する。 1つは近似比1/6 - \varepsilon$、アダプティビティ$O( \log (n) )$、クエリ複雑性$O(n \log (k) )$、もう1つは近似比$0.193 - \varepsilon$、アダプティ$O( \log^2 (n) )$、クエリ複雑性$O(n \log (k))$である。 提案アルゴリズムは,多線形拡張を用いた連続アルゴリズムを含む最先端近似アルゴリズムと比較して,目標値の高い解を得た上で,適応ラウンド数や総クエリ数が少ないことを実証的に検証する。

We present combinatorial and parallelizable algorithms for maximization of a submodular function, not necessarily monotone, with respect to a size constraint. We improve the best approximation factor achieved by an algorithm that has optimal adaptivity and nearly optimal query complexity to $0.193 - \varepsilon$. The conference version of this work mistakenly employed a subroutine that does not work for non-monotone, submodular functions. In this version, we propose a fixed and improved subroutine to add a set with high average marginal gain, ThreshSeq, which returns a solution in $O( \log(n) )$ adaptive rounds with high probability. Moreover, we provide two approximation algorithms. The first has approximation ratio $1/6 - \varepsilon$, adaptivity $O( \log (n) )$, and query complexity $O( n \log (k) )$, while the second has approximation ratio $0.193 - \varepsilon$, adaptivity $O( \log^2 (n) )$, and query complexity $O(n \log (k))$. Our algorithms are empirically validated to use a low number of adaptive rounds and total queries while obtaining solutions with high objective value in comparison with state-of-the-art approximation algorithms, including continuous algorithms that use the multilinear extension.
翻訳日:2024-02-21 22:06:39 公開日:2024-02-19
# テール適応ベイズ収縮

Tail-adaptive Bayesian shrinkage ( http://arxiv.org/abs/2007.02192v4 )

ライセンス: Link先を確認
Se Yoon Lee, Peng Zhao, Debdeep Pati, Bani K. Mallick(参考訳) 多様なスパースレジームの下での高次元回帰問題に対するロバストベイズ法について検討した。 従来の縮小前処理は、いわゆる超分離領域において、数万の予測器から少数の信号を検出するように設計されている。 しかし、疎度が適度である場合には好ましくは行わない。 本稿では,末尾適応収縮特性を有する多様なスパース性条件下でのロバストなスパース推定法を提案する。 この特性において、前者のテール重みは順応的に調整され、スパーシティレベルが上昇または減少するにつれて大きくまたは小さくなり、後続信号が多かれ少なかれ適応する。 この特性を保証するため,グローバルローカルテール(GLT)ガウス混合分布を提案する。 本研究では,sparsityレベルとの関連において,前者のtail-indexの役割を検証し,sparse正規平均モデルのminimax最適速度でglt後端が収縮することを示す。 実データ問題やシミュレーションの例に先立って,gltプリミティブとホースシューの両方を適用する。 以上の結果から,GLT先行法に基づく尾部規則は,多種多様性体制におけるHorseshoe法に基づく固定尾部規則よりも有利であることが示唆された。

Robust Bayesian methods for high-dimensional regression problems under diverse sparse regimes are studied. Traditional shrinkage priors are primarily designed to detect a handful of signals from tens of thousands of predictors in the so-called ultra-sparsity domain. However, they may not perform desirably when the degree of sparsity is moderate. In this paper, we propose a robust sparse estimation method under diverse sparsity regimes, which has a tail-adaptive shrinkage property. In this property, the tail-heaviness of the prior adjusts adaptively, becoming larger or smaller as the sparsity level increases or decreases, respectively, to accommodate more or fewer signals, a posteriori. We propose a global-local-tail (GLT) Gaussian mixture distribution that ensures this property. We examine the role of the tail-index of the prior in relation to the underlying sparsity level and demonstrate that the GLT posterior contracts at the minimax optimal rate for sparse normal mean models. We apply both the GLT prior and the Horseshoe prior to a real data problem and simulation examples. Our findings indicate that the varying tail rule based on the GLT prior offers advantages over a fixed tail rule based on the Horseshoe prior in diverse sparsity regimes.
翻訳日:2024-02-21 22:06:09 公開日:2024-02-19
# 説明が嘘をつく:なぜ多くの修正bp帰属が失敗するのか

When Explanations Lie: Why Many Modified BP Attributions Fail ( http://arxiv.org/abs/1912.09818v7 )

ライセンス: Link先を確認
Leon Sixt, Maximilian Granz, Tim Landgraf(参考訳) アトリビューション手法は、最も関連する画像領域を強調することで、ニューラルネットワークの予測を説明することを目的としている。 一般的なアプローチは、勾配ではなく、変更されたルールを使ってBP(Relevance score)をバックプロパゲートすることである。 本稿では,Deep Taylor Decomposition, Layer-wise Relevance Propagation (LRP), Excitation BP, PatternAttribution, DeepLIFT, Deconv, RectGrad, Guided BPの一連の改良BP法を分析する。 我々は,DeepLIFTを除くすべてのメソッドの説明が,後続のレイヤのパラメータに依存しないことを実証的に見出した。 我々はこの驚くべき行動に関する理論的知見を提供し、なぜDeepLIFTがこの制限を負わないのかを分析する。 経験的に、新しい計量であるコサイン類似度収束(csc)を用いて、後続層の情報がどのように無視されるかを測定する。 本稿では,新しいBP法と既存の改良BP法の信頼性を理論的かつ実証的に評価する枠組みを提供する。 コード参照: https://github.com/berleon/when-explanations-lie

Attribution methods aim to explain a neural network's prediction by highlighting the most relevant image areas. A popular approach is to backpropagate (BP) a custom relevance score using modified rules, rather than the gradient. We analyze an extensive set of modified BP methods: Deep Taylor Decomposition, Layer-wise Relevance Propagation (LRP), Excitation BP, PatternAttribution, DeepLIFT, Deconv, RectGrad, and Guided BP. We find empirically that the explanations of all mentioned methods, except for DeepLIFT, are independent of the parameters of later layers. We provide theoretical insights for this surprising behavior and also analyze why DeepLIFT does not suffer from this limitation. Empirically, we measure how information of later layers is ignored by using our new metric, cosine similarity convergence (CSC). The paper provides a framework to assess the faithfulness of new and existing modified BP methods theoretically and empirically. For code see: https://github.com/berleon/when-explanations-lie
翻訳日:2024-02-21 22:05:50 公開日:2024-02-19
# 自己回帰バンド

Autoregressive Bandits ( http://arxiv.org/abs/2212.06251v2 )

ライセンス: Link先を確認
Francesco Bacchiocchi, Gianmarco Genalti, Davide Maran, Marco Mussi, Marcello Restelli, Nicola Gatti, Alberto Maria Metelli(参考訳) 自己回帰的プロセスは、株式市場、売上予測、天気予報、広告、価格など、様々な現実世界のシナリオで自然に発生する。 このような文脈において、逐次的意思決定問題に直面した場合には、最適方針への収束を保証するために、連続観測間の時間的依存性を適切に考慮すべきである。 本研究では,自己回帰的バンディット (autoregressive bandits, arbs) という新しいオンライン学習環境を提案する。 報奨プロセスにおける軽度な仮定の下では,最適政策が都合よく計算できることを示す。 次に、新しい楽観的な後悔の最小化アルゴリズム、すなわちar-ucb(autoregressive upper confidence bound)を考案し、これは$\widetilde{\mathcal{o}} \left( \frac{(k+1)^{3/2}\sqrt{nt}}{(1-\gamma)^2}\right)$、ここで$t$は最適化の地平線、$n$はアクションの数、$\gamma < 1$はプロセスの安定性指標である。 最後に,w.r.t.banditベースラインとキーパラメータの誤特定に対するロバスト性を示し,経験的にアルゴリズムを検証する。

Autoregressive processes naturally arise in a large variety of real-world scenarios, including stock markets, sales forecasting, weather prediction, advertising, and pricing. When facing a sequential decision-making problem in such a context, the temporal dependence between consecutive observations should be properly accounted for guaranteeing convergence to the optimal policy. In this work, we propose a novel online learning setting, namely, Autoregressive Bandits (ARBs), in which the observed reward is governed by an autoregressive process of order $k$, whose parameters depend on the chosen action. We show that, under mild assumptions on the reward process, the optimal policy can be conveniently computed. Then, we devise a new optimistic regret minimization algorithm, namely, AutoRegressive Upper Confidence Bound (AR-UCB), that suffers sublinear regret of order $\widetilde{\mathcal{O}} \left( \frac{(k+1)^{3/2}\sqrt{nT}}{(1-\Gamma)^2}\right)$, where $T$ is the optimization horizon, $n$ is the number of actions, and $\Gamma < 1$ is a stability index of the process. Finally, we empirically validate our algorithm, illustrating its advantages w.r.t. bandit baselines and its robustness to misspecification of key parameters.
翻訳日:2024-02-21 21:57:42 公開日:2024-02-19
# スパース行列分解による逆共分散行列からの大規模因果構造学習

Learning Large Causal Structures from Inverse Covariance Matrix via Sparse Matrix Decomposition ( http://arxiv.org/abs/2211.14221v3 )

ライセンス: Link先を確認
Shuyu Dong, Kento Uemura, Akito Fujii, Shuang Chang, Yusuke Koyanagi, Koji Maruhashi, Mich\`ele Sebag(参考訳) 観測データから因果構造を学ぶことは、変数数が大きい場合に重要な計算課題に直面する根本的な問題である。 本稿では,線形構造方程式モデル(SEM)の文脈において,逆共分散行列から因果構造を学習することに焦点を当てる。 逆共分散行列からの独立保存分解のためのicidと呼ばれるこの手法は、逆共分散行列の非零パターンを保存する行列分解モデルの連続最適化に基づいている。 理論的および実証的な証拠から,雑音分散の知識を仮定して,ICIDが探索対象の非巡回グラフ(DAG)を効率的に同定することを示す。 さらに、ノイズ分散が等しくない場合に、ノイズ分散の有界な不特定性の下で、ICIDが堅牢であることを示す。 提案手法は, 実験における時間効率に反映されるような低複雑性を享受し, シミュレーションされたfMRIデータ(Smith et al., 2011)に対して, 最先端のアルゴリズムと比較して, 高精度な正則化手法を実現する。

Learning causal structures from observational data is a fundamental problem facing important computational challenges when the number of variables is large. In the context of linear structural equation models (SEMs), this paper focuses on learning causal structures from the inverse covariance matrix. The proposed method, called ICID for Independence-preserving Decomposition from Inverse Covariance matrix, is based on continuous optimization of a matrix decomposition model that preserves the nonzero patterns of the inverse covariance matrix. Through theoretical and empirical evidences, we show that ICID efficiently identifies the sought directed acyclic graph (DAG) assuming the knowledge of noise variances. Moreover, ICID is shown empirically to be robust under bounded misspecification of noise variances in the case where the noise variances are non-equal. The proposed method enjoys a low complexity, as reflected by its time efficiency in the experiments, and also enables a novel regularization scheme that yields highly accurate solutions on the Simulated fMRI data (Smith et al., 2011) in comparison with state-of-the-art algorithms.
翻訳日:2024-02-21 21:57:06 公開日:2024-02-19
# グラフ上の信号処理と機械学習のためのグラフフィルタ

Graph Filters for Signal Processing and Machine Learning on Graphs ( http://arxiv.org/abs/2211.08854v2 )

ライセンス: Link先を確認
Elvin Isufi, Fernando Gama, David I. Shuman, Santiago Segarra(参考訳) フィルタはデータから情報を取り出すのに基本となる。 ユークリッド領域に存在する時系列データや画像データでは、畳み込みニューラルネットワークを含む多くの信号処理や機械学習技術がフィルタとして使われている。 現代のデータはネットワークや他の不規則な領域にも存在し、その構造はグラフによってよりよく捉えられる。 このようなデータから処理と学習を行うため、グラフフィルタは基礎となるデータドメインの構造を担っている。 本稿では,さまざまなフィルタリングカテゴリ,各タイプの設計戦略,異なる種類のグラフフィルタ間のトレードオフなど,グラフフィルタの包括的概要について述べる。 本稿では,グラフフィルタをフィルタバンクやグラフニューラルネットワークに拡張して表現力を高める方法について議論する。 また,信号処理や機械学習アプリケーションにおけるグラフフィルタの基本的な役割についても紹介する。 この記事は、初心者と経験豊富な研究者の両方に統一されたフレームワークを提供し、信号処理、機械学習、アプリケーションドメインの交差点でのコラボレーションを促進する共通理解を提供する。

Filters are fundamental in extracting information from data. For time series and image data that reside on Euclidean domains, filters are the crux of many signal processing and machine learning techniques, including convolutional neural networks. Increasingly, modern data also reside on networks and other irregular domains whose structure is better captured by a graph. To process and learn from such data, graph filters account for the structure of the underlying data domain. In this article, we provide a comprehensive overview of graph filters, including the different filtering categories, design strategies for each type, and trade-offs between different types of graph filters. We discuss how to extend graph filters into filter banks and graph neural networks to enhance the representational power; that is, to model a broader variety of signal classes, data patterns, and relationships. We also showcase the fundamental role of graph filters in signal processing and machine learning applications. Our aim is that this article provides a unifying framework for both beginner and experienced researchers, as well as a common understanding that promotes collaborations at the intersections of signal processing, machine learning, and application domains.
翻訳日:2024-02-21 21:56:29 公開日:2024-02-19
# Survival Kernets: 精度保証によるスケーラブルで解釈可能なDeep Kernel Survival Analysis

Survival Kernets: Scalable and Interpretable Deep Kernel Survival Analysis with an Accuracy Guarantee ( http://arxiv.org/abs/2206.10477v5 )

ライセンス: Link先を確認
George H. Chen(参考訳) カーネルサバイバル解析モデルは、2つのデータポイント間の類似度を測定するカーネル関数の助けを借りて、個々のサバイバル分布を推定する。 このようなカーネル関数は、ディープカーネルサバイバルモデルを用いて学習することができる。 本稿では,モデル解釈や理論解析に適した方法で大規模データセットにスケール可能な,サバイバルカーネットと呼ばれる新しいディープカーネルサバイバルモデルを提案する。 具体的には、最近開発されたカーネルネットと呼ばれる分類と回帰のためのトレーニングセット圧縮スキームに基づいて、トレーニングデータをクラスタに分割し、サバイバル分析設定に拡張する。 テスト時には、各データポイントをこれらのクラスタの重み付けの組み合わせとして表現し、それぞれのクラスタを可視化することができる。 生存カーネットの特殊な場合、予測生存分布に縛られる有限サンプル誤差を、ログ係数まで最適に設定する。 上記のカーネルネット圧縮戦略を用いてテスト時のスケーラビリティを実現する一方で、トレーニング中のスケーラビリティは、XGBoostのようなツリーアンサンブルに基づくウォームスタート手順と、ニューラルネットワーク探索を加速するためのヒューリスティックアプローチによって達成される。 異なるサイズ(約300万データポイントまで)の標準生存分析データセットでは、時間依存コンコーダンス指数で検証された各種ベースラインと比較して、生存カーネットは高い競争力を示す。 私たちのコードは、https://github.com/georgehc/survival-kernetsで利用可能です。

Kernel survival analysis models estimate individual survival distributions with the help of a kernel function, which measures the similarity between any two data points. Such a kernel function can be learned using deep kernel survival models. In this paper, we present a new deep kernel survival model called a survival kernet, which scales to large datasets in a manner that is amenable to model interpretation and also theoretical analysis. Specifically, the training data are partitioned into clusters based on a recently developed training set compression scheme for classification and regression called kernel netting that we extend to the survival analysis setting. At test time, each data point is represented as a weighted combination of these clusters, and each such cluster can be visualized. For a special case of survival kernets, we establish a finite-sample error bound on predicted survival distributions that is, up to a log factor, optimal. Whereas scalability at test time is achieved using the aforementioned kernel netting compression strategy, scalability during training is achieved by a warm-start procedure based on tree ensembles such as XGBoost and a heuristic approach to accelerating neural architecture search. On four standard survival analysis datasets of varying sizes (up to roughly 3 million data points), we show that survival kernets are highly competitive compared to various baselines tested in terms of time-dependent concordance index. Our code is available at: https://github.com/georgehc/survival-kernets
翻訳日:2024-02-21 21:53:45 公開日:2024-02-19
# Regretを使わないことを学ぶ

Learning not to Regret ( http://arxiv.org/abs/2303.01074v2 )

ライセンス: Link先を確認
David Sychrovsk\'y, Michal \v{S}ustr, Elnaz Davoodi, Michael Bowling, Marc Lanctot, Martin Schmid(参考訳) ゲーム理論平衡に関する文献は、主にシングルゲームや繰り返しプレイに焦点を当てている。 それにもかかわらず、多くの現実世界のシナリオでは、異なる公開カードでポーカーをプレイしたり、株式市場で関連資産を取引したり、類似しているが同一ではないゲームの分布からサンプリングされたゲームをプレイする。 これらの類似のゲームは類似の平衡を特徴とするので、そのような分布上の平衡探索を加速する方法を考察する。 我々は,特定の分布に合わせた後悔の最小化をメタ学習する,新しい「後悔しない学習」フレームワークを提案する。 我々の重要な貢献であるNeural Predictive Regret Matchingは、選択されたゲームの配信に対して迅速に収束するようにメタ学習されています。 河川ポーカーゲームの分布に対するアルゴリズムの高速収束性を検証した。 実験では,メタ学習アルゴリズムが非メタ学習アルゴリズムを上回り,10倍以上の改善が得られた。

The literature on game-theoretic equilibrium finding predominantly focuses on single games or their repeated play. Nevertheless, numerous real-world scenarios feature playing a game sampled from a distribution of similar, but not identical games, such as playing poker with different public cards or trading correlated assets on the stock market. As these similar games feature similar equilibra, we investigate a way to accelerate equilibrium finding on such a distribution. We present a novel "learning not to regret" framework, enabling us to meta-learn a regret minimizer tailored to a specific distribution. Our key contribution, Neural Predictive Regret Matching, is uniquely meta-learned to converge rapidly for the chosen distribution of games, while having regret minimization guarantees on any game. We validated our algorithms' faster convergence on a distribution of river poker games. Our experiments show that the meta-learned algorithms outpace their non-meta-learned counterparts, achieving more than tenfold improvements.
翻訳日:2024-02-21 21:42:36 公開日:2024-02-19
# 未知の量子計測の識別と認証

Discrimination and certification of unknown quantum measurements ( http://arxiv.org/abs/2301.04948v2 )

ライセンス: Link先を確認
Aleksandra Krawiec, {\L}ukasz Pawela, Zbigniew Pucha{\l}a(参考訳) 基準測定と他の測定を与えられた場合のシナリオにおけるフォン・ノイマン測定の識別について検討する。 判別の目的は、他の測定値が最初の測定値と同じかどうかを決定することである。 基準測定が古典的な記述を伴わない場合と古典的な記述が知られている場合を考察する。 どちらのケースも対称と非対称の識別設定で研究されている。 さらに、既知の量子測定を未知のものに対して証明できる最適な認証スキームを提供する。

We study the discrimination of von Neumann measurements in the scenario when we are given a reference measurement and some other measurement. The aim of the discrimination is to determine whether the other measurement is the same as the first one. We consider the cases when the reference measurement is given without the classical description and when its classical description is known. Both cases are studied in the symmetric and asymmetric discrimination setups. Moreover, we provide optimal certification schemes enabling us to certify a known quantum measurement against the unknown one.
翻訳日:2024-02-21 21:41:35 公開日:2024-02-19
# 距離空間と長田次元における$k$-NN則の普遍的整合性。 II年

Universal consistency of the $k$-NN rule in metric spaces and Nagata dimension. II ( http://arxiv.org/abs/2305.17282v4 )

ライセンス: Link先を確認
Sushma Kumari and Vladimir G. Pestov(参考訳) 我々は、完全な分離可能な距離空間において、最も近い隣人(k$-nn)の学習規則であるk$の調査を継続する。 C\'erou and Guyader (2006) と Preiss (1983) の結果により、この規則は長田の意味においてシグマ有限次元であるすべての計量空間において普遍的に整合であることが知られている。 ここで、この規則は結び付きのない空間において強く普遍的に一貫していることを示す。 devroye が適用したタイマーキング戦略では gy\"{o}rfi, krzy\ である。 ユークリッド集合における {z}ak, and Lugosi (1994) は、非アーキメディア計量空間(すなわち、長田次元 0 の空間)において強い普遍的整合性を示す。 C\'erou と Guyader の定理と Assouad と Quentin de Gromard (2006) の結果を組み合わせると、$k$-NN 則はデ・グルートの意味で有限次元の計量空間において普遍的に一貫したものであると推測される。 特に、$k$-nn の規則は、kor\'anyi and reimann (1995) と sawyer and wheeden (1992) によって独立に構築された例から、永田の意味でシグマ有限次元でないハイゼンベルク群において普遍的に一致する。

We continue to investigate the $k$ nearest neighbour ($k$-NN) learning rule in complete separable metric spaces. Thanks to the results of C\'erou and Guyader (2006) and Preiss (1983), this rule is known to be universally consistent in every such metric space that is sigma-finite dimensional in the sense of Nagata. Here we show that the rule is strongly universally consistent in such spaces in the absence of ties. Under the tie-breaking strategy applied by Devroye, Gy\"{o}rfi, Krzy\.{z}ak, and Lugosi (1994) in the Euclidean setting, we manage to show the strong universal consistency in non-Archimedian metric spaces (that is, those of Nagata dimension zero). Combining the theorem of C\'erou and Guyader with results of Assouad and Quentin de Gromard (2006), one deduces that the $k$-NN rule is universally consistent in metric spaces having finite dimension in the sense of de Groot. In particular, the $k$-NN rule is universally consistent in the Heisenberg group which is not sigma-finite dimensional in the sense of Nagata as follows from an example independently constructed by Kor\'anyi and Reimann (1995) and Sawyer and Wheeden (1992).
翻訳日:2024-02-21 21:32:42 公開日:2024-02-19
# 祈りの後にビールを飲んでる? 大規模言語モデルにおける文化バイアスの測定

Having Beer after Prayer? Measuring Cultural Bias in Large Language Models ( http://arxiv.org/abs/2305.14456v3 )

ライセンス: Link先を確認
Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu(参考訳) 大規模言語モデル(LM)が世界規模で普及するにつれ、多様な文化的文脈に適応する能力が重要となる。 多言語能力の進歩にもかかわらず、モデルは適切な文化的ニュアンスで設計されていない。 本稿では、多言語とアラビア語のモノリンガルなLMが西洋文化に関連する実体に偏りを示すことを示す。 アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介する。 CAMeLは、外因性評価と内因性評価の両方を通じて、LMの文化的バイアスを測定する基盤を提供する。 ラクダを用いて,物語生成,ナー,感情分析などのタスクにおいて,アラビア語の12種類のlmsにおける異文化間パフォーマンスを検証し,ステレオタイプや文化的不公平の事例について考察した。 さらに,アラブ文化の文脈に適切な適応ができないことを明らかにするため,テキスト入力性能の検証を行った。 最後に、6つのアラビア事前学習コーパスを分析し、もし調整なしで使用すれば、ウィキペディアのような一般的なソースは、文化的に認識されたLMを構築するのに適さないかもしれないことを発見した。 CAMeL を https://github.com/tareknaous/camel で公開します。

As the reach of large language models (LMs) expands globally, their ability to cater to diverse cultural contexts becomes crucial. Despite advancements in multilingual capabilities, models are not designed with appropriate cultural nuances. In this paper, we show that multilingual and Arabic monolingual LMs exhibit bias towards entities associated with Western culture. We introduce CAMeL, a novel resource of 628 naturally-occurring prompts and 20,368 entities spanning eight types that contrast Arab and Western cultures. CAMeL provides a foundation for measuring cultural biases in LMs through both extrinsic and intrinsic evaluations. Using CAMeL, we examine the cross-cultural performance in Arabic of 12 different LMs on tasks such as story generation, NER, and sentiment analysis, where we find concerning cases of stereotyping and cultural unfairness. We further test their text-infilling performance, revealing the incapability of appropriate adaptation to Arab cultural contexts. Finally, we analyze 6 Arabic pre-training corpora and find that commonly used sources such as Wikipedia may not be best suited to build culturally aware LMs, if used as they are without adjustment. We will make CAMeL publicly available at: https://github.com/tareknaous/camel
翻訳日:2024-02-21 21:30:50 公開日:2024-02-19
# 軽量オールコンベネト・トランスファー学習による表面emgに基づくセッション間/サブジェクション認識

Surface EMG-Based Inter-Session/Inter-Subject Gesture Recognition by Leveraging Lightweight All-ConvNet and Transfer Learning ( http://arxiv.org/abs/2305.08014v3 )

ライセンス: Link先を確認
Md. Rabiul Islam, Daniel Massicotte, Philippe Y. Massicotte, and Wei-Ping Zhu(参考訳) 低解像度のHD-sEMG画像を用いたジェスチャー認識は、より流動的で自然な筋肉-コンピュータインターフェースを開発するための新たな道を開く。 しかし、セッション間およびサブジェクト間シナリオ間のデータ変動は大きな課題となる。 既存のアプローチでは、非常に大きく複雑なConvNetまたは2SRNNベースのドメイン適応手法を使用して、これらのセッション間およびオブジェクト間データのばらつきに起因する分散シフトを近似した。 したがって、これらの方法は、何百万ものトレーニングパラメータと、事前トレーニングと適応段階の両方で、トレーニング済みおよびターゲットドメインデータセットを学習する必要がある。 その結果、リアルタイムアプリケーションへのデプロイには、ハイエンドのリソースバウンドと計算コストが非常にかかる。 本稿では,この問題を解決するために,軽量なall-convnet and transfer learning(tl)を活用した軽量なall-convnet+tlモデルを提案する。 all-convnet+tlモデルは畳み込み層のみで構成されており、セッション間およびサブジェクト間データ可変性によって引き起こされる分散シフトに対処するための不変および判別表現を学習するための単純かつ効率的なフレームワークである。 4つのデータセットに対する実験により,提案手法は,既存の手法よりも大きなマージンで優れており,セッション間およびオブジェクト間シナリオにおける最先端の結果が得られ,セッション内ジェスチャ認識において同等あるいは競合的に実行されることを示した。 これらのパフォーマンスギャップは、少数のデータ(例えば単一のトライアル)がターゲットドメインで利用可能になったときにさらに増加する。 これらの顕著な実験結果は、現在の最先端モデルが、sEMGベースのセッション間およびオブジェクト間ジェスチャー認識タスクに対して過度にパラメータ化されていることを示す。

Gesture recognition using low-resolution instantaneous HD-sEMG images opens up new avenues for the development of more fluid and natural muscle-computer interfaces. However, the data variability between inter-session and inter-subject scenarios presents a great challenge. The existing approaches employed very large and complex deep ConvNet or 2SRNN-based domain adaptation methods to approximate the distribution shift caused by these inter-session and inter-subject data variability. Hence, these methods also require learning over millions of training parameters and a large pre-trained and target domain dataset in both the pre-training and adaptation stages. As a result, it makes high-end resource-bounded and computationally very expensive for deployment in real-time applications. To overcome this problem, we propose a lightweight All-ConvNet+TL model that leverages lightweight All-ConvNet and transfer learning (TL) for the enhancement of inter-session and inter-subject gesture recognition performance. The All-ConvNet+TL model consists solely of convolutional layers, a simple yet efficient framework for learning invariant and discriminative representations to address the distribution shifts caused by inter-session and inter-subject data variability. Experiments on four datasets demonstrate that our proposed methods outperform the most complex existing approaches by a large margin and achieve state-of-the-art results on inter-session and inter-subject scenarios and perform on par or competitively on intra-session gesture recognition. These performance gaps increase even more when a tiny amount (e.g., a single trial) of data is available on the target domain for adaptation. These outstanding experimental results provide evidence that the current state-of-the-art models may be overparameterized for sEMG-based inter-session and inter-subject gesture recognition tasks.
翻訳日:2024-02-21 21:29:31 公開日:2024-02-19
# DyPP: 変分量子アルゴリズムの収束を加速する動的パラメータ予測

DyPP: Dynamic Parameter Prediction to Accelerate Convergence of Variational Quantum Algorithms ( http://arxiv.org/abs/2307.12449v3 )

ライセンス: Link先を確認
Satwik Kundu, Debarshi Kundu and Swaroop Ghosh(参考訳) 古典機械上での量子シミュレータの指数的実行時間と長い待ち時間と実量子デバイスの高コストは、変分量子固有解法(VQE)、量子近似最適化アルゴリズム(QAOA)、量子ニューラルネットワーク(QNN)などの変分量子アルゴリズム(VQA)の効率的な最適化において重要な課題を提示する。 このような制約に対処するため,パラメータ重みの規則的傾向を利用してパラメータを更新することにより,VQAの収束を加速するDyPP(Dynamic Parameter Prediction)を提案する。 本稿では,最適予測性能のための2つの手法,naive prediction(nap)とadaptive prediction(adap)を提案する。 さまざまなデータセット上の複数のQNNモデルの広範な実験とトレーニングを通じて、DyPPは標準的なトレーニング手法と比較して約2.25\times$のスピードアップを提供し、ストレージと計算オーバーヘッドの少ない精度(最大2.3\%$以上)と損失(最大6.1\%$以下)を提供する。 また,分子基底エネルギー推定におけるVQEおよびグラフMaxCutにおけるQAOAにおけるDyPPの有効性を評価した。 その結果、dyppはvqeで平均3.1\times$、qaoaで2.91\times$、従来の最適化技術と比較して最大3.3\times$より少ないショット(つまり繰り返しのサーキット実行)を使用する。 ハードウェアノイズの下でも、DyPPは既存の最適化技術より優れており、最大3.33倍のスピードアップと2.5倍のスピードアップを実現し、VQAの効率を向上させる。

The exponential run time of quantum simulators on classical machines and long queue times and high costs of real quantum devices present significant challenges in the efficient optimization of Variational Quantum Algorithms (VQAs) like Variational Quantum Eigensolver (VQE), Quantum Approximate Optimization Algorithm (QAOA) and Quantum Neural Networks (QNNs). To address these limitations, we propose a new approach, DyPP (Dynamic Parameter Prediction), which accelerates the convergence of VQAs by exploiting regular trends in the parameter weights to update parameters. We introduce two techniques for optimal prediction performance namely, Naive Prediction (NaP) and Adaptive Prediction (AdaP). Through extensive experimentation and training of multiple QNN models on various datasets, we demonstrate that DyPP offers a speedup of approximately $2.25\times$ compared to standard training methods, while also providing improved accuracy (up to $2.3\%$ higher) and loss (up to $6.1\%$ lower) with low storage and computational overheads. We also evaluate DyPP's effectiveness in VQE for molecular ground-state energy estimation and in QAOA for graph MaxCut. Our results show that on average, DyPP leads to speedup of up to $3.1\times$ for VQE and $2.91\times$ for QAOA, compared to traditional optimization techniques, while using up to $3.3\times$ lesser shots (i.e., repeated circuit executions). Even under hardware noise, DyPP outperforms existing optimization techniques, delivering upto $3.33\times$ speedup and $2.5\times$ fewer shots, thereby enhancing efficiency of VQAs.
翻訳日:2024-02-21 21:20:44 公開日:2024-02-19
# 微分プライベート線形最適化における特徴前処理の重要性

The importance of feature preprocessing for differentially private linear optimization ( http://arxiv.org/abs/2307.11106v2 )

ライセンス: Link先を確認
Ziteng Sun, Ananda Theertha Suresh, Aditya Krishna Menon(参考訳) 近年,差分プライバシー(DP)を用いた機械学習モデルの訓練が注目されている。 微分プライベートモデルを訓練するための最も一般的なアルゴリズムの1つは微分プライベート確率勾配降下(dpsgd)とその変種であり、各ステップの勾配はクリップされ、いくつかのノイズと組み合わせられる。 DPSGDは、プライバシの制約の下で、すべてのデータセットに対して適切な最小化子を見つけるのに十分なものなのでしょうか? この質問に答えるためには、線形分類の単純な場合であっても、非プライベート最適化とは異なり、(プライベート)特徴前処理が微分プライベート最適化に不可欠であることを示す。 より詳しくは、DPSGDは、特徴前処理がなければ、すべてのサンプルに対する特徴の最大ユークリッドノルムに比例する最適性ギャップを生じさせる例が存在することを理論的に示す。 次に、DPSGDと特徴前処理を組み合わせたDPSGD-Fというアルゴリズムを提案し、分類タスクに対して、特徴量$\max_{x, x' \in D} \|xx'\|_2$の直径に比例した最適性ギャップを生じることを証明した。 最後に,画像分類ベンチマークによるアルゴリズムの実用性を示す。

Training machine learning models with differential privacy (DP) has received increasing interest in recent years. One of the most popular algorithms for training differentially private models is differentially private stochastic gradient descent (DPSGD) and its variants, where at each step gradients are clipped and combined with some noise. Given the increasing usage of DPSGD, we ask the question: is DPSGD alone sufficient to find a good minimizer for every dataset under privacy constraints? Towards answering this question, we show that even for the simple case of linear classification, unlike non-private optimization, (private) feature preprocessing is vital for differentially private optimization. In detail, we first show theoretically that there exists an example where without feature preprocessing, DPSGD incurs an optimality gap proportional to the maximum Euclidean norm of features over all samples. We then propose an algorithm called DPSGD-F, which combines DPSGD with feature preprocessing and prove that for classification tasks, it incurs an optimality gap proportional to the diameter of the features $\max_{x, x' \in D} \|x - x'\|_2$. We finally demonstrate the practicality of our algorithm on image classification benchmarks.
翻訳日:2024-02-21 21:19:31 公開日:2024-02-19
# 医療のためのナレッジグラフのレビュー:リソース、アプリケーション、およびpromise

A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises ( http://arxiv.org/abs/2306.04802v3 )

ライセンス: Link先を確認
Hejie Cui, Jiaying Lu, Shiyu Wang, Ran Xu, Wenjing Ma, Shaojun Yu, Yue Yu, Xuan Kan, Chen Ling, Tianfan Fu, Liang Zhao, Joyce Ho, Fei Wang, Carl Yang(参考訳) 医療知識グラフ(Healthcare knowledge graphs, HKGs)は、生体医学の概念と解釈可能な構造との関係を整理するための貴重なツールである。 最近の大規模言語モデル(llms)の出現により、より包括的で正確なhkgを構築する方法が整った。 これにより、生成されたコンテンツの信頼性が向上し、LCMのより良い評価が可能になる。 しかし、データの不均一性や範囲の限定といったHKGの課題は完全には理解されておらず、詳細なレビューの必要性を強調している。 本研究はhkgsの包括的レビューを提供する。 hkg構築のためのパイプラインとキーテクニック、およびモデルフリーやモデルベースといった共通利用アプローチを要約している。 既存のhkgリソースは、キャプチャしたデータ型とカバーするアプリケーションドメイン、関連する統計情報(https://github.com/lujiaying/awesome-healthcare-knowledgebase.resource)に基づいて整理される。 アプリケーションレベルでは、きめ細かい基礎科学研究からハイレベルな臨床決定支援、公衆衛生まで、さまざまな健康領域にわたるhkgの統合が成功したことを考察する。 最後に本稿では,llm時代のhkgsの機会について概説する。 この研究は、健康研究におけるhkgの可能性と機会を理解するための貴重な資源となることを目的としている。

Healthcare knowledge graphs (HKGs) are valuable tools for organizing biomedical concepts and their relationships with interpretable structures. The recent advent of large language models (LLMs) has paved the way for building more comprehensive and accurate HKGs. This, in turn, can improve the reliability of generated content and enable better evaluation of LLMs. However, the challenges of HKGs such as regarding data heterogeneity and limited coverage are not fully understood, highlighting the need for detailed reviews. This work provides the first comprehensive review of HKGs. It summarizes the pipeline and key techniques for HKG construction, as well as the common utilization approaches, i.e., model-free and model-based. The existing HKG resources are also organized based on the data types they capture and application domains they cover, along with relevant statistical information (Resource available at https://github.com/lujiaying/Awesome-HealthCare-KnowledgeBase). At the application level, we delve into the successful integration of HKGs across various health domains, ranging from fine-grained basic science research to high-level clinical decision support and public health. Lastly, the paper highlights the opportunities for HKGs in the era of LLMs. This work aims to serve as a valuable resource for understanding the potential and opportunities of HKG in health research.
翻訳日:2024-02-21 21:15:44 公開日:2024-02-19
# 線形文脈による探索のインセンティブと組合せ行動

Incentivizing Exploration with Linear Contexts and Combinatorial Actions ( http://arxiv.org/abs/2306.01990v2 )

ライセンス: Link先を確認
Mark Sellke(参考訳) 我々は,腕の選択を推奨とし,ベイズ的インセンティブとの互換性を要求されるインセンティブ付きバンディット探索の研究を進める。 最近の研究では、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になるという一定の独立性仮定の下で示されている。 この結果の類似性は線形バンディットに対して与えられ、そこでは事前の独立性が自然凸条件に置き換えられる。 これにより、高次元の行動空間における効率的かつ後悔すべきインセンティブ付き探索の可能性が開ける。 半帯域モデルでは、初期データ収集のトンプソン前サンプリングフェーズにおけるサンプルの複雑さも改善する。

We advance the study of incentivized bandit exploration, in which arm choices are viewed as recommendations and are required to be Bayesian incentive compatible. Recent work has shown under certain independence assumptions that after collecting enough initial samples, the popular Thompson sampling algorithm becomes incentive compatible. We give an analog of this result for linear bandits, where the independence of the prior is replaced by a natural convexity condition. This opens up the possibility of efficient and regret-optimal incentivized exploration in high-dimensional action spaces. In the semibandit model, we also improve the sample complexity for the pre-Thompson sampling phase of initial data collection.
翻訳日:2024-02-21 21:15:19 公開日:2024-02-19
# 大規模凸複合最適化のための自己一致平滑化

Self-concordant Smoothing for Large-Scale Convex Composite Optimization ( http://arxiv.org/abs/2309.01781v2 )

ライセンス: Link先を確認
Adeyemi D. Adeoye, Alberto Bemporad(参考訳) 2つの凸関数の和を最小化するための自己協和スムージングの概念を導入し、そのうちの1つは滑らかであり、もう1つは非滑らかである。 提案手法の重要な特徴は,特に近位ニュートン型アルゴリズムに適した可変パラメータ選択法とステップ長選択規則を提示する問題の構造の自然な性質にある。 さらに,非スムース関数によって促進される特定の構造,例えば $\ell_1$-regularization や group-lasso penalties を効率的に扱う。 近似ニュートンアルゴリズムである Prox-N-SCORE と近一般化ガウスニュートンアルゴリズムである Prox-GGN-SCORE の2つのアルゴリズムの収束性を証明する。 Prox-GGN-SCOREアルゴリズムは、逆 Hessian に関連する計算オーバーヘッドの大部分を著しく削減する重要な近似手順を強調する。 この近似は、基本的に、過パラメータの機械学習モデルとミニバッチ設定で有用である。 合成データセットと実データセットの両方の数値例は、我々のアプローチの効率と既存のアプローチよりも優れていることを示している。 提案されたアルゴリズムを実装するJuliaパッケージはhttps://github.com/adeyemiadeoye/SelfConcordantSmoothOptimization.jlで公開されている。

We introduce a notion of self-concordant smoothing for minimizing the sum of two convex functions, one of which is smooth and the other may be nonsmooth. The key highlight of our approach is in a natural property of the resulting problem's structure which provides us with a variable-metric selection method and a step-length selection rule particularly suitable for proximal Newton-type algorithms. In addition, we efficiently handle specific structures promoted by the nonsmooth function, such as $\ell_1$-regularization and group-lasso penalties. We prove the convergence of two resulting algorithms: Prox-N-SCORE, a proximal Newton algorithm and Prox-GGN-SCORE, a proximal generalized Gauss-Newton algorithm. The Prox-GGN-SCORE algorithm highlights an important approximation procedure which helps to significantly reduce most of the computational overhead associated with the inverse Hessian. This approximation is essentially useful for overparameterized machine learning models and in the mini-batch settings. Numerical examples on both synthetic and real datasets demonstrate the efficiency of our approach and its superiority over existing approaches. A Julia package implementing the proposed algorithms is available at https://github.com/adeyemiadeoye/SelfConcordantSmoothOptimization.jl.
翻訳日:2024-02-21 21:07:08 公開日:2024-02-19
# Evidential Deep Learning:地球系科学応用のための予測不確実性推定の強化

Evidential Deep Learning: Enhancing Predictive Uncertainty Estimation for Earth System Science Applications ( http://arxiv.org/abs/2309.13207v2 )

ライセンス: Link先を確認
John S. Schreck, David John Gagne II, Charlie Becker, William E. Chapman, Kim Elmore, Da Fan, Gabrielle Gantos, Eliot Kim, Dhamma Kimpara, Thomas Martin, Maria J. Molina, Vanessa M. Pryzbylo, Jacob Radford, Belen Saavedra, Justin Willson, Christopher Wirz(参考訳) 予測の不確かさのロバストな定量化は、気象と気候の結果を促進する要因を理解する上で重要である。 アンサンブルは予測の不確実性の推定を提供し、物理的に分解することができるが、物理と機械学習のアンサンブルは計算的に高価である。 パラメトリック深層学習は、確率分布のパラメータを予測することによって、一つのモデルで不確かさを推定できるが、認識的不確実性は考慮しない。 . パラメトリック深層学習を高次分布に拡張する実証的深層学習は、1つのモデルで有意な不確かさと認識的不確実性の両方を考慮できる。 本研究は,ニューラルネットワークから得られる不確かさとアンサンブルから得られる不確かさを比較した。 冬期降水形態の分類と表層フラックスの回帰の応用を通して, 予測精度が標準手法に匹敵することを示すとともに, 両方の不確実性源をしっかりと定量化しながら, 明らかな深層学習モデルを示す。 我々は,予測の校正精度と不確実性が予測誤差とどの程度相関するかで不確実性を評価する。 入力の文脈における不確実性の分析は、基礎となる気象過程に対する感受性を示し、モデルの解釈を容易にする。 実証的ニューラルネットワークの概念的単純性、解釈性、計算効率は、高度に拡張可能であり、地球系科学モデリングにおける信頼性と実用的な不確かさの定量化に有望なアプローチを提供する。 Earth System Science における顕在的深層学習の広範な採用を促進するため,我々は新しいPythonパッケージ MILES-GUESS (https://github.com/ai2es/miles-guess) を開発した。

Robust quantification of predictive uncertainty is critical for understanding factors that drive weather and climate outcomes. Ensembles provide predictive uncertainty estimates and can be decomposed physically, but both physics and machine learning ensembles are computationally expensive. Parametric deep learning can estimate uncertainty with one model by predicting the parameters of a probability distribution but do not account for epistemic uncertainty.. Evidential deep learning, a technique that extends parametric deep learning to higher-order distributions, can account for both aleatoric and epistemic uncertainty with one model. This study compares the uncertainty derived from evidential neural networks to those obtained from ensembles. Through applications of classification of winter precipitation type and regression of surface layer fluxes, we show evidential deep learning models attaining predictive accuracy rivaling standard methods, while robustly quantifying both sources of uncertainty. We evaluate the uncertainty in terms of how well the predictions are calibrated and how well the uncertainty correlates with prediction error. Analyses of uncertainty in the context of the inputs reveal sensitivities to underlying meteorological processes, facilitating interpretation of the models. The conceptual simplicity, interpretability, and computational efficiency of evidential neural networks make them highly extensible, offering a promising approach for reliable and practical uncertainty quantification in Earth system science modeling. In order to encourage broader adoption of evidential deep learning in Earth System Science, we have developed a new Python package, MILES-GUESS (https://github.com/ai2es/miles-guess), that enables users to train and evaluate both evidential and ensemble deep learning.
翻訳日:2024-02-21 20:51:56 公開日:2024-02-19
# 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入

Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees ( http://arxiv.org/abs/2309.09968v3 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman(参考訳) 表データを取得するのが難しく、値が不足している。 本稿では, スコアベース拡散と条件付き流れマッチングを利用して, 混合型(連続型, カテゴリー型) 表データの生成と計算を行う手法を提案する。 スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,広く使用されているグラディエントブーストツリー(GBT)技術であるXGBoostを採用する。 提案手法をテストするために,27の多様なデータセットと9つのメトリクスを含む,表形式のデータ生成と計算のための最も広範なベンチマークを構築した。 実験的な評価により,本手法がデータ生成タスクにおいて深層学習法より優れ,データ計算において競争力を維持していることを示す。 特に、GPUを必要とせずに、CPUを使用して並列にトレーニングできる。 PythonとRのコードはhttps://github.com/SamsungSAILMontreal/ForestDiffusion.comから入手可能です。

Tabular data is hard to acquire and is subject to missing values. This paper introduces a novel approach for generating and imputing mixed-type (continuous and categorical) tabular data utilizing score-based diffusion and conditional flow matching. In contrast to prior methods that rely on neural networks to learn the score function or the vector field, we adopt XGBoost, a widely used Gradient-Boosted Tree (GBT) technique. To test our method, we build one of the most extensive benchmarks for tabular data generation and imputation, containing 27 diverse datasets and 9 metrics. Through empirical evaluation across the benchmark, we demonstrate that our approach outperforms deep-learning generation methods in data generation tasks and remains competitive in data imputation. Notably, it can be trained in parallel using CPUs without requiring a GPU. Our Python and R code is available at https://github.com/SamsungSAILMontreal/ForestDiffusion.
翻訳日:2024-02-21 20:50:04 公開日:2024-02-19
# ニューラル回路における接続構造がリッチで遅延学習をどのように形成するか

How connectivity structure shapes rich and lazy learning in neural circuits ( http://arxiv.org/abs/2310.08513v2 )

ライセンス: Link先を確認
Yuhan Helena Liu, Aristide Baratin, Jonathan Cornford, Stefan Mihalas, Eric Shea-Brown, and Guillaume Lajoie(参考訳) 理論神経科学において、最近の研究は深層学習ツールを利用して、いくつかのネットワーク属性が学習ダイナミクスにどのように影響するかを探求している。 特に、小さな(大きな)分散を持つ初期重量分布は、学習の過程でネットワーク状態や表現に顕著な(小さな)変化が観測されるリッチな(遅延的な)レジームをもたらす可能性がある。 しかし、生物学では、神経回路接続は低ランク構造を呈しうるため、これらの研究で一般的に用いられるランダムな初期化とは明らかに異なる。 そこで本研究では,初期重みの構造,特にその有効ランクがネットワーク学習体制に与える影響について検討する。 実験的および理論的分析から,高ランク初期化はラジエ学習の指標となるネットワーク変化を小さくすることが明らかとなった。 逆に、低位の初期化はよりリッチな学習への学習に偏る。 しかし、このルールの例外として、遅延学習はタスクやデータ統計と整合した低ランクな初期化によっても発生しうる。 本研究は, 可塑性の代謝コスト, 破滅的忘れ込みのリスクなど, 学習体制形成における初期重み構造の役割を強調した。

In theoretical neuroscience, recent work leverages deep learning tools to explore how some network attributes critically influence its learning dynamics. Notably, initial weight distributions with small (resp. large) variance may yield a rich (resp. lazy) regime, where significant (resp. minor) changes to network states and representation are observed over the course of learning. However, in biology, neural circuit connectivity could exhibit a low-rank structure and therefore differs markedly from the random initializations generally used for these studies. As such, here we investigate how the structure of the initial weights -- in particular their effective rank -- influences the network learning regime. Through both empirical and theoretical analyses, we discover that high-rank initializations typically yield smaller network changes indicative of lazier learning, a finding we also confirm with experimentally-driven initial connectivity in recurrent neural networks. Conversely, low-rank initialization biases learning towards richer learning. Importantly, however, as an exception to this rule, we find lazier learning can still occur with a low-rank initialization that aligns with task and data statistics. Our research highlights the pivotal role of initial weight structures in shaping learning regimes, with implications for metabolic costs of plasticity and risks of catastrophic forgetting.
翻訳日:2024-02-21 20:41:23 公開日:2024-02-19
# ベンチマークバイオメディカルテキスト処理課題における大規模言語モデルの総合的評価

A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks ( http://arxiv.org/abs/2310.04270v3 )

ライセンス: Link先を確認
Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang(参考訳) 近年、大規模言語モデル(llm)は、幅広いタスクを解決する素晴らしい能力を示している。 しかし, 様々な課題にまたがって成功を収めたにもかかわらず, 生物医学分野での能力についてはまだ研究されていない。 本研究の目的は,バイオメディカル・タスクのベンチマーク上でのLCMの性能を評価することである。 そこで本研究では,26データセットにまたがる6種類の生物医学的タスクにおいて,4つのLLMを包括的に評価する。 我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。 興味深いことに、より少ないトレーニングセットを持つバイオメディカルデータセットでは、ゼロショットLLMは現在の最先端の微調整バイオメディカルモデルよりも優れています。 このことは、大きなテキストコーパスで事前学習を行うことによって、LLMは生物医学領域においてもかなり専門化されていることを示唆している。 また、1つのLLMが全てのタスクで他のLLMを上回り、異なるLLMのパフォーマンスがタスクによって異なる可能性があることもわかった。 大規模なトレーニングセットで微調整されたバイオメディカルモデルと比較すると,その性能はいまだに劣っているが,本研究の結果から,LLMは大量の注釈データを持たない様々なバイオメディカルタスクに有用なツールである可能性が示唆された。

Recently, Large Language Models (LLM) have demonstrated impressive capability to solve a wide range of tasks. However, despite their success across various tasks, no prior work has investigated their capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of LLMs on benchmark biomedical tasks. For this purpose, we conduct a comprehensive evaluation of 4 popular LLMs in 6 diverse biomedical tasks across 26 datasets. To the best of our knowledge, this is the first work that conducts an extensive evaluation and comparison of various LLMs in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot LLMs even outperform the current state-of-the-art fine-tuned biomedical models. This suggests that pretraining on large text corpora makes LLMs quite specialized even in the biomedical domain. We also find that not a single LLM can outperform other LLMs in all tasks, with the performance of different LLMs may vary depending on the task. While their performance is still quite poor in comparison to the biomedical models that were fine-tuned on large training sets, our findings demonstrate that LLMs have the potential to be a valuable tool for various biomedical tasks that lack large annotated data.
翻訳日:2024-02-21 20:38:44 公開日:2024-02-19
# Google Colabと互換性のある2次元過渡問題のための物理情報ニューラルネットワークコード(PINN-2DT)

Physics Informed Neural Network Code for 2D Transient Problems (PINN-2DT) Compatible with Google Colab ( http://arxiv.org/abs/2310.03755v2 )

ライセンス: Link先を確認
Pawe{\l} Maczuga, Maciej Sikora, Maciej Skocze\'n, Przemys{\l}aw Ro\.znawski, Filip T{\l}uszcz, Marcin Szubert, Marcin {\L}o\'s, Witold Dzwinel, Keshav Pingali, Maciej Paszy\'nski(参考訳) We present an open-source Physics Informed Neural Network environment for simulations of transient phenomena on two-dimensional rectangular domains, with the following features: (1) it is compatible with Google Colab which allows automatic execution on cloud environment; (2) it supports two dimensional time-dependent PDEs; (3) it provides simple interface for definition of the residual loss, boundary condition and initial loss, together with their weights; (4) it support Neumann and Dirichlet boundary conditions; (5) it allows for customizing the number of layers and neurons per layer, as well as for arbitrary activation function; (6) the learning rate and number of epochs are available as parameters; (7) it automatically differentiates PINN with respect to spatial and temporal variables; (8) it provides routines for plotting the convergence (with running average), initial conditions learnt, 2D and 3D snapshots from the simulation and movies (9) it includes a library of problems: (a)非定常熱伝達 (b)津波をモデル化する波動方程式 (c)熱インバージョンを含む大気シミュレーション (d)腫瘍増殖シミュレーション。

We present an open-source Physics Informed Neural Network environment for simulations of transient phenomena on two-dimensional rectangular domains, with the following features: (1) it is compatible with Google Colab which allows automatic execution on cloud environment; (2) it supports two dimensional time-dependent PDEs; (3) it provides simple interface for definition of the residual loss, boundary condition and initial loss, together with their weights; (4) it support Neumann and Dirichlet boundary conditions; (5) it allows for customizing the number of layers and neurons per layer, as well as for arbitrary activation function; (6) the learning rate and number of epochs are available as parameters; (7) it automatically differentiates PINN with respect to spatial and temporal variables; (8) it provides routines for plotting the convergence (with running average), initial conditions learnt, 2D and 3D snapshots from the simulation and movies (9) it includes a library of problems: (a) non-stationary heat transfer; (b) wave equation modeling a tsunami; (c) atmospheric simulations including thermal inversion; (d) tumor growth simulations.
翻訳日:2024-02-21 20:37:58 公開日:2024-02-19
# ライダーのビジョン基礎モデル蒸留を改善する3つのピラー

Three Pillars improving Vision Foundation Model Distillation for Lidar ( http://arxiv.org/abs/2310.17504v2 )

ライセンス: Link先を確認
Gilles Puy, Spyros Gidaris, Alexandre Boulch, Oriane Sim\'eoni, Corentin Sautier, Patrick P\'erez, Andrei Bursuc, Renaud Marlet(参考訳) 自己監督されたイメージバックボーンは、複雑な2Dタスク(セマンティックセグメンテーション、オブジェクト発見など)に、非常に効率的に対処するために使用でき、下流の監視はほとんど、あるいは全く行わない。 理想的には、ライダー用の3Dバックボーンは、これらの強力な2D特徴を蒸留した後、これらの特性を継承できるはずである。 自動運転データを用いた最新の画像からライダーへの蒸留法では,蒸留法の改善により有望な結果が得られた。 しかし,リニアプローブによる蒸留および完全に監視された機能の品質測定では,性能の差が大きいことが判明した。 本研究では, 蒸留法のみに焦点をあてるのではなく, 3次元バックボーン, 事前訓練された2次元バックボーン, 事前学習データセットの3つの柱の効果について検討した。 特に, スケーラブル蒸留法であるScaLRにより, 2Dおよび3Dバックボーンのスケーリングと, 多様なデータセットの事前学習により, 機能品質が大幅に向上することを示した。 これにより、蒸留された3次元特徴と完全に監督された3次元特徴のギャップを著しく減らし、事前訓練されたバックボーンの堅牢性をドメインギャップと摂動に改善することができる。

Self-supervised image backbones can be used to address complex 2D tasks (e.g., semantic segmentation, object discovery) very efficiently and with little or no downstream supervision. Ideally, 3D backbones for lidar should be able to inherit these properties after distillation of these powerful 2D features. The most recent methods for image-to-lidar distillation on autonomous driving data show promising results, obtained thanks to distillation methods that keep improving. Yet, we still notice a large performance gap when measuring the quality of distilled and fully supervised features by linear probing. In this work, instead of focusing only on the distillation method, we study the effect of three pillars for distillation: the 3D backbone, the pretrained 2D backbones, and the pretraining dataset. In particular, thanks to our scalable distillation method named ScaLR, we show that scaling the 2D and 3D backbones and pretraining on diverse datasets leads to a substantial improvement of the feature quality. This allows us to significantly reduce the gap between the quality of distilled and fully-supervised 3D features, and to improve the robustness of the pretrained backbones to domain gaps and perturbations.
翻訳日:2024-02-21 20:27:27 公開日:2024-02-19
# 医療分野における大規模言語モデルの現状と展望

Overview of Current Applications of Large Language Models in Various Medical Specialities ( http://arxiv.org/abs/2311.12882v2 )

ライセンス: Link先を確認
Ummara Mumtaz, Awais Ahmed, Summaya Mumtaz(参考訳) 我々は、医療分野における大規模言語モデル(llm)の最新の応用の概要を提供し、医療品質向上におけるその変革的役割を強調する。 多様な医療領域から大量のデータを処理することで、LLMは医師、医療提供者、患者を支援する上で重要な役割を担っている。 医療におけるLarge Language Models(LLM)の適用について,診断や治療関連アプリケーションを中心に検討する。 がん, 皮膚科, 歯科, 精神保健におけるLSMの使用を強調し, 医療診断や患者医療にもたらすイノベーションを強調した。 この分析は、現在の制限にもかかわらず、様々な医療専門分野において、LSMを統合することの課題と機会に対処する。 さらに,医療分野における各種データ型への対応について概説する。

We aim to provide an overview of the latest applications of Large Language Models (LLMs) in the healthcare sector, highlighting their transformative role in enhancing medical care quality. By processing vast amounts of data from diverse medical domains, LLMs have become pivotal in assisting doctors, healthcare providers, and patients. We review the application of Large Language Models (LLMs) in healthcare, focusing on diagnostics and treatment related applications. We highlight the use of LLMs in cancer care, dermatology, dental, and mental health, emphasizing the innovation they bring to medical diagnostics and patient care. The analysis addresses the challenges and opportunities of integrating LLMs in healthcare, noting their potential in various medical specialties despite current limitations. Further, we provide an overview of handling various data types in the medical field.
翻訳日:2024-02-21 20:16:15 公開日:2024-02-19
# プロンプトエンジニアリング プロンプトエンジニア

Prompt Engineering a Prompt Engineer ( http://arxiv.org/abs/2311.05661v2 )

ライセンス: Link先を確認
Qinyuan Ye, Maxamed Axmed, Reid Pryzant, Fereshte Khani(参考訳) プロンプトエンジニアリングは、カスタマイズされたタスクで大規模言語モデルのパフォーマンスを最適化する上で、難しいが重要なタスクである。 モデルのエラーを調べ、現在のプロンプトに欠けていることや誤解を招くことを仮説化し、明確さでタスクを伝えるには複雑な推論が必要である。 近年の研究では,大規模な言語モデルをメタプロンプトで自動的なプロンプトエンジニアリングを行う方法が提案されているが,メタプロンプトにおける複雑な推論のためのガイダンスが不十分なため,それらのポテンシャルは限られていると論じている。 このギャップを埋めるために、meta-promptの3つの重要なコンポーネント、詳細記述、コンテキスト仕様、ステップバイステップの推論テンプレートを入力します。 PE2と呼ばれるこの手法は、様々な言語タスクにまたがる優れた汎用性を示す。 これは「ステップバイステップ」がMultiArithで6.3%、GSM8Kで3.1%、対実的タスクで競争ベースラインが6.9%上回ったことを示唆している。 さらに,PE2は,ターゲットとなるプロンプトを編集し,誤ったプロンプトを修正し,複雑なタスクのマルチステッププランを誘導できることを示す。

Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models on customized tasks. It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that large language models can be meta-prompted to perform automatic prompt engineering, we argue that their potential is limited due to insufficient guidance for complex reasoning in the meta-prompt. We fill this gap by infusing into the meta-prompt three key components: detailed descriptions, context specification, and a step-by-step reasoning template. The resulting method, named PE2, showcases remarkable versatility across diverse language tasks. It finds prompts that outperform "let's think step by step" by 6.3% on MultiArith and 3.1% on GSM8K, and outperforms competitive baselines on counterfactual tasks by 6.9%. Further, we show that PE2 can make targeted prompt edits, rectify erroneous prompts, and induce multi-step plans for complex tasks.
翻訳日:2024-02-21 20:13:44 公開日:2024-02-19
# 固定予算を用いたベストアーム識別:大きな偏差視点

Best Arm Identification with Fixed Budget: A Large Deviation Perspective ( http://arxiv.org/abs/2312.12137v2 )

ライセンス: Link先を確認
Po-An Wang, Ruo-Chun Tzeng and Alexandre Proutiere(参考訳) 確率的マルチアーマッドバンド(MAB)における最適なアームを固定サンプリング予算を用いて同定する問題を考察する。 この問題に対する最小のインスタンス固有のエラー確率を特徴づけることは、MABにおける重要な未解決問題の1つである。 静的サンプリング戦略を用いてアームを選択すると、誤差確率は、大きな偏差技術によって明示的に導出できる速度でサンプル数で指数関数的に減少する。 しかし、適応サンプリング戦略を用いたアルゴリズムの性能解析の方がはるかに難しい。 本稿では,大偏差原理 (LDP) をアームドローの経験的割合で満たし, アームドローの経験的報酬で満たす関係を確立する。 この接続は任意の適応アルゴリズムを保持し、活用される (i)いくつかの既存アルゴリズムの誤差確率上限を改善するために、例えば、有名な \sr (successive rejects) アルゴリズム \citep{audibert2010best} や (ii)新しいアルゴリズムを考案し、分析すること。 特に,様々な武器の報酬の間に生じる経験的ギャップに基づいて,腕を拒絶できる真に適応的なアルゴリズムである \sred (Continuous Rejects) を提案する。 大偏差結果を適用することで、 \sredは既存のアルゴリズムである \sr よりも優れたパフォーマンス保証を享受できることを証明します。 大規模な数値実験でこの観測が確認された。

We consider the problem of identifying the best arm in stochastic Multi-Armed Bandits (MABs) using a fixed sampling budget. Characterizing the minimal instance-specific error probability for this problem constitutes one of the important remaining open problems in MABs. When arms are selected using a static sampling strategy, the error probability decays exponentially with the number of samples at a rate that can be explicitly derived via Large Deviation techniques. Analyzing the performance of algorithms with adaptive sampling strategies is however much more challenging. In this paper, we establish a connection between the Large Deviation Principle (LDP) satisfied by the empirical proportions of arm draws and that satisfied by the empirical arm rewards. This connection holds for any adaptive algorithm, and is leveraged (i) to improve error probability upper bounds of some existing algorithms, such as the celebrated \sr (Successive Rejects) algorithm \citep{audibert2010best}, and (ii) to devise and analyze new algorithms. In particular, we present \sred (Continuous Rejects), a truly adaptive algorithm that can reject arms in {\it any} round based on the observed empirical gaps between the rewards of various arms. Applying our Large Deviation results, we prove that \sred enjoys better performance guarantees than existing algorithms, including \sr. Extensive numerical experiments confirm this observation.
翻訳日:2024-02-21 20:06:31 公開日:2024-02-19
# 画像翻訳のためのパッチワイズグラフコントラスト学習

Patch-wise Graph Contrastive Learning for Image Translation ( http://arxiv.org/abs/2312.08223v2 )

ライセンス: Link先を確認
Chanyong Jung, Gihyun Kwon, Jong Chul Ye(参考訳) 近年,入力画像と出力画像のセマンティック対応を探索することにより,画像翻訳のパッチワイドコントラスト学習が注目されている。 高レベルの意味理解のためのパッチワイドトポロジをさらに探求するため、グラフニューラルネットワークを用いてトポロジ対応の特徴を捉える。 具体的には,入力と出力のパッチワイド関係の整合性を高めるために,隣接行列を共用した事前学習エンコーダから,パッチワイド類似性に基づくグラフを構築する。 そして、グラフニューラルネットワークからノード特徴を取得し、コントラスト損失を用いて相互情報を増大させることにより、ノード間の対応性を高める。 階層的な意味構造を捉えるために,さらにグラフプーリングを提案する。 構築したグラフのセマンティックエンコーディングにより,画像翻訳の最先端性を示す実験結果が得られた。

Recently, patch-wise contrastive learning is drawing attention for the image translation by exploring the semantic correspondence between the input and output images. To further explore the patch-wise topology for high-level semantic understanding, here we exploit the graph neural network to capture the topology-aware features. Specifically, we construct the graph based on the patch-wise similarity from a pretrained encoder, whose adjacency matrix is shared to enhance the consistency of patch-wise relation between the input and the output. Then, we obtain the node feature from the graph neural network, and enhance the correspondence between the nodes by increasing mutual information using the contrastive loss. In order to capture the hierarchical semantic structure, we further propose the graph pooling. Experimental results demonstrate the state-of-art results for the image translation thanks to the semantic encoding by the constructed graphs.
翻訳日:2024-02-21 20:03:31 公開日:2024-02-19
# 差分プライバシーの付加除去モデルにおける平均推定

Mean estimation in the add-remove model of differential privacy ( http://arxiv.org/abs/2312.06658v2 )

ライセンス: Link先を確認
Alex Kulesza and Ananda Theertha Suresh and Yuyan Wang(参考訳) 差分プライバシーは、しばしば隣接するデータセットの2つの異なるモデル、すなわちアドレベーブモデルとスワップモデルの下で研究される。 スワップモデルはしばしば学術文献で分析を単純化するために使われるが、多くの実践的応用はより保守的な追加除去モデルに依存しており、厳密な結果を得るのは難しい。 本稿では,加算除去モデルに基づく一次元平均推定問題について検討する。 提案するアルゴリズムでは, 平均二乗誤差の先頭項において, 平均二乗誤差の最大値として min-max が最適であり, この定数はスワップモデルの下での最適アルゴリズムと同じであることを示す。 これらの結果から,追加削除モデルとスワップモデルは,データセットのサイズを公開情報として扱えないにもかかわらず,平均推定にほぼ同一の誤差を与えることがわかった。 また,提案アルゴリズムは,実際に頻繁に使用されるアルゴリズムよりも,平均二乗誤差が2倍に向上することを示した。 私たちの主要な技術的貢献の1つは、新しい時間ガラスメカニズムであり、他のシナリオに独立した関心を持つかもしれません。

Differential privacy is often studied under two different models of neighboring datasets: the add-remove model and the swap model. While the swap model is frequently used in the academic literature to simplify analysis, many practical applications rely on the more conservative add-remove model, where obtaining tight results can be difficult. Here, we study the problem of one-dimensional mean estimation under the add-remove model. We propose a new algorithm and show that it is min-max optimal, achieving the best possible constant in the leading term of the mean squared error for all $\epsilon$, and that this constant is the same as the optimal algorithm under the swap model. These results show that the add-remove and swap models give nearly identical errors for mean estimation, even though the add-remove model cannot treat the size of the dataset as public information. We also demonstrate empirically that our proposed algorithm yields at least a factor of two improvement in mean squared error over algorithms frequently used in practice. One of our main technical contributions is a new hour-glass mechanism, which might be of independent interest in other scenarios.
翻訳日:2024-02-21 20:02:03 公開日:2024-02-19
# 記憶,空間,計画:マルチスケール予測表現

Memory, Space, and Planning: Multiscale Predictive Representations ( http://arxiv.org/abs/2401.09491v2 )

ライセンス: Link先を確認
Ida Momennejad(参考訳) 記憶は本質的に予測と計画に絡み合っている。 生物学的および人工エージェントの柔軟な行動は、過去からの学習と、常に変化する環境における未来を予測することに依存する。 この章は計算、行動、神経の証拠をレビューし、これらのプロセスが認知地図として知られる経験の関連構造を学ぶことに依存していることを示唆する。 まず、これらの記憶構造は、海馬および前頭前皮質(PFC、階層)におけるマルチスケールでコンパクトな予測表現として構成される。 第2に、これらの予測記憶構造は海馬とPFCの相補的機能に欠かせないものであり、詳細かつ一貫性のある過去のエピソードのリコールを可能にするとともに、様々なスケールで経験を一般化し、効率的な予測と計画を行う。 これらの洞察は、脳内の記憶と計画機構の理解を促進し、人工知能システムの進歩に重要な意味を持つ。

Memory is inherently entangled with prediction and planning. Flexible behavior in biological and artificial agents depends on the interplay of learning from the past and predicting the future in ever-changing environments. This chapter reviews computational, behavioral, and neural evidence suggesting these processes rely on learning the relational structure of experiences, known as cognitive maps, and draws two key takeaways. First, that these memory structures are organized as multiscale, compact predictive representations in hippocampal and prefrontal cortex, or PFC, hierarchies. Second, we argue that such predictive memory structures are crucial to the complementary functions of the hippocampus and PFC, both for enabling a recall of detailed and coherent past episodes as well as generalizing experiences at varying scales for efficient prediction and planning. These insights advance our understanding of memory and planning mechanisms in the brain and hold significant implications for advancing artificial intelligence systems.
翻訳日:2024-02-21 19:53:36 公開日:2024-02-19
# EHRAgent: 電子健康記録に基づく複雑な語彙推論のための大規模言語モデル

EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records ( http://arxiv.org/abs/2401.07128v2 )

ライセンス: Link先を確認
Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Jieyu Zhang, Hang Wu, Yuanda Zhu, Joyce Ho, Carl Yang, May D. Wang(参考訳) 大規模言語モデル(LLM)は、自律的なエージェントとしての計画とツール利用において例外的な能力を示したが、医療的問題解決のために開発されたものはほとんどない。 電子健康記録(EHR)内で多言語推論のためのコードを自律的に生成・実行するためのLLMエージェントであるEHRAgentを提案する。 まず、EHR質問応答タスクをツール利用計画プロセスに定式化し、複雑なタスクを管理可能な一連のアクションに効率的に分解する。 インタラクティブなコーディングと実行フィードバックを統合することで、EHRAgentはエラーメッセージから学び、イテレーションを通じて生成されたコードを改善する。 さらに,EHRAgentが過去の経験から最も有効な事例を効果的に選択・構築できるように,長期記憶を組み込むことによりLLMエージェントを強化した。 3つの実世界のマルチタブラルEHRデータセットの実験では、EHRAgentは成功率の29.6%で最強のベースラインを上回っている。 EHRAgentは、LLMの新たな数発の学習機能を活用し、最小限のデモで、自律的なコード生成と実行によって複雑な臨床タスクに取り組むことができる。

Large language models (LLMs) have demonstrated exceptional capabilities in planning and tool utilization as autonomous agents, but few have been developed for medical problem-solving. We propose EHRAgent, an LLM agent empowered with a code interface, to autonomously generate and execute code for multi-tabular reasoning within electronic health records (EHRs). First, we formulate an EHR question-answering task into a tool-use planning process, efficiently decomposing a complicated task into a sequence of manageable actions. By integrating interactive coding and execution feedback, EHRAgent learns from error messages and improves the originally generated code through iterations. Furthermore, we enhance the LLM agent by incorporating long-term memory, which allows EHRAgent to effectively select and build upon the most relevant successful cases from past experiences. Experiments on three real-world multi-tabular EHR datasets show that EHRAgent outperforms the strongest baseline by up to 29.6% in success rate. EHRAgent leverages the emerging few-shot learning capabilities of LLMs, enabling autonomous code generation and execution to tackle complex clinical tasks with minimal demonstrations.
翻訳日:2024-02-21 19:51:41 公開日:2024-02-19
# 不完全協調ゲームにおける楽観バイアスの低減

Reducing Optimism Bias in Incomplete Cooperative Games ( http://arxiv.org/abs/2402.01930v2 )

ライセンス: Link先を確認
Filip \'Uradn\'ik, David Sychrovsk\'y, Jakub \v{C}ern\'y and Martin \v{C}ern\'y(参考訳) 協調ゲーム理論は、解釈可能な機械学習、リソース割り当て、協調的意思決定などを含む、現代の人工知能における多様な応用がある。 しかし、協調ゲームを指定することは、指数関数的に多数の連立に値の割り当てを伴い、単一の値でも得ることは、実際には資源集約的である。 しかし、特定の連立価値を開示されていないままにしておくと、連立に個人が貢献するあいまいさが生じる。 この曖昧さは、しばしばプレイヤーが過度に楽観的な期待を抱き、固有の偏見または戦略的考察から起因し、しばしば実際の大連立価値を超える集団的主張をもたらす。 本稿では,協調ゲームにおける選手の期待と達成可能な成果のギャップを効率的に解消することを目的として,連立価値を明らかにするためのシーケンスを最適化する枠組みを提案する。 私たちの貢献は3倍です (i)コンビネート値の欠落した各プレイヤーの楽観的なコンプリートと、その発生するギャップについて検討し、より効率的な最適化を容易にする分析特性について検討する。 (二)オフライン・オンライン両方の連立の付加価値を開示することにより、既知の事前のゲームクラスにおけるこのギャップを最小化する方法を開発する。 (iii)実用シナリオにおけるアルゴリズムの性能を実証し,連立値を明らかにする典型的な順序について検討した。

Cooperative game theory has diverse applications in contemporary artificial intelligence, including domains like interpretable machine learning, resource allocation, and collaborative decision-making. However, specifying a cooperative game entails assigning values to exponentially many coalitions, and obtaining even a single value can be resource-intensive in practice. Yet simply leaving certain coalition values undisclosed introduces ambiguity regarding individual contributions to the collective grand coalition. This ambiguity often leads to players holding overly optimistic expectations, stemming from either inherent biases or strategic considerations, frequently resulting in collective claims exceeding the actual grand coalition value. In this paper, we present a framework aimed at optimizing the sequence for revealing coalition values, with the overarching goal of efficiently closing the gap between players' expectations and achievable outcomes in cooperative games. Our contributions are threefold: (i) we study the individual players' optimistic completions of games with missing coalition values along with the arising gap, and investigate its analytical characteristics that facilitate more efficient optimization; (ii) we develop methods to minimize this gap over classes of games with a known prior by disclosing values of additional coalitions in both offline and online fashion; and (iii) we empirically demonstrate the algorithms' performance in practical scenarios, together with an investigation into the typical order of revealing coalition values.
翻訳日:2024-02-21 19:41:25 公開日:2024-02-19
# 二次的結果を用いた個別化治療規則の活用

Fusing Individualized Treatment Rules Using Secondary Outcomes ( http://arxiv.org/abs/2402.08828v2 )

ライセンス: Link先を確認
Daiqi Gao, Yuanjia Wang, Donglin Zeng(参考訳) 個別治療規則(英: individualized treatment rule、ITR)は、個々の特徴変数に基づいて患者に対する治療を推奨する決定規則である。 多くの実践において、一次結果に理想的なITRは、他の二次結果に最小限のダメージを与えることが期待されている。 したがって、本研究の目的は、一次結果の値関数を最大化するだけでなく、二次結果の最適ルールを極力近似するITRを学習することである。 この目的を達成するために、異なる結果に基づいてITRを奨励する融合ペナルティを導入し、同様のレコメンデーションを提供する。 代理損失関数を用いてITRを推定する2つのアルゴリズムを提案する。 我々は、一次結果の推定itrと二次結果の最適itrとの一致率が、二次結果が考慮されていない場合よりも早く真の合意率に収束することを証明する。 さらに,提案手法における値関数の非漸近特性と誤分類率を導出する。 最後に、シミュレーション研究と実データ例を用いて、提案手法の有限サンプル性能を実証する。

An individualized treatment rule (ITR) is a decision rule that recommends treatments for patients based on their individual feature variables. In many practices, the ideal ITR for the primary outcome is also expected to cause minimal harm to other secondary outcomes. Therefore, our objective is to learn an ITR that not only maximizes the value function for the primary outcome, but also approximates the optimal rule for the secondary outcomes as closely as possible. To achieve this goal, we introduce a fusion penalty to encourage the ITRs based on different outcomes to yield similar recommendations. Two algorithms are proposed to estimate the ITR using surrogate loss functions. We prove that the agreement rate between the estimated ITR of the primary outcome and the optimal ITRs of the secondary outcomes converges to the true agreement rate faster than if the secondary outcomes are not taken into consideration. Furthermore, we derive the non-asymptotic properties of the value function and misclassification rate for the proposed method. Finally, simulation studies and a real data example are used to demonstrate the finite-sample performance of the proposed method.
翻訳日:2024-02-21 19:16:16 公開日:2024-02-19
# 量子エージェントの情報ゲインと測定障害

Information gain and measurement disturbance for quantum agents ( http://arxiv.org/abs/2402.08060v2 )

ライセンス: Link先を確認
Arthur O. T. Pang, Noah Lupu-Gladstein, Y. Batuhan Yilmaz, Aharon Brodutch, Aephraim M. Steinberg(参考訳) 量子測定の伝統的な形式(以下「TQM」)は、量子状態のいくつかの性質を抽出し、古典的な情報として保存する過程を記述する。 TQMは、人間が量子システムとどのように相互作用するかを自然かつ適切に記述するものであるが、より一般的な量子的エージェントがそれをどのように行うかという質問には沈黙している。 古典的な情報だけでなく、量子状態も記憶する能力を持つ観測者によるシステムの観測を、どのように記述するか。 本稿では,エージェントのメモリが研究中のシステムに関する情報(古典的あるいは量子的)を格納するように,システムと相互作用する量子エージェントのための,より一般的な種類のセンサに測定の考え方を拡張する。 適切な感覚相互作用のために、量子エージェントは、いかなる古典的測定でも可能であろうよりも、系についてより「learn」であるかもしれない。 このようなシステムを実験的に実証し,測定の効果を消去するために必要な情報を考慮してトレードオフを特徴付ける。

The traditional formalism of quantum measurement (hereafter ``TQM'') describes processes where some properties of quantum states are extracted and stored as classical information. While TQM is a natural and appropriate description of how humans interact with quantum systems, it is silent on the question of how a more general, quantum, agent would do so. How do we describe the observation of a system by an observer with the ability to store not only classical information but quantum states in its memory? In this paper, we extend the idea of measurement to a more general class of sensors for quantum agents which interact with a system in such a way that the agent's memory stores information (classical or quantum) about the system under study. For appropriate sensory interactions, the quantum agent may ``learn'' more about the system than would be possible under any set of classical measurements -- but as we show, this comes at the cost of additional measurement disturbance. We experimentally demonstrate such a system and characterize the tradeoffs, which can be done by considering the information required to erase the effects of a measurement.
翻訳日:2024-02-21 19:13:27 公開日:2024-02-19
# 多エージェント協調における個人・集団目標の調整

Aligning Individual and Collective Objectives in Multi-Agent Cooperation ( http://arxiv.org/abs/2402.12416v1 )

ライセンス: Link先を確認
Yang Li, Wenhao Zhang, Jianhong Wang, Shao Zhang, Yali Du, Ying Wen, Wei Pan(参考訳) マルチエージェント学習の分野では、個人と集団の目標の固有の矛盾を考えると、混合モチベーション協調の課題が顕著である。 このドメインにおける現在の研究は、主にドメイン知識を報酬に組み込むか、協力を促進するための追加のメカニズムを導入することに重点を置いている。 しかし、これらの手法の多くは、手動設計コストの欠点と、解に対する理論的基礎収束手順の欠如に悩まされている。 このギャップに対処するために,学習のダイナミクスを研究するための微分可能なゲームとしてモデル化することで,混合モチベーションゲームにアプローチする。 本稿では,個人と集団の目標を新規に調整するために,勾配調整を用いた利他的勾配調整(aga)という新しい最適化手法を提案する。 さらに, agaにおける適切なアライメント重みの選択は, 望ましくない解を効果的に回避しながら, 所望の解への収束を加速できるという理論的証明を与える。 学習ダイナミクスの可視化は、AgAが個人と集団の目標の整合性を効果的に達成していることを示す。 さらに,公益ゲーム,クリーンアップ,ハーベスト,修正された混合モチベーションSMAC環境など,確立された混合モチベーションベンチマークの評価を通じて,利他的かつ公正なコラボレーションを促進するAgAの能力を検証する。

In the field of multi-agent learning, the challenge of mixed-motive cooperation is pronounced, given the inherent contradictions between individual and collective goals. Current research in this domain primarily focuses on incorporating domain knowledge into rewards or introducing additional mechanisms to foster cooperation. However, many of these methods suffer from the drawbacks of manual design costs and the lack of a theoretical grounding convergence procedure to the solution. To address this gap, we approach the mixed-motive game by modeling it as a differentiable game to study learning dynamics. We introduce a novel optimization method named Altruistic Gradient Adjustment (AgA) that employs gradient adjustments to novelly align individual and collective objectives. Furthermore, we provide theoretical proof that the selection of an appropriate alignment weight in AgA can accelerate convergence towards the desired solutions while effectively avoiding the undesired ones. The visualization of learning dynamics effectively demonstrates that AgA successfully achieves alignment between individual and collective objectives. Additionally, through evaluations conducted on established mixed-motive benchmarks such as the public good game, Cleanup, Harvest, and our modified mixed-motive SMAC environment, we validate AgA's capability to facilitate altruistic and fair collaboration.
翻訳日:2024-02-21 19:04:31 公開日:2024-02-19
# DBNets: ほこりだらけの原始惑星円盤の若い惑星の質量を測定するための公開のディープラーニングツール

DBNets: A publicly available deep learning tool to measure the masses of young planets in dusty protoplanetary discs ( http://arxiv.org/abs/2402.12448v1 )

ライセンス: Link先を確認
Alessandro Ruzza, Giuseppe Lodato, Giovanni Pietro Rosotti(参考訳) 原始惑星系円盤観測において、組み込み惑星を特徴づける現在の手法は、観測された複雑な物理を十分に考慮する能力、あるいは計算と時間的コストに大きく制限されている。 この欠点に対処するため,我々は畳み込みニューラルネットワークに基づくディープラーニングツールDBNetsを開発し,原始惑星系円盤の塵の連続放出で観測されたサブ構造を分析し,埋め込まれたとされる惑星の質量を素早く推定する。 我々は、惑星質量だけでなく、モデリングや採用技術によってもたらされる不確実性を確実に定量化する手法の開発に注力した。 実験の結果,同一データに適合する解析式 (DBNets 測定値: lmse 0.016, r2-score 97%) に対して,ログMpの平均2乗誤差を87%削減できる有望な結果を得た。 dbnetsの最終的なユーザに対して、測定値の解釈と重要性の決定に必要なすべてのツールを提供することを目的として、分散データに関する当社のツールを広範囲にテストしました。 その結果、dbnetsは訓練範囲外の入力を特定でき、特定の閾値以上の不確実性を返すことができ、その結果の意義を決定するのに役立つ拒絶基準を提供することができた。 さらに,本ツールの限界を概説した: 約60{\deg}以下のインクリメントで観察されたディスクに対してのみ,光学的に薄い方法では,ギャップ半径位置の8倍の解像度で,信号対雑音比が約10以上で確実に適用できる。 最後に,提案する48個の惑星の質量を測定した33個の原始惑星円盤の実際の観測にDBNetを適用した。 我々は、観測された空隙のほとんどが、サブ・ジュピター・レジームの惑星であることを確認した。 DBNetsはdbnets.fisica.unimi.itで公開されている。

Current methods to characterize embedded planets in protoplanetary disc observations are severely limited either in their ability to fully account for the observed complex physics or in their computational and time costs. To address this shortcoming, we developed DBNets: a deep learning tool, based on convolutional neural networks, that analyses substructures observed in the dust continuum emission of protoplanetary discs to quickly infer the mass of allegedly embedded planets. We focussed on developing a method to reliably quantify not only the planet mass, but also the associated uncertainty introduced by our modelling and adopted techniques. Our tests gave promising results achieving an 87% reduction of the log Mp mean squared error with respect to an analytical formula fitted on the same data (DBNets metrics: lmse 0.016, r2-score 97%). With the goal of providing the final user of DBNets with all the tools needed to interpret their measurements and decide on their significance, we extensively tested our tool on out-of-distribution data. We found that DBNets can identify inputs strongly outside its training scope returning an uncertainty above a specific threshold and we thus provided a rejection criterion that helps determine the significance of the results obtained. Additionally, we outlined some limitations of our tool: it can be reliably applied only on discs observed with inclinations below approximately 60{\deg}, in the optically thin regime, with a resolution 8 times better than the gap radial location and with a signal-to-noise ratio higher than approximately ten. Finally, we applied DBNets to 33 actual observations of protoplanetary discs measuring the mass of 48 proposed planets and comparing our results with the available literature. We confirmed that most of the observed gaps imply planets in the sub-Jupiter regime. DBNets is publicly available at dbnets.fisica.unimi.it.
翻訳日:2024-02-21 18:54:00 公開日:2024-02-19
# 意識的エキゾチックとしてのシミュラクラ

Simulacra as Conscious Exotica ( http://arxiv.org/abs/2402.12422v1 )

ライセンス: Link先を確認
Murray Shanahan(参考訳) 人間的な振る舞いが増す会話エージェントの出現は、古い哲学的な疑問を新たな光に投げつける。 人間の行動の「単なる」シミュラクラであると同時に、それらが行うことは「単なる」ロールプレイと見ることができることを考えると、意識の観点から生成言語モデルから構築されたAIエージェントについて話すことは理にかなっているだろうか? ウィトゲンシュタインの後の著作に基づき、この論文は双対的思考の落とし穴を避けながらこの問題に取り組む。

The advent of conversational agents with increasingly human-like behaviour throws old philosophical questions into new light. Does it, or could it, ever make sense to speak of AI agents built out of generative language models in terms of consciousness, given that they are "mere" simulacra of human behaviour, and that what they do can be seen as "merely" role play? Drawing on the later writings of Wittgenstein, this paper attempts to tackle this question while avoiding the pitfalls of dualistic thinking.
翻訳日:2024-02-21 18:53:27 公開日:2024-02-19
# EBFT:Sparse LLMにおける有効かつブロックワイズファインチューニング

EBFT: Effective and Block-Wise Fine-Tuning for Sparse LLMs ( http://arxiv.org/abs/2402.12419v1 )

ライセンス: Link先を確認
Song Guo, Fan Wu, Lei Zhang, Xiawu Zheng, Shengchuan Zhang, Fei Chao, Yiyu Shi, Rongrong Ji(参考訳) スパースLLMを微調整する既存の方法は、しばしば資源集約的な要求と高い再訓練コストに悩まされる。 さらに、多くの微調整手法は近似やヒューリスティック最適化戦略に頼り、最適化の準最適解に繋がることがある。 これらの問題に対処するために,再構成誤差の最小化に基づくスパースLLMの微調整のための効率的かつ高速なフレームワークを提案する。 提案手法では,キャリブレーションのための小さなデータセットをサンプリングし,ブロック単位の復元誤差をブロック単位で反復的に最適化し,最適解を目指す。 様々なベンチマークに関する広範囲な実験により、他のベースラインよりも優れた方法が実証された。 例えば、LlamaV1-7Bを70%間隔でWikitext2データセット上で、提案したEBFTは16.88のパープレキシティを実現し、最先端のDSnoTを75.14のパープレキシティで上回っている。 さらに、構成された間隔比26\%で、EBFTは16.27のパープレキシティを達成し、LoRA(パープレキシティ16.44)を上回っている。 さらに、LlamaV1-7B用のEBFTの微調整プロセスは、約30分しかかからず、フレームワーク全体が単一の16GB GPU上で実行できる。 ソースコードはhttps://github.com/sunggo/EBFT.comで入手できる。

Existing methods for fine-tuning sparse LLMs often suffer from resource-intensive requirements and high retraining costs. Additionally, many fine-tuning methods often rely on approximations or heuristic optimization strategies, which may lead to suboptimal solutions. To address these issues, we propose an efficient and fast framework for fine-tuning sparse LLMs based on minimizing reconstruction error. Our approach involves sampling a small dataset for calibration and utilizing backpropagation to iteratively optimize block-wise reconstruction error, on a block-by-block basis, aiming for optimal solutions. Extensive experiments on various benchmarks consistently demonstrate the superiority of our method over other baselines. For instance, on the Wikitext2 dataset with LlamaV1-7B at 70% sparsity, our proposed EBFT achieves a perplexity of 16.88, surpassing the state-of-the-art DSnoT with a perplexity of 75.14. Moreover, with a structured sparsity ratio of 26\%, EBFT achieves a perplexity of 16.27, outperforming LoRA (perplexity 16.44). Furthermore, the fine-tuning process of EBFT for LlamaV1-7B only takes approximately 30 minutes, and the entire framework can be executed on a single 16GB GPU. The source code is available at https://github.com/sunggo/EBFT.
翻訳日:2024-02-21 18:53:18 公開日:2024-02-19
# 一様スケーリングを超えて:ニューラルネットワークアーキテクチャにおける深さの多様性を探求する

Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural Architectures ( http://arxiv.org/abs/2402.12418v1 )

ライセンス: Link先を確認
Akash Guna R.T, Arnav Chavan, Deepak Gupta(参考訳) 従来のニューラルネットワークのスケーリングでは、基本ネットワークの設計と、事前定義されたスケーリング要因によって同じ幅や深さなどの異なる次元の成長が一般的である。 本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。 我々の手法は、現代の視覚変換器のメインステイをスキップするために柔軟である。 本手法は, 追加の訓練をすることなく, 変圧器をスケール・トレインする。 全てのニューロンが一様深さの複雑さを必要とするわけではないという仮説によって、我々のアプローチは深度の不均一性を受け入れる。 ImageNet100によるDeiT-Sの大規模な評価では、従来のスケーリングよりも精度が2.5%向上し、パラメータ効率が10%向上した。 スケールドネットワークは、スクラッチから小さなデータセットをトレーニングすることで、優れたパフォーマンスを示す。 本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。

Conventional scaling of neural networks typically involves designing a base network and growing different dimensions like width, depth, etc. of the same by some predefined scaling factors. We introduce an automated scaling approach leveraging second-order loss landscape information. Our method is flexible towards skip connections a mainstay in modern vision transformers. Our training-aware method jointly scales and trains transformers without additional training iterations. Motivated by the hypothesis that not all neurons need uniform depth complexity, our approach embraces depth heterogeneity. Extensive evaluations on DeiT-S with ImageNet100 show a 2.5% accuracy gain and 10% parameter efficiency improvement over conventional scaling. Scaled networks demonstrate superior performance upon training small scale datasets from scratch. We introduce the first intact scaling mechanism for vision transformers, a step towards efficient model scaling.
翻訳日:2024-02-21 18:52:42 公開日:2024-02-19
# トラック運転手によるトラック事故の予測:企業間での環境認識-トランスファーラーニングアプローチ

Predicting trucking accidents with truck drivers 'safety climate perception across companies: A transfer learning approach ( http://arxiv.org/abs/2402.12417v1 )

ライセンス: Link先を確認
Kailai Sun, Tianxiang Lan, Say Hong Kam, Yang Miang Goh, and Yueng-Hsiang Huang(参考訳) トラック業界の事故を予測するために人工知能(ai)による安全分析の利用への関心が高まっている。 しかし企業は、優れた安全分析モデルを開発するのに十分なデータを持っていないという現実的な課題に直面している。 事前訓練されたモデルはそのような企業にソリューションを提供するかもしれないが、トランスファーラーニングを用いた既存の安全研究は主に事故解析ではなく、コンピュータビジョンと自然言語処理に焦点を当てている。 上記のギャップを埋めるため,我々は,事故リスクのより正確な予測のために,他の企業のデータを活用したaiモデルの開発を支援するための,事前学習型tuneトランスファー学習手法を提案する。 事故予測に適した分類タスクのためのディープニューラルネットワークアルゴリズムであるSafeNetも開発した。 異なるデータサイズを持つ7つのトラック会社による安全気候調査データを用いて,提案手法により,対象企業のデータのみを用いてモデルをゼロからトレーニングするよりも,モデル性能が向上することを示す。 また,トランスファー学習モデルが効果的であるためには,多種多様なソースからのデータセットを用いて事前学習モデルを開発する必要があることを示した。 したがって、トラック業界は、幅広い企業の安全分析データをプールして、事前訓練されたモデルを開発し、より良い知識とリソース転送のために業界内で共有することを検討するかもしれない。 上記の貢献は、業界をより安全かつ持続可能なものにするための高度な安全分析の約束を示している。

There is a rising interest in using artificial intelligence (AI)-powered safety analytics to predict accidents in the trucking industry. Companies may face the practical challenge, however, of not having enough data to develop good safety analytics models. Although pretrained models may offer a solution for such companies, existing safety research using transfer learning has mostly focused on computer vision and natural language processing, rather than accident analytics. To fill the above gap, we propose a pretrain-then-fine-tune transfer learning approach to help any company leverage other companies' data to develop AI models for a more accurate prediction of accident risk. We also develop SafeNet, a deep neural network algorithm for classification tasks suitable for accident prediction. Using the safety climate survey data from seven trucking companies with different data sizes, we show that our proposed approach results in better model performance compared to training the model from scratch using only the target company's data. We also show that for the transfer learning model to be effective, the pretrained model should be developed with larger datasets from diverse sources. The trucking industry may, thus, consider pooling safety analytics data from a wide range of companies to develop pretrained models and share them within the industry for better knowledge and resource transfer. The above contributions point to the promise of advanced safety analytics to make the industry safer and more sustainable.
翻訳日:2024-02-21 18:52:29 公開日:2024-02-19
# 自動車群による高速道路の衝突リスク形成と伝播解析

Vehicle-group-based Crash Risk Formation and Propagation Analysis for Expressways ( http://arxiv.org/abs/2402.12415v1 )

ライセンス: Link先を確認
Tianheng Zhu, Ling Wang, Yiheng Feng, Wanjing Ma and Mohamed Abdel-Aty(参考訳) 衝突リスクの予測に関する以前の研究は、主に交通パラメータやセグメントの幾何学的特徴を持つ道路区間の衝突数や可能性に関係しており、通常、車両の連続移動や周辺車両との相互作用の影響を無視している。 通信技術の進歩は、周囲の車両から収集された運転情報を強化し、グループベースの事故リスクの研究を可能にした。 本研究は,高分解能車両軌道データに基づいて,車両群を分析対象とし,車両群と道路セグメントの特徴を考慮したリスク形成と伝播機構を考察した。 衝突リスクに寄与するいくつかの重要な要因は、過去のリスクの高い車両群状態、複雑な車両の挙動、大型車両の割合、車両群内の頻繁な車線変更、特定の道路ジオメトリなどであった。 車両群内の高リスク発生傾向に基づいて分類した空間的リスク伝播パターンを解析するために, 多項ロジスティック回帰モデルを開発した。 その結果,高リスク状態の長期化,車両群サイズの増加,頻繁な車線変更はリスク伝播パターンと関係していることが示唆された。 逆に、よりスムーズなトラフィックフローと高い初期衝突リスク値は、リスク散逸と関連している。 さらに, 分類器の種類, 予測時間間隔, 適応ttcしきい値の感度解析を行った。 車両群リスク予測の最高 auc 値は 0.93 を上回った。 この発見は、研究者や実践者に、車両群安全性の理解と予測に関する貴重な洞察を与え、最終的にコネクテッド・アンド・オートマチック・ビークルズのアクティブな交通安全管理と運用を改善した。

Previous studies in predicting crash risk primarily associated the number or likelihood of crashes on a road segment with traffic parameters or geometric characteristics of the segment, usually neglecting the impact of vehicles' continuous movement and interactions with nearby vehicles. Advancements in communication technologies have empowered driving information collected from surrounding vehicles, enabling the study of group-based crash risks. Based on high-resolution vehicle trajectory data, this research focused on vehicle groups as the subject of analysis and explored risk formation and propagation mechanisms considering features of vehicle groups and road segments. Several key factors contributing to crash risks were identified, including past high-risk vehicle-group states, complex vehicle behaviors, high percentage of large vehicles, frequent lane changes within a vehicle group, and specific road geometries. A multinomial logistic regression model was developed to analyze the spatial risk propagation patterns, which were classified based on the trend of high-risk occurrences within vehicle groups. The results indicated that extended periods of high-risk states, increase in vehicle-group size, and frequent lane changes are associated with adverse risk propagation patterns. Conversely, smoother traffic flow and high initial crash risk values are linked to risk dissipation. Furthermore, the study conducted sensitivity analysis on different types of classifiers, prediction time intervalsss and adaptive TTC thresholds. The highest AUC value for vehicle-group risk prediction surpassed 0.93. The findings provide valuable insights to researchers and practitioners in understanding and prediction of vehicle-group safety, ultimately improving active traffic safety management and operations of Connected and Autonomous Vehicles.
翻訳日:2024-02-21 18:52:05 公開日:2024-02-19
# 生成aiによって駆動されるダイナミックで超パーソナライズされたメディアエコシステム:予測不能なプレイは決して繰り返しない

Dynamic and Super-Personalized Media Ecosystem Driven by Generative AI: Unpredictable Plays Never Repeating The Same ( http://arxiv.org/abs/2402.12412v1 )

ライセンス: Link先を確認
Sungjun Ahn, Hyun-Jeong Yim, Youngwan Lee, and Sung-Ik Park(参考訳) 本稿では,ai(artificial intelligence)ビデオジェネレータを受信端で活用するメディアサービスモデルを提案する。 この提案は、コンテンツ生成の一部をレシーバにシフトすることで、社内生産に完全に依存する従来のマルチメディアエコシステムから逸脱する。 このフレームワークにはセマンティックなプロセスが組み込まれており、完全なプログラムのエンコードされたデータを配布するのではなく、配信ネットワークがコンテンツ生成を促すサービス要素を提供することができます。 サービス要素は、微調整されたテキスト記述、いくつかのオブジェクトの軽量画像データ、あるいはセマンティックソースと呼ばれるアプリケーションプログラミングインターフェースを含み、ユーザ端末は、受信したセマンティックデータをビデオフレームに変換する。 生成AIのランダムな性質を生かして、ユーザーはそれに応じてスーパーパーソナライズされたサービスを体験できる。 提案したアイデアは、ユーザが異なるサービスプロバイダの要素パッケージ、時間の経過とともにパッケージのシーケンス、あるいは複数のパッケージを同時に受信する状況を含む。 コンテクスト内コヒーレンスとコンテントの整合性が約束されているため、コンビネータのダイナミクスはサービスの多様性を増幅し、ユーザが常に新しい体験を得られるようにする。 この作業は特にショートフォームのビデオや広告をターゲットとしており、ユーザーは同じフレームシーケンスを毎回見ることで疲れを感じやすい。 これらのユースケースでは、コンテンツプロバイダの役割はスクリプティングセマンティクスソースとして再キャストされ、完全なプロデューサから変換される。 本研究は,レシーバ埋め込み生成モデルにより促進されるメディアエコシステムの新たな形態を探求し,ランダムなコンテンツのダイナミクスとデリバリ効率の向上を両立させた。

This paper introduces a media service model that exploits artificial intelligence (AI) video generators at the receive end. This proposal deviates from the traditional multimedia ecosystem, completely relying on in-house production, by shifting part of the content creation onto the receiver. We bring a semantic process into the framework, allowing the distribution network to provide service elements that prompt the content generator, rather than distributing encoded data of fully finished programs. The service elements include fine-tailored text descriptions, lightweight image data of some objects, or application programming interfaces, comprehensively referred to as semantic sources, and the user terminal translates the received semantic data into video frames. Empowered by the random nature of generative AI, the users could then experience super-personalized services accordingly. The proposed idea incorporates the situations in which the user receives different service providers' element packages; a sequence of packages over time, or multiple packages at the same time. Given promised in-context coherence and content integrity, the combinatory dynamics will amplify the service diversity, allowing the users to always chance upon new experiences. This work particularly aims at short-form videos and advertisements, which the users would easily feel fatigued by seeing the same frame sequence every time. In those use cases, the content provider's role will be recast as scripting semantic sources, transformed from a thorough producer. Overall, this work explores a new form of media ecosystem facilitated by receiver-embedded generative models, featuring both random content dynamics and enhanced delivery efficiency simultaneously.
翻訳日:2024-02-21 18:51:38 公開日:2024-02-19
# 異種情報ネットワークにおけるノード重要度推定のための深層構造知識活用とシナジー

Deep Structural Knowledge Exploitation and Synergy for Estimating Node Importance Value on Heterogeneous Information Networks ( http://arxiv.org/abs/2402.12411v1 )

ライセンス: Link先を確認
Yankai Chen, Yixiang Fang, Qiongyan Wang, Xin Cao, Irwin King(参考訳) ノード重要度推定問題は従来,同種ネットワークトポロジー解析を用いて研究されてきた。 ネットワークの不均一性に対処するため、最近のいくつかの手法では、様々な情報ソースを自動的に学習するグラフニューラルモデルを採用している。 しかしながら、その完全な適応学習プロセスが情報探索の不足につながる可能性があり、その結果、問題を低パフォーマンスで解釈可能性の少ない孤立ノード値予測として定式化することが大きな関心事となっている。 本研究では,新しい学習フレームワークであるSKESを提案する。 従来の自動学習設計とは異なり、SKESはノード表現の情報性を高めるために異種構造知識を利用する。 十分に非形式的な参照に基づいて、SKESはその参照に対する差を定量化することで、任意の入力ノードの重要値を推定する。 これにより、解釈可能なノードの重要性計算パラダイムが確立される。 さらに、SKESは「類似した特徴を持つノードは、同様の重要性を持つ傾向がある」という理解を深く掘り下げる一方で、任意の異なるノード間の情報格差が、関連する潜在特徴の埋め込み距離によって秩序的に反映されることを保証する。 広く評価された3つのベンチマークに対する大規模な実験は、最近の競合するいくつかの手法よりもSKESの性能上の優位性を示している。

Node importance estimation problem has been studied conventionally with homogeneous network topology analysis. To deal with network heterogeneity, a few recent methods employ graph neural models to automatically learn diverse sources of information. However, the major concern revolves around that their full adaptive learning process may lead to insufficient information exploration, thereby formulating the problem as the isolated node value prediction with underperformance and less interpretability. In this work, we propose a novel learning framework: SKES. Different from previous automatic learning designs, SKES exploits heterogeneous structural knowledge to enrich the informativeness of node representations. Based on a sufficiently uninformative reference, SKES estimates the importance value for any input node, by quantifying its disparity against the reference. This establishes an interpretable node importance computation paradigm. Furthermore, SKES dives deep into the understanding that "nodes with similar characteristics are prone to have similar importance values" whilst guaranteeing that such informativeness disparity between any different nodes is orderly reflected by the embedding distance of their associated latent features. Extensive experiments on three widely-evaluated benchmarks demonstrate the performance superiority of SKES over several recent competing methods.
翻訳日:2024-02-21 18:51:06 公開日:2024-02-19
# PARCv2:時空間ダイナミクスモデリングのための物理対応リカレント畳み込みニューラルネットワーク

PARCv2: Physics-aware Recurrent Convolutional Neural Networks for Spatiotemporal Dynamics Modeling ( http://arxiv.org/abs/2402.12503v1 )

ライセンス: Link先を確認
Phong C.H. Nguyen, Xinlun Cheng, Shahab Arfaza, Pradeep Seshadri, Yen T. Nguyen, Munho Kim, Sanghun Choi, H.S. Udaykumar, Stephen Baek(参考訳) 非定常, 高速な過渡的, 対流に支配される物理問題をモデル化することは, 物理認識深層学習(PADL)の課題である。 複素系の物理学は、偏微分方程式(PDE)と非線型構造を持つ補助構成モデルの大きなシステムと、鋭い勾配と急速に変形する材料界面を示す進化状態場によって制御される。 本稿では,汎用非線形場発展問題のモデル化に汎用的かつ汎用的な帰納的バイアスアプローチについて検討する。 本研究は、一般物理系の時空間力学を誘導的にモデル化する微分器積分器アーキテクチャを組み込んだ最近の物理認識再帰畳み込み(PARC)に焦点を当てる。 PARCの能力を拡張して、非定常、過渡、および対流支配のシステムをシミュレートする。 拡張モデルは PARCv2 と呼ばれ、拡散-反応-拡散方程式をモデル化する微分作用素と、安定な長期予測のためのハイブリッド積分解法を備える。 parcv2は、流体力学における標準的なベンチマーク問題、すなわちバーガーとナビエ・ストークス方程式の両方でテストされ、エネルギー材料におけるより複雑な衝撃誘起反応問題に適用される。 本稿では,parcv2の挙動を他の物理形および学習バイアスモデルと比較し,非定常および随伴支配的ダイナミクスレジームをモデル化する可能性を示す。

Modeling unsteady, fast transient, and advection-dominated physics problems is a pressing challenge for physics-aware deep learning (PADL). The physics of complex systems is governed by large systems of partial differential equations (PDEs) and ancillary constitutive models with nonlinear structures, as well as evolving state fields exhibiting sharp gradients and rapidly deforming material interfaces. Here, we investigate an inductive bias approach that is versatile and generalizable to model generic nonlinear field evolution problems. Our study focuses on the recent physics-aware recurrent convolutions (PARC), which incorporates a differentiator-integrator architecture that inductively models the spatiotemporal dynamics of generic physical systems. We extend the capabilities of PARC to simulate unsteady, transient, and advection-dominant systems. The extended model, referred to as PARCv2, is equipped with differential operators to model advection-reaction-diffusion equations, as well as a hybrid integral solver for stable, long-time predictions. PARCv2 is tested on both standard benchmark problems in fluid dynamics, namely Burgers and Navier-Stokes equations, and then applied to more complex shock-induced reaction problems in energetic materials. We evaluate the behavior of PARCv2 in comparison to other physics-informed and learning bias models and demonstrate its potential to model unsteady and advection-dominant dynamics regimes.
翻訳日:2024-02-21 18:39:43 公開日:2024-02-19
# 偏微分方程式の様々な領域とパラメータに対する微分同相ニューラルネットワーク

Diffeomorphism Neural Operator for various domains and parameters of partial differential equations ( http://arxiv.org/abs/2402.12475v1 )

ライセンス: Link先を確認
Zhiwei Zhao, Changqing Liu, Yingguang Li, Zhibin Chen, Xu Liu(参考訳) 多くの科学技術応用では、資源集約的な数値解法を用いて伝統的に計算される偏微分方程式(PDE)の評価が要求される。 ニューラル演算子モデルは、異なるパラメータを持つpdesクラス内のデータから直接物理法則を学習することで、効率的な代替手段を提供するが、固定境界(ドメイン)で制約される。 設計や製造など多くの応用は、大規模に研究する場合、柔軟なドメインを持つニューラル演算子の恩恵を受けるだろう。 ここでは、様々な複雑なドメインを持つ物理系のドメインフレキシブルモデルを開発するための微分型ニューラル演算子学習フレームワークを提案する。 具体的には、異なる領域(空間)における学習関数マッピングの問題から、共有双相ドメイン上の学習演算子の問題へと変換する、微分同相法による様々な領域からマッピングされた共有領域で訓練されたニューラルネットワークを提案する。 一方、異なる領域における微分同相ニューラル作用素の一般化をドメイン微分同相類似性により評価する指標が提供される。 静的なシナリオ(ダーク・フロー、力学)と動的シナリオ(パイプ・フロー、エアフォイル・フロー)の実験は、高調波と体積のパラメータ化を2次元および3次元領域の微分同相として用いる、様々な領域のニューラル・オペレーター・ラーニングに対するアプローチの利点を示しています。 我々の微分型ニューラルオペレーターアプローチは、様々な領域やパラメータにわたる強力な学習能力と堅牢な一般化を可能にする。

Many science and engineering applications demand partial differential equations (PDE) evaluations that are traditionally computed with resource-intensive numerical solvers. Neural operator models provide an efficient alternative by learning the governing physical laws directly from data in a class of PDEs with different parameters, but constrained in a fixed boundary (domain). Many applications, such as design and manufacturing, would benefit from neural operators with flexible domains when studied at scale. Here we present a diffeomorphism neural operator learning framework towards developing domain-flexible models for physical systems with various and complex domains. Specifically, a neural operator trained in a shared domain mapped from various domains of fields by diffeomorphism is proposed, which transformed the problem of learning function mappings in varying domains (spaces) into the problem of learning operators on a shared diffeomorphic domain. Meanwhile, an index is provided to evaluate the generalization of diffeomorphism neural operators in different domains by the domain diffeomorphism similarity. Experiments on statics scenarios (Darcy flow, mechanics) and dynamic scenarios (pipe flow, airfoil flow) demonstrate the advantages of our approach for neural operator learning under various domains, where harmonic and volume parameterization are used as the diffeomorphism for 2D and 3D domains. Our diffeomorphism neural operator approach enables strong learning capability and robust generalization across varying domains and parameters.
翻訳日:2024-02-21 18:39:18 公開日:2024-02-19
# 連続的自己組織化マップを用いたニューロミメティックタスクフリー教師なしオンライン学習

Neuro-mimetic Task-free Unsupervised Online Learning with Continual Self-Organizing Maps ( http://arxiv.org/abs/2402.12465v1 )

ライセンス: Link先を確認
Hitesh Vaidya, Travis Desell, Ankur Mali, Alexander Ororbia(参考訳) 連続学習が可能な知的システムは、潜在的に無限に長いパターンベクトルの流れから知識を処理し抽出することができる。 人工知能ニューラルネットワーク(ANN)に基づくエージェントのようなエージェントは、新しいサンプルから学ぶ際に獲得した知識を維持するのに苦労している。 さらに,タスク境界情報に入力が補足されない場合には,従来のタスクに対する知識の保存が困難になる。 ANNの文脈を忘れることは広く研究されているが、クラスタリングや次元減少によく使用される神経モデルであるSOM(en:Venerable Self-organizing Map)のような教師なしアーキテクチャの観点で調べる作業は、まだはるかに少ない。 SOMの内部メカニズムは、原則として、メモリ保持を改善するスパース表現を生成できるが、固定サイズのSOMが連続データストリームを処理すると、コンセプトドリフトが発生する。 そこで我々は,低メモリ予算下でのオンライン教師なし学習が可能なSOM(Continuous SOM, CSOM)の一般化を提案する。 MNIST, Kuzushiji-MNIST, Fashion-MNIST などのベンチマークでは精度がほぼ2倍向上し, CIFAR-10 では教師なしクラスインクリメンタル・ラーニング・セッティングでテストした結果が得られた。

An intelligent system capable of continual learning is one that can process and extract knowledge from potentially infinitely long streams of pattern vectors. The major challenge that makes crafting such a system difficult is known as catastrophic forgetting - an agent, such as one based on artificial neural networks (ANNs), struggles to retain previously acquired knowledge when learning from new samples. Furthermore, ensuring that knowledge is preserved for previous tasks becomes more challenging when input is not supplemented with task boundary information. Although forgetting in the context of ANNs has been studied extensively, there still exists far less work investigating it in terms of unsupervised architectures such as the venerable self-organizing map (SOM), a neural model often used in clustering and dimensionality reduction. While the internal mechanisms of SOMs could, in principle, yield sparse representations that improve memory retention, we observe that, when a fixed-size SOM processes continuous data streams, it experiences concept drift. In light of this, we propose a generalization of the SOM, the continual SOM (CSOM), which is capable of online unsupervised learning under a low memory budget. Our results, on benchmarks including MNIST, Kuzushiji-MNIST, and Fashion-MNIST, show almost a two times increase in accuracy, and CIFAR-10 demonstrates a state-of-the-art result when tested on (online) unsupervised class incremental learning setting.
翻訳日:2024-02-21 18:38:52 公開日:2024-02-19
# 一次元ナノ構造における量子相転移:dft法とdmrg法の比較

Quantum phase transitions in one-dimensional nanostructures: a comparison between DFT and DMRG methodologies ( http://arxiv.org/abs/2402.12463v1 )

ライセンス: Link先を確認
T. Pauletti, M. Sanino, L. Gimenes, I. M. Carvalho and V. V. Fran\c{c}a(参考訳) 量子化学の領域では、ナノ構造の電子構造と性質の正確な予測は依然として難しい課題である。 密度汎関数理論 (DFT) と密度行列再正規化群 (DMRG) は、様々な分子系における電子相関効果に対処する2つの強力な計算手法として登場した。 我々は、金属、絶縁体、金属から絶縁体への遷移における基底状態エネルギー(e_0$)、密度プロファイル(n$)および平均エンタングルメントエントロピー(\bar S$)を、フェミオン一次元ハバードモデルによって記述された等質、超格子および調和に制限された鎖で比較した。 均質系では、偏差の間に明確な階層があり、$d\%(\bar s)<d\%(e_0)< \bar d\%(n)$ であり、全ての偏差は鎖の大きさとともに減少する。 超格子の場合、一般に単位セル内の不純物数が増加すると、DFT計算の精度は低下する。 閉じ込められた鎖では、DFTは金属相、最も高い偏差はモット相とバンド絶縁体相に現れる。 この研究はこれらの方法論の包括的比較分析を提供し、それぞれの強み、限界、応用に光を当てている。

In the realm of quantum chemistry, the accurate prediction of electronic structure and properties of nanostructures remains a formidable challenge. Density Functional Theory (DFT) and Density Matrix Renormalization Group (DMRG) have emerged as two powerful computational methods for addressing electronic correlation effects in diverse molecular systems. We compare ground-state energies ($e_0$), density profiles ($n$) and average entanglement entropies ($\bar S$) in metals, insulators and at the transition from metal to insulator, in homogeneous, superlattices and harmonically confined chains described by the fermionic one-dimensional Hubbard model. While for the homogeneous systems there is a clear hierarchy between the deviations, $D\%(\bar S)<D\%(e_0)< \bar D\%(n)$, and all the deviations decrease with the chain size; for superlattices and harmonical confinement the relation among the deviations is less trivial and strongly dependent on the superlattice structure and the confinement strength considered. For the superlattices, in general increasing the number of impurities in the unit cell represents less precision on the DFT calculations. For the confined chains, DFT performs better for metallic phases, while the highest deviations appear for the Mott and band-insulator phases. This work provides a comprehensive comparative analysis of these methodologies, shedding light on their respective strengths, limitations, and applications.
翻訳日:2024-02-21 18:38:25 公開日:2024-02-19
# マルチモーダル大規模言語モデルの(r)進化:調査

The (R)Evolution of Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2402.12451v1 )

ライセンス: Link先を確認
Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara(参考訳) テキストと視覚的モダリティの接続は、生成的知性において重要な役割を果たす。 このため、大規模言語モデルの成功に触発されて、多モーダル大規模言語モデル(MLLM)の開発に多大な研究努力が注がれている。 これらのモデルは、対話ベースのインタフェースと命令追従機能を提供しながら、入力と出力の両方として視覚的およびテキスト的モダリティをシームレスに統合することができる。 本稿では,近年の視覚的MLLMの総合的なレビューを行い,そのアーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について分析する。 また、視覚の接地、画像の生成と編集、視覚的理解、ドメイン固有のアプリケーションなど、さまざまなタスクにわたって、これらのモデルの詳細な分析も行います。 さらに,学習データセットと評価ベンチマークをコンパイル・記述し,性能と計算要件の観点から既存モデルの比較を行う。 本調査は総合的に,今後のMLLMの基盤となる技術の現状を概観するものである。

Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are being devoted to the development of Multimodal Large Language Models (MLLMs). These models can seamlessly integrate visual and textual modalities, both as input and output, while providing a dialogue-based interface and instruction-following capabilities. In this paper, we provide a comprehensive review of recent visual-based MLLMs, analyzing their architectural choices, multimodal alignment strategies, and training techniques. We also conduct a detailed analysis of these models across a wide range of tasks, including visual grounding, image generation and editing, visual understanding, and domain-specific applications. Additionally, we compile and describe training datasets and evaluation benchmarks, conducting comparisons among existing models in terms of performance and computational requirements. Overall, this survey offers a comprehensive overview of the current state of the art, laying the groundwork for future MLLMs.
翻訳日:2024-02-21 18:37:57 公開日:2024-02-19
# スーパールミナル因果関係に制約された理論における情報処理とスーパールミナルシグナリング

Information-processing in theories constrained by no superluminal causation vs no superluminal signalling ( http://arxiv.org/abs/2402.12446v1 )

ライセンス: Link先を確認
V. Vilasini and Roger Colbeck(参考訳) 相対論的因果原理は時空における情報処理の可能性を制限する。 スーパールミナル因果(英語版)(nsc)もスーパールミナルシグナリング(英語版)(nss)も、関連するものの異なる2つの原則である。 本研究では,2つの時空構成において非古典的相関を生成するタスクを考慮し,これらの原理の帰結を考察する。 NSC に制約された理論を考えると、第一のタスクは古典理論では不可能であり、第二のタスクは任意の(古典的でない)理論では不可能であることを示す。 しかし、弱いnss原理によって制限された理論において、非古典的相関を両方の構成で生成できるプロトコルを構築する。 そのため、ジャミングと呼ばれる効果を許容する理論を利用する。 我々の実現において、古典的資源を共有し、ジャミングを補助する非コミュニケーションエージェントはPRボックス相関を生成することができる。 このプロトコルを使用することで、NASに違反しないNSCの違反は検証可能である。 非古典的相関の生成速度に対するこれらの研究結果の影響について論じる。 本研究は,nsc,nss,その他の相対論的因果原理に制約された理論の情報処理能力の差異について考察する。

Relativistic causality principles constrain information processing possibilities in space-time. No superluminal causation (NSC) and no superluminal signaling (NSS) are two such principles which, although related, are distinct. In this work we study the consequence of these principles by considering the tasks of generating non-classical correlations within two space-time configurations. Considering theories constrained by NSC, we show that the first task is impossible in any classical theory and the second is impossible in any (possibly non-classical) theory. However, we construct a protocol enabling non-classical correlations to be generated in both configurations in a theory restricted by the weaker NSS principle. To do so we exploit theories that allow an effect called jamming. In our realisation, non-communicating agents sharing classical resources and assisted by jamming, can generate PR-box correlations. Using this protocol the violation of NSC without violating NSS would be verifiable. We discuss the implications of these findings for the speed of generation of non-classical correlations. Our work offers insights into the differences in information processing power of theories constrained by NSC, NSS and other relativistic causality principles.
翻訳日:2024-02-21 18:37:41 公開日:2024-02-19
# 一般化レート演算子量子ジャンプと実現依存変換

Generalized Rate Operator Quantum Jumps via Realization-Dependent Transformations ( http://arxiv.org/abs/2402.12445v1 )

ライセンス: Link先を確認
Federico Settimo, Kimmo Luoma, Dariusz Chru\'sci\'nski, Bassano Vacchini, Andrea Smirne and Jyrki Piilo(参考訳) 開量子系の力学はしばしば、状態ベクトル実現の平均が密度行列の進化を再現する確率的解法によって解かれる。 我々はレート演算子形式に基づく量子ジャンプ記述に焦点を当てる。 マスター方程式の異なる等価な記述方法の表示と活用に加えて、確率的純粋状態実現の枠組みの中で状態依存率演算子変換を導入し、これまで開発された形式主義の拡張と一般化を可能にする。 これにより、確率的実現の制御性が向上し、オープンシステムのダイナミクスを解く最適なシミュレーションスキームを探索するときに大きな利点が得られる。 基本的なレベルでは、興味深いことに、いくつかの例では、対応する力学写像がp-可視性の性質を破っても、逆量子ジャンプや補助次数の自由度の使用を避けることなく、正のアンラヴェルリングを持つことが可能であることを示している。

The dynamics of open quantum systems is often solved by stochastic unravellings where the average over the state vector realizations reproduces the density matrix evolution. We focus on quantum jump descriptions based on the rate operator formalism. In addition to displaying and exploiting different equivalent ways of writing the master equation, we introduce state-dependent rate operator transformations within the framework of stochastic pure state realizations, allowing us to extend and generalize the previously developed formalism. As a consequence, this improves the controllability of the stochastic realizations and subsequently greatly benefits when searching for optimal simulation schemes to solve open system dynamics. At a fundamental level, intriguingly, our results show that it is possible to have positive unravellings -- without reverse quantum jumps and avoiding the use of auxiliary degrees freedom -- in a number of example cases even when the corresponding dynamical map breaks the property of P-divisibility, thus being in the strongly non-Markovian regime.
翻訳日:2024-02-21 18:37:24 公開日:2024-02-19
# 第一級制約の緩和とゲージ理論の量子化--「物質を持たない物質」から量子重力における時間の再出現まで

Relaxation of first-class constraints and the quantization of gauge theories: from "matter without matter" to the reappearance of time in quantum gravity ( http://arxiv.org/abs/2402.12437v1 )

ライセンス: Link先を確認
Roberto Casadio, Leonardo Chataignier, Alexander Yu. Kamenshchik, Francisco G. Pedro, Alessandro Tronconi, Giovanni Venturi(参考訳) 標準ゲージ理論における初期値問題に対する特定のアプローチの概念的概要を述べる。 第一級位相空間の制約が、新しい自由度値の修正と解釈すれば緩和される可能性があることを強調する。 このアイデアはフォックとシュテッケルベルクに遡り、理論のゲージ対称性の制限をもたらし、ある場合には自然の定数を物理場へ促進する。 近年、この定式化の異なるバージョンは、いくつかの独立したイテレーション、特に重力、宇宙論、電磁気学の古典的および量子的記述において大きな注目を集めている。 特に正準量子重力の場合、フォック-シュテッケルベルクのアプローチは、いわゆる時間の問題に関係している。 我々の概観は、フォックとシュタッケルベルクの仕事とその物理的解釈を思い出させ、文学に現れるアイデアの異なる反復を概念的に統一し、さらなる研究を動機付けることを目的としている。

We make a conceptual overview of a particular approach to the initial-value problem in canonical gauge theories. We stress how the first-class phase-space constraints may be relaxed if we interpret them as fixing the values of new degrees of freedom. This idea goes back to Fock and Stueckelberg, leading to restrictions of the gauge symmetry of a theory, and it corresponds, in certain cases, to promoting constants of Nature to physical fields. Recently, different versions of this formulation have gained considerable attention in the literature, with several independent iterations, particularly in classical and quantum descriptions of gravity, cosmology, and electromagnetism. In particular, in the case of canonical quantum gravity, the Fock--Stueckelberg approach is relevant to the so-called problem of time. Our overview recalls the work of Fock and Stueckelberg and its physical interpretation with the aim of conceptually unifying the different iterations of the idea that appear in the literature and of motivating further research.
翻訳日:2024-02-21 18:37:06 公開日:2024-02-19
# ニューラル演算子を用いた星間媒体化学のエミュレーション

Emulating the interstellar medium chemistry with neural operators ( http://arxiv.org/abs/2402.12435v1 )

ライセンス: Link先を確認
Lorenzo Branca and Andrea Pallottini(参考訳) 銀河の形成と進化は、恒星間媒質(ISM)の進化と熱力学を管理する複雑な光化学過程を理解することに依存する。 計算学的には、化学の解法は宇宙論と天体物理学のシミュレーションにおいて最も重いタスクの一つである。 このような非平衡光化学ネットワークの進化は、暗黙的、精密、計算コストのかかる常微分方程式(ode)解法に依存する。 本稿では,ニューラル演算子に基づく高速で訓練済みのエミュレータを用いた手続き型解決器の置換を目指す。 我々は、初期条件と時間発展を2つのニューラルネットワークのテンソル積にマッピングするodeソルバ演算子を分割することにより、ディープネット形式を採用することにより、h$_2$生成(9種52反応)までの非平衡化学ネットワークをエミュレートする。 2\leq \log(n/\mathrm{cm}^{-3}) \leq 3.5$, $\log(20) \leq\log(t/\mathrm{k}) \leq 5.5$, $-6 \leq \log(n_i/n) < 0$,というトレーニングセットを生成し、インシデント放射フィールド$\textbf{f}$を10個のエネルギービンで連続的にサンプリングすることで、それに対応する。 分離して$T$と$n_i$を$\simeq 4.34\,\rm GPUhrs$でトレーニングします。 単一ゾーンモデルに対して$\textt{krome}$で得られた参照解と比較すると、典型的な精度は 10^{-2}$、すなわち、固定された$\mathbf{f}$である以前のエミュレータに比べて40 \times$少ないトレーニングで10 \times$が良い。 本モデルでは,厳密なODEソルバに対して,128 \times$の係数を高速化する。 我々の神経エミュレータは、ISM化学のモデリングにおいて大きな進歩を示し、精度、汎用性、計算効率の優れたバランスを提供する。

Galaxy formation and evolution critically depend on understanding the complex photo-chemical processes that govern the evolution and thermodynamics of the InterStellar Medium (ISM). Computationally, solving chemistry is among the most heavy tasks in cosmological and astrophysical simulations. The evolution of such non-equilibrium photo-chemical network relies on implicit, precise, computationally costly, ordinary differential equations (ODE) solvers. Here, we aim at substituting such procedural solvers with fast, pre-trained, emulators based on neural operators. We emulate a non-equilibrium chemical network up to H$_2$ formation (9 species, 52 reactions) by adopting the DeepONet formalism, i.e. by splitting the ODE solver operator that maps the initial conditions and time evolution into a tensor product of two neural networks. We use $\texttt{KROME}$ to generate a training set spanning $-2\leq \log(n/\mathrm{cm}^{-3}) \leq 3.5$, $\log(20) \leq\log(T/\mathrm{K}) \leq 5.5$, $-6 \leq \log(n_i/n) < 0$, and by adopting an incident radiation field $\textbf{F}$ sampled in 10 energy bins with a continuity prior. We separately train the solver for $T$ and each $n_i$ for $\simeq 4.34\,\rm GPUhrs$. Compared with the reference solutions obtained by $\texttt{KROME}$ for single zone models, the typical precision obtained is of order $10^{-2}$, i.e. the $10 \times$ better with a training that is $40 \times$ less costly with respect to previous emulators which however considered only a fixed $\mathbf{F}$. The present model achieves a speed-up of a factor of $128 \times$ with respect to stiff ODE solvers. Our neural emulator represents a significant leap forward in the modeling of ISM chemistry, offering a good balance of precision, versatility, and computational efficiency.
翻訳日:2024-02-21 18:36:48 公開日:2024-02-19
# 資源推定を利用した量子コンピューティングアプリケーションの開発

Utilizing Resource Estimation for the Development of Quantum Computing Applications ( http://arxiv.org/abs/2402.12434v1 )

ライセンス: Link先を確認
Nils Quetschlich, Mathias Soeken, Prakash Murali, Robert Wille(参考訳) 近年、量子コンピューティングはソフトウェアとハードウェアの両方で大きく進歩している。 しかし、古典的に効率的に解決できない問題を解決するために量子コンピュータのパワーを解放するには、スケールでの量子コンピューティングが必要である。 残念なことに、量子シミュレータはその指数関数的な複雑さに悩まされており、同時に現在利用可能な量子コンピューティングハードウェアはかなり制限されている(たとえロードマップが興味深い約束をしているとしても)。 したがって、量子コンピューティングアプリケーションを評価するために、エンドユーザはおもちゃサイズの問題インスタンスに制限されることが多い(エラー訂正も考慮に入れない)。 これにより、現実世界の量子コンピューティングアプリケーションの開発と評価が著しく妨げられる。 本研究では,この状況を改善するために資源推定を利用する方法を示す。 We show how the current workflow (relying on simulation and/or execution) can be complemented with an estimation step, allowing that end-users (1) actually can consider real-world problem instances already today (also considering error correction schemes and correspondingly required hardware resources), (2) can start exploring possible optimizations of those instances across the entire design space, and (3) can incorporate hypotheses of hardware development trends to derive more informed and, thus, better design space parameters. これによってエンドユーザーは、たとえそれを実行するハードウェアがまだ利用できないとしても、将来の量子コンピューティングアプリケーションの可能性を確認することができる。

Quantum computing has made considerable progress in recent years in both software and hardware. But to unlock the power of quantum computers in solving problems that cannot be efficiently solved classically, quantum computing at scale is necessary. Unfortunately, quantum simulators suffer from their exponential complexity and, at the same time, the currently available quantum computing hardware is still rather limited (even if roadmaps make intriguing promises). Hence, in order to evaluate quantum computing applications, end-users are still frequently restricted to toy-size problem instances (which additionally often do not take error correction into account). This substantially hinders the development and assessment of real-world quantum computing applications. In this work, we demonstrate how to utilize Resource Estimation to improve this situation. We show how the current workflow (relying on simulation and/or execution) can be complemented with an estimation step, allowing that end-users (1) actually can consider real-world problem instances already today (also considering error correction schemes and correspondingly required hardware resources), (2) can start exploring possible optimizations of those instances across the entire design space, and (3) can incorporate hypotheses of hardware development trends to derive more informed and, thus, better design space parameters. Overall, this enables end-users already today to check out the promises of possible future quantum computing applications, even if the corresponding hardware to execute them is not available yet.
翻訳日:2024-02-21 18:35:59 公開日:2024-02-19
# 科学的発見報告における微細歪みの理解

Understanding Fine-grained Distortions in Reports of Scientific Findings ( http://arxiv.org/abs/2402.12431v1 )

ライセンス: Link先を確認
Amelie W\"uhrl, Dustin Wright, Roman Klinger, Isabelle Augenstein(参考訳) 歪んだ科学コミュニケーションは、不健康な行動変化を引き起こし、科学機関への信頼を低下させる可能性があるため、個人や社会を傷つける。 近年の科学コミュニケーションの急速な増加を考えると、科学出版物の調査結果が一般大衆に報告されているかの詳細な理解や、オリジナル作品からの歪みを自動的に検出する手法が重要である。 以前の作業では、歪みの個々の側面に注目したり、非ペアデータを扱う。 本研究は,(1)学術論文から得られた1,600件の科学的知見を,ニュース記事やつぶやきのwrtで報告された結果と組み合わせて注釈する,という3つの基礎的貢献を行っている。 因果関係, 確実性, 一般性, センセーショナリズムの4つの特徴, 2) それらの特徴を自動的に検出するためのベースラインを確立すること, (3) 注釈付きおよび大規模未ラベルデータにおけるこれらの特徴の変化の頻度を分析すること。 以上の結果から,科学的発見は報告時に微妙な歪みをしばしば受けることがわかった。 ツイートは科学ニュースよりも頻繁に発見を歪めている。 きめ細かい歪みを検出することは、自動的に困難な作業を引き起こす。 実験では、微調整されたタスク固有モデルが、数発のLLMプロンプトより一貫して優れていた。

Distorted science communication harms individuals and society as it can lead to unhealthy behavior change and decrease trust in scientific institutions. Given the rapidly increasing volume of science communication in recent years, a fine-grained understanding of how findings from scientific publications are reported to the general public, and methods to detect distortions from the original work automatically, are crucial. Prior work focused on individual aspects of distortions or worked with unpaired data. In this work, we make three foundational contributions towards addressing this problem: (1) annotating 1,600 instances of scientific findings from academic papers paired with corresponding findings as reported in news articles and tweets wrt. four characteristics: causality, certainty, generality and sensationalism; (2) establishing baselines for automatically detecting these characteristics; and (3) analyzing the prevalence of changes in these characteristics in both human-annotated and large-scale unlabeled data. Our results show that scientific findings frequently undergo subtle distortions when reported. Tweets distort findings more often than science news reports. Detecting fine-grained distortions automatically poses a challenging task. In our experiments, fine-tuned task-specific models consistently outperform few-shot LLM prompting.
翻訳日:2024-02-21 18:35:40 公開日:2024-02-19
# グラフニューラルネットワークにおけるノード属性の攻撃

Attacks on Node Attributes in Graph Neural Networks ( http://arxiv.org/abs/2402.12426v1 )

ライセンス: Link先を確認
Ying Xu, Michael Lanier, Anindya Sarkar, Yevgeniy Vorobeychik(参考訳) グラフは、現代のソーシャルメディアやリテラシーアプリケーションで広く使われている複雑なネットワークをモデル化するのによく使われる。 本研究は,これらのグラフの脆弱性を,特徴に基づく敵攻撃の適用を通じて調査し,決定時間攻撃と中毒攻撃の両方に着目した。 ノード属性とグラフ構造を対象とするNet AttackやMeta Attackのような最先端モデルとは対照的に,本研究では特にノード属性を対象としています。 分析では,テキストデータセットのHellaswagとグラフデータセットのCoraとCiteSeerを使用し,さまざまな評価基盤を提供しました。 本研究は,平均ノード埋め込みとグラフコントラスト学習戦略を用いた中毒攻撃と比較して,pgdを用いた意思決定時間攻撃の方が強いことを示唆する。 これはグラフデータセキュリティに対する洞察を与え、グラフベースのモデルが最も脆弱な場所をピンポイントすることで、そのような攻撃に対する強力な防御メカニズムの開発を通知する。

Graphs are commonly used to model complex networks prevalent in modern social media and literacy applications. Our research investigates the vulnerability of these graphs through the application of feature based adversarial attacks, focusing on both decision-time attacks and poisoning attacks. In contrast to state-of-the-art models like Net Attack and Meta Attack, which target node attributes and graph structure, our study specifically targets node attributes. For our analysis, we utilized the text dataset Hellaswag and graph datasets Cora and CiteSeer, providing a diverse basis for evaluation. Our findings indicate that decision-time attacks using Projected Gradient Descent (PGD) are more potent compared to poisoning attacks that employ Mean Node Embeddings and Graph Contrastive Learning strategies. This provides insights for graph data security, pinpointing where graph-based models are most vulnerable and thereby informing the development of stronger defense mechanisms against such attacks.
翻訳日:2024-02-21 18:35:21 公開日:2024-02-19
# 表は画像? 表データのマルチモーダル表現におけるllmの強みと限界の検討

Tables as Images? Exploring the Strengths and Limitations of LLMs on Multimodal Representations of Tabular Data ( http://arxiv.org/abs/2402.12424v1 )

ライセンス: Link先を確認
Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea(参考訳) 本稿では,様々なプロンプト戦略とデータ形式を通して表データ解釈における様々なllmの有効性について検討する。 分析は質問応答やファクトチェックなどのテーブル関連タスクの6つのベンチマークにまたがる。 画像に基づく表表現におけるLLMの性能評価を初めて紹介する。 具体的には,5つのテキストベースと3つの画像ベーステーブル表現を比較し,LLM性能に対する表現とプロンプトの影響を示す。 本研究は、テーブル関連タスクにおけるLLMの有効利用に関する知見を提供する。

In this paper, we investigate the effectiveness of various LLMs in interpreting tabular data through different prompting strategies and data formats. Our analysis extends across six benchmarks for table-related tasks such as question-answering and fact-checking. We introduce for the first time the assessment of LLMs' performance on image-based table representations. Specifically, we compare five text-based and three image-based table representations, demonstrating the influence of representation and prompting on LLM performance. Our study provides insights into the effective use of LLMs on table-related tasks.
翻訳日:2024-02-21 18:35:02 公開日:2024-02-19
# 拡散に基づくテキスト音声モデルのセマンティック潜在空間について

On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models ( http://arxiv.org/abs/2402.12423v1 )

ライセンス: Link先を確認
Miri Varshavsky Hassid, Roy Hirsch, Regev Cohen, Tomer Golany, Daniel Freedman, Ehud Rivlin(参考訳) テキスト音声(TTS)領域におけるDDM(Denoising Diffusion Models)の導入が増加し,高品質な音声の合成に大きく貢献している。 印象的な音質を示すが、その意味的能力の程度は不明であり、合成音声の音声特性の制御は依然として課題である。 画像合成の最近の進歩に触発されて、DDMのデノイザの潜在ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間を探索する。 この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方でその空間内の意味的方向を見つけるためのいくつかの新しい方法を概説する。 次に、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集を可能にする方法をデモします。 編集されたオーディオの意味的および音響的性質の証拠を示し、補足的なサンプルを提供する。

The incorporation of Denoising Diffusion Models (DDMs) in the Text-to-Speech (TTS) domain is rising, providing great value in synthesizing high quality speech. Although they exhibit impressive audio quality, the extent of their semantic capabilities is unknown, and controlling their synthesized speech's vocal properties remains a challenge. Inspired by recent advances in image synthesis, we explore the latent space of frozen TTS models, which is composed of the latent bottleneck activations of the DDM's denoiser. We identify that this space contains rich semantic information, and outline several novel methods for finding semantic directions within it, both supervised and unsupervised. We then demonstrate how these enable off-the-shelf audio editing, without any further training, architectural changes or data requirements. We present evidence of the semantic and acoustic qualities of the edited audio, and provide supplemental samples: https://latent-analysis-grad-tts.github.io/speech-samples/.
翻訳日:2024-02-21 18:34:54 公開日:2024-02-19
# 局所性センシティブハッシュ方式高エネルギー物理応用による高効率点変換器

Locality-Sensitive Hashing-Based Efficient Point Transformer with Applications in High-Energy Physics ( http://arxiv.org/abs/2402.12535v1 )

ライセンス: Link先を確認
Siqi Miao, Zhiyuan Lu, Mia Liu, Javier Duarte, Pan Li(参考訳) 本研究では,高エネルギー物理(HEP)や天体物理学などの科学領域における大規模クラウド処理に最適化された新しい変圧器モデルを提案する。 グラフニューラルネットワークと標準トランスフォーマーの限界に対処し,局所帰納的バイアスを統合し,ハードウェアフレンドリーな正規操作でニアリニアな複雑性を実現する。 この研究の1つの貢献は、効率的な変圧器を構築するための様々なスパーシフィケーション技術の誤差・複雑さトレードオフの定量的解析である。 局所性に敏感なハッシュ(LSH),特にOR \& AND-construction LSHは,局所誘導バイアスを伴う大規模クラウドデータに対するカーネル近似の優位性を示す。 そこで本研究では,E$^2$LSH と OR \& AND 構造を組み合わせた LSH ベースの効率的な点変換器 (\textbf{HEPT}) を提案する。 HEPTは2つの重要な時間を要するHEPタスクにおいて顕著な性能を示し、既存のGNNやトランスフォーマーを精度と計算速度で大幅に上回っており、幾何学的深層学習と大規模科学データ処理の大きな進歩を示している。 私たちのコードは \url{https://github.com/Graph-COM/HEPT} で利用可能です。

This study introduces a novel transformer model optimized for large-scale point cloud processing in scientific domains such as high-energy physics (HEP) and astrophysics. Addressing the limitations of graph neural networks and standard transformers, our model integrates local inductive bias and achieves near-linear complexity with hardware-friendly regular operations. One contribution of this work is the quantitative analysis of the error-complexity tradeoff of various sparsification techniques for building efficient transformers. Our findings highlight the superiority of using locality-sensitive hashing (LSH), especially OR \& AND-construction LSH, in kernel approximation for large-scale point cloud data with local inductive bias. Based on this finding, we propose LSH-based Efficient Point Transformer (\textbf{HEPT}), which combines E$^2$LSH with OR \& AND constructions and is built upon regular computations. HEPT demonstrates remarkable performance in two critical yet time-consuming HEP tasks, significantly outperforming existing GNNs and transformers in accuracy and computational speed, marking a significant advancement in geometric deep learning and large-scale scientific data processing. Our code is available at \url{https://github.com/Graph-COM/HEPT}.
翻訳日:2024-02-21 18:27:23 公開日:2024-02-19
# 遺伝的プログラミングによる機能クラス学習 : 腫瘍成長機能のための説明可能なメタラーニングに向けて

Function Class Learning with Genetic Programming: Towards Explainable Meta Learning for Tumor Growth Functionals ( http://arxiv.org/abs/2402.12510v1 )

ライセンス: Link先を確認
E.M.C. Sijben, J.C. Jansen, P.A.N. Bosman, T. Alderliesten(参考訳) 副ガングリオーマは稀で、主に成長が遅い腫瘍で、その発生パターンは分かっていない。 したがって、患者の最善のケアを決定することは難しい。 現在,腫瘍の進展が観察されていない場合,治療自体がリスクを伴わないため治療が遅れることが多い。 しかし,腫瘍増殖による(不可逆的な)副作用のリスクは増加する可能性がある。 成長を正確に予測できることは、患者が生涯に治療を必要とするかどうか、もしそうであれば、この治療のタイミングを決定するのに役立つ。 本研究の目的は、複数の腫瘍成長データセットからパラガングリオーマの一般的な成長パターンを学習することであり、各データセットは時間とともに腫瘍の体積を含む。 そこで我々は,遺伝子プログラミングに基づく新しい手法を提案し,各腫瘍に適応可能なパラメータ化関数のクラスを学習する。 単一の実行で複数の潜在的に退屈な関数クラスを見つけるために、ユニークな、マルチモーダル、マルチオブジェクトの方法でそうします。 合成および実世界のデータセットに対する我々のアプローチを評価する。 得られた関数クラスを分析することで、データの一般的なパターンを効果的に説明できる。

Paragangliomas are rare, primarily slow-growing tumors for which the underlying growth pattern is unknown. Therefore, determining the best care for a patient is hard. Currently, if no significant tumor growth is observed, treatment is often delayed, as treatment itself is not without risk. However, by doing so, the risk of (irreversible) adverse effects due to tumor growth may increase. Being able to predict the growth accurately could assist in determining whether a patient will need treatment during their lifetime and, if so, the timing of this treatment. The aim of this work is to learn the general underlying growth pattern of paragangliomas from multiple tumor growth data sets, in which each data set contains a tumor's volume over time. To do so, we propose a novel approach based on genetic programming to learn a function class, i.e., a parameterized function that can be fit anew for each tumor. We do so in a unique, multi-modal, multi-objective fashion to find multiple potentially in- teresting function classes in a single run. We evaluate our approach on a synthetic and a real-world data set. By analyzing the resulting function classes, we can effectively explain the general patterns in the data.
翻訳日:2024-02-21 18:27:00 公開日:2024-02-19
# ミニマックス最適化のためのSDE

SDEs for Minimax Optimization ( http://arxiv.org/abs/2402.12508v1 )

ライセンス: Link先を確認
Enea Monzio Compagnoni, Antonio Orvieto, Hans Kersting, Frank Norbert Proske, Aurelien Lucchi(参考訳) 最小限の最適化問題は、経済学から機械学習まで、ここ数年で多くの注目を集めている。 このような問題に対して高度な最適化手法が存在するが、確率的シナリオにおけるそのダイナミクスの特徴付けは特に難しい。 本稿では,ミニマックスオプティマイザを解析・比較するために確率微分方程式(sdes)を用いた。 確率的勾配勾配勾配勾配勾配, 確率的ハミルトン勾配勾配, および確率的ハミルトン勾配のSDEモデルは, そのアルゴリズムの近似として, ハイパーパラメータ間の相互作用, 暗黙的な正規化, 暗黙的な曲率誘発雑音を明らかに示す。 この観点はまた、it\^o計算の原理に基づく統一的かつ単純化された分析戦略を可能にする。 最後に, 提案手法は, 簡易な設定における動的条件の収束条件と閉形式解の導出を容易にし, 異なるオプティマイザの挙動に関するさらなる知見を明らかにする。

Minimax optimization problems have attracted a lot of attention over the past few years, with applications ranging from economics to machine learning. While advanced optimization methods exist for such problems, characterizing their dynamics in stochastic scenarios remains notably challenging. In this paper, we pioneer the use of stochastic differential equations (SDEs) to analyze and compare Minimax optimizers. Our SDE models for Stochastic Gradient Descent-Ascent, Stochastic Extragradient, and Stochastic Hamiltonian Gradient Descent are provable approximations of their algorithmic counterparts, clearly showcasing the interplay between hyperparameters, implicit regularization, and implicit curvature-induced noise. This perspective also allows for a unified and simplified analysis strategy based on the principles of It\^o calculus. Finally, our approach facilitates the derivation of convergence conditions and closed-form solutions for the dynamics in simplified settings, unveiling further insights into the behavior of different optimizers.
翻訳日:2024-02-21 18:26:43 公開日:2024-02-19
# データセットの配置: 公的なデータを住宅司法に有効にする

Situating Data Sets: Making Public Data Actionable for Housing Justice ( http://arxiv.org/abs/2402.12505v1 )

ライセンス: Link先を確認
Anh-Ton Tran, Grace Guo, Jordan Taylor, Katsuki Chan, Elora Raymond, Carl DiSalvo(参考訳) 活動家、政府、学者は定期的によりオープンなデータを提唱している。 しかし、どのようにしてデータがオープンになり、誰が役に立つのか? 本稿では,テナントオーガナイザに対して,エミッションデータを開放する作業について検討し,述べる。 我々は、地元住宅活動家団体との継続的な作業のエスノグラフィー記述を通じてこれを実施している。 この研究は、観察、データワークへの直接の参加、メディアアーティファクト、特にデジタルマップの作成を組み合わせる。 我々の解釈はディグナツィオとクラインのデータフェミニズムに基礎を置き、立場理論を強調している。 分析と議論を通じて,データ仲介者からデータ提供者への位置シフトが,データセットとマップの設計にどのように影響するかを強調する。 HCIの研究者は、草の根のオーガナイザにデータを置く際に、3つの設計上の意味を持つ: ドメイン初心者になり、データアクティビリティを追求し、技術的有効性だけでなく、彼らの持つ社会的関係によってデザインアーティファクトを評価する。

Activists, governmentsm and academics regularly advocate for more open data. But how is data made open, and for whom is it made useful and usable? In this paper, we investigate and describe the work of making eviction data open to tenant organizers. We do this through an ethnographic description of ongoing work with a local housing activist organization. This work combines observation, direct participation in data work, and creating media artifacts, specifically digital maps. Our interpretation is grounded in D'Ignazio and Klein's Data Feminism, emphasizing standpoint theory. Through our analysis and discussion, we highlight how shifting positionalities from data intermediaries to data accomplices affects the design of data sets and maps. We provide HCI scholars with three design implications when situating data for grassroots organizers: becoming a domain beginner, striving for data actionability, and evaluating our design artifacts by the social relations they sustain rather than just their technical efficacy.
翻訳日:2024-02-21 18:26:26 公開日:2024-02-19
# ビジョン言語モデルそのものは強力なフィルターだ。データ選択による高品質な命令チューニングへ

Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection ( http://arxiv.org/abs/2402.12501v1 )

ライセンス: Link先を確認
Ruibo Chen, Yihan Wu, Lichang Chen, Guodong Liu, Qi He, Tianyi Xiong, Chenxi Liu, Junfeng Guo, Heng Huang(参考訳) インストラクションチューニングにおけるデータ選択は、高品質なデータを取得し、命令追従型大規模言語モデル(LLM)を訓練するための重要なプロセスとして浮上するが、まだ視覚言語モデル(VLM)の新しい研究領域である。 LLM上の既存のデータ選択アプローチは、単一の信頼できないスコアに依存するか、選択のために下流タスクを使用するかのいずれかである。 そこで本研究では,vlm自体をフィルタとして利用する新しいデータセット選択手法であるセルフフィルタを提案する。 このアプローチは、VLMが最も難しい指示でトレーニングの恩恵を受けるという観察にインスパイアされている。 セルフフィルターは2段階ある。 第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。 第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。 LLaVAとMiniGPT-4の総合的な実験により、Self-Filterは約15%のサンプルで完全なデータ設定よりも優れた結果が得られることが示され、競合するベースラインに対して優れたパフォーマンスが得られる。

Data selection in instruction tuning emerges as a pivotal process for acquiring high-quality data and training instruction-following large language models (LLMs), but it is still a new and unexplored research area for vision-language models (VLMs). Existing data selection approaches on LLMs either rely on single unreliable scores, or use downstream tasks for selection, which is time-consuming and can lead to potential over-fitting on the chosen evaluation datasets. To address this challenge, we introduce a novel dataset selection method, Self-Filter, that utilizes the VLM itself as a filter. This approach is inspired by the observation that VLMs benefit from training with the most challenging instructions. Self-Filter operates in two stages. In the first stage, we devise a scoring network to evaluate the difficulty of training instructions, which is co-trained with the VLM. In the second stage, we use the trained score net to measure the difficulty of each instruction, select the most challenging samples, and penalize similar samples to encourage diversity. Comprehensive experiments on LLaVA and MiniGPT-4 show that Self-Filter can reach better results compared to full data settings with merely about 15% samples, and can achieve superior performance against competitive baselines.
翻訳日:2024-02-21 18:26:10 公開日:2024-02-19
# knnと基盤モデルの統合による適応性とプライバシ対応画像分類

Integrating kNN with Foundation Models for Adaptable and Privacy-Aware Image Classification ( http://arxiv.org/abs/2402.12500v1 )

ライセンス: Link先を確認
Sebastian Doerrich, Tobias Archut, Francesco Di Salvo, Christian Ledig(参考訳) 従来のディープラーニングモデルは、透明性とデータ変更への適応能力を制限する知識を暗黙的にエンコードする。 しかし、この適応性はユーザーのプライバシー問題に対処するために不可欠である。 我々は、モデル重みとは独立に、基礎となるトレーニングデータの埋め込みを格納し、リトレーニングせずに動的データ修正を可能にすることで、この制限に対処する。 具体的には、k$-Nearest Neighbor(k$-NN)分類器を視覚ベースの基礎モデルに統合し、自然画像に基づいて事前学習を行い、解釈性と適応性を向上する。 我々は、未発表のベースラインメソッドのオープンソース実装と、パフォーマンス改善のコントリビューションを共有します。 定量的実験により、確立されたベンチマークデータセット間の分類の改善と、異なる医用画像分類タスクへの適用性が確認された。 さらに,連続学習とデータ除去シナリオにおける手法の堅牢性を評価する。 このアプローチは、ファンデーションモデルのパフォーマンスとデータプライバシに関連する課題の間のギャップを埋める、という大きな約束を示す。 ソースコードはhttps://github.com/TobArc/privacy-aware-image-classification-with-kNNで公開されている。

Traditional deep learning models implicity encode knowledge limiting their transparency and ability to adapt to data changes. Yet, this adaptability is vital for addressing user data privacy concerns. We address this limitation by storing embeddings of the underlying training data independently of the model weights, enabling dynamic data modifications without retraining. Specifically, our approach integrates the $k$-Nearest Neighbor ($k$-NN) classifier with a vision-based foundation model, pre-trained self-supervised on natural images, enhancing interpretability and adaptability. We share open-source implementations of a previously unpublished baseline method as well as our performance-improving contributions. Quantitative experiments confirm improved classification across established benchmark datasets and the method's applicability to distinct medical image classification tasks. Additionally, we assess the method's robustness in continual learning and data removal scenarios. The approach exhibits great promise for bridging the gap between foundation models' performance and challenges tied to data privacy. The source code is available at https://github.com/TobArc/privacy-aware-image-classification-with-kNN.
翻訳日:2024-02-21 18:25:45 公開日:2024-02-19
# Adaptive Conjecturesを用いたオンライン学習によるセキュリティ応答の自動生成

Automated Security Response through Online Learning with Adaptive Conjectures ( http://arxiv.org/abs/2402.12499v1 )

ライセンス: Link先を確認
Kim Hammar, Tao Li, Rolf Stadler, Quanyan Zhu(参考訳) 筆者らは,ITインフラの自動セキュリティ対応について検討し,攻撃者と守備者のインタラクションを部分的に観察された非静止ゲームとして定式化する。 ゲームモデルが正しく指定されているという標準的な仮定を緩和し、各プレイヤーがモデルに関する確率的予想を持っていることを考慮し、真のモデルが確率 0 を持つという意味では誤特定されるかもしれない。 この定式化によって,プレーヤのインフラストラクチャや意図に関する不確実性が把握できます。 効果的なゲーム戦略をオンラインで学ぶために,ベイズ学習を用いてプレイヤーが反復的にその予想に適応し,ロールアウトによって戦略を更新する新しい手法を考案する。 我々は、予想が最適に収束することを証明し、ロールアウトが予想モデルで実現する性能改善の限界を提供する。 ゲームの定常状態を特徴付けるために,バーク・ナッシュ均衡の変種を提案する。 本手法は先進的な持続的脅威ユースケースを通じて提案する。 テストベッド測定に基づくシミュレーション研究により, 環境変化に対応する効果的なセキュリティ戦略が得られた。 また,本手法は現在の強化学習手法よりも高速な収束を可能にする。

We study automated security response for an IT infrastructure and formulate the interaction between an attacker and a defender as a partially observed, non-stationary game. We relax the standard assumption that the game model is correctly specified and consider that each player has a probabilistic conjecture about the model, which may be misspecified in the sense that the true model has probability 0. This formulation allows us to capture uncertainty about the infrastructure and the intents of the players. To learn effective game strategies online, we design a novel method where a player iteratively adapts its conjecture using Bayesian learning and updates its strategy through rollout. We prove that the conjectures converge to best fits, and we provide a bound on the performance improvement that rollout enables with a conjectured model. To characterize the steady state of the game, we propose a variant of the Berk-Nash equilibrium. We present our method through an advanced persistent threat use case. Simulation studies based on testbed measurements show that our method produces effective security strategies that adapt to a changing environment. We also find that our method enables faster convergence than current reinforcement learning techniques.
翻訳日:2024-02-21 18:25:27 公開日:2024-02-19
# ビジュアルナビゲーションのためのフェイダルネットワーク

Feudal Networks for Visual Navigation ( http://arxiv.org/abs/2402.12498v1 )

ライセンス: Link先を確認
Faith Johnson, Bryan Bo Cao, Kristin Dana, Shubham Jain, Ashwin Ashok(参考訳) 視覚ナビゲーションは、人間が詳細な地図なしでナビゲートできる直感に従う。 一般的なアプローチはインタラクティブな探索であり、計画に使用できるノードの画像を備えたトポロジカルグラフを構築している。 最近のバリエーションは受動的ビデオから学び、複雑な社会的および意味的な手がかりを使ってナビゲートできる。 しかし、かなりの数のトレーニングビデオが必要であり、大きなグラフが使われ、オドメトリが利用されるため、シーンは見当たらない。 本稿では,労働者エージェント,中間レベルマネージャ,ハイレベルマネージャからなる階層構造を用いた封建学習による視覚ナビゲーションの新たなアプローチを提案する。 封建的学習パラダイムの鍵 それぞれのレベルのエージェントはタスクの異なる側面を見て、異なる空間的および時間的スケールで動作します。 このフレームワークでは2つのユニークなモジュールが開発されている。 高レベルのマネージャでは、自己教師付きでメモリプロキシマップを学習し、学習された潜伏空間における事前観測を記録し、グラフやオードメトリの使用を避ける。 中間レベルマネージャのために,局所ナビゲーション中に人間のウェイポイント選択を模倣した中間サブゴールを出力するウェイポイントネットワークを開発した。 このウェイポイントネットワークは、テスト環境とは異なるトレーニング環境で、私たちが公開している、新しい小さな遠隔操作ビデオを使って事前トレーニングされています。 得られた封建的ナビゲーションネットワークは、画像目標ナビゲーションタスクに対して、新規なno-RL、no-graph、no-odometry、no-metric mapアプローチを提供しながら、SOTAの性能に近い。

Visual navigation follows the intuition that humans can navigate without detailed maps. A common approach is interactive exploration while building a topological graph with images at nodes that can be used for planning. Recent variations learn from passive videos and can navigate using complex social and semantic cues. However, a significant number of training videos are needed, large graphs are utilized, and scenes are not unseen since odometry is utilized. We introduce a new approach to visual navigation using feudal learning, which employs a hierarchical structure consisting of a worker agent, a mid-level manager, and a high-level manager. Key to the feudal learning paradigm, agents at each level see a different aspect of the task and operate at different spatial and temporal scales. Two unique modules are developed in this framework. For the high- level manager, we learn a memory proxy map in a self supervised manner to record prior observations in a learned latent space and avoid the use of graphs and odometry. For the mid-level manager, we develop a waypoint network that outputs intermediate subgoals imitating human waypoint selection during local navigation. This waypoint network is pre-trained using a new, small set of teleoperation videos that we make publicly available, with training environments different from testing environments. The resulting feudal navigation network achieves near SOTA performance, while providing a novel no-RL, no-graph, no-odometry, no-metric map approach to the image goal navigation task.
翻訳日:2024-02-21 18:25:09 公開日:2024-02-19
# クロスドメイン連続学習に向けて

Towards Cross-Domain Continual Learning ( http://arxiv.org/abs/2402.12490v1 )

ライセンス: Link先を確認
Marcus de Carvalho, Mahardhika Pratama, Jie Zhang, Chua Haoyan, Edward Yapp(参考訳) 継続的学習は、学習エージェントが過去のデータを再考することなく、タスクやクラスのストリームを順次マスターするように訓練するプロセスである。 この課題は、これまで獲得した知識を活用して新しいタスクを効率的に学習することにある。 既存のメソッドは主に単一のドメインにフォーカスし、特定の問題に適用性を制限する。 本研究では,単一教師付きドメインに制限される制限に対処する,クロスドメイン連続学習(CDCL)という新しい手法を提案する。 提案手法は,コンパクトな畳み込みネットワーク内でのタスク間およびタスク内クロスアテンション機構を組み合わせたものである。 この統合により、モデルが以前のタスクの機能との整合を維持することができ、関連するドメイン間で教師なしのクロスドメイン(uda)を実行しながら、タスク間で発生するデータドリフトを遅らせることができる。 タスク内固有の擬似ラベル法を利用することで、ラベル付きサンプルとラベルなしサンプルの両方の正確な入力ペアを確保し、学習プロセスを強化する。 このアプローチを検証するために、パブリックなudaデータセットに関する広範な実験を行い、ドメイン間連続学習の課題に対するポジティブなパフォーマンスを示しました。 さらに、この分野の発展に寄与するインクリメンタルなアイデアも導入しています。 結果のさらなる探索と再現を促進するために、コードとモデルを利用可能にしています。

Continual learning is a process that involves training learning agents to sequentially master a stream of tasks or classes without revisiting past data. The challenge lies in leveraging previously acquired knowledge to learn new tasks efficiently, while avoiding catastrophic forgetting. Existing methods primarily focus on single domains, restricting their applicability to specific problems. In this work, we introduce a novel approach called Cross-Domain Continual Learning (CDCL) that addresses the limitations of being limited to single supervised domains. Our method combines inter- and intra-task cross-attention mechanisms within a compact convolutional network. This integration enables the model to maintain alignment with features from previous tasks, thereby delaying the data drift that may occur between tasks, while performing unsupervised cross-domain (UDA) between related domains. By leveraging an intra-task-specific pseudo-labeling method, we ensure accurate input pairs for both labeled and unlabeled samples, enhancing the learning process. To validate our approach, we conduct extensive experiments on public UDA datasets, showcasing its positive performance on cross-domain continual learning challenges. Additionally, our work introduces incremental ideas that contribute to the advancement of this field. We make our code and models available to encourage further exploration and reproduction of our results: \url{https://github.com/Ivsucram/CDCL}
翻訳日:2024-02-21 18:24:44 公開日:2024-02-19
# 事前訓練された言語モデルは意味的不特定を検出するか? Ask the DUST!

Do Pre-Trained Language Models Detect and Understand Semantic Underspecification? Ask the DUST! ( http://arxiv.org/abs/2402.12486v1 )

ライセンス: Link先を確認
Frank Wildenburg, Michael Hanna, Sandro Pezzelle(参考訳) 日常の言語使用において、話し手は意味的に不特定な文をしばしば発して解釈する。 例えば、「あまり使うな」という未明の文を解釈するためには、追加の言語的文脈や外部知識が必要であることを暗黙的に残す。 本研究では,タイプ(ダスト)に分類された意味的不特定文のデータセットを提案し,学習済み言語モデル(lms)が不特定文を正しく識別・解釈するかどうかを調べる。 より新しいLMは、明示的に指示されたとき、不特定文を適切に識別できる。 しかし、それらを正しく解釈することは、全てのlmsにとって非常に難しい。 実験の結果,不特定な文を解釈する場合,lmsは不確かさをほとんど示さないことが明らかとなった。 総じて本研究は,現在のモデルにおける文意味論の処理の限界を明らかにし,lmsの言語能力評価における自然データとコミュニケーションシナリオの利用の重要性を強調した。

In everyday language use, speakers frequently utter and interpret sentences that are semantically underspecified, namely, whose content is insufficient to fully convey their message or interpret them univocally. For example, to interpret the underspecified sentence "Don't spend too much", which leaves implicit what (not) to spend, additional linguistic context or outside knowledge is needed. In this work, we propose a novel Dataset of semantically Underspecified Sentences grouped by Type (DUST) and use it to study whether pre-trained language models (LMs) correctly identify and interpret underspecified sentences. We find that newer LMs are reasonably able to identify underspecified sentences when explicitly prompted. However, interpreting them correctly is much harder for any LMs. Our experiments show that when interpreting underspecified sentences, LMs exhibit little uncertainty, contrary to what theoretical accounts of underspecification would predict. Overall, our study reveals limitations in current models' processing of sentence semantics and highlights the importance of using naturalistic data and communicative scenarios when evaluating LMs' language capabilities.
翻訳日:2024-02-21 18:24:23 公開日:2024-02-19
# 有限サイズJanes-Cummings格子における状態形成のための量子ショートカット

Quantum Shortcut to Adiabaticity for State Preparation in a Finite-Sized Jaynes-Cummings Lattice ( http://arxiv.org/abs/2402.12485v1 )

ライセンス: Link先を確認
Kang Cai, Prabin Parajuli, Anuvetha Govindarajan, and Lin Tian(参考訳) 雑音の強い量子システムでは、断熱的アプローチによる高忠実な状態形成を達成することはジレンマに直面する: 拡張時間を延長して断熱的遷移を減少させるか、デコヒーレンス効果を緩和するために縮めるか。 本稿では, 有限サイズのJanes-Cummings格子において, 与えられた断熱軌道に沿って駆動する反断熱(CD)を適用して, 状態準備のための量子ショートカットを提案する。 この系における固有状態の対称性を利用して, 1つのポラリトン励起を持つ2点格子の局所量子-キャビティカップリングのみを含む簡単なcdハミルトニアンを導出する。 さらに、2つの励起を持つこの格子に対するcdハミルトニアンの分析形式も導出する。 本手法は回路誤差や環境騒音に対して頑健であり,量子ビット検出による特性評価が可能であることを示す。 単純化されたcdハミルトニアンは、現実的なパラメータを持つ物理システムで実装できる。 このアプローチは従来の断熱法に比べて大幅に時間スケールが短縮された場合、高忠実度状態の準備に有望な経路をもたらす可能性がある。

In noisy quantum systems, achieving high-fidelity state preparation using the adiabatic approach faces a dilemma: either extending the evolution time to reduce diabatic transitions or shortening it to mitigate decoherence effects. Here, we present a quantum shortcut to adiabaticity for state preparation in a finite-sized Jaynes-Cummings lattice by applying a counter-diabatic (CD) driving along given adiabatic trajectories. Leveraging the symmetry of eigenstates in this system, we derive a simplified CD Hamiltonian that only involves local qubit-cavity couplings for a two-site lattice with one polariton excitation. Additionally, we derive the analytical form of the CD Hamiltonian for this lattice with two excitations. Our numerical results demonstrate that this scheme is robust against circuit errors and environmental noise, with characterization achievable through qubit detection. The simplified CD Hamiltonian can be implemented in physical systems with realistic parameters. This approach can lead to a promising pathway to high-fidelity state preparation within a significantly reduced timescale compared to conventional adiabatic methods.
翻訳日:2024-02-21 18:24:02 公開日:2024-02-19
# アーティファクトとアブダクション:LLMは質問なしに複数の質問に答えるにはどうすればよいか?

Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? ( http://arxiv.org/abs/2402.12483v1 )

ライセンス: Link先を確認
Nishant Balepur, Abhilasha Ravichander, Rachel Rudinger(参考訳) 大規模言語モデル(llm)の評価には、mcqa(multiple-choice question answering)がしばしば用いられる。 MCQA が LLM を意図通りに評価するかどうかを確認するため,選択のみのプロンプトで LLM が MCQA を実行できるかどうかを探索する。 3つのmcqaデータセットと4つのllmにおいて、これは11/12のケースでマジョリティベースラインを上回り、最大 0.33 の精度向上をもたらす。 この振る舞いを説明するのに役立ち、暗記、選択ダイナミクス、質問推論に関する詳細なブラックボックス分析を行います。 私たちの重要な発見は3倍です。 まず、選択のみの精度が記憶のみに起因するという証拠は見つからない。 第二に、個々の選択に対する事前は選択のみの精度を完全に説明せず、LLMが選択のグループ力学を使用することを示唆している。 第三に、LSMは選択から関連する質問を推測する能力があり、驚くべきことに元の質問にマッチすることもある。 我々は、MCQAベンチマークにおけるより強力なベースラインの使用、堅牢なMCQAデータセットの設計、LCM意思決定の説明へのさらなる取り組みを動機付けたい。

Multiple-choice question answering (MCQA) is often used to evaluate large language models (LLMs). To see if MCQA assesses LLMs as intended, we probe if LLMs can perform MCQA with choices-only prompts, where models must select the correct answer only from the choices. In three MCQA datasets and four LLMs, this prompt bests a majority baseline in 11/12 cases, with up to 0.33 accuracy gain. To help explain this behavior, we conduct an in-depth, black-box analysis on memorization, choice dynamics, and question inference. Our key findings are threefold. First, we find no evidence that the choices-only accuracy stems from memorization alone. Second, priors over individual choices do not fully explain choices-only accuracy, hinting that LLMs use the group dynamics of choices. Third, LLMs have some ability to infer a relevant question from choices, and surprisingly can sometimes even match the original question. We hope to motivate the use of stronger baselines in MCQA benchmarks, the design of robust MCQA datasets, and further efforts to explain LLM decision-making.
翻訳日:2024-02-21 18:23:42 公開日:2024-02-19
# SECP:クリーン音声のスケーラブルな獲得のための音声強調に基づくキュレーションパイプライン

SECP: A Speech Enhancement-Based Curation Pipeline For Scalable Acquisition Of Clean Speech ( http://arxiv.org/abs/2402.12482v1 )

ライセンス: Link先を確認
Adam Sabra, Cyprian Wronka, Michelle Mao, Samer Hijazi(参考訳) より多くの音声技術が、クリーンな音声を基礎として教師付きディープラーニングアプローチに依存しているため、その音声を大規模に搭載するための方法論が必要である。 しかし、このアプローチは人間のリスニングとアノテーションへの依存性を最小限に抑える必要がある。 本稿では、クリーンな音声をオンボードするフレームワークとして機能する、音声強調に基づくCuration Pipeline(SECP)の概要からこの問題に対処する。 このクリーンな音声は音声強調モデルをトレーニングし、元のデータセットをさらに洗練し、反復ループをクローズすることができる。 2つの反復ラウンドを実行することにより、基底真理として使われる拡張出力がモデル性能を低下させないことが、本論文で用いられる計量である$\Delta_{PESQ}$に従って観察される。 また,比較平均世論スコア (cmos) に基づく主観評価の結果から,精製データの最高値と最低値が,従来のデータよりも知覚的に優れていることを示した。

As more speech technologies rely on a supervised deep learning approach with clean speech as the ground truth, a methodology to onboard said speech at scale is needed. However, this approach needs to minimize the dependency on human listening and annotation, only requiring a human-in-the-loop when needed. In this paper, we address this issue by outlining Speech Enhancement-based Curation Pipeline (SECP) which serves as a framework to onboard clean speech. This clean speech can then train a speech enhancement model, which can further refine the original dataset and thus close the iterative loop. By running two iterative rounds, we observe that enhanced output used as ground truth does not degrade model performance according to $\Delta_{PESQ}$, a metric used in this paper. We also show through comparative mean opinion score (CMOS) based subjective tests that the highest and lowest bound of refined data is perceptually better than the original data.
翻訳日:2024-02-21 18:23:19 公開日:2024-02-19
# 深層強化学習において、刈り込みネットワークは良いネットワークである

In deep reinforcement learning, a pruned network is a good network ( http://arxiv.org/abs/2402.12479v1 )

ライセンス: Link先を確認
Johan Obando-Ceron and Aaron Courville and Pablo Samuel Castro(参考訳) 近年の研究では、深層強化学習エージェントがネットワークパラメータを効果的に利用するのが困難であることが示されている。 我々は,スパーストレーニング手法の利点に対する事前の知見を活用し,段階的マグニチュードプルーニングによってパラメータの有効性を最大化できることを実証する。 これにより、従来のネットワークよりも劇的な性能向上をもたらし、完全なネットワークパラメータのごく一部しか使用しない「スケーリング法則」の型を示すネットワークが得られる。

Recent work has shown that deep reinforcement learning agents have difficulty in effectively using their network parameters. We leverage prior insights into the advantages of sparse training techniques and demonstrate that gradual magnitude pruning enables agents to maximize parameter effectiveness. This results in networks that yield dramatic performance improvements over traditional networks and exhibit a type of "scaling law", using only a small fraction of the full network parameters.
翻訳日:2024-02-21 18:22:57 公開日:2024-02-19
# テンソル分解と多粒子純状態のLUおよびSLOCC等価性への応用

Tensor Decompositions with applications to LU and SLOCC equivalence of multipartite pure states ( http://arxiv.org/abs/2402.12542v1 )

ライセンス: Link先を確認
Luke Oeding and Ian Tan(参考訳) DeLathauwer, DeMoor and Vandewalle (2000) によって定義されるテンソルの高次特異値分解(HOSVD)が帰結する一般的な補題を導入する。 補題の類似の応用により、HOSVDの複素直交バージョンが見つかる。 Kraus' (2010) アルゴリズムは HOSVD を用いて局所ユニタリ群 $\operatorname{U}_2^{\times n}$ の作用の下で、通常の$n$-qubit純状態の形式を計算する。 二重被覆 $\operatorname{SL}_2(\mathbb{C}) \times \operatorname{SL}_2(\mathbb{C}) \to \operatorname{SO}_4({\mathbb{C}})$ を利用して、SLOCC群 $\operatorname{SL}_2(\mathbb{C})^{\times n}$ の作用に対して、テンソルの正規形式を$(\mathbb{C}^2)^{\otimes n}$ で計算する類似のアルゴリズム($n$のパリティで区別される)を生成する。

We introduce a general lemma, of which one consequence is the higher order singular value decomposition (HOSVD) of tensors defined by DeLathauwer, DeMoor and Vandewalle (2000). By an analogous application of the lemma, we find a complex orthogonal version of the HOSVD. Kraus' (2010) algorithm used the HOSVD to compute normal forms of generic $n$-qubit pure states under the action of the local unitary group $\operatorname{U}_2^{\times n}$. Taking advantage of the double cover $\operatorname{SL}_2(\mathbb{C}) \times \operatorname{SL}_2(\mathbb{C}) \to \operatorname{SO}_4({\mathbb{C}})$, we produce similar algorithms (distinguished by the parity of $n$) that compute normal forms for tensors in $(\mathbb{C}^2)^{\otimes n}$ for the action of the SLOCC group $\operatorname{SL}_2(\mathbb{C})^{\times n}$.
翻訳日:2024-02-21 18:14:16 公開日:2024-02-19
# スマートエネルギー貯蔵建物における予測データ利用がモデル予測制御性能に及ぼす影響

Impact of data usage for forecasting on performance of model predictive control in buildings with smart energy storage ( http://arxiv.org/abs/2402.12539v1 )

ライセンス: Link先を確認
Max Langtry, Vijja Wichitwechkarn, Rebecca Ward, Chaoqun Zhuang, Monika J. Kreitmair, Nikolas Makasis, Zack Xuereb Conti, Ruchi Choudhary(参考訳) データは、エネルギーシステム構築におけるモデル予測制御(MPC)スキームで使用する予測モデルを開発するために必要である。 しかし、データの利用は収集と搾取の両方でコストがかかる。 コスト最適データ使用量を決定するには、予測精度とMPC動作性能の理解が必要である。 本研究では,歴史的建築エネルギーデータを用いたマルチビルディングエネルギーシステムシミュレーションにおけるmpcの簡易および最先端の機械学習予測モデルの性能について検討する。 データ利用が予測精度に与える影響を,予測モデルの再利用,トレーニングデータ量の削減,モデルデータの特徴の低減,オンラインモデルトレーニングなど,データ効率の指標として定量化する。 単純な線形多層パーセプトロンモデルにより、データ効率と一般化性が高く、最先端モデルに等価な予測精度が提供される。 負荷予測モデルに対する2年以上のトレーニングデータの使用は、予測精度を著しく改善することはなかった。 画面トレーニングデータに変化点解析を用いて予測精度とデータ効率を同時に改善した。 再利用されたモデルと3ヶ月のデータでトレーニングされたモデルでは、ベースラインよりも平均10%高いエラーがあった。

Data is required to develop forecasting models for use in Model Predictive Control (MPC) schemes in building energy systems. However, data usage incurs costs from both its collection and exploitation. Determining cost optimal data usage requires understanding of the forecast accuracy and resulting MPC operational performance it enables. This study investigates the performance of both simple and state-of-the-art machine learning prediction models for MPC in a multi-building energy system simulation using historic building energy data. The impact of data usage on forecast accuracy is quantified for the following data efficiency measures: reuse of prediction models, reduction of training data volumes, reduction of model data features, and online model training. A simple linear multi-layer perceptron model is shown to provide equivalent forecast accuracy to state-of-the-art models, with greater data efficiency and generalisability. The use of more than 2 years of training data for load prediction models provided no significant improvement in forecast accuracy. Forecast accuracy and data efficiency were improved simultaneously by using change-point analysis to screen training data. Reused models and those trained with 3 months of data had on average 10% higher error than baseline, indicating that deploying MPC systems without prior data collection may be economic.
翻訳日:2024-02-21 18:13:50 公開日:2024-02-19
# サイバーいじめ検出のための機械学習アンサンブルモデル

A Machine Learning Ensemble Model for the Detection of Cyberbullying ( http://arxiv.org/abs/2402.12538v1 )

ライセンス: Link先を確認
Abulkarim Faraj Alqahtani and Mohammad Ilyas(参考訳) Facebook、Instagram、Xといったソーシャルメディアプラットフォームの普及は、我々の電子的相互接続性を著しく増幅した。 さらに、これらのプラットフォームはいつでも任意の場所から簡単にアクセスできます。 しかし、ソーシャルメディアの人気が高まっているため、ソーシャルメディアプラットフォーム上でのサイバーいじめの投稿の発見、監視、緩和の必要性に対処する必要がある。 そこで本研究では,この必要性に動機づけられ,攻撃的ツイートのバイナリラベルを自動検出するシステムの開発に寄与する。 そこで我々は,スタックングアンサンブル機械学習手法を用いて,スタックングアンサンブル学習フレームワークの性能を最適化する4つの特徴抽出手法を開発した。 5つの機械学習アルゴリズム、決定木、ランダムフォレスト、線形サポートベクトル分類、ロジスティック回帰、K-Nearest Neighborsをアンサンブルに組み合わせ、従来の機械学習分類モデルと比較して優れた結果を得た。 スタッキング分類器は94.00%の精度を達成し、従来の機械学習モデルを上回っ、同じデータセットを使用した以前の実験結果を上回った。 実験の結果,攻撃的あるいは非攻撃的として検出ツイートの0.94%の精度を示した。

The pervasive use of social media platforms, such as Facebook, Instagram, and X, has significantly amplified our electronic interconnectedness. Moreover, these platforms are now easily accessible from any location at any given time. However, the increased popularity of social media has also led to cyberbullying.It is imperative to address the need for finding, monitoring, and mitigating cyberbullying posts on social media platforms. Motivated by this necessity, we present this paper to contribute to developing an automated system for detecting binary labels of aggressive tweets.Our study has demonstrated remarkable performance compared to previous experiments on the same dataset. We employed the stacking ensemble machine learning method, utilizing four various feature extraction techniques to optimize performance within the stacking ensemble learning framework. Combining five machine learning algorithms,Decision Trees, Random Forest, Linear Support Vector Classification, Logistic Regression, and K-Nearest Neighbors into an ensemble method, we achieved superior results compared to traditional machine learning classifier models. The stacking classifier achieved a high accuracy rate of 94.00%, outperforming traditional machine learning models and surpassing the results of prior experiments that utilized the same dataset. The outcomes of our experiments showcased an accuracy rate of 0.94% in detection tweets as aggressive or non-aggressive.
翻訳日:2024-02-21 18:13:31 公開日:2024-02-19
# 階層的ベイズアプローチによる教師なし学習の個人化

Hierarchical Bayes Approach to Personalized Federated Unsupervised Learning ( http://arxiv.org/abs/2402.12537v1 )

ライセンス: Link先を確認
Kaan Ozkara, Bruce Huang, Ruida Zhou, Suhas Diggavi(参考訳) クライアントのローカルデータの統計的不均一性は、ローカルデータ統計に合わせたパーソナライズされたアルゴリズムを動機付け、フェデレーション学習において重要な特徴である。 パーソナライズされた教師なし学習には多数のアルゴリズムが提案されているが、パーソナライズされた教師なし学習によるローカルデータの構造の発見は少ない。 階層的ベイズ統計枠組みに触発された最適化基準に基づくアルゴリズムの開発により,このようなパーソナライズされた教師なし学習を体系的に研究する。 限られたローカルデータと協調情報とのバランスを検出する適応アルゴリズムを開発した。 私たちは、教師なしの2つの学習タスクの文脈でこれを行う: 個人化された次元の削減とパーソナライズされた拡散モデル。 問題パラメータ(例えば、異種性、局所サンプルサイズ)への依存性を説明する適応アルゴリズムの収束解析法を開発した。 また,均質性の下でも協調の利点を示す,個人化拡散モデルのための理論的枠組みを構築した。 最後に,提案手法を合成および実データを用いて評価し,データの不均一性に拘わらず,協調によって引き起こされるパーソナライズタスクの効果的なサンプル増幅を示す。

Statistical heterogeneity of clients' local data is an important characteristic in federated learning, motivating personalized algorithms tailored to the local data statistics. Though there has been a plethora of algorithms proposed for personalized supervised learning, discovering the structure of local data through personalized unsupervised learning is less explored. We initiate a systematic study of such personalized unsupervised learning by developing algorithms based on optimization criteria inspired by a hierarchical Bayesian statistical framework. We develop adaptive algorithms that discover the balance between using limited local data and collaborative information. We do this in the context of two unsupervised learning tasks: personalized dimensionality reduction and personalized diffusion models. We develop convergence analyses for our adaptive algorithms which illustrate the dependence on problem parameters (e.g., heterogeneity, local sample size). We also develop a theoretical framework for personalized diffusion models, which shows the benefits of collaboration even under heterogeneity. We finally evaluate our proposed algorithms using synthetic and real data, demonstrating the effective sample amplification for personalized tasks, induced through collaboration, despite data heterogeneity.
翻訳日:2024-02-21 18:13:10 公開日:2024-02-19
# マルチスケールコンピュータビジョンのための高性能ネットワークの設計

Designing High-Performing Networks for Multi-Scale Computer Vision ( http://arxiv.org/abs/2402.12536v1 )

ライセンス: Link先を確認
C\'edric Picron(参考訳) ディープラーニングの出現以来、コンピュータビジョンの分野は、より複雑なタスクにおいて、モデルの改善が急速に進んでいる。 コンピュータビジョンモデルを改善するための3つの主な方法は,(1)大規模でより多様なデータセットでのトレーニングによるデータアスペクトの改善,(2)より優れたオプティマイザの設計によるトレーニングアスペクトの改善、(3)ネットワークアーキテクチャ(あるいは略してネットワーク)の改善である。 本論文では,後者,すなわちコンピュータビジョンモデルのネットワーク設計を改善することを選んだ。 より具体的には,マルチスケールコンピュータビジョンタスクのための新しいネットワーク設計について検討する。 これらの新しいネットワーク設計の目標は、文献から既存のベースライン設計を上回ることにある。 異なるネットワーク設計が同じ設定でトレーニングされ、評価されることを保証することにより、比較が公平であることを確認するために、特別な注意が払われる。 コードはhttps://github.com/cedricpicron/detsegで公開されている。

Since the emergence of deep learning, the computer vision field has flourished with models improving at a rapid pace on more and more complex tasks. We distinguish three main ways to improve a computer vision model: (1) improving the data aspect by for example training on a large, more diverse dataset, (2) improving the training aspect by for example designing a better optimizer, and (3) improving the network architecture (or network for short). In this thesis, we chose to improve the latter, i.e. improving the network designs of computer vision models. More specifically, we investigate new network designs for multi-scale computer vision tasks, which are tasks requiring to make predictions about concepts at different scales. The goal of these new network designs is to outperform existing baseline designs from the literature. Specific care is taken to make sure the comparisons are fair, by guaranteeing that the different network designs were trained and evaluated with the same settings. Code is publicly available at https://github.com/CedricPicron/DetSeg.
翻訳日:2024-02-21 18:12:51 公開日:2024-02-19
# スケーラブルなヒューマンマシンポイントクラウド圧縮

Scalable Human-Machine Point Cloud Compression ( http://arxiv.org/abs/2402.12532v1 )

ライセンス: Link先を確認
Mateen Ulhaq, Ivan V. Baji\'c(参考訳) エッジデバイスの計算能力が限られているため、ディープラーニング推論は非常に高価である。 一つの対策は、サーバ側処理のためにネットワーク上でポイントクラウドデータを圧縮して送信することである。 残念ながら、このアプローチは利用可能なビットレートを含むネットワーク要因に敏感である。 幸運にも、マシンタスク特化コーデックを使用することで、推論精度を犠牲にすることなく、ビットレート要件を削減できる。 本稿では,分類の機械的タスクに特化する点クラウドデータのためのスケーラブルなコーデックを提案するとともに,人間の視聴のメカニズムも提供する。 提案するスケーラブルコーデックでは、"ベース"ビットストリームがマシンタスクをサポートし、"エンハンスメント"ビットストリームが人間の視聴における入力再構成のパフォーマンス向上に使用できる。 当社のアーキテクチャはPointNet++に基づいており、その有効性をModelNet40データセットでテストしています。 先行する非特化コーデックに対する大幅な改善を示す。

Due to the limited computational capabilities of edge devices, deep learning inference can be quite expensive. One remedy is to compress and transmit point cloud data over the network for server-side processing. Unfortunately, this approach can be sensitive to network factors, including available bitrate. Luckily, the bitrate requirements can be reduced without sacrificing inference accuracy by using a machine task-specialized codec. In this paper, we present a scalable codec for point-cloud data that is specialized for the machine task of classification, while also providing a mechanism for human viewing. In the proposed scalable codec, the "base" bitstream supports the machine task, and an "enhancement" bitstream may be used for better input reconstruction performance for human viewing. We base our architecture on PointNet++, and test its efficacy on the ModelNet40 dataset. We show significant improvements over prior non-specialized codecs.
翻訳日:2024-02-21 18:12:35 公開日:2024-02-19
# 画像間翻訳における深部生成モデルの改善

Improving Deep Generative Models on Many-To-One Image-to-Image Translation ( http://arxiv.org/abs/2402.12531v1 )

ライセンス: Link先を確認
Sagar Saxena, Mohammad Nayeem Teli(参考訳) 画像から画像への翻訳における複数の応用に深い生成モデルが適用されている。 生成的逆ネットワークと拡散モデルが印象的な結果を示し、これらのタスクに新たな最先端の結果を設定した。 ほとんどのメソッドはデータセット内の異なるドメインに対称的な設定を持つ。 これらの手法は、すべての領域が複数のモダリティまたは1つのモダリティを持つと仮定する。 しかし、2つのドメイン間で多対一の関係を持つデータセットは数多く存在する。 本研究では、まず、色付きMNISTデータセットとカラーリコールスコアを導入し、多対一翻訳モデル評価のための簡単なベンチマークを提供する。 次に,多対一画像翻訳における既存の深層生成モデルを改善するための新しい非対称フレームワークを提案する。 我々はこのフレームワークをStarGAN V2に適用し、教師なしと半教師なしの両方の設定において、この新モデルの性能が多対一のイメージ変換を改善することを示す。

Deep generative models have been applied to multiple applications in image- to-image translation. Generative Adversarial Networks and Diffusion Models have presented impressive results, setting new state-of-the-art results on these tasks. Most methods have symmetric setups across the different domains in a dataset. These methods assume that all domains have either multiple modalities or only one modality. However, there are many datasets that have a many-to-one relationship between two domains. In this work, we first introduce a Colorized MNIST dataset and a Color-Recall score that can provide a simple benchmark for evaluating models on many-to-one translation. We then introduce a new asymmetric framework to improve existing deep generative models on many-to-one image-to- image translation. We apply this framework to StarGAN V2 and show that in both unsupervised and semi-supervised settings, the performance of this new model improves on many-to-one image-to-image translation.
翻訳日:2024-02-21 18:12:22 公開日:2024-02-19
# 事前学習型インコンテキスト学習における並列構造

Parallel Structures in Pre-training Data Yield In-Context Learning ( http://arxiv.org/abs/2402.12530v1 )

ライセンス: Link先を確認
Yanda Chen, Chen Zhao, Zhou Yu, Kathleen McKeown, He He(参考訳) 事前訓練された言語モデル(LM)は、インコンテキスト学習(ICL: in-context learning)が可能で、パラメータを更新することなく、プロンプトで与えられたいくつかの例でタスクに適応できる。 しかし、事前学習されたテキストとiclプロンプトの間に重大な分布シフトがあるため、この能力がどこから来ているのかは明らかではない。 本研究では,プリトレーニングデータのパターンがiclにどのような影響を与えるかを検討する。 lmsのicl能力は、事前トレーニングされたデータで$\textit{parallel structures}$に依存する。 具体的には、あるフレーズのトレーニングが他のフレーズの予測を改善するかどうかを確認して並列構造を検出し、ICLへの影響を研究するためのアブレーション実験を行う。 事前学習データから並列構造を除去すると,LMのICLの精度は51%低下する(vs 2%はランダムアブレーションによる)。 この降下は、n-gram繰り返しや長距離依存といった共通パターンを除外しても持続し、平行構造の多様性と一般化を示す。 検出された並列構造をよく見ると、それらは様々な言語的タスクをカバーし、データの長距離にわたっていることを示している。

Pre-trained language models (LMs) are capable of in-context learning (ICL): they can adapt to a task with only a few examples given in the prompt without any parameter update. However, it is unclear where this capability comes from as there is a stark distribution shift between pre-training text and ICL prompts. In this work, we study what patterns of the pre-training data contribute to ICL. We find that LMs' ICL ability depends on $\textit{parallel structures}$ in the pre-training data -- pairs of phrases following similar templates in the same context window. Specifically, we detect parallel structures by checking whether training on one phrase improves prediction of the other, and conduct ablation experiments to study their effect on ICL. We show that removing parallel structures in the pre-training data reduces LMs' ICL accuracy by 51% (vs 2% from random ablation). This drop persists even when excluding common patterns such as n-gram repetitions and long-range dependency, showing the diversity and generality of parallel structures. A closer look at the detected parallel structures indicates that they cover diverse linguistic tasks and span long distances in the data.
翻訳日:2024-02-21 18:12:07 公開日:2024-02-19
# オフラインモデルに基づく強化学習におけるエッジ・オブ・リーチ問題

The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning ( http://arxiv.org/abs/2402.12527v1 )

ライセンス: Link先を確認
Anya Sims, Cong Lu, Yee Whye Teh(参考訳) オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。 モデルベースの手法は、エージェントが学習したダイナミクスモデルでロールアウトを介して追加の合成データを収集できるようにすることでソリューションを提供する。 理論的な理解は、これを近似力学モデルにおけるオンライン強化学習と見なすことができ、従って残りのギャップは不完全力学モデルによるものであると考えられる。 しかし、驚くべきことに、学習したダイナミクスモデルが真のエラーフリーダイナミクスに置き換えられると、既存のモデルベースのメソッドは完全に失敗する。 これは大きな誤解である。 その後の研究では、モデルベースアルゴリズムで使用される一般的な手順が、病理的価値過大評価とベルマンアルゴリズムの崩壊を引き起こすエッジ・オブ・リーチ状態の存在を示唆している。 これをエッジ・オブ・リーチ問題と呼ぶ。 これに基づいて,既存理論のギャップを埋めるとともに,従来のモデルベース手法が真のエッジ・オブ・リーチ問題に不注意に対処しているかを説明する。 最後に,Reach-Aware Value Learning (RAVL)を提案する。この手法は,エッジ・オブ・リーチ問題に直接対処し,プロプリセプティブなベンチマークと画素ベースのベンチマークの両方で高い性能を実現する。 https://github.com/anyasims/edge-of-reach.com/でオープンソース化されたコード。

Offline reinforcement learning aims to enable agents to be trained from pre-collected datasets, however, this comes with the added challenge of estimating the value of behavior not covered in the dataset. Model-based methods offer a solution by allowing agents to collect additional synthetic data via rollouts in a learned dynamics model. The prevailing theoretical understanding is that this can then be viewed as online reinforcement learning in an approximate dynamics model, and any remaining gap is therefore assumed to be due to the imperfect dynamics model. Surprisingly, however, we find that if the learned dynamics model is replaced by the true error-free dynamics, existing model-based methods completely fail. This reveals a major misconception. Our subsequent investigation finds that the general procedure used in model-based algorithms results in the existence of a set of edge-of-reach states which trigger pathological value overestimation and collapse in Bellman-based algorithms. We term this the edge-of-reach problem. Based on this, we fill some gaps in existing theory and also explain how prior model-based methods are inadvertently addressing the true underlying edge-of-reach problem. Finally, we propose Reach-Aware Value Learning (RAVL), a simple and robust method that directly addresses the edge-of-reach problem and achieves strong performance across both proprioceptive and pixel-based benchmarks. Code open-sourced at: https://github.com/anyasims/edge-of-reach.
翻訳日:2024-02-21 18:11:47 公開日:2024-02-19
# LangXAI:視覚的知覚課題における説明可能性を高めるためのテキスト説明生成のための大規模視覚モデルの統合

LangXAI: Integrating Large Vision Models for Generating Textual Explanations to Enhance Explainability in Visual Perception Tasks ( http://arxiv.org/abs/2402.12525v1 )

ライセンス: Link先を確認
Truong Thanh Hung Nguyen, Tobias Clement, Phuc Truong Loc Nguyen, Nils Kemmerzell, Van Binh Truong, Vo Thanh Khang Nguyen, Mohamed Abdelaal, Hung Cao(参考訳) LangXAIは、説明可能な人工知能(XAI)と高度な視覚モデルを統合し、視覚認識タスクのためのテキスト説明を生成するフレームワークである。 XAIの進歩にもかかわらず、人工知能とコンピュータビジョンにおいて限られたドメイン知識を持つエンドユーザには理解ギャップが持続する。 LangXAIはこれを、分類、オブジェクト検出、セマンティックセグメンテーションモデルの出力をエンドユーザーに提供することによって解決する。 予備的な結果は、タスク間で高いbertscoreを持ち、エンドユーザの視覚タスクに関するより透明で信頼性の高いaiフレームワークを育むlangxaiの信頼性の向上を示している。

LangXAI is a framework that integrates Explainable Artificial Intelligence (XAI) with advanced vision models to generate textual explanations for visual recognition tasks. Despite XAI advancements, an understanding gap persists for end-users with limited domain knowledge in artificial intelligence and computer vision. LangXAI addresses this by furnishing text-based explanations for classification, object detection, and semantic segmentation model outputs to end-users. Preliminary results demonstrate LangXAI's enhanced plausibility, with high BERTScore across tasks, fostering a more transparent and reliable AI framework on vision tasks for end-users.
翻訳日:2024-02-21 18:11:22 公開日:2024-02-19
# 空中画像と大規模ステレオデータセットからのディープラーニングに基づく立体密マッチングデータセットシフトの評価

An evaluation of Deep Learning based stereo dense matching dataset shift from aerial images and a large scale stereo dataset ( http://arxiv.org/abs/2402.12522v1 )

ライセンス: Link先を確認
Teng Wu, Bruno Vallet, Marc Pierrot-Deseilligny, Ewelina Rupnik(参考訳) 画像取得からシーン3次元幾何の復元を可能にするため,3次元シーン再構築にはディエンスマッチングが不可欠である。 深層学習(DL)に基づく手法は,コンピュータビジョンコミュニティにおいて,エピポーラステレオ異方性推定の特別な場合において有効であることが示された。 dlベースの方法は、トレーニングデータセットの品質と量に大きく依存する。 しかし, 実写シーンの地道不均質マップの作成は, 写真撮影コミュニティでは難しい課題である。 そこで本研究では,光検出・測位 (lidar) と画像から直接地中不均等地図を生成する手法を提案し,4つの異なる領域と2つの異なる解像度の領域にまたがる6つの空中データセットに対して,多種多様なデータセットを作成する。 また,このフレームワークにLiDAR-to-image共同登録の改良を導入し,オクルージョンや不均一な補間を回避し,精度の低下を回避する。 多様なシーンタイプ,画像解像度,幾何学的構成を持つデータセットをまたいだ11の密集したマッチング手法を評価し,データセットシフトで深く検討し,ganetは同一のトレーニングとテストデータで最高の性能を示し,psmnetは異なるデータセットにまたがる堅牢性を示し,リミットデータセットでトレーニングするための最善の戦略を提案した。 より詳しい情報はhttps://github.com/whuwuteng/Aerial_Stereo_Dataset.comで確認できます。

Dense matching is crucial for 3D scene reconstruction since it enables the recovery of scene 3D geometry from image acquisition. Deep Learning (DL)-based methods have shown effectiveness in the special case of epipolar stereo disparity estimation in the computer vision community. DL-based methods depend heavily on the quality and quantity of training datasets. However, generating ground-truth disparity maps for real scenes remains a challenging task in the photogrammetry community. To address this challenge, we propose a method for generating ground-truth disparity maps directly from Light Detection and Ranging (LiDAR) and images to produce a large and diverse dataset for six aerial datasets across four different areas and two areas with different resolution images. We also introduce a LiDAR-to-image co-registration refinement to the framework that takes special precautions regarding occlusions and refrains from disparity interpolation to avoid precision loss. Evaluating 11 dense matching methods across datasets with diverse scene types, image resolutions, and geometric configurations, which are deeply investigated in dataset shift, GANet performs best with identical training and testing data, and PSMNet shows robustness across different datasets, and we proposed the best strategy for training with a limit dataset. We will also provide the dataset and training models; more information can be found at https://github.com/whuwuteng/Aerial_Stereo_Dataset.
翻訳日:2024-02-21 18:11:09 公開日:2024-02-19
# ニューラルシステムのシステム同定:画像を超えてモデリングダイナミクスへ

System Identification of Neural Systems: Going Beyond Images to Modelling Dynamics ( http://arxiv.org/abs/2402.12519v1 )

ライセンス: Link先を確認
Mai Gamal, Mohamed Rashad, Eman Ehab, Seif Eldawlatly, and Mennatullah Siam(参考訳) 膨大な文献が、脳の生物学的ニューロンの記録とディープニューラルネットワークを比較している。 究極の目標は、ディープネットワークの解釈や、生物学的ニューラルネットワークの理解とエンコードを改善することである。 近年,システム同定が可能であるか,脳の計算にどの程度の価値があるのかが議論されている。 システム同定は、あるモデルが別のモデルよりも脳の計算を表現できるかどうかを認識する。 それにもかかわらず、以前の研究は、時間的側面や、深層ネットワークにおけるビデオと動力学的モデリング(例えば、運動)が、大規模な比較においてこれらの生物学的神経系とどのように関係しているかを考慮しなかった。 そこで本研究では,視覚野記録に対する単一画像と映像理解モデルの比較に焦点を当てたシステム同定研究を提案する。 本研究は,実環境設定とシミュレーション環境設定の2つの実験を包含する。 この研究はまた30以上のモデルを含んでおり、以前の研究とは異なり、畳み込み対トランスフォーマー、シングル対2ストリーム、完全対自己教師付きビデオ理解モデルに焦点を当てている。 目標は、ダイナミクスをモデル化するより多様なアーキテクチャをキャプチャすることだ。 このことは、神経科学の観点からビデオ理解モデルに関する最初の大規模研究を意味する。 シミュレーション実験の結果,画像の微分と映像理解モデルにおいて,システム同定を一定のレベルまで達成できることが判明した。 さらに,映像理解モデルが視覚野応答を予測する方法に関する重要な知見を提供する。画像理解モデルよりも映像理解が優れていること,畳み込みモデルがトランスフォーマベースよりも早い段階ではトランスフォーマベースより優れていること,そして2つのストリームモデルが単一ストリームよりも優れていること,などが挙げられる。

Vast literature has compared the recordings of biological neurons in the brain to deep neural networks. The ultimate goal is to interpret deep networks or to better understand and encode biological neural systems. Recently, there has been a debate on whether system identification is possible and how much it can tell us about the brain computation. System identification recognizes whether one model is more valid to represent the brain computation over another. Nonetheless, previous work did not consider the time aspect and how video and dynamics (e.g., motion) modelling in deep networks relate to these biological neural systems within a large-scale comparison. Towards this end, we propose a system identification study focused on comparing single image vs. video understanding models with respect to the visual cortex recordings. Our study encompasses two sets of experiments; a real environment setup and a simulated environment setup. The study also encompasses more than 30 models and, unlike prior works, we focus on convolutional vs. transformer-based, single vs. two-stream, and fully vs. self-supervised video understanding models. The goal is to capture a greater variety of architectures that model dynamics. As such, this signifies the first large-scale study of video understanding models from a neuroscience perspective. Our results in the simulated experiments, show that system identification can be attained to a certain level in differentiating image vs. video understanding models. Moreover, we provide key insights on how video understanding models predict visual cortex responses; showing video understanding better than image understanding models, convolutional models are better in the early-mid regions than transformer based except for multiscale transformers that are still good in predicting these regions, and that two-stream models are better than single stream.
翻訳日:2024-02-21 18:10:41 公開日:2024-02-19
# ガウス過程ニューラル加法モデル

Gaussian Process Neural Additive Models ( http://arxiv.org/abs/2402.12518v1 )

ライセンス: Link先を確認
Wei Zhang, Brian Barr, John Paisley(参考訳) ディープニューラルネットワークは多くの分野に革命をもたらしたが、そのブラックボックスの性質は、解釈可能なモデルと説明可能なモデルを必要とする医療や金融などの分野で広く採用されることを防ぐこともある。 ニューラル付加モデル(NAM)の最近の発展は、表付きデータセットの解釈可能な深層学習の方向への大きな一歩である。 本稿では,gaussian process neural additive models (gp-nam) と呼ばれる,ランダムフーリエ特徴を用いたガウス過程の一層ニューラルネットワーク構成を用いた新しいnamsサブクラスを提案する。 GP-NAMは凸目的関数と、特徴次元と線形に成長する訓練可能なパラメータの数が有利である。 GPは複雑な非パラメトリックな単変数関数を学習するのに適しているため、より深いNAMアプローチと比較してパフォーマンスが損なわれることはない。 GP-NAMの複数の表付きデータセットにおける性能を実証し,パラメータ数を大幅に削減して,分類タスクと回帰タスクの両方において同等あるいはより良い性能が得られることを示した。

Deep neural networks have revolutionized many fields, but their black-box nature also occasionally prevents their wider adoption in fields such as healthcare and finance, where interpretable and explainable models are required. The recent development of Neural Additive Models (NAMs) is a significant step in the direction of interpretable deep learning for tabular datasets. In this paper, we propose a new subclass of NAMs that use a single-layer neural network construction of the Gaussian process via random Fourier features, which we call Gaussian Process Neural Additive Models (GP-NAM). GP-NAMs have the advantage of a convex objective function and number of trainable parameters that grows linearly with feature dimensionality. It suffers no loss in performance compared to deeper NAM approaches because GPs are well-suited for learning complex non-parametric univariate functions. We demonstrate the performance of GP-NAM on several tabular datasets, showing that it achieves comparable or better performance in both classification and regression tasks with a large reduction in the number of parameters.
翻訳日:2024-02-21 18:10:09 公開日:2024-02-19
# 誘導モデルマッチング: 制限されたモデルが大きなモデルにどのように役立つか

Induced Model Matching: How Restricted Models Can Help Larger Ones ( http://arxiv.org/abs/2402.12513v1 )

ライセンス: Link先を確認
Usama Muneeb and Mesrob I. Ohannessian(参考訳) 制限された特徴を用いた非常に正確な予測モデルが、より大きく、フル機能の、モデルのトレーニング時に利用できるシナリオを考える。 この制限付きモデルは、制限を強制することによって、補助的な徹底的なデータセットまたは同じデータセットから派生した「サイド情報」と考えることができる。 制限付きモデルはフルモデルにどのように役立つのか? 本研究では,制約モデルの文脈制約性能と制約モデルの知識を整合させることにより,制約モデルの知識をフルモデルに移す手法を提案する。 この手法をモデルマッチング(imm)と呼び,ロジスティック回帰(logistic regression)をトイ例として用いることで,その汎用性を説明する。 次に、言語モデリングにおけるIMMの使用、最初にインスピレーションを受けたアプリケーション、そして、ノーミングのようなテクニックにおける制限されたモデルの暗黙的な使用とは対照的に、明確な基盤を提供する場所について調べる。 LSTMとトランスフォーマーフルモデルの両方において,制限モデルとして$N$-gramを用いて方法論を実証する。 完全情報よりも制限された情報を収集する方がはるかに安価である場合に、この原則の可能性をさらに説明するために、POMDPポリシーがIMMを介して学習されたMDPポリシーを改善できる簡単なRL例で結論付ける。

We consider scenarios where a very accurate predictive model using restricted features is available at the time of training of a larger, full-featured, model. This restricted model may be thought of as "side-information", derived either from an auxiliary exhaustive dataset or on the same dataset, by forcing the restriction. How can the restricted model be useful to the full model? We propose an approach for transferring the knowledge of the restricted model to the full model, by aligning the full model's context-restricted performance with that of the restricted model's. We call this methodology Induced Model Matching (IMM) and first illustrate its general applicability by using logistic regression as a toy example. We then explore IMM's use in language modeling, the application that initially inspired it, and where it offers an explicit foundation in contrast to the implicit use of restricted models in techniques such as noising. We demonstrate the methodology on both LSTM and transformer full models, using $N$-grams as restricted models. To further illustrate the potential of the principle whenever it is much cheaper to collect restricted rather than full information, we conclude with a simple RL example where POMDP policies can improve learned MDP policies via IMM.
翻訳日:2024-02-21 18:09:52 公開日:2024-02-19
# FairProof : ニューラルネットワークの信頼性と認証公正性

FairProof : Confidential and Certifiable Fairness for Neural Networks ( http://arxiv.org/abs/2402.12572v1 )

ライセンス: Link先を確認
Chhavi Yadav, Amrita Roy Chowdhury, Dan Boneh, Kamalika Chaudhuri(参考訳) 機械学習モデルは、社会的アプリケーションでますます使われているが、法的およびプライバシー上の懸念は、しばしば秘密にしておくことを要求する。 その結果、モデル予測の受信端にいる消費者の心の中で、これらのモデルの公正性に対する不信感が高まっている。 この目的のために、FairProof - Zero-Knowledge Proofs(暗号プリミティブ)を使用して、機密性を保ちながらモデルの公正性を公に検証するシステムを提案する。 また、ZKPに適合し、本システムで使用される完全連結ニューラルネットワークの公平性検証アルゴリズムを提案する。 我々はGnarkでFairProofを実装し、我々のシステムが実際に実現可能であることを実証的に実証した。

Machine learning models are increasingly used in societal applications, yet legal and privacy concerns demand that they very often be kept confidential. Consequently, there is a growing distrust about the fairness properties of these models in the minds of consumers, who are often at the receiving end of model predictions. To this end, we propose FairProof - a system that uses Zero-Knowledge Proofs (a cryptographic primitive) to publicly verify the fairness of a model, while maintaining confidentiality. We also propose a fairness certification algorithm for fully-connected neural networks which is befitting to ZKPs and is used in this system. We implement FairProof in Gnark and demonstrate empirically that our system is practically feasible.
翻訳日:2024-02-21 18:02:34 公開日:2024-02-19
# 表現ペナル化を考慮したオフラインマルチタスク転送RL

Offline Multi-task Transfer RL with Representational Penalization ( http://arxiv.org/abs/2402.12570v1 )

ライセンス: Link先を確認
Avinandan Bose, Simon Shaolei Du, Maryam Fazel(参考訳) 本研究では,オフライン強化学習(rl)における表現伝達の問題点について検討し,学習者が事前に収集した複数のソースタスクからエピソディクスデータにアクセスし,対象タスクの適切なポリシを見つけるために使用する共有表現を学ぶことを目的としている。 エージェントがポリシーを学習しながら環境と対話するオンラインrlとは異なり、オフライン設定では、ソースタスクかターゲットタスクのいずれかにそのようなインタラクションが存在しないため、マルチタスクのオフラインrlは、不完全なカバレッジに苦しむ可能性がある。 本研究では,学習者表現のためのポイントワイズ不確実性尺度を算出し,対象課題に対する学習者方針の最適性に対するデータ依存上界を確立するアルゴリズムを提案する。 提案手法は,ソースタスクが行う集団的探索を活用し,ある時点でのカバレッジの低下をいくつかのタスクで軽減し,既存のオフラインアルゴリズムによる有意義な転送に一様に適切なカバレッジを必要とするという限界を克服する。 本理論の結果は, 完全カバレッジに多くのサンプルを必要とするリッチ・オブザーブメント MDP の実証評価と補完するものである。 本研究は,学習表現における不確かさを罰し,定量化する効果を示す。

We study the problem of representation transfer in offline Reinforcement Learning (RL), where a learner has access to episodic data from a number of source tasks collected a priori, and aims to learn a shared representation to be used in finding a good policy for a target task. Unlike in online RL where the agent interacts with the environment while learning a policy, in the offline setting there cannot be such interactions in either the source tasks or the target task; thus multi-task offline RL can suffer from incomplete coverage. We propose an algorithm to compute pointwise uncertainty measures for the learnt representation, and establish a data-dependent upper bound for the suboptimality of the learnt policy for the target task. Our algorithm leverages the collective exploration done by source tasks to mitigate poor coverage at some points by a few tasks, thus overcoming the limitation of needing uniformly good coverage for a meaningful transfer by existing offline algorithms. We complement our theoretical results with empirical evaluation on a rich-observation MDP which requires many samples for complete coverage. Our findings illustrate the benefits of penalizing and quantifying the uncertainty in the learnt representation.
翻訳日:2024-02-21 18:02:22 公開日:2024-02-19
# チェ定義資源理論

Choi-Defined Resource Theories ( http://arxiv.org/abs/2402.12569v1 )

ライセンス: Link先を確認
Elia Zanoni, Carlo Maria Scandolo(参考訳) 分離エンタングルメント、非正の部分転置エンタングルメント、マジック、虚性といった資源理論は興味深い性質を共有している: 演算が自由であることと、その再正規化されたチョイ行列が自由状態であることは同値である。 本文では、この性質を示す資源理論を長井定義資源理論と呼ぶ。 どのような条件下でchoi-definedリソース理論を構築できるかを実証し、そのような構成が可能であれば、自由操作は全てであり、完全にリソース非生成操作であることを示す。

The resource theories of separable entanglement, non-positive partial transpose entanglement, magic, and imaginarity share an interesting property: An operation is free if and only if its renormalized Choi matrix is a free state. In this letter, we refer to resource theories exhibiting this property as Choi-defined resource theories. We demonstrate how and under what conditions one can construct a Choi-defined resource theory, and we prove that when such a construction is possible, the free operations are all and only the completely resource non-generating operations.
翻訳日:2024-02-21 18:02:02 公開日:2024-02-19
# コヒーレントで効率的な1次元原子の実現

Realisation of a Coherent and Efficient One-Dimensional Atom ( http://arxiv.org/abs/2402.12568v1 )

ライセンス: Link先を確認
Natasha Tomm, Nadia O. Antoniadis, Marcelo Janovitch, Matteo Brunelli, R\"udiger Schott, Sascha R. Valentin, Andreas D. Wieck, Arne Ludwig, Patrick Potts, Alisa Javadi, Richard J. Warburton(参考訳) 単一光モードで光子と相互作用する量子エミッタは1次元原子を構成する。 コヒーレントで効率的に結合された1次元原子は大きな非線形性を提供し、フォトニック量子ゲートを可能にする。 高い結合効率(\beta$-factor)と低遅延化を達成することは困難である。 ここでは、オープンマイクロキャビティ内の半導体量子ドットを1次元原子の実装として用いる。 弱いレーザー入力により、送信における99.2\%$の消滅と、光子統計における$g^{(2)}(0) = 587$の混束を達成し、単一光子成分の反射とコヒーレント入力の多重光子成分の透過を示す。 マイクロキャビティのチューニング可能な性質により、$\beta$は調整でき、強い束縛から反膨らみまで光子統計を制御できるだけでなく、送信された光子の位相も制御できる。 単一モードのjaynes-cummingsモデルを越えて実験と理論の優れた一致を得る。 以上の結果は,エキゾチックなフォトニック状態と2光子相ゲートの創成への道を開く。

A quantum emitter interacting with photons in a single optical mode constitutes a one-dimensional atom. A coherent and efficiently coupled one-dimensional atom provides a large nonlinearity, enabling photonic quantum gates. Achieving a high coupling efficiency ($\beta$-factor) and low dephasing is challenging. Here, we use a semiconductor quantum dot in an open microcavity as an implementation of a one-dimensional atom. With a weak laser input, we achieve an extinction of $99.2\%$ in transmission and a concomitant bunching in the photon statistics of $g^{(2)}(0) = 587$, showcasing the reflection of the single-photon component and the transmission of the multi-photon components of the coherent input. The tunable nature of the microcavity allows $\beta$ to be adjusted and gives control over the photon statistics -- from strong bunching to anti-bunching -- as well as over the phase of the transmitted photons. We obtain excellent agreement between experiment and theory by going beyond the single-mode Jaynes-Cummings model. Our results pave the way towards the creation of exotic photonic states and two-photon phase gates.
翻訳日:2024-02-21 18:01:52 公開日:2024-02-19
# GenAudit: 言語モデル出力のエラーをエビデンスで修正する

GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence ( http://arxiv.org/abs/2402.12566v1 )

ライセンス: Link先を確認
Kundan Krishna, Sanjana Ramprasad, Prakhar Gupta, Byron C. Wallace, Zachary C. Lipton, Jeffrey P. Bigham(参考訳) LLMは、参照ドキュメントへのアクセスを提供しても、事実的に誤ったステートメントを生成することができる。 このようなエラーは、ハイテイクなアプリケーション(例えば、医療やファイナンスのための文書化されたQA)では危険である。 GenAudit - 文書グラウンドタスクの事実チェック LLM 応答を支援するツールを提案する。 GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることで、LLMレスポンスの編集を提案し、また、サポートしているように見える事実の参照から証拠を提示する。 これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。 GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。 システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。 当社のツール(genaudit)とファクトチェックモデルを一般向けにリリースします。

LLMs can generate factually incorrect statements even when provided access to reference documents. Such errors can be dangerous in high-stakes applications (e.g., document-grounded QA for healthcare or finance). We present GenAudit -- a tool intended to assist fact-checking LLM responses for document-grounded tasks. GenAudit suggests edits to the LLM response by revising or removing claims that are not supported by the reference document, and also presents evidence from the reference for facts that do appear to have support. We train models to execute these tasks, and design an interactive interface to present suggested edits and evidence to users. Comprehensive evaluation by human raters shows that GenAudit can detect errors in 8 different LLM outputs when summarizing documents from diverse domains. To ensure that most errors are flagged by the system, we propose a method that can increase the error recall while minimizing impact on precision. We will release our tool (GenAudit) and fact-checking model for public use.
翻訳日:2024-02-21 18:01:32 公開日:2024-02-19
# 信頼の問題:大規模言語モデルの固有の自己補正能力を再考する

Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models ( http://arxiv.org/abs/2402.12563v1 )

ライセンス: Link先を確認
Loka Li, Guangyi Chen, Yusheng Su, Zhenhao Chen, Yixuan Zhang, Eric Xing, Kun Zhang(参考訳) 近年の大規模言語モデル(llms)の成功は、自己修正機能への関心を高めている。 本稿では,LLMの内在的自己補正に関する包括的調査を行い,その実現可能性に関する議論に対処する。 本研究は,llmの自己修正過程における‘信頼’という,重要な潜在要因を特定した。 この因子を見渡すと、モデルは自分自身を過度に批判し、自己補正の有効性に関する信頼できない結論をもたらす。 実験により, LLMには, それぞれの反応における「自信」を理解する能力があることがわかった。 if-or-else'(ioe)プロンプトフレームワークを開発する動機付けは、llmが独自の'confidence'を評価し、本質的な自己修正を促進するように設計されたことです。 IoEをベースとしたPromptは,初期回答に対する自己補正応答の精度に関して,一貫した改善を達成できることを示す。 本研究は, LLMの自己補正に影響を及ぼす要因を明らかにするだけでなく, IoEの原理を応用して, 「自信」による自己補正能力を効率的に向上する実践的枠組みも導入する。 コードは \url{https://github.com/MBZUAI-CLeaR/IoE-Prompting.git} で公開されている。

The recent success of Large Language Models (LLMs) has catalyzed an increasing interest in their self-correction capabilities. This paper presents a comprehensive investigation into the intrinsic self-correction of LLMs, attempting to address the ongoing debate about its feasibility. Our research has identified an important latent factor - the ``confidence'' of LLMs - during the self-correction process. Overlooking this factor may cause the models to over-criticize themselves, resulting in unreliable conclusions regarding the efficacy of self-correction. We have experimentally observed that LLMs possess the capability to understand the ``confidence'' in their own responses. It motivates us to develop an ``If-or-Else'' (IoE) prompting framework, designed to guide LLMs in assessing their own ``confidence'', facilitating intrinsic self-corrections. We conduct extensive experiments and demonstrate that our IoE-based Prompt can achieve a consistent improvement regarding the accuracy of self-corrected responses over the initial answers. Our study not only sheds light on the underlying factors affecting self-correction in LLMs, but also introduces a practical framework that utilizes the IoE prompting principle to efficiently improve self-correction capabilities with ``confidence''. The code is available at \url{https://github.com/MBZUAI-CLeaR/IoE-Prompting.git}.
翻訳日:2024-02-21 18:01:16 公開日:2024-02-19
# 長期参照効果を考慮した動的価格と学習

Dynamic Pricing and Learning with Long-term Reference Effects ( http://arxiv.org/abs/2402.12562v1 )

ライセンス: Link先を確認
Shipra Agrawal, Wei Tang(参考訳) 我々は,現在の価格に対する顧客応答が顧客価格期待,すなわち参照価格に影響される動的価格問題を考える。 参照価格が売り手が提供する過去の価格の平均である簡易かつ新規な基準価格メカニズムについて検討する。 一般に研究されている指数的円滑化メカニズムとは対照的に、当社の参照価格メカニズムでは、売り手が提供する価格が将来の顧客の期待に長期的な影響を与える。 このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。 これは、顧客が通常より高価である商品の取引を受けるように感じるので、売り手がより高い価格で始めてからそれを減らすことで、より良くなるかもしれないという共通の直観に合致する。 また、線形需要モデルに対しては、最適に近いマークダウンポリシーの詳細な特徴と効率的な計算方法も提供する。 次に、需要モデルパラメータが不明であり、売り手は、提示された価格に対する顧客の反応からオンラインで学習し、同時に収益を最適化する必要がある、より困難な動的価格と学習の問題を考える。 目的は、過激な最適政策と比較して、後悔、すなわちT$ラウンドの収益損失を最小化することである。 このタスクは基本的に、時間変量マルコフ決定過程(MDP)における非定常最適ポリシーの学習に相当する。 線形需要モデルに対して、最適$\tilde{O}(\sqrt{T})$ regret upper bound を持つ効率的な学習アルゴリズムを提供する。

We consider a dynamic pricing problem where customer response to the current price is impacted by the customer price expectation, aka reference price. We study a simple and novel reference price mechanism where reference price is the average of the past prices offered by the seller. As opposed to the more commonly studied exponential smoothing mechanism, in our reference price mechanism the prices offered by seller have a longer term effect on the future customer expectations. We show that under this mechanism, a markdown policy is near-optimal irrespective of the parameters of the model. This matches the common intuition that a seller may be better off by starting with a higher price and then decreasing it, as the customers feel like they are getting bargains on items that are ordinarily more expensive. For linear demand models, we also provide a detailed characterization of the near-optimal markdown policy along with an efficient way of computing it. We then consider a more challenging dynamic pricing and learning problem, where the demand model parameters are apriori unknown, and the seller needs to learn them online from the customers' responses to the offered prices while simultaneously optimizing revenue. The objective is to minimize regret, i.e., the $T$-round revenue loss compared to a clairvoyant optimal policy. This task essentially amounts to learning a non-stationary optimal policy in a time-variant Markov Decision Process (MDP). For linear demand models, we provide an efficient learning algorithm with an optimal $\tilde{O}(\sqrt{T})$ regret upper bound.
翻訳日:2024-02-21 18:00:53 公開日:2024-02-19
# CausalGym:言語課題における因果解釈可能性手法のベンチマーク

CausalGym: Benchmarking causal interpretability methods on linguistic tasks ( http://arxiv.org/abs/2402.12560v1 )

ライセンス: Link先を確認
Aryaman Arora, Dan Jurafsky, Christopher Potts(参考訳) 言語モデル(LM)は、心理言語学研究のための強力なツールであることが証明されているが、ほとんどの以前の研究は純粋に行動的尺度(例えば、予備比較)に焦点を当てていた。 同時に、モデル解釈可能性の研究は、LMの振る舞いを形作る抽象因果メカニズムを照らし出すようになった。 これらの研究をより緊密にするために、CausalGymを紹介します。 我々はSyntaxGymタスクスイートを適応して拡張し、モデル動作に因果的に影響を与える解釈可能性メソッドの能力をベンチマークする。 CausalGym の使い方を説明するために, ピチアモデル (14M--6.9B) について検討し, 線形探索や分散アライメント探索 (DAS) を含む幅広い解釈可能性手法の因果効果を評価する。 我々はDASが他の手法より優れており、ピチア-1bにおける2つの困難な言語現象(負極性アイテムのライセンスとフィラーギャップ依存性)の学習軌跡の研究に利用している。 この2つのタスクを実装するメカニズムは,段階的に学習されるのではなく,段階的に学習される。

Language models (LMs) have proven to be powerful tools for psycholinguistic research, but most prior work has focused on purely behavioural measures (e.g., surprisal comparisons). At the same time, research in model interpretability has begun to illuminate the abstract causal mechanisms shaping LM behavior. To help bring these strands of research closer together, we introduce CausalGym. We adapt and expand the SyntaxGym suite of tasks to benchmark the ability of interpretability methods to causally affect model behaviour. To illustrate how CausalGym can be used, we study the pythia models (14M--6.9B) and assess the causal efficacy of a wide range of interpretability methods, including linear probing and distributed alignment search (DAS). We find that DAS outperforms the other methods, and so we use it to study the learning trajectory of two difficult linguistic phenomena in pythia-1b: negative polarity item licensing and filler--gap dependencies. Our analysis shows that the mechanism implementing both of these tasks is learned in discrete stages, not gradually.
翻訳日:2024-02-21 18:00:31 公開日:2024-02-19
# 機械学習を用いた国産食生活の評価 : 新型コロナウイルスによる死亡との関連

Evaluation of Country Dietary Habits Using Machine Learning Techniques in Relation to Deaths from COVID-19 ( http://arxiv.org/abs/2402.12558v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, Natalia Arias, Carmen Benavides, Oscar Garc\'ia-Olalla and Jos\'e Alberto Ben\'itez-Andrades(参考訳) 新型コロナウイルス(COVID-19)は世界のほぼすべての国で流行している。 感染者の多さと各国間での死亡率の相違は、新型コロナウイルスを致命傷にする重要な要因について多くの仮説を提起している。 本研究では,23種類の食品の脂肪,エネルギー,タンパク質の分布,およびキログラムの摂取量に応じて国をグループ化する機械学習技術を用いて,これらの習慣とcovid-19による死亡率の相関を見出すために,170カ国の摂食習慣を評価した。 以上の結果から, 死亡率の高い国では肥満度, 脂肪消費量の上昇がみられたが, 死亡率の低い国では穀物消費量が増加し, 総摂取カロリーが1キロカロリー未満であった。

COVID-19 disease has affected almost every country in the world. The large number of infected people and the different mortality rates between countries has given rise to many hypotheses about the key points that make the virus so lethal in some places. In this study, the eating habits of 170 countries were evaluated in order to find correlations between these habits and mortality rates caused by COVID-19 using machine learning techniques that group the countries together according to the different distribution of fat, energy, and protein across 23 different types of food, as well as the amount ingested in kilograms. Results shown how obesity and the high consumption of fats appear in countries with the highest death rates, whereas countries with a lower rate have a higher level of cereal consumption accompanied by a lower total average intake of kilocalories.
翻訳日:2024-02-21 18:00:09 公開日:2024-02-19
# llmsを用いた細粒度エンティティ型分類法の作成

Creating a Fine Grained Entity Type Taxonomy Using LLMs ( http://arxiv.org/abs/2402.12557v1 )

ライセンス: Link先を確認
Michael Gunn, Dohyun Park, Nidhish Kamath(参考訳) 本研究では,GPT-4とその先進的な反復であるGPT-4 Turboが,詳細な実体型分類を自律的に開発する可能性について検討する。 対象,時間,場所,組織,イベント,行動,主題など,既存の手作業による分類と同様に,広範なエンティティタイプを分類することから,包括的な分類を構築することを目的としています。 この分類は、GPT-4の内部知識ベースを利用して反復的なプロンプト技術によって徐々に洗練される。 その結果、5000種以上のニュアンスエンティティタイプを含む広範な分類法ができ、主観的評価において顕著な品質を示す。 我々は素直で効果的なプロンプト戦略を採用し、分類を動的に拡張した。 この詳細な分類法の実用的応用は多様で重要である。 パターンベースの組み合わせを通じて、新しいより複雑なブランチの作成を容易にし、関係抽出やイベント引数抽出といった情報抽出タスクを顕著に強化する。 本手法は, 分類学の創造に革新的なアプローチを導入するだけでなく, 様々な計算言語学およびai関連分野にその分類法を適用するための新しい道を開く。

In this study, we investigate the potential of GPT-4 and its advanced iteration, GPT-4 Turbo, in autonomously developing a detailed entity type taxonomy. Our objective is to construct a comprehensive taxonomy, starting from a broad classification of entity types - including objects, time, locations, organizations, events, actions, and subjects - similar to existing manually curated taxonomies. This classification is then progressively refined through iterative prompting techniques, leveraging GPT-4's internal knowledge base. The result is an extensive taxonomy comprising over 5000 nuanced entity types, which demonstrates remarkable quality upon subjective evaluation. We employed a straightforward yet effective prompting strategy, enabling the taxonomy to be dynamically expanded. The practical applications of this detailed taxonomy are diverse and significant. It facilitates the creation of new, more intricate branches through pattern-based combinations and notably enhances information extraction tasks, such as relation extraction and event argument extraction. Our methodology not only introduces an innovative approach to taxonomy creation but also opens new avenues for applying such taxonomies in various computational linguistics and AI-related fields.
翻訳日:2024-02-21 17:59:54 公開日:2024-02-19
# IMBUE:人間-言語モデル相互作用によるシミュレーションとジャストインタイムフィードバックによる対人効果の改善

IMBUE: Improving Interpersonal Effectiveness through Simulation and Just-in-time Feedback with Human-Language Model Interaction ( http://arxiv.org/abs/2402.12556v1 )

ライセンス: Link先を確認
Inna Wanyin Lin, Ashish Sharma, Christopher Michael Rytting, Adam S. Miner, Jina Suh, Tim Althoff(参考訳) 個人のスキルの欠如や強い感情の干渉により、特定のコミュニケーション状況のナビゲートは困難である。 しかし、効果的な学習機会はめったにない。 本研究では,言語モデルを用いてコミュニケーション訓練をシミュレートし,対人力の実践と学習を支援するためのジャスト・イン・タイムフィードバックを提供する。 我々は,会話的スキルと感情的スキルの両方に焦点を当てた,弁証的行動療法(dbt)の対人的有効性フレームワークを応用した。 我々は,専門家のフィードバックに25%近いフィードバックを提供する対話型トレーニングシステム IMBUE について,GPT-4 で生成されたものと比較した。 IMBUEは、コミュニケーションスキルと感情管理を同時に重視し、フィードバックの提供に専門家のドメイン知識を取り入れ、心理学理論に基礎を置いている。 86人の被験者によるランダム化試験により、IMBUEのシミュレーションのみの変異は、参加者の自己効力(最大17%)を著しく改善し、負の感情(最大25%)を減少させることがわかった。 IMBUEのさらなるジャスト・イン・タイムフィードバックでは、参加者はスキルの熟達度が17%向上し、自己効力(27%増)とネガティブ感情(16%増)がシミュレーションのみと比較して向上した。 スキル習得の改善は、新しい、より困難な状況に移行する唯一の手段であり、自己効力と感情の低下を改善するためには、状況特異的なトレーニングが必要である。

Navigating certain communication situations can be challenging due to individuals' lack of skills and the interference of strong emotions. However, effective learning opportunities are rarely accessible. In this work, we conduct a human-centered study that uses language models to simulate bespoke communication training and provide just-in-time feedback to support the practice and learning of interpersonal effectiveness skills. We apply the interpersonal effectiveness framework from Dialectical Behavioral Therapy (DBT), DEAR MAN, which focuses on both conversational and emotional skills. We present IMBUE, an interactive training system that provides feedback 25% more similar to experts' feedback, compared to that generated by GPT-4. IMBUE is the first to focus on communication skills and emotion management simultaneously, incorporate experts' domain knowledge in providing feedback, and be grounded in psychology theory. Through a randomized trial of 86 participants, we find that IMBUE's simulation-only variant significantly improves participants' self-efficacy (up to 17%) and reduces negative emotions (up to 25%). With IMBUE's additional just-in-time feedback, participants demonstrate 17% improvement in skill mastery, along with greater enhancements in self-efficacy (27% more) and reduction of negative emotions (16% more) compared to simulation-only. The improvement in skill mastery is the only measure that is transferred to new and more difficult situations; situation specific training is necessary for improving self-efficacy and emotion reduction.
翻訳日:2024-02-21 17:59:35 公開日:2024-02-19
# Archer: 算術的,常識的,仮説的推論を備えた人間ラベルのテキスト-SQLデータセット

Archer: A Human-Labeled Text-to-SQL Dataset with Arithmetic, Commonsense and Hypothetical Reasoning ( http://arxiv.org/abs/2402.12554v1 )

ライセンス: Link先を確認
Danna Zheng, Mirella Lapata, Jeff Z. Pan(参考訳) Archerは、算術、常識、仮説推論を含む複雑な推論に特有な、二言語からSQLへの挑戦的なデータセットである。 1,042の英語質問と1,042の中国語質問に加えて、521のユニークなSQLクエリがあり、20のドメインにわたる20の英語データベースを含んでいる。 このデータセットは、既存の公開データセットと比較して、はるかに高い複雑さを示している。 評価の結果、アーチャーは現在の最先端モデルの能力に挑戦し、スパイダー・リーダーボードの上位モデルではアーチャーテストセットの実行精度は6.73%に過ぎなかった。 したがって、アーチャーはこの分野で将来の研究に重要な課題を提示している。

We present Archer, a challenging bilingual text-to-SQL dataset specific to complex reasoning, including arithmetic, commonsense and hypothetical reasoning. It contains 1,042 English questions and 1,042 Chinese questions, along with 521 unique SQL queries, covering 20 English databases across 20 domains. Notably, this dataset demonstrates a significantly higher level of complexity compared to existing publicly available datasets. Our evaluation shows that Archer challenges the capabilities of current state-of-the-art models, with a high-ranked model on the Spider leaderboard achieving only 6.73% execution accuracy on Archer test set. Thus, Archer presents a significant challenge for future research in this field.
翻訳日:2024-02-21 17:59:07 公開日:2024-02-19
# gpsによる戦場環境におけるステレオビジョンと深層学習を用いたランドマークに基づく位置推定

Landmark-based Localization using Stereo Vision and Deep Learning in GPS-Denied Battlefield Environment ( http://arxiv.org/abs/2402.12551v1 )

ライセンス: Link先を確認
Ganesh Sapkota and Sanjay Madria(参考訳) 戦場環境におけるローカライゼーションは、GPS接続がしばしば否定されるか信頼性が低いこと、また、無線ネットワークをまたいだアンカーノードの物理的配置が敵対的な戦場環境では困難になるため、ますます困難になっている。 既存のレンジフリーなローカライゼーション手法は、無線ベースのアンカーと、無線ネットワークトポロジの精度と安定性に苦しむ平均ホップ距離に依存している。 SLAMやVisual Odometryのような視覚ベースの手法は、地図生成とポーズ推定に高価なセンサー融合技術を使用する。 本稿では,受動的カメラセンサのみを用いた非GPS戦場環境のローカライズのための新しい枠組みを提案し,自然に存在するランドマークや人工ランドマークをアンカーとして考慮する。 提案手法は距離推定にカスタムキャリブ付きステレオビジョンカメラと,ランドマーク認識のための実世界データセットで訓練・微調整したyolov8sモデルを用いる。 効率的なステレオマッチングアルゴリズムを用いて深度画像を生成し、ランドマーク認識モデルにより予測されるバウンディングボックスを用いてランドマーク深度特徴を抽出してランドマーク間距離を決定する。 その後、最小二乗アルゴリズムを用いて未知ノードの位置を求め、L-BFGS-B(限定メモリ準ニュートン符号)法を用いて最適化する。 実験の結果,提案手法は既存のアンカーベースDV-Hopアルゴリズムよりも優れた性能を示し,ローカライゼーション誤差(RMSE)において最も効率的な視覚ベースのアルゴリズムと競合することがわかった。

Localization in a battlefield environment is increasingly challenging as GPS connectivity is often denied or unreliable, and physical deployment of anchor nodes across wireless networks for localization can be difficult in hostile battlefield terrain. Existing range-free localization methods rely on radio-based anchors and their average hop distance which suffers from accuracy and stability in dynamic and sparse wireless network topology. Vision-based methods like SLAM and Visual Odometry use expensive sensor fusion techniques for map generation and pose estimation. This paper proposes a novel framework for localization in non-GPS battlefield environments using only the passive camera sensors and considering naturally existing or artificial landmarks as anchors. The proposed method utilizes a customcalibrated stereo vision camera for distance estimation and the YOLOv8s model, which is trained and fine-tuned with our real-world dataset for landmark recognition. The depth images are generated using an efficient stereomatching algorithm, and distances to landmarks are determined by extracting the landmark depth feature utilizing a bounding box predicted by the landmark recognition model. The position of the unknown node is then obtained using the efficient least square algorithm and then optimized using the L-BFGS-B (limited-memory quasi-Newton code for bound-constrained optimization) method. Experimental results demonstrate that our proposed framework performs better than existing anchorbased DV-Hop algorithms and competes with the most efficient vision-based algorithms in terms of localization error (RMSE).
翻訳日:2024-02-21 17:58:53 公開日:2024-02-19
# エキスパートのマルチ線形混合:因子化によるスケーラブルなエキスパートスペシャライゼーション

Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization ( http://arxiv.org/abs/2402.12550v1 )

ライセンス: Link先を確認
James Oldfield, Markos Georgopoulos, Grigorios G. Chrysos, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Jiankang Deng, Ioannis Patras(参考訳) エキスパートの混合(Mixture of Experts, MOE)パラダイムは、非精細層をより小さく、モジュール化された計算に分解する強力な方法を提供する。 しかし、大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケールする計算コストである。 本稿では,視覚モデルに着目したMMOE(Multilinear Mixutre of Experts)層を提案する。 MMoE層は、大きく大きいテンソルを完全に分解された形で暗黙の計算を行う。 したがって、MMoE は、(1) 人気の 'sparse' MoE モデルにおける離散的エキスパートルーティングによって生じる問題を回避しているが、(2) は 'soft' MoE 代替案の制限的に高い推論時間コストを発生させない。 我々は,視覚タスクのための微調整基礎モデルにおいて,moe層をスケーリングすることは,パラメータマッチングされた線形層の性能と競争力を保ちながら,クラスレベルでより専門的な専門家につながるという質的証拠と量的証拠の両方を提示する。 最後に,CelebA属性分類において,学習専門家の専門性は,より手動による人口統計バイアスの補正を促進することを示す。 私たちのMMoEモデルはhttps://github.com/james-oldfield/MMoEで利用可能です。

The Mixture of Experts (MoE) paradigm provides a powerful way to decompose inscrutable dense layers into smaller, modular computations often more amenable to human interpretation, debugging, and editability. A major problem however lies in the computational cost of scaling the number of experts to achieve sufficiently fine-grained specialization. In this paper, we propose the Multilinear Mixutre of Experts (MMoE) layer to address this, focusing on vision models. MMoE layers perform an implicit computation on prohibitively large weight tensors entirely in factorized form. Consequently, MMoEs both (1) avoid the issues incurred through the discrete expert routing in the popular 'sparse' MoE models, yet (2) do not incur the restrictively high inference-time costs of 'soft' MoE alternatives. We present both qualitative and quantitative evidence (through visualization and counterfactual interventions respectively) that scaling MMoE layers when fine-tuning foundation models for vision tasks leads to more specialized experts at the class-level whilst remaining competitive with the performance of parameter-matched linear layer counterparts. Finally, we show that learned expert specialism further facilitates manual correction of demographic bias in CelebA attribute classification. Our MMoE model code is available at https://github.com/james-oldfield/MMoE.
翻訳日:2024-02-21 17:58:23 公開日:2024-02-19
# TrustScore: LLM応答信頼性の基準フリー評価

TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness ( http://arxiv.org/abs/2402.12545v1 )

ライセンス: Link先を確認
Danna Zheng, Danyang Liu, Mirella Lapata, Jeff Z. Pan(参考訳) 大規模言語モデル(llm)は、様々なドメインにまたがって印象的な能力を示し、実用的な応用が急増した。 しかし、llms出力の信頼性、特にクローズドブックの質問応答タスクでは、非専門家が文脈情報や根拠情報がないために不正確性を特定するのに苦労することがある。 本稿では,llms応答が本質的知識と適合するかどうかを評価する行動整合性の概念に基づくフレームワークであるtrustscoreを提案する。 さらにTrustScoreは、外部知識ソースとの整合性を評価するファクトチェックメソッドとシームレスに統合することができる。 実験結果から,TrustScoreは人間の判断と強い相関関係を示し,既存の基準フリー指標を超越し,基準ベース指標と同等の結果を得ることができた。

Large Language Models (LLMs) have demonstrated impressive capabilities across various domains, prompting a surge in their practical applications. However, concerns have arisen regarding the trustworthiness of LLMs outputs, particularly in closed-book question-answering tasks, where non-experts may struggle to identify inaccuracies due to the absence of contextual or ground truth information. This paper introduces TrustScore, a framework based on the concept of Behavioral Consistency, which evaluates whether an LLMs response aligns with its intrinsic knowledge. Additionally, TrustScore can seamlessly integrate with fact-checking methods, which assesses alignment with external knowledge sources. The experimental results show that TrustScore achieves strong correlations with human judgments, surpassing existing reference-free metrics, and achieving results on par with reference-based metrics.
翻訳日:2024-02-21 17:57:59 公開日:2024-02-19
# 単語とは何か?

What is a word? ( http://arxiv.org/abs/2402.12605v1 )

ライセンス: Link先を確認
Elliot Murphy(参考訳) 語彙アクセスと意味論を分離する強力なパラダイムを設計するためには、単語が何であるかを知る必要がある。 驚くべきことに、言語学者や哲学者は、言葉が人間の生活のあらゆる側面に影響を与えるにもかかわらず、単語が何であるか明確なモデルを持っている。 言語に関する学術論文を定期的に出版する研究者は、しばしば古くなった、または不正確な言葉化に関する仮定に依存する。 この短い教育文書は、レキシコンが(しばしば間違えられるが)最も確実にそうでないもの、それが何であるか(現在の良い理論に基づく)、そして実験設計にどのような意味があるのかを概説している。

In order to design strong paradigms for isolating lexical access and semantics, we need to know what a word is. Surprisingly few linguists and philosophers have a clear model of what a word is, even though words impact basically every aspect of human life. Researchers that regularly publish academic papers about language often rely on outdated, or inaccurate, assumptions about wordhood. This short pedagogical document outlines what the lexicon is most certainly not (though is often mistakenly taken to be), what it might be (based on current good theories), and what some implications for experimental design are.
翻訳日:2024-02-21 17:47:18 公開日:2024-02-19
# シャットリングを備えた2$\times$N配列上の早期耐故障性に向けて

Towards early fault tolerance on a 2$\times$N array of qubits equipped with shuttling ( http://arxiv.org/abs/2402.12599v1 )

ライセンス: Link先を確認
Adam Siegel, Armands Strikis and Michael Fogarty(参考訳) 局所的に相互作用する量子ビットの2次元グリッドは、フォールトトレラント量子コンピューティングを実現するための有望なプラットフォームであるとよく理解されている。 しかし、近い将来、低次元の構造を開発することは難しくなるかもしれない。 本稿では,そのような制約付きアーキテクチャは耐故障性もサポートできることを示す。特に,非隣り合う量子ビット間の相互作用が,配列の行に沿って論理情報をシャットダウンすることで可能となる2$\times$N配列を探索する。 この設定の明らかな制約にもかかわらず、エラー訂正が可能であることを示し、このプラットフォームに自然に適合するコードのクラスを特定する。 シリコンスピン量子ビットは,我々の要求を満たすと信じられている量子ビットの実用的な例として,表面コードによる全普遍量子計算を実現するためのプロトコルを提供するとともに,シリコンスピン量子ビットデバイスに特有の追加制約に対処する。 数値シミュレーションにより,本アーキテクチャの性能を現実的な雑音モデルを用いて評価し,曲面符号とより複雑なqLDPC符号の両方がゲートおよびシャットリングノイズを効果的に抑制し,古典的に難解な状態下で量子アルゴリズムの実行を可能にすることを実証した。 この研究により、古典的マシンを上回る量子アルゴリズムの実行に一歩近づいた。

It is well understood that a two-dimensional grid of locally-interacting qubits is a promising platform for achieving fault tolerant quantum computing. However in the near-future, it may prove less challenging to develop lower dimensional structures. In this paper, we show that such constrained architectures can also support fault tolerance; specifically we explore a 2$\times$N array of qubits where the interactions between non-neighbouring qubits are enabled by shuttling the logical information along the rows of the array. Despite the apparent constraints of this setup, we demonstrate that error correction is possible and identify the classes of codes that are naturally suited to this platform. Focusing on silicon spin qubits as a practical example of qubits believed to meet our requirements, we provide a protocol for achieving full universal quantum computation with the surface code, while also addressing the additional constraints that are specific to a silicon spin qubit device. Through numerical simulations, we evaluate the performance of this architecture using a realistic noise model, demonstrating that both surface code and more complex qLDPC codes efficiently suppress gate and shuttling noise to a level that allows for the execution of quantum algorithms within the classically intractable regime. This work thus brings us one step closer to the execution of quantum algorithms that outperform classical machines.
翻訳日:2024-02-21 17:47:07 公開日:2024-02-19
# スパースおよび部分多変量観測によるグラフベース仮想センシング

Graph-based Virtual Sensing from Sparse and Partial Multivariate Observations ( http://arxiv.org/abs/2402.12598v1 )

ライセンス: Link先を確認
Giovanni De Felice, Andrea Cini, Daniele Zambon, Vladimir V. Gusev, Cesare Alippi(参考訳) 仮想センシング技術は、異なる場所の物理的センサーからの時空間的測定を活用し、新しい監視されていない場所での信号の推測を可能にする。 しかし、コストその他の制約によりセンサーのカバレッジが狭くなるため、補間を支援するために物理的な近接は利用できない。 本稿では,対象変数と関連変数の集合(共変量)の依存関係を利用して,興味のある場所ごとに頻繁に関連付けることで,この課題を克服する。 この観点から、共変項は部分的可観測性を提供し、問題は、他の場所での観測を活用して、観測されていないチャネルの値を推測することで、そのような変数がどう相関するかを学ぶことである。 本稿では,このような関係を活用し,ggnetと呼ばれるグラフディープラーニングアーキテクチャを設計するための新しいグラフベース手法を提案する。 提案手法は,変数間の依存関係や位置の学習に使用されるネストグラフ構造上の情報伝達に依存する。 GgNetは様々な仮想センシングシナリオで広く評価されており、最先端技術と比較して高い再現精度を示している。

Virtual sensing techniques allow for inferring signals at new unmonitored locations by exploiting spatio-temporal measurements coming from physical sensors at different locations. However, as the sensor coverage becomes sparse due to costs or other constraints, physical proximity cannot be used to support interpolation. In this paper, we overcome this challenge by leveraging dependencies between the target variable and a set of correlated variables (covariates) that can frequently be associated with each location of interest. From this viewpoint, covariates provide partial observability, and the problem consists of inferring values for unobserved channels by exploiting observations at other locations to learn how such variables can correlate. We introduce a novel graph-based methodology to exploit such relationships and design a graph deep learning architecture, named GgNet, implementing the framework. The proposed approach relies on propagating information over a nested graph structure that is used to learn dependencies between variables as well as locations. GgNet is extensively evaluated under different virtual sensing scenarios, demonstrating higher reconstruction accuracy compared to the state-of-the-art.
翻訳日:2024-02-21 17:46:43 公開日:2024-02-19
# 大規模mimoにおける多項式展開型検出:モデル駆動型ディープラーニングアプローチ

Truncated Polynomial Expansion-Based Detection in Massive MIMO: A Model-Driven Deep Learning Approach ( http://arxiv.org/abs/2402.12595v1 )

ライセンス: Link先を確認
Kazem Izadinasab, Ahmed Wagdy Shaban, Oussama Damen(参考訳) 本稿では,Truncated polynomial expansion (TPE) を用いて,Hermitian行列の逆行列を効率的に計算するためのディープラーニング(DL)に基づくアプローチを提案する。 モデル駆動型アプローチでは、与えられたTPE項のオフライントレーニング手順において、TPEの係数を最適化する。 本手法は,ゼロ強制 (ZF) や最小平均二乗誤差 (MMSE) などの線形検出器が必要とする行列逆演算をTPEを用いて近似する,アップリンク多重出力多重出力 (MIMO) システムにおける信号検出に適用する。 シミュレーションの結果,学習したTPE法は,オンライン学習段階を犠牲にして,漸近収束速度の観点から従来のTPE法よりも優れており,オンライン検出段階の計算複雑性を低減していることがわかった。 しかし、トレーニング可能なパラメータの数が少ないと、オフライントレーニングプロセスが高速になる。

In this paper, we propose a deep learning (DL)-based approach for efficiently computing the inverse of Hermitian matrices using truncated polynomial expansion (TPE). Our model-driven approach involves optimizing the coefficients of the TPE during an offline training procedure for a given number of TPE terms. We apply this method to signal detection in uplink massive multiple-input multiple-output (MIMO) systems, where the matrix inverse operation required by linear detectors, such as zero-forcing (ZF) and minimum mean square error (MMSE), is approximated using TPE. Our simulation results demonstrate that the proposed learned TPE-based method outperforms the conventional TPE method with optimal coefficients in terms of asymptotic convergence speed and reduces the computational complexity of the online detection stage, albeit at the expense of the offline training stage. However, the limited number of trainable parameters leads to a swift offline training process.
翻訳日:2024-02-21 17:46:24 公開日:2024-02-19
# 標準化: 専門家によるコンテンツ生成の基準付き言語モデル

Standardize: Aligning Language Models with Expert-Defined Standards for Content Generation ( http://arxiv.org/abs/2402.12593v1 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Gail Forey, Harish Tayyar Madabushi(参考訳) 工学、医療、教育の分野の専門家は、技術マニュアル、医薬品の指示、児童の読書資料などの質の高いコンテンツを作るための厳格な基準に従っている。 しかし、制御可能なテキスト生成における現在の研究は、制御のための参照としてこれらの標準を使用することをまだ検討していない。 そこで本研究では,大規模言語モデルをエキスパート定義標準に適合させるための,検索スタイルのインコンテキスト学習ベースのフレームワークであるStandardizeを紹介する。 教育領域における英語の標準をユースケースとして、オープンエンドコンテンツ生成の課題として、CEFR(Common European Framework of Reference for Languages)とCCS(Common Core Standards)を考察する。 その結果、llama2とgpt-4の精度は40%から100%向上し、標準から抽出した知識アーティファクトを生成プロセスに統合することで、より優れた標準整合コンテンツを生成するためのモデルを効果的に誘導できることが示されている。

Domain experts across engineering, healthcare, and education follow strict standards for producing quality content such as technical manuals, medication instructions, and children's reading materials. However, current works in controllable text generation have yet to explore using these standards as references for control. Towards this end, we introduce Standardize, a retrieval-style in-context learning-based framework to guide large language models to align with expert-defined standards. Focusing on English language standards in the education domain as a use case, we consider the Common European Framework of Reference for Languages (CEFR) and Common Core Standards (CCS) for the task of open-ended content generation. Our findings show that models can gain 40% to 100% increase in precise accuracy for Llama2 and GPT-4, respectively, demonstrating that the use of knowledge artifacts extracted from standards and integrating them in the generation process can effectively guide models to produce better standard-aligned content.
翻訳日:2024-02-21 17:46:05 公開日:2024-02-19
# テラヘルツ場駆動光学空洞におけるフェルミオン鎖の超高速ダイナミクス

Ultrafast dynamics of a fermion chain in a terahertz field-driven optical cavity ( http://arxiv.org/abs/2402.12591v1 )

ライセンス: Link先を確認
Mohsen Yarmohammadi, John Sous, Marin Bukov, and Michael H. Kolodrubetz(参考訳) 放散誘起非線形性と二次結合を有するフェルミオン鎖の超高速制御に対するテラヘルツ場駆動単一キャビティモードの効果について検討した。 キャビティからの光子損失がなければ, フォノン-ポラリトンのみの非平衡定常状態の1次相転移が発見され, 光子へのレーザー誘起ドレッシング効果による光子周波数に対する周波数応答が非対称な偏光子が出現する。 弱いレーザー磁場は相転移を誘導しないが、ポラリトンを対称に描画する。 最後に, キャビティからの十分な光子損失は, 偏光子と関連する相転移を除去することを示した。 これらの現象の実験的実現可能性も提案されている。

We study the effect of a terahertz field-driven single cavity mode for ultrafast control of a fermion chain with dissipation-induced nonlinearity and quadratic coupling to an infrared-active phonon mode. Without photon loss from the cavity, we uncover a first-order phase transition in the nonequilibrium steady state only for the lower phonon-polariton, accompanied by polaritons whose frequency response is asymmetric with respect to the photon frequency due to the direct laser-induced dressing effect on the photon. A weak laser field fails to induce the phase transition but renders the polaritons symmetrical. Finally, we show that sufficiently strong photon loss from the cavity eliminates the polaritons and the associated phase transition. The experimental feasibility of these phenomena is also proposed.
翻訳日:2024-02-21 17:45:46 公開日:2024-02-19
# 人類の多様性を高め、自己統制を可能にするai集団の進化

Evolving AI Collectives to Enhance Human Diversity and Enable Self-Regulation ( http://arxiv.org/abs/2402.12590v1 )

ライセンス: Link先を確認
Shiyang Lai, Yujin Potter, Junsol Kim, Richard Zhuang, Dawn Song, James Evans(参考訳) 大規模言語モデルは、他者が生成したテキストに基づいて行動する。 この能力とオンライン設定におけるその普及傾向は、意図的または意図的に相互に"プログラム"し、創発的なAIの主観、関係、集団を形成することを後押しします。 ここでは研究コミュニティに対して,人間社会やオンライン環境の健全性に対するリスクを軽減するために,対話型人工知能の「社会的な」特性を調査するよう呼びかける。 我々は、このような創発的で分散化されたAI集団が人間の多様性の境界を広げ、有害で反社会的行動のリスクをオンラインで減らす方法を説明するために、シンプルなモデルとその出力を使用します。 最後に、AIの自己修正の機会について議論し、分散化されたAI集団の作成と維持に関連する倫理的問題と設計上の課題に対処する。

Large language models steer their behaviors based on texts generated by others. This capacity and their increasing prevalence in online settings portend that they will intentionally or unintentionally "program" one another and form emergent AI subjectivities, relationships, and collectives. Here, we call upon the research community to investigate these "society-like" properties of interacting artificial intelligences to increase their rewards and reduce their risks for human society and the health of online environments. We use a simple model and its outputs to illustrate how such emergent, decentralized AI collectives can expand the bounds of human diversity and reduce the risk of toxic, anti-social behavior online. Finally, we discuss opportunities for AI self-moderation and address ethical issues and design challenges associated with creating and maintaining decentralized AI collectives.
翻訳日:2024-02-21 17:45:30 公開日:2024-02-19
# 高飽和出力のポンプ効率ジョセフソンパラメトリック増幅器

Pump-efficient Josephson parametric amplifiers with high saturation power ( http://arxiv.org/abs/2402.12586v1 )

ライセンス: Link先を確認
Nicholas M. Hougland, Zhuan Li, Ryan Kaufman, Boris Mesits, Roger S. K. Mong, Michael Hatridge, David Pekker(参考訳) 回路QEDに基づく量子情報処理は、信号読み出しの低雑音増幅に依存する。 マイクロ波超伝導回路の領域では、この増幅はしばしばジョセフソンパラメトリック増幅器(JPA)によって達成される。 過去には、これらの増幅器は低電力付加効率(pae)を示しており、これは出力信号出力に変換されるポンプ電力の約半分であった。 これは、高飽和電力増幅器を非常に低いpaeのコストで製造しようとする最近の試みが、クライオスタットに高い熱負荷を与え、希釈冷凍機がホストできるこれらの機器の数を制限することで、ますます重要になっている。 ここでは,pae上の上限を数値的に検討する。 非線形インダクティブブロックにより遮断されたコンデンサからなるパラメトリック増幅器のクラスに注目した。 まず, 任意の多項式電流位相関係で記述される非線形ブロックを考慮し, この種類の増幅器のベンチマークを設定した。 次に非線形ブロックの2つの回路実装を提案する。 最後に、連鎖多項式増幅器について検討する。 高い利得の増幅器は低いPAEを持つが、利得に関係なく、最先端の装置と比較して改善の余地は十分にある。 例えば、パワーゲイン20dBの位相感度増幅器の場合、PAEは典型的なJPAでは0.1%、より単純な回路JPAでは5.9%、より複雑な回路JPAでは34%、任意の多項式増幅器では48%、連鎖増幅器では95%である。

Circuit QED based quantum information processing relies on low noise amplification for signal readout. In the realm of microwave superconducting circuits, this amplification is often achieved via Josephson parametric amplifiers (JPA). In the past, these amplifiers exhibited low power added efficiency (PAE), which is roughly the fraction of pump power that is converted to output signal power. This is increasingly relevant because recent attempts to build high saturation power amplifiers achieve this at the cost of very low PAE, which in turn puts a high heat load on the cryostat and limits the number of these devices that a dilution refrigerator can host. Here, we numerically investigate upper bounds on PAE. We focus on a class of parametric amplifiers that consists of a capacitor shunted by a nonlinear inductive block. We first set a benchmark for this class of amplifiers by considering nonlinear blocks described by an arbitrary polynomial current-phase relation. Next, we propose two circuit implementations of the nonlinear block. Finally, we investigate chaining polynomial amplifiers. We find that while amplifiers with higher gain have a lower PAE, regardless of the gain there is considerable room to improve as compared to state of the art devices. For example, for a phase-sensitive amplifier with a power gain of 20 dB, the PAE is ~0.1% for typical JPAs, 5.9% for our simpler circuit JPAs, 34% for our more complex circuit JPAs, 48% for our arbitrary polynomial amplifiers, and at least 95% for our chained amplifiers.
翻訳日:2024-02-21 17:45:14 公開日:2024-02-19
# 自然言語生成における幻覚の実態調査

Survey of Hallucination in Natural Language Generation ( http://arxiv.org/abs/2202.03629v6 )

ライセンス: Link先を確認
Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Delong Chen, Ho Shu Chan, Wenliang Dai, Andrea Madotto, Pascale Fung(参考訳) 自然言語生成(NLG)は、Transformerベースの言語モデルのようなシーケンス間深層学習技術の開発により、近年指数関数的に改善されている。 この進歩はより流動的で一貫性のあるnlgを生み出し、抽象的な要約、対話生成、データからテキストへの生成といった下流タスクの開発に繋がった。 しかし、深層学習に基づく生成は意図しないテキストを暗示しがちであり、システム性能が低下し、現実世界のシナリオでユーザの期待を満たせないことも明らかである。 この問題に対処するため、幻覚テキストの測定・緩和について多くの研究がなされてきたが、これらを総合的にレビューすることはなかった。 そこで本研究では,nlgにおける幻覚問題における研究の進展と課題について概観する。 調査は,(1)メトリクス,緩和方法,今後の方向性の概観,(2)抽象的要約,対話生成,生成的質問応答,データ・テキスト生成,機械翻訳,視覚言語生成,(3)大規模言語モデル(LLMs)における幻覚に関するタスク固有の研究成果の概観,の2つに分けられる。 本研究は,nlgにおける幻覚テキストの課題に取り組む研究者の協力の促進に寄与する。

Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent NLG, leading to improved development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also apparent that deep learning based generation is prone to hallucinate unintended text, which degrades the system performance and fails to meet user expectations in many real-world scenarios. To address this issue, many studies have been presented in measuring and mitigating hallucinated texts, but these have never been reviewed in a comprehensive manner before. In this survey, we thus provide a broad overview of the research progress and challenges in the hallucination problem in NLG. The survey is organized into two parts: (1) a general overview of metrics, mitigation methods, and future directions; (2) an overview of task-specific research progress on hallucinations in the following downstream tasks, namely abstractive summarization, dialogue generation, generative question answering, data-to-text generation, machine translation, and visual-language generation; and (3) hallucinations in large language models (LLMs). This survey serves to facilitate collaborative efforts among researchers in tackling the challenge of hallucinated texts in NLG.
翻訳日:2024-02-21 07:56:36 公開日:2024-02-19
# 熱力学による古典情報伝送の定量化

Quantifying classical information transmission by thermodynamics ( http://arxiv.org/abs/2201.12110v2 )

ライセンス: Link先を確認
Chung-Yun Hsieh(参考訳) エネルギー伝達と情報伝達は自然の2つの基本的な側面である。 両者は無関係にみえるが、近年の研究では両者の深い関係が明らかになっている。 古典ビットを特定のエネルギー交換タスクとして同等に送信し、それによってそれらの間の基礎的な関係を明らかにするプロセスを句できるだろうか? 我々は、古典的なコミュニケーションタスクの幅広いクラスにおいて、量子力学を通して古典的な情報の$n$ビットを伝達することは、熱力学的なワーク抽出タスクにおいて、$n$のエネルギー単位を抽出することと等価であることを示した。 この発見は、情報伝達とエネルギー抽出タスクを分析的に対応させるだけでなく、熱力学による古典的コミュニケーションを定量化する。 漸近的な方法では、量子通信理論においてよく知られたホールボ・シュマヒャー・ウェストモアランドの定理に熱力学的意味を与える。

Energy transfer and information transmission are two fundamental aspects of nature. They are seemingly unrelated, while recent findings suggest that a deep connection between them is to be discovered. This amounts to asking: can we phrase the processes of transmitting classical bits equivalently as specific energy-exchanging tasks, thereby uncovering foundational links between them? We answer this question positively by showing that, for a broad class of classical communication tasks, transmitting $n$ bits of classical information via quantum dynamics is equivalent to extracting $n$ units of energy in a thermodynamic work-extraction task. This finding not only provides an analytical correspondence between information transmission and energy extraction tasks but also quantifies classical communication by thermodynamics. In the asymptotic regime, our results further provide thermodynamic meanings for the well-known Holevo-Schumacher-Westmoreland Theorem in quantum communication theory.
翻訳日:2024-02-21 07:56:14 公開日:2024-02-19
# SGDと適応学習規則で学習した表現:ニューラルネットワークの空間性と選択性が異なる条件

Representations learnt by SGD and Adaptive learning rules: Conditions that vary sparsity and selectivity in neural network ( http://arxiv.org/abs/2201.11653v2 )

ライセンス: Link先を確認
Jin Hyun Park(参考訳) 人間の脳の観点からは、連続学習は相互干渉なしに様々なタスクを遂行することができる。 相互干渉を減らす効果的な方法はニューロンのスパーシティと選択性に見ることができる。 Aljundi et al. と Hadsell et al. によれば、疎神経の活性化はパラメータ間の重複を減らし、干渉を減らすため、表現レベルでの間隔を付与することは連続的な学習に有利である。 同様に、高選択性ニューラルネットワークは、ニューロン内の特定の応答が他のパラメータと重複する確率を減らすため、干渉を減少させる可能性がある。 人間の脳が生涯にわたって継続的な学習を行うことを考えると、空間性や選択性が自然に生じる条件を見つけることは、脳がどのように機能するかを理解する洞察を与える可能性がある。 本稿では,ニューラルネットワークにおいて自然にスパーシティと選択性を高める様々な条件について検討する。 mnist分類タスクにおいて,hoyerのsparsityメトリックとccmas選択度メトリックを用いて異なる最適化器をテストした。 神経科学や機械学習のどの分野においても、様々な条件におけるスパーシティの自然発生と選択性に関する調査は、今日まで認められていないことに留意する必要がある。 本稿では,学習率の増大やバッチサイズの低下など,特定の条件がスパーシティと選択性を高めることを見出した。 条件,スパーシティ,選択性の関係に加えて,経験的分析に基づいて,次のことが議論される。 一 空間と選択性及び選択性の関係 2. 検査精度, 疎度, 選択性の関係

From the point of view of the human brain, continual learning can perform various tasks without mutual interference. An effective way to reduce mutual interference can be found in sparsity and selectivity of neurons. According to Aljundi et al. and Hadsell et al., imposing sparsity at the representational level is advantageous for continual learning because sparse neuronal activations encourage less overlap between parameters, resulting in less interference. Similarly, highly selective neural networks are likely to induce less interference since particular response in neurons will reduce the chance of overlap with other parameters. Considering that the human brain performs continual learning over the lifespan, finding conditions where sparsity and selectivity naturally arises may provide insight for understanding how the brain functions. This paper investigates various conditions that naturally increase sparsity and selectivity in a neural network. This paper tested different optimizers with Hoyer's sparsity metric and CCMAS selectivity metric in MNIST classification task. It is essential to note that investigations on the natural occurrence of sparsity and selectivity concerning various conditions have not been acknowledged in any sector of neuroscience nor machine learning until this day. This paper found that particular conditions increase sparsity and selectivity such as applying a large learning rate and lowering a batch size. In addition to the relationship between the condition, sparsity, and selectivity, the following will be discussed based on empirical analysis: 1. The relationship between sparsity and selectivity and 2. The relationship between test accuracy, sparsity, and selectivity.
翻訳日:2024-02-21 07:55:58 公開日:2024-02-19
# 問合せ複雑性尺度とその対称関数の関係について

On query complexity measures and their relations for symmetric functions ( http://arxiv.org/abs/2110.12616v5 )

ライセンス: Link先を確認
Rajat Mittal, Sanjay S Nair, Sunayana Patro(参考訳) クエリモデルの複雑性理論と量子コンピューティングにおける優位性の主な理由は、多項式と逆法という具体的な下界技術の存在である。 これらの手法を用いて下限を下限に定め、決定木に基づく他の指標と比較・比較する試みが盛んに行われている。 量子クエリの複雑性に対するこれらの下限の値と、対称関数のクラスに対する他の決定木に基づく複雑性測度との関係について、おそらく最も自然で基本的なブール関数の集合の1つである。 本論文では,任意の対称関数に対する正逆法とプライベートコイン証明書ゲーム複雑性の平方根の双対に対する明示的な構成を示す。 これは、2つの値がいかなる対称関数に対しても区別できないことを示している。 さらに,最近導入されたスペクトル感度の測定値は,全対称ブール関数の正の逆数と近似次数の両方と同じ値を与えることを示した。 さらに,部分対称関数であるgap majorityの量子クエリ複雑性についても考察する。 ランダム化クエリの複雑さの構成を理解する上で,近年重要になっている。 我々はギャップ多数の量子クエリの複雑性を特徴付け、ノイズの多いランダムなクエリの複雑性(ben-david and blais, focs 2020)を量子クエリの複雑さの観点から下限に示す。 最後に,証明の複雑さとブロック感度が,対称関数に対する感度(定数要素まで)と比較していかに大きいかを検討する。 強固な分離、すなわち、可能な分離の上限を与え、同じことを達成する構成関数を示す。

The main reason for query model's prominence in complexity theory and quantum computing is the presence of concrete lower bounding techniques: polynomial and adversary method. There have been considerable efforts to give lower bounds using these methods, and to compare/relate them with other measures based on the decision tree. We explore the value of these lower bounds on quantum query complexity and their relation with other decision tree based complexity measures for the class of symmetric functions, arguably one of the most natural and basic sets of Boolean functions. We show an explicit construction for the dual of the positive adversary method and also of the square root of private coin certificate game complexity for any total symmetric function. This shows that the two values can't be distinguished for any symmetric function. Additionally, we show that the recently introduced measure of spectral sensitivity gives the same value as both positive adversary and approximate degree for every total symmetric Boolean function. Further, we look at the quantum query complexity of Gap Majority, a partial symmetric function. It has gained importance recently in regard to understanding the composition of randomized query complexity. We characterize the quantum query complexity of Gap Majority and show a lower bound on noisy randomized query complexity (Ben-David and Blais, FOCS 2020) in terms of quantum query complexity. Finally, we study how large certificate complexity and block sensitivity can be as compared to sensitivity for symmetric functions (even up to constant factors). We show tight separations, i.e., give upper bounds on possible separations and construct functions achieving the same.
翻訳日:2024-02-21 07:55:12 公開日:2024-02-19
# ポリシー最適化のための分散削減に基づく経験リプレイ

Variance Reduction Based Experience Replay for Policy Optimization ( http://arxiv.org/abs/2110.08902v3 )

ライセンス: Link先を確認
Hua Zheng, Wei Xie, M. Ben Feng(参考訳) 複雑な確率システムの強化学習には、過去の繰り返しで収集した履歴サンプルの情報を有効に活用し、政策最適化を加速することが望ましい。 古典的な経験は、効果はあるものの、すべての観察を均一に扱い、相対的な重要性を無視している。 この制限に対処するために,新しい分散削減エクスペリエンスリプレイ(vrer)フレームワークを導入し,関連するサンプルを選択的に再利用することで,ポリシ勾配推定を改善する。 VRERは、異なるポリシー最適化アルゴリズムとシームレスに統合できる適応可能な方法として、我々のサンプル効率の良いオフポリチアルゴリズムであるPG-VRER(Policy Optimization with VRER)の基礎を形成します。 さらに,経験リプレイ法の厳密な理論的理解の欠如は,マルコフ雑音と行動政策の相互依存性によって引き起こされるサンプル依存性を考慮した新しい理論的枠組みの導入を動機付ける。 このフレームワークは、vrerベースのポリシー最適化アルゴリズムの有限時間収束を分析し、ポリシー勾配推定における重要なバイアス分散トレードオフを明らかにするために使われます。 大規模な実験により、VRERは最適ポリシーの学習において顕著な加速を提供し、最先端(SOTA)ポリシー最適化アプローチの性能を向上させることが示されている。

For reinforcement learning on complex stochastic systems, it is desirable to effectively leverage the information from historical samples collected in previous iterations to accelerate policy optimization. Classical experience replay, while effective, treats all observations uniformly, neglecting their relative importance. To address this limitation, we introduce a novel Variance Reduction Experience Replay (VRER) framework, enabling the selective reuse of relevant samples to improve policy gradient estimation. VRER, as an adaptable method that can seamlessly integrate with different policy optimization algorithms, forms the foundation of our sample-efficient off-policy algorithm known as Policy Optimization with VRER (PG-VRER). Furthermore, the lack of a rigorous theoretical understanding of the experience replay method in the literature motivates us to introduce a novel theoretical framework that accounts for sample dependencies induced by Markovian noise and behavior policy interdependencies. This framework is then employed to analyze the finite-time convergence of our VRER-based policy optimization algorithm, revealing a crucial bias-variance trade-off in policy gradient estimates: the reuse of old experience introduces increased bias while simultaneously reducing gradient variance. Extensive experiments have shown that VRER offers a notable acceleration in learning optimal policies and enhances the performance of state-of-the-art (SOTA) policy optimization approaches.
翻訳日:2024-02-21 07:54:50 公開日:2024-02-19
# ブラインド画像品質モデルの連続学習のためのタスク特化正規化

Task-Specific Normalization for Continual Learning of Blind Image Quality Models ( http://arxiv.org/abs/2107.13429v3 )

ライセンス: Link先を確認
Weixia Zhang and Kede Ma and Guangtao Zhai and Xiaokang Yang(参考訳) 本稿では,品質予測精度,可塑性安定性トレードオフ,タスク順序/長寿命ロバスト性を改善したbiqaのための簡易かつ効果的な連続学習手法を提案する。 このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明確に保証し、可塑性のタスク固有の正規化パラメータを学習することだ。 我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。 最終的な品質推定はブラックによって計算され、軽量なk$-meansゲーティング機構で全てのヘッドからの予測の重み付け和が計算される。 6つのIQAデータセットに対する大規模な実験は、BIQAの以前のトレーニング手法と比較して提案手法の利点を示している。

In this paper, we present a simple yet effective continual learning method for blind image quality assessment (BIQA) with improved quality prediction accuracy, plasticity-stability trade-off, and task-order/-length robustness. The key step in our approach is to freeze all convolution filters of a pre-trained deep neural network (DNN) for an explicit promise of stability, and learn task-specific normalization parameters for plasticity. We assign each new IQA dataset (i.e., task) a prediction head, and load the corresponding normalization parameters to produce a quality score. The final quality estimate is computed by black a weighted summation of predictions from all heads with a lightweight $K$-means gating mechanism. Extensive experiments on six IQA datasets demonstrate the advantages of the proposed method in comparison to previous training techniques for BIQA.
翻訳日:2024-02-21 07:54:29 公開日:2024-02-19
# 最も正確な量子熱電図

The most accurate quantum thermoelectric ( http://arxiv.org/abs/2106.10205v3 )

ライセンス: Link先を確認
Andre M. Timpanaro, Giacomo Guarnieri and Gabriel T. Landi(参考訳) 熱力学的不確かさ関係(TURs)は、ナノスケールデバイスにおける電流のノイズ-信号比(精度)に基礎的な下界を置くことができる非平衡物理学のベンチマーク結果である。 当初、古典的時間同質マルコフ過程のために定式化されたこれらの関係は、量子コヒーレント輸送をサポートする熱電エンジンや太陽電池装置に違反することが示されている。 しかし、これらの違反が発生する程度は、まだパズルの欠片を表している。 本研究では、一般のランドウアー-b\"uttiker形式論において、例えば線形応答のような摂動的レジームを超えた決定的な方法でそのような答えを提供する。 特に, 熱電デバイスの信頼性を最大化する伝達関数(定常電流の変動を最小化する)がボックスカー関数の集合であることを, 解析的制約最適化手法を用いて厳密に実証した。 これにより、温度や化学的ポテンシャル勾配に応じて、TURが任意に大量に違反できることを示し、最適デバイスの設計のガイドラインを提供する。

Thermodynamic Uncertainty Relations (TURs) represent a benchmark result in non-equilibrium physics that allows to place fundamental lower bounds on the noise-to-signal ratio (precision) of currents in nanoscale devices. Originally formulated for classical time-homogeneous Markov processes, these relations, were shown to be violated in thermoelectric engines and photovoltaic devices supporting quantum-coherent transport. However, the extent to which these violations may occur still represent a missing piece of the puzzle. In this work we provide such answer in a definitive way within the general Landauer-B\"uttiker formalism beyond any perturbative regime, e.g. linear response. In particular, using analytical constrained-optimization techniques, we rigorously demonstrate that the transmission function which maximizes the reliability of thermoelectric devices (i.e. which minimizes the fluctuations of its steady-state currents) for fixed average power and efficiency is a collection of boxcar functions. This allows us to show that TURs can be violated by arbitrarily large amounts, depending on the temperature and chemical potential gradients, thus providing guidelines to the design of optimal devices.
翻訳日:2024-02-21 07:54:15 公開日:2024-02-19
# 量子スピンダイナミクスのための軌道分解ワイス場

Trajectory-Resolved Weiss Fields for Quantum Spin Dynamics ( http://arxiv.org/abs/2209.09409v3 )

ライセンス: Link先を確認
S. E. Begg, A. G. Green, and M. J. Bhaseen(参考訳) 古典的確率過程への厳密なマッピングを用いて、2次元および3次元の量子スピン系のダイナミクスを探索する。 近年の研究では、確率的に平均化されたWeiss場によって決定された平均場の進化に関するサンプリングの有効性について検討した。 ここでは,各確率軌跡を別々に取り込んだ即時ワイス場をサンプリングすることにより,このアプローチを著しく拡張できることを示す。 この軌道分解アプローチはサンプルをサンプルゆらぎに取り入れ、より長いシミュレーション時間を可能にする。 2次元および3次元量子イジングモデルにおけるクエンチに対するこのアプローチの有用性を実証する。 平均ワイス場が消滅する状況では特に有利であるが、軌道分解ワイス場はゼロではない。 我々は、軌跡分解されたワイス場をゲージ自由度として解釈できるゲージ-P位相空間アプローチへの接続について議論する。

We explore the dynamics of quantum spin systems in two and three dimensions using an exact mapping to classical stochastic processes. In recent work we explored the effectiveness of sampling around the mean field evolution as determined by a stochastically averaged Weiss field. Here, we show that this approach can be significantly extended by sampling around the instantaneous Weiss field associated with each stochastic trajectory taken separately. This trajectory-resolved approach incorporates sample to sample fluctuations and allows for longer simulation times. We demonstrate the utility of this approach for quenches in the two-dimensional and three-dimensional quantum Ising model. We show that the method is particularly advantageous in situations where the average Weiss-field vanishes, but the trajectory-resolved Weiss fields are non-zero. We discuss the connection to the gauge-P phase space approach, where the trajectory-resolved Weiss field can be interpreted as a gauge degree of freedom.
翻訳日:2024-02-21 07:50:03 公開日:2024-02-19
# クラス不均衡下における学習ダイナミクスの理論解析

A Theoretical Analysis of the Learning Dynamics under Class Imbalance ( http://arxiv.org/abs/2207.00391v4 )

ライセンス: Link先を確認
Emanuele Francazi, Marco Baity-Jesi, Aurelien Lucchi(参考訳) データ不均衡は機械学習において一般的な問題であり、モデルの性能に重大な影響を与える可能性がある。 様々な解決策が存在するが、その学習ダイナミクスの収束への影響は理解されていない。 ここでは,データ不均衡が学習に与える影響を解明し,マイノリティクラスとマイノリティクラスの学習曲線が,グラデーションに基づくオプティマイザを用いた学習において,準最適軌道に従うことを示した。 この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。 我々の主な貢献は、全バッチ(GD)と確率勾配降下(SGD)の収束の解析と、各クラスごとの勾配の寄与を再正規化する変種の分析である。 GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。 SGDでは、クラス不均衡が勾配の方向に付加的な影響を与え、マイノリティクラスは高い指向性ノイズに悩まされ、クラスごとの勾配正規化の有効性が低下する。 以上の結果から,クラス毎の勾配を含む戦略の可能性と限界を把握できるだけでなく,従来使用されていたオーバーサンプリングなどのクラス不均衡に対するソリューションの有効性も把握できた。

Data imbalance is a common problem in machine learning that can have a critical effect on the performance of a model. Various solutions exist but their impact on the convergence of the learning dynamics is not understood. Here, we elucidate the significant negative impact of data imbalance on learning, showing that the learning curves for minority and majority classes follow sub-optimal trajectories when training with a gradient-based optimizer. This slowdown is related to the imbalance ratio and can be traced back to a competition between the optimization of different classes. Our main contribution is the analysis of the convergence of full-batch (GD) and stochastic gradient descent (SGD), and of variants that renormalize the contribution of each per-class gradient. We find that GD is not guaranteed to decrease the loss for each class but that this problem can be addressed by performing a per-class normalization of the gradient. With SGD, class imbalance has an additional effect on the direction of the gradients: the minority class suffers from a higher directional noise, which reduces the effectiveness of the per-class gradient normalization. Our findings not only allow us to understand the potential and limitations of strategies involving the per-class gradients, but also the reason for the effectiveness of previously used solutions for class imbalance such as oversampling.
翻訳日:2024-02-21 07:46:57 公開日:2024-02-19
# 世界規模のAI倫理:AIガバナンスに関する200のガイドラインと勧告のレビュー

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance ( http://arxiv.org/abs/2206.11922v7 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea, Camila Galv\~ao, James William Santos, Carolina Del Pino, Edson Pontes Pinto, Camila Barbosa, Diogo Massmann, Rodrigo Mambrini, Luiza Galv\~ao, Edmund Terem, Nythamar de Oliveira(参考訳) 人工知能(ai)アプリケーションの利用は近年大きく成長し、多くの利点と利便性をもたらしている。 しかし、この拡張はプライバシー侵害、アルゴリズムによる差別、セキュリティと信頼性の問題、透明性、その他の意図しない結果などの倫理的懸念を引き起こしている。 本稿では,AI適用を統制する倫理原則に関する世界的コンセンサスが存在するかどうかを判断し,今後の規制の形成に寄与するために,公共機関,学術機関,民間企業,市民社会団体が世界規模で発行するAI利用に関する200のガバナンス方針と倫理ガイドラインのメタ分析を行う。 私たちは、オープンソースのデータベースとツールとしてリリースされたデータセットのポリシーとガイドラインに共通する少なくとも17の共鳴原則を特定しました。 本研究は, 今後の規制に組み込むべき合意の領域を提示し, 分析結果の批判的分析と組み合わせたグローバルスケール分析研究の実施の限界を提示する。 この作業に関連するすべてのコンポーネントは、https://nkluge-correa.github.io/worldwide_AI-ethics/にある。

The utilization of artificial intelligence (AI) applications has experienced tremendous growth in recent years, bringing forth numerous benefits and conveniences. However, this expansion has also provoked ethical concerns, such as privacy breaches, algorithmic discrimination, security and reliability issues, transparency, and other unintended consequences. To determine whether a global consensus exists regarding the ethical principles that should govern AI applications and to contribute to the formation of future regulations, this paper conducts a meta-analysis of 200 governance policies and ethical guidelines for AI usage published by public bodies, academic institutions, private companies, and civil society organizations worldwide. We identified at least 17 resonating principles prevalent in the policies and guidelines of our dataset, released as an open-source database and tool. We present the limitations of performing a global scale analysis study paired with a critical analysis of our findings, presenting areas of consensus that should be incorporated into future regulatory efforts. All components tied to this work can be found in https://nkluge-correa.github.io/worldwide_AI-ethics/
翻訳日:2024-02-21 07:46:16 公開日:2024-02-19
# 学習進行型マルチエージェントカリキュラム

Learning Progress Driven Multi-Agent Curriculum ( http://arxiv.org/abs/2205.10016v2 )

ライセンス: Link先を確認
Wenshuai Zhao, Zhiyuan Li, Joni Pajarinen(参考訳) CRL(Curriculum reinforcement learning)は、タスクの難易度を徐々に増加させることによって学習を高速化することを目的としている。 単一エージェント環境でのCRLの成功に触発されて、CRLをマルチエージェント強化学習(MARL)に適用しようとする研究がいくつかある。 しかし、既存の作品は通常、線形スキームのような手動で定義されたカリキュラムを使用する。 本稿では,まず,Sparse reward MARLに最先端のシングルエージェントセルフペーストCRLを適用する。 既存の報酬ベースcrl法で作成されるカリキュラムの潜在的な欠陥は,(1)高リターンの課題は有益な学習信号を提供しない可能性,(2)より多くのエージェントが高リターンを得るタスクにおける信用割当の難しさの悪化,の2つである。 これにより、エピソードリターンの代わりに「textit{learning progress}」に基づくタスクを優先するセルフペースMARL(SPMARL)を提案する。 提案手法は,3つの難易度sparse-rewardベンチマークでベースラインを上回るだけでなく,自己ペースcrlよりも高速に収束する。

Curriculum reinforcement learning (CRL) aims to speed up learning by gradually increasing the difficulty of a task, usually quantified by the achievable expected return. Inspired by the success of CRL in single-agent settings, a few works have attempted to apply CRL to multi-agent reinforcement learning (MARL) using the number of agents to control task difficulty. However, existing works typically use manually defined curricula such as a linear scheme. In this paper, we first apply state-of-the-art single-agent self-paced CRL to sparse reward MARL. Although with satisfying performance, we identify two potential flaws of the curriculum generated by existing reward-based CRL methods: (1) tasks with high returns may not provide informative learning signals and (2) the exacerbated credit assignment difficulty in tasks where more agents yield higher returns. Thereby, we further propose self-paced MARL (SPMARL) to prioritize tasks based on \textit{learning progress} instead of the episode return. Our method not only outperforms baselines in three challenging sparse-reward benchmarks but also converges faster than self-paced CRL.
翻訳日:2024-02-21 07:45:30 公開日:2024-02-19
# 複数物体追跡のための共同計数・検出・再同定

Joint Counting, Detection and Re-Identification for Multi-Object Tracking ( http://arxiv.org/abs/2212.05861v3 )

ライセンス: Link先を確認
Weihong Ren, Denglu Wu, Hui Cao, Xi'ai Chen, Zhi Han and Honghai Liu(参考訳) 2次元多重物体追跡(mot)の最近のトレンドは、物体検出と出現機能(または動き)を同時に学習する検出と追跡を共同で解決している。 競争性能にもかかわらず、混雑したシーンでは、共同検出と追跡は通常、ミスや誤検出のために正確なオブジェクト関連を見つけることができない。 本稿では,混み合うシーンに適したエンドツーエンドフレームワークであるCountingMOTのカウント,検出,再識別を共同でモデル化する。 検出とカウントの間にオブジェクトカウントの制約を課すことで、countingmotはオブジェクト検出とクラウド密度マップ推定のバランスを見つけようとする。 私たちのアプローチは、オブジェクトの検出、カウント、再同定のギャップを埋める試みです。 これは、群衆密度を無視して、混み合ったシーンで失敗する傾向にある以前のMOT手法とは対照的である。 提案したMOTトラッカーは、オンラインおよびリアルタイム追跡を行うことができ、公開ベンチマークMOT16(79.7のMOTA)、MOT17(81.3%のMOTA)、MOT20(78.9%のMOTA)の最先端結果が得られる。

The recent trend in 2D multiple object tracking (MOT) is jointly solving detection and tracking, where object detection and appearance feature (or motion) are learned simultaneously. Despite competitive performance, in crowded scenes, joint detection and tracking usually fail to find accurate object associations due to missed or false detections. In this paper, we jointly model counting, detection and re-identification in an end-to-end framework, named CountingMOT, tailored for crowded scenes. By imposing mutual object-count constraints between detection and counting, the CountingMOT tries to find a balance between object detection and crowd density map estimation, which can help it to recover missed detections or reject false detections. Our approach is an attempt to bridge the gap of object detection, counting, and re-Identification. This is in contrast to prior MOT methods that either ignore the crowd density and thus are prone to failure in crowded scenes,or depend on local correlations to build a graphical relationship for matching targets. The proposed MOT tracker can perform online and real-time tracking, and achieves the state-of-the-art results on public benchmarks MOT16 (MOTA of 79.7), MOT17 (MOTA of 81.3%) and MOT20 (MOTA of 78.9%).
翻訳日:2024-02-21 07:36:13 公開日:2024-02-19
# STLGRU:交通流予測のための時空間グラフGRU

STLGRU: Spatio-Temporal Lightweight Graph GRU for Traffic Flow Prediction ( http://arxiv.org/abs/2212.04548v3 )

ライセンス: Link先を確認
Kishor Kumar Bhaumik, Fahim Faisal Niloy, Saif Mahmud, Simon Woo(参考訳) トラフィックフローの信頼性の高い予測には、トラフィックデータの効率的なモデリングが必要である。 実際、異なる相関と影響が動的トラフィックネットワークで発生し、モデリングは複雑なタスクとなる。 既存の文献では、交通ネットワークの複雑な空間的時間的関係を捉える様々な方法が提案されている。 しかし、交通データの異質性を考えると、空間的および時間的依存関係を一貫して捉えることは重大な課題である。 また、より高度な手法が提案されるにつれて、モデルは記憶量が多くなり、低消費電力デバイスには適さないものになっている。 そこで本研究では,トラヒックフローを正確に予測する新しいトラヒック予測モデルであるslgruを提案する。 具体的には,提案するSTLGRUは,メモリ拡張アテンションとゲーティング機構を用いて,トラフィックネットワークの局所的・大域的空間的関係を連続的に同期的に捉えることができる。 さらに、時間的・空間的要素を分離する代わりに、メモリモジュールとゲートユニットが、メモリ使用量が少なく、パラメータが少なく、空間的・時間的依存関係を学習できることを示す。 実世界の3つの公共交通データ集合の広範な実験結果から,本手法は最先端性能を実現するだけでなく,計算効率も高いことが示された。 私たちのコードはhttps://github.com/Kishor-Bhaumik/STLGRUで利用可能です。

Reliable forecasting of traffic flow requires efficient modeling of traffic data. Indeed, different correlations and influences arise in a dynamic traffic network, making modeling a complicated task. Existing literature has proposed many different methods to capture traffic networks' complex underlying spatial-temporal relations. However, given the heterogeneity of traffic data, consistently capturing both spatial and temporal dependencies presents a significant challenge. Also, as more and more sophisticated methods are being proposed, models are increasingly becoming memory-heavy and, thus, unsuitable for low-powered devices. To this end, we propose Spatio-Temporal Lightweight Graph GRU, namely STLGRU, a novel traffic forecasting model for predicting traffic flow accurately. Specifically, our proposed STLGRU can effectively capture dynamic local and global spatial-temporal relations of traffic networks using memory-augmented attention and gating mechanisms in a continuously synchronized manner. Moreover, instead of employing separate temporal and spatial components, we show that our memory module and gated unit can successfully learn the spatial-temporal dependencies with reduced memory usage and fewer parameters. Extensive experimental results on three real-world public traffic datasets demonstrate that our method can not only achieve state-of-the-art performance but also exhibit competitive computational efficiency. Our code is available at https://github.com/Kishor-Bhaumik/STLGRU
翻訳日:2024-02-21 07:35:48 公開日:2024-02-19
# オーバーザ・エアフェデレーション学習における逆実現可能性

Inverse Feasibility in Over-the-Air Federated Learning ( http://arxiv.org/abs/2211.14115v5 )

ライセンス: Link先を確認
Tomasz Piotrowski, Rafail Ismayilov, Matthias Frey, Renato L.G. Cavalcante(参考訳) 線形フォワードモデルに対する逆実現可能性の概念をOTA FLアルゴリズムの強化ツールとして導入する。 逆実現性は、フォワード演算子の条件数上の上限として、そのパラメータの関数として定義される。 この定義を用いて既存のOTA FLモデルを解析し、改善すべき領域を特定し、新しいOTA FLモデルを提案する。 数値実験は理論結果の主な意味を説明している。 提案手法は逆問題理論に基づくもので,既存のセキュリティとプライバシの概念を,ネットワークにさらに望ましい特性を与えることで補完することができる。

We introduce the concept of inverse feasibility for linear forward models as a tool to enhance OTA FL algorithms. Inverse feasibility is defined as an upper bound on the condition number of the forward operator as a function of its parameters. We analyze an existing OTA FL model using this definition, identify areas for improvement, and propose a new OTA FL model. Numerical experiments illustrate the main implications of the theoretical results. The proposed framework, which is based on inverse problem theory, can potentially complement existing notions of security and privacy by providing additional desirable characteristics to networks.
翻訳日:2024-02-21 07:34:44 公開日:2024-02-19
# ヴィジュアルマニフォールドの運動計画

Motion Planning on Visual Manifolds ( http://arxiv.org/abs/2210.04047v2 )

ライセンス: Link先を確認
M Seetha Ramaiah(参考訳) 本稿では,視覚構成空間 (visual configuration space,vcs) と呼ばれる構成空間の概念の代替的キャラクタリゼーションを提案する。 この新しい特徴付けにより、身体的エージェント(例えばロボット)は自身の身体構造を発見し、ランダムなポーズで自身のイメージセットを使用して、身近な空間で障害物のない動きを計画できる。 ここでは,エージェントや障害物,環境の幾何学的知識を前提としない。 我々はVCSの有用性を実証する。 (a)ロボット運動計画のための幾何学自由モデルの構築と作業 b)ヒトの赤ちゃんが運動バブリングを通して、周囲の空間で物体に到達する方法を説明し、 (c)仮想環境におけるデジタルアバターのための自然なヘッドモーションアニメーションを自動生成する。 この研究は、エージェントの画像を用いた多様体と多様体学習の形式主義に基づいており、視覚多様体の運動計画(Motion Planning on Visual Manifolds)と呼ぶ。

In this thesis, we propose an alternative characterization of the notion of Configuration Space, which we call Visual Configuration Space (VCS). This new characterization allows an embodied agent (e.g., a robot) to discover its own body structure and plan obstacle-free motions in its peripersonal space using a set of its own images in random poses. Here, we do not assume any knowledge of geometry of the agent, obstacles or the environment. We demonstrate the usefulness of VCS in (a) building and working with geometry-free models for robot motion planning, (b) explaining how a human baby might learn to reach objects in its peripersonal space through motor babbling, and (c) automatically generating natural looking head motion animations for digital avatars in virtual environments. This work is based on the formalism of manifolds and manifold learning using the agent's images and hence we call it Motion Planning on Visual Manifolds.
翻訳日:2024-02-21 07:32:42 公開日:2024-02-19
# セマンティックセグメンテーションのためのソフトラベリング:ラベルダウンサンプリングにコヒーレンスをもたらす

Soft labelling for semantic segmentation: Bringing coherence to label down-sampling ( http://arxiv.org/abs/2302.13961v3 )

ライセンス: Link先を確認
Roberto Alcover-Couso, Marcos Escudero-Vinolo, Juan C. SanMiguel and Jose M. Martinez(参考訳) セマンティックセグメンテーションでは、限られたリソース、画像サイズをモデル入力に適応させるか、データ拡張を改善する必要があるため、トレーニングデータダウンサンプリングが一般的である。 このダウンサンプリングは通常、画像データと注釈付きラベルに対して異なる戦略を用いる。 このような不一致は、ダウンサンプルカラーとラベルイメージのミスマッチにつながる。 したがって、ダウンサンプリング係数が増加するとトレーニング性能が著しく低下する。 本稿では,画像データとトレーニングラベルのダウンサンプリング戦略を統合する。 そこで本研究では,ソフトラベルによるラベルダウンサンプリングのための新しいフレームワークを提案する。 したがって、ソフトラベルを画像データと完全に整合させ、サンプル画素の分布を維持する。 この提案はまた、未表現のセマンティクスクラスに対する信頼できるアノテーションも生成する。 また、低解像度で競争モデルを訓練することもできる。 実験によると、この提案は他のダウンサンプリング戦略よりも優れている。 さらに、参照ベンチマークでは最先端のパフォーマンスが達成されるが、最上位のアプローチよりも計算資源が大幅に少ない。 本提案は,資源制約下における意味セグメンテーションの競合研究を可能にする。

In semantic segmentation, training data down-sampling is commonly performed due to limited resources, the need to adapt image size to the model input, or improve data augmentation. This down-sampling typically employs different strategies for the image data and the annotated labels. Such discrepancy leads to mismatches between the down-sampled color and label images. Hence, the training performance significantly decreases as the down-sampling factor increases. In this paper, we bring together the down-sampling strategies for the image data and the training labels. To that aim, we propose a novel framework for label down-sampling via soft-labeling that better conserves label information after down-sampling. Therefore, fully aligning soft-labels with image data to keep the distribution of the sampled pixels. This proposal also produces reliable annotations for under-represented semantic classes. Altogether, it allows training competitive models at lower resolutions. Experiments show that the proposal outperforms other down-sampling strategies. Moreover, state-of-the-art performance is achieved for reference benchmarks, but employing significantly less computational resources than foremost approaches. This proposal enables competitive research for semantic segmentation under resource constraints.
翻訳日:2024-02-21 07:24:20 公開日:2024-02-19
# 視覚的説明の定量的評価のコヒーレンスについて

On The Coherence of Quantitative Evaluation of Visual Explanations ( http://arxiv.org/abs/2302.10764v5 )

ライセンス: Link先を確認
Benjamin Vandersmissen, Jose Oramas(参考訳) 近年,視覚的説明を通じてニューラルネットワークの予測を正当化する手法の開発が進んでいる。 これらの説明は、通常、入力画像の各画素にサリエンシー(または関連)値を割り当てるヒートマップの形式をとり、そのピクセルがラベルの予測にどの程度関係しているかを表現する。 この開発を補完し、このような説明の「良さ」を評価する評価手法が提案されている。 一方、これらの手法のいくつかは合成データセットに依存している。 しかし、これはより現実的な設定で適用性に制限があるという弱点をもたらす。 一方で、客観的評価のためのメトリクスに依存する手法もある。 しかし,これらの評価手法のいくつかが相互に作用する程度は定かではない。 このことを考慮し、imagenet-1kバリデーションセットのサブセットを包括的に研究し、一連の評価方法に従って、複数の異なるよく使われる説明方法を評価する。 本研究は,評価手法の信頼性と特徴が評価方法に与える影響を調査する手段として,評価手法の健全性チェックを補完するものである。 本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。 さらに,性能に有意な影響を及ぼす可能性のある空間性など,説明のいくつかの特徴を明らかにした。

Recent years have shown an increased development of methods for justifying the predictions of neural networks through visual explanations. These explanations usually take the form of heatmaps which assign a saliency (or relevance) value to each pixel of the input image that expresses how relevant the pixel is for the prediction of a label. Complementing this development, evaluation methods have been proposed to assess the "goodness" of such explanations. On the one hand, some of these methods rely on synthetic datasets. However, this introduces the weakness of having limited guarantees regarding their applicability on more realistic settings. On the other hand, some methods rely on metrics for objective evaluation. However the level to which some of these evaluation methods perform with respect to each other is uncertain. Taking this into account, we conduct a comprehensive study on a subset of the ImageNet-1k validation set where we evaluate a number of different commonly-used explanation methods following a set of evaluation methods. We complement our study with sanity checks on the studied evaluation methods as a means to investigate their reliability and the impact of characteristics of the explanations on the evaluation methods. Results of our study suggest that there is a lack of coherency on the grading provided by some of the considered evaluation methods. Moreover, we have identified some characteristics of the explanations, e.g. sparsity, which can have a significant effect on the performance.
翻訳日:2024-02-21 07:24:05 公開日:2024-02-19
# 2レベル経験的リスク最小化のための下界と近似最適アルゴリズム

A Lower Bound and a Near-Optimal Algorithm for Bilevel Empirical Risk Minimization ( http://arxiv.org/abs/2302.08766v3 )

ライセンス: Link先を確認
Mathieu Dagr\'eou, Thomas Moreau, Samuel Vaiter, Pierre Ablin(参考訳) 双方向最適化問題は、2つの最適化問題をネストする問題であり、機械学習により多くの応用がある。 多くの場合、上目的と下目的は経験的リスク最小化問題に対応し、従って和構造を持つ。 そこで本研究では,SARAHアルゴリズムの2レベル拡張を提案する。 このアルゴリズムには$\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$グラデーション計算が必要であることを実証する。 さらに,両レベル問題の目的関数のほぼ定常点を得るために必要なオラクル呼び出し数に対して,より低い境界を与える。 この下限はアルゴリズムによって達成され、サンプル複雑性の観点から最適である。

Bilevel optimization problems, which are problems where two optimization problems are nested, have more and more applications in machine learning. In many practical cases, the upper and the lower objectives correspond to empirical risk minimization problems and therefore have a sum structure. In this context, we propose a bilevel extension of the celebrated SARAH algorithm. We demonstrate that the algorithm requires $\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$ gradient computations to achieve $\varepsilon$-stationarity with $n+m$ the total number of samples, which improves over all previous bilevel algorithms. Moreover, we provide a lower bound on the number of oracle calls required to get an approximate stationary point of the objective function of the bilevel problem. This lower bound is attained by our algorithm, which is therefore optimal in terms of sample complexity.
翻訳日:2024-02-21 07:23:43 公開日:2024-02-19
# 説明可能な深層学習による壁面乱流の重要領域の同定

Identifying regions of importance in wall-bounded turbulence through explainable deep learning ( http://arxiv.org/abs/2302.01250v4 )

ライセンス: Link先を確認
Andres Cremades, Sergio Hoyas, Rahul Deshpande, Pedro Quintero, Martin Lellep, Will Junghoon Lee, Jason Monty, Nicholas Hutchins, Moritz Linkmann, Ivan Marusic, Ricardo Vinuesa(参考訳) その科学的、技術的重要性にもかかわらず、壁境界乱流は古典物理学において未解決の問題であり、新しい視点に取り組む必要がある。 重要な戦略の1つは、流れ中のエネルギーを含むコヒーレント構造間の相互作用を研究することである。 このような相互作用を,説明可能な深層学習法を用いて初めて検討した。 乱流流シミュレーションから得られた瞬時速度場を用いて,U-netアーキテクチャを用いて時間内速度場を予測する。 予測フローに基づいて,SHAP(SHapley Additive exPlanations)のゲーム理論アルゴリズムを用いて,この予測における各構造の重要性を評価する。 この研究は、文献における以前の観測結果と一致し、フローにおける最も重要な構造が必ずしもレイノルズせん断応力に最も寄与した構造であるとは限らないことを明らかにすることでそれらを拡張した。 また,本手法を実験データベースに適用し,その重要度に基づいて全く新しい構造を同定する。 この枠組みは、流れ制御の新しい戦略を含む多数の壁境界乱流の基本的な現象に光を当てる可能性がある。

Despite its great scientific and technological importance, wall-bounded turbulence is an unresolved problem in classical physics that requires new perspectives to be tackled. One of the key strategies has been to study interactions among the energy-containing coherent structures in the flow. Such interactions are explored in this study for the first time using an explainable deep-learning method. The instantaneous velocity field obtained from a turbulent channel flow simulation is used to predict the velocity field in time through a U-net architecture. Based on the predicted flow, we assess the importance of each structure for this prediction using the game-theoretic algorithm of SHapley Additive exPlanations (SHAP). This work provides results in agreement with previous observations in the literature and extends them by revealing that the most important structures in the flow are not necessarily the ones with the highest contribution to the Reynolds shear stress. We also apply the method to an experimental database, where we can identify completely new structures based on their importance score. This framework has the potential to shed light on numerous fundamental phenomena of wall-bounded turbulence, including novel strategies for flow control.
翻訳日:2024-02-21 07:21:37 公開日:2024-02-19
# バナッハ空間における確率的最適輸送による多変量量子タイルの定式化

Stochastic optimal transport in Banach Spaces for regularized estimation of multivariate quantiles ( http://arxiv.org/abs/2302.00982v2 )

ライセンス: Link先を確認
Bernard Bercu, J\'er\'emie Bigot and Gauthier Thurin(参考訳) 絶対連続確率測度$\mu$と$\nu$の間のエントロピー最適輸送(EOT)を解くための新しい確率的アルゴリズムを導入する。 我々の研究は、モンゲ・カントロヴィチ量子の特定の設定によって動機付けられており、この測度$\mu$は単位ハイパーキューブ上の一様分布または球状一様分布である。 ソース測度に関する知識を用いて、フーリエ係数によるカントロビッチ双対ポテンシャルのパラメータ化を提案する。 このようにして、我々の確率的アルゴリズムの各反復は、2つのフーリエ変換に還元され、高速フーリエ変換(FFT)を用いることで、EOTを解くための高速数値法を実装することができる。 我々は、無限次元バナッハ空間でその値を取る確率的アルゴリズムのほぼ確実に収束することを研究する。 次に,数値実験を用いて正規化モンゲ・カントロヴィチ四量体の計算における我々の手法の性能を示す。 特に,多変量体のスムーズな推定におけるエントロピー正則化の可能性について,目標値$\nu$からサンプリングしたデータを用いて検討した。

We introduce a new stochastic algorithm for solving entropic optimal transport (EOT) between two absolutely continuous probability measures $\mu$ and $\nu$. Our work is motivated by the specific setting of Monge-Kantorovich quantiles where the source measure $\mu$ is either the uniform distribution on the unit hypercube or the spherical uniform distribution. Using the knowledge of the source measure, we propose to parametrize a Kantorovich dual potential by its Fourier coefficients. In this way, each iteration of our stochastic algorithm reduces to two Fourier transforms that enables us to make use of the Fast Fourier Transform (FFT) in order to implement a fast numerical method to solve EOT. We study the almost sure convergence of our stochastic algorithm that takes its values in an infinite-dimensional Banach space. Then, using numerical experiments, we illustrate the performances of our approach on the computation of regularized Monge-Kantorovich quantiles. In particular, we investigate the potential benefits of entropic regularization for the smooth estimation of multivariate quantiles using data sampled from the target measure $\nu$.
翻訳日:2024-02-21 07:21:19 公開日:2024-02-19
# 古典システムにおけるベル非局所性

Bell nonlocality in classical systems ( http://arxiv.org/abs/2301.10885v3 )

ライセンス: Link先を確認
Giulio Chiribella, Lorenzo Giannelli, and Carlo Maria Scandolo(参考訳) 古典理論の現実的な解釈は、すべての古典系が明確に定義された性質を持っていると仮定し、これは観測者にとって未知であるが、それでも現実の一部であり、原理的には測定によって明らかにできる。 ここでは、古典系が他の物理系と共存している場合、この解釈は原則として偽造可能であることを示す。 これを実現するために おもちゃ理論を構築します (i)副理論として古典理論を含み、 (ii) 古典的システムと他の種類のシステムとの絡み合いを許容する。 筆者らの玩具理論は,古典的システムだけで実施した局所的な測定に対応する2つのシナリオにおいてベルの不等式を破ることを可能にする。 この事実に基づいて、古典理論における測定結果は、一般に、基礎となる現実の状態によって事前に決定されるものではないことを示す。

The realistic interpretation of classical theory assumes that every classical system has well-defined properties, which may be unknown to the observer but are nevertheless part of reality and can in principle be revealed by measurements. Here we show that this interpretation can in principle be falsified if classical systems coexist with other types of physical systems. To make this point, we construct a toy theory that (i) includes classical theory as a subtheory and (ii) allows classical systems to be entangled with another type of systems, called anti-classical. We show that our toy theory allows for the violation of Bell inequalities in two-party scenarios where one of the settings corresponds to a local measurement performed on a classical system alone. Building on this fact, we show that measurements outcomes in classical theory cannot, in general, be regarded as pre-determined by the state of an underlying reality.
翻訳日:2024-02-21 07:20:43 公開日:2024-02-19
# 自律予測と長期エネルギー負荷予測のためのスピントロニック物理貯留層

Spintronic Physical Reservoir for Autonomous Prediction and Long-Term Household Energy Load Forecasting ( http://arxiv.org/abs/2304.03343v2 )

ライセンス: Link先を確認
Walid Al Misba, Harindra S. Mavikumbure, Md Mahadi Rajib, Daniel L. Marino, Victor Cobilean, Milos Manic, and Jayasimha Atulasimha(参考訳) 本研究では,スピントロニクス物理貯留層を用いた自律的長期予測を行った。 磁化ダイナミクスの短期記憶特性のため、オンライントレーニングに単純な線形回帰を用いた長期予測タスクに使用できる貯留層状態において非線形性が発生する。 予測段階では、出力は自動予測のために貯水池の入力に直接供給される。 提案した貯水池は,マッキーグラスなどのカオス時系列のモデリングや家庭用ビルエネルギー負荷などの動的時系列データに利用される。 RCの最後の層のみを線形回帰でトレーニングする必要があるため、エッジデバイスでリアルタイムに学習するのに適している。 ここでは, 強磁性トンネル接合を原型RCとして使用することができるが, 非線形磁化挙動を有する磁性トンネル接合を実装可能であることを示す。 スピントロニクスの物理RCアプローチとLSTMやRNNなどのエネルギー負荷予測アルゴリズムを比較することにより,提案手法は高い予測精度を実現する上で優れた性能を示すとともに,ハードウェアリソースや電力制約エッジアプリケーションにおいて,低メモリとエネルギを必要とすることを結論付けた。 さらに,本手法では,家庭の負荷予測を精度良く行うために,sequence to sequence lstmと比較して,非常に小さなトレーニングデータセットを必要とすると同時に,少なくとも16倍のエネルギー効率が期待できることを示した。

In this study, we have shown autonomous long-term prediction with a spintronic physical reservoir. Due to the short-term memory property of the magnetization dynamics, non-linearity arises in the reservoir states which could be used for long-term prediction tasks using simple linear regression for online training. During the prediction stage, the output is directly fed to the input of the reservoir for autonomous prediction. We employ our proposed reservoir for the modeling of the chaotic time series such as Mackey-Glass and dynamic time-series data, such as household building energy loads. Since only the last layer of a RC needs to be trained with linear regression, it is well suited for learning in real time on edge devices. Here we show that a skyrmion based magnetic tunnel junction can potentially be used as a prototypical RC but any nanomagnetic magnetic tunnel junction with nonlinear magnetization behavior can implement such a RC. By comparing our spintronic physical RC approach with energy load forecasting algorithms, such as LSTMs and RNNs, we conclude that the proposed framework presents good performance in achieving high predictions accuracy, while also requiring low memory and energy both of which are at a premium in hardware resource and power constrained edge applications. Further, the proposed approach is shown to require very small training datasets and at the same time being at least 16X energy efficient compared to the sequence to sequence LSTM for accurate household load predictions.
翻訳日:2024-02-21 07:12:13 公開日:2024-02-19
# パリティ時対称性をもつ駆動散逸二次フェルミオン系における量子クエンチ

Quantum quenches in driven-dissipative quadratic fermionic systems with parity-time symmetry ( http://arxiv.org/abs/2304.01836v2 )

ライセンス: Link先を確認
Elias Starchl and Lukas M. Sieberer(参考訳) マルコフ駆動と散逸を受ける非相互作用フェルミオン量子多体系のクエンチダイナミクスを、パリティタイム(pt)対称性を持つ二次リウビリアンによって記述される。 最近の研究で、これらの系は、クエンチ後の孤立可積分量子多体系の定常状態を記述する一般化ギブズアンサンブル(PTGGE)と類似してPT対称一般化ギブズアンサンブル(PTGGE)と呼ばれる最大エントロピーアンサンブルに局所的に緩和することが示されている。 本稿では,Su-Schrieffer-Heeger(SSH)モデルの駆動散逸版と北エフ連鎖をパラダイムモデルシステムとして用いて,従来の結果と相関し,大幅に拡張する。 特に, PT対称相における準粒子対寄与のPTGGE予測に対して, 相関関係の光円錐拡散と線形成長および飽和を示すことにより, 有限散逸時の散逸性準粒子像の有効性を検証した。 Further, we introduce the concept of directional pumping phases, which is related to the non-Hermitian topology of the Liouvillian and based upon qualitatively different dynamics of the dual string order parameter and the subsystem fermion parity in the SSH model and the Kitaev chain, respectively: Depending on the postquench parameters, there can be pumping of string order and fermion parity through both ends of a subsystem corresponding to a finite segment of the one-dimensional lattice, through only one end, or there can be no pumping at all. 本研究では, 動的ポンピング相間の遷移が, PTGGEのソフトモードによって決定される方向ポンピング速度の動的臨界挙動の新しい, 独立なタイプをもたらすことを示す。

We study the quench dynamics of noninteracting fermionic quantum many-body systems that are subjected to Markovian drive and dissipation and are described by a quadratic Liouvillian which has parity-time (PT) symmetry. In recent work, we have shown that such systems relax locally to a maximum entropy ensemble that we have dubbed the PT-symmetric generalized Gibbs ensemble (PTGGE), in analogy to the generalized Gibbs ensemble that describes the steady state of isolated integrable quantum many-body systems after a quench. Here, using driven-dissipative versions of the Su-Schrieffer-Heeger (SSH) model and the Kitaev chain as paradigmatic model systems, we corroborate and substantially expand upon our previous results. In particular, we confirm the validity of a dissipative quasiparticle picture at finite dissipation by demonstrating light cone spreading of correlations and the linear growth and saturation to the PTGGE prediction of the quasiparticle-pair contribution to the subsystem entropy in the PT-symmetric phase. Further, we introduce the concept of directional pumping phases, which is related to the non-Hermitian topology of the Liouvillian and based upon qualitatively different dynamics of the dual string order parameter and the subsystem fermion parity in the SSH model and the Kitaev chain, respectively: Depending on the postquench parameters, there can be pumping of string order and fermion parity through both ends of a subsystem corresponding to a finite segment of the one-dimensional lattice, through only one end, or there can be no pumping at all. We show that transitions between dynamical pumping phases give rise to a new and independent type of dynamical critical behavior of the rates of directional pumping, which are determined by the soft modes of the PTGGE.
翻訳日:2024-02-21 07:11:32 公開日:2024-02-19
# ブラックボックスパラメータ推定に向けて

Towards black-box parameter estimation ( http://arxiv.org/abs/2303.15041v2 )

ライセンス: Link先を確認
Amanda Lenzi and Haavard Rue(参考訳) ディープラーニングアルゴリズムは、シミュレーションが容易だが可能性計算が難しい統計モデルのパラメータを推定するのに成功している。 しかし、これらの手法の成功は、観測されたデータを十分に再現するパラメータをシミュレートすることに依存し、現在、これらのシミュレーションを作成するための効率的な方法が欠如している。 弱パラメータ構造仮定のみに基づいて統計モデルのパラメータを推定する新しいブラックボックス手法を開発した。 時系列のような頻繁な発生を伴う十分に構造化された可能性に対して、幅広いデータサイズをカバーする広範なシミュレーションデータベース上で、ディープニューラルネットワークを事前トレーニングすることで実現される。 他の複雑な依存関係に対して、反復アルゴリズムは複数のラウンドで正しいパラメータ領域にシミュレーションを誘導する。 これらのアプローチは、複雑な空間的および時間的依存を持つ非ガウスモデルからパラメータの不確かさを推定し、定量化することができる。 我々の手法の成功は、完全に柔軟な自動ブラックボックス推定フレームワークへの第一歩である。

Deep learning algorithms have recently shown to be a successful tool in estimating parameters of statistical models for which simulation is easy, but likelihood computation is challenging. But the success of these approaches depends on simulating parameters that sufficiently reproduce the observed data, and, at present, there is a lack of efficient methods to produce these simulations. We develop new black-box procedures to estimate parameters of statistical models based only on weak parameter structure assumptions. For well-structured likelihoods with frequent occurrences, such as in time series, this is achieved by pre-training a deep neural network on an extensive simulated database that covers a wide range of data sizes. For other types of complex dependencies, an iterative algorithm guides simulations to the correct parameter region in multiple rounds. These approaches can successfully estimate and quantify the uncertainty of parameters from non-Gaussian models with complex spatial and temporal dependencies. The success of our methods is a first step towards a fully flexible automatic black-box estimation framework.
翻訳日:2024-02-21 07:10:16 公開日:2024-02-19
# AI生成したテキストは確実に検出できるのか?

Can AI-Generated Text be Reliably Detected? ( http://arxiv.org/abs/2303.11156v3 )

ライセンス: Link先を確認
Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang and Soheil Feizi(参考訳) LLMの規制されていない使用は、盗作、偽ニュース、スパムなどの悪意ある結果をもたらす可能性がある。 したがって、信頼できるai生成テキストの検出は、llmの責任ある使用を保証するために重要である。 最近の研究では、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、特定のパターンをインプリントする透かし技術を適用することでこの問題に対処しようとしている。 本稿では,これらの検出器が実用シナリオでは信頼性に乏しいことを示す。 特に,aiテキストに適用するための再帰的パラフレージング攻撃を開発し,ウォーターマーキングスキームやニューラルネットワークに基づく検出器,ゼロショット分類器,検索ベースの検出器など,さまざまな検出器を破ることができる。 実験では, 比較的長い通路であっても, 300個のトークンを長さで通過させ, 検出器の感度を示す。 また,人間実験やパープレキシティスコアやテキストベンチマークの精度などの指標によって,再帰的パラフラージングが文章品質をわずかに低下させるだけであることも観察した。 さらに,ウォーターマーキング方式で保護されたllmであっても,ai生成と分類する検知器を誤認することを目的としたスプーフィング攻撃に対して脆弱であり,開発者の評判を損なう可能性があることを示す。 特に,LLM出力の隠れたAIテキストシグネチャを,検出方法にホワイトボックスアクセスすることなく推測可能であることを示す。 最後に、最良検出器のAUROCと人間とAIのテキスト分布のトータル変動距離を理論的に関連付けることにより、先進言語モデルにおける信頼性検出問題の基本的な硬さについて研究することができる。 私たちのコードはhttps://github.com/vinusankars/Reliability-of-AI-text-detectorsで公開されています。

The unregulated use of LLMs can potentially lead to malicious consequences such as plagiarism, generating fake news, spamming, etc. Therefore, reliable detection of AI-generated text can be critical to ensure the responsible use of LLMs. Recent works attempt to tackle this problem either using certain model signatures present in the generated text outputs or by applying watermarking techniques that imprint specific patterns onto them. In this paper, we show that these detectors are not reliable in practical scenarios. In particular, we develop a recursive paraphrasing attack to apply on AI text, which can break a whole range of detectors, including the ones using the watermarking schemes as well as neural network-based detectors, zero-shot classifiers, and retrieval-based detectors. Our experiments include passages around 300 tokens in length, showing the sensitivity of the detectors even in the case of relatively long passages. We also observe that our recursive paraphrasing only degrades text quality slightly, measured via human studies, and metrics such as perplexity scores and accuracy on text benchmarks. Additionally, we show that even LLMs protected by watermarking schemes can be vulnerable against spoofing attacks aimed to mislead detectors to classify human-written text as AI-generated, potentially causing reputational damages to the developers. In particular, we show that an adversary can infer hidden AI text signatures of the LLM outputs without having white-box access to the detection method. Finally, we provide a theoretical connection between the AUROC of the best possible detector and the Total Variation distance between human and AI text distributions that can be used to study the fundamental hardness of the reliable detection problem for advanced language models. Our code is publicly available at https://github.com/vinusankars/Reliability-of-AI-text-detectors.
翻訳日:2024-02-21 07:10:01 公開日:2024-02-19
# 画像再構成におけるヒューマンインストラクションの回避を学習する説明可能なテキスト・ビジュアル・チャット

Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation ( http://arxiv.org/abs/2303.05983v3 )

ライセンス: Link先を確認
Zhiwei Zhang, Yuliang Liu(参考訳) chatgptとgpt-4の成功はマルチモーダル対話システムに広く注目されている。 しかし、テキスト・ビジュアルチャットタスクにおける視覚言語モデル(vlms)のマルチモーダル生成能力を効果的に評価できる、学術コミュニティのデータセットが欠如している。 本稿では,合成CLEVR-ATVCデータセット(620K)と手作業によるFruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを導入することで,このギャップに対処する。 これらのデータセットには、ビジュアルおよびテキストベースの入力と出力の両方が含まれている。 さらに、言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を促進するために、データセット内の監視信号として特定のルールを導入する。 これにより、訓練されたVLMは、与えられた人間の指示を実行することができない理由を明らかにするための言語説明を伴う、視覚的およびテキスト的推論に関わった後、イエスまたはノー回答を提供することができる。 提案手法は,画像自動エンコーダと自動回帰変換器をスクラッチからトレーニングする2段階の訓練手順を含む。 第1段階では、個々の画像を簡潔なトークンに圧縮するために離散変分オートエンコーダ(dVAE)を使用し、テキストトークンと組み合わせて単一のデータストリームを生成する。 このストリームはデコーダベースの変換器に入力され、第2段階で視覚的再生成とテキストフィードバックを生成する。 本研究では,画像品質,回答精度,不確実性と不完全なユーザクエリに直面する場合のモデル動作に着目し,実験結果を総合的に分析する。 調査と知見を通じて,テキスト・ビジュアル生成モデルの説明可能性に関する貴重な知見を提供することを目標としている。

The recent success of ChatGPT and GPT-4 has drawn widespread attention to multimodal dialogue systems. However, there is a lack of datasets in the academic community that can effectively evaluate the multimodal generation capabilities of Visual Language Models (VLMs) in textual-visual chat tasks. In this paper, we address this gap by introducing two novel multimodal datasets: the synthetic CLEVR-ATVC dataset (620K) and the manually pictured Fruit-ATVC dataset (50K). These datasets incorporate both visual and text-based inputs and outputs. Furthermore, to facilitate the accountability of multimodal systems in rejecting human requests, similar to language-based ChatGPT conversations, we introduce specific rules as supervisory signals within the datasets. This allows the trained VLM to provide a yes or no answer after engaging in visual and textual reasoning, accompanied by a language explanation to clarify the reasons behind the inability to execute the given human instruction. Our proposed method involves a two-stage training procedure, which includes training the image auto-encoder and the auto-regressive transformer from scratch. The first stage employs a discrete variational autoencoder (dVAE) to compress each image into concise tokens, which are then combined with text tokens into a single data stream. This stream is subsequently fed into the decoder-based transformer to generate visual re-creations and textual feedback in the second stage. We conduct comprehensive analyses of experimental results, focusing on re-created image quality, answer accuracy, and the model's behavior when faced with uncertainty and imperfect user queries. Through our explorations and findings, we aim to contribute valuable insights into the accountability of textual-visual generative models.
翻訳日:2024-02-21 07:09:02 公開日:2024-02-19
# 大規模逆問題加速のための分解拡散サンプラー

Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse Problems ( http://arxiv.org/abs/2303.05754v3 )

ライセンス: Link先を確認
Hyungjin Chung, Suhyeon Lee, Jong Chul Ye(参考訳) 与えられたベクトルを線型変換とその連続するパワーの行列で乗じて生成されるクリロフ部分空間は、古典的最適化文学において、大きな線形逆問題に対して素早く収束するアルゴリズムを設計するために広く研究されてきた。 例えば、最も人気のあるクリロフ部分空間法の一つである共役勾配法(CG)は、クリロフ部分空間の残差誤差を最小化するという考え方に基づいている。 しかし、近年の逆問題に対する高性能拡散解法の発展により、古典的知恵が現代拡散モデルと相乗的に組み合わせられるかは明らかでない。 本研究では,拡散サンプリング法とクリロフ部分空間法を組み合わせた新しい効率的な拡散サンプリング戦略を提案する。 具体的には、tweedie の公式による有界サンプルの接空間が krylov 部分空間を形成するならば、有界データで初期化された cg は、接空間にデータ一貫性の更新が残ることを保証する。 これにより、多様体制約勾配(MCG)を計算する必要がなくなり、より効率的な拡散サンプリング法が導かれる。 我々の方法は、パラメトリゼーションとセッティング(VE、VP)に関係なく適用可能である。 特に,マルチコイルMRI再構成や3次元CT再構成など,現実の医用逆画像の課題に対して,最先端の再現性を実現する。 さらに,提案手法は従来の最先端手法よりも80倍以上高速な推論時間を実現する。 コードはhttps://github.com/HJ-harry/DDSで入手できる。

Krylov subspace, which is generated by multiplying a given vector by the matrix of a linear transformation and its successive powers, has been extensively studied in classical optimization literature to design algorithms that converge quickly for large linear inverse problems. For example, the conjugate gradient method (CG), one of the most popular Krylov subspace methods, is based on the idea of minimizing the residual error in the Krylov subspace. However, with the recent advancement of high-performance diffusion solvers for inverse problems, it is not clear how classical wisdom can be synergistically combined with modern diffusion models. In this study, we propose a novel and efficient diffusion sampling strategy that synergistically combines the diffusion sampling and Krylov subspace methods. Specifically, we prove that if the tangent space at a denoised sample by Tweedie's formula forms a Krylov subspace, then the CG initialized with the denoised data ensures the data consistency update to remain in the tangent space. This negates the need to compute the manifold-constrained gradient (MCG), leading to a more efficient diffusion sampling method. Our method is applicable regardless of the parametrization and setting (i.e., VE, VP). Notably, we achieve state-of-the-art reconstruction quality on challenging real-world medical inverse imaging problems, including multi-coil MRI reconstruction and 3D CT reconstruction. Moreover, our proposed method achieves more than 80 times faster inference time than the previous state-of-the-art method. Code is available at https://github.com/HJ-harry/DDS
翻訳日:2024-02-21 07:08:31 公開日:2024-02-19
# ランダム大n理論の絡み合いエントロピーに向けて

Towards Entanglement Entropy of Random Large-N Theories ( http://arxiv.org/abs/2303.02130v2 )

ライセンス: Link先を確認
Siqi Shao and Yashar Komijani(参考訳) 強い相関の強い量子系の大規模なクラスは、2点関数を決定する自己整合方程式とともに場の2次作用によってある大N極限で記述することができる。 レプリカ手法とシフトした松原周波数の概念を用いてフォン・ノイマンとR'enyiエンタングルメントエントロピーを計算し、そのような系を一般化する。 フォン・ノイマンエントロピーは平衡スペクトル関数 w/o 分割から計算できるが、r\'enyiエントロピーは相互作用の場合のスペクトルを再計算する必要がある。 本稿では,デコヒーレンスの存在下での2サイト問題の例に適用し,Sachdev-Ye-Kitaevモデルを組み合わせた手法の柔軟性を示す。

A large class of strongly correlated quantum systems can be described in certain large-N limits by quadratic in field actions along with self-consistency equations that determine the two-point functions. We use the replica approach and the notion of shifted Matsubara frequency to compute von Neumann and R\'enyi entanglement entropies for generic bi-partitioning of such systems. We argue that the von Neumann entropy can be computed from equilibrium spectral functions w/o partitioning, while the R\'enyi entropy requires re-calculating the spectrum in the interacting case. We demonstrate the flexibility of the method by applying it to examples of a two-site problem in presence of decoherence, and coupled Sachdev-Ye-Kitaev models.
翻訳日:2024-02-21 07:08:04 公開日:2024-02-19
# pathasst: 病理の人工知能のための生成的基礎aiアシスタント

PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology ( http://arxiv.org/abs/2305.15072v2 )

ライセンス: Link先を確認
Yuxuan Sun, Chenglu Zhu, Sunyi Zheng, Kai Zhang, Lin Sun, Zhongyi Shui, Yunlong Zhang, Honglin Li, Lin Yang(参考訳) 大規模言語モデル (LLM) やマルチモーダル技術の発展が進み続けており、汎用多モーダル大規模言語モデル (MLLM) の開発が進み、自然画像の解釈に重要な応用を提供している。 しかしながら、病理学の分野は、特に高品質なデータ収集と包括的なモデルフレームワークの設計において、ほとんど解明されていないままである。 病理学MLLMのギャップを埋めるために,病理学における診断・予測分析に革命をもたらす多モード生成基盤AIアシスタントPathAsstを提案する。 PathAsstの開発には、データ取得、CLIPモデル適応、PathAsstのマルチモーダル生成機能のトレーニングの3つの重要なステップが含まれている。 まず,権威ソースから207K以上の高品質な画像テキストペアを収集する。 ChatGPTの高度なパワーを活用して180K以上の命令追従サンプルを生成する。 さらに8つの病原体固有のサブモデルを呼び出すために特別に調整された追加の命令追従データを考案し,pathasstがこれらのモデルと効果的に協調し,診断能力を向上させる。 第2に、収集したデータを活用することにより、病理画像の解釈におけるPathAsstの機能を高めるために、病理分類CLIPであるPathCLIPを構築する。 最後に,pathclipをvicuna-13bと統合し,病理特異的な命令チューニングデータを用いてpathasstのマルチモーダル生成能力を高め,サブモデルとの相乗的相互作用を強化する。 PathAsstの実験結果は、病理診断と治療プロセスを改善するためにAIを利用した生成基盤モデルを活用する可能性を示している。

As advances in large language models (LLMs) and multimodal techniques continue to mature, the development of general-purpose multimodal large language models (MLLMs) has surged, offering significant applications in interpreting natural images. However, the field of pathology has largely remained untapped, particularly in gathering high-quality data and designing comprehensive model frameworks. To bridge the gap in pathology MLLMs, we present PathAsst, a multimodal generative foundation AI assistant to revolutionize diagnostic and predictive analytics in pathology. The development of PathAsst involves three pivotal steps: data acquisition, CLIP model adaptation, and the training of PathAsst's multimodal generative capabilities. Firstly, we collect over 207K high-quality pathology image-text pairs from authoritative sources. Leveraging the advanced power of ChatGPT, we generate over 180K instruction-following samples. Furthermore, we devise additional instruction-following data specifically tailored for invoking eight pathology-specific sub-models we prepared, allowing the PathAsst to effectively collaborate with these models, enhancing its diagnostic ability. Secondly, by leveraging the collected data, we construct PathCLIP, a pathology-dedicated CLIP, to enhance PathAsst's capabilities in interpreting pathology images. Finally, we integrate PathCLIP with the Vicuna-13b and utilize pathology-specific instruction-tuning data to enhance the multimodal generation capacity of PathAsst and bolster its synergistic interactions with sub-models. The experimental results of PathAsst show the potential of harnessing AI-powered generative foundation model to improve pathology diagnosis and treatment processes.
翻訳日:2024-02-21 07:01:27 公開日:2024-02-19
# ファウンデーションモデルを用いたマルチモーダルWebナビゲーション

Multimodal Web Navigation with Instruction-Finetuned Foundation Models ( http://arxiv.org/abs/2305.11854v3 )

ライセンス: Link先を確認
Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum, Yutaka Matsuo, Aleksandra Faust, Shixiang Shane Gu, Izzeddin Gur(参考訳) 自律型webナビゲーションの進歩は、オンライン強化学習による数十億の探索的インタラクションへの依存と、リッチなドメイン外データからの一般化の活用を困難にするドメイン固有のモデル設計によって妨げられている。 本研究では,視覚言語基礎モデルを用いたWebエージェントのオフライントレーニングについて検討する。 本稿では,WebページのスクリーンショットとHTMLページの両方を観察し,クリックやタイプなどのWebナビゲーションアクションを出力するマルチモーダルエージェントWebGUMを提案する。 WebGUMは、大規模なデモンストレーションコーパスに対して、時間的および局所的な知覚を持つ命令ファインタクテッド言語モデルとビジョンエンコーダを共同で微調整することで訓練される。 このレシピは,マルチモーダル認識,HTML理解,多段階推論といったエージェントの能力の向上を実証的に実証する。 MiniWoBでは、従来の最高のオフラインメソッドを45.8%以上改善しています。 WebShopベンチマークでは,既存のSoTAである PaLM-540B よりも3ビリオンパラメータモデルの方が優れた性能を発揮する。 さらに、WebGUMはMind2Web上の現実世界の計画タスクに強いポジティブな移行を示す。 トレーニングされたモデルを使って,347Kの高品質なデモも収集しています。

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision encoder with temporal and local perception on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded multimodal perception, HTML comprehension, and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB, we improve over the previous best offline methods by more than 45.8%, even outperforming online-finetuned SoTA, humans, and GPT-4-based agent. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. Furthermore, WebGUM exhibits strong positive transfer to the real-world planning tasks on the Mind2Web. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.
翻訳日:2024-02-21 06:59:19 公開日:2024-02-19
# Make-A-Protagonist: 専門家の集まりによるジェネリックビデオ編集

Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts ( http://arxiv.org/abs/2305.08850v2 )

ライセンス: Link先を確認
Yuyang Zhao, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee(参考訳) テキスト駆動画像とビデオ拡散モデルは、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。 近年,拡散型生成モデルにおける既存画像や映像の編集・変動が注目されている。 しかし、以前の作品では、テキストでコンテンツを編集したり、単一の視覚的な手掛かりを使って粗いパーソナライゼーションを提供することに制限されており、細かい細かい制御を必要とする不適切なコンテンツには不向きである。 そこで本研究では,テキストおよび視覚的手がかりを用いて,個人を主人公にすることを目的とした映像編集フレームワークMake-A-Protagonistを提案する。 具体的には,複数の専門家を活用して音源映像の解析を行い,視覚およびテキストの手がかりを対象とし,マスクガイド付分節サンプリングを用いて所望の出力を生成する視覚テキスト映像生成モデルを提案する。 広範囲な結果は、Make-A-Protagonistの多彩で顕著な編集能力を示している。

The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.
翻訳日:2024-02-21 06:58:41 公開日:2024-02-19
# DeformerNet:3次元変形可能な物体のバイマニピュレーション学習

DeformerNet: Learning Bimanual Manipulation of 3D Deformable Objects ( http://arxiv.org/abs/2305.04449v3 )

ライセンス: Link先を確認
Bao Thach, Brian Y. Cho, Shing-Hei Ho, Tucker Hermans, Alan Kuntz(参考訳) ホームケアから倉庫のフルフィルメント、外科支援まで幅広い分野の応用には、ロボットが3d変形可能な物体の形を確実に操作する必要がある。 弾性のある3次元変形可能な物体の解析モデルは、物体の形状を決定する際に存在する無限の自由度を記述するために多くのパラメータを必要とする。 従来の3D形状制御の試みは、オブジェクト形状を表現するために手作りの特徴に依存しており、オブジェクト固有の制御モデルの訓練が必要である。 我々は,操作対象の部分視点点クラウドと目標形状の点クラウドを用いて,オブジェクト形状の低次元表現を学習する新しいdeformernetニューラルネットワークアーキテクチャを用いて,これらの問題を克服した。 この形状埋め込みにより、ロボットは所望のロボットエンドエフェクタ動作を計算するビジュアルサーボコントローラを学習し、対象の形状に向かって物体を反復的に変形させることができる。 DeformerNetがトレーニング中に見えない物体の形状や材料硬さ、例えば外生鶏の筋肉組織に確実に一般化する物理ロボットのシミュレーションと実演を行った。 DeformerNetを使って、このロボットは3つの手術的なサブタスクをうまく達成する。リトラクション(組織をその下にある部位へアクセスするために移動させる)、組織包み(大動脈ステントの配置のような手順におけるサブタスク)、そして2つの管状組織(肛門のサブタスク)を接続する。

Applications in fields ranging from home care to warehouse fulfillment to surgical assistance require robots to reliably manipulate the shape of 3D deformable objects. Analytic models of elastic, 3D deformable objects require numerous parameters to describe the potentially infinite degrees of freedom present in determining the object's shape. Previous attempts at performing 3D shape control rely on hand-crafted features to represent the object shape and require training of object-specific control models. We overcome these issues through the use of our novel DeformerNet neural network architecture, which operates on a partial-view point cloud of the manipulated object and a point cloud of the goal shape to learn a low-dimensional representation of the object shape. This shape embedding enables the robot to learn a visual servo controller that computes the desired robot end-effector action to iteratively deform the object toward the target shape. We demonstrate both in simulation and on a physical robot that DeformerNet reliably generalizes to object shapes and material stiffness not seen during training, including ex vivo chicken muscle tissue. Crucially, using DeformerNet, the robot successfully accomplishes three surgical sub-tasks: retraction (moving tissue aside to access a site underneath it), tissue wrapping (a sub-task in procedures like aortic stent placements), and connecting two tubular pieces of tissue (a sub-task in anastomosis).
翻訳日:2024-02-21 06:57:33 公開日:2024-02-19
# 収束保証付き非スムース最適化のためのadam-family法

Adam-family Methods for Nonsmooth Optimization with Convergence Guarantees ( http://arxiv.org/abs/2305.03938v2 )

ライセンス: Link先を確認
Nachuan Xiao, Xiaoyin Hu, Xin Liu, Kim-Chuan Toh(参考訳) 本稿では,非滑らかなニューラルネットワークのトレーニングにおいて,非滑らかな最適化のためのAdam系手法の収束特性に関する総合的研究を行う。 本稿では,2段階の更新方式を採用した新しい2段階のフレームワークを提案し,その収束特性を軽度な仮定で証明する。 提案手法は,様々なadam-family法を包含し,非スムースニューラルネットワークの学習におけるこれらの手法に対する収束保証を提供する。 さらに,重み付き雑音を伴う非平滑ニューラルネットワークのトレーニングのための勾配クリッピング手法を取り入れた確率的下位段階法を開発した。 提案手法は,評価ノイズが積分可能であると仮定された場合にのみ収束することを示す。 大規模数値実験により,提案手法の高効率性とロバスト性を示す。

In this paper, we present a comprehensive study on the convergence properties of Adam-family methods for nonsmooth optimization, especially in the training of nonsmooth neural networks. We introduce a novel two-timescale framework that adopts a two-timescale updating scheme, and prove its convergence properties under mild assumptions. Our proposed framework encompasses various popular Adam-family methods, providing convergence guarantees for these methods in training nonsmooth neural networks. Furthermore, we develop stochastic subgradient methods that incorporate gradient clipping techniques for training nonsmooth neural networks with heavy-tailed noise. Through our framework, we show that our proposed methods converge even when the evaluation noises are only assumed to be integrable. Extensive numerical experiments demonstrate the high efficiency and robustness of our proposed methods.
翻訳日:2024-02-21 06:57:07 公開日:2024-02-19
# 制御変数を用いたスライスドワッサースタイン推定

Sliced Wasserstein Estimation with Control Variates ( http://arxiv.org/abs/2305.00402v2 )

ライセンス: Link先を確認
Khai Nguyen and Nhat Ho(参考訳) 2つの確率測度の間のスライスされたワッサーシュタイン距離は、2つの1次元射影の間のワッサースタイン距離の期待値として定義される。 ランダム性は、2つの入力測度を1次元に投影するために使用される投影方向から生じる。 予測の難易度のために、SW距離の値を推定するためにモンテカルロ積分が実行される。 様々な変種があるにもかかわらず、その分散を制御するという点で、SW距離に対するモンテカルロ推定法を改善する以前の研究はない。 分散低減に関する文献とsw距離に関する文献とを橋渡しするため,sw距離の経験的推定のばらつきを低減すべく,計算効率の良い制御変数を提案する。 鍵となる考え方は、まず射影された1次元測度のガウス近似を見つけ、次に2つのガウス分布の間のワッサーシュタイン-2距離の閉形式を利用して制御変数を設計することである。 特に,2つのガウス間のワッサーシュタイン-2距離の下界と上界を2つの計算効率のよい制御変数として用いることを提案する。 提案した制御変数推定器は,画像と点雲の測度を比較する際に,ばらつきを著しく低減できることを示す。 最後に,2つの点クラウド間を補間する勾配流と,cifar10やcelebaなどの標準画像データセットの深い生成モデルにおいて,提案する制御変数推定器の性能を示す。

The sliced Wasserstein (SW) distances between two probability measures are defined as the expectation of the Wasserstein distance between two one-dimensional projections of the two measures. The randomness comes from a projecting direction that is used to project the two input measures to one dimension. Due to the intractability of the expectation, Monte Carlo integration is performed to estimate the value of the SW distance. Despite having various variants, there has been no prior work that improves the Monte Carlo estimation scheme for the SW distance in terms of controlling its variance. To bridge the literature on variance reduction and the literature on the SW distance, we propose computationally efficient control variates to reduce the variance of the empirical estimation of the SW distance. The key idea is to first find Gaussian approximations of projected one-dimensional measures, then we utilize the closed-form of the Wasserstein-2 distance between two Gaussian distributions to design the control variates. In particular, we propose using a lower bound and an upper bound of the Wasserstein-2 distance between two fitted Gaussians as two computationally efficient control variates. We empirically show that the proposed control variate estimators can help to reduce the variance considerably when comparing measures over images and point-clouds. Finally, we demonstrate the favorable performance of the proposed control variate estimators in gradient flows to interpolate between two point-clouds and in deep generative modeling on standard image datasets, such as CIFAR10 and CelebA.
翻訳日:2024-02-21 06:56:53 公開日:2024-02-19
# FOMC分数の解析:言語モデルの正確性と制約

Analyzing FOMC Minutes: Accuracy and Constraints of Language Models ( http://arxiv.org/abs/2304.10164v2 )

ライセンス: Link先を確認
Wonseong Kim, Jan Frederic Sp\"orer, Siegfried Handschuh(参考訳) 本論文は、FOMCの公式声明が金融市場および経済予測に与える影響についての洞察を得るために、連邦公開市場委員会(FOMC)が予定した会合後に公表した公式声明で使用される言語を分析する。 この研究は、FOMCが文章で感情を表現しないように注意し、経済状況をカバーする一連のテンプレートに従うことを明らかにした。 この分析には、VADERやFinBERTといった高度な言語モデリング技術と、GPT-4を用いた試行試験が使用されている。 その結果、FinBERTはネガティブ感情を正確に予測する他の手法よりも優れていた。 しかし、本研究は、現在のnlp技術を用いたfomcテキストの分析の課題と限界を強調し、言語モデルの強化と代替アプローチの探求の可能性を示唆している。

This research article analyzes the language used in the official statements released by the Federal Open Market Committee (FOMC) after its scheduled meetings to gain insights into the impact of FOMC official statements on financial markets and economic forecasting. The study reveals that the FOMC is careful to avoid expressing emotion in their sentences and follows a set of templates to cover economic situations. The analysis employs advanced language modeling techniques such as VADER and FinBERT, and a trial test with GPT-4. The results show that FinBERT outperforms other techniques in predicting negative sentiment accurately. However, the study also highlights the challenges and limitations of using current NLP techniques to analyze FOMC texts and suggests the potential for enhancing language models and exploring alternative approaches.
翻訳日:2024-02-21 06:56:12 公開日:2024-02-19
# 学習可能な細粒ウェーブレット変換による船舶適応雑音認識

Adaptive ship-radiated noise recognition with learnable fine-grained wavelet transform ( http://arxiv.org/abs/2306.01002v2 )

ライセンス: Link先を確認
Yuan Xie, Jiawei Ren, Ji Xu(参考訳) 海洋音環境の分析は難しい作業だ。 背景雑音と可変チャネル伝送環境は,正確な船舶騒音認識を実現するのを複雑にしている。 既存の認識システムは, 水中環境の変動に対処する上で弱いため, 実用上は性能が低下する。 本研究は,様々な水中環境における認識システムの堅牢性を維持するため,適応型一般化認識システムagnet(adaptive generalized network)を提案する。 固定ウェーブレットパラメータを細粒度学習可能なパラメータに変換することで、agnetは異なる周波数で水中音の特性を学習する。 フレキシブルできめ細かな設計は、よりバックグラウンドな音響情報(例えば、バックグラウンドノイズ、水中の伝送チャンネル)を捉えやすくする。 ウェーブレットスペクトログラムにおける暗黙の情報を利用するため、agnetは並列畳み込み注意モジュールを分類器として畳み込みニューラルネットワークを採用する。 実験の結果、AGNetは水中音響データセットのベースライン法を全て上回り、AGNetは転送学習の恩恵を受けることがわかった。 さらに、agnetは様々な干渉要因に対して堅牢な性能を示す。

Analyzing the ocean acoustic environment is a tricky task. Background noise and variable channel transmission environment make it complicated to implement accurate ship-radiated noise recognition. Existing recognition systems are weak in addressing the variable underwater environment, thus leading to disappointing performance in practical application. In order to keep the recognition system robust in various underwater environments, this work proposes an adaptive generalized recognition system - AGNet (Adaptive Generalized Network). By converting fixed wavelet parameters into fine-grained learnable parameters, AGNet learns the characteristics of underwater sound at different frequencies. Its flexible and fine-grained design is conducive to capturing more background acoustic information (e.g., background noise, underwater transmission channel). To utilize the implicit information in wavelet spectrograms, AGNet adopts the convolutional neural network with parallel convolution attention modules as the classifier. Experiments reveal that our AGNet outperforms all baseline methods on several underwater acoustic datasets, and AGNet could benefit more from transfer learning. Moreover, AGNet shows robust performance against various interference factors.
翻訳日:2024-02-21 06:47:40 公開日:2024-02-19
# 霧環境における予測複製のための運動の時間的側面の予測

Predicting Temporal Aspects of Movement for Predictive Replication in Fog Environments ( http://arxiv.org/abs/2306.00575v4 )

ライセンス: Link先を確認
Emil Balitzki and Tobias Pfandzelter and David Bermbach(参考訳) フォグ環境の利点を十分に活用するには,データローカリティの効率的な管理が不可欠である。 ブラインドあるいはリアクティブなデータレプリケーションは、フォグコンピューティングの可能性を生かし、クライアントが接続する場所とタイミングを予測するためのより高度なテクニックを必要とする。 空間的予測はかなり注目されているが、時間的予測は未定である。 本稿では,既存の空間予測モデルに時間的予測を組み込むことの利点を検討することで,このギャップに対処する。 また,予測レプリケーションの文脈において,ディープニューラルネットワークやマルコフモデルといった時空間予測モデルの包括的解析を行う。 本稿では,逐次および周期的ユーザ移動パターンを活用した時間予測のためのholt-winterの指数的平滑化を用いた新しいモデルを提案する。 実際のユーザトラジェクトリによるフォグネットワークシミュレーションでは,データ利用率を1%に抑えながら,過剰データの15%削減を実現している。

To fully exploit the benefits of the fog environment, efficient management of data locality is crucial. Blind or reactive data replication falls short in harnessing the potential of fog computing, necessitating more advanced techniques for predicting where and when clients will connect. While spatial prediction has received considerable attention, temporal prediction remains understudied. Our paper addresses this gap by examining the advantages of incorporating temporal prediction into existing spatial prediction models. We also provide a comprehensive analysis of spatio-temporal prediction models, such as Deep Neural Networks and Markov models, in the context of predictive replication. We propose a novel model using Holt-Winter's Exponential Smoothing for temporal prediction, leveraging sequential and periodical user movement patterns. In a fog network simulation with real user trajectories our model achieves a 15% reduction in excess data with a marginal 1% decrease in data availability.
翻訳日:2024-02-21 06:47:05 公開日:2024-02-19
# Underwater-Art:水中音響目標認識のためのテキストテンプレートによる情報視点の拡大

Underwater-Art: Expanding Information Perspectives With Text Templates For Underwater Acoustic Target Recognition ( http://arxiv.org/abs/2305.19612v2 )

ライセンス: Link先を確認
Yuan Xie, Jiawei Ren, Ji Xu(参考訳) 水中音響目標認識は, 複雑な音源特性と伝搬パターンにより, 難易度の高い課題である。 不十分なデータと狭い情報の観点から制限されたディープラーニングに基づく認識モデルは、実践的な水中シナリオでは不十分に思える。 水中の音響信号は距離、チャンネルの深さ、その他の要因によって大きく影響を受けるが、関連する情報の注釈はしばしば不均一で不完全であり、使用が難しい。 本研究では,豊富な関連情報(以下「UART」という)からなるテンプレートに基づく水中音響認識の実装を提案する。 さまざまな視点から関連する情報を記述自然言語に統合するテンプレートを設計する。 uartは、音声-スペクトログラム-テキストの3-モーダルコントラスト学習フレームワークを採用しており、uartを記述的自然言語による音響表現の学習を導くことができる。 実験の結果,UARTは従来のパラダイムよりも認識能力と一般化性能が優れていることがわかった。 さらに、事前訓練されたUARTモデルは、補助アノテーションなしでシナリオにおける認識モデルに対する優れた事前知識を提供することができる。

Underwater acoustic target recognition is an intractable task due to the complex acoustic source characteristics and sound propagation patterns. Limited by insufficient data and narrow information perspective, recognition models based on deep learning seem far from satisfactory in practical underwater scenarios. Although underwater acoustic signals are severely influenced by distance, channel depth, or other factors, annotations of relevant information are often non-uniform, incomplete, and hard to use. In our work, we propose to implement Underwater Acoustic Recognition based on Templates made up of rich relevant information (hereinafter called "UART"). We design templates to integrate relevant information from different perspectives into descriptive natural language. UART adopts an audio-spectrogram-text tri-modal contrastive learning framework, which endows UART with the ability to guide the learning of acoustic representations by descriptive natural language. Our experiments reveal that UART has better recognition capability and generalization performance than traditional paradigms. Furthermore, the pre-trained UART model could provide superior prior knowledge for the recognition model in the scenario without any auxiliary annotation.
翻訳日:2024-02-21 06:46:16 公開日:2024-02-19
# グラフは1ビットのスパイクの価値:グラフのコントラスト学習がニューラルネットワークをスパイクするとき

A Graph is Worth 1-bit Spikes: When Graph Contrastive Learning Meets Spiking Neural Networks ( http://arxiv.org/abs/2305.19306v2 )

ライセンス: Link先を確認
Jintang Li, Huizhe Zhang, Ruofan Wu, Zulun Zhu, Baokun Wang, Changhua Meng, Zibin Zheng, Liang Chen(参考訳) 対照的な自己教師型学習はグラフニューラルネットワークのデファクト学習パラダイムとなっているが、高いタスク精度の追求には、情報的かつ識別的な完全精度表現を学習し、計算、メモリフットプリント、および実世界のアプリケーションに対するエネルギー消費負担(概して見落としている)に対する懸念を高めるために、より大きな隠れ次元を必要とする。 この研究は、より生物学的に妥当でコンパクトな表現を学習するためにスパースとバイナリ特性を利用する、スパイキングニューラルネットワーク(SNN)を用いたグラフコントラスト学習(GCL)の有望な方向を探究する。 本稿では,グラフの2値化1ビット表現を学習し,効率と性能のバランスの取れたトレードオフを実現する新しいGCLフレームワークであるSpikeGCLを提案する。 SpikeGCLが完全精度に匹敵する表現性を持っていることを示す理論的保証を提供する。 実験の結果、32倍近い表現記憶圧縮では、SpikeGCLは多くのグラフベンチマークにおいて最先端の教師付きおよび自己教師付きメソッドに匹敵する、あるいは優れることが示された。

While contrastive self-supervised learning has become the de-facto learning paradigm for graph neural networks, the pursuit of higher task accuracy requires a larger hidden dimensionality to learn informative and discriminative full-precision representations, raising concerns about computation, memory footprint, and energy consumption burden (largely overlooked) for real-world applications. This work explores a promising direction for graph contrastive learning (GCL) with spiking neural networks (SNNs), which leverage sparse and binary characteristics to learn more biologically plausible and compact representations. We propose SpikeGCL, a novel GCL framework to learn binarized 1-bit representations for graphs, making balanced trade-offs between efficiency and performance. We provide theoretical guarantees to demonstrate that SpikeGCL has comparable expressiveness with its full-precision counterparts. Experimental results demonstrate that, with nearly 32x representation storage compression, SpikeGCL is either comparable to or outperforms many fancy state-of-the-art supervised and self-supervised methods across several graph benchmarks.
翻訳日:2024-02-21 06:45:59 公開日:2024-02-19
# シーケンスモデリングのためのトランスフォーマーアーキテクチャの近似率

Approximation Rate of the Transformer Architecture for Sequence Modeling ( http://arxiv.org/abs/2305.18475v2 )

ライセンス: Link先を確認
Haotian Jiang, Qianxiao Li(参考訳) トランスフォーマーアーキテクチャはシーケンスモデリングアプリケーションで広く適用されているが、その動作原理の理論的理解は限られている。 本研究では,単層変圧器の1つのヘッドによる近似速度について検討する。 非線形関係のクラスを考察し,変圧器のジャクソン型近似率推定を明示するために,新しい複雑性測度の概念を同定する。 この速度は変圧器の構造特性を明らかにし、近似に最も適するシーケンシャルな関係のタイプを示唆する。 特に、近似レートの結果は、リカレントニューラルネットワークのような古典的シーケンスモデリング手法とトランスフォーマーの違いを具体的に分析することができる。

The Transformer architecture is widely applied in sequence modeling applications, yet the theoretical understanding of its working principles remains limited. In this work, we investigate the approximation rate for single-layer Transformers with one head. We consider a class of non-linear relationships and identify a novel notion of complexity measures to establish an explicit Jackson-type approximation rate estimate for the Transformer. This rate reveals the structural properties of the Transformer and suggests the types of sequential relationships it is best suited for approximating. In particular, the results on approximation rates enable us to concretely analyze the differences between the Transformer and classical sequence modeling methods, such as recurrent neural networks.
翻訳日:2024-02-21 06:44:25 公開日:2024-02-19
# 圧縮センシングのための動的経路制御型ディープアンフォールディングネットワーク

Dynamic Path-Controllable Deep Unfolding Network for Compressive Sensing ( http://arxiv.org/abs/2306.16060v2 )

ライセンス: Link先を確認
Jiechong Song and Bin Chen and Jian Zhang(参考訳) 深層ニューラルネットワークに最適化アルゴリズムを展開するディープ・アンフォールディング・ネットワーク(dun)は、その優れた解釈性と高性能のため、圧縮センシング(cs)において大きな成功を収めている。 DUNの各ステージは最適化の1つのイテレーションに対応する。 テスト時には、すべてのサンプリングイメージを全ての段階で処理する必要があるが、これは計算負荷のコストがかかるとともに、コンテンツの復元が容易な画像も不要である。 本稿では,CS再構成に着目し,新しいDPC-DUN(Dynamic Path-Controllable Deep Unfolding Network)を提案する。 dpc-dun 設計したパス制御可能なセレクタは、画像毎に高速かつ適切な経路を動的に選択でき、異なる性能・複雑さのトレードオフを制御してスリム化することができる。 我々のDPC-DUNは高い柔軟性を示し、適切なトレードオフを得るために優れた性能と動的調整を提供し、現実にアピールする主な要件に対処する。 コードはhttps://github.com/songjiechong/dpc-dunで入手できる。

Deep unfolding network (DUN) that unfolds the optimization algorithm into a deep neural network has achieved great success in compressive sensing (CS) due to its good interpretability and high performance. Each stage in DUN corresponds to one iteration in optimization. At the test time, all the sampling images generally need to be processed by all stages, which comes at a price of computation burden and is also unnecessary for the images whose contents are easier to restore. In this paper, we focus on CS reconstruction and propose a novel Dynamic Path-Controllable Deep Unfolding Network (DPC-DUN). DPC-DUN with our designed path-controllable selector can dynamically select a rapid and appropriate route for each image and is slimmable by regulating different performance-complexity tradeoffs. Extensive experiments show that our DPC-DUN is highly flexible and can provide excellent performance and dynamic adjustment to get a suitable tradeoff, thus addressing the main requirements to become appealing in practice. Codes are available at https://github.com/songjiechong/DPC-DUN.
翻訳日:2024-02-21 06:36:18 公開日:2024-02-19
# 草の根のソーシャルネットワーク: 人々が自分の個人情報とソーシャルグラフを代理する

Grassroots Social Networking: Where People have Agency over their Personal Information and Social Graph ( http://arxiv.org/abs/2306.13941v4 )

ライセンス: Link先を確認
Ehud Shapiro(参考訳) 人々が自分の個人情報やソーシャルグラフを代理するソーシャルネットワーキングのアーキテクチャを提供することは、オープンな課題だ。 ここでは、サーバーレス、無許可、ピアツーピアのソーシャルネットワークのための草の根アーキテクチャ、Grassroots Social Networkingを紹介します。 このアーキテクチャは、信頼できないネットワーク(例えばudpを使用して)を介して通信するローミング(アドレス交換)コンピューティングデバイスである。 アーキテクチャは (i)各人がそのグラフにローカルな近所のみを制御、維持、保存する分散社会グラフ。(iii)フィードを作成し、保存する著者、フォロワーとの個人的なフィード (ii)社会グラフの縁に沿ってのみ人がコミュニケーションを行う草の根拡散プロトコル。 アーキテクチャは、完全に順序付けされたコンフリクトベースのブロックチェーンの部分的に順序付けされたコンフリクトフリーのブロックレスデータ構造を使用して、これらのコンポーネントを実現する。 当社は、Grassroots Social Networkingプロトコル(TwitterライクとWhatsAppライク)の2つの例を提供し、セキュリティ(安全、ライブ、プライバシ)、スパム/ボット/ディープフェイク耐性、実装に対処し、サーバベースのソーシャルネットワークが草の根アーキテクチャによってどのように置き換えられるかを示す。

Offering an architecture for social networking in which people have agency over their personal information and social graph is an open challenge. Here we present a grassroots architecture for serverless, permissionless, peer-to-peer social networks termed Grassroots Social Networking that aims to address this challenge. The architecture is geared for people with networked smartphones -- roaming (address-changing) computing devices communicating over an unreliable network (e.g., using UDP). The architecture incorporates (i) a decentralized social graph, where each person controls, maintains and stores only their local neighborhood in the graph; (iii) personal feeds, with authors and followers who create and store the feeds; and (ii) a grassroots dissemination protocol, in which communication among people occurs only along the edges of their social graph. The architecture realizes these components using the blocklace data structure -- a partially-ordered conflict-free counterpart of the totally-ordered conflict-based blockchain. We provide two example Grassroots Social Networking protocols -- Twitter-like and WhatsApp-like -- and address their security (safety, liveness and privacy), spam/bot/deep-fake resistance, and implementation, demonstrating how server-based social networks could be supplanted by a grassroots architecture.
翻訳日:2024-02-21 06:35:59 公開日:2024-02-19
# 自由電子によるフォトニックのトポロジカル保護強相互作用

Topologically Protected Strong-Interaction of Photonics with Free Electron ( http://arxiv.org/abs/2306.10745v2 )

ライセンス: Link先を確認
Jing Li, Yiqi Fang, and Yunquan Liu(参考訳) 本稿では, トポロジカルフォトニクスを用いた自由電子と光子との強い相互作用の研究手法を提案する。 本研究は,光と自由電子の相互作用を著しく高めるために位相的コーナー状態が利用できることを示す。 トポロジカルキャビティの品質係数は20万を超え、ポンプパルスがオフになってもコーナー状態は非常に長寿命である。 したがって,従来の光子誘起近接電界顕微鏡(PINEM)のように,遅延や位相マッチングを不要に強力な相互作用を実現することができる。 この研究は、トポロジカルフォトニック構造を自由電子波パケットを形成するためのプラットフォームとして利用することができ、将来の自由電子による量子電磁力学(QED)プロセスと量子光学の制御を容易にするという新しい視点を提供する。

We propose a robust scheme of studying the strong interactions between free electrons and photons using topological photonics. Our study reveals that the topological corner state can be used to enhance the interaction between light and a free electron significantly. The quality factor of the topological cavity can exceed 20 000 and the corner state has a very long lifetime even after the pump pulse is off. And thus, the platform enables us to achieve a strong interaction without the need for zero delay and phase matching as in traditional photon-induced near-field electron microscopy (PINEM). This work provides the new perspective that the topological photonic structures can be utilized as a platform to shape free electron wave packets, which facilitates the control of quantum electrodynamical (QED) processes and quantum optics with free electrons in the future.
翻訳日:2024-02-21 06:34:08 公開日:2024-02-19
# 接地型常識推論に向けて

Toward Grounded Commonsense Reasoning ( http://arxiv.org/abs/2306.08651v2 )

ライセンス: Link先を確認
Minae Kwon, Hengyuan Hu, Vivek Myers, Siddharth Karamcheti, Anca Dragan, Dorsa Sadigh(参考訳) レゴのスポーツカーでデスクを丁寧に組み立てるロボットを考えてみてほしい。 人間はスポーツカーを分解して「タイダイイング」の一部として取り除くのが適切でないと認識するかもしれない。 ロボットはどうやってその結論に達するのか? 大規模言語モデル(LLM)は近年、常識推論を可能にするために使われてきたが、現実の世界におけるこの推論は困難である。 現実の世界では、ロボットは受動的にllmをクエリし、適切な判断を行うために必要な環境から積極的に情報を集めなければならない。 例えば、隠された車があることを検知したロボットは、レゴ製の高度なモデルカーなのか、幼児が作ったおもちゃの車なのかを積極的に認識する必要があるかもしれない。 llmと視覚言語モデル(vlm)を活用して,ロボットがその環境を積極的に認識し,接地常識推論を行うためのアプローチを提案する。 当社のフレームワークを大規模に評価するために,クリーニングが必要な70の現実世界の面の画像を含むMessySurfacesデータセットをリリースしました。 さらに,2つの表面を注意深く設計したロボットによるアプローチについても紹介する。 我々は、メッシーサーフェースベンチマークの平均12.9%の改善と、アクティブな知覚を使用しないベースラインに対するロボット実験の平均15%の改善を見出した。 このアプローチのデータセット、コード、ビデオは、https://minaek.github.io/grounded_commonsense_reasoning.orgにある。

Consider a robot tasked with tidying a desk with a meticulously constructed Lego sports car. A human may recognize that it is not appropriate to disassemble the sports car and put it away as part of the "tidying." How can a robot reach that conclusion? Although large language models (LLMs) have recently been used to enable commonsense reasoning, grounding this reasoning in the real world has been challenging. To reason in the real world, robots must go beyond passively querying LLMs and actively gather information from the environment that is required to make the right decision. For instance, after detecting that there is an occluded car, the robot may need to actively perceive the car to know whether it is an advanced model car made out of Legos or a toy car built by a toddler. We propose an approach that leverages an LLM and vision language model (VLM) to help a robot actively perceive its environment to perform grounded commonsense reasoning. To evaluate our framework at scale, we release the MessySurfaces dataset which contains images of 70 real-world surfaces that need to be cleaned. We additionally illustrate our approach with a robot on 2 carefully designed surfaces. We find an average 12.9% improvement on the MessySurfaces benchmark and an average 15% improvement on the robot experiments over baselines that do not use active perception. The dataset, code, and videos of our approach can be found at https://minaek.github.io/grounded_commonsense_reasoning.
翻訳日:2024-02-21 06:32:45 公開日:2024-02-19
# 選好は進化し、あなたのバンディットも進化する - オンラインプラットフォームのための進化した状態のバンディット

Preferences Evolve And So Should Your Bandits: Bandits with Evolving States for Online Platforms ( http://arxiv.org/abs/2307.11655v3 )

ライセンス: Link先を確認
Khashayar Khosravi, Renato Paes Leme, Chara Podimata, and Apostolis Tsorvantzis(参考訳) 本稿では,Bandits with Deterministically Evolving States(B$-$DES$)と呼ぶ,決定論的に進化し,観測不能な状態を考慮に入れながら,帯域幅フィードバックによる学習モデルを提案する。 私たちのモデルのワークホースアプリケーションは、レコメンデーションシステムのための学習とオンライン広告のための学習です。 どちらの場合も、アルゴリズムが各ラウンドで得られる報酬は、選択されたアクションの短期的な報酬の関数であり、システムがどのように「健康」である(すなわち、その状態によって測定される)。 例えば、レコメンデーションシステムでは、プラットフォームが特定のタイプのコンテンツに対するユーザのエンゲージメントから得られる報酬は、特定のコンテンツの固有の特徴だけでなく、プラットフォーム上の他のタイプのコンテンツとのインタラクションの結果、ユーザの好みがどのように進化したかにも依存する。 我々の一般的なモデルは、状態が進化する異なるレートの$\lambda \in [0,1]$(例えば、以前のコンテンツ消費の結果、ユーザの嗜好がどれだけ速く変化するか)を考慮し、特殊なケースとして標準のマルチアームバンディットを包含する。 このアルゴリズムの目標は、最も固定された腕の列を引いたことに対する後悔の考えを最小化することであり、これは後から最も固定されたアクションの標準ベンチマークと比較するとはるかに困難である。 我々は,進化率$\lambda$の任意の値についてオンライン学習アルゴリズムを提示し,様々なモデルの誤特定に対して,結果の頑健性を示す。

We propose a model for learning with bandit feedback while accounting for deterministically evolving and unobservable states that we call Bandits with Deterministically Evolving States ($B$-$DES$). The workhorse applications of our model are learning for recommendation systems and learning for online ads. In both cases, the reward that the algorithm obtains at each round is a function of the short-term reward of the action chosen and how "healthy" the system is (i.e., as measured by its state). For example, in recommendation systems, the reward that the platform obtains from a user's engagement with a particular type of content depends not only on the inherent features of the specific content, but also on how the user's preferences have evolved as a result of interacting with other types of content on the platform. Our general model accounts for the different rate $\lambda \in [0,1]$ at which the state evolves (e.g., how fast a user's preferences shift as a result of previous content consumption) and encompasses standard multi-armed bandits as a special case. The goal of the algorithm is to minimize a notion of regret against the best-fixed sequence of arms pulled, which is significantly harder to attain compared to standard benchmark of the best-fixed action in hindsight. We present online learning algorithms for any possible value of the evolution rate $\lambda$ and we show the robustness of our results to various model misspecifications.
翻訳日:2024-02-21 06:24:45 公開日:2024-02-19
# 知能の性質は

The Nature of Intelligence ( http://arxiv.org/abs/2307.11114v3 )

ライセンス: Link先を確認
Barco Jie You(参考訳) 人間の脳は人間の知能の基盤である。 人間の脳をシミュレートすることで、人工知能は学習能力を持つ計算モデルを構築し、人間のレベルに近づくインテリジェントなタスクを実行する。 ディープニューラルネットワークは、データの表現を学習し、多くの認識領域における最先端を改善するために複数の計算層から構成される。 しかし、人間とAIの両方で一般的に表現される知性の本質は不明である。 ここで、知能の性質は、空間と時間上のデータセット間の機能的関係を確立することによって、システムエントロピーを最小化する一連の数学的機能的プロセスであることを示す。 人間とAIは、エネルギーを消費する強化された方法でこれらのエントロピー還元プロセスを実装することで知性を達成した。 この仮説により、言語、無意識、意識の数学的モデルを確立し、神経科学によって発見され、AI工学によって達成される証拠を予測する。 さらに、宇宙の全体エントロピーは保守的であると結論付け、知性は宇宙にもともと存在するが時間と空間にまたがって分離された物理的または情報的に連結されたデータセットによってエントロピーを減少させる自発的なプロセスに逆らう。 このエッセイは、宇宙と私たちを人間としてより深く理解するための出発点であり、人間の知性にかかわる高度なAIモデルを達成するためのものであるべきです。 さらに、このエッセイは、エントロピーをより効率的なエネルギー消費方法で減らせば、人間よりも高度な知性が存在するべきだと主張している。

The human brain is the substrate for human intelligence. By simulating the human brain, artificial intelligence builds computational models that have learning capabilities and perform intelligent tasks approaching the human level. Deep neural networks consist of multiple computation layers to learn representations of data and improve the state-of-the-art in many recognition domains. However, the essence of intelligence commonly represented by both humans and AI is unknown. Here, we show that the nature of intelligence is a series of mathematically functional processes that minimize system entropy by establishing functional relationships between datasets over the space and time. Humans and AI have achieved intelligence by implementing these entropy-reducing processes in a reinforced manner that consumes energy. With this hypothesis, we establish mathematical models of language, unconsciousness and consciousness, predicting the evidence to be found by neuroscience and achieved by AI engineering. Furthermore, a conclusion is made that the total entropy of the universe is conservative, and the intelligence counters the spontaneous processes to decrease entropy by physically or informationally connecting datasets that originally exist in the universe but are separated across the space and time. This essay should be a starting point for a deeper understanding of the universe and us as human beings and for achieving sophisticated AI models that are tantamount to human intelligence or even superior. Furthermore, this essay argues that more advanced intelligence than humans should exist if only it reduces entropy in a more efficient energy-consuming way.
翻訳日:2024-02-21 06:23:56 公開日:2024-02-19
# ランダム古典情報の局所的アクセス性 : 条件付き非局所性要求の絡み合い

Local Inaccessibility of Random Classical Information : Conditional Nonlocality demands Entanglement ( http://arxiv.org/abs/2307.08457v3 )

ライセンス: Link先を確認
Subhendu B. Ghosh, Snehasish Roy Chowdhury, Tathagata Gupta, Anandamay Das Bhowmik, Sutapa Saha, Some Sankar Bhattacharya, and Tamal Guha(参考訳) 局所的な演算と古典的通信(LOCC)の下での量子状態の識別は、古典的な情報の局所的な検索の文脈において興味深い問題である。 これまでに考慮された全ての局所量子状態判別の前提は、空間的に分離された復号装置が追加入力とは独立である基本的な通信セットを模倣している。 本稿では,局所的ランダム認証(lra)と呼ばれる,入力に依存した局所的量子状態識別のためのフレームワークを提案する。 非局所性(nonlocality)という用語は、しばしば、地域国家差別の不合理性を示すために用いられ、タスクLRAに関連する不合理性に対して条件付き非局所性( conditional nonlocality)という用語を造る。 本報告では, 条件付き非局所性は, アンサンブルにおける絡み合った状態の存在を必要とすることを報告する。 逆に、完全基底集合内の全ての状態が絡み合うことは条件付き非局所性を意味する。 しかし、LRAの不合理性は、より条件のない非局所性を示す。 完全かつ決定的な場合においても、LRAの可能性と多部量子状態の集合に対する局所状態判別の関係も確立されている。 その結果、ネットワーク内の情報のセキュリティとLOCCパラダイムによる量子絡み合いの相互作用の全く新しい側面が浮かび上がった。

Discrimination of quantum states under local operations and classical communication (LOCC) is an intriguing question in the context of local retrieval of classical information, encoded in the multipartite quantum systems. All the local quantum state discrimination premises, considered so far, mimic a basic communication set-up, where the spatially separated decoding devices are independent of any additional input. Here, exploring a generalized communication scenario we introduce a framework for input-dependent local quantum state discrimination, which we call local random authentication (LRA). Referring to the term nonlocality, often used to indicate the impossibility of local state discrimination, we coin the term conditional nonlocality for the impossibility associated with the task LRA. We report that conditional nonlocality necessitates the presence of entangled states in the ensemble, a feature absent from erstwhile nonlocality arguments based on local state discrimination. Conversely, all the states in a complete basis set being entangled implies conditional nonlocality. However, the impossibility of LRA also exhibits more conditional nonlocality with less entanglement. The relation between the possibility of LRA and local state discrimination for sets of multipartite quantum states, both in the perfect and conclusive cases, has also been established. The results highlight a completely new aspect of the interplay between the security of information in a network and quantum entanglement under the LOCC paradigm.
翻訳日:2024-02-21 06:23:06 公開日:2024-02-19
# ウェイトウォーン加速度計を用いた歩行事象の検出と走行距離:自動アプローチ

Gait Event Detection and Travel Distance Using Waist-Worn Accelerometers across a Range of Speeds: Automated Approach ( http://arxiv.org/abs/2307.04866v2 )

ライセンス: Link先を確認
Albara Ah Ramli, Xin Liu, Kelly Berndt, Chen-Nee Chuah, Erica Goude, Lynea B. Kaethler, Amanda Lopez, Alina Nicorici, Corey Owens, David Rodriguez, Jane Wang, Daniel Aranki, Craig M. McDonald, Erik K. Henricson(参考訳) 歩数,歩数,歩数,歩数,歩数,歩数,移動距離などの歩行(CF)の時間空間的臨床的特徴の推定は,ウェアラブル加速度計を用いた地域移動評価の重要な要素である。 しかし,ドッシェンヌ型筋ジストロフィー (DMD) の進行性運動量の減少は, 歩行速度の範囲のパターンや加速度の程度の違いにより, コンピュータで正確に測定することは困難である。 本稿では,新しいキャリブレーション手法を提案する。 ステップを検出し、歩幅を推定し、走行距離を決定することを目的としている。 このアプローチには、臨床観察、機械学習に基づくステップ検出、回帰に基づくストライド長予測の組み合わせが含まれる。 本手法は,DMDの小児において,被験者の能力によらず,高い精度でコントロール(TD)を発達させる。 dmdと15種類のtdを持つ15人の小児は、10mまたは25m走/歩行(10mw、25mw)、100m走/歩行(100mw)、6分歩行(6mwt)、自由歩行(fw)の評価を、体の中心付近の腰に携帯式加速度計を装着しながら、様々な歩行速度で検査を行った。 訓練された臨床評価器による校正後,多段階機械学習による加速度計データからcfsを抽出し,その結果を地中観測データと比較した。 ステップ数,移動距離,移動距離の観測値に対するモデル予測は強い相関関係を示した。 本研究は,DMDおよびTDピアの歩行速度の共通範囲を正確に測定し,移動距離を推定する手法を用いて,個人のストライド特性に調整した1つの腰輪加速度計について検討した。

Estimation of temporospatial clinical features of gait (CFs), such as step count and length, step duration, step frequency, gait speed, and distance traveled, is an important component of community-based mobility evaluation using wearable accelerometers. However, accurate unsupervised computerized measurement of CFs of individuals with Duchenne muscular dystrophy (DMD) who have progressive loss of ambulatory mobility is difficult due to differences in patterns and magnitudes of acceleration across their range of attainable gait velocities. This paper proposes a novel calibration method. It aims to detect steps, estimate stride lengths, and determine travel distance. The approach involves a combination of clinical observation, machine-learning-based step detection, and regression-based stride length prediction. The method demonstrates high accuracy in children with DMD and typically developing controls (TDs) regardless of the participant's level of ability. Fifteen children with DMD and fifteen TDs underwent supervised clinical testing across a range of gait speeds using 10 m or 25 m run/walk (10 MRW, 25 MRW), 100 m run/walk (100 MRW), 6-min walk (6 MWT), and free-walk (FW) evaluations while wearing a mobile-phone-based accelerometer at the waist near the body's center of mass. Following calibration by a trained clinical evaluator, CFs were extracted from the accelerometer data using a multi-step machine-learning-based process and the results were compared to ground-truth observation data. Model predictions vs. observed values for step counts, distance traveled, and step length showed a strong correlation. Our study findings indicate that a single waist-worn accelerometer calibrated to an individual's stride characteristics using our methods accurately measures CFs and estimates travel distances across a common range of gait speeds in both DMD and TD peers.
翻訳日:2024-02-21 06:21:13 公開日:2024-02-19
# 逐次要約による大規模言語モデルにおける長期対話記憶の実現

Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models ( http://arxiv.org/abs/2308.15022v2 )

ライセンス: Link先を確認
Qingyue Wang, Liang Ding, Yanan Cao, Zhiliang Tian, Shi Wang, Dacheng Tao, Li Guo(参考訳) 最近、gpt-4のような大規模言語モデル(llm)は、注目すべき会話能力を備えており、幅広いトピックにわたって動的かつ文脈的に関連する対話を行えるようになっている。 しかし、長い会話をすると、これらのチャットボットは過去の情報を思い出すことができず、一貫性のない応答を生み出す傾向がある。 そこで本稿では,大規模言語モデル(LLM)を用いて要約/メモリを再帰的に生成し,長期記憶能力を向上させることを提案する。 具体的には、まずLLMを刺激して、小さな対話コンテキストを記憶し、次に前のメモリと後続のコンテキストを使って再帰的に新しいメモリを生成する。 最後に、チャットボットは最新のメモリの助けを借りて、非常に一貫した応答を容易に生成できる。 提案手法はオープンおよびクローズドの両方で評価し,広範に使用されている公開データセットを用いた実験により,ロングコンテキスト会話においてより一貫した応答を生成できることを示した。 また,長いコンテキスト(例えば8Kと16K)と検索強化LLMの両方をうまく補完し,より長期の対話性能を向上できることを示す。 特に,本手法はLLMが極めて長いコンテキストをモデル化するための潜在的な解決策である。 コードとスクリプトは後でリリースされる。

Recently, large language models (LLMs), such as GPT-4, stand out remarkable conversational abilities, enabling them to engage in dynamic and contextually relevant dialogues across a wide range of topics. However, given a long conversation, these chatbots fail to recall past information and tend to generate inconsistent responses. To address this, we propose to recursively generate summaries/ memory using large language models (LLMs) to enhance long-term memory ability. Specifically, our method first stimulates LLMs to memorize small dialogue contexts and then recursively produce new memory using previous memory and following contexts. Finally, the chatbot can easily generate a highly consistent response with the help of the latest memory. We evaluate our method on both open and closed LLMs, and the experiments on the widely-used public dataset show that our method can generate more consistent responses in a long-context conversation. Also, we show that our strategy could nicely complement both long-context (e.g., 8K and 16K) and retrieval-enhanced LLMs, bringing further long-term dialogue performance. Notably, our method is a potential solution to enable the LLM to model the extremely long context. The code and scripts will be released later.
翻訳日:2024-02-21 06:12:58 公開日:2024-02-19
# ReLLa:レコメンデーションにおける生涯連続行動理解のための検索強化大言語モデル

ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation ( http://arxiv.org/abs/2308.11131v3 )

ライセンス: Link先を確認
Jianghao Lin, Rong Shan, Chenxu Zhu, Kounianhua Du, Bo Chen, Shigang Quan, Ruiming Tang, Yong Yu, Weinan Zhang(参考訳) 大規模言語モデル (LLM) が自然言語処理 (NLP) 領域で顕著なブレークスルーを達成しているため、LLM強化レコメンデータシステムは注目され、現在積極的に研究されている。 本稿では,ゼロショットと少数ショットのレコメンデーションタスクに純粋に大きな言語モデルを適用することに焦点を当てる。 まず第一に,提案領域におけるllmsの生涯連続的行動理解問題,すなわち,コンテキストの長さがllmsのコンテキスト制限に達していない場合でも,長いユーザ行動シーケンスのテキスト的文脈から有用な情報を抽出できないことを特定し,定式化する。 このような問題に対処し、LLMのレコメンデーション性能を向上させるために、ゼロショットと少数ショットの両方の設定でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。 ゼロショットレコメンデーションのために,テストサンプルのデータ品質を向上させるためにセマンティックユーザ行動検索(SUBR)を実施し,ユーザ行動シーケンスから本質的な知識を抽出することの難しさを大幅に軽減する。 本稿では,サンプルデータ拡張手法としてSUBRを採用することで,検索強化型インストラクションチューニング(ReiT)をさらに設計する。 具体的には,オリジナルデータと検索対象データの両方からなる混合学習データセットを開発した。 本研究では,既存のベースラインモデルと比較してReLLaの優位性を示すために,実世界の3つの公開データセットに対する広範な実験を行った。 強調しておきたいのは、トレーニングサンプルが10%未満であるReLLaは、トレーニングセット全体(DCNv2、DIN、SIMなど)でトレーニングされた従来のCTRモデルよりも優れていることだ。 コードは \url{https://github.com/LaVieEnRose365/ReLLa} で入手できる。

With large language models (LLMs) achieving remarkable breakthroughs in natural language processing (NLP) domains, LLM-enhanced recommender systems have received much attention and have been actively explored currently. In this paper, we focus on adapting and empowering a pure large language model for zero-shot and few-shot recommendation tasks. First and foremost, we identify and formulate the lifelong sequential behavior incomprehension problem for LLMs in recommendation domains, i.e., LLMs fail to extract useful information from a textual context of long user behavior sequence, even if the length of context is far from reaching the context limitation of LLMs. To address such an issue and improve the recommendation performance of LLMs, we propose a novel framework, namely Retrieval-enhanced Large Language models (ReLLa) for recommendation tasks in both zero-shot and few-shot settings. For zero-shot recommendation, we perform semantic user behavior retrieval (SUBR) to improve the data quality of testing samples, which greatly reduces the difficulty for LLMs to extract the essential knowledge from user behavior sequences. As for few-shot recommendation, we further design retrieval-enhanced instruction tuning (ReiT) by adopting SUBR as a data augmentation technique for training samples. Specifically, we develop a mixed training dataset consisting of both the original data samples and their retrieval-enhanced counterparts. We conduct extensive experiments on three real-world public datasets to demonstrate the superiority of ReLLa compared with existing baseline models, as well as its capability for lifelong sequential behavior comprehension. To be highlighted, with only less than 10% training samples, few-shot ReLLa can outperform traditional CTR models that are trained on the entire training set (e.g., DCNv2, DIN, SIM). The code is available \url{https://github.com/LaVieEnRose365/ReLLa}.
翻訳日:2024-02-21 06:11:29 公開日:2024-02-19
# AFN: Encoder-Decoderフレームワークによる適応核融合正規化

AFN: Adaptive Fusion Normalization via an Encoder-Decoder Framework ( http://arxiv.org/abs/2308.03321v4 )

ライセンス: Link先を確認
Zikai Zhou, Shuo Zhang, Ziruo Wang, Huanran Chen(参考訳) ディープラーニングの成功は、正規化層とは区別できない。 研究者は様々な正規化関数を提案しており、それぞれに利点と欠点がある。 これに対し、すべての正規化手順を組み合わせて弱点を緩和する統一正規化関数を設計する努力がなされている。 また,Adaptive Fusion Normalizationと呼ばれる新しい正規化関数も提案した。 実験により,AFNは領域一般化や画像分類タスクにおいて,従来の正規化手法よりも優れていた。

The success of deep learning is inseparable from normalization layers. Researchers have proposed various normalization functions, and each of them has both advantages and disadvantages. In response, efforts have been made to design a unified normalization function that combines all normalization procedures and mitigates their weaknesses. We also proposed a new normalization function called Adaptive Fusion Normalization. Through experiments, we demonstrate AFN outperforms the previous normalization techniques in domain generalization and image classification tasks.
翻訳日:2024-02-21 06:08:26 公開日:2024-02-19
# CroSSL: 潜時マスキングによる時系列のクロスモーダル自己監視学習

CroSSL: Cross-modal Self-Supervised Learning for Time-series through Latent Masking ( http://arxiv.org/abs/2307.16847v3 )

ライセンス: Link先を確認
Shohreh Deldari, Dimitris Spathis, Mohammad Malekzadeh, Fahim Kawsar, Flora Salim, Akhil Mathur(参考訳) マルチモーダル時系列の機械学習のためのラベル付きデータの可用性は、フィールドの進歩を広範囲に阻害する。 自己教師付き学習(SSL)はラベルに頼ることなくデータ表現を学ぶための有望なアプローチである。 しかし、既存のSSLメソッドは、負のペアの高価な計算を必要とし、通常は単一のモダリティのために設計されている。 我々はCroSSL(Cross-modal SSL)を導入し、モダリティ固有のエンコーダによって生成された中間埋め込みをマスキングすることと、下流の分類器に供給できるクロスモーダルアグリゲータを通じてグローバルな埋め込みに集約することの2つの新しい概念を紹介した。 CroSSLは、欠落したモダリティとエンドツーエンドのクロスモーダル学習を、欠落した入力を処理するための事前データ前処理や、対照的な学習のためのネガティブペアサンプリングを必要としない。 本研究では,加速度センサやジャイロスコープ,生体信号(心拍数,脳電図,筋電図,筋電図,筋電図)など,様々なデータに対してマスキング比とマスキング戦略が与える影響について検討した。 全体として、CroSSLは、最小限のラベル付きデータを使用して以前のSSLと教師付きベンチマークより優れており、また、潜伏マスキングがクロスモーダル学習を改善する方法についても光を当てている。 私たちのコードはhttps://github.com/dr-bell/crosslでオープンソースです。

Limited availability of labeled data for machine learning on multimodal time-series extensively hampers progress in the field. Self-supervised learning (SSL) is a promising approach to learning data representations without relying on labels. However, existing SSL methods require expensive computations of negative pairs and are typically designed for single modalities, which limits their versatility. We introduce CroSSL (Cross-modal SSL), which puts forward two novel concepts: masking intermediate embeddings produced by modality-specific encoders, and their aggregation into a global embedding through a cross-modal aggregator that can be fed to down-stream classifiers. CroSSL allows for handling missing modalities and end-to-end cross-modal learning without requiring prior data preprocessing for handling missing inputs or negative-pair sampling for contrastive learning. We evaluate our method on a wide range of data, including motion sensors such as accelerometers or gyroscopes and biosignals (heart rate, electroencephalograms, electromyograms, electrooculograms, and electrodermal) to investigate the impact of masking ratios and masking strategies for various data types and the robustness of the learned representations to missing data. Overall, CroSSL outperforms previous SSL and supervised benchmarks using minimal labeled data, and also sheds light on how latent masking can improve cross-modal learning. Our code is open-sourced at https://github.com/dr-bell/CroSSL.
翻訳日:2024-02-21 06:08:04 公開日:2024-02-19
# 簡潔な基底状態を持つ局所ハミルトン問題はMA-Completeである

Local Hamiltonian Problem with succinct ground state is MA-Complete ( http://arxiv.org/abs/2309.10155v2 )

ライセンス: Link先を確認
Jiaqing Jiang(参考訳) 量子系の基底エネルギーを見つけることは、凝縮物質物理学と量子化学の基本的な問題である。 この問題に取り組む既存の古典的アルゴリズムは、基底状態が簡潔な古典的記述、すなわち振幅を計算するための多サイズ古典回路を持つと仮定することが多い。 簡潔な状態の顕著な例は、行列積状態、可縮射影対状態、古典的ニューラルネットワークで表現できる状態を含む。 局所ハミルトン問題と簡潔な基底状態の複雑性について検討する。 我々はこの問題がMA-Completeであることを証明する。 私たちが考えるハミルトン派は一般であり、確率的ではないかもしれない。 MA検証プロトコルは固定ノード量子モンテカルロ法、特にBravyiらによって導入された連続時間マルコフ連鎖の変種に基づいている。 [bcgl22] 本研究に基づいて, 強誘導状態の概念を導入し, 強誘導状態を持つ局所ハミルトン問題はma完全であり, 標準誘導状態を持つ局所ハミルトン問題[wfc23,glg22]のqcma完全結果とは対照的なものであると推測する。

Finding the ground energy of a quantum system is a fundamental problem in condensed matter physics and quantum chemistry. Existing classical algorithms for tackling this problem often assume that the ground state has a succinct classical description, i.e. a poly-size classical circuit for computing the amplitude. Notable examples of succinct states encompass matrix product states, contractible projected entangled pair states, and states that can be represented by classical neural networks. We study the complexity of the local Hamiltonian problem with succinct ground state. We prove this problem is MA-Complete. The Hamiltonian we consider is general and might not be stoquastic. The MA verification protocol is based on the fixed node quantum Monte Carlo method, particularly the variant of the continuous-time Markov chain introduced by Bravyi et.al. [BCGL22]. Based on our work, we also introduce a notion of strong guided states, and conjecture that the local Hamiltonian problem with strong guided state is MA-Complete, which will be in contrast with the QCMA-Complete result of the local Hamiltonian problem with standard guided states [WFC23,GLG22].
翻訳日:2024-02-21 05:59:57 公開日:2024-02-19
# RaTrack: 4Dレーダポイントクラウドによるオブジェクトの検出と追跡

RaTrack: Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v4 )

ライセンス: Link先を確認
Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu(参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。 3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。 現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。 4dレーダデータにおけるレーダノイズとポイントスパーシティの課題を認識し,レーダトラッキングに適した革新的なソリューションであるratrackを紹介する。 特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。 View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、ほとんどの場合、最先端のパフォーマンスを上回っている。 コードとモデルはhttps://github.com/ljacksonpan/ratrackでリリースします。

Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art. We release our code and model at https://github.com/LJacksonPan/RaTrack.
翻訳日:2024-02-21 05:59:37 公開日:2024-02-19
# VERSE:任意の推論で生涯学習をストリーミングする仮想グラディエント・アウェア

VERSE: Virtual-Gradient Aware Streaming Lifelong Learning with Anytime Inference ( http://arxiv.org/abs/2309.08227v2 )

ライセンス: Link先を確認
Soumya Banerjee, Vinay K. Verma, Avideep Mukherjee, Deepak Gupta, Vinay P. Namboodiri, Piyush Rai(参考訳) 生涯学習または連続学習は、AIエージェントを継続的に訓練すると同時に、以前獲得した知識を忘れないようにする問題である。 ストリーミング生涯学習は、忘れずに動的非定常環境での継続的学習を目標として、生涯学習の難しい設定である。 ストリーミング(各トレーニングサンプルを1回だけ観察する)であり、データに1回のパスが必要で、クラスインクリメンタルな方法で学習でき、オンザフライ(任意の時間推論)で評価できる、生涯学習の新しいアプローチを導入する。 そこで本研究では,各新しい例に適応し,過去のデータにも順応し,破滅的な忘れ込みを防止できる,新規なemph{virtual gradients}に基づく連続表現学習手法を提案する。 提案手法では,指数移動平均型セマンティックメモリを活用し,性能をさらに向上する。 時間的に相関した観測データを用いた多種多様なデータセット実験により,本手法の有効性と既存手法よりも優れた性能を示した。

Lifelong learning or continual learning is the problem of training an AI agent continuously while also preventing it from forgetting its previously acquired knowledge. Streaming lifelong learning is a challenging setting of lifelong learning with the goal of continuous learning in a dynamic non-stationary environment without forgetting. We introduce a novel approach to lifelong learning, which is streaming (observes each training example only once), requires a single pass over the data, can learn in a class-incremental manner, and can be evaluated on-the-fly (anytime inference). To accomplish these, we propose a novel \emph{virtual gradients} based approach for continual representation learning which adapts to each new example while also generalizing well on past data to prevent catastrophic forgetting. Our approach also leverages an exponential-moving-average-based semantic memory to further enhance performance. Experiments on diverse datasets with temporally correlated observations demonstrate our method's efficacy and superior performance over existing methods.
翻訳日:2024-02-21 05:58:35 公開日:2024-02-19
# 月からの天文学:太陽系外惑星から可視光の宇宙科学へ

Astronomy from the Moon: From Exoplanets to Cosmology in Visible Light and Beyond ( http://arxiv.org/abs/2309.01421v3 )

ライセンス: Link先を確認
Jean Schneider, Pierre Kervella and Antoine Labeyrie(参考訳) 今後数十年間、月からの天文学はどのように見えるかを見てきた。 月は、大きな望遠鏡や干渉計を軌道望遠鏡よりも大きい機器で設置する可能性を提供する。 まず,地球から実現できない,野心的な科学事例の例を示す。 光量測定から高コントラスト、高角分解能イメージングまで、観測アプローチの概観を終え、第一段階として1メートル級前駆体を提案し、それを使って科学ができることを探究する。 我々は、地球-月系を用いて量子物理学理論をテストする提案を行う。

We look at what astronomy from the Moon might be like in the visible over the next few decades. The Moon offers the possibility of installing large telescopes or interferometers with instruments larger than those on orbiting telescopes. We first present examples of ambitious science cases, in particular ideas that cannot be implemented from Earth. After a general review of observational approaches, from photometry to high contrast and high angular resolution imaging, we propose as a first step a 1-metre-class precursor and explore what science can be done with it. We add a proposal to use the Earth-Moon system to test the Quantum Physics theory.
翻訳日:2024-02-21 05:56:52 公開日:2024-02-19
# 個人化学習者モデリングにおける識別可能性と説明可能性:帰納的パラダイム

Towards the Identifiability and Explainability for Personalized Learner Modeling: An Inductive Paradigm ( http://arxiv.org/abs/2309.00300v4 )

ライセンス: Link先を確認
Jiatong Li, Qi Liu, Fei Wang, Jiayu Liu, Zhenya Huang, Fangzhou Yao, Linbo Zhu, Yu Su(参考訳) 認知診断(CD)を用いたパーソナライズドラーナーモデリングは,学習者の特徴を行動データから診断することで学習者の認知状態をモデル化することを目的としている。 既存の認知診断モデル(CDM)は、学習者特性と質問パラメータをトレーニング可能な埋め込みと見なし、学習者のパフォーマンス予測を通じて学習する能力応答パラダイムに従う。 しかし,このパラダイムは,学習者の認知状態の定量化やWeb学習サービスの質に有害な,避けられない非識別性や説明可能性の過剰適合問題につながることに気付く。 これらの問題を解決するために,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく識別可能な認知診断フレームワーク(ID-CDF)を提案する。 具体的には,id-cdfの診断モジュールを考案し,帰納的学習を活用し,最適化におけるランダム性を排除し,識別性を保証するとともに,全体応答データ分布と認知状態とのモノトニック性を取得し,説明可能性の過剰化を防止する。 次に,診断精度を確保するために,ID-CDFのためのフレキシブルな予測モジュールを提案する。 さらに,そのユーザビリティを示すために,ID-CDF,すなわちID-CDMの実装を提案する。 異なる特徴を持つ4つの実世界のデータセットに対する大規模な実験は、ID-CDFが診断精度を損なうことなくこの問題に効果的に対処できることを示した。

Personalized learner modeling using cognitive diagnosis (CD), which aims to model learners' cognitive states by diagnosing learner traits from behavioral data, is a fundamental yet significant task in many web learning services. Existing cognitive diagnosis models (CDMs) follow the proficiency-response paradigm that views learner traits and question parameters as trainable embeddings and learns them through learner performance prediction. However, we notice that this paradigm leads to the inevitable non-identifiability and explainability overfitting problem, which is harmful to the quantification of learners' cognitive states and the quality of web learning services. To address these problems, we propose an identifiable cognitive diagnosis framework (ID-CDF) based on a novel response-proficiency-response paradigm inspired by encoder-decoder models. Specifically, we first devise the diagnostic module of ID-CDF, which leverages inductive learning to eliminate randomness in optimization to guarantee identifiability and captures the monotonicity between overall response data distribution and cognitive states to prevent explainability overfitting. Next, we propose a flexible predictive module for ID-CDF to ensure diagnosis preciseness. We further present an implementation of ID-CDF, i.e., ID-CDM, to illustrate its usability. Extensive experiments on four real-world datasets with different characteristics demonstrate that ID-CDF can effectively address the problems without loss of diagnosis preciseness.
翻訳日:2024-02-21 05:56:19 公開日:2024-02-19
# 不規則系の相転移に関する情報境界

Information Bounds on phase transitions in disordered systems ( http://arxiv.org/abs/2308.15532v2 )

ライセンス: Link先を確認
Noa Feldman, Niv Davidson, Moshe Goldstein(参考訳) コンピュータ科学や多体物理学に根ざした情報理論は、伝統的に(ほぼ)独立した分野として研究されてきた。 つい最近になってこのパラダイムが変化し始め、多体物理学が研究され、情報理論で開発されたツールを用いて特徴づけられた。 本研究では、この接続に関する新たな視点を導入し、乱数系の局在化や測定値を持つランダム量子回路など、ランダム性を持つモデルにおける相転移の研究を行う。 確率分布の微分に関する情報に基づく議論を利用して、これらの相転移(特に相関や局在長を制御するもの)に臨界指数を束縛する。 我々はこの手法をベンチマークし,非相互作用粒子のアンダーソン局在遷移と古典的乱れスピン系において,有名なハリス基準を再定義する。 その後,本手法を多体局所化に適用する。 実空間において、我々の臨界指数境界は最近のコンセンサスと一致するが、限られた大きさのシステムに対するフォック空間の局所化に関する数値的な結果が我々の境界に従わず、シミュレーション結果は漸近的に保持されないかもしれない(現在の実空間問題で発生したと考えられているものと同様)。 また,この手法をランダムな測定値を持つランダム量子回路に適用し,近年のパーコレーション問題へのマッピングを超越した境界を導出する。

Information theory, rooted in computer science, and many-body physics, have traditionally been studied as (almost) independent fields. Only recently has this paradigm started to shift, with many-body physics being studied and characterized using tools developed in information theory. In our work, we introduce a new perspective on this connection, and study phase transitions in models with randomness, such as localization in disordered systems, or random quantum circuits with measurements. Utilizing information-based arguments regarding probability distribution differentiation, we bound critical exponents in such phase transitions (specifically, those controlling the correlation or localization lengths). We benchmark our method and rederive the well-known Harris criterion, bounding critical exponents in the Anderson localization transition for noninteracting particles, as well as classical disordered spin systems. We then move on to apply our method to many-body localization. While in real space our critical exponent bound agrees with recent consensus, we find that, somewhat surprisingly, numerical results on Fock-space localization for limited-sized systems do not obey our bounds, indicating that the simulation results might not hold asymptotically (similarly to what is now believed to have occurred in the real-space problem). We also apply our approach to random quantum circuits with random measurements, for which we can derive bounds transcending recent mappings to percolation problems.
翻訳日:2024-02-21 05:55:41 公開日:2024-02-19
# 雑音化における後方分布について:不確実性定量化への応用

On the Posterior Distribution in Denoising: Application to Uncertainty Quantification ( http://arxiv.org/abs/2309.13598v2 )

ライセンス: Link先を確認
Hila Manor and Tomer Michaeli(参考訳) 低品位イメージングセンサーのノイズ抑制からスコアベース生成モデルの強化に至るまで、多くの応用においてデノイザは中心的な役割を果たす。 後者の分類は tweedie's formula を用いており、これはガウスのデノイジング(最小のmseデノイザー)における後平均とデータ分布のスコアを関連付けている。 ここでは,後方分布の高次中心モーメントと後方平均の高次微分との間の基礎的関係を導出する。 この結果を利用して,事前学習したデノイザの不確実性定量化を行う。 特に,画像の任意の所望領域に対する後方分布の主成分を効率的に計算する方法を示し,それら(または他の)一次元方向に沿った全辺分布を近似する。 本手法は,高次モーメントテンソルを明示的に計算したり保存したりせず,デノイザのトレーニングや微調整を必要としないため,高速かつメモリ効率がよい。 コードとサンプルはプロジェクトのWebページ(https://hilamanor.github.io/GaussianDenoisingPosterior/)で公開されている。

Denoisers play a central role in many applications, from noise suppression in low-grade imaging sensors, to empowering score-based generative models. The latter category of methods makes use of Tweedie's formula, which links the posterior mean in Gaussian denoising (\ie the minimum MSE denoiser) with the score of the data distribution. Here, we derive a fundamental relation between the higher-order central moments of the posterior distribution, and the higher-order derivatives of the posterior mean. We harness this result for uncertainty quantification of pre-trained denoisers. Particularly, we show how to efficiently compute the principal components of the posterior distribution for any desired region of an image, as well as to approximate the full marginal distribution along those (or any other) one-dimensional directions. Our method is fast and memory-efficient, as it does not explicitly compute or store the high-order moment tensors and it requires no training or fine tuning of the denoiser. Code and examples are available on the project webpage in https://hilamanor.github.io/GaussianDenoisingPosterior/ .
翻訳日:2024-02-21 05:45:28 公開日:2024-02-19
# ChaCha:大きな言語モデルを活用して子どもたちに個人的出来事に対する感情を共有する

ChaCha: Leveraging Large Language Models to Prompt Children to Share Their Emotions about Personal Events ( http://arxiv.org/abs/2309.12244v4 )

ライセンス: Link先を確認
Woosuk Seo, Chanmo Yang, Young-Ho Kim(参考訳) 子供は通常、物語や感情を他人、特に家族と共有することで感情を識別し表現することを学ぶ。 しかし,親や兄弟姉妹は,まだコミュニケーション能力が発達しているため,子どもと感情的なコミュニケーションをとることが困難である。 チャットボットChaChaは、子どもたちに個人的な出来事と関連する感情を共有することを奨励し、指導する。 ChaChaはステートマシンと大きな言語モデル(LLM)を組み合わせて、自由形式の会話をしながら対話をトラックする。 20人の子供(8-12歳)を対象にした探索的研究を通じて,ChaChaが子どもに個人の出来事を共有し,関連する感情を記述するための指導を行う方法を検討した。 参加者はChaChaを親しい友人と認識し、家族旅行や個人的業績など様々な話題について話を共有した。 本研究は, 子どもの感情共有を支援するために, LLMを利用して子どもに優しいチャットボットを設計する機会について論じる。

Children typically learn to identify and express emotions through sharing their stories and feelings with others, particularly their family. However, it is challenging for parents or siblings to have emotional communication with children since children are still developing their communication skills. We present ChaCha, a chatbot that encourages and guides children to share personal events and associated emotions. ChaCha combines a state machine and large language models (LLMs) to keep the dialogue on track while carrying on free-form conversations. Through an exploratory study with 20 children (aged 8-12), we examine how ChaCha prompts children to share personal events and guides them to describe associated emotions. Participants perceived ChaCha as a close friend and shared their stories on various topics, such as family trips and personal achievements. Based on the findings, we discuss opportunities for leveraging LLMs to design child-friendly chatbots to support children in sharing emotions.
翻訳日:2024-02-21 05:44:54 公開日:2024-02-19
# StructChart: 視覚チャート理解のための知覚、構造化、推論

StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding ( http://arxiv.org/abs/2309.11268v4 )

ライセンス: Link先を確認
Renqiu Xia, Bo Zhang, Haoyang Peng, Hancheng Ye, Xiangchao Yan, Peng Ye, Botian Shi, Yu Qiao, Junchi Yan(参考訳) チャートは様々な科学分野の文献で一般的であり、読者に簡単にアクセス可能なリッチな情報を伝える。 現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識、あるいはグラフ形式で抽出されたデータに対して推論を実行することに焦点を当てている。 本稿では,ピアワークに特有な質問応答タスクを超えて,異なる下流タスクに広く適用可能な,統合的かつラベル効率の高い共同知覚と推論タスクの学習パラダイムを確立することを目的とする。 具体的には、structchartはまず、チャート情報を人気のある管状形式(特に線形化されたcsv)から提案されている構造化三重項表現(str)に再構成する。 次に、チャート認識タスクの性能を定量的に評価する構造化チャート指向表現尺度(SCRM)を提案する。 学習用データセットを充実させるためには,Large Language Model (LLM)を活用する可能性をさらに検討し,チャートの視覚的スタイルと統計情報の両方の観点からチャートの多様性を高める。 様々なチャート関連タスクに関する広範囲な実験が行われ、チャート理解のフロンティアを推進するために統一されたチャート知覚-合理化パラダイムの有効性と可能性を示している。

Charts are common in literature across different scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception which refers to extracting information from the visual charts, or performing reasoning given the extracted data, e.g. in a tabular form. In this paper, we aim to establish a unified and label-efficient learning paradigm for joint perception and reasoning tasks, which can be generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart information from the popular tubular form (specifically linearized CSV) to the proposed Structured Triplet Representations (STR), which is more friendly for reducing the task gap between chart perception and reasoning due to the employed structured information extraction for charts. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the performance for the chart perception task. To enrich the dataset for training, we further explore the possibility of leveraging the Large Language Model (LLM), enhancing the chart diversity in terms of both chart visual style and its statistical information. Extensive experiments are conducted on various chart-related tasks, demonstrating the effectiveness and promising potential for a unified chart perception-reasoning paradigm to push the frontier of chart understanding.
翻訳日:2024-02-21 05:44:21 公開日:2024-02-19
# 感度を意識したベイズ推定

Sensitivity-Aware Amortized Bayesian Inference ( http://arxiv.org/abs/2310.11122v4 )

ライセンス: Link先を確認
Lasse Elsem\"uller, Hans Olischl\"ager, Marvin Schmitt, Paul-Christian B\"urkner, Ullrich K\"othe, Stefan T. Radev(参考訳) 感度分析は、様々なモデリング選択が統計的分析の結果に与える影響を明らかにする。 理論的には魅力的だが、複雑なベイズモデルでは圧倒的に非効率である。 本研究では,感性解析をニューラルネットワークを用いたシミュレーションベース推論に効率的に統合する多面的手法であるsa-abiを提案する。 まず,計算オーバーヘッドを最小に抑えながら,学習プロセスにおける代替可能性と事前仕様との間の構造的類似性を符号化するために,重みの共有を利用する。 次に、ニューラルネットワークの高速推論を利用して、データ摂動や前処理ステップに対する感度を評価する。 他のベイズ的アプローチとは対照的に、どちらのステップも確率、事前またはデータセットの選択ごとにモデルを再構成するコストのかかるボトルネックを回避する。 最後に,信頼できない近似(モデルの誤特定など)から生じる感度を検出するために,深いアンサンブルを用いることを提案する。 本手法は, 疾病の発生動態や地球温暖化閾値から意思決定まで, 応用モデル問題における有効性を示す。 この結果から,モーメント化されたベイズワークフローのデフォルト選択として感度・アウェア推論をサポートし,隠れた次元に対する洞察をモデラーに自動的に提供する。

Sensitivity analyses reveal the influence of various modeling choices on the outcomes of statistical analyses. While theoretically appealing, they are overwhelmingly inefficient for complex Bayesian models. In this work, we propose sensitivity-aware amortized Bayesian inference (SA-ABI), a multifaceted approach to efficiently integrate sensitivity analyses into simulation-based inference with neural networks. First, we utilize weight sharing to encode the structural similarities between alternative likelihood and prior specifications in the training process with minimal computational overhead. Second, we leverage the rapid inference of neural networks to assess sensitivity to data perturbations and preprocessing steps. In contrast to most other Bayesian approaches, both steps circumvent the costly bottleneck of refitting the model for each choice of likelihood, prior, or data set. Finally, we propose to use deep ensembles to detect sensitivity arising from unreliable approximation (e.g., due to model misspecification). We demonstrate the effectiveness of our method in applied modeling problems, ranging from disease outbreak dynamics and global warming thresholds to human decision-making. Our results support sensitivity-aware inference as a default choice for amortized Bayesian workflows, automatically providing modelers with insights into otherwise hidden dimensions.
翻訳日:2024-02-21 05:36:43 公開日:2024-02-19
# JsonTuning: 汎用性、ロバスト、制御可能なインストラクションチューニングを目指す

JsonTuning: Towards Generalizable, Robust, and Controllable Instruction Tuning ( http://arxiv.org/abs/2310.02953v2 )

ライセンス: Link先を確認
Chang Gao, Wenxuan Zhang, Guizhen Chen, Wai Lam(参考訳) インストラクションチューニングは、明示的なタスク命令を提供することによって、大規模言語モデル(LLM)の機能を活用するための重要なプロセスとして現れ、様々なタスクのパフォーマンスが向上した。 しかし、一般的なtext-to-text命令チューニング(texttuning)メソッドは、あいまいさとタスクの明示的な構造不足のため、一般化、堅牢性、制御性の制限に苦しむ。 本稿では,新しい構造から構造へのアプローチであるJsonTuningを提案する。 jsontuningは、jsonの汎用性と構造的な性質を活用してタスクを表現することにより、モデルが本質的なタスク要素とその関係を理解するのを支援し、あいまいさを最小限に抑えることによって堅牢性を改善し、出力を明示的に制御することで制御性を高める。 多様な言語モデルと評価ベンチマークを用いて総合的な比較研究を行う。 実験の結果、JsonTuningは様々なアプリケーションでTextTuningより優れており、パフォーマンス、適応性、堅牢性、制御性が改善されている。 jsontuningは、テキストチューニングの制限を克服することで、さまざまなシナリオを処理可能な、より効果的で信頼性の高いllmに対する大きな可能性を示している。

Instruction tuning has emerged as a crucial process for harnessing the capabilities of large language models (LLMs) by providing explicit task instructions, leading to improved performance in various tasks. However, prevalent text-to-text instruction tuning (TextTuning) methods suffer from limitations in generalization, robustness, and controllability due to the ambiguity and lack of explicit structure in tasks. In this paper, we propose JsonTuning, a novel structure-to-structure approach for instruction tuning. By leveraging the versatility and structured nature of JSON to represent tasks, JsonTuning enhances generalization by helping the model understand essential task elements and their relations, improves robustness by minimizing ambiguity, and increases controllability by providing explicit control over the output. We conduct a comprehensive comparative study with diverse language models and evaluation benchmarks. Experimental results show that JsonTuning outperforms TextTuning in various applications, showcasing improved performance, adaptability, robustness, and controllability. By overcoming the limitations of TextTuning, JsonTuning demonstrates significant potential for more effective and reliable LLMs capable of handling diverse scenarios.
翻訳日:2024-02-21 05:33:41 公開日:2024-02-19
# 高周波波面から学ぶ超音波局在顕微鏡

RF-ULM: Ultrasound Localization Microscopy Learned from Radio-Frequency Wavefronts ( http://arxiv.org/abs/2310.01545v3 )

ライセンス: Link先を確認
Christopher Hahne, Georges Chabouh, Arthur Chavignon, Olivier Couture, Raphael Sznitman(参考訳) 超音波局在顕微鏡(ultrasound Localization Microscopy, ULM)では、高解像度画像を得るには、一連のビームフォーミングフレームにわたるコントラスト剤粒子の正確な局在化に依存する。 しかし,本研究では,遅延・サマービームフォーミングの過程がラジオ周波数(RF)チャネルデータの可逆的低減につながる一方で,ローカライゼーションに対する影響は未解明のままである。 RF波面内に埋め込まれたリッチなコンテキスト情報は、その双曲的な形状とフェーズを含み、ローカライゼーションシナリオに挑戦するディープニューラルネットワーク(DNN)を導くための大きな約束を提供する。 このデータをフル活用するために,RFチャネルデータ中の散乱体を直接ローカライズすることを提案する。 我々のアプローチは、学習した特徴チャネルシャッフル、非最大抑圧、信頼性と正確な波面定位のための半グローバル畳み込みブロックを用いたカスタム超解像DNNである。 さらに,rf と b モード座標空間のシームレスなマッピングを容易にする幾何学的点変換を導入する。 ulmに対するビームフォーミングの影響を理解するために,最先端技術 (sota) との比較を行い,本手法の有効性を検証する。 RFをトレーニングしたDNNによる生体内実験を行い,実世界の実用性を強調した。 RF-ULMは、合成データセットと実データセットの領域シフトをブリッジし、精度と複雑さの点で大きな優位性をもたらす。 私たちの発見から幅広い研究コミュニティが恩恵を受けられるように、私たちのコードと関連するsomaメソッドはhttps://github.com/hahnec/rf-ulm.com/で利用可能です。

In Ultrasound Localization Microscopy (ULM), achieving high-resolution images relies on the precise localization of contrast agent particles across a series of beamformed frames. However, our study uncovers an enormous potential: The process of delay-and-sum beamforming leads to an irreversible reduction of Radio-Frequency (RF) channel data, while its implications for localization remain largely unexplored. The rich contextual information embedded within RF wavefronts, including their hyperbolic shape and phase, offers great promise for guiding Deep Neural Networks (DNNs) in challenging localization scenarios. To fully exploit this data, we propose to directly localize scatterers in RF channel data. Our approach involves a custom super-resolution DNN using learned feature channel shuffling, non-maximum suppression, and a semi-global convolutional block for reliable and accurate wavefront localization. Additionally, we introduce a geometric point transformation that facilitates seamless mapping between RF and B-mode coordinate space. To understand the impact of beamforming on ULM, we validate the effectiveness of our method by conducting an extensive comparison with State-Of-The-Art (SOTA) techniques. We present the inaugural in vivo results from an RF-trained DNN, highlighting its real-world practicality. Our findings show that RF-ULM bridges the domain shift between synthetic and real datasets, offering a considerable advantage in terms of precision and complexity. To enable the broader research community to benefit from our findings, our code and the associated SOTA methods are made available at https://github.com/hahnec/rf-ulm.
翻訳日:2024-02-21 05:32:24 公開日:2024-02-19
# 深部異常検出のための慣れ親しんだ機能を超えて

Going Beyond Familiar Features for Deep Anomaly Detection ( http://arxiv.org/abs/2310.00797v3 )

ライセンス: Link先を確認
Sarath Sivaprasad and Mario Fritz(参考訳) 異常検出(AD)は、正規性の学習モデルに適合しない観察を識別する重要なタスクである。 ディープADにおける以前の研究は主に親しみやすい仮説に基づいており、親しみやすい特徴が事前訓練された埋め込み空間の参照として機能する。 この戦略は非常に成功したが、事前訓練された符号化によってうまく捉えられていない真に新しい特徴からなる異常が一貫した偽陰性を引き起こすことが判明した。 本稿では, 入力空間における説明不能な観測として, 説明可能性を用いた新しいAD手法を提案する。 ハイブリッドアプローチで親しみと新しさを組み合わせることで,幅広い異常ベンチマークにおいて強力なパフォーマンスを実現する。 提案手法は,複数のベンチマークにまたがる新たな最先端性を確立し,多様な異常な型を扱うとともに,高価なバックグラウンドモデルや密マッチングを必要としない。 特に,新しい特徴を考慮すれば,最先端のベンチマークと比較して,挑戦的なベンチマークで偽陰性異常を最大40%削減できることを示す。 本手法は,画素レベルの異常に対する視覚検査可能な説明を与える。

Anomaly Detection (AD) is a critical task that involves identifying observations that do not conform to a learned model of normality. Prior work in deep AD is predominantly based on a familiarity hypothesis, where familiar features serve as the reference in a pre-trained embedding space. While this strategy has proven highly successful, it turns out that it causes consistent false negatives when anomalies consist of truly novel features that are not well captured by the pre-trained encoding. We propose a novel approach to AD using explainability to capture such novel features as unexplained observations in the input space. We achieve strong performance across a wide range of anomaly benchmarks by combining familiarity and novelty in a hybrid approach. Our approach establishes a new state-of-the-art across multiple benchmarks, handling diverse anomaly types while eliminating the need for expensive background models and dense matching. In particular, we show that by taking account of novel features, we reduce false negative anomalies by up to 40% on challenging benchmarks compared to the state-of-the-art. Our method gives visually inspectable explanations for pixel-level anomalies.
翻訳日:2024-02-21 05:31:26 公開日:2024-02-19
# SalUn: 画像分類と生成の両方において、グラディエントベースのウェイトサリエンシによる機械学習の強化

SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation ( http://arxiv.org/abs/2310.12508v3 )

ライセンス: Link先を確認
Chongyu Fan, Jiancheng Liu, Yihua Zhang, Dennis Wei, Eric Wong, Sijia Liu(参考訳) データレギュレーションの進化に伴い、マシンアンラーニング(MU)は、今日のAIモデルの信頼性と安全性を促進する重要なツールとなっている。 しかし、データおよび/またはウェイトパースペクティブに焦点を当てた既存のMUメソッドは、未学習の精度、安定性、ドメイン間の適用性に制限を受けることが多い。 これらの課題に対処するため、モデル説明において、MUの「重み値」の概念を導入し、入力値値と並列性を引き出す。 この革新はMUの注意をモデル全体よりも特定のモデルウェイトに向け、効率と効率を改善します。 saliency unlearning (salun)と呼ぶ結果、パフォーマンスのギャップを"exact"アンラーニング(データポイントを取り除いた後にゼロから再トレーニングする)で狭めます。 私たちの知る限り、SalUnは、画像分類と生成タスクの両方において、データ、クラス、概念を忘れることの影響を効果的に消すことができる最初の原則MUアプローチです。 例えば、SalUnは、CIFAR-10データセットの正確なアンラーニングに比べて0.2%の差で、高分散ランダムデータの忘れにおいて安定性の優位性をもたらす。 さらに、条件付き拡散モデルが有害な画像を生成するのを防ぐために、SalUnは100%近い未学習の精度を達成し、時代遅れの安定拡散やForget-Me-Notのような最先端のベースラインを上回っている。 コードはhttps://github.com/OPTML-Group/Unlearn-Saliencyで入手できる。 (注意:本論文は自然に悪影響を及ぼす可能性のあるモデル出力を含む。)

With evolving data regulations, machine unlearning (MU) has become an important tool for fostering trust and safety in today's AI models. However, existing MU methods focusing on data and/or weight perspectives often suffer limitations in unlearning accuracy, stability, and cross-domain applicability. To address these challenges, we introduce the concept of 'weight saliency' for MU, drawing parallels with input saliency in model explanation. This innovation directs MU's attention toward specific model weights rather than the entire model, improving effectiveness and efficiency. The resultant method that we call saliency unlearning (SalUn) narrows the performance gap with 'exact' unlearning (model retraining from scratch after removing the forgetting data points). To the best of our knowledge, SalUn is the first principled MU approach that can effectively erase the influence of forgetting data, classes, or concepts in both image classification and generation tasks. As highlighted below, For example, SalUn yields a stability advantage in high-variance random data forgetting, e.g., with a 0.2% gap compared to exact unlearning on the CIFAR-10 dataset. Moreover, in preventing conditional diffusion models from generating harmful images, SalUn achieves nearly 100% unlearning accuracy, outperforming current state-of-the-art baselines like Erased Stable Diffusion and Forget-Me-Not. Codes are available at https://github.com/OPTML-Group/Unlearn-Saliency. (WARNING: This paper contains model outputs that may be offensive in nature.)
翻訳日:2024-02-21 05:24:19 公開日:2024-02-19
# 加速政策グラディエント:強化学習のためのネステロフ運動の収束率について

Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning ( http://arxiv.org/abs/2310.11897v2 )

ライセンス: Link先を確認
Yen-Ju Chen, Nai-Chieh Huang, Ping-Chun Hsieh(参考訳) 政策勾配(pg)に対する様々な加速手法が強化学習(rl)の分野で解析されている。 しかし、PG上で広く使われている運動量ベースの加速法の理論的理解は、ほとんど未開のままである。 このギャップに対応するために、有名なネステロフの加速勾配 (NAG) 法を RL の政策最適化に適用し、これを 'textit{Accelerated Policy Gradient} (APG) と呼ぶ。 高速収束を実現する上でのAPGの可能性を示すため、真の勾配とソフトマックス政策パラメトリゼーションの下で、APGは速度で最適な政策に収束することを正式に証明する。 (i) 一定のステップサイズを持つ $\tilde{O}(1/t^2)$ (ii)$o(e^{-ct})$ 指数的に増加するステップサイズ。 我々の知る限りでは、これはRLの文脈におけるNAGの収束率を初めて特徴づけるものである。 パラメータの初期化にかかわらず、apgは局所的にほぼ凹凸に近い状態に入り、有限の反復の中でapgは運動量から著しく恩恵を受ける。 Atari 2600ベンチマークの数値検証と実験により、APGが一定のステップサイズを持つ$\tilde{O}(1/t^2)$レートと指数的に成長するステップサイズを持つ線形収束率を示し、標準PGの収束性を大幅に向上させることを確認した。

Various acceleration approaches for Policy Gradient (PG) have been analyzed within the realm of Reinforcement Learning (RL). However, the theoretical understanding of the widely used momentum-based acceleration method on PG remains largely open. In response to this gap, we adapt the celebrated Nesterov's accelerated gradient (NAG) method to policy optimization in RL, termed \textit{Accelerated Policy Gradient} (APG). To demonstrate the potential of APG in achieving fast convergence, we formally prove that with the true gradient and under the softmax policy parametrization, APG converges to an optimal policy at rates: (i) $\tilde{O}(1/t^2)$ with constant step sizes; (ii) $O(e^{-ct})$ with exponentially-growing step sizes. To the best of our knowledge, this is the first characterization of the convergence rates of NAG in the context of RL. Notably, our analysis relies on one interesting finding: Regardless of the parameter initialization, APG ends up entering a locally nearly-concave regime, where APG can significantly benefit from the momentum, within finite iterations. Through numerical validation and experiments on the Atari 2600 benchmarks, we confirm that APG exhibits a $\tilde{O}(1/t^2)$ rate with constant step sizes and a linear convergence rate with exponentially-growing step sizes, significantly improving convergence over the standard PG.
翻訳日:2024-02-21 05:23:21 公開日:2024-02-19
# プライバシー保護レコメンデーションのためのフェデレーション不均質グラフニューラルネットワーク

Federated Heterogeneous Graph Neural Network for Privacy-preserving Recommendation ( http://arxiv.org/abs/2310.11730v3 )

ライセンス: Link先を確認
Bo Yan, Yang Cao, Haoyu Wang, Wenchuan Yang, Junping Du, Chuan Shi(参考訳) メタパスで表現されるリッチなセマンティクスを含むヘテロジニアス情報ネットワーク(HIN)は,レコメンダシステムにおけるデータの空間性を軽減する強力なツールとして登場した。 既存のHINベースのレコメンデータシステムは、集中ストレージとモデルトレーニングを前提として運用されている。 しかし、実際のデータはプライバシー上の懸念からしばしば分散されるため、HIN内のセマンティックな問題や、中央集権的なHINベースのレコメンデーションの失敗につながる。 本稿では,HINをクライアント側に保存されたプライベートなHINに分割し,サーバ上で共有する手法を提案する。 この設定に続いて,分散HINを用いた推薦モデルの協調トレーニングを容易にするとともに,ユーザのプライバシ保護を実現するフェデレートヘテロジニアスグラフニューラルネットワーク(FedHGNN)ベースのフレームワークを提案する。 具体的には、HINをベースとしたフェデレーションレコメンデーション(FedRec)のプライバシ定義を、プライベートHIN内のユーザ-イテムインタラクションと、共有HINからのユーザの高次パターンを保護することを目的として、差分プライバシの観点から形式化する。 破れたメタパスに基づくセマンティクスを回復し、提案したプライバシー対策を確実にするために、ユーザの高次パターンと関連するユーザ-イテムインタラクションを局所的に乱すセマンティクス保存ユーザインタラクションパブリッシング手法を精巧に設計する。 次に,ノードレベルのアグリゲーションとセマンティックレベルのアグリゲーションを行い,回復したセマンティクスをキャプチャするHGNNモデルを提案する。 4つのデータセットに対する大規模な実験により、我々のモデルは、合理的なプライバシー予算の下で既存の手法(HR@10では最大34%、NDCG@10では42%)よりも優れています。

The heterogeneous information network (HIN), which contains rich semantics depicted by meta-paths, has emerged as a potent tool for mitigating data sparsity in recommender systems. Existing HIN-based recommender systems operate under the assumption of centralized storage and model training. However, real-world data is often distributed due to privacy concerns, leading to the semantic broken issue within HINs and consequent failures in centralized HIN-based recommendations. In this paper, we suggest the HIN is partitioned into private HINs stored on the client side and shared HINs on the server. Following this setting, we propose a federated heterogeneous graph neural network (FedHGNN) based framework, which facilitates collaborative training of a recommendation model using distributed HINs while protecting user privacy. Specifically, we first formalize the privacy definition for HIN-based federated recommendation (FedRec) in the light of differential privacy, with the goal of protecting user-item interactions within private HIN as well as users' high-order patterns from shared HINs. To recover the broken meta-path based semantics and ensure proposed privacy measures, we elaborately design a semantic-preserving user interactions publishing method, which locally perturbs user's high-order patterns and related user-item interactions for publishing. Subsequently, we introduce an HGNN model for recommendation, which conducts node- and semantic-level aggregations to capture recovered semantics. Extensive experiments on four datasets demonstrate that our model outperforms existing methods by a substantial margin (up to 34% in HR@10 and 42% in NDCG@10) under a reasonable privacy budget.
翻訳日:2024-02-21 05:22:26 公開日:2024-02-19
# グリーンセマンティック通信のためのトランスフォーマー:エネルギーの削減、セマンティックスの改善

Transformers for Green Semantic Communication: Less Energy, More Semantics ( http://arxiv.org/abs/2310.07592v2 )

ライセンス: Link先を確認
Shubhabrata Mukherjee, Cory Beard, and Sejun Song (School of Science and Engineering, University of Missouri-Kansas City, Kansas City, MO, USA)(参考訳) 意味コミュニケーションは、個々のシンボルやビットではなく、意味のある効果的な情報を伝達することを目的としている。 これにより、レイテンシの低減、帯域幅の使用、従来の通信よりも高いスループットといったメリットが生まれる。 しかしながら、意味的コミュニケーションは、意味的情報損失と実用的なエネルギー消費の合同効果をベンチマークするために普遍的なメトリクスを必要とするため、重大な課題をもたらす。 本研究では,「エネルギー最適化セマンティックロス(EOSL)」と呼ばれる新たな多目的損失関数を提案し,セマンティック情報損失とエネルギー消費のバランスをとることの課題に対処する。 CPUやGPUのエネルギー使用を含むトランスフォーマーモデルに関する包括的な実験を通じて、EOSLベースのエンコーダモデル選択は最大90%のエネルギーを節約し、この実験では推論時の意味的類似性性能を44%改善することを示した。 この研究は、エネルギー効率のよいニューラルネットワークの選択と、よりグリーンなセマンティック通信アーキテクチャの開発の道を開く。

Semantic communication aims to transmit meaningful and effective information, rather than focusing on individual symbols or bits. This results in benefits like reduced latency, bandwidth usage, and higher throughput compared with traditional communication. However, semantic communication poses significant challenges due to the need for universal metrics to benchmark the joint effects of semantic information loss and practical energy consumption. This research presents a novel multi-objective loss function named "Energy-Optimized Semantic Loss" (EOSL), addressing the challenge of balancing semantic information loss and energy consumption. Through comprehensive experiments on transformer models, including CPU and GPU energy usage, it is demonstrated that EOSL-based encoder model selection can save up to 90% of energy while achieving a 44% improvement in semantic similarity performance during inference in this experiment. This work paves the way for energy-efficient neural network selection and the development of greener semantic communication architectures.
翻訳日:2024-02-21 05:20:30 公開日:2024-02-19
# スムースに気をつけて:ラベルのスムースティングはプライバシシールドになるだけでなく、モデル反転攻撃のための触媒にもなる

Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks ( http://arxiv.org/abs/2310.06549v3 )

ライセンス: Link先を確認
Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) ラベル平滑化 -- ハードラベルの代わりにソフト化ラベルを使用する -- は、ディープラーニングで広く採用されている正規化手法であり、一般化やキャリブレーションの強化など、さまざまなメリットがある。 しかし、モデルプライバシを保存することの意味は、まだ解明されていない。 このギャップを埋めるために、分類器に符号化された知識を利用してクラス表現サンプルを生成し、トレーニングデータに関する機密情報を推測することを目的としたモデル反転攻撃(MIAs)に対するラベルスムーシングの影響を検討する。 広範な分析を通じて,従来のラベル平滑化がmiasを助長し,モデルのプライバシリークを増加させることが明らかとなった。 さらに、ネガティブな要因による平滑化はこの傾向に対処し、クラス関連情報の抽出を阻害し、プライバシーの保護を阻害し、最先端の防衛を破ることを明らかにする。 これにより、MIAに対するモデルレジリエンスを強化するための実用的で強力な新しい方法が確立される。

Label smoothing -- using softened labels instead of hard ones -- is a widely adopted regularization method for deep learning, showing diverse benefits such as enhanced generalization and calibration. Its implications for preserving model privacy, however, have remained unexplored. To fill this gap, we investigate the impact of label smoothing on model inversion attacks (MIAs), which aim to generate class-representative samples by exploiting the knowledge encoded in a classifier, thereby inferring sensitive information about its training data. Through extensive analyses, we uncover that traditional label smoothing fosters MIAs, thereby increasing a model's privacy leakage. Even more, we reveal that smoothing with negative factors counters this trend, impeding the extraction of class-related information and leading to privacy preservation, beating state-of-the-art defenses. This establishes a practical and powerful novel way for enhancing model resilience against MIAs.
翻訳日:2024-02-21 05:20:12 公開日:2024-02-19
# LLMの一般化と多様性に及ぼすRLHFの影響の理解

Understanding the Effects of RLHF on LLM Generalisation and Diversity ( http://arxiv.org/abs/2310.06452v3 )

ライセンス: Link先を確認
Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis, Jelena Luketina, Eric Hambro, Edward Grefenstette, Roberta Raileanu(参考訳) 人間のフィードバック(RLHF)からの強化学習で微調整された大規模言語モデル(LLM)は、OpenAIのChatGPTやAnthropicのClaudeなど、これまで最も広くデプロイされたAIモデルで使用されている。 これらの手法の開発には大きな成果があるが、RLHFにおける各段階の利点と欠点の理解はまだ限られている。 このギャップを埋めるために、プロセスの各段階(教師付き微調整(SFT)、報酬モデリング(RLHF))が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを広範囲に分析する。 oodの一般化は、これらのモデルが使われている幅広い実世界のシナリオを考えると重要であるが、アウトプットの多様性は、モデルが様々な出力を生成する能力を示しており、様々なユースケースにとって重要である。 要約と命令追従タスクの両方で2つのベースモデルで分析を行い,後者は現在のllmのユースケースに非常に関連している。 RLHFは、特に列車と試験の間の分散シフトが大きくなるにつれて、新しい入力に対してSFTよりも優れている。 しかしながら、RLHFはSFTと比較して出力の多様性を著しく低減し、一般化と多様性の間の現在のLLM微調整法におけるトレードオフを示唆している。 本研究は,アプリケーションに応じてどの微調整方法を使用するべきかを指導し,一般化と多様性のトレードオフを改善するためのさらなる研究が必要であることを示す。

Large language models (LLMs) fine-tuned with reinforcement learning from human feedback (RLHF) have been used in some of the most widely deployed AI models to date, such as OpenAI's ChatGPT or Anthropic's Claude. While there has been significant work developing these methods, our understanding of the benefits and downsides of each stage in RLHF is still limited. To fill this gap, we present an extensive analysis of how each stage of the process (i.e. supervised fine-tuning (SFT), reward modelling, and RLHF) affects two key properties: out-of-distribution (OOD) generalisation and output diversity. OOD generalisation is crucial given the wide range of real-world scenarios in which these models are being used, while output diversity refers to the model's ability to generate varied outputs and is important for a variety of use cases. We perform our analysis across two base models on both summarisation and instruction following tasks, the latter being highly relevant for current LLM use cases. We find that RLHF generalises better than SFT to new inputs, particularly as the distribution shift between train and test becomes larger. However, RLHF significantly reduces output diversity compared to SFT across a variety of measures, implying a tradeoff in current LLM fine-tuning methods between generalisation and diversity. Our results provide guidance on which fine-tuning method should be used depending on the application, and show that more research is needed to improve the tradeoff between generalisation and diversity.
翻訳日:2024-02-21 05:19:53 公開日:2024-02-19
# DRNet: 深層強化学習による自律車線変更のための意思決定手法

DRNet: A Decision-Making Method for Autonomous Lane Changingwith Deep Reinforcement Learning ( http://arxiv.org/abs/2311.01602v2 )

ライセンス: Link先を確認
Kunpeng Xu, Lifei Chen, Shengrui Wang(参考訳) 機械学習技術は、自動運転車における多くのルールベースの意思決定方法よりも優れています。 近年の努力にもかかわらず、車線変更は複雑な運転シナリオと周囲の車両の社会的行動の変化のため、依然として大きな課題である。 そこで,本研究では,La\underline{NE} の実践レベルでの変化に対して,新たな 'underline{D}eep \underline{R}eep \underline{R}einforcement Learning (DRL) アプローチを活用することを提案する。 この目的のために、DRLエージェントが任意の車線数でシミュレートされた高速道路上で適切な車線変更を実行し、周囲の車両の運転スタイルを考慮し、より良い意思決定を行うことができる、新規で効率的なDRLベースのフレームワーク「DRNet」を提案する。 さらに、意思決定のための安全なポリシーを達成するために、DRNetは、自動運転の最も重要なコンポーネントである安全検証のアイデアを取り入れ、安全行動のみが常に選択されることを保証する。 我々の状態表現と報酬関数の設定により、訓練されたエージェントは現実世界のようなシミュレーターで適切な行動をとることができる。 我々のDRLエージェントは、衝突を引き起こすことなく所望のタスクを学習でき、DDQNや他のベースラインモデルより優れている。

Machine learning techniques have outperformed numerous rule-based methods for decision-making in autonomous vehicles. Despite recent efforts, lane changing remains a major challenge, due to the complex driving scenarios and changeable social behaviors of surrounding vehicles. To help improve the state of the art, we propose to leveraging the emerging \underline{D}eep \underline{R}einforcement learning (DRL) approach for la\underline{NE} changing at the \underline{T}actical level. To this end, we present "DRNet", a novel and highly efficient DRL-based framework that enables a DRL agent to learn to drive by executing reasonable lane changing on simulated highways with an arbitrary number of lanes, and considering driving style of surrounding vehicles to make better decisions. Furthermore, to achieve a safe policy for decision-making, DRNet incorporates ideas from safety verification, the most important component of autonomous driving, to ensure that only safe actions are chosen at any time. The setting of our state representation and reward function enables the trained agent to take appropriate actions in a real-world-like simulator. Our DRL agent has the ability to learn the desired task without causing collisions and outperforms DDQN and other baseline models.
翻訳日:2024-02-21 05:12:04 公開日:2024-02-19
# マルコフ決定過程における平均リターンを超えて

Beyond Average Return in Markov Decision Processes ( http://arxiv.org/abs/2310.20266v2 )

ライセンス: Link先を確認
Alexandre Marthe (ENS de Lyon, UMPA-ENSL), Aur\'elien Garivier (UMPA-ENSL (MC2)), Claire Vernade(参考訳) Markov Decision Processesで正確に計算され、最適化される報酬の機能は何ですか? 有限ホライゾン(有限ホライゾン)では、動的プログラミング(DP)は統計学の特定のクラスに対してのみ効率的にこれらの操作を処理できる。 政策評価におけるこれらのクラスの特徴を要約し,計画問題に対する新たな回答を与える。 興味深いことに,分布強化学習(distributional reinforcement learning, distrl)のより一般的な枠組みにおいても,一般化された手段のみを正確に最適化できることが証明されている。 しかし、DistRLは、他の機能をほぼ評価することができる。 結果から得られた推定値の誤差バウンダリを提供し,本手法の潜在的な可能性とその限界について考察する。これらの結果は,帰路の全体的特性,特にリスク意識的戦略を検証し,マルコフ決定過程の理論の進展に寄与する。

What are the functionals of the reward that can be computed and optimized exactly in Markov Decision Processes?In the finite-horizon, undiscounted setting, Dynamic Programming (DP) can only handle these operations efficiently for certain classes of statistics. We summarize the characterization of these classes for policy evaluation, and give a new answer for the planning problem. Interestingly, we prove that only generalized means can be optimized exactly, even in the more general framework of Distributional Reinforcement Learning (DistRL).DistRL permits, however, to evaluate other functionals approximately. We provide error bounds on the resulting estimators, and discuss the potential of this approach as well as its limitations.These results contribute to advancing the theory of Markov Decision Processes by examining overall characteristics of the return, and particularly risk-conscious strategies.
翻訳日:2024-02-21 05:10:50 公開日:2024-02-19
# 合成を用いた再合成アルゴリズムの再評価

Re-evaluating Retrosynthesis Algorithms with Syntheseus ( http://arxiv.org/abs/2310.19796v2 )

ライセンス: Link先を確認
Krzysztof Maziarz, Austin Tripp, Guoqing Liu, Megan Stanley, Shufang Xie, Piotr Gai\'nski, Philipp Seidl, Marwin Segler(参考訳) 分子の合成の計画(レトロシンセシスとも呼ばれる)は近年、機械学習と化学のコミュニティに注目が集まっている。 安定した進歩の出現にもかかわらず、不完全なベンチマークと不整合比較は既存の技術の体系的な欠点を隠蔽していると主張する。 そこで本研究では,syntheseusというベンチマークライブラリを提案する。このベンチマークライブラリは,単一ステップおよび複数ステップのレトロシンセシスアルゴリズムの一貫性のある評価を可能にする。 合成法を用いて, 過去のレトロシンセシスアルゴリズムを再評価し, 慎重に評価すると, 最先端モデルのランクが変化することがわかった。 私たちはこの地域の将来の仕事のガイダンスで終わります。

The planning of how to synthesize molecules, also known as retrosynthesis, has been a growing focus of the machine learning and chemistry communities in recent years. Despite the appearance of steady progress, we argue that imperfect benchmarks and inconsistent comparisons mask systematic shortcomings of existing techniques. To remedy this, we present a benchmarking library called syntheseus which promotes best practice by default, enabling consistent meaningful evaluation of single-step and multi-step retrosynthesis algorithms. We use syntheseus to re-evaluate a number of previous retrosynthesis algorithms, and find that the ranking of state-of-the-art models changes when evaluated carefully. We end with guidance for future works in this area.
翻訳日:2024-02-21 05:10:36 公開日:2024-02-19
# 自然は真空を嫌う:孤立したマクロ量子系における熱分解の簡単な厳密な例

Nature abhors a vacuum: A simple rigorous example of thermalization in an isolated macroscopic quantum system ( http://arxiv.org/abs/2310.18880v2 )

ライセンス: Link先を確認
Naoto Shiraishi and Hal Tasaki(参考訳) 我々は、証明されていない仮定に頼らずに、低密度のフリーフェルミオン鎖が次の(制限された)意味での熱化を示すことを示している。 我々は、すべての粒子が鎖の半分にあるヒルベルト空間からランダムに引き出された純粋状態として初期状態を選択する。 これは、全ての粒子を含む半鎖が無限温度で平衡であり、残りの半鎖が真空であるような非平衡状態を表す。 我々は、ハミルトニアンによって決定されるユニタリ時間発展に従って系を進化させ、十分大きな時間にチェーン内の任意のマクロ領域における粒子数を測定する。 この設定では、測定された数は1に非常に近い確率で平衡値に近いことが証明される。 この結果は, 数学的に厳密な方法で, コンクリートモデルにおける熱化の存在を立証する。 熱化の証明の最も重要な理論的要素は、上述のような非平衡初期状態が十分に大きな有効次元を持つことを示すことである。 ここでは,エネルギー固有値の縮退性の欠如とエネルギー固有状態の粒子分布に関する性質という2つの仮定に基づいて,熱分解の一般的な証明を行う。 次に、数論的な結果を用いて退化の欠如が確立される具体的自由フェルミオンモデルにおいて、これらの仮定を正当化する。 これは、上記の2つの仮定が正当化される任意の格子気体モデルにも一般結果が適用されることを意味する。 この理論の適用可能性を確認するために、粒子分布に関する本質的な仮定が容易に検証できる他のモデルと、有効次元が十分に大きい非ランダム初期状態について論じる。

We show, without relying on any unproven assumptions, that a low-density free fermion chain exhibits thermalization in the following (restricted) sense. We choose the initial state as a pure state drawn randomly from the Hilbert space in which all particles are in half of the chain. This represents a nonequilibrium state such that the half chain containing all particles is in equilibrium at infinite temperature, and the other half chain is a vacuum. We let the system evolve according to the unitary time evolution determined by the Hamiltonian and, at a sufficiently large typical time, measure the particle number in an arbitrary macroscopic region in the chain. In this setup, it is proved that the measured number is close to the equilibrium value with probability very close to one. Our result establishes the presence of thermalization in a concrete model in a mathematically rigorous manner. The most important theoretical ingredient for the proof of thermalization is the demonstration that a nonequilibrium initial state generated as above typically has a sufficiently large effective dimension. Here, we first give general proof of thermalization based on two assumptions, namely, the absence of degeneracy in energy eigenvalues and a property about the particle distribution in energy eigenstates. We then justify these assumptions in a concrete free-fermion model, where the absence of degeneracy is established by using number-theoretic results. This means that our general result also applies to any lattice gas models in which the above two assumptions are justified. To confirm the potential wide applicability of our theory, we discuss some other models for which the essential assumption about the particle distribution is easily verified, and some non-random initial states whose effective dimensions are sufficiently large.
翻訳日:2024-02-21 05:09:50 公開日:2024-02-19
# 一般関数近似を用いた破壊・破壊オフライン強化学習

Corruption-Robust Offline Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2310.14550v3 )

ライセンス: Link先を確認
Chenlu Ye, Rui Yang, Quanquan Gu, Tong Zhang(参考訳) 一般関数近似を用いて,オフライン強化学習(rl)における腐敗のロバスト性に関する問題を検討し,オフラインデータセット内の各サンプルを敵が破壊でき,腐敗レベル$\zeta\geq0$がn$エピソードとh$ステップの累積汚損量を定量化する。 我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。 ロバストなオンラインrl設定 \citep{he2022nearly,ye2022corruptionrobust} から不確実性重み付け手法から着想を得て,バッチサンプル上で効率的に計算する新しい不確実性重み付け反復手順を設計し,オフラインrlのための腐敗-ロバストアルゴリズムを提案する。 特に、単一ポリシーカバレッジと$\zeta$の知識の仮定の下で、我々の提案したアルゴリズムは、破壊による$\mathcal{O}(\zeta (C(\widehat{\mathcal{F}},\mu)n)^{-1})$の加算係数によって悪化する亜最適境界を達成する。 ここで、$\widehat{\mathcal{F}}$は信頼集合であり、データセット $\mathcal{Z}_n^H$ と $C(\widehat{\mathcal{F}},\mu)$ は $\widehat{\mathcal{F}}$ と基礎となるデータ分布 $\mu$ に依存する係数である。 線形 MDP に特化する場合、汚職依存誤差項は $\mathcal{O}(\zeta d n^{-1})$ に減少するが、$d$ は特徴写像の次元であり、これは破壊された線形 MDP の既存の下界と一致する。 このことは、我々の分析が汚職に依存した用語に関してきついことを示唆している。

We investigate the problem of corruption robustness in offline reinforcement learning (RL) with general function approximation, where an adversary can corrupt each sample in the offline dataset, and the corruption level $\zeta\geq0$ quantifies the cumulative corruption amount over $n$ episodes and $H$ steps. Our goal is to find a policy that is robust to such corruption and minimizes the suboptimality gap with respect to the optimal policy for the uncorrupted Markov decision processes (MDPs). Drawing inspiration from the uncertainty-weighting technique from the robust online RL setting \citep{he2022nearly,ye2022corruptionrobust}, we design a new uncertainty weight iteration procedure to efficiently compute on batched samples and propose a corruption-robust algorithm for offline RL. Notably, under the assumption of single policy coverage and the knowledge of $\zeta$, our proposed algorithm achieves a suboptimality bound that is worsened by an additive factor of $\mathcal{O}(\zeta (C(\widehat{\mathcal{F}},\mu)n)^{-1})$ due to the corruption. Here $\widehat{\mathcal{F}}$ is the confidence set, and the dataset $\mathcal{Z}_n^H$, and $C(\widehat{\mathcal{F}},\mu)$ is a coefficient that depends on $\widehat{\mathcal{F}}$ and the underlying data distribution $\mu$. When specialized to linear MDPs, the corruption-dependent error term reduces to $\mathcal{O}(\zeta d n^{-1})$ with $d$ being the dimension of the feature map, which matches the existing lower bound for corrupted linear MDPs. This suggests that our analysis is tight in terms of the corruption-dependent term.
翻訳日:2024-02-21 05:07:53 公開日:2024-02-19
# 逆選好最適化

Adversarial Preference Optimization ( http://arxiv.org/abs/2311.08045v2 )

ライセンス: Link先を確認
Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Tianhao Hu, Peixin Cao, Nan Du(参考訳) 大きな言語モデル(LLM)の相互作用品質を改善するためには、人間の嗜好の調整が不可欠である。 既存のアライメント手法は、LLM最適化方向を導くために手動でアノテートされた好みデータに依存する。 しかし, LLMを継続的に更新すると, モデル生成サンプルと人間優先応答との分布ギャップが増大し, モデル微調整効率が低下する。 この問題を軽減するために、以前の手法では、大量のアノテーションリソースを消費するシフト分布に適応するために、生成されたサンプルに追加の優先アノテーションを必要とする。 より効率的な人間の選好最適化を目標とし,LLMエージェントと選好モデルが代わりにmin-maxゲームを介して更新されるような,逆選好最適化(APO)フレームワークを提案する。 追加のアノテーションがなければ、APO法は逆学習プロセスを通じて生成分布ギャップに自己適応することができる。 包括的実験により,APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上することがわかった。

Human preference alignment is essential to improve the interaction quality of large language models (LLMs). Existing aligning methods depend on manually annotated preference data to guide the LLM optimization directions. However, in practice, continuously updating LLMs raises a distribution gap between model-generated samples and human-preferred responses, which hinders model fine-tuning efficiency. To mitigate this issue, previous methods require additional preference annotation on generated samples to adapt the shifted distribution, which consumes a large amount of annotation resources. Targeting more efficient human preference optimization, we propose an adversarial preference optimization (APO) framework, where the LLM agent and the preference model update alternatively via a min-max game. Without additional annotation, our APO method can make a self-adaption to the generation distribution gap through the adversarial learning process. Based on comprehensive experiments, we find APO further enhances the alignment performance of baseline methods in terms of helpfulness and harmlessness.
翻訳日:2024-02-21 04:58:40 公開日:2024-02-19
# マージン最大化による特徴出現:代数的タスクにおけるケーススタディ

Feature emergence via margin maximization: case studies in algebraic tasks ( http://arxiv.org/abs/2311.07568v2 )

ライセンス: Link先を確認
Depen Morwani, Benjamin L. Edelman, Costin-Andrei Oncescu, Rosie Zhao, Sham Kakade(参考訳) ニューラルネットワークによって学習される内部表現を理解することは、機械学習の科学における基礎的な課題である。 ニューラルネットワークが特定のターゲット関数をどのように実装するかを理解するための、いくつかのケースでは、最近の顕著な取り組みがあるが、この記事では、補完的な疑問を探求する。 本研究は,モジュラ付加,スパースパリティ,有限群演算の代数的学習タスクに焦点をあてる。 これらの代数的タスクに対して,ニューラルネットワークが学習した特徴を解析的に特徴付ける。 特に,本手法では,マージン最大化の原則だけでネットワークが学習する機能を完全に特定できることを示す。 具体的には、訓練されたネットワークがフーリエ特徴を用いてモジュラー付加を行い、既約群理論表現に対応する特徴を用いて一般群で合成を行い、ナンダやチュグタイなどの経験的観測と密接に関連していることを証明した。 より一般的には、我々の技術が、ニューラルネットワークが特定の計算戦略を採用する理由をより深く理解するのに役立つことを願っています。

Understanding the internal representations learned by neural networks is a cornerstone challenge in the science of machine learning. While there have been significant recent strides in some cases towards understanding how neural networks implement specific target functions, this paper explores a complementary question -- why do networks arrive at particular computational strategies? Our inquiry focuses on the algebraic learning tasks of modular addition, sparse parities, and finite group operations. Our primary theoretical findings analytically characterize the features learned by stylized neural networks for these algebraic tasks. Notably, our main technique demonstrates how the principle of margin maximization alone can be used to fully specify the features learned by the network. Specifically, we prove that the trained networks utilize Fourier features to perform modular addition and employ features corresponding to irreducible group-theoretic representations to perform compositions in general groups, aligning closely with the empirical observations of Nanda et al. and Chughtai et al. More generally, we hope our techniques can help to foster a deeper understanding of why neural networks adopt specific computational strategies.
翻訳日:2024-02-21 04:57:52 公開日:2024-02-19
# 間違いを犯すのは簡単ではない: 大きな言語モデルは排除推論のプロセスに苦しむ

It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning ( http://arxiv.org/abs/2311.07532v2 )

ライセンス: Link先を確認
Nishant Balepur, Shramay Palta, Rachel Rudinger(参考訳) 思考の連鎖(COT)は、大きな言語モデル(LLM)が正しい答えを推論するのに役立つが、誤った答えを推論する効果は未解明である。 このCOTを用いた除去(PoE)プロセスは、自己整合性、解釈可能性、および排除の医学的診断のようなタスクを高めることができる。 そこで本研究では,複数の質問に対して,llm が不正確な選択肢を推論しなければならない cot を用いた poe を提案する。 GPT-3.5, LLaMA-2, FalconのCOTによるPoE処理能力の評価を行った。 PoEの戦略は常に正しい回答を選択する戦略を過小評価している。 これらの戦略の合意は、それぞれの戦略の自己整合性よりも低い。 これらの課題をさらに研究するため,エラー分析を行い,今後の課題の提案を行う。

Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This process of elimination (PoE), when used with COT, can enhance self-consistency, interpretability, and tasks such as medical diagnoses of exclusion. Thus, we propose PoE with COT, where LLMs must reason toward incorrect options on multiple-choice questions. We evaluate the ability of GPT-3.5, LLaMA-2, and Falcon to perform PoE with COT on a total of four commonsense and scientific reasoning datasets. We find that the strategy of PoE always underperforms the strategy of choosing the correct answer. The agreement of these strategies is also lower than the self-consistency of each strategy. To study these issues further, we conduct error analyses and give suggestions for future work.
翻訳日:2024-02-21 04:57:31 公開日:2024-02-19
# 正規構造正規化による開集合グラフ異常検出

Open-Set Graph Anomaly Detection via Normal Structure Regularisation ( http://arxiv.org/abs/2311.06835v2 )

ライセンス: Link先を確認
Qizhou Wang, Guansong Pang, Mahsa Salehi, Christopher Leckie(参考訳) 本稿では,少数のラベル付きトレーニング正規ノードと,可能なすべての異常を説明できない異常ノード(いわゆる異常)を用いて異常ノードを検出することを目的とした,オープンセットGAD(Graph Anomaly Detection)タスクについて考察する。 ラベル付きデータの可用性は、GADモデルの異常に関する重要な事前知識を提供し、検出エラーを大幅に削減する。 しかし、現在の手法は見かけの異常を過度に強調する傾向があるため、見当たらない異常、すなわちラベル付き異常ノードによって示されない異常を検出するための弱い一般化能力をもたらす。 さらに、これらはユークリッドデータを扱うために導入され、GADの重要な非ユークリッド特徴を効果的に捉えられなかった。 本研究では,新しいオープンセットGAD手法,すなわち正規構造規則化(NSReg)を提案する。 NSRegのキーとなる考え方は、通常のノードの構造的関係に基づいて、コンパクトで意味豊かな正規ノード表現の学習を強制する正規化項を導入することである。 教師付き異常検出損失で最適化された場合、正規化項は強い正規性をモデリングに組み込むのに役立ち、ノードの異常と正常性の双方のジョイントラーニングを強化することにより、トレーニング中に見られた異常を単に適合させることに重点を置くことを効果的に回避する。 6つの実世界のデータセットに関する広範な実験結果から,提案するnsregのオープンセットgadに対する優位性が示された。

This paper considers an important Graph Anomaly Detection (GAD) task, namely open-set GAD, which aims to detect anomalous nodes using a small number of labelled training normal and anomaly nodes (known as seen anomalies) that cannot illustrate all possible inference-time abnormalities. The availability of that labelled data provides crucial prior knowledge about abnormalities for GAD models, enabling substantially reduced detection errors. However, current methods tend to over-emphasise fitting the seen anomalies, leading to a weak generalisation ability to detect unseen anomalies, i.e., those that are not illustrated by the labelled anomaly nodes. Further, they were introduced to handle Euclidean data, failing to effectively capture important non-Euclidean features for GAD. In this work, we propose a novel open-set GAD approach, namely Normal Structure Regularisation (NSReg), to achieve generalised detection ability to unseen anomalies, while maintaining its effectiveness on detecting seen anomalies. The key idea in NSReg is to introduce a regularisation term that enforces the learning of compact, semantically-rich representations of normal nodes based on their structural relations to other nodes. When being optimised with supervised anomaly detection losses, the regularisation term helps incorporate strong normality into the modelling, empowering the joint learning of both seen abnormality and normality of the nodes, and thus, it effectively avoids the over emphasis on solely fitting the seen anomalies during training. Extensive empirical results on six real-world datasets demonstrate the superiority of our proposed NSReg for open-set GAD.
翻訳日:2024-02-21 04:57:14 公開日:2024-02-19
# コンテキストクエリのパーソナライズのための知識強化型大規模言語モデル

Knowledge-Augmented Large Language Models for Personalized Contextual Query Suggestion ( http://arxiv.org/abs/2311.06318v2 )

ライセンス: Link先を確認
Jinheon Baek, Nirupama Chandrasekaran, Silviu Cucerzan, Allen herring, Sujay Kumar Jauhar(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理に精通している。 しかし、再トレーニングや微調整に要するかなりのコストのため、それらはほとんど静的であり、パーソナライズが困難である。 それでも、様々なアプリケーションが、ユーザの好み、目標、知識に合わせた世代から恩恵を受ける可能性がある。 その中には、ユーザーが何を達成しようとしているのか、何に関心があるのか、何を知っているかを知るウェブ検索がある。 本研究では,ユーザと検索エンジンのインタラクション履歴からLLMを関連性のある文脈で拡張し,その出力をパーソナライズする,斬新で汎用的なアプローチを提案する。 具体的には、Web上の検索および閲覧活動に基づいて、各ユーザに対してエンティティ中心の知識ストアを構築し、それを活用して、文脈的に関連するLCMプロンプト拡張を提供する。 この知識ストアは、ユーザの興味や知識を公開知識グラフに投影するのみであり、既存の検索ログインフラストラクチャを活用し、パーソナライズのための深いユーザープロファイル構築に関連するプライバシー、コンプライアンス、スケーラビリティの懸念を軽減する。 我々は,ユーザの現在の検索コンテキストだけでなく,過去の知識や関心事も理解する必要があるコンテキストクエリ提案のタスクに対して,我々のアプローチを検証する。 人間の評価に基づく多くの実験を通して、我々のアプローチは他のLLMベースラインよりもはるかに優れていることを示し、文脈的に関連性があり、パーソナライズされ、有用であるクエリ提案を生成する。

Large Language Models (LLMs) excel at tackling various natural language tasks. However, due to the significant costs involved in re-training or fine-tuning them, they remain largely static and difficult to personalize. Nevertheless, a variety of applications could benefit from generations that are tailored to users' preferences, goals, and knowledge. Among them is web search, where knowing what a user is trying to accomplish, what they care about, and what they know can lead to improved search experiences. In this work, we propose a novel and general approach that augments an LLM with relevant context from users' interaction histories with a search engine in order to personalize its outputs. Specifically, we construct an entity-centric knowledge store for each user based on their search and browsing activities on the web, which is then leveraged to provide contextually relevant LLM prompt augmentations. This knowledge store is light-weight, since it only produces user-specific aggregate projections of interests and knowledge onto public knowledge graphs, and leverages existing search log infrastructure, thereby mitigating the privacy, compliance, and scalability concerns associated with building deep user profiles for personalization. We validate our approach on the task of contextual query suggestion, which requires understanding not only the user's current search context but also what they historically know and care about. Through a number of experiments based on human evaluation, we show that our approach is significantly better than several other LLM-powered baselines, generating query suggestions that are contextually more relevant, personalized, and useful.
翻訳日:2024-02-21 04:56:48 公開日:2024-02-19
# LLMを用いた汎用人工物操作のための運動認識プロンプト

Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs ( http://arxiv.org/abs/2311.02847v3 )

ライセンス: Link先を確認
Wenke Xia, Dong Wang, Xincheng Pang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li(参考訳) 汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。 シミュレーションにおける実証や強化学習からの模倣学習に焦点が当てられているが、実世界のデータ収集と精密物体シミュレーションの禁止コストのため、これらの研究が多種多様な調音オブジェクトにまたがる広範な適応性を実現することは依然として困難である。 近年,大規模言語モデル(llm)の強固な文脈学習能力を活用してロボット操作を一般化しようとする研究が数多く行われているが,そのほとんどは高レベルなタスク計画と低レベルロボット制御の側面に焦点を当てている。 本研究では,物体の運動的構造が操作の仕方を決定するという考え方に基づいて,物体の運動的知識によってLLMを誘導し,低レベルな運動軌跡を発生させ,様々な物体の操作を支援する機構を提案する。 異なる物体の運動構造を持つLLMを効果的に促すため,各種の関節と接触位置を包含した統一的なテキスト記述として,多言語で表現された物体を表現した統一的な運動情報解析器を設計する。 この統一的な記述に基づいて、キネマティック・アウェア・プランナーモデルが提案され、設計されたキネマティック・アウェア・チェーン・オブ・シンセサイザー法による正確な3次元操作経路ポイントを生成する。 16の異なるカテゴリにまたがる48のインスタンスを評価したところ、我々のフレームワークは従来の手法を8つのカテゴリで上回るだけでなく、8つの未確認対象カテゴリに対して強力なゼロショット能力を示した。 さらに、7つの異なるオブジェクトカテゴリに関する実世界の実験は、実践シナリオにおける我々のフレームワークの適応性を証明する。 コードはhttps://github.com/gewu-lab/llm_articulated_object_manipulation/tree/mainでリリースされる。

Generalizable articulated object manipulation is essential for home-assistant robots. Recent efforts focus on imitation learning from demonstrations or reinforcement learning in simulation, however, due to the prohibitive costs of real-world data collection and precise object simulation, it still remains challenging for these works to achieve broad adaptability across diverse articulated objects. Recently, many works have tried to utilize the strong in-context learning ability of Large Language Models (LLMs) to achieve generalizable robotic manipulation, but most of these researches focus on high-level task planning, sidelining low-level robotic control. In this work, building on the idea that the kinematic structure of the object determines how we can manipulate it, we propose a kinematic-aware prompting framework that prompts LLMs with kinematic knowledge of objects to generate low-level motion trajectory waypoints, supporting various object manipulation. To effectively prompt LLMs with the kinematic structure of different objects, we design a unified kinematic knowledge parser, which represents various articulated objects as a unified textual description containing kinematic joints and contact location. Building upon this unified description, a kinematic-aware planner model is proposed to generate precise 3D manipulation waypoints via a designed kinematic-aware chain-of-thoughts prompting method. Our evaluation spanned 48 instances across 16 distinct categories, revealing that our framework not only outperforms traditional methods on 8 seen categories but also shows a powerful zero-shot capability for 8 unseen articulated object categories. Moreover, the real-world experiments on 7 different object categories prove our framework's adaptability in practical scenarios. Code is released at https://github.com/GeWu-Lab/LLM_articulated_object_manipulation/tree/main.
翻訳日:2024-02-21 04:56:10 公開日:2024-02-19
# medagents: ゼロショット医療推論のコラボレータとしての大規模言語モデル

MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning ( http://arxiv.org/abs/2311.10537v2 )

ライセンス: Link先を確認
Xiangru Tang, Anni Zou, Zhuosheng Zhang, Ziming Li, Yilun Zhao, Xingyao Zhang, Arman Cohan, Mark Gerstein(参考訳) 大きな言語モデル(LLM)は、様々な一般領域で顕著な進歩を遂げているが、医療や医療において大きな障壁に直面している。 この分野はドメイン固有の用語や専門知識に対する推論といったユニークな課題に直面します。 そこで本研究では,医療領域における多学際コラボレーション(mc)フレームワークを提案する。このフレームワークはロールプレイング・セッティングにおいてllmベースのエージェントを活用し,協調的な多学際議論に参加し,llmの熟練度と推論能力を高める。 このトレーニングフリーフレームワークは、ドメインエキスパートの収集、個人分析の提案、これらの分析をレポートに要約し、コンセンサスに達するまで議論を反復し、最終的に決定する、という5つの重要なステップを包含する。 本研究は,実世界のシナリオに適用可能なゼロショット設定に着目した。 9つのデータセット(MedQA、MedMCQA、PubMedQA、MMLUの6つのサブタスク)の実験結果から、提案したMCフレームワークは、LSM内の医療専門知識のマイニングと活用に優れ、推論能力の拡充を図っていることが判明した。 我々のコードは \url{https://github.com/gersteinlab/MedAgents} にある。

Large language models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and reasoning over specialized knowledge. To address these issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages LLM-based agents in a role-playing setting that participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work focuses on the zero-shot setting, which is applicable in real-world scenarios. Experimental results on nine datasets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise within LLMs, as well as extending its reasoning abilities. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.
翻訳日:2024-02-21 04:46:53 公開日:2024-02-19
# 自己矛盾的推論評価と検出

Self-Contradictory Reasoning Evaluation and Detection ( http://arxiv.org/abs/2311.09603v2 )

ライセンス: Link先を確認
Ziyi Liu, Isabelle Lee, Yongkang Du, Soumya Sanyal, Jieyu Zhao(参考訳) 最近の研究で、大規模言語モデル(LLM)は印象的な推論能力を示したが、多くの下流推論タスクは性能評価に重点を置いている。 2つの基本的な疑問が残る。 1)推論の質はどの程度信頼できるか、 2) モデルは信頼できない推論を検出できるのか? 本稿では,モデル推論が予測をサポートしない自己矛盾推論(Self-Contra)について検討する。 1)4つのデータセット間での自己コントラ率を評価し,より詳細な自己コントラ推論のカテゴリを探索する。 LLMは文脈情報理解や常識を含む推論タスクを行う際に矛盾することが多い。 重要なことに、より高い精度は必ずしも低い自己矛盾率に対応しない。 モデルは正しい答えを生成するように見えるが、推論のショートカットや文脈的証拠をスキップすることで、妥協された推論を伴う自己コントラの振る舞いを表示することができる。 2) では, 自己コントラ推論とよりきめ細かい誤認を識別し, GPT-4 の処理を行う。 我々は,GPT-4が自己コントラ推論を効果的に検出するのに苦労していることを観察した。 以上より,現在のllmは信頼性の高い推論に必要な頑健性に欠けており,正確性に基づくメトリクス以上の総合的推論評価において,ベストプラクティスを確立する必要があることを強調する。

In a plethora of recent work, large language models (LLMs) demonstrated impressive reasoning ability, but many proposed downstream reasoning tasks focus on performance-wise evaluation. Two fundamental questions persist: 1) how reliable is the quality of reasoning, and 2) can models detect unreliable reasoning? In this paper, we investigate self-contradictory (Self-Contra) reasoning, where the model reasoning does not support predictions. To address 1), we assess the Self-Contra rate across four datasets and delve into finer-grained categories of Self-Contra reasoning. We find that LLMs often contradict themselves when performing reasoning tasks that involve contextual information understanding or commonsense. Importantly, a higher accuracy does not necessarily correspond to a lower Self-Contra rate. The model may appear to generate correct answers but it may take shortcuts in reasoning or skip over contextual evidence, thereby displaying Self-Contra behaviors with compromised reasoning. As for 2), we task GPT-4 with identifying Self-Contra reasoning and finer-grained fallacies. We observe that GPT-4 struggles to effectively detect Self-Contra reasoning, with significantly low performance compared with human judgment. Our results indicate that the current LLMs lack robustness necessary for reliable reasoning and we emphasize the urgent need for establishing best practices in comprehensive reasoning evaluations beyond accuracy-based metrics.
翻訳日:2024-02-21 04:45:14 公開日:2024-02-19
# 社会的バイアス調査: 言語モデルの公平性ベンチマーク

Social Bias Probing: Fairness Benchmarking for Language Models ( http://arxiv.org/abs/2311.09090v2 )

ライセンス: Link先を確認
Marta Marchiori Manerba, Karolina Sta\'nczak, Riccardo Guidotti, Isabelle Augenstein(参考訳) 大規模言語モデルは、下流の危害のリスクを負う様々な社会バイアスを符号化することが示されている。 これらのバイアスの影響は認識されているが、以前のバイアス評価手法は小さなデータセット上でのバイナリアソシエーションテストに限られており、言語モデルにおける社会的バイアスの性質の制約されたビューを提供する。 本稿では,社会バイアスに対する言語モデル探索のためのフレームワークを提案する。 我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。 この目的のために、我々は新しいパープレキシティに基づくフェアネススコアを利用する。 我々は、既存のフェアネスコレクションの欠点や制限に対処する大規模なベンチマークデータセットをキュレートし、さまざまなアイデンティティやステレオタイプに拡張する。 我々の方法論を先行研究と比較すると、言語モデル内のバイアスは以前認められたよりもニュアンスが強いことが分かる。 最近の研究結果と一致して、より大きなモデル変種はより高いバイアスを示すことが判明した。 さらに,異なる宗教を表わすアイデンティティが,どのモデルにおいても最も明瞭な異質な治療につながることを明らかにする。

Large language models have been shown to encode a variety of social biases, which carries the risk of downstream harms. While the impact of these biases has been recognized, prior methods for bias evaluation have been limited to binary association tests on small datasets, offering a constrained view of the nature of societal biases within language models. In this paper, we propose an original framework for probing language models for societal biases. We collect a probing dataset to analyze language models' general associations, as well as along the axes of societal categories, identities, and stereotypes. To this end, we leverage a novel perplexity-based fairness score. We curate a large-scale benchmarking dataset addressing drawbacks and limitations of existing fairness collections, expanding to a variety of different identities and stereotypes. When comparing our methodology with prior work, we demonstrate that biases within language models are more nuanced than previously acknowledged. In agreement with recent findings, we find that larger model variants exhibit a higher degree of bias. Moreover, we expose how identities expressing different religions lead to the most pronounced disparate treatments across all models.
翻訳日:2024-02-21 04:43:10 公開日:2024-02-19
# Safer-Instruct: 自動推論データによる言語モデルの調整

Safer-Instruct: Aligning Language Models with Automated Preference Data ( http://arxiv.org/abs/2311.08685v2 )

ライセンス: Link先を確認
Taiwei Shi, Kai Chen, Jieyu Zhao(参考訳) 人間のフィードバックからの強化学習(RLHF)は、言語モデルにおけるモデル能力を高めるための重要な戦略である。 しかし、RLHFの好みデータの注釈付けはリソース集約的で創造性に富むプロセスであり、既存の自動生成手法はデータの多様性と品質の限界に直面している。 そこで我々は,大規模嗜好データを自動的に構築する新しいパイプラインであるSafer-Instructを提案する。 提案手法は,人間アノテータを使わずに高品質な嗜好データを生成するために,逆命令チューニング,命令誘導,エキスパートモデル評価を利用する。 安全な指示の有効性を検証するために,安全嗜好データセットの構築にパイプラインを適用した。 この合成データセット上でAlpacaモデルを微調整すると、無害性が向上するだけでなく、人間の注釈付き安全選好データに基づいて微調整されたモデルよりも優れる。 重要なことに、我々の安全な命令型フレームワークは汎用性があり、様々なドメインにまたがる好みデータを生成するために適用できます。 好みのデータ取得の課題に対処し、より有能で責任のあるAIシステムの開発を進める。 データセットとコードの実装については、https://github.com/uscnlp-lime/safer-instructを参照。

Reinforcement learning from human feedback (RLHF) is a vital strategy for enhancing model capability in language models. However, annotating preference data for RLHF is a resource-intensive and creativity-demanding process, while existing automatic generation methods face limitations in data diversity and quality. In response, we present Safer-Instruct, a novel pipeline for automatically constructing large-scale preference data. Our approach leverages reversed instruction tuning, instruction induction, and expert model evaluation to efficiently generate high-quality preference data without human annotators. To verify the effectiveness of Safer-Instruct, we apply the pipeline to construct a safety preference dataset as a case study. Finetuning an Alpaca model on this synthetic dataset not only demonstrates improved harmlessness but also outperforms models fine-tuned on human-annotated safety preference data, all the while maintaining a competitive edge in downstream tasks. Importantly, our Safer-Instruct framework is versatile and can be applied to generate preference data across various domains, extending its utility beyond safety preferences. It addresses the challenges in preference data acquisition and advances the development of more capable and responsible AI systems. For dataset and code implementation, see https://github.com/uscnlp-lime/safer-instruct
翻訳日:2024-02-21 04:42:51 公開日:2024-02-19
# 非構造スパース回収のための固有行列

Eigenmatrix for unstructured sparse recovery ( http://arxiv.org/abs/2311.16609v3 )

ライセンス: Link先を確認
Lexing Ying(参考訳) 本稿では,非構造化スパースリカバリ問題を一般に検討する。 例えば、有理近似、スペクトル関数推定、フーリエ逆変換、ラプラス逆変換、スパース逆畳みなどである。 主な課題は、サンプル値のノイズと、サンプル位置の構造化されていない性質である。 本稿では,所望の固有値と固有ベクトルを持つデータ駆動構成である固有行列を提案する。 eigenmatrixは、これらのスパースリカバリ問題に対して、新しい方法を提供する。 提案手法の効率性を示すために, 数値計算を行った。

This paper considers the unstructured sparse recovery problems in a general form. Examples include rational approximation, spectral function estimation, Fourier inversion, Laplace inversion, and sparse deconvolution. The main challenges are the noise in the sample values and the unstructured nature of the sample locations. This paper proposes the eigenmatrix, a data-driven construction with desired approximate eigenvalues and eigenvectors. The eigenmatrix offers a new way for these sparse recovery problems. Numerical results are provided to demonstrate the efficiency of the proposed method.
翻訳日:2024-02-21 04:35:10 公開日:2024-02-19
# uhgeval:unconstrained generationによる中国語大言語モデルの幻覚のベンチマーク

UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation ( http://arxiv.org/abs/2311.15296v2 )

ライセンス: Link先を確認
Xun Liang, Shichao Song, Simin Niu, Zhiyu Li, Feiyu Xiong, Bo Tang, Zhaohui Wy, Dawei He, Peng Cheng, Zhonghao Wang, Haiying Deng(参考訳) 大規模言語モデル(llm)は、現代自然言語処理において重要な貢献者として登場し、様々な産業に適用されつつある。 しかし、これらの大規模確率論的統計モデルは、現在プロのコンテンツ生成に必要な品質を保証できない。 これらのモデルは、しばしば幻覚テキストを生成し、専門的な文脈で実用性を妥協する。 テキスト生成におけるLCMの信頼性を評価するために,幻覚現象のベンチマーク評価を開発した。 しかしながら、これらのベンチマークはコストと時間的制約のため、しばしば制約付き生成技術を利用する。 これらの技術は、指示幻覚誘導と、幻覚を生み出すための真正のテキストを意図的に変更する戦略の使用を含んでいる。 これらのアプローチは、現実世界のアプリケーションによって要求される制限のないテキスト生成と一致しない。 さらに, テキスト生成における幻覚評価専用の中国語データセットも, 現在不足している。 その結果,LLMによる最小限の制約で生成した出力をコンパイルするUnconstrained Hallucination Generation Evaluation (UHGEval) ベンチマークを開発した。 同時に,スケーラブルで再現可能な実験を行うための総合的なベンチマーク評価フレームワークを構築した。 また,著明な中国語モデルとgptシリーズモデルを評価し,幻覚の課題に関する専門的なパフォーマンス洞察を導出するための広範な実験を行った。

Large language models (LLMs) have emerged as pivotal contributors in contemporary natural language processing and are increasingly being applied across a diverse range of industries. However, these large-scale probabilistic statistical models cannot currently ensure the requisite quality in professional content generation. These models often produce hallucinated text, compromising their practical utility in professional contexts. To assess the authentic reliability of LLMs in text generation, numerous initiatives have developed benchmark evaluations for hallucination phenomena. Nevertheless, these benchmarks frequently utilize constrained generation techniques due to cost and temporal constraints. These techniques encompass the use of directed hallucination induction and strategies that deliberately alter authentic text to produce hallucinations. These approaches are not congruent with the unrestricted text generation demanded by real-world applications. Furthermore, a well-established Chinese-language dataset dedicated to the evaluation of hallucinations in text generation is presently lacking. Consequently, we have developed an Unconstrained Hallucination Generation Evaluation (UHGEval) benchmark, designed to compile outputs produced with minimal restrictions by LLMs. Concurrently, we have established a comprehensive benchmark evaluation framework to aid subsequent researchers in undertaking scalable and reproducible experiments. We have also executed extensive experiments, evaluating prominent Chinese language models and the GPT series models to derive professional performance insights regarding hallucination challenges.
翻訳日:2024-02-21 04:34:44 公開日:2024-02-19
# Animate124:1枚の画像を4Dダイナミックシーンにアニメーション

Animate124: Animating One Image to 4D Dynamic Scene ( http://arxiv.org/abs/2311.14603v2 )

ライセンス: Link先を確認
Yuyang Zhao, Zhiwen Yan, Enze Xie, Lanqing Hong, Zhenguo Li, Gim Hee Lee(参考訳) Animate124 (Animate-one-image-to-4D) は、テキストによる動作記述を通じて、単一のウィジェット内画像を3Dビデオにアニメーション化するための最初の試みである。 我々の4D生成は、複数の拡散前駆体を用いて3つの異なる段階に最適化された、高度な4Dグリッド動的ニューラルレージアンス場(NeRF)モデルを活用する。 当初、静的モデルは参照画像を用いて最適化され、2Dおよび3D拡散先行により誘導され、動的NeRFの初期化として機能する。 その後、映像拡散モデルを用いて、被写体特有の動きを学習する。 しかし、3dビデオの中のオブジェクトは、時間とともに参照画像から離れる傾向がある。 このドリフトは主に、ビデオ拡散モデルにおけるテキストプロンプトと参照画像とのずれによるものである。 最終段階では、パーソナライズされた拡散先行がセマンティックドリフトに対処するために利用される。 先駆的な画像テキストから4D生成フレームワークである本手法は,定量的および定性的な評価により,既存のベースラインよりも大幅に進歩したことを示す。

We introduce Animate124 (Animate-one-image-to-4D), the first work to animate a single in-the-wild image into 3D video through textual motion descriptions, an underexplored problem with significant applications. Our 4D generation leverages an advanced 4D grid dynamic Neural Radiance Field (NeRF) model, optimized in three distinct stages using multiple diffusion priors. Initially, a static model is optimized using the reference image, guided by 2D and 3D diffusion priors, which serves as the initialization for the dynamic NeRF. Subsequently, a video diffusion model is employed to learn the motion specific to the subject. However, the object in the 3D videos tends to drift away from the reference image over time. This drift is mainly due to the misalignment between the text prompt and the reference image in the video diffusion model. In the final stage, a personalized diffusion prior is therefore utilized to address the semantic drift. As the pioneering image-text-to-4D generation framework, our method demonstrates significant advancements over existing baselines, evidenced by comprehensive quantitative and qualitative assessments.
翻訳日:2024-02-21 04:33:53 公開日:2024-02-19
# テキスト・画像拡散モデルの著作権リスクについて

On Copyright Risks of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.12803v2 )

ライセンス: Link先を確認
Yang Zhang, Teoh Tze Tzun, Lim Wei Hern, Haonan Wang, Kenji Kawaguchi(参考訳) 拡散モデルは、テキストプロンプト(text-to-image (t2i) generationと呼ばれるタスク)から画像を作成する際に、多くの生成的モデリングタスクにおいて優れている。 高品質な画像を生成する能力にもかかわらず、これらのモデルはトレーニングデータから要素を複製することが多く、近年は実際のアプリケーションにおける著作権の懸念が高まっている。 著作権侵害に対する懸念が高まる中で、近年の研究では、直接著作権プロンプトを用いた拡散モデルの著作権行動が研究されている。 私たちの研究は、間接的なプロンプトでさえ著作権問題を引き起こすような、より微妙な形態の侵害を調べることでこれを拡張しています。 具体的には,拡散モデルにおける著作権研究のためのデータを体系的に生成するデータ生成パイプラインを提案する。 当社のパイプラインは,T2I 生成のための一見無関係なプロンプトを用いて,作品全体ではなく視覚的特徴の複製を含む,より実用的な方法で著作権侵害を調査することを可能にする。 提案するパイプラインを用いてデータを生成し,最新の安定拡散xlを含む各種拡散モデルをテストする。 その結果,これらのモデルが著作権侵害コンテンツを生み出す傾向が広く見られ,この分野における大きな課題が浮き彫りになった。

Diffusion models excel in many generative modeling tasks, notably in creating images from text prompts, a task referred to as text-to-image (T2I) generation. Despite the ability to generate high-quality images, these models often replicate elements from their training data, leading to increasing copyright concerns in real applications in recent years. In response to this raising concern about copyright infringement, recent studies have studied the copyright behavior of diffusion models when using direct, copyrighted prompts. Our research extends this by examining subtler forms of infringement, where even indirect prompts can trigger copyright issues. Specifically, we introduce a data generation pipeline to systematically produce data for studying copyright in diffusion models. Our pipeline enables us to investigate copyright infringement in a more practical setting, involving replicating visual features rather than entire works using seemingly irrelevant prompts for T2I generation. We generate data using our proposed pipeline to test various diffusion models, including the latest Stable Diffusion XL. Our findings reveal a widespread tendency that these models tend to produce copyright-infringing content, highlighting a significant challenge in this field.
翻訳日:2024-02-21 04:32:54 公開日:2024-02-19
# 視覚記述子としてのLLM:視覚記述の進化による画像分類の改善

LLMs as Visual Explainers: Advancing Image Classification with Evolving Visual Descriptions ( http://arxiv.org/abs/2311.11904v2 )

ライセンス: Link先を確認
Songhao Han, Le Zhuo, Yue Liao, Si Liu(参考訳) 視覚言語モデル(VLM)は、画像とクラス埋め込みの類似性を比較することにより、画像分類に有望なパラダイムを提供する。 重要な課題は、クラス名の正確なテキスト表現を作ることである。 これまでの研究では、これらの記述子を強化するために、大規模言語モデル(LLM)の最近の進歩を活用してきたが、その出力は曖昧さと不正確さに悩まされることが多い。 主な要因は2つあります 1) LLMとの単ターンテキストインタラクションへの依存は, 生成したテキストとVLMの視覚概念とのミスマッチにつながる。 2) クラス間の関係の監視は,類似したクラスを効果的に区別できない記述子をもたらす。 本稿では,llms と vlm を統合し,最適なクラス記述子を求める新しいフレームワークを提案する。 トレーニングフリーのアプローチでは,クラス記述子を反復的に洗練する進化的最適化戦略を持つllmベースのエージェントを開発する。 最適化された記述子は高品質で、幅広いベンチマークの分類精度を効果的に向上する。 さらに、これらのディスクリプタは説明可能で堅牢な機能を提供し、様々なバックボーンモデルのパフォーマンスを高め、微調整ベースのメソッドを補完する。

Vision-language models (VLMs) offer a promising paradigm for image classification by comparing the similarity between images and class embeddings. A critical challenge lies in crafting precise textual representations for class names. While previous studies have leveraged recent advancements in large language models (LLMs) to enhance these descriptors, their outputs often suffer from ambiguity and inaccuracy. We attribute this to two primary factors: 1) the reliance on single-turn textual interactions with LLMs, leading to a mismatch between generated text and visual concepts for VLMs; 2) the oversight of the inter-class relationships, resulting in descriptors that fail to differentiate similar classes effectively. In this paper, we propose a novel framework that integrates LLMs and VLMs to find the optimal class descriptors. Our training-free approach develops an LLM-based agent with an evolutionary optimization strategy to iteratively refine class descriptors. We demonstrate our optimized descriptors are of high quality which effectively improves classification accuracy on a wide range of benchmarks. Additionally, these descriptors offer explainable and robust features, boosting performance across various backbone models and complementing fine-tuning-based methods.
翻訳日:2024-02-21 04:32:21 公開日:2024-02-19
# 条件拡散モデリングのためのフレームワークとタンパク質設計のためのモチーフ足場への応用

A framework for conditional diffusion modelling with applications in motif scaffolding for protein design ( http://arxiv.org/abs/2312.09236v2 )

ライセンス: Link先を確認
Kieran Didi, Francisco Vargas, Simon V Mathis, Vincent Dutordoir, Emile Mathieu, Urszula J Komorowska, Pietro Lio(参考訳) バインダーや酵素設計のような多くのタンパク質設計用途では、構造的モチーフを高精度に構築する必要がある。 微分拡散過程に基づく生成的モデリングパラダイムは、このモチーフ足場問題に対処する主要な候補として現れ、いくつかのケースで初期の実験的な成功を示している。 拡散パラダイムでは、モチーフスキャフォールディングは条件生成タスクとして扱われ、コンピュータビジョン文献からいくつかの条件生成プロトコルが提案または輸入された。 しかし、これらのプロトコルのほとんどがヒューリスティックな動機付けであり、例えばランジュバンダイナミクスへの類似性を通じて、異なるアプローチ間の接続を阻害する統一フレームワークが欠如している。 本研究では,数学的によく理解されたDoobのh-transformに基づいて,条件付きトレーニングと条件付きサンプリング手順を統合する。 この新たな視点は、既存のメソッド間の接続を描画し、既存の条件付きトレーニングプロトコルに新しいバリエーションを提案する。 我々は,この新たなプロトコルの有効性を,画像オーバーペイントとモチーフスキャフォールディングの両方において説明し,標準手法よりも優れていることを示す。

Many protein design applications, such as binder or enzyme design, require scaffolding a structural motif with high precision. Generative modelling paradigms based on denoising diffusion processes emerged as a leading candidate to address this motif scaffolding problem and have shown early experimental success in some cases. In the diffusion paradigm, motif scaffolding is treated as a conditional generation task, and several conditional generation protocols were proposed or imported from the Computer Vision literature. However, most of these protocols are motivated heuristically, e.g. via analogies to Langevin dynamics, and lack a unifying framework, obscuring connections between the different approaches. In this work, we unify conditional training and conditional sampling procedures under one common framework based on the mathematically well-understood Doob's h-transform. This new perspective allows us to draw connections between existing methods and propose a new variation on existing conditional training protocols. We illustrate the effectiveness of this new protocol in both, image outpainting and motif scaffolding and find that it outperforms standard methods.
翻訳日:2024-02-21 04:23:51 公開日:2024-02-19
# AIモデルは物理モデルよりも天気予報が良いか? storm ciar\'anの定量的評価ケーススタディ

Do AI models produce better weather forecasts than physics-based models? A quantitative evaluation case study of Storm Ciar\'an ( http://arxiv.org/abs/2312.02658v2 )

ライセンス: Link先を確認
Andrew J. Charlton-Perez, Helen F. Dacre, Simon Driscoll, Suzanne L. Gray, Ben Harvey, Natalie J. Harvey, Kieran M. R. Hunt, Robert W. Lee, Ranjini Swaminathan, Remy Vandaele, Ambrogio Volont\'e(参考訳) 近年,機械学習技術を用いて気象予報を行う可能性に大きな関心が寄せられている。 天気予報ツールボックスの一部になるにつれて、現在の機械学習モデルが、ハイインパクトな気象イベントをいかにシミュレートできるかを理解する必要がある。 我々は、北欧で16人の死者と大規模な被害を引き起こしたヨーロッパの暴風雨であるStorm Ciar\anの予測を、機械学習と数値気象予測モデルによって比較した。 4つの機械学習モデル (FourCastNet, Pangu-Weather, GraphCast, FourCastNet-v2) は, 雲頭の位置, 暖房セクターの形状, 暖機ベルトジェットの位置を含むサイクロンの光学的構造を正確に把握し, 嵐の発生に重要な大規模動力学的要因である上層ジェット出口に対するストームの位置などの予測を行う。 しかし、気象警報を発する上で重要なより詳細な構造を解く能力は、より混ざり合っている。 いずれの機械学習モデルも、嵐に伴う風のピーク振幅を過小評価しており、一部の機械学習モデルだけが暖かいコア分離を解決し、機械学習モデルも鋭い屈曲バックの温かい前面勾配を捉えていない。 本研究は,Storm Ciar\anのような高影響気象事象のケーススタディから得られる,機械学習天気予報の性能と特性について検討した。

There has been huge recent interest in the potential of making operational weather forecasts using machine learning techniques. As they become a part of the weather forecasting toolbox, there is a pressing need to understand how well current machine learning models can simulate high-impact weather events. We compare forecasts of Storm Ciar\'an, a European windstorm that caused sixteen deaths and extensive damage in Northern Europe, made by machine learning and numerical weather prediction models. The four machine learning models considered (FourCastNet, Pangu-Weather, GraphCast and FourCastNet-v2) produce forecasts that accurately capture the synoptic-scale structure of the cyclone including the position of the cloud head, shape of the warm sector and location of warm conveyor belt jet, and the large-scale dynamical drivers important for the rapid storm development such as the position of the storm relative to the upper-level jet exit. However, their ability to resolve the more detailed structures important for issuing weather warnings is more mixed. All of the machine learning models underestimate the peak amplitude of winds associated with the storm, only some machine learning models resolve the warm core seclusion and none of the machine learning models capture the sharp bent-back warm frontal gradient. Our study shows there is a great deal about the performance and properties of machine learning weather forecasts that can be derived from case studies of high-impact weather events such as Storm Ciar\'an.
翻訳日:2024-02-21 04:22:47 公開日:2024-02-19
# LLMはセキュリティ問題に対処できるか?

Can LLMs Patch Security Issues? ( http://arxiv.org/abs/2312.00024v3 )

ライセンス: Link先を確認
Kamel Alrashedy, Abdullah Aljasser(参考訳) 大規模言語モデル(llm)はコード生成に優れた能力を示している。 それでも、人間開発者と同様に、これらのモデルはセキュリティの脆弱性や欠陥を含むコードを生成する可能性がある。 セキュアなコードを書くことは依然として大きな課題であり、プログラムと外部システムやデータベースやオペレーティングシステムなどのサービスとのインタラクション中に脆弱性が発生することが多い。 本稿では,静的コード解析ツールであるBanditからフィードバックを受け取り,LLMがセキュリティ上の脆弱性を解決するための潜在的ソリューションを生成することを目的とした,フィードバック駆動型ソリューション合成(FDSS)という新しいアプローチを提案する。 脆弱性のあるコードとともに各ソリューションは、コードリファインメントのためにLLMに返される。 我々のアプローチは、ベースラインよりも大きな改善を示し、既存のアプローチよりも優れています。 さらに,stack overflow上の実世界のシナリオから収集した新しいデータセット pythonsecurityeval を導入して,セキュアなコードを生成する llms の能力を評価する。 コードとデータは \url{https://github.com/kamel773/llm-code-refine} で利用可能である。

Large Language Models (LLMs) have shown impressive proficiency in code generation. Nonetheless, similar to human developers, these models might generate code that contains security vulnerabilities and flaws. Writing secure code remains a substantial challenge, as vulnerabilities often arise during interactions between programs and external systems or services, such as databases and operating systems. In this paper, we propose a novel approach, Feedback-Driven Solution Synthesis (FDSS), designed to explore the use of LLMs in receiving feedback from Bandit, which is a static code analysis tool, and then the LLMs generate potential solutions to resolve security vulnerabilities. Each solution, along with the vulnerable code, is then sent back to the LLM for code refinement. Our approach shows a significant improvement over the baseline and outperforms existing approaches. Furthermore, we introduce a new dataset, PythonSecurityEval, collected from real-world scenarios on Stack Overflow to evaluate the LLMs' ability to generate secure code. Code and data are available at \url{https://github.com/Kamel773/LLM-code-refine}
翻訳日:2024-02-21 04:20:53 公開日:2024-02-19
# 非可換最適化問題に対する一階最適条件

First-order optimality conditions for non-commutative optimization problems ( http://arxiv.org/abs/2311.18707v3 )

ライセンス: Link先を確認
Mateus Ara\'ujo, Igor Klep, Andrew J. P. Garner, Tam\'as V\'ertesi and Miguel Navascues(参考訳) 我々は、非可換変数の多項式の状態平均、多くの多項式制約を満たすすべての状態と作用素、およびそのような状態と作用素が定義されるすべてのヒルベルト空間の状態平均を最適化する問題を考える。 このような非可換多項式最適化(NPO)問題は、半定値プログラミング(SDP)緩和の階層によって日常的に解決される。 一般 NPO 問題をラグランジュ形式で表現することにより、問題変数、状態および演算子最適条件の小さな変分を通じてヒューリスティックに導出し、どちらも SDP 階層に新しい正の半定値制約を加えることで強制することができる。 状態最適条件は、すべてのアルキメデス(すなわち有界)の NPO 問題によって満たされ、新しいタイプの制約、すなわち、任意の数の作用素の共通基底状態の集合に状態に対する最適化を制限することができる。 作用素最適性条件はカルス-クーン-タッカー条件(kkt)の非可換な類似体であり、多くの古典的最適化問題で成立することが知られている。 この点において、非可換作用素最適性の弱い形式が全てのアルキメデス NPO 問題に対して成立することを証明する。 我々は,多体スピン系の基底状態の局所的性質とベル不等式最大量子違反を計算し,新しい最適条件のパワーを検証した。

We consider the problem of optimizing the state average of a polynomial of non-commuting variables, over all states and operators satisfying a number of polynomial constraints, and over all Hilbert spaces where such states and operators are defined. Such non-commutative polynomial optimization (NPO) problems are routinely solved through hierarchies of semidefinite programming (SDP) relaxations. By phrasing the general NPO problem in Lagrangian form, we heuristically derive, via small variations on the problem variables, state and operator optimality conditions, both of which can be enforced by adding new positive semidefinite constraints to the SDP hierarchies. State optimality conditions are satisfied by all Archimedean (that is, bounded) NPO problems, and allow enforcing a new type of constraints: namely, restricting the optimization over states to the set of common ground states of an arbitrary number of operators. Operator optimality conditions are the non-commutative analogs of the Karush--Kuhn--Tucker (KKT) conditions, which are known to hold in many classical optimization problems. In this regard, we prove that a weak form of non-commutative operator optimality holds for all Archimedean NPO problems; stronger versions require the problem constraints to satisfy some qualification criterion, just like in the classical case. We test the power of the new optimality conditions by computing local properties of ground states of many-body spin systems and the maximum quantum violation of Bell inequalities.
翻訳日:2024-02-21 04:20:38 公開日:2024-02-19
# エントロピー速度最小化による予測可能強化学習ダイナミクス

Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization ( http://arxiv.org/abs/2311.18703v3 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Giannis Delimpaltadakis, Jens Kober, Javier Alonso-Mora(参考訳) 強化学習(rl)では、エージェントは予測可能な行動を示すインセンティブを持たず、しばしば(ポリシーエントロピー正規化などを通じて)探索に有利な行動をランダム化する。 人間の視点では、RLエージェントの解釈と予測が難しくなり、安全性の観点からは、正式な検証がさらに難しくなります。 本稿では,予測可能性指標として状態列エントロピー率を用いる予測可能性認識RL (Predictability-Aware RL) と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。 平均報酬目標としてエントロピー率を定式化する方法を示し,エントロピー報酬関数は政策依存であるため,政策段階の手法を活用できる行動依存の代理エントロピーを導入する。 平均代理報酬を最小化する決定論的ポリシーの存在を証明し、実際のエントロピー率を最小化するとともに、学習力学モデルが与えられた場合、真のエントロピー率に付随する値関数を近似できることを示す。 最後に、人間-ロボットのユースケースに触発されたrlタスクにおけるアプローチの有効性を実証し、最適に近い報酬を得ながら、より予測可能な振る舞いを持つエージェントを生成する方法を示す。

In Reinforcement Learning (RL), agents have no incentive to exhibit predictable behaviors, and are often pushed (through e.g. policy entropy regularization) to randomize their actions in favor of exploration. From a human perspective, this makes RL agents hard to interpret and predict, and from a safety perspective, even harder to formally verify. We propose a novel method to induce predictable behavior in RL agents, referred to as Predictability-Aware RL (PA-RL), which employs the state sequence entropy rate as a predictability measure. We show how the entropy rate can be formulated as an average reward objective, and since its entropy reward function is policy-dependent, we introduce an action-dependent surrogate entropy enabling the use of policy-gradient methods. We prove that deterministic policies minimising the average surrogate reward exist and also minimize the actual entropy rate, and show how, given a learned dynamical model, we are able to approximate the value function associated to the true entropy rate. Finally, we demonstrate the effectiveness of the approach in RL tasks inspired by human-robot use-cases, and show how it produces agents with more predictable behavior while achieving near-optimal rewards.
翻訳日:2024-02-21 04:20:12 公開日:2024-02-19
# スパース・ロバスト最大結合推定器の効率的な計算

Efficient Computation of Sparse and Robust Maximum Association Estimators ( http://arxiv.org/abs/2311.17563v2 )

ライセンス: Link先を確認
Pia Pfeiffer and Andreas Alfons and Peter Filzmoser(参考訳) ロバストな統計推定器は外部からの観測の影響は少ないが、計算はより困難である。 これは特に高次元スパース設定の場合である。 コンピュータ科学領域で主に開発された新しい最適化手順の可用性は、堅牢な統計学分野に新たな可能性をもたらす。 本稿では,このような手法をロバストなスパース連想推定器に対してどのように利用できるかを検討する。 この問題はロバストな推定ステップに分割でき、残りの分離された(bi-)凸問題に対する最適化を行うことができる。 拡張ラグランジアンアルゴリズムと適応勾配勾配の組合せは、スパーシリティの誘導に適した制約を含むように実装されている。 本稿では,アルゴリズムの精度に関する結果を提供し,この文脈における既存アルゴリズムの利点を示す。 高次元経験例は、この手順の有用性を裏付けるものである。 他の堅牢なスパース推定器への拡張は可能である。

Although robust statistical estimators are less affected by outlying observations, their computation is usually more challenging. This is particularly the case in high-dimensional sparse settings. The availability of new optimization procedures, mainly developed in the computer science domain, offers new possibilities for the field of robust statistics. This paper investigates how such procedures can be used for robust sparse association estimators. The problem can be split into a robust estimation step followed by an optimization for the remaining decoupled, (bi-)convex problem. A combination of the augmented Lagrangian algorithm and adaptive gradient descent is implemented to also include suitable constraints for inducing sparsity. We provide results concerning the precision of the algorithm and show the advantages over existing algorithms in this context. High-dimensional empirical examples underline the usefulness of this procedure. Extensions to other robust sparse estimators are possible.
翻訳日:2024-02-21 04:19:47 公開日:2024-02-19
# beyond visual cues: 視覚言語追跡のための目標中心セマンティクスの同時探索

Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for Vision-Language Tracking ( http://arxiv.org/abs/2311.17085v2 )

ライセンス: Link先を確認
Jiawei Ge, Xiangmei Chen, Jiuxin Cao, Xuelin Zhu, Bo Liu(参考訳) 単一のオブジェクト追跡は、初期状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。 古典的なトラッカーは視覚的な手がかりにのみ依存しており、外観の変化、曖昧さ、気晴らしといった課題に対処する能力を制限する。 そのため、視覚言語(vl)トラッキングは有望なアプローチとして登場し、言語記述を組み込んで高レベルのセマンティクスを直接提供し、トラッキング性能を向上させる。 しかしながら、現在のVLトラッカーはVL学習のパワーを十分に活用していない。特徴抽出のためにオフザシェルフバックボーンに強く依存する、非効率なVL融合設計、VL関連損失関数の欠如などである。 そこで本研究では,VLトラッキングのためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。 具体的には,VLトラッキングのための最初のSynchronous Learning Backbone (SLB)を提案する。これは,Target Enhance Module (TEM) と Semantic Aware Module (SAM) の2つの新しいモジュールで構成される。 これらのモジュールは、トラッカーがターゲットに関連するセマンティクスを知覚し、視覚とテキストの両方のモダリティのコンテキストを同じペースで理解し、VLの特徴抽出と異なるセマンティクスレベルでの融合を容易にする。 さらに,マルチモーダル表現学習をさらに強化するために,濃密なマッチング損失を考案する。 VL追跡データセットの大規模実験により,本手法の優位性と有効性を示した。

Single object tracking aims to locate one specific target in video sequences, given its initial state. Classical trackers rely solely on visual cues, restricting their ability to handle challenges such as appearance variations, ambiguity, and distractions. Hence, Vision-Language (VL) tracking has emerged as a promising approach, incorporating language descriptions to directly provide high-level semantics and enhance tracking performance. However, current VL trackers have not fully exploited the power of VL learning, as they suffer from limitations such as heavily relying on off-the-shelf backbones for feature extraction, ineffective VL fusion designs, and the absence of VL-related loss functions. Consequently, we present a novel tracker that progressively explores target-centric semantics for VL tracking. Specifically, we propose the first Synchronous Learning Backbone (SLB) for VL tracking, which consists of two novel modules: the Target Enhance Module (TEM) and the Semantic Aware Module (SAM). These modules enable the tracker to perceive target-related semantics and comprehend the context of both visual and textual modalities at the same pace, facilitating VL feature extraction and fusion at different semantic levels. Moreover, we devise the dense matching loss to further strengthen multi-modal representation learning. Extensive experiments on VL tracking datasets demonstrate the superiority and effectiveness of our methods.
翻訳日:2024-02-21 04:19:29 公開日:2024-02-19
# GraphPro: 推奨のためのグラフ事前トレーニングとプロンプト学習

GraphPro: Graph Pre-training and Prompt Learning for Recommendation ( http://arxiv.org/abs/2311.16716v5 )

ライセンス: Link先を確認
Yuhao Yang, Lianghao Xia, Da Luo, Kangyi Lin, Chao Huang(参考訳) GNNベースのレコメンデータは、マルチホップメッセージパッシングによる複雑なユーザ-イテムインタラクションのモデリングに長けている。 しかし,既存手法ではユーザとイテムの相互作用の動的性質を無視することが多く,ユーザの嗜好の変化や,新たに到着したデータの分散シフトへの適応を阻害する。 したがって、現実世界の動的環境におけるスケーラビリティと性能は限られている。 本研究では,パラメータ効率と動的グラフ事前学習と即時学習を組み合わせたグラフプロを提案する。 この新しい組み合わせにより、GNNは長期的なユーザの好みと短期的な振る舞いのダイナミクスの両方を効果的に捉え、正確でタイムリーなレコメンデーションの提供を可能にします。 graphproフレームワークは,事前学習したgnnモデルに時間的プロンプト機構とグラフ構造的プロンプト学習機構をシームレスに統合することにより,ユーザの好みを進化させる課題に対処する。 時間的プロンプトメカニズムは、ユーザとイテムの相互作用に関する時間情報を符号化し、モデルが時間的コンテキストを自然に捉え、グラフ構造的プロンプト学習機構は、学習済みの知識を連続的なインクリメンタルトレーニングを必要とせずに、行動力学に適応させることができる。 さらに,実世界の動的シナリオを模倣するレコメンデーションのための動的評価設定を導入し,オフライン・オンラインギャップをよりよいレベルに橋渡しする。 大規模な産業展開を含む大規模な実験は、さまざまな最先端のレコメンデータと統合されたGraphProの軽量なプラグインスケーラビリティを示し、有効性、堅牢性、効率性の観点からGraphProの利点を強調します。 GraphProの実装の詳細とソースコードは、https://github.com/HKUDS/GraphProのリポジトリで入手できる。

GNN-based recommenders have excelled in modeling intricate user-item interactions through multi-hop message passing. However, existing methods often overlook the dynamic nature of evolving user-item interactions, which impedes the adaption to changing user preferences and distribution shifts in newly arriving data. Thus, their scalability and performances in real-world dynamic environments are limited. In this study, we propose GraphPro, a framework that incorporates parameter-efficient and dynamic graph pre-training with prompt learning. This novel combination empowers GNNs to effectively capture both long-term user preferences and short-term behavior dynamics, enabling the delivery of accurate and timely recommendations. Our GraphPro framework addresses the challenge of evolving user preferences by seamlessly integrating a temporal prompt mechanism and a graph-structural prompt learning mechanism into the pre-trained GNN model. The temporal prompt mechanism encodes time information on user-item interaction, allowing the model to naturally capture temporal context, while the graph-structural prompt learning mechanism enables the transfer of pre-trained knowledge to adapt to behavior dynamics without the need for continuous incremental training. We further bring in a dynamic evaluation setting for recommendation to mimic real-world dynamic scenarios and bridge the offline-online gap to a better level. Our extensive experiments including a large-scale industrial deployment showcases the lightweight plug-in scalability of our GraphPro when integrated with various state-of-the-art recommenders, emphasizing the advantages of GraphPro in terms of effectiveness, robustness and efficiency. The implementation details and source code of our GraphPro are available in the repository at https://github.com/HKUDS/GraphPro
翻訳日:2024-02-21 04:19:03 公開日:2024-02-19
# 強化学習

Reinforcement Unlearning ( http://arxiv.org/abs/2312.15910v4 )

ライセンス: Link先を確認
Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Zewei Shi, Sheng Shen, Wanlei Zhou, Minhui Xue(参考訳) 機械学習とは、データ所有者からの削除要求に基づいて、特定のトレーニングデータの影響を緩和するプロセスを指す。 しかし、未学習の研究で見過ごされてきた重要な分野は強化学習である。 強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。 訓練の間、エージェントは環境の特徴を記憶しがちであり、プライバシーに関する重大な懸念を引き起こす。 データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効化する権利を有しており、それによって新しい研究分野である'emph{reinforcement unlearning} の開発が必要とされる。 強化アンラーニングは、個々のデータサンプルではなく、環境全体を無効にすることです。 この独特の特徴は3つの異なる課題をもたらす。 1)環境のための未学習スキームの提案方法 2) 残りの環境におけるエージェントの性能の低下を回避する方法 3)未学習の有効性を評価する方法。 これらの課題に取り組むため,我々は2つの強化アンラーニング手法を提案する。 第1の方法は、エージェントが以前獲得した知識を徐々に消去することを目的とした、デクリメント強化学習に基づいている。 第2の方法は、環境中毒攻撃を利用して、エージェントが学習環境を正しくなくすための新しい知識を学ぶように促す。 特に,第3の課題に取り組むために,「環境推論攻撃」の概念を導入し,未学習の結果を評価する。

Machine unlearning refers to the process of mitigating the influence of specific training data on machine learning models based on removal requests from data owners. However, one important area that has been largely overlooked in the research of unlearning is reinforcement learning. Reinforcement learning focuses on training an agent to make optimal decisions within an environment to maximize its cumulative rewards. During the training, the agent tends to memorize the features of the environment, which raises a significant concern about privacy. As per data protection regulations, the owner of the environment holds the right to revoke access to the agent's training data, thus necessitating the development of a novel and pressing research field, known as \emph{reinforcement unlearning}. Reinforcement unlearning focuses on revoking entire environments rather than individual data samples. This unique characteristic presents three distinct challenges: 1) how to propose unlearning schemes for environments; 2) how to avoid degrading the agent's performance in remaining environments; and 3) how to evaluate the effectiveness of unlearning. To tackle these challenges, we propose two reinforcement unlearning methods. The first method is based on decremental reinforcement learning, which aims to erase the agent's previously acquired knowledge gradually. The second method leverages environment poisoning attacks, which encourage the agent to learn new, albeit incorrect, knowledge to remove the unlearning environment. Particularly, to tackle the third challenge, we introduce the concept of ``environment inference attack'' to evaluate the unlearning outcomes.
翻訳日:2024-02-21 04:11:35 公開日:2024-02-19
# PPO-Clipがグローバルな最適化を実現 - クリッピングの理解を深める

PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clipping ( http://arxiv.org/abs/2312.12065v2 )

ライセンス: Link先を確認
Nai-Chieh Huang, Ping-Chun Hsieh, Kuo-Hao Ho, I-Chen Wu(参考訳) クリッピングサロゲート目的(PPO-Clip)を用いたポリシ最適化アルゴリズムは、ポリシー最適化手法の顕著な例である。 しかし、その顕著な経験的成功にもかかわらず、PPO-Clipは理論的な実証を欠いている。 本稿では,PPO-Clip変種の最初の大域収束結果を表計算および神経機能近似設定で確立することにより,この分野に寄与する。 本研究は,特に神経関数近似の文脈において,$o(1/\sqrt{t})$ min-iterate 収束率に注目した。 PPO-Clipを3つの中心概念で分析する上で,本質的な課題に取り組む。 i) ヒンジ損失の関連性から照らされたPPO-Clip目標の一般化版を導入する。 (II) エントロピックミラー降下を利用して, 直接方針パラメータ化による表層PPO-Clipの漸近収束を確立する。 (iii) 表解析に触発され, 2段階の方針改善アプローチを導入することで収束分析を合理化する。 これにより、回帰ベースの更新スキームを用いて複雑なニューラルポリシーパラメータ化からポリシー探索を分離する。 さらに、これらの一般化された目的を解釈することにより、PPO-Clipの有効性について深い洞察を得る。 また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。 重要なことに、クリッピング範囲は収束率の予備定数のみに影響する。

Proximal Policy Optimization algorithm employing a clipped surrogate objective (PPO-Clip) is a prominent exemplar of the policy optimization methods. However, despite its remarkable empirical success, PPO-Clip lacks theoretical substantiation to date. In this paper, we contribute to the field by establishing the first global convergence results of a PPO-Clip variant in both tabular and neural function approximation settings. Our findings highlight the $O(1/\sqrt{T})$ min-iterate convergence rate specifically in the context of neural function approximation. We tackle the inherent challenges in analyzing PPO-Clip through three central concepts: (i) We introduce a generalized version of the PPO-Clip objective, illuminated by its connection with the hinge loss. (ii) Employing entropic mirror descent, we establish asymptotic convergence for tabular PPO-Clip with direct policy parameterization. (iii) Inspired by the tabular analysis, we streamline convergence analysis by introducing a two-step policy improvement approach. This decouples policy search from complex neural policy parameterization using a regression-based update scheme. Furthermore, we gain deeper insights into the efficacy of PPO-Clip by interpreting these generalized objectives. Our theoretical findings also mark the first characterization of the influence of the clipping mechanism on PPO-Clip convergence. Importantly, the clipping range affects only the pre-constant of the convergence rate.
翻訳日:2024-02-21 04:11:11 公開日:2024-02-19
# マルチタイム量子プロセスにおけるマルコフ相関と非マルコフ相関の関係

Relations between Markovian and non-Markovian correlations in multi-time quantum processes ( http://arxiv.org/abs/2312.10147v2 )

ライセンス: Link先を確認
Guilherme Zambon and Diogo O. Soares-Pinto(参考訳) 開量子系の力学では、情報はシステムまたは環境を通じて時間的に伝播し、それぞれマルコフ型と非マルコフ型の時間相関が生じる。 しかし、ほとんどの物理的状況においてそれらの顕著な共存にもかかわらず、これらの2つの量が互いに存在を制限できるかどうかはまだ明らかではない。 本稿では、一般マルチタイム量子プロセスの時間的相関関係に関するいくつかの不等式を導出することにより、この問題に対処する。 ダイナミクスはプロセステンソルによって記述され、相関はchoi状態のサブシステム間の相互情報によって定量化される。 まず、各ステップにおいてマルコビアン性の次数が与えられた過程の非マルコビアン性に対する上界の集合を証明する。 これは直ちに、そのマルコフ性とは独立に、任意の過程の非マルコフ性に対する非自明な最大値を意味する。 最後に、非マルコビアン性が与えられた過程に存在する可能性のある全時間相関の量を制限する方法を得る。 これらの結果は、任意のマルチタイムプロセスが、与えられた量の非マルコビアン性を持つために全相関の価格を支払わなければならないが、この価格がプロセスのステップ数と指数関数的に消え、最大非マルコビアン性は直線的にのみ増加することを示している。 これは、非常に非マルコフ過程でさえ、十分に多くのステップを持つ場合、最大全相関を持つように任意に近くなることを意味する。

In the dynamics of open quantum systems, information may propagate in time through either the system or the environment, giving rise to Markovian and non-Markovian temporal correlations, respectively. However, despite their notable coexistence in most physical situations, it is not yet clear how these two quantities may limit the existence of one another. Here, we address this issue by deriving several inequalities relating the temporal correlations of general multi-time quantum processes. The dynamics are described by process tensors and the correlations are quantified by the mutual information between subsystems of their Choi states. First, we prove a set of upper bounds to the non-Markovianity of a process given the degree of Markovianity in each of its steps. This immediately implies a non-trivial maximum value for the non-Markovianity of any process, independently of its Markovianity. Finally, we obtain how the non-Markovianity limits the amount of total temporal correlations that could be present in a given process. These results show that, although any multi-time process must pay a price in total correlations to have a given amount of non-Markovianity, this price vanishes exponentially with the number of steps of the process, while the maximum non-Markovianity grows only linearly. This implies that even a highly non-Markovian process might be arbitrarily close to having maximum total correlations if it has a sufficiently large number of steps.
翻訳日:2024-02-21 04:10:05 公開日:2024-02-19
# 粒子加速器の条件モデリングによるロバスト不活性ビームの予測

Robust Errant Beam Prognostics with Conditional Modeling for Particle Accelerators ( http://arxiv.org/abs/2312.10040v2 )

ライセンス: Link先を確認
Kishansingh Rajput, Malachi Schram, Willem Blokland, Yasir Alanazi, Pradeep Ramuhalli, Alexander Zhukov, Charles Peters, Ricardo Vilalta(参考訳) 粒子加速器は複雑で何千もの部品で構成されており、多くの機器が最大出力で動作している。 その結果、粒子加速器は様々な理由で故障や停止の可能性がある。 これらの欠陥は、スケジュールされた実行中の粒子加速器の可用性に影響を与え、効率と全体の科学出力を妨げる。 これらの故障を回避するために,異常な挙動を予測し,粒子加速器の総合可用性を向上させるためのプリエンプティブ動作を行う異常検出手法を適用した。 半教師付き機械学習(ML)に基づく自動エンコーダや変分自動エンコーダのような異常検出アプローチは、そのようなタスクによく使用される。 しかし、シームズニューラルネットワーク(SNN)モデルのような教師付きML技術は、ラベル情報を活用することにより、教師なしまたは半教師なしのアプローチよりも優れている。 粒子加速器の異常検出に特有の課題の1つは、システム構成の変更によるデータの変動である。 この課題に対処するために,条件付きシアムニューラルネット(csnn)モデルと条件変動オートエンコーダ(cvae)モデルを用いて,スパレーション中性子源(sns)の異常ビームパルスを異なるシステム構成条件下で予測し,その性能を比較する。 CSNNがCVAEより優れていることを示す。

Particle accelerators are complex and comprise thousands of components, with many pieces of equipment running at their peak power. Consequently, particle accelerators can fault and abort operations for numerous reasons. These faults impact the availability of particle accelerators during scheduled run-time and hamper the efficiency and the overall science output. To avoid these faults, we apply anomaly detection techniques to predict any unusual behavior and perform preemptive actions to improve the total availability of particle accelerators. Semi-supervised Machine Learning (ML) based anomaly detection approaches such as autoencoders and variational autoencoders are often used for such tasks. However, supervised ML techniques such as Siamese Neural Network (SNN) models can outperform unsupervised or semi-supervised approaches for anomaly detection by leveraging the label information. One of the challenges specific to anomaly detection for particle accelerators is the data's variability due to system configuration changes. To address this challenge, we employ Conditional Siamese Neural Network (CSNN) models and Conditional Variational Auto Encoder (CVAE) models to predict errant beam pulses at the Spallation Neutron Source (SNS) under different system configuration conditions and compare their performance. We demonstrate that CSNN outperforms CVAE in our application.
翻訳日:2024-02-21 04:09:41 公開日:2024-02-19
# Math-Shepherd: LLMを人間アノテーションなしで段階的に検証し強化する

Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations ( http://arxiv.org/abs/2312.08935v3 )

ライセンス: Link先を確認
Peiyi Wang and Lei Li and Zhihong Shao and R.X. Xu and Damai Dai and Yifei Li and Deli Chen and Y.Wu and Zhifang Sui(参考訳) 本稿では,数学問題解の各ステップに報酬のスコアを割り当てる「textbf{Math-Shepherd}」という,革新的なプロセス指向の数学プロセス報酬モデルを提案する。 自動構築されたプロセス単位での監督データを用いて数学シェファードの訓練を行い、既存の作業における手動アノテーションに重きを置くボトルネックを打ち破る。 数学シェファードの有効性を2つのシナリオで検討する。 1) \textit{Verification}: Math-Shepherd は、Large Language Models (LLMs) によって生成される複数の出力のランク付けに使用される。 2) <textit{Reinforcement Learning}: Math-Shepherd は PPO (Proximal Policy Optimization) をステップバイステップで強化するために用いられる。 Math-Shepherdでは、オープンソースのLCMシリーズが例外的なパフォーマンスを示している。 例えば、Math-ShepherdのステップバイステップのPPOはMistral-7Bの精度を大幅に向上させる(GSM8Kでは77.9\%$\to$84.1\%、MATHでは28.6\%$\to$33.0\%)。 精度は、それぞれMath-Shepherdを検証した GSM8K と MATH で 89.1\% と 43.5\% に向上することができる。 我々は,LLMの今後の発展に,自動プロセス監視が大きな可能性を秘めていると考えている。

In this paper, we present an innovative process-oriented math process reward model called \textbf{Math-Shepherd}, which assigns a reward score to each step of math problem solutions. The training of Math-Shepherd is achieved using automatically constructed process-wise supervision data, breaking the bottleneck of heavy reliance on manual annotation in existing work. We explore the effectiveness of Math-Shepherd in two scenarios: 1) \textit{Verification}: Math-Shepherd is utilized for reranking multiple outputs generated by Large Language Models (LLMs); 2) \textit{Reinforcement Learning}: Math-Shepherd is employed to reinforce LLMs with step-by-step Proximal Policy Optimization (PPO). With Math-Shepherd, a series of open-source LLMs demonstrates exceptional performance. For instance, the step-by-step PPO with Math-Shepherd significantly improves the accuracy of Mistral-7B (77.9\%$\to$84.1\% on GSM8K and 28.6\%$\to$33.0\% on MATH). The accuracy can be further enhanced to 89.1\% and 43.5\% on GSM8K and MATH with the verification of Math-Shepherd, respectively. We believe that automatic process supervision holds significant potential for the future evolution of LLMs.
翻訳日:2024-02-21 04:08:57 公開日:2024-02-19
# KnowGPT: 大規模言語モデルのためのブラックボックス知識注入

KnowGPT: Black-Box Knowledge Injection for Large Language Models ( http://arxiv.org/abs/2312.06185v2 )

ライセンス: Link先を確認
Qinggang Zhang, Junnan Dong, Hao Chen, Xiao Huang, Daochen Zha, Zailiang Yu(参考訳) ChatGPTのようなジェネレーティブ大型言語モデル(LLM)は、人間-専門家レベルで一般的な質問に答えるインタラクティブAPIを提供する。 しかしながら、これらのモデルは、トレーニングコーパスにカバーされていないドメイン固有の知識や専門的な知識を必要とする質問に直面した時に、不正確な、または誤った応答を与えることが多い。 さらに、最先端のLLMの多くはオープンソースではないため、モデルAPIでのみ知識を注入することは困難である。 本研究では,LLMのためのブラックボックス知識注入フレームワークであるKnowGPTを紹介する。 KnowGPTは、深い強化学習(RL)を活用して知識グラフ(KGs)から関連する知識を抽出し、マルチアーメッド帯域(MAB)を使用して各質問に最適なプロンプトを構築する。 3つのベンチマークデータセットに関する広範な実験では、knowgptが既存のメソッドを大幅に強化しています。 特に、KnowGPTはChatGPTよりも平均23.7%改善し、GPT-4より平均2.9%改善した。 さらに、KnowGPTはOpenbookQAの公式リーダーボードで91.6%の精度を達成している。

Generative Large Language Models (LLMs), such as ChatGPT, offer interactive APIs that can answer common questions at a human-expert level. However, these models often give inaccurate or incorrect responses when faced with questions requiring domain-specific or professional-specific knowledge not covered in their training corpus. Furthermore, many state-of-the-art LLMs are not open-source, making it challenging to inject knowledge with model APIs only. In this work, we introduce KnowGPT, a black-box knowledge injection framework for LLMs in question answering. KnowGPT leverages deep reinforcement learning (RL) to extract relevant knowledge from Knowledge Graphs (KGs) and use Multi-Armed Bandit (MAB) to construct the most suitable prompt for each question. Our extensive experiments on three benchmark datasets showcase that KnowGPT significantly enhances the existing methods. Notably, KnowGPT achieves an average improvement of 23.7% over ChatGPT and an average improvement of 2.9% over GPT-4. Additionally, KnowGPT attains a 91.6% accuracy on the OpenbookQA official leaderboard, which is comparable to human-level performance.
翻訳日:2024-02-21 04:08:03 公開日:2024-02-19
# アンロック予測テキスト生成:大規模言語モデルデコードのための制約付きアプローチ

Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding ( http://arxiv.org/abs/2312.06149v2 )

ライセンス: Link先を確認
Lifu Tu, Semih Yavuz, Jin Qu, Jiacheng Xu, Rui Meng, Caiming Xiong, Yingbo Zhou(参考訳) 大規模言語モデル(llm)は、テキスト生成の強力な能力を示している。 しかしながら、与えられたプロンプトや命令で最適な結果を達成することは、特に数十億規模のモデルでは困難である。 さらに、毒性や幻覚などの望ましくない行動が現れることがある。 より大きなモデル(例えばChatGPT)はこれらの問題を緩和する強さを示すかもしれないが、完全な予防の保証はない。 本稿では,望ましくない動作を最小限に抑え,命令に忠実性を持たせるための,将来の制約付き生成問題としてテキスト生成の形式化を提案する。 LLMを用いた将来の制約満足度の推定は、テキスト生成プロセスのガイドとなる。 我々は,キーワード制約付き生成(Lin et al., 2020),毒性低下(Gehman et al., 2020),質問応答における事実的正当性(Gao et al., 2023)の3つの異なるテキスト生成タスクにおいて,提案手法の有効性を実証した。

Large Language Models (LLMs) have demonstrated a powerful ability for text generation. However, achieving optimal results with a given prompt or instruction can be challenging, especially for billion-sized models. Additionally, undesired behaviors such as toxicity or hallucinations can manifest. While much larger models (e.g., ChatGPT) may demonstrate strength in mitigating these issues, there is still no guarantee of complete prevention. In this work, we propose formalizing text generation as a future-constrained generation problem to minimize undesirable behaviors and enforce faithfulness to instructions. The estimation of future constraint satisfaction, accomplished using LLMs, guides the text generation process. Our extensive experiments demonstrate the effectiveness of the proposed approach across three distinct text generation tasks: keyword-constrained generation (Lin et al., 2020), toxicity reduction (Gehman et al., 2020), and factual correctness in question-answering (Gao et al., 2023).
翻訳日:2024-02-21 04:07:41 公開日:2024-02-19
# データフリーメッシュムーバによるより優れたニューラルPDE解法

Better Neural PDE Solvers Through Data-Free Mesh Movers ( http://arxiv.org/abs/2312.05583v2 )

ライセンス: Link先を確認
Peiyan Hu, Yue Wang, Zhi-Ming Ma(参考訳) 近年,物理系モデリングにおける偏微分方程式(PDE)の解法としてニューラルネットワークが広く用いられている。 主要な研究は、事前定義された静的メッシュの離散化に関する学習システムの進化に焦点を当てているが、これらのシステムの動的性質のため、強化学習や教師付き学習技術を用いて適応的および動的メッシュを作成する方法もある。 しかし、これらのアプローチは、(1)高価な最適メッシュデータの必要性、(2)メッシュ精錬中の解空間の自由度とトポロジーの変化の2つの主な課題に直面している。 これらの課題に対処するために,ニューラルネットワークアダプタを用いたニューラルPDEソルバを提案する。 まず、DMM(Data-free Mesh Mover)と呼ばれる新しいデータフリーなニューラルネットワークアダプタを紹介します。 まず、最適なメッシュデータを持たないMonge-Amp\`ere方程式を用いて、ソリューションを適応メッシュにマッピングする演算子である。 次に、ノードやエッジの追加や削除ではなく、既存のノードを移動することで、メッシュを動的に変更する。 理論的解析により、DMMによって生成されたメッシュは最小の補間誤差境界を持つことが示された。 DMMに基づいて、動的システムの効率的かつ正確なモデル化を行うため、移動メッシュを2分岐アーキテクチャで埋め込んだ移動メッシュベースのニューラルPDEソルバ(MM-PDE)と、データ内の情報を保存するための学習可能な補間フレームワークを開発する。 実験により,本手法は適切なメッシュを生成し,広く検討されているPDEシステムのモデル化における精度を大幅に向上することを示した。 コードは、https://github.com/Peiyannn/MM-PDE.gitで参照できる。

Recently, neural networks have been extensively employed to solve partial differential equations (PDEs) in physical system modeling. While major studies focus on learning system evolution on predefined static mesh discretizations, some methods utilize reinforcement learning or supervised learning techniques to create adaptive and dynamic meshes, due to the dynamic nature of these systems. However, these approaches face two primary challenges: (1) the need for expensive optimal mesh data, and (2) the change of the solution space's degree of freedom and topology during mesh refinement. To address these challenges, this paper proposes a neural PDE solver with a neural mesh adapter. To begin with, we introduce a novel data-free neural mesh adaptor, called Data-free Mesh Mover (DMM), with two main innovations. Firstly, it is an operator that maps the solution to adaptive meshes and is trained using the Monge-Amp\`ere equation without optimal mesh data. Secondly, it dynamically changes the mesh by moving existing nodes rather than adding or deleting nodes and edges. Theoretical analysis shows that meshes generated by DMM have the lowest interpolation error bound. Based on DMM, to efficiently and accurately model dynamic systems, we develop a moving mesh based neural PDE solver (MM-PDE) that embeds the moving mesh with a two-branch architecture and a learnable interpolation framework to preserve information within the data. Empirical experiments demonstrate that our method generates suitable meshes and considerably enhances accuracy when modeling widely considered PDE systems. The code can be found at: https://github.com/Peiyannn/MM-PDE.git.
翻訳日:2024-02-21 04:07:04 公開日:2024-02-19
# デノジング拡散変分推論:表現的変分後流としての拡散モデル

Denoising Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors ( http://arxiv.org/abs/2401.02739v2 )

ライセンス: Link先を確認
Top Piriyakulkij, Yingheng Wang, Volodymyr Kuleshov(参考訳) そこで本研究では, 分散モデルに依存する潜在変数モデルに対する近似推論アルゴリズムであるDDVI(Denoising diffusion variational Inference)を提案する。 具体的には,ユーザ特定雑音発生過程を逆転させて潜伏空間内で拡散する補助潜伏変数を持つ近似後続の表現的クラスを導入する。 我々は,wake-sleepアルゴリズムに触発された限界確率の下限を最適化することで,これらのモデルに適合する。 本手法は実装が容易であり(elboの正規化拡張に適合する)、ブラックボックス変分推論と互換性があり、流れの正規化や逆ネットワークに基づく近似後流の代替クラスを上回る。 非可逆なディープ・リカレント・アーキテクチャによるフローベース手法の表現性を高め、逆数的手法の不安定性を回避する。 DDVIは、ヒトゲノムから潜伏する祖先を推定する生物学のモチベーションタスクで使われており、数千のゲノムデータセットの強いベースラインを上回ります。

We propose denoising diffusion variational inference (DDVI), an approximate inference algorithm for latent variable models which relies on diffusion models as flexible variational posteriors. Specifically, our method introduces an expressive class of approximate posteriors with auxiliary latent variables that perform diffusion in latent space by reversing a user-specified noising process. We fit these models by optimizing a lower bound on the marginal likelihood inspired by the wake-sleep algorithm. Our method is easy to implement (it fits a regularized extension of the ELBO), is compatible with black-box variational inference, and outperforms alternative classes of approximate posteriors based on normalizing flows or adversarial networks. It increases the expressivity of flow-based methods via non-invertible deep recurrent architectures and avoids the instability of adversarial methods. We use DDVI on a motivating task in biology -- inferring latent ancestry from human genomes -- and we find that it outperforms strong baselines on the Thousand Genomes dataset.
翻訳日:2024-02-21 03:59:11 公開日:2024-02-19
# 2層ReLUネットワークにおける隠れミニマ

Hidden Minima in Two-Layer ReLU Networks ( http://arxiv.org/abs/2312.16819v2 )

ライセンス: Link先を確認
Yossi Arjevani(参考訳) ターゲットネットワークで生成された$d$~inputs,$k$~neurons,ラベルを持つ2層ReLUネットワークの適合に関する最適化問題を考察する。 最近、$d$あたりの最小値を与える2種類のスプリアスミニマの無限族が発見された。 最初のタイプに属するminimaの損失は$d$が増加するにつれてゼロに収束する。 第2の型では、損失はゼロから切り離されている。 では、後者のタイプに属するミニマを避けるにはどうすればよいのか? 幸いなことに、このようなミニマは標準最適化手法では検出されない。 この現象の性質に関する疑問に動機づけられ,隠れたミニマの特徴的な解析的性質を研究する手法を開発した。 既存の解析によれば、両タイプのヘッセンスペクトルは、modulo $O(d^{-1/2})$-terms と一致している。 したがって, むしろ, 損失が最小化され, 最大化される曲線を考察し, 一般的には接弧と呼ばれる。 我々は、S_d$ の部分群の作用に不変な部分空間の配置に関する明らかに取り除かれた群表現-理論的考察が、作用によって固定された記号に対して$d$ のシンボル上の対称性群であることを示す。 損失関数の一般的な結果から、隠れた極小から生じる弧は、その構造と対称性によって、正確には前の仕事に存在しない$o(d^{-1/2})$-eigenvalue項を考慮して異なることが明らかとなり、特に分析の微妙な性質を示している。 o-最小構造について述べ、証明された理論的結果は、全ての接弧からなる集合が、接弧の数値的構成を可能にするために位相的に十分適していることを示している。

The optimization problem associated to fitting two-layer ReLU networks having $d$~inputs, $k$~neurons, and labels generated by a target network, is considered. Two types of infinite families of spurious minima, giving one minimum per $d$, were recently found. The loss at minima belonging to the first type converges to zero as $d$ increases. In the second type, the loss remains bounded away from zero. That being so, how may one avoid minima belonging to the latter type? Fortunately, such minima are never detected by standard optimization methods. Motivated by questions concerning the nature of this phenomenon, we develop methods to study distinctive analytic properties of hidden minima. By existing analyses, the Hessian spectrum of both types agree modulo $O(d^{-1/2})$-terms -- not promising. Thus, rather, our investigation proceeds by studying curves along which the loss is minimized or maximized, generally referred to as tangency arcs. We prove that apparently far removed group representation-theoretic considerations concerning the arrangement of subspaces invariant to the action of subgroups of $S_d$, the symmetry group over $d$ symbols, relative to ones fixed by the action yield a precise description of all finitely many admissible types of tangency arcs. The general results used for the loss function reveal that arcs emanating from hidden minima differ, characteristically, by their structure and symmetry, precisely on account of the $O(d^{-1/2})$-eigenvalue terms absent in previous work, indicating in particular the subtlety of the analysis. The theoretical results, stated and proved for o-minimal structures, show that the set comprising all tangency arcs is topologically sufficiently tame to enable a numerical construction of tangency arcs and so compare how minima, both types, are positioned relative to adjacent critical points.
翻訳日:2024-02-21 03:57:44 公開日:2024-02-19
# 線形コンテキスト帯域に対するBest-of-Both-Worldsアルゴリズム

Best-of-Both-Worlds Algorithms for Linear Contextual Bandits ( http://arxiv.org/abs/2312.15433v2 )

ライセンス: Link先を確認
Yuko Kuroki, Alberto Rumi, Taira Tsuchiya, Fabio Vitale, Nicol\`o Cesa-Bianchi(参考訳) 両世界のベスト・オブ・ワールドズ・アルゴリズムを$K$武器付き線形文脈包帯に対して検討する。 我々のアルゴリズムは、環境に関する事前の知識なしに、敵対的かつ確率的な体制において、ほぼ最適の後悔境界を提供する。 確率的状態において、多元対数率 $\frac{(dK)^2\mathrm{poly}\log(dKT)}{\Delta_{\min}}$, ここで、$\Delta_{\min}$ は$d$次元の文脈空間上の最小部分最適化ギャップである。 逆系では、一階の $\widetilde{O}(dK\sqrt{L^*})$bound または二階の $\widetilde{O}(dK\sqrt{\Lambda^*})$bound を得る。 さらに, 共分散行列の逆の知識を必要としないシャノンエントロピー正規化器を用いたFTRLに基づくアルゴリズムを開発し, 確率的状態における多対数的後悔を実現するとともに, 逆数的状態において$\widetilde{O}\big(dK\sqrt{T}\big)$ regret boundsを得る。

We study best-of-both-worlds algorithms for $K$-armed linear contextual bandits. Our algorithms deliver near-optimal regret bounds in both the adversarial and stochastic regimes, without prior knowledge about the environment. In the stochastic regime, we achieve the polylogarithmic rate $\frac{(dK)^2\mathrm{poly}\log(dKT)}{\Delta_{\min}}$, where $\Delta_{\min}$ is the minimum suboptimality gap over the $d$-dimensional context space. In the adversarial regime, we obtain either the first-order $\widetilde{O}(dK\sqrt{L^*})$ bound, or the second-order $\widetilde{O}(dK\sqrt{\Lambda^*})$ bound, where $L^*$ is the cumulative loss of the best action and $\Lambda^*$ is a notion of the cumulative second moment for the losses incurred by the algorithm. Moreover, we develop an algorithm based on FTRL with Shannon entropy regularizer that does not require the knowledge of the inverse of the covariance matrix, and achieves a polylogarithmic regret in the stochastic regime while obtaining $\widetilde{O}\big(dK\sqrt{T}\big)$ regret bounds in the adversarial regime.
翻訳日:2024-02-21 03:57:12 公開日:2024-02-19
# 教師の多かれ少なかれ--知識蒸留における三方幾何学の活用

Less or More From Teacher: Exploiting Trilateral Geometry For Knowledge Distillation ( http://arxiv.org/abs/2312.15112v3 )

ライセンス: Link先を確認
Chengming Hu, Haolun Wu, Xuan Li, Chen Ma, Xi Chen, Jun Yan, Boyu Wang, Xue Liu(参考訳) 知識蒸留は、より大きな教師ネットワークからのソフトな監督と地上の真実からのハードな監督を用いて、コンパクトな学生ネットワークを訓練することを目的としている。 しかし、これらの監視信号のバランスをとる最適な知識融合比を決定することは依然として困難である。 従来の方法では、通常、一定のあるいはヒューリスティックな融合比を頼りにしており、しばしば適切なバランスに欠ける。 本研究では,教師と生徒の正当性を生かし,各生徒が各サンプルに対していかにその教師を模倣しているかを生かし,サンプルの知識融合比を学習するための適応的手法を提案する。 本手法は,学生の予測値(S$),教師の予測値(T$),基礎的真理値(G$)の3値内幾何学的関係を自然に導く。 外れ値の影響を均衡させるため、教師のグローバル平均予測$\bar{t}$を同じクラス内のサンプルに組み込むことで、サンプル間関係をさらに拡張する。 単純なニューラルネットワークは、サンプル内およびサンプル間関係から、適応的でサンプル単位の知識融合比への暗黙のマッピングをバイレベル最適化方式で学習する。 我々のアプローチは、様々なアーキテクチャやモデルサイズにまたがって適用可能な、シンプルで実用的で適応可能な知識蒸留ソリューションを提供する。 広範な実験により、画像分類、攻撃検出、クリックスルー率予測において、他の損失再重み付け方法よりも一貫した改善が示されている。

Knowledge distillation aims to train a compact student network using soft supervision from a larger teacher network and hard supervision from ground truths. However, determining an optimal knowledge fusion ratio that balances these supervisory signals remains challenging. Prior methods generally resort to a constant or heuristic-based fusion ratio, which often falls short of a proper balance. In this study, we introduce a novel adaptive method for learning a sample-wise knowledge fusion ratio, exploiting both the correctness of teacher and student, as well as how well the student mimics the teacher on each sample. Our method naturally leads to the intra-sample trilateral geometric relations among the student prediction ($S$), teacher prediction ($T$), and ground truth ($G$). To counterbalance the impact of outliers, we further extend to the inter-sample relations, incorporating the teacher's global average prediction $\bar{T}$ for samples within the same class. A simple neural network then learns the implicit mapping from the intra- and inter-sample relations to an adaptive, sample-wise knowledge fusion ratio in a bilevel-optimization manner. Our approach provides a simple, practical, and adaptable solution for knowledge distillation that can be employed across various architectures and model sizes. Extensive experiments demonstrate consistent improvements over other loss re-weighting methods on image classification, attack detection, and click-through rate prediction.
翻訳日:2024-02-21 03:56:40 公開日:2024-02-19
# 高次統計から効率的に学ぶ:仮説テスト、ランダム特徴、ニューラルネットワーク

Learning from higher-order statistics, efficiently: hypothesis tests, random features, and neural networks ( http://arxiv.org/abs/2312.14922v2 )

ライセンス: Link先を確認
Eszter Sz\'ekely, Lorenzo Bardone, Federica Gerace, Sebastian Goldt(参考訳) ニューラルネットワークは高次元データセットにおける統計的パターンの発見に優れる。 実際、3つ以上の変数間の非ガウス相関を定量化する高次累積は、ニューラルネットワークの性能にとって特に重要である。 しかし、高次累積から特徴を抽出するニューラルネットワークはどの程度効率的か? この質問をスパイク累積モデル(英語版)で研究し、統計学者はd$-次元入力のオーダー-p\ge 4$ cumulantから特権的な方向や「スパイク」を回復する必要がある。 まず,スパイク累積モデルからの入力と等方性ガウス入力の区別に要するサンプル数を解析することにより,スパイク回復の基本統計と計算限界を特徴付ける。 統計的微分可能性には$n\gtrsim d$サンプルが必要であるのに対し、多項式時間における2つの分布を区別するには、幅広い種類のアルゴリズム、すなわち低次予想でカバーされているものに対して$n \gtrsim d^2$サンプルが必要である。 これらの結果は,この問題に広く統計学と計算学のギャップが存在することを示唆している。 数値実験により、ニューラルネットワークは2つの分布を二次的なサンプル複雑性で区別することを学び、ランダムな特徴のような"怠慢"な手法は、この方法でのランダムな推測よりも優れていることが示されている。 その結果、ニューラルネットワークはスパイク累積モデルにおける高次相関から情報を効率的に抽出し、ニューラルネットワークが必要とするデータ量と高次累積モデルから学習するためのランダム特徴のギャップを明らかにする。

Neural networks excel at discovering statistical patterns in high-dimensional data sets. In practice, higher-order cumulants, which quantify the non-Gaussian correlations between three or more variables, are particularly important for the performance of neural networks. But how efficient are neural networks at extracting features from higher-order cumulants? We study this question in the spiked cumulant model, where the statistician needs to recover a privileged direction or "spike" from the order-$p\ge 4$ cumulants of $d$-dimensional inputs. We first characterise the fundamental statistical and computational limits of recovering the spike by analysing the number of samples $n$ required to strongly distinguish between inputs from the spiked cumulant model and isotropic Gaussian inputs. We find that statistical distinguishability requires $n\gtrsim d$ samples, while distinguishing the two distributions in polynomial time requires $n \gtrsim d^2$ samples for a wide class of algorithms, i.e. those covered by the low-degree conjecture. These results suggest the existence of a wide statistical-to-computational gap in this problem. Numerical experiments show that neural networks learn to distinguish the two distributions with quadratic sample complexity, while "lazy" methods like random features are not better than random guessing in this regime. Our results show that neural networks extract information from higher-order correlations in the spiked cumulant model efficiently, and reveal a large gap in the amount of data required by neural networks and random features to learn from higher-order cumulants.
翻訳日:2024-02-21 03:56:14 公開日:2024-02-19
# SIG: Prompt-based generation を用いた文学における話者識別

SIG: Speaker Identification in Literature via Prompt-Based Generation ( http://arxiv.org/abs/2312.14590v2 )

ライセンス: Link先を確認
Zhenlin Su, Liyan Xu, Jin Xu, Jiangnan Li, Mingdu Huangfu(参考訳) 物語における引用の話者を特定することは文学的分析において重要な課題であり、未知の話者に対するドメイン外推論や、周囲の文脈に話者の言及がない非議論的なケースなど、難しいシナリオがある。 本研究では,設計したプロンプトテンプレートに基づいてタスクと引用入力を口頭で表現し,他の補助タスクと容易に統合し,話者識別性能をさらに高めるための簡易かつ効果的な手法であるsigを提案する。 予測はモデルによる直接生成から生じるか、または各話者候補の最大生成確率によって決定される。 我々のアプローチ設計に基づき、SIGはドメイン外評価をサポートし、任意の形式の候補入力を受け入れることができるオープンワールド分類パラダイムを実現する。 我々は,このタスクの最大のデータセットであるPDNCにおいて,クロスドメイン評価とドメイン内評価の両方を行い,SIGがそれまでの複雑な設計のベースラインを上回り,特に難易度のないシナリオでは最大17%改善した。 別のデータセットWPに関する追加実験は、SIGの有効性をさらに裏付ける。

Identifying speakers of quotations in narratives is an important task in literary analysis, with challenging scenarios including the out-of-domain inference for unseen speakers, and non-explicit cases where there are no speaker mentions in surrounding context. In this work, we propose a simple and effective approach SIG, a generation-based method that verbalizes the task and quotation input based on designed prompt templates, which also enables easy integration of other auxiliary tasks that further bolster the speaker identification performance. The prediction can either come from direct generation by the model, or be determined by the highest generation probability of each speaker candidate. Based on our approach design, SIG supports out-of-domain evaluation, and achieves open-world classification paradigm that is able to accept any forms of candidate input. We perform both cross-domain evaluation and in-domain evaluation on PDNC, the largest dataset of this task, where empirical results suggest that SIG outperforms previous baselines of complicated designs, as well as the zero-shot ChatGPT, especially excelling at those hard non-explicit scenarios by up to 17% improvement. Additional experiments on another dataset WP further corroborate the efficacy of SIG.
翻訳日:2024-02-21 03:55:45 公開日:2024-02-19
# 積状態をフィルタリングする効率的な量子アルゴリズム

Efficient Quantum Algorithm for Filtering Product States ( http://arxiv.org/abs/2312.13892v2 )

ライセンス: Link先を確認
Reinis Irmejs, Mari Carmen Ba\~nuls, J. Ignacio Cirac(参考訳) 目標エネルギーで小さなエネルギー分散を持つ状態を効率的に準備する量子アルゴリズムを導入する。 我々は、与えられたエネルギーの積状態を幅$\delta$のローレンツフィルタでフィルタリングすることでそれを達成する。 n$ qubits 上の局所ハミルトニアンが与えられると、基底状態が変数エネルギー分散が $\delta\sqrt{n}$ に比例するフィルター付き積状態に対応する親ハミルトニアンを構成する。 親ハミルトニアンがガッピングされ、その基底状態が断熱的進化を通じて$\mathrm{poly}(n,1/\delta)$ で効率的に実装できることを証明する。 我々は, 特定の非可積分モデルのアルゴリズムを数値的にベンチマークし, システムサイズ$N$に依存しない幅$\delta$でフィルタ状態を作成するための断熱的進化時間を求める。 さらに、断熱進化は回路深さ$\mathcal{O}(N^2\delta^{-4})$で実現できる。 我々のアルゴリズムは、量子シミュレーターにおいて、有限エネルギー状態を直接準備し、任意のエネルギーでマイクロカノニカル特性の近似にアクセスすることによって、多くの身体系の有限エネルギー状態を研究する方法を提供する。

We introduce a quantum algorithm to efficiently prepare states with a small energy variance at the target energy. We achieve it by filtering a product state at the given energy with a Lorentzian filter of width $\delta$. Given a local Hamiltonian on $N$ qubits, we construct a parent Hamiltonian whose ground state corresponds to the filtered product state with variable energy variance proportional to $\delta\sqrt{N}$. We prove that the parent Hamiltonian is gapped and its ground state can be efficiently implemented in $\mathrm{poly}(N,1/\delta)$ time via adiabatic evolution. We numerically benchmark the algorithm for a particular non-integrable model and find that the adiabatic evolution time to prepare the filtered state with a width $\delta$ is independent of the system size $N$. Furthermore, the adiabatic evolution can be implemented with circuit depth $\mathcal{O}(N^2\delta^{-4})$. Our algorithm provides a way to study the finite energy regime of many body systems in quantum simulators by directly preparing a finite energy state, providing access to an approximation of the microcanonical properties at an arbitrary energy.
翻訳日:2024-02-21 03:55:23 公開日:2024-02-19
# 二重摂動型タスクフリー連続学習

Doubly Perturbed Task Free Continual Learning ( http://arxiv.org/abs/2312.13027v2 )

ライセンス: Link先を確認
Byung Hyun Lee, Min-hwan Oh, Se Young Chun(参考訳) タスクフリーオンライン連続学習(TF-CL)は、モデルが明示的なタスク情報なしでタスクを漸進的に学習する難しい問題である。 過去のデータ全体を用いたトレーニングは、現在および未来が金の標準であると考えられているが、TF-CLの現在のサンプルとのナイーブなアプローチは、将来的なサンプルの学習と矛盾し、破滅的な忘れ去られ、可塑性が低下する可能性がある。 これにより、tf-clにおける未発見の将来のサンプルの積極的な考察が必須となる。 この直感に触発されて,将来のサンプルを考慮した新しいTF-CLフレームワークを提案し,入力データと意思決定の両方に対向的摂動を注入することが有効であることを示す。 そこで我々は,これらの入力と意思決定の摂動を効率的に実装するためのDPCL(Douubly Perturbed Continual Learning)という新しい手法を提案する。 具体的には、入力摂動に対して、入力データと特徴ベクトルにノイズを注入し、2つの摂動サンプルを補間する近似摂動法を提案する。 意思決定プロセスの摂動に対して、複数の確率的分類器を考案する。 また,提案する二重摂動を反映したメモリ管理方式と学習率スケジューリングについて検討した。 提案手法は,TF-CLベンチマークにおいて,最先端のベースライン手法よりも高い性能を示す。

Task Free online continual learning (TF-CL) is a challenging problem where the model incrementally learns tasks without explicit task information. Although training with entire data from the past, present as well as future is considered as the gold standard, naive approaches in TF-CL with the current samples may be conflicted with learning with samples in the future, leading to catastrophic forgetting and poor plasticity. Thus, a proactive consideration of an unseen future sample in TF-CL becomes imperative. Motivated by this intuition, we propose a novel TF-CL framework considering future samples and show that injecting adversarial perturbations on both input data and decision-making is effective. Then, we propose a novel method named Doubly Perturbed Continual Learning (DPCL) to efficiently implement these input and decision-making perturbations. Specifically, for input perturbation, we propose an approximate perturbation method that injects noise into the input data as well as the feature vector and then interpolates the two perturbed samples. For decision-making process perturbation, we devise multiple stochastic classifiers. We also investigate a memory management scheme and learning rate scheduling reflecting our proposed double perturbations. We demonstrate that our proposed method outperforms the state-of-the-art baseline methods by large margins on various TF-CL benchmarks.
翻訳日:2024-02-21 03:53:52 公開日:2024-02-19
# アンダーダム型Langevin Monte Carloによる近似トンプソンサンプリングの高速化

Accelerating Approximate Thompson Sampling with Underdamped Langevin Monte Carlo ( http://arxiv.org/abs/2401.11665v2 )

ライセンス: Link先を確認
Haoyang Zheng, Wei Deng, Christian Moya, Guang Lin(参考訳) ランゲヴィン・モンテカルロによる近似トンプソンサンプリングは、ガウス後部サンプリングからより一般的な滑らかな後部サンプリングの範囲を広げる。 しかし、高い精度を必要とする場合、高次元問題ではスケーラビリティの問題に遭遇する。 そこで本研究では, 損傷の少ないランジュバンモンテカルロを用いて, 高次元後頭部のシミュレーションにgo-toワークホースを用いた近似トンプソンサンプリング手法を提案する。 標準の滑らかさと対数凹凸条件に基づいて, 加速後部濃度とサンプリングを特定のポテンシャル関数を用いて検討した。 この設計は、対数的後悔を$\mathcal{\tilde o}(d)$ から$\mathcal{\tilde o}(\sqrt{d})$ に実現するためのサンプルの複雑さを改善する。 このアルゴリズムのスケーラビリティと堅牢性は,高次元バンディット問題における合成実験を通じて実証的に検証される。

Approximate Thompson sampling with Langevin Monte Carlo broadens its reach from Gaussian posterior sampling to encompass more general smooth posteriors. However, it still encounters scalability issues in high-dimensional problems when demanding high accuracy. To address this, we propose an approximate Thompson sampling strategy, utilizing underdamped Langevin Monte Carlo, where the latter is the go-to workhorse for simulations of high-dimensional posteriors. Based on the standard smoothness and log-concavity conditions, we study the accelerated posterior concentration and sampling using a specific potential function. This design improves the sample complexity for realizing logarithmic regrets from $\mathcal{\tilde O}(d)$ to $\mathcal{\tilde O}(\sqrt{d})$. The scalability and robustness of our algorithm are also empirically validated through synthetic experiments in high-dimensional bandit problems.
翻訳日:2024-02-21 03:46:18 公開日:2024-02-19
# 機械学習とオントロジーを組み合わせる: 体系的な文献レビュー

Combining Machine Learning and Ontology: A Systematic Literature Review ( http://arxiv.org/abs/2401.07744v2 )

ライセンス: Link先を確認
Sarah Ghidalia, Ouassila Labbani Narsis, Aur\'elie Bertaux, Christophe Nicolle(参考訳) 帰納的推論と帰納的推論を組み合わせる過程を探求する目的で,我々は,機械学習とオントロジーの統合を調査する論文の体系的な文献レビューを行った。 目的は、インダクティブ推論(機械学習によって実行される)とインダクティブ推論(オントロジーによって実行される)の両方を人工知能システムに組み込む多様なテクニックを同定することであった。 128の研究の分析を含むレビューでは、マシンラーニングとオントロジーのハイブリダイゼーションの3つの主なカテゴリ、すなわち、学習を強調したオントロジー、セマンティックデータマイニング、学習と推論システムの識別を可能にした。 これらすべてのカテゴリを包括的に検討し,研究で活用されている各種機械学習アルゴリズムを強調する。 さらに、我々の分類を、ハイブリッドAIとニューロシンボリックアプローチの分野での同様の研究と比較した。

Motivated by the desire to explore the process of combining inductive and deductive reasoning, we conducted a systematic literature review of articles that investigate the integration of machine learning and ontologies. The objective was to identify diverse techniques that incorporate both inductive reasoning (performed by machine learning) and deductive reasoning (performed by ontologies) into artificial intelligence systems. Our review, which included the analysis of 128 studies, allowed us to identify three main categories of hybridization between machine learning and ontologies: learning-enhanced ontologies, semantic data mining, and learning and reasoning systems. We provide a comprehensive examination of all these categories, emphasizing the various machine learning algorithms utilized in the studies. Furthermore, we compared our classification with similar recent work in the field of hybrid AI and neuro-symbolic approaches.
翻訳日:2024-02-21 03:45:18 公開日:2024-02-19
# スパース報酬を超えて:テキスト生成における言語モデル批判による強化学習の強化

Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation ( http://arxiv.org/abs/2401.07382v2 )

ライセンス: Link先を確認
Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, Lei Meng(参考訳) 強化学習(rl)は、言語モデルを人間の好みなど、区別できない報酬信号に合わせることができる。 しかしながら、これらの報酬信号のスパース性から生じる大きな課題は、通常、アウトプット全体に対して単一の報酬しかありません。 この報酬の幅は非効率で不安定な学習につながる可能性がある。 この課題に対処するため,本稿では,大規模言語モデル(LLM)の批判的能力を利用して,RLトレーニング中に中間段階の報酬を生成する新しいフレームワークを提案する。 本手法では,政策モデルと批判言語モデルを結合し,出力の各部分に対する総合的なフィードバックを提供する。 このフィードバックはトークンやスパンレベルの報酬に変換され、RLトレーニングプロセスのガイドに使用することができる。 我々は、ポリシーモデルが小さく、より強力な批判モデルと組み合わせられるものと、単一の言語モデルが両方の役割を担っているという2つの異なる設定の下でこのアプローチを調査した。 我々は,感情制御,言語モデルのデトックス化,要約という3つのテキスト生成タスクに対するアプローチを評価する。 実験の結果, 人工内因性報酬の導入は, 自動評価と人的評価の両面から, サンプル効率と政策モデル全体の性能を著しく向上させることがわかった。

Reinforcement learning (RL) can align language models with non-differentiable reward signals, such as human preferences. However, a major challenge arises from the sparsity of these reward signals - typically, there is only a single reward for an entire output. This sparsity of rewards can lead to inefficient and unstable learning. To address this challenge, our paper introduces an novel framework that utilizes the critique capability of Large Language Models (LLMs) to produce intermediate-step rewards during RL training. Our method involves coupling a policy model with a critic language model, which is responsible for providing comprehensive feedback of each part of the output. This feedback is then translated into token or span-level rewards that can be used to guide the RL training process. We investigate this approach under two different settings: one where the policy model is smaller and is paired with a more powerful critic model, and another where a single language model fulfills both roles. We assess our approach on three text generation tasks: sentiment control, language model detoxification, and summarization. Experimental results show that incorporating artificial intrinsic rewards significantly improve both sample efficiency and the overall performance of the policy model, supported by both automatic and human evaluation.
翻訳日:2024-02-21 03:45:03 公開日:2024-02-19
# EU法における生成AI - 責任、プライバシ、知的財産権、サイバーセキュリティ

Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity ( http://arxiv.org/abs/2401.07348v2 )

ライセンス: Link先を確認
Claudio Novelli, Federico Casolari, Philipp Hacker, Giorgio Spedicato, Luciano Floridi(参考訳) 生成AIの出現、特にChatGPTとその後継者のような大規模言語モデル(LLM)を通じて、AIの世界におけるパラダイムシフトを象徴する。 高度なLCMはマルチモーダリティを示し、多様なデータフォーマットを扱い、アプリケーションの範囲を広げる。 しかし、これらのモデルの複雑さと創発的な自律性は、予測可能性と法的コンプライアンスの課題をもたらす。 本稿では、欧州連合の文脈におけるジェネレーティブAIとLLMの法的および規制的な意味を掘り下げ、責任、プライバシー、知的財産権、サイバーセキュリティの側面を分析する。 人工知能法(AIA)の草案を含む、既存のおよび提案されたEUの法律の妥当性を批判的に検証し、ジェネレーティブAIの一般的な問題、特にLLMの課題に対処する。 本稿は、立法枠組みにおける潜在的なギャップと欠点を特定し、生成モデルの安全かつコンプライアンスの確保と、EUの進化するデジタルランドスケープと法的基準との整合性を確保するための勧告を提案する。

The advent of Generative AI, particularly through Large Language Models (LLMs) like ChatGPT and its successors, marks a paradigm shift in the AI landscape. Advanced LLMs exhibit multimodality, handling diverse data formats, thereby broadening their application scope. However, the complexity and emergent autonomy of these models introduce challenges in predictability and legal compliance. This paper delves into the legal and regulatory implications of Generative AI and LLMs in the European Union context, analyzing aspects of liability, privacy, intellectual property, and cybersecurity. It critically examines the adequacy of the existing and proposed EU legislation, including the Artificial Intelligence Act (AIA) draft, in addressing the unique challenges posed by Generative AI in general and LLMs in particular. The paper identifies potential gaps and shortcomings in the legislative framework and proposes recommendations to ensure the safe and compliant deployment of generative models, ensuring they align with the EU's evolving digital landscape and legal standards.
翻訳日:2024-02-21 03:44:39 公開日:2024-02-19
# グラフ言語モデル

Graph Language Models ( http://arxiv.org/abs/2401.07105v2 )

ライセンス: Link先を確認
Moritz Plenz, Anette Frank(参考訳) 言語モデル(LM)はNLPのワークホースであるが、構造化知識グラフ(KG)との相互作用は現在も活発に研究されている。 そのようなグラフを典型的に符号化する現在の方法 (i)構造情報を不活用するLMを埋め込むためのリニア化、又は (ii)グラフ構造を保存するためにグラフニューラルネットワーク(GNN)を使用するが、GNNは事前訓練されたLMだけでなく、テキストの特徴を表現できない。 本研究では,両アプローチの強みを統合し,その弱さを軽減する新しいLM型であるグラフ言語モデル(GLM)を紹介した。 GLMパラメータは、事前訓練されたLMから初期化され、個々のグラフ概念やトリプレットの理解を深める。 同時に、グラフバイアスを取り入れたGLMアーキテクチャを設計し、グラフ内の効果的な知識分布を促進する。 これにより、GLMはグラフ、テキスト、および両方のインターリーブされた入力を処理することができる。 関係分類タスクの実証評価により, GLM埋め込みは, 教師付きおよびゼロショット設定において, LMベースラインとGNNベースベースラインの両方を超え, 汎用性を示している。

While Language Models (LMs) are the workhorses of NLP, their interplay with structured knowledge graphs (KGs) is still actively researched. Current methods for encoding such graphs typically either (i) linearize them for embedding with LMs -- which underutilize structural information, or (ii) use Graph Neural Networks (GNNs) to preserve the graph structure -- but GNNs cannot represent text features as well as pretrained LMs. In our work we introduce a novel LM type, the Graph Language Model (GLM), that integrates the strengths of both approaches and mitigates their weaknesses. The GLM parameters are initialized from a pretrained LM to enhance understanding of individual graph concepts and triplets. Simultaneously, we design the GLM's architecture to incorporate graph biases, thereby promoting effective knowledge distribution within the graph. This enables GLMs to process graphs, texts, and interleaved inputs of both. Empirical evaluations on relation classification tasks show that GLM embeddings surpass both LM- and GNN-based baselines in supervised and zero-shot setting, demonstrating their versatility.
翻訳日:2024-02-21 03:44:21 公開日:2024-02-19
# inters: インストラクションチューニングによる検索における大規模言語モデルのパワーアンロック

INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning ( http://arxiv.org/abs/2401.06532v2 )

ライセンス: Link先を確認
Yutao Zhu, Peitian Zhang, Chenghao Zhang, Yifei Chen, Binyu Xie, Zhicheng Dou, Zheng Liu, and Ji-Rong Wen(参考訳) 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて印象的な能力を示している。 それにもかかわらず、情報検索(IR)タスクへの適用は、自然言語における多くのIR固有の概念が頻繁に発生するため、依然として困難である。 プロンプトベースのメソッドは llms にタスク記述を提供するが、ir タスクの包括的理解と実行を容易にするため、llms の適用性が制限されることが多い。 このギャップに対処するため、本研究では、IRタスクにおけるLLMの習熟度を高めるための命令チューニングの可能性を探る。 我々は,クエリ理解,文書理解,クエリドキュメント関係理解という3つの基本的なIRカテゴリにまたがる20のタスクを含む,新しい命令チューニングデータセット InterS を導入する。 データは、手書きのテンプレートを持つ43の異なるデータセットから導出される。 実験結果から、IRタスクにおいて、InterSはLLaMA、Mistral、Phiといった様々な公開LLMの性能を大幅に向上させることが明らかとなった。 さらに, 命令設計, テンプレートの多様性, 少数のデモ, 命令の量による性能への影響を解析するために, 広範囲にわたる実験を行った。 データセットと微調整されたモデルは、~\url{https://github.com/daod/inters}で公開できます。

Large language models (LLMs) have demonstrated impressive capabilities in various natural language processing tasks. Despite this, their application to information retrieval (IR) tasks is still challenging due to the infrequent occurrence of many IR-specific concepts in natural language. While prompt-based methods can provide task descriptions to LLMs, they often fall short in facilitating a comprehensive understanding and execution of IR tasks, thereby limiting LLMs' applicability. To address this gap, in this work, we explore the potential of instruction tuning to enhance LLMs' proficiency in IR tasks. We introduce a novel instruction tuning dataset, INTERS, encompassing 20 tasks across three fundamental IR categories: query understanding, document understanding, and query-document relationship understanding. The data are derived from 43 distinct datasets with manually written templates. Our empirical results reveal that INTERS significantly boosts the performance of various publicly available LLMs, such as LLaMA, Mistral, and Phi, in IR tasks. Furthermore, we conduct extensive experiments to analyze the effects of instruction design, template diversity, few-shot demonstrations, and the volume of instructions on performance. We make our dataset and the fine-tuned models publicly accessible at~\url{https://github.com/DaoD/INTERS}.
翻訳日:2024-02-21 03:43:30 公開日:2024-02-19
# 知識蒸留におけるパラメータ選択の影響に関する実証的研究

An Empirical Investigation into the Effect of Parameter Choices in Knowledge Distillation ( http://arxiv.org/abs/2401.06356v2 )

ライセンス: Link先を確認
Md Arafat Sultan, Aashka Trivedi, Parul Awasthy, Avirup Sil(参考訳) 本稿では,知識蒸留(kd)におけるコンフィグレーションパラメータの選択が性能に与える影響に関する大規模実証研究を行う。 そのようなkdパラメータの例としては、教師と生徒の予測の間の距離の測定があり、平均二乗誤差 (mse) と kl-ダイバージェンス (kl-divergence) を含む一般的な選択がある。 このような選択肢の違いを理解するために散在的な努力がなされているが、kd文学は学生のパフォーマンスに対する一般的な影響に関する体系的な研究をいまだに欠いている。 本論文では,4つのNLPタスクと3つの学生サイズから,13のデータセットにおいて,これらの選択が学生のパフォーマンスにどの程度影響するかを調査する。 最適以下の選択を行うことのコストを定量化し、ボード全体でうまく機能する単一の構成を特定する。

We present a large-scale empirical study of how choices of configuration parameters affect performance in knowledge distillation (KD). An example of such a KD parameter is the measure of distance between the predictions of the teacher and the student, common choices for which include the mean squared error (MSE) and the KL-divergence. Although scattered efforts have been made to understand the differences between such options, the KD literature still lacks a systematic study on their general effect on student performance. We take an empirical approach to this question in this paper, seeking to find out the extent to which such choices influence student performance across 13 datasets from 4 NLP tasks and 3 student sizes. We quantify the cost of making sub-optimal choices and identify a single configuration that performs well across the board.
翻訳日:2024-02-21 03:43:11 公開日:2024-02-19
# k-support normによる反復正規化:スパース回復の重要な補完

Iterative Regularization with k-support Norm: An Important Complement to Sparse Recovery ( http://arxiv.org/abs/2401.05394v3 )

ライセンス: Link先を確認
William de Vazelhes, Bhaskar Mukhoty, Xiao-Tong Yuan, Bin Gu(参考訳) スパースリカバリは機械学習と信号処理においてユビキタスである。 スパースリカバリのNPハードの性質のため、既存の手法は制限的(あるいは未知の)適用条件や高い計算コストに悩まされていることが知られている。 近年, 反復正規化手法は, 従来手法で用いられてきた面倒なグリッド探索よりも, 早い停止時間でスパースリカバリを達成できるため, 有望な高速手法として出現している。 しかし、これらの反復的メソッドのほとんどは、制限的な適用性条件を必要とする$\ell_1$ノルムに基づいており、多くの場合失敗する可能性がある。 そのため、より広い条件下で反復正則化法を用いてスパースリカバリを実現することは、まだ研究されていない。 この問題に対処するために、$\ell_1$標準ではなく$k$サポート標準正規化器に基づく新しい反復正規化アルゴリズムIRKSNを提案する。 IRKSNを用いてスパースリカバリ条件を提供し、従来のリカバリ条件と$\ell_1$標準正規化器を比較した。 さらに,irksnのモデル誤差に対する初期停止条件を明示定数で与え,スパース回復のための標準線形率を達成する。 最後に,提案手法をいくつかの実験に適用し,関連する設計行列を用いた支援リカバリ実験を行った。

Sparse recovery is ubiquitous in machine learning and signal processing. Due to the NP-hard nature of sparse recovery, existing methods are known to suffer either from restrictive (or even unknown) applicability conditions, or high computational cost. Recently, iterative regularization methods have emerged as a promising fast approach because they can achieve sparse recovery in one pass through early stopping, rather than the tedious grid-search used in the traditional methods. However, most of those iterative methods are based on the $\ell_1$ norm which requires restrictive applicability conditions and could fail in many cases. Therefore, achieving sparse recovery with iterative regularization methods under a wider range of conditions has yet to be further explored. To address this issue, we propose a novel iterative regularization algorithm, IRKSN, based on the $k$-support norm regularizer rather than the $\ell_1$ norm. We provide conditions for sparse recovery with IRKSN, and compare them with traditional conditions for recovery with $\ell_1$ norm regularizers. Additionally, we give an early stopping bound on the model error of IRKSN with explicit constants, achieving the standard linear rate for sparse recovery. Finally, we illustrate the applicability of our algorithm on several experiments, including a support recovery experiment with a correlated design matrix.
翻訳日:2024-02-21 03:42:37 公開日:2024-02-19
# AdvMT:長期人体動作予測のための対向運動変換器

AdvMT: Adversarial Motion Transformer for Long-term Human Motion Prediction ( http://arxiv.org/abs/2401.05018v2 )

ライセンス: Link先を確認
Sarmad Idrees, Jongeun Choi, Seokman Sohn(参考訳) ロボットと人間とのシームレスな協調を共有環境で実現し、将来の人間の動きを正確に予測することが重要である。 人間の動き予測は伝統的にシーケンス予測問題としてアプローチされ、過去の人間の動きデータを利用して将来のポーズを推定してきた。 バニラリカレントネットワークから始まった研究コミュニティは、グラフベースおよび生成的アプローチを含む、人間の運動力学を学習するための様々な方法を調査してきた。 これらの努力にもかかわらず、正確な長期的な予測を達成することは依然として大きな課題である。 本稿では,変換器を用いた動きエンコーダと時間連続性判別器を統合した新しいモデルであるAdvMTを提案する。 この組み合わせは、フレーム内の空間的および時間的依存性を効果的に捉える。 逆行訓練では,予測の不要な成果物を効果的に削減し,より現実的で流動的な人間の動作の学習を確実にする。 評価結果は,AdvMTが長期予測の精度を大幅に向上するとともに,堅牢な短期予測を実現することを示す。

To achieve seamless collaboration between robots and humans in a shared environment, accurately predicting future human movements is essential. Human motion prediction has traditionally been approached as a sequence prediction problem, leveraging historical human motion data to estimate future poses. Beginning with vanilla recurrent networks, the research community has investigated a variety of methods for learning human motion dynamics, encompassing graph-based and generative approaches. Despite these efforts, achieving accurate long-term predictions continues to be a significant challenge. In this regard, we present the Adversarial Motion Transformer (AdvMT), a novel model that integrates a transformer-based motion encoder and a temporal continuity discriminator. This combination effectively captures spatial and temporal dependencies simultaneously within frames. With adversarial training, our method effectively reduces the unwanted artifacts in predictions, thereby ensuring the learning of more realistic and fluid human motions. The evaluation results indicate that AdvMT greatly enhances the accuracy of long-term predictions while also delivering robust short-term predictions
翻訳日:2024-02-21 03:42:13 公開日:2024-02-19
# aiメンターとしての人間 : 安全かつ効率的な自動運転のための強化強化学習

Human as AI Mentor: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving ( http://arxiv.org/abs/2401.03160v3 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen(参考訳) 自動運転車(AV)の大幅な進歩にもかかわらず、AVの安全性と交通流効率を両立させる運転ポリシーの開発はまだ完全には検討されていない。 本稿では,複合交通小隊における安全かつ効率的な自律運転を支援するAIメンターベース深部強化学習(Human-in-the-loop reinforcement learning,HAIM-DRL)フレームワークを提案する。 人間の学習プロセスからインスピレーションを得て、まず、人間の知性をAIに効果的に注入する革新的な学習パラダイムを導入します。 このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能する。 エージェントが不確実な環境を十分に探索できる一方で、人間の専門家は危険な状況で制御し、潜在的な事故を避けるための正しい行動を示すことができる。 一方, エージェントは交通流の乱れを最小限に抑え, 交通流効率の最適化を図ることができる。 HAIM-DRLは、自由探索と部分的な人間のデモンストレーションから収集したデータを2つのトレーニングソースとして活用している。 我々は報酬関数を手動で設計する複雑なプロセスを回避し、代わりにエージェントの政策学習を導くために、部分的な人間のデモンストレーションから状態-行動値を直接導出する。 さらに,人間のメンターの認知負荷を軽減するために,最小限の介入技術を用いる。 その結果, HAIM-DRLは, 運転安全, サンプリング効率, 交通流障害の緩和, 交通シナリオの一般化において, 従来の手法よりも優れていた。 この論文のコードとデモビデオは、https://zilin-huang.github.io/HAIM-DRL-website/でアクセスできます。

Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents' policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor's cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/
翻訳日:2024-02-21 03:41:54 公開日:2024-02-19
# 基準に基づくメトリクスを超えて:データ-テキスト生成におけるオープンLLMの挙動の解析

Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on Data-to-Text Generation ( http://arxiv.org/abs/2401.10186v2 )

ライセンス: Link先を確認
Zden\v{e}k Kasner, Ond\v{r}ej Du\v{s}ek(参考訳) 構造化データからコヒーレントで関連するテキストを生成するD2T(Data-to-text)生成タスクにおいて,オープンな大規模言語モデル(LLM)の振る舞いを分析する。 標準ベンチマークによるLLMトレーニングデータの汚染を回避するため,公開APIから新たな構造化データレコードを収集するQuintdを設計した。 Quintdで収集したデータセットを用いて,5つのD2T生成タスクにおけるモデル挙動を分析する。 近年のオープンLLM(Llama2,Mistral,Zephyr)は,標準データフォーマットからゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。 しかし、GPT-4に基づく計量と人間のアノテータの両方によれば、オープンLLMの出力の80%以上は意味的誤りを含んでいる。 コード、データ、モデル出力を公開しています。

We analyze the behaviors of open large language models (LLMs) on the task of data-to-text (D2T) generation, i.e., generating coherent and relevant text from structured data. To avoid the issue of LLM training data contamination with standard benchmarks, we design Quintd - a tool for collecting novel structured data records from public APIs. Using a dataset collected with Quintd and leveraging reference-free evaluation, we analyze model behaviors on five D2T generation tasks. We find that recent open LLMs (Llama2, Mistral, and Zephyr) can generate fluent and coherent text from standard data formats in zero-shot settings. However, we also show that the semantic accuracy of the outputs is a major issue: both according to our GPT-4-based metric and human annotators, more than 80% of the outputs of open LLMs contain a semantic error. We publicly release the code, data, and model outputs.
翻訳日:2024-02-21 03:32:40 公開日:2024-02-19
# AGI Summitから遠く離れた推論のクイックサンドに見る:オントロジー誘導によるLLMの数学的および符号化能力の評価

Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions ( http://arxiv.org/abs/2401.09395v2 )

ライセンス: Link先を確認
Pengfei Hong, Deepanway Ghosal, Navonil Majumder, Somak Aditya, Rada Mihalcea, Soujanya Poria(参考訳) 近年のLLM(Large Language Models)の進歩は、既存の論理的推論ベンチマークにおいて顕著な結果を示しており、一部のモデルは人的性能を超えている。 しかしながら、タスクの推論における彼らの能力と堅牢性の真の深さは、未解決の問題である。 そこで本稿では,算術推論とコード生成という2つの一般的な推論タスクに注目した。 特に 紹介します (i)数学やコーディングの問題に対する摂動の一般的なオントロジー。 (二)これらの摂動を適用する半自動法及び (iii)数値推論と符号化タスクにおけるllm能力の限界を調査するために、摂動算数と符号化問題の2つのデータセット、 more と core 。 オープンソース LLM とオープンソース LLM の総合的な評価を通じて,すべてのモデルにおいて,難解な問題に対する大幅な性能低下が見られ,現在の LLM には,オントロジーで定義されたような,堅牢な問題解決スキルと構造化推論能力が欠如していることが示唆された。 データセットとソースコードは、https://github.com/declare-lab/llm_robustnessでオープンソース化しています。

Recent advancements in Large Language Models (LLMs) have showcased striking results on existing logical reasoning benchmarks, with some models even surpassing human performance. However, the true depth of their competencies and robustness in reasoning tasks remains an open question. To this end, in this paper, we focus on two popular reasoning tasks: arithmetic reasoning and code generation. Particularly, we introduce: (i) a general ontology of perturbations for maths and coding questions, (ii) a semi-automatic method to apply these perturbations, and (iii) two datasets, MORE and CORE, respectively, of perturbed maths and coding problems to probe the limits of LLM capabilities in numeric reasoning and coding tasks. Through comprehensive evaluations of both closed-source and open-source LLMs, we show a significant performance drop across all the models against the perturbed questions, suggesting that the current LLMs lack robust problem solving skills and structured reasoning abilities in many areas, as defined by our ontology. We open source the datasets and source codes at: https://github.com/declare-lab/llm_robustness.
翻訳日:2024-02-21 03:31:06 公開日:2024-02-19
# 病理組織学における画像検索について

On Image Search in Histopathology ( http://arxiv.org/abs/2401.08699v2 )

ライセンス: Link先を確認
H.R. Tizhoosh, Liron Pantanowitz(参考訳) 病理組織像は、カメラ付き顕微鏡またはスライドスキャナ全体から得ることができる。 これらの画像に基づく類似度計算を利用して患者をマッチングすることは、研究や臨床の文脈において有意な可能性を秘めている。 近年の検索技術の進歩により、様々な組織タイプにまたがる細胞構造の微妙な定量化が可能となり、診断、予後、新しい患者の予測を診断および治療された患者のデータベースと比較できる。 本稿では,組織病理学における画像検索技術の最近の進歩を総合的に概観し,効率的な画像検索法を求める計算病理学研究者のための簡潔な概要を提供する。

Pathology images of histopathology can be acquired from camera-mounted microscopes or whole slide scanners. Utilizing similarity calculations to match patients based on these images holds significant potential in research and clinical contexts. Recent advancements in search technologies allow for nuanced quantification of cellular structures across diverse tissue types, facilitating comparisons and enabling inferences about diagnosis, prognosis, and predictions for new patients when compared against a curated database of diagnosed and treated cases. In this paper, we comprehensively review the latest developments in image search technologies for histopathology, offering a concise overview tailored for computational pathology researchers seeking effective, fast and efficient image search methods in their work.
翻訳日:2024-02-21 03:29:59 公開日:2024-02-19
# doraemongpt: 大規模言語モデルによる動的シーンの理解に向けて

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models ( http://arxiv.org/abs/2401.08392v2 )

ライセンス: Link先を確認
Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang(参考訳) 最近のllm駆動のビジュアルエージェントは、主に画像ベースのタスクの解決にフォーカスしており、ダイナミックなシーンを理解する能力が制限されている。 ビデオのモダリティは、現実のシナリオの変わらずの性質を反映しているので、動的ビデオタスクを扱うためにLLMによって駆動される包括的で概念的にエレガントなシステムであるDoraemonGPTを考案する。 質問/タスクのあるビデオの場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。 この構造化表現は、よく設計されたサブタスクツールによる時空間クエリと推論を可能にし、簡潔な中間結果をもたらす。 特殊なドメイン(実験の基礎となる科学原理の分析など)に関して、LLMには内部知識が限られていることを認識し、外部知識を評価し、異なるドメインにわたるタスクに対処するためのプラグアンドプレイツールを組み込む。 さらに,モンテカルロ木探索に基づく新しいLCM型プランナを導入し,様々なツールをスケジューリングするための大規模計画空間を探索する。 プランナーは、結果の報酬をバックプロパゲートすることで実現可能な解決策を反復的に見つけ、複数のソリューションを改善された最終回答にまとめることができる。 3つのベンチマークでDoraemonGPTの有効性を広く評価した。 コードは、https://github.com/z-x-yang/DoraemonGPTでリリースされる。

Recent LLM-driven visual agents mainly focus on solving image-based tasks, which limits their ability to understand dynamic scenes, making it far from real-life applications like guiding students in laboratory experiments and identifying their mistakes. Considering the video modality better reflects the ever-changing nature of real-world scenarios, we devise DoraemonGPT, a comprehensive and conceptually elegant system driven by LLMs to handle dynamic video tasks. Given a video with a question/task, DoraemonGPT begins by converting the input video into a symbolic memory that stores task-related attributes. This structured representation allows for spatial-temporal querying and reasoning by well-designed sub-task tools, resulting in concise intermediate results. Recognizing that LLMs have limited internal knowledge when it comes to specialized domains (e.g., analyzing the scientific principles underlying experiments), we incorporate plug-and-play tools to assess external knowledge and address tasks across different domains. Moreover, a novel LLM-driven planner based on Monte Carlo Tree Search is introduced to explore the large planning space for scheduling various tools. The planner iteratively finds feasible solutions by backpropagating the result's reward, and multiple solutions can be summarized into an improved final answer. We extensively evaluate DoraemonGPT's effectiveness on three benchmarks and challenging in-the-wild scenarios. Code will be released at: https://github.com/z-x-yang/DoraemonGPT.
翻訳日:2024-02-21 03:29:47 公開日:2024-02-19
# lanegraph2seq:頂点エッジエンコーディングと接続強化による言語モデルによるレーントポロジー抽出

LaneGraph2Seq: Lane Topology Extraction with Language Model via Vertex-Edge Encoding and Connectivity Enhancement ( http://arxiv.org/abs/2401.17609v2 )

ライセンス: Link先を確認
Renyuan Peng, Xinyue Cai, Hang Xu, Jiachen Lu, Feng Wen, Wei Zhang, Li Zhang(参考訳) 道路構造を理解することは自動運転にとって不可欠である。 複雑な道路構造は、中心線曲線やDAG(Directed Acyclic Graph)を形成する接続を含むレーングラフを用いて描かれることが多い。 レーングラフの正確な抽出は、DAG内の頂点とエッジ情報を正確に推定することに依存する。 最近の研究はトランスフォーマーに基づく言語モデルの印象的なシーケンス予測能力を強調し、グラフデータをシーケンスとしてエンコードする際のグラフ表現の学習に有効である。 しかし、既存の研究は主に頂点を明示的にモデル化することに焦点を当てており、エッジ情報は単にネットワークに埋め込まれている。 したがって、これらのアプローチはレーングラフ抽出のタスクでは不足する。 これを解決するために、レーングラフ抽出の新しいアプローチであるLaneGraph2Seqを紹介する。 頂点エッジエンコーディングと接続強化を備えた言語モデルを活用する。 我々のシリアライズ戦略は、頂点中心の深度優先トラバーサルと簡潔なエッジベースパーティションシーケンスを含む。 さらに,レーン接続性を改善するために,分類器フリーガイダンスと核サンプリングを併用する。 提案手法を,有意なデータセット,nuScenes,Argoverse 2で検証し,一貫性と説得力のある結果を示した。 lanegraph2seqアプローチは,レーングラフ抽出における最先端技術と比較して優れた性能を示す。

Understanding road structures is crucial for autonomous driving. Intricate road structures are often depicted using lane graphs, which include centerline curves and connections forming a Directed Acyclic Graph (DAG). Accurate extraction of lane graphs relies on precisely estimating vertex and edge information within the DAG. Recent research highlights Transformer-based language models' impressive sequence prediction abilities, making them effective for learning graph representations when graph data are encoded as sequences. However, existing studies focus mainly on modeling vertices explicitly, leaving edge information simply embedded in the network. Consequently, these approaches fall short in the task of lane graph extraction. To address this, we introduce LaneGraph2Seq, a novel approach for lane graph extraction. It leverages a language model with vertex-edge encoding and connectivity enhancement. Our serialization strategy includes a vertex-centric depth-first traversal and a concise edge-based partition sequence. Additionally, we use classifier-free guidance combined with nucleus sampling to improve lane connectivity. We validate our method on prominent datasets, nuScenes and Argoverse 2, showcasing consistent and compelling results. Our LaneGraph2Seq approach demonstrates superior performance compared to state-of-the-art techniques in lane graph extraction.
翻訳日:2024-02-21 03:21:33 公開日:2024-02-19
# マフィンかチワワか? マルチパネルVQAを用いた大規模視野モデルの構築

Muffin or Chihuahua? Challenging Large Vision-Language Models with Multipanel VQA ( http://arxiv.org/abs/2401.15847v2 )

ライセンス: Link先を確認
Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang(参考訳) ウェブスクリーンショットやポスターとしてよく見られるマルチパネル画像は、私たちの日常生活に浸透します。 これらの画像は、異なるレイアウトで複数のサブフィギュアを構成することで特徴づけられ、効果的に人々に情報を伝える。 複雑なシーンを理解し、Webページをナビゲートするエージェントなど、高度なマルチモーダルAIアプリケーションを構築するためには、マルチパネル・ビジュアル推論のスキルが不可欠であり、この点におけるモデルの包括的な評価が重要である。 そこで本研究では,6,600個の質問,回答,マルチパネル画像からなる新しいベンチマークであるMultipanel Visual Question Answering(MultipanelVQA)を導入する。 評価の結果,MultipanelVQAベンチマークの質問は,現在最先端のLVLM(Large Vision Language Models)テストに重大な課題をもたらすことがわかった。 比例的に、MultipanelVQAベンチマークは、LVLMのマルチパネルイメージ理解能力に対するレイアウトなどの様々な要因の影響を分離し評価するために特別に作られた、合成されたマルチパネルイメージを備えている。 その結果、マルチパネル画像の理解におけるLVLMの能力のベンチマークに加えて、LVLMの性能の潜在的な原因を分析し、合成データによる強化のための洞察を提供する。 コードとデータはhttps://sites.google.com/view/multipanelvqa/homeでリリースされる。

Multipanel images, commonly seen as web screenshots, posters, etc., pervade our daily lives. These images, characterized by their composition of multiple subfigures in distinct layouts, effectively convey information to people. Toward building advanced multimodal AI applications, such as agents that understand complex scenes and navigate through webpages, the skill of multipanel visual reasoning is essential, and a comprehensive evaluation of models in this regard is important. Therefore, we introduce Multipanel Visual Question Answering (MultipanelVQA), a novel benchmark comprising 6,600 triplets of questions, answers, and multipanel images that specifically challenge models in comprehending multipanel images. Our evaluation shows that questions in the MultipanelVQA benchmark pose significant challenges to the state-of-the-art Large Vision Language Models (LVLMs) tested, even though humans can attain approximately 99\% accuracy on these questions. Distinctively, the MultipanelVQA benchmark features synthetically generated multipanel images specifically crafted to isolate and assess the impact of various factors, such as the layout, on LVLMs' multipanel image comprehension abilities. As a result, in addition to benchmarking the capabilities of LVLMs in understanding multipanel images, we analyze the potential causes for LVLMs' performance and offer insights for enhancement with the synthetic data. Code and data are released at https://sites.google.com/view/multipanelvqa/home.
翻訳日:2024-02-21 03:21:14 公開日:2024-02-19
# RecDCL:レコメンデーションのためのデュアルコントラスト学習

RecDCL: Dual Contrastive Learning for Recommendation ( http://arxiv.org/abs/2401.15635v2 )

ライセンス: Link先を確認
Dan Zhang and Yangliao Geng and Wenwen Gong and Zhongang Qi and Zhiyu Chen and Xing Tang and Ying Shan and Yuxiao Dong and Jie Tang(参考訳) 自己教師付き学習(SSL)は、最近、協調フィルタリングのためのユーザ-イテムインタラクションのマイニングで大きな成功を収めた。 主要なパラダイムとして、CL(Contrative Learning)ベースのSSLは、生データと拡張データの埋め込みを対比することにより、Webプラットフォームのデータの疎さに対処するのに役立つ。 しかし、既存のCLベースのメソッドは主にバッチ的にコントラストに重点を置いており、機能次元の潜在的な規則性を活用できない。 これは、ユーザとアイテムの表現学習において、冗長なソリューションにつながる。 本研究では,バッチワイズCL (BCL) と機能ワイズCL (FCL) を併用する方法を検討する。 理論的にはBCLとFCLの関係を解析し、BCLとFCLを組み合わせることで冗長な解を排除できるが、最適解を見逃すことはない。 本稿では、RecDCLという2つの対比学習推薦フレームワークを提案する。 RecDCLでは、ユーザとイテムの正のペアに対する冗長な解を排除し、表現を直交する多項式カーネルを用いてユーザとアイテム内の均一な分布を最適化するために設計されており、BCLの目的は出力ベクトルにコントラスト的な埋め込みを生成して表現の堅牢性を高める。 広く使用されている4つのベンチマークと1つの業界データセットに関する大規模な実験は、RecDCLが最先端のGNNとSSLベースのモデル(Recall@20で最大5.65\%の改善)を一貫して上回っていることを示している。 ソースコードは公開されている(https://github.com/THUDM/RecDCL)。

Self-supervised learning (SSL) has recently achieved great success in mining the user-item interactions for collaborative filtering. As a major paradigm, contrastive learning (CL) based SSL helps address data sparsity in Web platforms by contrasting the embeddings between raw and augmented data. However, existing CL-based methods mostly focus on contrasting in a batch-wise way, failing to exploit potential regularity in the feature dimension. This leads to redundant solutions during the representation learning of users and items. In this work, we investigate how to employ both batch-wise CL (BCL) and feature-wise CL (FCL) for recommendation. We theoretically analyze the relation between BCL and FCL, and find that combining BCL and FCL helps eliminate redundant solutions but never misses an optimal solution. We propose a dual contrastive learning recommendation framework -- RecDCL. In RecDCL, the FCL objective is designed to eliminate redundant solutions on user-item positive pairs and to optimize the uniform distributions within users and items using a polynomial kernel for driving the representations to be orthogonal; The BCL objective is utilized to generate contrastive embeddings on output vectors for enhancing the robustness of the representations. Extensive experiments on four widely-used benchmarks and one industry dataset demonstrate that RecDCL can consistently outperform the state-of-the-art GNNs-based and SSL-based models (with an improvement of up to 5.65\% in terms of Recall@20). The source code is publicly available (https://github.com/THUDM/RecDCL).
翻訳日:2024-02-21 03:20:46 公開日:2024-02-19
# グループ化データを用いた単一パラメータパレート分布の末尾指数のロバスト推定

Robust Estimation of the Tail Index of a Single Parameter Pareto Distribution from Grouped Data ( http://arxiv.org/abs/2401.14593v3 )

ライセンス: Link先を確認
Chudamani Poudyal(参考訳) 多くの頑健な推定器は、完全に観測された基底損失重度サンプルデータセットが利用可能である場合に、最大極大推定器(MLE)の代替として存在する。 しかしながら、mle のロバストな代替案の選択肢は、最小二乗法、最小ヘリング距離法、最適有界影響関数などの一握りの方法だけで、グループ化された損失重大データを扱う場合、大幅に制限される。 本稿では,グループ化データからパレート分布のテール指標を推定するために,新しいロバストな推定手法である断続モーメント法(mtum)を提案する。 MTuMの推論正当性は、中心極限定理を用いて、包括的なシミュレーション研究を通じて検証することによって確立される。

Numerous robust estimators exist as alternatives to the maximum likelihood estimator (MLE) when a completely observed ground-up loss severity sample dataset is available. However, the options for robust alternatives to MLE become significantly limited when dealing with grouped loss severity data, with only a handful of methods like least squares, minimum Hellinger distance, and optimal bounded influence function available. This paper introduces a novel robust estimation technique, the Method of Truncated Moments (MTuM), specifically designed to estimate the tail index of a Pareto distribution from grouped data. Inferential justification of MTuM is established by employing the central limit theorem and validating them through a comprehensive simulation study.
翻訳日:2024-02-21 03:19:41 公開日:2024-02-19
# 単一分布分類モデルによる食品画像中の複数の成分の認識

Recognizing Multiple Ingredients in Food Images Using a Single-Ingredient Classification Model ( http://arxiv.org/abs/2401.14579v3 )

ライセンス: Link先を確認
Kun Fu, and Ying Dai(参考訳) 食品画像の認識には,調理方法や切断方法の異なる食材の空間配置や形状の変化など,独特の課題がある。 本研究では,食品画像から区切られた成分を認識するための高度なアプローチを提案する。 この方法は、位置決めおよびスライドウィンドウ技術を用いて、成分の候補領域をローカライズする。 次に、これらの領域をcnn(convolutional neural network)ベースの単一冗長分類モデルを用いて、単一冗長画像のデータセット上でトレーニングされた成分クラスに割り当てる。 マルチingredient recognitionにおける処理速度の課題に対処するために,分類モデルの効率を向上させる新しいモデルプルーニング法を提案する。 その後、2つの新しいアルゴリズムを組み込んだ意思決定スキームによって、多元的識別を実現する。 New Food Ingredients List FOODS 2021" という本に従って設計された単一独立画像データセットは、110の多様なカテゴリにわたる9982のイメージを含み、材料形状の多様性を強調している。 さらに,本手法の性能評価を行うために,多言語画像データセットを開発した。 実験により, 本手法の有効性, 特に複数の成分の認識能力の向上が示された。 これは食品画像分析の分野で重要な進歩を示している。

Recognizing food images presents unique challenges due to the variable spatial layout and shape changes of ingredients with different cooking and cutting methods. This study introduces an advanced approach for recognizing ingredients segmented from food images. The method localizes the candidate regions of the ingredients using the locating and sliding window techniques. Then, these regions are assigned into ingredient classes using a CNN (Convolutional Neural Network)-based single-ingredient classification model trained on a dataset of single-ingredient images. To address the challenge of processing speed in multi-ingredient recognition, a novel model pruning method is proposed that enhances the efficiency of the classification model. Subsequently, the multi-ingredient identification is achieved through a decision-making scheme, incorporating two novel algorithms. The single-ingredient image dataset, designed in accordance with the book entitled "New Food Ingredients List FOODS 2021", encompasses 9982 images across 110 diverse categories, emphasizing variety in ingredient shapes. In addition, a multi-ingredient image dataset is developed to rigorously evaluate the performance of our approach. Experimental results validate the effectiveness of our method, particularly highlighting its improved capability in recognizing multiple ingredients. This marks a significant advancement in the field of food image analysis.
翻訳日:2024-02-21 03:19:25 公開日:2024-02-19
# 感情検出とタスク指向対話モデリングへの統一的アプローチ

A Unified Approach to Emotion Detection and Task-Oriented Dialogue Modeling ( http://arxiv.org/abs/2401.13789v2 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek(参考訳) 現在のテキストベースのタスク指向対話(TOD)システムでは、ユーザ感情検出(ED)はしばしば見過ごされるか、通常は独立したタスクとして扱われ、追加のトレーニングを必要とする。 対照的に、我々の研究は、EDとTODモデリングをシームレスに統一することは相互に利益をもたらし、従って考慮すべき代替手段であることを示す。 本手法は,単一言語モデルに頼って,信念状態追跡をEDを含むように拡張することで,エンドツーエンドTODシステムであるSimpleToDを拡張することからなる。 我々は感情を付加したMultiWOZのバージョンであるEmoWOZベンチマークにおいて,GPT-2とLlama-2を用いたアプローチを評価した。 本結果から,EDとタスク結果の総合的な性能向上が明らかとなった。 また,ユーザの感情がシステム応答に有用な文脈条件付けを提供し,共感の観点からさらなる応答の洗練に活用できることが示唆された。

In current text-based task-oriented dialogue (TOD) systems, user emotion detection (ED) is often overlooked or is typically treated as a separate and independent task, requiring additional training. In contrast, our work demonstrates that seamlessly unifying ED and TOD modeling brings about mutual benefits, and is therefore an alternative to be considered. Our method consists in augmenting SimpleToD, an end-to-end TOD system, by extending belief state tracking to include ED, relying on a single language model. We evaluate our approach using GPT-2 and Llama-2 on the EmoWOZ benchmark, a version of MultiWOZ annotated with emotions. Our results reveal a general increase in performance for ED and task results. Our findings also indicate that user emotions provide useful contextual conditioning for system responses, and can be leveraged to further refine responses in terms of empathy.
翻訳日:2024-02-21 03:19:04 公開日:2024-02-19
# ソフトウェアセキュリティの保証

Guarantees in Software Security ( http://arxiv.org/abs/2402.01944v2 )

ライセンス: Link先を確認
Marcel B\"ohme(参考訳) ソフトウェアシステムのセキュリティに関する一般的なアプローチをレビューし、それらが提供する保証を反映する。 我々は,保証の提供に向けた基本的な課題の分類を紹介し,これらの課題が,バグがないという信頼できる保証にもかかわらず,システムを攻撃するために日常的に活用されている方法について論じる。 現在の推論システムの欠陥を特定し、研究し、認識するのは、将来、効果的な緩和戦略を開発することができるときだけです。 そこで我々は,この10年におけるソフトウェアセキュリティの課題に取り組むことを目標とする研究プログラムを,ついに提案する。

We review general approaches to reason about the security of a software system and reflect upon the guarantees they provide. We introduce a taxonomy of fundamental challenges towards the provision of guarantees, and discuss how these challenges are routinely exploited to attack a system in spite of credible assurances about the absence of such bugs. It is only when we identify, study, and acknowledge the flaws in our current reasoning systems today that we can develop effective mitigation strategies in the future. To this end, we finally propose a research programme whose goal it is to tackle the software security challenges of this decade.
翻訳日:2024-02-21 03:09:26 公開日:2024-02-19
# 因果エントロピーの基本特性と情報ゲイン

Fundamental Properties of Causal Entropy and Information Gain ( http://arxiv.org/abs/2402.01341v2 )

ライセンス: Link先を確認
Francisco N. F. Q. Simoes, Mehdi Dastani, Thijs van Ommen(参考訳) 近年の進歩は、構造因果モデル(SCM)が与えられた因果制御の定量化を可能にする。 これはある変数のエントロピーの変化を他の変数にインターベンションする際にエンコードする量を導入することで達成されている。 因果的エントロピーと因果的情報ゲインと名付けられたこれらの尺度は、因果性が重要な役割を果たす機械学習タスクに対する既存の情報理論的アプローチの限界に対処することを目的としている。 数学的にはまだ研究されていない。 本研究は,これらの概念の基本的性質を確立・解析することにより,因果エントロピーの概念と因果情報獲得の形式的理解に寄与する。 さらに,因果エントロピーと確率的介入の関係を明らかにする。 また,因果条件エントロピーと因果条件情報ゲインの定義を提案する。 この調査は、因果性を考慮した情報理論量の研究を通じて、因果的機械学習タスクの強化を図っている。

Recent developments enable the quantification of causal control given a structural causal model (SCM). This has been accomplished by introducing quantities which encode changes in the entropy of one variable when intervening on another. These measures, named causal entropy and causal information gain, aim to address limitations in existing information theoretical approaches for machine learning tasks where causality plays a crucial role. They have not yet been properly mathematically studied. Our research contributes to the formal understanding of the notions of causal entropy and causal information gain by establishing and analyzing fundamental properties of these concepts, including bounds and chain rules. Furthermore, we elucidate the relationship between causal entropy and stochastic interventions. We also propose definitions for causal conditional entropy and causal conditional information gain. Overall, this exploration paves the way for enhancing causal machine learning tasks through the study of recently-proposed information theoretic quantities grounded in considerations about causality.
翻訳日:2024-02-21 03:08:17 公開日:2024-02-19
# caphuman: 平行宇宙であなたの瞬間を捉える

CapHuman: Capture Your Moments in Parallel Universes ( http://arxiv.org/abs/2402.00627v2 )

ライセンス: Link先を確認
Chao Liang, Fan Ma, Linchao Zhu, Yingying Deng, Yi Yang(参考訳) 我々は,1つの参照顔写真のみを前提として,多様な頭部位置,ポーズ,表情,照明の異なる個々の画像を生成することを期待する,新しい人中心画像合成タスクに焦点をあてる。 この目的を達成するためには,(1)基本的対象と人間のイメージ生成のための世界と人間社会の視覚的かつセマンティックな理解の強化,という望ましい特性を,当社のジェネレーティブモデルが得るべきである,と論じる。 2) 汎用的なアイデンティティ保存能力。 (3) 柔軟できめ細かい頭部制御。 近年,テキストから画像への大規模拡散モデルが注目され,強力な生成基盤となっている。 基礎として、事前学習モデルの上記の2つの能力を解き放つことを目的としている。 本稿では,CapHumanという新しいフレームワークを提案する。 推論における煩雑なチューニングを伴わずに、新しい個人に対する汎用的なアイデンティティ保存を可能にする「エンコード・アラーム・アライメント」パラダイムを取り入れている。 CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。 さらに,モデルに人間の頭部を柔軟かつ3D一貫性のある方法で制御させる前に3D顔を導入する。 広汎な質的および定量的分析により、CapHumanは、確立されたベースラインよりも優れた、コンテンツに富んだ表現と様々なヘッドリディングを備えた、保存された、フォトリアリスティック、高忠実な肖像画を作成できることを示した。 コードとチェックポイントはhttps://github.com/vamosc/caphumanでリリースされる。

We concentrate on a novel human-centric image synthesis task, that is, given only one reference facial photograph, it is expected to generate specific individual images with diverse head positions, poses, facial expressions, and illuminations in different contexts. To accomplish this goal, we argue that our generative model should be capable of the following favorable characteristics: (1) a strong visual and semantic understanding of our world and human society for basic object and human image generation. (2) generalizable identity preservation ability. (3) flexible and fine-grained head control. Recently, large pre-trained text-to-image diffusion models have shown remarkable results, serving as a powerful generative foundation. As a basis, we aim to unleash the above two capabilities of the pre-trained model. In this work, we present a new framework named CapHuman. We embrace the "encode then learn to align" paradigm, which enables generalizable identity preservation for new individuals without cumbersome tuning at inference. CapHuman encodes identity features and then learns to align them into the latent space. Moreover, we introduce the 3D facial prior to equip our model with control over the human head in a flexible and 3D-consistent manner. Extensive qualitative and quantitative analyses demonstrate our CapHuman can produce well-identity-preserved, photo-realistic, and high-fidelity portraits with content-rich representations and various head renditions, superior to established baselines. Code and checkpoint will be released at https://github.com/VamosC/CapHuman.
翻訳日:2024-02-21 03:07:38 公開日:2024-02-19
# CRUD-RAG:大規模言語モデルの検索強化のための総合的な中国語ベンチマーク

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2401.17043v2 )

ライセンス: Link先を確認
Yuanjie Lyu, Zhiyu Li, Simin Niu, Feiyu Xiong, Bo Tang, Wenjin Wang, Hao Wu, Huanyong Liu, Tong Xu, Enhong Chen, Yi Luo, Peng Cheng, Haiying Deng, Zhonghao Wang, Zijia Lu(参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。 この方法は、古い情報や不正確な「ハロゲン化」コンテンツを生成する傾向を含む、一般的なLCM制限に対処する。 しかしながら、既存のベンチマークはスコープと多様性に制限があるため、RAGシステムの評価は困難である。 現在のベンチマークのほとんどは質問応答アプリケーションを評価しており、ragが有利であることを証明できる幅広い状況を見渡している。 さらに,実験におけるragパイプラインのllmコンポーネントの性能評価のみを行い,検索コンポーネントと外部知識データベースの影響を無視した。 これらの課題に対処するため,大規模で包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。 具体的には、RAGアプリケーションの範囲を4つの異なるタイプ(Create、Read、Update、Delete(CRUD))に分類しました。 create"は、オリジナルで多様なコンテンツを生成する必要があるシナリオを指す。 読み」とは知識集約的な状況において複雑な質問に答えることである。 アップデート」は、既存のテキストにおける不正確さや矛盾の修正と修正に焦点を当てている。 『削除』は、広義のテキストをより簡潔な形式に要約する作業である。 これらのCRUDカテゴリごとに、RAGシステムの性能を評価するための包括的なデータセットを開発しました。 また,レトリバー,コンテキスト長,知識ベース構築,LLMなど,RAGシステムの様々な構成要素の影響も分析する。 最後に、rag技術をさまざまなシナリオに最適化するための有用な洞察を提供する。

Retrieval-Augmented Generation (RAG) is a technique that enhances the capabilities of large language models (LLMs) by incorporating external knowledge sources. This method addresses common LLM limitations, including outdated information and the tendency to produce inaccurate "hallucinated" content. However, the evaluation of RAG systems is challenging, as existing benchmarks are limited in scope and diversity. Most of the current benchmarks predominantly assess question-answering applications, overlooking the broader spectrum of situations where RAG could prove advantageous. Moreover, they only evaluate the performance of the LLM component of the RAG pipeline in the experiments, and neglect the influence of the retrieval component and the external knowledge database. To address these issues, this paper constructs a large-scale and more comprehensive benchmark, and evaluates all the components of RAG systems in various RAG application scenarios. Specifically, we have categorized the range of RAG applications into four distinct types-Create, Read, Update, and Delete (CRUD), each representing a unique use case. "Create" refers to scenarios requiring the generation of original, varied content. "Read" involves responding to intricate questions in knowledge-intensive situations. "Update" focuses on revising and rectifying inaccuracies or inconsistencies in pre-existing texts. "Delete" pertains to the task of summarizing extensive texts into more concise forms. For each of these CRUD categories, we have developed comprehensive datasets to evaluate the performance of RAG systems. We also analyze the effects of various components of the RAG system, such as the retriever, the context length, the knowledge base construction, and the LLM. Finally, we provide useful insights for optimizing the RAG technology for different scenarios.
翻訳日:2024-02-21 03:07:11 公開日:2024-02-19
# AIの監視と人間のミス - 中央裁判所による証拠

AI Oversight and Human Mistakes: Evidence from Centre Court ( http://arxiv.org/abs/2401.16754v2 )

ライセンス: Link先を確認
David Almog, Romain Gauriot, Lionel Page, Daniel Martin(参考訳) 機械学習アルゴリズムの予測能力の増大によって、人工知能(AI)システムは、多くの環境で人間のミスを克服するために使われ始めている。 我々は、このAIが人間の意思決定に影響を及ぼす心理的コストを負っていることを示す最初の現場証拠を提供する。 我々は、トップテニストーナメントにおける審判のHawk-Eyeレビューにおいて、AIが監視した最も高い視界設定の一つを調査した。 審判は、AIに圧倒される心理的コストを考慮し、合理的な不注意を伴って、ホークアイレビュー導入後の全体的な誤り率を下げた。 また, 審判員は, ボールの呼び出し頻度を増大させ, タイプIIのエラー(イン時にボールを呼び出す)からタイプIのエラー(アウト時にボールを呼び出す)へのシフトを引き起こした。 我々は、合理的な意図しない審判員のモデルを用いて、AIによって引き起こされる心理的コストを構造的に推定し、その結果、審判員はAI監督下でタイプIIのエラーについて2倍の注意を払っていたことを示唆した。

Powered by the increasing predictive capabilities of machine learning algorithms, artificial intelligence (AI) systems have begun to be used to overrule human mistakes in many settings. We provide the first field evidence this AI oversight carries psychological costs that can impact human decision-making. We investigate one of the highest visibility settings in which AI oversight has occurred: the Hawk-Eye review of umpires in top tennis tournaments. We find that umpires lowered their overall mistake rate after the introduction of Hawk-Eye review, in line with rational inattention given psychological costs of being overruled by AI. We also find that umpires increased the rate at which they called balls in, which produced a shift from making Type II errors (calling a ball out when in) to Type I errors (calling a ball in when out). We structurally estimate the psychological costs of being overruled by AI using a model of rational inattentive umpires, and our results suggest that because of these costs, umpires cared twice as much about Type II errors under AI oversight.
翻訳日:2024-02-21 03:06:47 公開日:2024-02-19
# パウリ基底における行列積状態による非安定化性

Nonstabilizerness via matrix product states in the Pauli basis ( http://arxiv.org/abs/2401.16498v2 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, Mari Carmen Ba\~nuls, Marcello Dalmonte(参考訳) 非安定化性(nonstabilizerness)は「マジック」としても知られ、量子コンピューティングにおける潜在的な利点を達成する上で重要な資源である。 その多体物理現象との結びつきは、主に大規模に計算する実用的な方法が欠如していることから、現時点では理解されていない。 本稿では, 行列積状態(MPS)の枠組み内での非安定化性を評価するための新しい手法を提案する。 我々のフレームワークは、安定化器R'enyiエントロピー、安定化器ヌルティ、ベルマジックなど、様々な非安定化器性の尺度を効率的に計算する強力なツールを提供し、MPSの安定化器群の学習を可能にする。 我々はIsing と XXZ スピン鎖の基底状態や、最近Rydberg 原子配列で実現された回路力学において、我々の方法の有効性と汎用性を示し、そこでは、既に実現された2倍の大きさの論理量子ビットに関する将来の実験のための具体的なベンチマークを提供する。

Nonstabilizerness, also known as ``magic'', stands as a crucial resource for achieving a potential advantage in quantum computing. Its connection to many-body physical phenomena is poorly understood at present, mostly due to a lack of practical methods to compute it at large scales. We present a novel approach for the evaluation of nonstabilizerness within the framework of matrix product states (MPS), based on expressing the MPS directly in the Pauli basis. Our framework provides a powerful tool for efficiently calculating various measures of nonstabilizerness, including stabilizer R\'enyi entropies, stabilizer nullity, and Bell magic, and enables the learning of the stabilizer group of an MPS. We showcase the efficacy and versatility of our method in the ground states of Ising and XXZ spin chains, as well as in circuits dynamics that has recently been realized in Rydberg atom arrays, where we provide concrete benchmarks for future experiments on logical qubits up to twice the sizes already realized.
翻訳日:2024-02-21 03:05:59 公開日:2024-02-19
# ゲートアダプタを用いた分類・検索のための効果的な制御可能なバイアス緩和

Effective Controllable Bias Mitigation for Classification and Retrieval using Gate Adapters ( http://arxiv.org/abs/2401.16457v2 )

ライセンス: Link先を確認
Shahed Masoudian, Cornelia Volaucnik, Markus Schedl, Navid Rekabsaz(参考訳) 言語モデルのバイアス緩和は、オンデマンドデバイアスのためのアダプタのような別々のモジュールを学ぶことに最近焦点をあてた多くの研究のトピックとなっている。 モジュラー化デバイアスモデルの最適化に加えて、例えば検索結果における所望のパフォーマンス-公正トレードオフを調整したり、分類タスクにおけるデバイアスの強度を制御したりするために、推論時間におけるバイアス低減の度合いを制御することがしばしば重要である。 本稿では,モデルの偏り状態から完全に偏りのあるバージョンへの段階的な遷移を可能にする,感度パラメータを調節可能なモジュール型ゲーティング機構である controllable gate adapter (congater) を提案する。 本研究は,(1)4つの保護属性を持つ3つの分類タスクにおいて,3つの異なるモデルを用いた敵対的デバイアス実験を行い,(2)フェアネスリストワイズ正則化による検索結果のバイアスを低減し,パフォーマンスとフェアネス指標のトレードオフを調整可能にすることで,コンガター性能を実証する。 分類タスクに関する実験では,同じ口径のベースラインと比較して,属性に関する情報を少ないまま高いタスク性能を維持することができた。 検索タスクの結果,完全偏りのあるコンガターは,最近の強力なベースラインよりも2倍以上高いタスク性能を維持しながら,同一のフェアネス性能を達成できることがわかった。 全体として、強力なパフォーマンスに加えて、ConGaterはモデルのバイアス状態とバイアス状態の連続的な遷移を可能にし、可制御性を通じて使用のパーソナライズと解釈可能性を高める。

Bias mitigation of Language Models has been the topic of many studies with a recent focus on learning separate modules like adapters for on-demand debiasing. Besides optimizing for a modularized debiased model, it is often critical in practice to control the degree of bias reduction at inference time, e.g., in order to tune for a desired performance-fairness trade-off in search results or to control the strength of debiasing in classification tasks. In this paper, we introduce Controllable Gate Adapter (ConGater), a novel modular gating mechanism with adjustable sensitivity parameters, which allows for a gradual transition from the biased state of the model to the fully debiased version at inference time. We demonstrate ConGater performance by (1) conducting adversarial debiasing experiments with three different models on three classification tasks with four protected attributes, and (2) reducing the bias of search results through fairness list-wise regularization to enable adjusting a trade-off between performance and fairness metrics. Our experiments on the classification tasks show that compared to baselines of the same caliber, ConGater can maintain higher task performance while containing less information regarding the attributes. Our results on the retrieval task show that the fully debiased ConGater can achieve the same fairness performance while maintaining more than twice as high task performance than recent strong baselines. Overall, besides strong performance ConGater enables the continuous transitioning between biased and debiased states of models, enhancing personalization of use and interpretability through controllability.
翻訳日:2024-02-21 03:05:40 公開日:2024-02-19
# 順列型重みマッチングによる線形モード接続の解析

Analysis of Linear Mode Connectivity via Permutation-Based Weight Matching ( http://arxiv.org/abs/2402.04051v2 )

ライセンス: Link先を確認
Akira Ito, Masanori Yamada, Atsutoshi Kumagai(参考訳) 近年、Ainsworthらは、モデルパラメータの置換探索において、重量マッチング(WM)を用いて$L_2$距離を最小にするため、線形モード接続(LMC)を満たす置換を効果的に同定し、異なる種を持つ2つの独立に訓練されたモデル間の線形経路の損失がほぼ一定であることを示した。 本稿では,WMを用いたLCCの理論解析を行い,確率勾配降下の有効性とモデルマージなどの分野への応用について考察する。 まず,WM が検出した置換が 2 つのモデル間の距離を著しく減少させるわけではなく,LCC の発生は WM 自体の距離減少によるものではないことを実験的に理論的に示す。 次に、置換が各層における重み行列の特異ベクトルの方向を変えることができるが、特異値ではないことを示す理論的洞察を与える。 この発見は、WM によって発見された置換が、主にモデル全体の大きな特異値に付随する特異ベクトルの方向と一致していることを示している。 このアライメントにより、モデル機能を決定する特異ベクトルは、事前マージされたモデルと後マージされたモデルの間により近いため、後マージされたモデルは、事前マージされたモデルと同様の機能を保持し、lmcを満足させるのが容易となる。 最後に、データセット依存の置換探索法であるWMとストレートスルー推定器(STE)の違いを分析し、特に3つ以上のモデルを統合する場合、WMがSTEより優れていることを示す。

Recently, Ainsworth et al. showed that using weight matching (WM) to minimize the $L_2$ distance in a permutation search of model parameters effectively identifies permutations that satisfy linear mode connectivity (LMC), in which the loss along a linear path between two independently trained models with different seeds remains nearly constant. This paper provides a theoretical analysis of LMC using WM, which is crucial for understanding stochastic gradient descent's effectiveness and its application in areas like model merging. We first experimentally and theoretically show that permutations found by WM do not significantly reduce the $L_2$ distance between two models and the occurrence of LMC is not merely due to distance reduction by WM in itself. We then provide theoretical insights showing that permutations can change the directions of the singular vectors, but not the singular values, of the weight matrices in each layer. This finding shows that permutations found by WM mainly align the directions of singular vectors associated with large singular values across models. This alignment brings the singular vectors with large singular values, which determine the model functionality, closer between pre-merged and post-merged models, so that the post-merged model retains functionality similar to the pre-merged models, making it easy to satisfy LMC. Finally, we analyze the difference between WM and straight-through estimator (STE), a dataset-dependent permutation search method, and show that WM outperforms STE, especially when merging three or more models.
翻訳日:2024-02-21 02:56:59 公開日:2024-02-19
# IDE開発静的コンテキストのネイティブ統合によるLCMベースのコーディングツールの強化

Enhancing LLM-Based Coding Tools through Native Integration of IDE-Derived Static Context ( http://arxiv.org/abs/2402.03630v2 )

ライセンス: Link先を確認
Yichen Li and Yun Peng and Yintong Huo and Michael R. Lyu(参考訳) 大規模言語モデル(LLM)は、Copilotのようなコードアシスタントサービスの開発において重要な役割を担っていることが証明されている。 ファイル内のコンテキストでトレーニングされているため、現在のllmは単一のソースファイルのコード補完に非常に有効である。 しかし、クロスファイル情報を必要とする大規模なソフトウェアプロジェクトに対して、リポジトリレベルのコード補完を行うことは困難である。 LLMベースのリポジトリレベルのコード補完に関する既存の研究は、ファイル間のコンテキストを特定し統合するが、LLMの低い精度と限られたコンテキスト長に悩まされている。 本稿では,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できることを論じる。 我々は,IDEネイティブな静的コンテキストをクロスコンテキスト構築や自己修正のための診断結果に活用する,実践的なフレームワークであるIDECoderを提案する。 IDECoderは、リポジトリレベルのコード補完のLLMの機能を強化するために、IDEで利用可能なリッチなコンテキスト情報を利用する。 我々はIDECoderの性能を検証するための予備実験を行い、この相乗効果が今後の探索に有望な傾向を示すことを観察した。

Large Language Models (LLMs) have achieved remarkable success in code completion, as evidenced by their essential roles in developing code assistant services such as Copilot. Being trained on in-file contexts, current LLMs are quite effective in completing code for single source files. However, it is challenging for them to conduct repository-level code completion for large software projects that require cross-file information. Existing research on LLM-based repository-level code completion identifies and integrates cross-file contexts, but it suffers from low accuracy and limited context length of LLMs. In this paper, we argue that Integrated Development Environments (IDEs) can provide direct, accurate and real-time cross-file information for repository-level code completion. We propose IDECoder, a practical framework that leverages IDE native static contexts for cross-context construction and diagnosis results for self-refinement. IDECoder utilizes the rich cross-context information available in IDEs to enhance the capabilities of LLMs of repository-level code completion. We conducted preliminary experiments to validate the performance of IDECoder and observed that this synergy represents a promising trend for future exploration.
翻訳日:2024-02-21 02:56:27 公開日:2024-02-19
# グラフ削減に関する包括的調査:スペース化, 粗化, 凝縮

A Comprehensive Survey on Graph Reduction: Sparsification, Coarsening, and Condensation ( http://arxiv.org/abs/2402.03358v3 )

ライセンス: Link先を確認
Mohammad Hashemi, Shengbo Gong, Juntong Ni, Wenqi Fan, B. Aditya Prakash, Wei Jin(参考訳) 多くの現実世界のデータセットは、自然にグラフとして表現でき、幅広いドメインにまたがる。 しかしながら、グラフデータセットの複雑さとサイズの増加は、分析と計算に重大な課題をもたらす。 これに対し、グラフの縮小技術は、重要な性質を保ちながら、大きなグラフを単純化するために有名になった。 本研究では,グラフ分割,グラフ粗さ化,グラフ凝縮など,グラフ縮小法を包括的に理解することを目的とする。 具体的には,これらの手法の統一的な定義を確立し,それらの課題を分類するための階層的分類法を導入する。 次に,これらの手法の技術的詳細を体系的にレビューし,様々なシナリオにまたがる実践的応用を強調する。 さらに,グラフ削減手法の継続的な有効性を確保するための重要な研究の方向性を概説するとともに, https://github.com/ChandlerBang/awesome-graph-reductionで包括的な論文リストを提供する。 この調査が文学のギャップを橋渡し、この有望な分野の進展を促すことを期待している。

Many real-world datasets can be naturally represented as graphs, spanning a wide range of domains. However, the increasing complexity and size of graph datasets present significant challenges for analysis and computation. In response, graph reduction techniques have gained prominence for simplifying large graphs while preserving essential properties. In this survey, we aim to provide a comprehensive understanding of graph reduction methods, including graph sparsification, graph coarsening, and graph condensation. Specifically, we establish a unified definition for these methods and introduce a hierarchical taxonomy to categorize the challenges they address. Our survey then systematically reviews the technical details of these methods and emphasizes their practical applications across diverse scenarios. Furthermore, we outline critical research directions to ensure the continued effectiveness of graph reduction techniques, as well as provide a comprehensive paper list at https://github.com/ChandlerBang/awesome-graph-reduction. We hope this survey will bridge literature gaps and propel the advancement of this promising field.
翻訳日:2024-02-21 02:55:53 公開日:2024-02-19
# テキスト誘導型画像クラスタリング

Text-Guided Image Clustering ( http://arxiv.org/abs/2402.02996v2 )

ライセンス: Link先を確認
Andreas Stephan, Lukas Miklautz, Kevin Sidak, Jan Philip Wahle, Bela Gipp, Claudia Plant, Benjamin Roth(参考訳) 画像クラスタリングは、画像の集合を有意義なグループに分割する。 これらは通常、テキストの形式で、画像クラスタリングの抽象化としてテキストを使用するという疑問を提起する。 しかし、現在の画像クラスタリング手法は、生成されたテキスト記述の使用を無視している。 そこで我々は,画像キャプションと視覚質問応答(VQA)モデルを用いてテキストを生成し,生成したテキストをクラスタリングするテキストガイド画像クラスタリングを提案する。 さらに,VQAモデルの導入により,クラスタリングのためのタスク知識やドメイン知識を注入する新たな手法を提案する。 8種類の画像クラスタリングデータセットにまたがって,得られたテキスト表現が画像特徴を上回った。 さらに,計数に基づくクラスタ説明可能性法を提案する。 提案手法は,各クラスタの精度が提案するクラスタよりも優れていることを示す。 全体として、この研究は従来のアプローチに挑戦し、生成されたテキストを使用して画像クラスタリングのパラダイムシフトの道を開く。

Image clustering divides a collection of images into meaningful groups, typically interpreted post-hoc via human-given annotations. Those are usually in the form of text, begging the question of using text as an abstraction for image clustering. Current image clustering methods, however, neglect the use of generated textual descriptions. We, therefore, propose Text-Guided Image Clustering, i.e., generating text using image captioning and visual question-answering (VQA) models and subsequently clustering the generated text. Further, we introduce a novel approach to inject task- or domain knowledge for clustering by prompting VQA models. Across eight diverse image clustering datasets, our results show that the obtained text representations often outperform image features. Additionally, we propose a counting-based cluster explainability method. Our evaluations show that the derived keyword-based explanations describe clusters better than the respective cluster accuracy suggests. Overall, this research challenges traditional approaches and paves the way for a paradigm shift in image clustering, using generated text.
翻訳日:2024-02-21 02:55:02 公開日:2024-02-19
# マルチモーダル大言語モデルにおけるグラフ推論のためのレンダリンググラフ

Rendering Graphs for Graph Reasoning in Multimodal Large Language Models ( http://arxiv.org/abs/2402.02130v2 )

ライセンス: Link先を確認
Yanbin Wei, Shuai Fu, Weisen Jiang, James T. Kwok, Yu Zhang(参考訳) 大規模言語モデル(LLM)は、ロボット計画、知識グラフ補完、常識推論など、グラフ構造を扱う様々なタスクにますます使われている。 LLMは、グラフ情報をテキスト形式で理解することができるが、そのリッチな視覚的モダリティは、人間が構造情報を理解し、グラフ推論を行うための直感的な方法である。 グラフ構造を視覚的イメージ(すなわちビジュアルグラフ)として表現する潜在的な利点と能力はまだ探索されていない。 本稿では,視覚情報をグラフ推論タスクに組み込む第一歩として,各サンプルをタプル(グラフ,画像,テキスト記述)とする新しいベンチマークGITQAを提案する。 我々は、最先端のマルチモーダルLLMを用いて、GITQAベンチマークで広範な実験を行う。 グラフ推論タスクの結果から,テキスト情報と視覚情報の組み合わせは,1つのモダリティのみを使用するよりも優れていた。 さらに、トレーニングセットに微調整されたLLaVA-7B/13Bモデル(GITA)は、クローズドソースモデルGPT-4(V)よりも精度が高い。 また,グラフ推論における拡張の効果についても検討した。

Large Language Models (LLMs) are increasingly used for various tasks with graph structures, such as robotic planning, knowledge graph completion, and common-sense reasoning. Though LLMs can comprehend graph information in a textual format, they overlook the rich visual modality, which is an intuitive way for humans to comprehend structural information and conduct graph reasoning. The potential benefits and capabilities of representing graph structures as visual images (i.e., visual graph) is still unexplored. In this paper, we take the first step in incorporating visual information into graph reasoning tasks and propose a new benchmark GITQA, where each sample is a tuple (graph, image, textual description). We conduct extensive experiments on the GITQA benchmark using state-of-the-art multimodal LLMs. Results on graph reasoning tasks show that combining textual and visual information together performs better than using one modality alone. Moreover, the LLaVA-7B/13B models finetuned on the training set (referred to as GITA), achieve higher accuracy than the closed-source model GPT-4(V). We also study the effects of augmentations in graph reasoning.
翻訳日:2024-02-21 02:53:37 公開日:2024-02-19
# 真空力と閉じ込め

Vacuum Force and Confinement ( http://arxiv.org/abs/2402.06404v2 )

ライセンス: Link先を確認
Alexander D. Popov(参考訳) クォークとグルーオンの閉じ込めは、通常の可換関係によって暗黙的に導入され真空力を生成する真空アーベルゲージ場 $a_{\sf{vac}}$ との相互作用によって説明できる。 The background gauge field $A_{\sf{vac}}$, linear in coordinates of $\mathbb{R}^3$, is inherently present in quantum mechanics: it is introduced during the canonical quantization of phase space $(T^*\mathbb{R}^3, \omega )$ of a nonrelativistic particle, when a potential $\theta$ of the symplectic 2-form $\omega =\mathrm{d}\theta$ on $T^*\mathbb{R}^3$ is mapped into a connection $A_{\sf{vac}}=-\mathrm{i}\theta$ on a complex line bundle $L_{\sf{v}}$ over $T^*\mathbb{R}^3$ with gauge group U(1)$_{\sf{v}}$ and curvature $F_{\sf{vac}}=\mathrm{d} A_{\sf{vac}}=-\mathrm{i}\omega$. この対応を相対論的位相空間 $T^*\mathbb{R}^{3,1}$ に一般化すると、ディラック方程式を $\mathbb{R}^{3,1}$ から $T^*\mathbb{R}^{3,1}$ に拡張し、フェルミオンが $x\in\mathbb{R}^{3,1}$ にのみ依存する条件を維持する。 一般化ディラック方程式はフェルミオンと{a_{\sf{vac}}$との相互作用を含み、空間に局所化された粒子状解を持つ。 したがって、波動粒子双対性は真空場 $a_{\sf{vac}}$ との相互作用をオンまたはオフすることで説明できる。 したがって、クォークとグルーオンの閉じ込めは、$A_{\sf{vac}}$との相互作用が常にオンであるため、ハドロンの形で境界状態にしか存在しないという事実によって説明できる。

We show that confinement of quarks and gluons can be explained by their interaction with the vacuum Abelian gauge field $A_{\sf{vac}}$, which is implicitly introduced by the canonical commutation relations and generates the vacuum force. The background gauge field $A_{\sf{vac}}$, linear in coordinates of $\mathbb{R}^3$, is inherently present in quantum mechanics: it is introduced during the canonical quantization of phase space $(T^*\mathbb{R}^3, \omega )$ of a nonrelativistic particle, when a potential $\theta$ of the symplectic 2-form $\omega =\mathrm{d}\theta$ on $T^*\mathbb{R}^3$ is mapped into a connection $A_{\sf{vac}}=-\mathrm{i}\theta$ on a complex line bundle $L_{\sf{v}}$ over $T^*\mathbb{R}^3$ with gauge group U(1)$_{\sf{v}}$ and curvature $F_{\sf{vac}}=\mathrm{d} A_{\sf{vac}}=-\mathrm{i}\omega$. Generalizing this correspondence to the relativistic phase space $T^*\mathbb{R}^{3,1}$, we extend the Dirac equation from $\mathbb{R}^{3,1}$ to $T^*\mathbb{R}^{3,1}$ while maintaining the condition that fermions depend only on $x\in\mathbb{R}^{3,1}$. The generalized Dirac equation contains the interaction of fermions with $A_{\sf{vac}}$ and has particle-like solutions localized in space. Thus, the wave-particle duality can be explained by turning on or off the interaction with the vacuum field $A_{\sf{vac}}$. Accordingly, confinement of quarks and gluons can be explained by the fact that their interaction with $A_{\sf{vac}}$ is always on and therefore they can only exist in bound states in the form of hadrons.
翻訳日:2024-02-21 01:07:00 公開日:2024-02-19
# 自然言語による実験と規則改正と確率論的推論

Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning ( http://arxiv.org/abs/2402.06025v2 )

ライセンス: Link先を確認
Top Piriyakulkij, Kevin Ellis(参考訳) 実験によって人間が隠れたルールを積極的に推論する方法の計算モデルを構築した。 このモデルの背後にある基本的な原理は、たとえ規則が決定論的であっても、学習者は自然言語で表されるファジィ確率規則の広い空間を検討し、実験の後に概ねベイズ原理に従ってその仮説をオンラインで更新するということである。 同じフレームワークでは、情報理論の基準に従って実験設計もモデル化する。 これら3つの原則 – 明示的な仮説,確率的ルール,オンライン更新 – の組み合わせによって,zendoスタイルのタスクにおけるヒューマンパフォーマンスの説明が可能になると同時に,これらのコンポーネントの削除によって,モデルにデータの説明ができないことが分かりました。

We build a computational model of how humans actively infer hidden rules by doing experiments. The basic principles behind the model is that, even if the rule is deterministic, the learner considers a broader space of fuzzy probabilistic rules, which it represents in natural language, and updates its hypotheses online after each experiment according to approximately Bayesian principles. In the same framework we also model experiment design according to information-theoretic criteria. We find that the combination of these three principles -- explicit hypotheses, probabilistic rules, and online updates -- can explain human performance on a Zendo-style task, and that removing any of these components leaves the model unable to account for the data.
翻訳日:2024-02-21 01:05:34 公開日:2024-02-19
# 量子力学の因果性と解釈の可能性

Causality and a possible interpretation of quantum mechanics ( http://arxiv.org/abs/2402.05450v2 )

ライセンス: Link先を確認
Kaixun Tu and Qing Wang(参考訳) アインシュタイン=ポドルスキー=ローゼンのパラドックスから最近のソルキン型不可能測定問題まで、相対論的因果関係、量子非局所性、量子測定の矛盾は続いている。 我々の研究は、これらの3つの側面を調和して統合する量子場理論に基づくフレームワークを提供する。 この枠組みは密度行列の減少で表される因果関係と、量子力学が完備であると考える量子力学の解釈からなる。 具体的には、還元密度行列を用いて量子状態の局所情報を特徴付け、超光的に進化できないことを示す。 因果性に焦点を当てた最近のアプローチとは異なり、検出器を記述するために特に新しい演算子やフィールドを導入するのではなく、すべての(検出器、環境、人間を含む)が同じ基本フィールドで構成されており、複雑な再正規化につながる。 この再正規化は、量子パラドックスの導出の妥当性を疑問視し、量子力学の非常に自然で相対論的に互換性のある解釈を提案するきっかけとなる。

From the ancient Einstein-Podolsky-Rosen paradox to the recent Sorkin-type impossible measurements problem, the contradictions between relativistic causality, quantum non-locality, and quantum measurement have persisted. Our work provides a framework based on quantum field theory to harmoniously integrate these three aspects. This framework consists of causality expressed by reduced density matrices and an interpretation of quantum mechanics that considers quantum mechanics to be complete. Specifically, we utilize reduced density matrices to characterize the local information of the quantum state and demonstrate that they cannot evolve superluminally. Unlike recent approaches focusing on causality, we do not introduce new operators or fields specifically to describe detectors; instead, everything (including detectors, environments, and humans) is composed of the same fundamental fields, leading to complex renormalization. It is precisely these renormalization that prompts us to question the validity of the derivation of quantum paradoxes and lead us to propose a very natural and relativistically compatible interpretation of quantum mechanics.
翻訳日:2024-02-21 01:04:52 公開日:2024-02-19
# ロシアによるウクライナ侵攻をめぐるイタリアとフランスのReddit会話の縦断的研究

A Longitudinal Study of Italian and French Reddit Conversations Around the Russian Invasion of Ukraine ( http://arxiv.org/abs/2402.04999v2 )

ライセンス: Link先を確認
Francesco Corso, Giuseppe Russo, Francesco Pierri(参考訳) 戦争やパンデミックのような世界的なイベントは、オンラインの議論を強化し、情報共有と個人間のつながりを育む。 しかし、こうした事象の分断的な性質は、オンラインコミュニティ内での分極を引き起こし、オンラインインタラクションのダイナミクスを形成する可能性がある。 われわれの研究は、最大のイタリアとフランスのRedditコミュニティでの会話を詳しく調べ、特にロシアによるウクライナ侵攻がオンラインの対話にどう影響したかを調べた。 我々は,(1)モデレーション活動のパターンを記述し,(2)サブレディットにおける戦争関連議論を特徴付けるために,300万以上の投稿(コメントと投稿)を持つデータセットを使用する。 我々は、戦争の最初の1ヶ月でより活発になったモデレーターの行動の変化を発見した。 さらに,コメントの日々の感情と戦争に関する議論の頻度との関係を明らかにした。 これらの議論は、戦前のものよりもネガティブで有毒なだけでなく、特定の集団を含まなかった。 本研究は,類似した特性を持つユーザがより多く相互作用する傾向がないことを明らかにする。 総じて、ウクライナにおける戦争が、分析されたコミュニティにおける日々の会話に否定的な影響を及ぼしたことを示す。 これは、ユーザがこの重要なイベントにどう反応したかに光を当て、グローバルな関連性のイベントの間のオンライン議論のダイナミクスに関する洞察を提供する。

Global events like wars and pandemics can intensify online discussions, fostering information sharing and connection among individuals. However, the divisive nature of such events may lead to polarization within online communities, shaping the dynamics of online interactions. Our study delves into the conversations within the largest Italian and French Reddit communities, specifically examining how the Russian invasion of Ukraine affected online interactions. We use a dataset with over 3 million posts (i.e., comments and submissions) to (1) describe the patterns of moderation activity and (2) characterize war-related discussions in the subreddits. We found changes in moderators' behavior, who became more active during the first month of the war. Moreover, we identified a connection between the daily sentiment of comments and the prevalence of war-related discussions. These discussions were not only more negative and toxic compared to non-war-related ones but also did not involve a specific demographic group. Our research reveals that there is no tendency for users with similar characteristics to interact more. Overall, our study reveals how the war in Ukraine had a negative influence on daily conversations in the analyzed communities. This sheds light on how users responded to this significant event, providing insights into the dynamics of online discussions during events of global relevance.
翻訳日:2024-02-21 01:03:49 公開日:2024-02-19
# e(3)同変メッシュニューラルネットワーク

E(3)-Equivariant Mesh Neural Networks ( http://arxiv.org/abs/2402.04821v2 )

ライセンス: Link先を確認
Thuan Trang, Nhat Khang Ngo, Daniel Levy, Thieu N. Vo, Siamak Ravanbakhsh, Truong Son Hy(参考訳) 三角形メッシュは3次元オブジェクトを表現するために広く使われている。 その結果、3Dメッシュ上での幾何学的深層学習の必要性に対処する研究が数多く行われている。 しかし、これらのアーキテクチャの多くにおける複雑さは実践的な性能には変換されず、幾何学グラフの単純な深部モデルが実際に競合する。 本研究では,E(n)-Equivariant Graph Neural Networks (EGNNs, Satorras et al., 2021) の更新方程式を最小限に拡張し,メッシュフェース情報を組み込むことにより,階層構造による長距離相互作用を考慮に入れた。 結果として得られるアーキテクチャであるEquivariant Mesh Neural Network (EMNN)は、メッシュタスクにおいて、より複雑な同種メソッドよりも優れており、高速な実行時と高価な前処理がない。 私たちの実装はhttps://github.com/HySonLab/EquiMeshで利用可能です。

Triangular meshes are widely used to represent three-dimensional objects. As a result, many recent works have address the need for geometric deep learning on 3D mesh. However, we observe that the complexities in many of these architectures does not translate to practical performance, and simple deep models for geometric graphs are competitive in practice. Motivated by this observation, we minimally extend the update equations of E(n)-Equivariant Graph Neural Networks (EGNNs) (Satorras et al., 2021) to incorporate mesh face information, and further improve it to account for long-range interactions through hierarchy. The resulting architecture, Equivariant Mesh Neural Network (EMNN), outperforms other, more complicated equivariant methods on mesh tasks, with a fast run-time and no expensive pre-processing. Our implementation is available at https://github.com/HySonLab/EquiMesh
翻訳日:2024-02-21 01:03:24 公開日:2024-02-19
# ScreenAI: UIとインフォグラフィック理解のための視覚言語モデル

ScreenAI: A Vision-Language Model for UI and Infographics Understanding ( http://arxiv.org/abs/2402.04615v2 )

ライセンス: Link先を確認
Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor C\u{a}rbune, Jason Lin, Jindong Chen, Abhanshu Sharma(参考訳) スクリーンユーザインターフェース(UI)とインフォグラフィック(インフォグラフィック)は、人間のコミュニケーションや人間と機械の相互作用において重要な役割を果たす。 UIとインフォグラフィック理解に特化した視覚言語モデルであるScreenAIを紹介する。 私たちのモデルは、pix2structの柔軟なパッチ戦略によってpaliアーキテクチャを改善し、データセットのユニークな混合でトレーニングします。 この混合の核となるのは、モデルがui要素の型と場所を識別しなければならない、新しいスクリーンアノテーションタスクである。 これらのテキストアノテーションを使って画面を大規模言語モデルに記述し、質問応答(QA)、UIナビゲーション、要約トレーニングデータセットを大規模に生成する。 我々はこれらの設計選択の影響を実証するためにアブレーション研究を行っている。 わずか5Bパラメータで、ScreenAIはUIとインフォグラフィックベースのタスク(Multi-page DocVQA, WebSRC, MoTIF, Widget Captioning)に対する新しい最先端と、他のモデル(Chart QA, DocVQA, InfographicVQA)に対する新しい最高のパフォーマンスを達成する。 最後に、スクリーンアノテーションタスクに焦点を当てた3つの新しいデータセットと、質問応答に焦点を当てた2つのデータセットをリリースします。

Screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce ScreenAI, a vision-language model that specializes in UI and infographics understanding. Our model improves upon the PaLI architecture with the flexible patching strategy of pix2struct and is trained on a unique mixture of datasets. At the heart of this mixture is a novel screen annotation task in which the model has to identify the type and location of UI elements. We use these text annotations to describe screens to Large Language Models and automatically generate question-answering (QA), UI navigation, and summarization training datasets at scale. We run ablation studies to demonstrate the impact of these design choices. At only 5B parameters, ScreenAI achieves new state-of-the-artresults on UI- and infographics-based tasks (Multi-page DocVQA, WebSRC, MoTIF and Widget Captioning), and new best-in-class performance on others (Chart QA, DocVQA, and InfographicVQA) compared to models of similar size. Finally, we release three new datasets: one focused on the screen annotation task and two others focused on question answering.
翻訳日:2024-02-21 01:03:07 公開日:2024-02-19
# 置換不変系の非安定性

Nonstabilizerness of permutationally invariant systems ( http://arxiv.org/abs/2402.08551v2 )

ライセンス: Link先を確認
G. Passarelli, R. Fazio, P. Lucignano(参考訳) N$ qubits のシステムの非安定化性の典型的な測度は、次元が 2^N$ の状態で、パウリ群の各パウリ弦に対して 4^N$ 期待値を計算する必要がある。 置換不変系に対して、この指数的オーバーヘッドは、次元が$O(N)$の状態において単に$O(N^3)$期待値に縮めることができる。 この単純化を利用して、数百キュービットのシステムの非安定化位相遷移を研究する。

Typical measures of nonstabilizerness of a system of $N$ qubits require computing $4^N$ expectation values, one for each Pauli string in the Pauli group, over a state of dimension $2^N$. For permutationally invariant systems, this exponential overhead can be reduced to just $O(N^3)$ expectation values on a state with a dimension $O(N)$. We exploit this simplification to study the nonstabilizerness phase transitions of systems with hundreds of qubits.
翻訳日:2024-02-21 00:53:40 公開日:2024-02-19
# ChatCell: 自然言語によるシングルセル分析の実現

ChatCell: Facilitating Single-Cell Analysis with Natural Language ( http://arxiv.org/abs/2402.08303v3 )

ライセンス: Link先を確認
Yin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen(参考訳) 大規模言語モデル(llm)が急速に発展するにつれて、科学におけるその影響力はますます顕著になりつつある。 タスク一般化と自由形式の対話におけるLLMの出現する能力は、化学や生物学などの分野を著しく前進させる可能性がある。 しかし、生物の基礎的な構成要素を形成する単細胞生物学の分野は、今でもいくつかの課題に直面している。 高度な知識障壁と現在の方法のスケーラビリティの制限により、シングルセルデータのマスタリングにおけるllmの完全な活用が制限され、直接的なアクセシビリティと迅速なイテレーションが妨げられる。 この目的のために,自然言語による単細胞分析の容易化によるパラダイムシフトの表れであるchatcellを紹介する。 語彙適応と統合シーケンス生成を活用して、ChatCellは単細胞生物学の深い専門知識と多様な分析タスクに対応する能力を獲得した。 広範な実験により、chatcellの堅牢なパフォーマンスとシングルセル洞察の深化の可能性が示され、この重要な分野におけるよりアクセスしやすく直感的な探索への道が開けた。 プロジェクトのホームページはhttps://zjunlp.github.io/project/chatcellで閲覧できます。

As Large Language Models (LLMs) rapidly evolve, their influence in science is becoming increasingly prominent. The emerging capabilities of LLMs in task generalization and free-form dialogue can significantly advance fields like chemistry and biology. However, the field of single-cell biology, which forms the foundational building blocks of living organisms, still faces several challenges. High knowledge barriers and limited scalability in current methods restrict the full exploitation of LLMs in mastering single-cell data, impeding direct accessibility and rapid iteration. To this end, we introduce ChatCell, which signifies a paradigm shift by facilitating single-cell analysis with natural language. Leveraging vocabulary adaptation and unified sequence generation, ChatCell has acquired profound expertise in single-cell biology and the capability to accommodate a diverse range of analysis tasks. Extensive experiments further demonstrate ChatCell's robust performance and potential to deepen single-cell insights, paving the way for more accessible and intuitive exploration in this pivotal field. Our project homepage is available at https://zjunlp.github.io/project/ChatCell.
翻訳日:2024-02-21 00:53:01 公開日:2024-02-19
# UFO: Windows OSインタラクションのためのUI指向エージェント

UFO: A UI-Focused Agent for Windows OS Interaction ( http://arxiv.org/abs/2402.07939v2 )

ライセンス: Link先を確認
Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。 このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。 その結果、UFOは困難で時間のかかるプロセスを自然言語コマンドでのみ達成可能な単純なタスクに変換する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。 その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。 私たちの知る限りでは、ufoはwindows os環境でタスク完了用に特別に調整された最初のuiエージェントです。 ufoのオープンソースコードはhttps://github.com/microsoft/ufoで入手できる。

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
翻訳日:2024-02-21 00:52:26 公開日:2024-02-19
# 曲線形状のみ:次の曲線形状予測によるゼロショット多変量時系列予測のための基礎モデル

Only the Curve Shape Matters: Training Foundation Models for Zero-Shot Multivariate Time Series Forecasting through Next Curve Shape Prediction ( http://arxiv.org/abs/2402.07570v2 )

ライセンス: Link先を確認
Cheng Feng, Long Huang, Denis Krompass(参考訳) ゼロショット多変量時系列予測のためのエンコーダのみスタイル基礎モデルであるGeneral Time Transformer(GTT)を提案する。 GTTは、さまざまなドメインにまたがる2億の高品質時系列サンプルの大規模なデータセットで事前訓練されている。 提案手法では,多変量時系列予測のタスクをチャネルワイズ次曲線形状予測問題として定式化し,各時系列サンプルを非重複曲線形状の列として統一的な数値等級で表現する。 gttは、チャネル毎に過去の曲線形状のウィンドウに基づいて次の曲線形状を予測するように訓練される。 実験結果から,GTTは非表示時系列データセットに対して,最先端の教師付きベースラインを超越した,優れたゼロショット多変量予測能力を示すことが示された。 さらに,様々なgttモデルパラメータとトレーニングデータセットスケールの影響について検討し,ゼロショット多変量時系列予測の文脈においてもスケーリング則が成立していることを観察した。

We present General Time Transformer (GTT), an encoder-only style foundation model for zero-shot multivariate time series forecasting. GTT is pretrained on a large dataset of 200M high-quality time series samples spanning diverse domains. In our proposed framework, the task of multivariate time series forecasting is formulated as a channel-wise next curve shape prediction problem, where each time series sample is represented as a sequence of non-overlapping curve shapes with a unified numerical magnitude. GTT is trained to predict the next curve shape based on a window of past curve shapes in a channel-wise manner. Experimental results demonstrate that GTT exhibits superior zero-shot multivariate forecasting capabilities on unseen time series datasets, even surpassing state-of-the-art supervised baselines. Additionally, we investigate the impact of varying GTT model parameters and training dataset scales, observing that the scaling law also holds in the context of zero-shot multivariate time series forecasting.
翻訳日:2024-02-21 00:52:08 公開日:2024-02-19
# LLM-Cgnition Data Augmentationによる会話高密度検索の一般化

Generalizing Conversational Dense Retrieval via LLM-Cognition Data Augmentation ( http://arxiv.org/abs/2402.07092v2 )

ライセンス: Link先を確認
Haonan Chen, Zhicheng Dou, Kelong Mao, Jiongnan Liu, Ziliang Zhao(参考訳) 会話型検索は、ミューリターン自然言語コンテキストを用いて関連するパスを検索する。 既存の会話の密集した検索モデルは、会話を質問と回答の固定されたシーケンスと見ており、深刻なデータスパーシティの問題を見渡している。 そのため、現実世界のシナリオにおける多様な会話への一般化に苦慮することが多い。 本研究では,LLM認識データ拡張(ConvAug)による会話高密度検索を一般化するためのフレームワークを提案する。 ConvAugは、会話コンテキストの多様な性質を捉えるために、まずマルチレベルな拡張会話を生成する。 人間の認知に触発され、偽陽性、偽陰性、幻覚の発生を緩和するための認知認識プロセスを考案する。 さらに,複雑な会話に対して難解なサンプルを選択する難易度適応型サンプルフィルタを開発し,モデルにより大きな学習空間を与える。 対照的な学習目的は、より良い会話コンテキストエンコーダのトレーニングに使用される。 通常の設定とゼロショット設定の両方で4つの公開データセットで実施された大規模な実験は、ConvAugの有効性、一般化性、適用性を示している。

Conversational search utilizes muli-turn natural language contexts to retrieve relevant passages. Existing conversational dense retrieval models mostly view a conversation as a fixed sequence of questions and responses, overlooking the severe data sparsity problem -- that is, users can perform a conversation in various ways, and these alternate conversations are unrecorded. Consequently, they often struggle to generalize to diverse conversations in real-world scenarios. In this work, we propose a framework for generalizing Conversational dense retrieval via LLM-cognition data Augmentation (ConvAug). ConvAug first generates multi-level augmented conversations to capture the diverse nature of conversational contexts. Inspired by human cognition, we devise a cognition-aware process to mitigate the generation of false positives, false negatives, and hallucinations. Moreover, we develop a difficulty-adaptive sample filter that selects challenging samples for complex conversations, thereby giving the model a larger learning space. A contrastive learning objective is then employed to train a better conversational context encoder. Extensive experiments conducted on four public datasets, under both normal and zero-shot settings, demonstrate the effectiveness, generalizability, and applicability of ConvAug.
翻訳日:2024-02-21 00:51:18 公開日:2024-02-19
# 深部強結合における超伝導量子ビットの量子ラビモデルシミュレーション

Simulating the Quantum Rabi Model in Superconducting Qubits at Deep Strong Coupling ( http://arxiv.org/abs/2402.06958v2 )

ライセンス: Link先を確認
Noureddine Rochdi, Atta ur Rahman, Rachid Ahl Laamara, Mohamed Bennai(参考訳) 量子ラビモデル(quantum rabi model)は、光と物質の間のニュアンス相互作用を解明するための重要な理論的枠組みである。 半導体上の回路量子電磁力学を利用して、量子空洞電磁力学(cqed)における強結合の実現の課題を解決する。 超伝導回路と閉じ込められたイオンの進歩にもかかわらず、実験的実現は分光に限られている。 我々の焦点は、複雑なユニタリハミルトニアンを分解するために、さらに多くのステップでトロタライズを利用する変換デジタル量子シミュレーションである。 このアプローチは超伝導回路におけるデジタル技術の利点を示し、普遍性、柔軟性、スケーラビリティ、高忠実性を提供する。 我々の目標は、cqedにおける深い結合を示し、特に共振器内の光子数を変化させた時間発展におけるコヒーレントな測定において、ディジタル手法の利点を理解することである。 これは、ハードウェアの限界を克服するために量子力学を活用する道を開く。

The Quantum Rabi model serves as a pivotal theoretical framework for elucidating the nuanced interplay between light and matter. Utilizing circuit quantum electrodynamics on a chip, we address the challenge of achieving deep strong coupling in Quantum Cavity Electrodynamics (cQED). Despite progress in superconducting circuits and trapped ions, experimental realization has been limited to spectroscopy. Our focus is on a transformative digital quantum simulation, employing Trotterization with an augmented number of steps to deconstruct a complex unitary Hamiltonian. This approach showcases the benefits of digital techniques within superconducting circuits, offering universality, flexibility, scalability, and high fidelity. Our goal is to demonstrate deep strong coupling in cQED and understand the advantages of digital methods, particularly in coherent measurement during time evolution with varying photon counts in resonators. This opens avenues to leverage quantum mechanics for overcoming hardware limitations.
翻訳日:2024-02-21 00:50:50 公開日:2024-02-19
# 動的グラフ情報ボトルネック

Dynamic Graph Information Bottleneck ( http://arxiv.org/abs/2402.06716v2 )

ライセンス: Link先を確認
Haonan Yuan, Qingyun Sun, Xingcheng Fu, Cheng Ji, Jianxin Li(参考訳) 動的グラフは現実世界に広く存在し、複雑な空間的・時間的特徴パターンを持ち、表現学習に挑戦している。 動的グラフニューラルネットワーク(dgnn)は、本質的ダイナミクスを活用し、驚くべき予測能力を示している。 しかし、DGNNは限られた堅牢性を示し、敵の攻撃を受けやすい。 本稿では、ロバストで差別的な表現を学習するための新しい動的グラフ情報ボトルネック(DGIB)フレームワークを提案する。 Information Bottleneck (IB) の原理を応用して,我々はまず,最適表現が最小満足度(MSC)条件を満たすことを提案する。 DGIBは、冗長な冗長な情報を遅延表現に保存すると共に、グラフスナップショットを通過する構造及び特徴情報フローを反復的に指示し、洗練する。 msc条件を満たすために、全体的なib目標をdgib$_{ms}$とdgib$_c$に分解し、dgib$_{ms}$チャネルは最小で十分な表現を学習することを目的としており、dgib$_{ms}$チャネルは予測的コンセンサスを保証する。 実世界および合成動的グラフデータセットに関する大規模な実験は、リンク予測タスクにおける最先端のベースラインと比較して、DGIBの敵攻撃に対する強靭性を示す。 我々の知識を最大限に活用するために、DGIBは情報理論のIB原理に基づく動的グラフの堅牢な表現を学ぶ最初の研究である。

Dynamic Graphs widely exist in the real world, which carry complicated spatial and temporal feature patterns, challenging their representation learning. Dynamic Graph Neural Networks (DGNNs) have shown impressive predictive abilities by exploiting the intrinsic dynamics. However, DGNNs exhibit limited robustness, prone to adversarial attacks. This paper presents the novel Dynamic Graph Information Bottleneck (DGIB) framework to learn robust and discriminative representations. Leveraged by the Information Bottleneck (IB) principle, we first propose the expected optimal representations should satisfy the Minimal-Sufficient-Consensual (MSC) Condition. To compress redundant as well as conserve meritorious information into latent representation, DGIB iteratively directs and refines the structural and feature information flow passing through graph snapshots. To meet the MSC Condition, we decompose the overall IB objectives into DGIB$_{MS}$ and DGIB$_C$, in which the DGIB$_{MS}$ channel aims to learn the minimal and sufficient representations, with the DGIB$_{MS}$ channel guarantees the predictive consensus. Extensive experiments on real-world and synthetic dynamic graph datasets demonstrate the superior robustness of DGIB against adversarial attacks compared with state-of-the-art baselines in the link prediction task. To the best of our knowledge, DGIB is the first work to learn robust representations of dynamic graphs grounded in the information-theoretic IB principle.
翻訳日:2024-02-21 00:50:34 公開日:2024-02-19
# ディープフェイク、国家安全保障上の脅威と人権侵害に対処へ

Combatting deepfakes: Policies to address national security threats and rights violations ( http://arxiv.org/abs/2402.09581v2 )

ライセンス: Link先を確認
Andrea Miotti and Akash Wasil(参考訳) 本稿では、ディープフェイクからの脅威に対処するための政策勧告を提供する。 まず、ディープフェイクの背景情報を提供し、それらがもたらす害をレビューする。 我々は、現在ディープフェイクが、性的虐待の材料を増殖させ、詐欺を犯し、有権者の振る舞いを操り、国家の安全を脅かすためにどのように使われているかを説明する。 第2に、ディープフェイクに対処するための従来の立法案をレビューする。 第3に,ディープフェイクサプライチェーンの複数の部分に対処することに焦点を当てた包括的政策提案を行う。 deepfakeサプライチェーンは、少数のモデル開発者、モデルプロバイダ、計算プロバイダから始まり、数十億のdeepfakeクリエーターを含むように拡張される。 我々は、このサプライチェーンをより詳細に記述し、サプライチェーンの各ステップのエンティティがディープフェイクの生成と増殖を防ぐために合理的な措置をとるべきかを述べる。 最後に、提案の潜在的な反論に対処する。 全体的に、ディープフェイクは世界の安全と個人の自由に対する深刻な脅威を増すだろう。 これらの脅威に対処するため、我々は政策立案者にディープフェイクサプライチェーンの複数の部分に対処する法律を制定するよう求めます。

This paper provides policy recommendations to address threats from deepfakes. First, we provide background information about deepfakes and review the harms they pose. We describe how deepfakes are currently used to proliferate sexual abuse material, commit fraud, manipulate voter behavior, and pose threats to national security. Second, we review previous legislative proposals designed to address deepfakes. Third, we present a comprehensive policy proposal that focuses on addressing multiple parts of the deepfake supply chain. The deepfake supply chain begins with a small number of model developers, model providers, and compute providers, and it expands to include billions of potential deepfake creators. We describe this supply chain in greater detail and describe how entities at each step of the supply chain ought to take reasonable measures to prevent the creation and proliferation of deepfakes. Finally, we address potential counterpoints of our proposal. Overall, deepfakes will present increasingly severe threats to global security and individual liberties. To address these threats, we call on policymakers to enact legislation that addresses multiple parts of the deepfake supply chain.
翻訳日:2024-02-21 00:43:05 公開日:2024-02-19
# フラッド検出のためのネットワーク機能の可能性について

On the Potential of Network-Based Features for Fraud Detection ( http://arxiv.org/abs/2402.09495v2 )

ライセンス: Link先を確認
Catayoun Azarm, Erman Acar, Mickey van Zeelt(参考訳) オンライン取引詐欺は企業や消費者に重大な課題をもたらし、重大な損失を被る。 従来のルールベースのシステムは、不正な戦術の進化に追随し、高い偽陽性率と誤検出につながる。 機械学習技術は、過去のデータを利用して不正パターンを識別することで、有望なソリューションを提供する。 本稿では、パーソナライズされたPageRank(PPR)アルゴリズムを用いて、財務アカウント間の関係を分析し、詐欺の社会的ダイナミクスを捉える。 主な目的は、従来の特徴と不正検出モデルにおけるPPRの追加を比較することである。 その結果,PPRの統合はモデルの予測能力を向上し,ベースラインモデルを上回ることが示唆された。 さらに、ppr機能はユニークで価値のある情報を提供し、その高い特徴重要性スコアによって証明される。 機能安定性分析は、トレーニングとテストデータセット間で一貫した機能分布を確認する。

Online transaction fraud presents substantial challenges to businesses and consumers, risking significant financial losses. Conventional rule-based systems struggle to keep pace with evolving fraud tactics, leading to high false positive rates and missed detections. Machine learning techniques offer a promising solution by leveraging historical data to identify fraudulent patterns. This article explores using the personalised PageRank (PPR) algorithm to capture the social dynamics of fraud by analysing relationships between financial accounts. The primary objective is to compare the performance of traditional features with the addition of PPR in fraud detection models. Results indicate that integrating PPR enhances the model's predictive power, surpassing the baseline model. Additionally, the PPR feature provides unique and valuable information, evidenced by its high feature importance score. Feature stability analysis confirms consistent feature distributions across training and test datasets.
翻訳日:2024-02-21 00:42:44 公開日:2024-02-19
# 人間の即時一般化は、ディープニューラルネットワークの一般化ラグ -- 表現の相違の証拠?

Immediate generalisation in humans but a generalisation lag in deep neural networks -- evidence for representational divergence? ( http://arxiv.org/abs/2402.09303v2 )

ライセンス: Link先を確認
Lukas S. Huber, Fred W. Mast and Felix A. Wichmann(参考訳) 近年の研究では、画像分類分野における人間とディープニューラルネットワーク(DNN)の行動比較が数多く行われている。 しばしば比較研究は、一度形成されてからオブジェクトカテゴリの表現の類似性を測定し比較することにより、学習プロセスのエンド・リゾルトに焦点を当てている。 しかし、これらの表現の出現過程、すなわち、獲得中に観察される行動変化と中間段階は、直接的かつ経験的に比較されることが少なくなる。 本稿では、人間の観察者や様々な古典的かつ最先端のDNNにおいて、転送可能な表現がどのように獲得されるかについて詳細に調査する。 我々は,開始点,入力モダリティ,利用可能な入力データ,提供されたフィードバックなどの学習関連パラメータを整合させる制約付き教師付き学習環境を開発する。 学習プロセス全体を通して、学習された表現がいかによく認識されていないテストデータに一般化できるかを評価し比較します。 以上の結果から,dnnは人間の学習者のデータ効率に匹敵する(時にはそれを超える)水準を示し,その分野における一般的な仮定に挑戦していることが示唆された。 しかし、学習過程全体の比較では、DNNの学習は明らかに一般化ラグによって特徴づけられるが、人間は、後に新しいデータにのみ転送されるセット固有情報を学習する予備段階なしで、すぐに一般化可能な表現を取得するように見える。

Recent research has seen many behavioral comparisons between humans and deep neural networks (DNNs) in the domain of image classification. Often, comparison studies focus on the end-result of the learning process by measuring and comparing the similarities in the representations of object categories once they have been formed. However, the process of how these representations emerge -- that is, the behavioral changes and intermediate stages observed during the acquisition -- is less often directly and empirically compared. Here we report a detailed investigation of how transferable representations are acquired in human observers and various classic and state-of-the-art DNNs. We develop a constrained supervised learning environment in which we align learning-relevant parameters such as starting point, input modality, available input data and the feedback provided. Across the whole learning process we evaluate and compare how well learned representations can be generalized to previously unseen test data. Our findings indicate that in terms of absolute classification performance DNNs demonstrate a level of data efficiency comparable to -- and sometimes even exceeding that -- of human learners, challenging some prevailing assumptions in the field. However, comparisons across the entire learning process reveal significant representational differences: while DNNs' learning is characterized by a pronounced generalisation lag, humans appear to immediately acquire generalizable representations without a preliminary phase of learning training set-specific information that is only later transferred to novel data.
翻訳日:2024-02-21 00:41:37 公開日:2024-02-19
# ロバスト構造予測のための構造言語生成モデル

Structured Language Generation Model for Robust Structure Prediction ( http://arxiv.org/abs/2402.08971v2 )

ライセンス: Link先を確認
Minho Lee and Junghyun Min and Woochul Lee and Yeonsoo Lee(参考訳) 単一モデルを用いた構造化予測(ner、情報抽出など)の以前の作業では、明示的なデータセット情報を使用して、分散性能の向上に寄与するが、現実の状況において堅牢な一般化に直交する。 そこで本研究では,この制約を克服するために,ロスキャリブレーションとデコード手法による分類問題に対するシーケンス列問題を削減するためのフレームワークであるstructured language generation model (slgm)を提案する。 実験結果から,SLGMはデータセット情報を明示せずに,データセット固有の微調整を追従し,置き換えることが可能であることが示唆された。

Previous work in structured prediction (e.g. NER, information extraction) using single model make use of explicit dataset information, which helps boost in-distribution performance but is orthogonal to robust generalization in real-world situations. To overcome this limitation, we propose the Structured Language Generation Model (SLGM), a framework that reduces sequence-to-sequence problems to classification problems via methodologies in loss calibration and decoding method. Our experimental results show that SLGM is able to maintain performance without explicit dataset information, follow and potentially replace dataset-specific fine-tuning.
翻訳日:2024-02-21 00:40:28 公開日:2024-02-19
# Graph Mamba: ステートスペースモデルによるグラフ学習を目指して

Graph Mamba: Towards Learning on Graphs with State Space Models ( http://arxiv.org/abs/2402.08678v2 )

ライセンス: Link先を確認
Ali Behrouz and Farnoosh Hashemi(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において有望な可能性を示している。 GNNの大多数は、複数のレイヤを積み重ねることで、グラフ上の情報を伝搬するローカルメッセージパッシングメカニズムを定義している。 しかし、これらのメソッドには2つの大きな制限が伴うことが知られている。 最近、メッセージパッシングニューラルネットワーク(MPNN)の強力な代替手段としてグラフトランスフォーマー(GT)が登場した。 しかし、GTは2次計算コストを持ち、グラフ構造への帰納バイアスがなく、複雑な位置/構造エンコーディング(SE/PE)に依存している。 本稿では,トランスフォーマー,複雑なメッセージパッシング,SE/PEは実運用では十分な性能を示すが,どちらも必要ではないことを示す。 Mambaのような最近の状態空間モデル(SSM)の成功に触発された我々は、選択的なSSMに基づくGNNの新しいクラスのための一般的なフレームワークであるGraph Mamba Networks (GMNs)を紹介する。 我々は,SSMをグラフ構造データに適用する際の新たな課題について議論し,GMNを設計するための4つの必要なステップと1つのオプションのステップを提示する。そこでは,(1)隣り合うトークン化,(2)トークン順序付け,(3)双方向選択型SSMエンコーダアーキテクチャ,(4)ローカルエンコーディング,(5)PEとSEを選択。 さらに,gmnsのパワーの理論的正当性についても述べる。 GMNは計算コストがはるかに低いにもかかわらず、長距離、小規模、大規模、ヘテロ親和性のあるベンチマークデータセットにおいて優れた性能を発揮することを示した。

Graph Neural Networks (GNNs) have shown promising potential in graph representation learning. The majority of GNNs define a local message-passing mechanism, propagating information over the graph by stacking multiple layers. These methods, however, are known to suffer from two major limitations: over-squashing and poor capturing of long-range dependencies. Recently, Graph Transformers (GTs) emerged as a powerful alternative to Message-Passing Neural Networks (MPNNs). GTs, however, have quadratic computational cost, lack inductive biases on graph structures, and rely on complex Positional/Structural Encodings (SE/PE). In this paper, we show that while Transformers, complex message-passing, and SE/PE are sufficient for good performance in practice, neither is necessary. Motivated by the recent success of State Space Models (SSMs), such as Mamba, we present Graph Mamba Networks (GMNs), a general framework for a new class of GNNs based on selective SSMs. We discuss and categorize the new challenges when adapting SSMs to graph-structured data, and present four required and one optional steps to design GMNs, where we choose (1) Neighborhood Tokenization, (2) Token Ordering, (3) Architecture of Bidirectional Selective SSM Encoder, (4) Local Encoding, and dispensable (5) PE and SE. We further provide theoretical justification for the power of GMNs. Experiments demonstrate that despite much less computational cost, GMNs attain an outstanding performance in long-range, small-scale, large-scale, and heterophilic benchmark datasets.
翻訳日:2024-02-21 00:39:13 公開日:2024-02-19
# SAGMAN: マニフォールド上のグラフニューラルネットワークの安定性解析

SAGMAN: Stability Analysis of Graph Neural Networks on the Manifolds ( http://arxiv.org/abs/2402.08653v2 )

ライセンス: Link先を確認
Wuxinlin Cheng, Chenhui Deng, Ali Aghdaei, Zhiru Zhang, Zhuo Feng(参考訳) 現代のグラフニューラルネットワーク(GNN)は入力グラフ構造やノードの特徴の変化に敏感であり、予測不可能な振る舞いや性能低下をもたらす可能性がある。 本稿では,GNNの安定性を調べるためのSAGMANと呼ばれるスペクトルフレームワークを提案する。 この枠組みは、入力多様体と出力多様体の間のGNNの非線形写像から生じる距離歪みを評価し、入力多様体上の2つの近傍ノードを(GNNモデルを介して)出力多様体上の2つの離れたノードにマッピングした場合、大きな距離歪みを示し、したがってGNNの安定性が低下する。 本稿では,スペクトルグラフ埋め込みと確率的グラフィカルモデル(pgms)を用いて,低次元の入出力グラフベース多様体を有意な安定性解析のために作成する,距離保存グラフ次元縮小(gdr)手法を提案する。 SAGMANは様々なエッジや特徴摂動を受ける場合,各ノードの安定性を効果的に評価し,GNNの安定性を評価するためのスケーラブルなアプローチを提供し,レコメンデーションシステム内のアプリケーションに拡張する。 さらに,下流タスク,特にgnnの安定性向上と敵対的標的攻撃の促進に有用性を示す。

Modern graph neural networks (GNNs) can be sensitive to changes in the input graph structure and node features, potentially resulting in unpredictable behavior and degraded performance. In this work, we introduce a spectral framework known as SAGMAN for examining the stability of GNNs. This framework assesses the distance distortions that arise from the nonlinear mappings of GNNs between the input and output manifolds: when two nearby nodes on the input manifold are mapped (through a GNN model) to two distant ones on the output manifold, it implies a large distance distortion and thus a poor GNN stability. We propose a distance-preserving graph dimension reduction (GDR) approach that utilizes spectral graph embedding and probabilistic graphical models (PGMs) to create low-dimensional input/output graph-based manifolds for meaningful stability analysis. Our empirical evaluations show that SAGMAN effectively assesses the stability of each node when subjected to various edge or feature perturbations, offering a scalable approach for evaluating the stability of GNNs, extending to applications within recommendation systems. Furthermore, we illustrate its utility in downstream tasks, notably in enhancing GNN stability and facilitating adversarial targeted attacks.
翻訳日:2024-02-21 00:38:29 公開日:2024-02-19
# ロボットにおけるLLM/VLMの配置の安全性に関する考察 : リスクと脆弱性の強調

On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting the Risks and Vulnerabilities ( http://arxiv.org/abs/2402.10340v2 )

ライセンス: Link先を確認
Xiyang Wu, Ruiqi Xian, Tianrui Guan, Jing Liang, Souradip Chakraborty, Fuxiao Liu, Brian Sadler, Dinesh Manocha, Amrit Singh Bedi(参考訳) 本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題について述べる。 最近の研究は、操作やナビゲーションなどのロボティクスタスクの性能向上にLLMとVLMを使うことに重点を置いている。 しかし、そのような統合は言語モデルによる敵対的攻撃への感受性において重大な脆弱性をもたらし、破滅的な結果をもたらす可能性がある。 LLM/VLMとロボティクスのインターフェースにおける最近の研究から,ロボットの動作を操作あるいは誤操作しやすく,安全性を損なうことが示唆された。 我々は,いくつかの可逆的攻撃の例を定義し,これらの攻撃に対する感受性を評価するために,KnowNo VIMAやInstruct2Actを含む言語モデルと統合された3つの著名なロボットフレームワークの実験を行った。 実験により,LLM/VLM-ロボット統合システムの重大な脆弱性が明らかとなった。 特に,本研究では,プロンプト攻撃時の平均性能低下は21.2%,知覚攻撃では30.2%であった。 これらの結果は、先進的なLLM/VLMベースのロボットシステムの安全で信頼性の高い展開を保証するための堅牢な対策の必要性を強調している。

In this paper, we highlight the critical issues of robustness and safety associated with integrating large language models (LLMs) and vision-language models (VLMs) into robotics applications. Recent works have focused on using LLMs and VLMs to improve the performance of robotics tasks, such as manipulation, navigation, etc. However, such integration can introduce significant vulnerabilities, in terms of their susceptibility to adversarial attacks due to the language models, potentially leading to catastrophic consequences. By examining recent works at the interface of LLMs/VLMs and robotics, we show that it is easy to manipulate or misguide the robot's actions, leading to safety hazards. We define and provide examples of several plausible adversarial attacks, and conduct experiments on three prominent robot frameworks integrated with a language model, including KnowNo VIMA, and Instruct2Act, to assess their susceptibility to these attacks. Our empirical findings reveal a striking vulnerability of LLM/VLM-robot integrated systems: simple adversarial attacks can significantly undermine the effectiveness of LLM/VLM-robot integrated systems. Specifically, our data demonstrate an average performance deterioration of 21.2% under prompt attacks and a more alarming 30.2% under perception attacks. These results underscore the critical need for robust countermeasures to ensure the safe and reliable deployment of the advanced LLM/VLM-based robotic systems.
翻訳日:2024-02-21 00:29:46 公開日:2024-02-19
# rewards-in-context:動的嗜好調整を伴う基礎モデルの多目的アライメント

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment ( http://arxiv.org/abs/2402.10207v2 )

ライセンス: Link先を確認
Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong, Dong Yu, Jianshu Chen(参考訳) 我々は、基礎モデルの多目的アライメントと人間の好みの問題を考える。これは、有益で無害なaiシステムへの重要なステップである。 しかし、強化学習(rl)を用いた大規模基礎モデルでは、一般的にコストがかかり不安定であり、多次元性、異質性、相反する人間の選好の性質によりアライメントプロセスはさらに複雑になる。 本稿では,複数の報酬に対する基礎モデルの応答をプロンプト・コンテキストで条件付けし,教師付き微調整をアライメントに適用したrewards-in-context (ric)を提案する。 RiCの優れた特徴は単純さと適応性であり、単一のファンデーションモデルの教師付き微調整しか必要とせず、推論時間中にユーザの好みを動的に調整できる。 抽象凸最適化問題の解析解にインスパイアされた我々の動的推論時間調整法は、複数の目的に対してパレート最適解にアプローチする。 実験的な証拠は,多目的RLベースラインと比較して,多言語モデル (LLM) と拡散モデルの両方が,約10%のGPU時間で報奨に適合することを示す。

We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful and harmless AI systems. However, it is generally costly and unstable to fine-tune large foundation models using reinforcement learning (RL), and the multi-dimensionality, heterogeneity, and conflicting nature of human preferences further complicate the alignment process. In this paper, we introduce Rewards-in-Context (RiC), which conditions the response of a foundation model on multiple rewards in its prompt context and applies supervised fine-tuning for alignment. The salient features of RiC are simplicity and adaptivity, as it only requires supervised fine-tuning of a single foundation model and supports dynamic adjustment for user preferences during inference time. Inspired by the analytical solution of an abstracted convex optimization problem, our dynamic inference-time adjustment method approaches the Pareto-optimal solution for multiple objectives. Empirical evidence demonstrates the efficacy of our method in aligning both Large Language Models (LLMs) and diffusion models to accommodate diverse rewards with only around 10% GPU hours compared with multi-objective RL baseline.
翻訳日:2024-02-21 00:29:22 公開日:2024-02-19
# シャープネス認識最小化とチャネルワイズ注意による時系列予測における変圧器の可能性の解錠

Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention ( http://arxiv.org/abs/2402.10198v2 )

ライセンス: Link先を確認
Romain Ilbert and Ambroise Odonnat and Vasilii Feofanov and Aladin Virmaux and Giuseppe Paolo and Themis Palpanas and Ievgen Redko(参考訳) トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンにおいて画期的な性能を達成したが、多変量長期予測において単純な線形ベースラインよりも劣っている。 この現象をよりよく理解するために,我々は,トランスフォーマーが表現力が高いにもかかわらず真の解に収束できないことを示す,おもちゃ線形予測問題の研究から始める。 我々はさらに、変換器の注意を、この低一般化能力の責任とみなす。 この知見に基づいて,シャープネス・アウェア最適化を施し,局所的な極小化をうまく回避できる軽量トランスフォーマーモデルを提案する。 実世界の多変量時系列データセットのすべてにこの結果が拡張されることを実証的に実証した。 特にSAMformerは、現在の最先端モデルであるTSMixerを平均14.33%上回り、パラメータはおよそ4倍少ない。 コードはhttps://github.com/romilbert/samformerで入手できる。

Transformer-based architectures achieved breakthrough performance in natural language processing and computer vision, yet they remain inferior to simpler linear baselines in multivariate long-term forecasting. To better understand this phenomenon, we start by studying a toy linear forecasting problem for which we show that transformers are incapable of converging to their true solution despite their high expressive power. We further identify the attention of transformers as being responsible for this low generalization capacity. Building upon this insight, we propose a shallow lightweight transformer model that successfully escapes bad local minima when optimized with sharpness-aware optimization. We empirically demonstrate that this result extends to all commonly used real-world multivariate time series datasets. In particular, SAMformer surpasses the current state-of-the-art model TSMixer by 14.33% on average, while having ~4 times fewer parameters. The code is available at https://github.com/romilbert/samformer.
翻訳日:2024-02-21 00:28:59 公開日:2024-02-19
# チューニングイン:限られたデータを用いた臨床施設における音声分類器の性能分析

Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data ( http://arxiv.org/abs/2402.10100v2 )

ライセンス: Link先を確認
Hamza Mahdi, Eptehal Nashnoush, Rami Saab, Arjun Balachandar, Rishit Dagli, Lucas X. Perri, and Houman Khosravani(参考訳) 本研究は,実世界の予測データ収集を反映した小型データセットを制約した臨床環境での音声分類のための深層学習モデルを評価する。 我々は、DenseNetやConvNeXtなどのCNNを、VT、SWIN、ASTといったトランスフォーマーモデルとともに分析し、YAMNetやVGGishといった事前訓練されたオーディオモデルと比較する。 本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングする利点を強調する。 脳卒中患者の音声データセットを2つ前向きに収集した。 各種前処理技術について検討し,RGBおよびグレースケールのスペクトログラム変換が事前学習から学習した事前学習に基づいて,モデル性能に異なる影響を及ぼすことを示した。 以上の結果から,cnnは小さなデータセットの文脈でトランスフォーマモデルにマッチする,あるいは超越する可能性が示唆された。 本研究は、音響分類におけるモデル選択、事前学習、前処理による段階的限界利得の重要性を強調し、オーディオ分類に依存する臨床診断に有用な知見を提供する。

This study assesses deep learning models for audio classification in a clinical setting with the constraint of small datasets reflecting real-world prospective data collection. We analyze CNNs, including DenseNet and ConvNeXt, alongside transformer models like ViT, SWIN, and AST, and compare them against pre-trained audio models such as YAMNet and VGGish. Our method highlights the benefits of pre-training on large datasets before fine-tuning on specific clinical data. We prospectively collected two first-of-their-kind patient audio datasets from stroke patients. We investigated various preprocessing techniques, finding that RGB and grayscale spectrogram transformations affect model performance differently based on the priors they learn from pre-training. Our findings indicate CNNs can match or exceed transformer models in small dataset contexts, with DenseNet-Contrastive and AST models showing notable performance. This study highlights the significance of incremental marginal gains through model selection, pre-training, and preprocessing in sound classification; this offers valuable insights for clinical diagnostics that rely on audio classification.
翻訳日:2024-02-21 00:27:53 公開日:2024-02-19
# グラフ上のクラスバランスと強化アクティブラーニング

Class-Balanced and Reinforced Active Learning on Graphs ( http://arxiv.org/abs/2402.10074v2 )

ライセンス: Link先を確認
Chengcheng Yu, Jiapeng Zhu, Xiang Li(参考訳) グラフニューラルネットワーク(gnns)は,ノード分類やリンク予測,グラフ分類など,さまざまな応用において有意な成功を収めている。 GNNのアクティブラーニングは、GNNのパフォーマンスを低コストで最大化するために、ラベルのないデータから貴重なサンプルを検索することを目的としている。 しかし、GNNにおける強化能動学習のための既存のアルゴリズムのほとんどは、特に高度に歪んだクラスシナリオにおいて、高度に不均衡なクラス分布をもたらす可能性がある。 クラス不均衡なラベル付きデータで訓練されたGNNは、多数派に偏見を抱く可能性があり、少数派クラスのパフォーマンスは低下する可能性がある。 この問題に取り組むために,gnnのための新しいクラスバランスと強化されたアクティブラーニングフレームワーク,すなわちgcbrを提案する。 アノテーションのためのクラスバランスと情報ノードを取得するための最適なポリシーを学び、選択されたラベル付きノードでトレーニングされたGNNのパフォーマンスを最大化する。 gcbrはクラスバランスを意識した状態と、モデルのパフォーマンスとクラスバランスの間のトレードオフを実現する報酬関数を設計する。 強化学習アルゴリズムであるAdvantage Actor-Critic(A2C)を用いて、最適なポリシーを安定かつ効率的に学習する。 我々はさらにGCBRをGCBR++にアップグレードし、よりクラスバランスのよいラベル付き集合を得るための罰則を導入する。 複数のデータセットに対する大規模な実験は、提案手法の有効性を示し、最先端のベースラインよりも優れた性能を実現する。

Graph neural networks (GNNs) have demonstrated significant success in various applications, such as node classification, link prediction, and graph classification. Active learning for GNNs aims to query the valuable samples from the unlabeled data for annotation to maximize the GNNs' performance at a lower cost. However, most existing algorithms for reinforced active learning in GNNs may lead to a highly imbalanced class distribution, especially in highly skewed class scenarios. GNNs trained with class-imbalanced labeled data are susceptible to bias toward majority classes, and the lower performance of minority classes may lead to a decline in overall performance. To tackle this issue, we propose a novel class-balanced and reinforced active learning framework for GNNs, namely, GCBR. It learns an optimal policy to acquire class-balanced and informative nodes for annotation, maximizing the performance of GNNs trained with selected labeled nodes. GCBR designs class-balance-aware states, as well as a reward function that achieves trade-off between model performance and class balance. The reinforcement learning algorithm Advantage Actor-Critic (A2C) is employed to learn an optimal policy stably and efficiently. We further upgrade GCBR to GCBR++ by introducing a punishment mechanism to obtain a more class-balanced labeled set. Extensive experiments on multiple datasets demonstrate the effectiveness of the proposed approaches, achieving superior performance over state-of-the-art baselines.
翻訳日:2024-02-21 00:27:32 公開日:2024-02-19
# LLMによる時系列予測:モデルの能力の理解と向上

Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities ( http://arxiv.org/abs/2402.10835v2 )

ライセンス: Link先を確認
Mingyu Jin, Hua Tang, Chong Zhang, Qinkai Yu, Chengzhi Liu, Suiyuan Zhu, Yongfeng Zhang, Mengnan Du(参考訳) 大規模言語モデル(llm)は近年急速に発展する多くの分野に適用されている。 古典的な機械学習タスクとして、時系列予測が最近llmsから強化された。 しかし、この分野ではLLMの好みには研究のギャップがある。 本稿では,LLMと従来のモデルを比較し,時系列予測におけるLLMの特性について述べる。 例えば、LLMは明確なパターンと傾向を持つ時系列を予測するのに優れているが、周期性に欠けるデータセットでは課題に直面している。 我々は,データセットの周期をllmに指示するプロンプトの設計を通じて,この知見を説明する。 また,入力戦略を調査し,外部知識を取り入れ,自然言語パラフレーズを取り入れることで,時系列のllmの予測性能に正の影響を与えることを見出した。 本研究は,異なる条件下での時系列予測におけるLLMの利点と限界について考察した。

Large language models (LLMs) have been applied in many fields with rapid development in recent years. As a classic machine learning task, time series forecasting has recently received a boost from LLMs. However, there is a research gap in the LLMs' preferences in this field. In this paper, by comparing LLMs with traditional models, many properties of LLMs in time series prediction are found. For example, our study shows that LLMs excel in predicting time series with clear patterns and trends but face challenges with datasets lacking periodicity. We explain our findings through designing prompts to require LLMs to tell the period of the datasets. In addition, the input strategy is investigated, and it is found that incorporating external knowledge and adopting natural language paraphrases positively affects the predictive performance of LLMs for time series. Overall, this study contributes to insight into the advantages and limitations of LLMs in time series forecasting under different conditions.
翻訳日:2024-02-21 00:14:14 公開日:2024-02-19
# スマートツーリズムとスマートツーリズムツールの合意的定義に向けて

Towards a Consensual Definition for Smart Tourism and Smart Tourism Tools ( http://arxiv.org/abs/2402.10830v2 )

ライセンス: Link先を確認
Ant\'onio Galv\~ao, Fernando Brito e Abreu, Jo\~ao Joanaz de Melo(参考訳) スマート観光(ST)は、観光業界におけるプロセスのデジタル化に焦点を当てたe-tourismの概念と、観光体験におけるデジタル化も考慮したデジタル観光に由来する。 初期のST参照では、ST Destinationsを考慮し、スマートシティの開発から生まれている。 Our initial literature review on the ST concept and Smart Tourism Tools (STT) revealed significant research uncertainties: ST is poorly defined and frequently linked to the concept of Smart Cities; different authors have different, sometimes contradictory, views on the goals of ST; STT claims are often only based on technological aspects, and their "smartness" is difficult to evaluate; often the term "Smart" describes developments fueled by cutting-edge technologies, which lose that status after a few years. この章は、欧州STT観測所として知られるヨーロッパにおけるSTTの総合的な展望を提供するオンライン天文台を建設するための活動の一環である。 これを達成するために、天文台はSTとSTTの音の定義に基づいて「スマートネス」を評価する方法とツールを必要とし、同時に技術進歩にも適応できる。 本章では,世界中のST専門家を招待して,このような音質レベルを達成するための参加的アプローチの結果を紹介する。 我々の目標はSTとSTTの定義に関する議論に貴重な貢献を行うことです。

Smart tourism (ST) stems from the concepts of e-tourism - focused on the digitalization of processes within the tourism industry, and digital tourism - also considering the digitalization within the tourist experience. The earlier ST references found regard ST Destinations and emerge from the development of Smart Cities. Our initial literature review on the ST concept and Smart Tourism Tools (STT) revealed significant research uncertainties: ST is poorly defined and frequently linked to the concept of Smart Cities; different authors have different, sometimes contradictory, views on the goals of ST; STT claims are often only based on technological aspects, and their "smartness" is difficult to evaluate; often the term "Smart" describes developments fueled by cutting-edge technologies, which lose that status after a few years. This chapter is part of the ongoing initiative to build an online observatory that provides a comprehensive view of STTs' offerings in Europe, known as the European STT Observatory. To achieve this, the observatory requires methodologies and tools to evaluate "smartness" based on a sound definition of ST and STT, while also being able to adapt to technological advancements. In this chapter, we present the results of a participatory approach where we invited ST experts from around the world to help us achieve this level of soundness. Our goal is to make a valuable contribution to the discussion on the definition of ST and STT.
翻訳日:2024-02-21 00:14:00 公開日:2024-02-19
# PointMamba: ポイントクラウド分析のためのシンプルな状態空間モデル

PointMamba: A Simple State Space Model for Point Cloud Analysis ( http://arxiv.org/abs/2402.10739v2 )

ライセンス: Link先を確認
Dingkang Liang, Xin Zhou, Xinyu Wang, Xingkui Zhu, Wei Xu, Zhikang Zou, Xiaoqing Ye, Xiang Bai(参考訳) トランスフォーマーは、優れたグローバルモデリング能力により、ポイントクラウド分析タスクの基本アーキテクチャの1つになっている。 しかし,注意機構は二次的複雑度を持ち,計算資源の制限などにより長い系列モデリングに拡張することは困難である。 近年、深部配列モデルの新たなファミリーである状態空間モデル (SSM) が、NLPタスクにおけるシーケンスモデリングに大きな可能性を示している。 本稿では,nlpにおけるssmの成功から着想を得て,グローバルモデリングと線形複雑性を備えたフレームワークであるpointmambaを提案する。 具体的には,組込み点パッチを入力として,より論理的な幾何学的なスキャニング順序を提供することで,ssmのグローバルモデリング能力を向上させるための再順序付け戦略を提案する。 リオーダーされたポイントトークンは一連のMambaブロックに送信され、ポイントクラウド構造を因果的にキャプチャする。 実験結果から,提案するポイントマンバは,異なるポイントクラウド解析データセット上でトランスフォーマティブベースよりも優れており,44.3%のパラメータと25%のフラップを大幅に節約でき,基礎となる3次元視覚モデル構築の選択肢が示唆された。 PointMambaがポイントクラウド分析の新しい視点を提供することを期待しています。 コードはhttps://github.com/LMD0311/PointMambaで入手できる。

Transformers have become one of the foundational architectures in point cloud analysis tasks due to their excellent global modeling ability. However, the attention mechanism has quadratic complexity and is difficult to extend to long sequence modeling due to limited computational resources and so on. Recently, state space models (SSM), a new family of deep sequence models, have presented great potential for sequence modeling in NLP tasks. In this paper, taking inspiration from the success of SSM in NLP, we propose PointMamba, a framework with global modeling and linear complexity. Specifically, by taking embedded point patches as input, we proposed a reordering strategy to enhance SSM's global modeling ability by providing a more logical geometric scanning order. The reordered point tokens are then sent to a series of Mamba blocks to causally capture the point cloud structure. Experimental results show our proposed PointMamba outperforms the transformer-based counterparts on different point cloud analysis datasets, while significantly saving about 44.3% parameters and 25% FLOPs, demonstrating the potential option for constructing foundational 3D vision models. We hope our PointMamba can provide a new perspective for point cloud analysis. The code is available at https://github.com/LMD0311/PointMamba.
翻訳日:2024-02-21 00:13:39 公開日:2024-02-19
# InSaAF: 正確性と公正性による安全性の確立 : LLMsはインド法定領域に向けて準備が整っているか?

InSaAF: Incorporating Safety through Accuracy and Fairness | Are LLMs ready for the Indian Legal Domain? ( http://arxiv.org/abs/2402.10567v2 )

ライセンス: Link先を確認
Yogesh Tripathi, Raghav Donakanti, Sahil Girhepuje, Ishan Kavathekar, Bhaskara Hanuma Vedula, Gokul S Krishnan, Shreya Goyal, Anmol Goel, Balaraman Ravindran, Ponnurangam Kumaraguru(参考訳) 近年の言語技術と人工知能の進歩により、判断の予測から要約の生成に至るまで、法域における様々なタスクを実行するために多くの言語モデルが提案されている。 その大きな可能性にもかかわらず、これらのモデルは学習し、社会的バイアスを示し、不公平な予測を行うことが証明されている。 本研究では,大規模言語モデル(LLM)の社会的要因が関与するインドの景観における法的タスクを遂行する能力について検討する。 LLMの公平性と正確性の両方をカプセル化した新しい計量である$\beta$-weighted $\textit{Legal Safety Score (LSS_{\beta}$)} を提示する。 我々は,インド社会における様々な格差の軸に関する課題と公正な展示において,その性能を考慮し,LCMsの安全性を評価する。 LLaMAとLLaMA--2モデルのタスク性能と公平性スコアは、提案されたLSS_{\beta}$メトリックが、法分野における安全な使用のためのモデルの可読性を効果的に決定できることを示している。また、偏見を緩和し、モデルの安全性を改善するための潜在的方法として、特別法データセットを利用した微調整パイプラインを提案する。LLaMAとLLaMA--2モデルの微調整手順は、LSS_{\beta}$を増大させ、インドの法域におけるユーザビリティを向上させる。 私たちのコードは公開されています。

Recent advancements in language technology and Artificial Intelligence have resulted in numerous Language Models being proposed to perform various tasks in the legal domain ranging from predicting judgments to generating summaries. Despite their immense potential, these models have been proven to learn and exhibit societal biases and make unfair predictions. In this study, we explore the ability of Large Language Models (LLMs) to perform legal tasks in the Indian landscape when social factors are involved. We present a novel metric, $\beta$-weighted $\textit{Legal Safety Score ($LSS_{\beta}$)}$, which encapsulates both the fairness and accuracy aspects of the LLM. We assess LLMs' safety by considering its performance in the $\textit{Binary Statutory Reasoning}$ task and its fairness exhibition with respect to various axes of disparities in the Indian society. Task performance and fairness scores of LLaMA and LLaMA--2 models indicate that the proposed $LSS_{\beta}$ metric can effectively determine the readiness of a model for safe usage in the legal sector. We also propose finetuning pipelines, utilising specialised legal datasets, as a potential method to mitigate bias and improve model safety. The finetuning procedures on LLaMA and LLaMA--2 models increase the $LSS_{\beta}$, improving their usability in the Indian legal domain. Our code is publicly released.
翻訳日:2024-02-21 00:13:06 公開日:2024-02-19
# ヒルベルト変換スパイク符号化方式を用いた低消費電力SNN音源定位

Low-power SNN-based audio source localisation using a Hilbert Transform spike encoding scheme ( http://arxiv.org/abs/2402.11748v1 )

ライセンス: Link先を確認
Saeid Haghighatshoar and Dylan R Muir(参考訳) 音源ローカライズは多くの家電機器で使われ、個々のスピーカーからオーディオを分離し、ノイズを拒否するのに役立つ。 ローカライゼーションは、マイクロホンオーディオストリームを組み合わせて特定のインシデントソース方向から受信した信号パワーを改善する"ビーアフォーミング"アルゴリズムによってしばしば達成される。 ビームフォーミングアルゴリズムは一般に、音声ソースの周波数成分と既知のマイクロフォンアレイの形状の知識を用いて、それらを結合する前に位相シフトマイクロホンストリームの分析を行う。 帯域通過フィルタの高密度セットは、広帯域オーディオストリームから既知の周波数の「狭帯域」成分を得るためにしばしば用いられる。 これらのアプローチは高い精度を達成するが、最先端の狭帯域ビームフォーミングアルゴリズムは計算上要求されるため、低消費電力iotデバイスへの統合は困難である。 超低消費電力スパイキングニューラルネットワーク(SNN)の効率的な実装を目的とした,任意のマイクロホンアレイにおける音源定位手法を提案する。 我々は,新しい短時間ヒルベルト変換(stht)を用いて,音声の帯域通過フィルタの必要性をなくし,スパイクイベントを伴う音声符号化の新たな手法を提案する。 我々のビームフォーミング・ローカライゼーション手法は,従来の非SNN超解像法に匹敵する,SNN手法の最先端精度を実現する。 提案手法を低消費電力SNN音声推論ハードウェアに展開し,超解像法と比較して低消費電力化を実現している。 我々は,信号処理手法をスパイクニューラルネットワークの実装と協調して高レベルの電力効率を実現することを実証する。 我々の新しいヒルベルト変換を用いたビームフォーミング法は、従来のDSPベースの信号処理の効率を向上させる。

Sound source localisation is used in many consumer electronics devices, to help isolate audio from individual speakers and to reject noise. Localization is frequently accomplished by "beamforming" algorithms, which combine microphone audio streams to improve received signal power from particular incident source directions. Beamforming algorithms generally use knowledge of the frequency components of the audio source, along with the known microphone array geometry, to analytically phase-shift microphone streams before combining them. A dense set of band-pass filters is often used to obtain known-frequency "narrowband" components from wide-band audio streams. These approaches achieve high accuracy, but state of the art narrowband beamforming algorithms are computationally demanding, and are therefore difficult to integrate into low-power IoT devices. We demonstrate a novel method for sound source localisation in arbitrary microphone arrays, designed for efficient implementation in ultra-low-power spiking neural networks (SNNs). We use a novel short-time Hilbert transform (STHT) to remove the need for demanding band-pass filtering of audio, and introduce a new accompanying method for audio encoding with spiking events. Our beamforming and localisation approach achieves state-of-the-art accuracy for SNN methods, and comparable with traditional non-SNN super-resolution approaches. We deploy our method to low-power SNN audio inference hardware, and achieve much lower power consumption compared with super-resolution methods. We demonstrate that signal processing approaches can be co-designed with spiking neural network implementations to achieve high levels of power efficiency. Our new Hilbert-transform-based method for beamforming promises to also improve the efficiency of traditional DSP-based signal processing.
翻訳日:2024-02-20 19:21:28 公開日:2024-02-19
# 言語モデル埋め込みにおける潜在人間ウェルベリングの発見

Uncovering Latent Human Wellbeing in Language Model Embeddings ( http://arxiv.org/abs/2402.11777v1 )

ライセンス: Link先を確認
Pedro Freire, ChengCheng Tan, Adam Gleave, Dan Hendrycks, Scott Emmons(参考訳) 言語モデルは暗黙的に人間の幸福の概念を学ぶか? 我々はETHICS Utilitarianismタスクを通じてこれを探求し、スケーリングが事前訓練されたモデルの表現を高めるかどうかを評価する。 最初の発見によると、OpenAIのtext-embedding-ada-002の主成分は、迅速なエンジニアリングや微調整なしに73.9%の精度が得られる。 これは、ETHICSデータセット全体に微調整されたBERT-largeの74.6%と密接に一致しており、事前訓練は人間の幸福についての理解をいくらか伝えることを示唆している。 次に,4つの言語モデルについて検討し,パラメータの増大に伴って実用主義の正確性がどの程度変化するか観察する。 十分な数の主成分を使用する場合、モデルのサイズが大きくなると性能は低下しない。

Do language models implicitly learn a concept of human wellbeing? We explore this through the ETHICS Utilitarianism task, assessing if scaling enhances pretrained models' representations. Our initial finding reveals that, without any prompt engineering or finetuning, the leading principal component from OpenAI's text-embedding-ada-002 achieves 73.9% accuracy. This closely matches the 74.6% of BERT-large finetuned on the entire ETHICS dataset, suggesting pretraining conveys some understanding about human wellbeing. Next, we consider four language model families, observing how Utilitarianism accuracy varies with increased parameters. We find performance is nondecreasing with increased model size when using sufficient numbers of principal components.
翻訳日:2024-02-20 19:09:57 公開日:2024-02-19
# ArtPrompt: ASCIIアートベースのジェイルブレイク攻撃

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs ( http://arxiv.org/abs/2402.11753v1 )

ライセンス: Link先を確認
Fengqing Jiang, Zhangchen Xu, Luyao Niu, Zhen Xiang, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran(参考訳) 安全性は、大きな言語モデル(LLM)の使用に不可欠である。 LLMの安全性を高めるために、データフィルタリングや教師付き微調整などの複数の技術が開発されている。 しかし、現在知られている手法では、LLMの安全アライメントに使用されるコーパスは意味論的にのみ解釈される。 しかし、この仮定は現実世界のアプリケーションには当てはまらないため、LLMの深刻な脆弱性につながる。 例えば、フォーラムのユーザは、しばしば画像情報を伝えるためにテキストベースのアートであるASCIIアートを使用する。 本稿では, ASCIIアートベースの新しいジェイルブレイク攻撃を提案し, セマンティクスでのみ解釈できないプロンプトを認識する上で, LLMの能力を評価するための総合的ベンチマークViTCを提案する。 5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。 本研究は, ASCII アート認識における LLM の貧弱な性能を活用し, 安全対策を回避し, かつ LLM から望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。 ArtPromptは被害者のLSMへのブラックボックスアクセスしか必要とせず、実用的な攻撃である。 我々は5つのSOTA LLM上でArtPromptを評価し、ArtPromptが5つのLLMすべてから望ましくない振る舞いを効果的かつ効率的に誘導できることを示した。

Safety is critical to the usage of large language models (LLMs). Multiple techniques such as data filtering and supervised fine-tuning have been developed to strengthen LLM safety. However, currently known techniques presume that corpora used for safety alignment of LLMs are solely interpreted by semantics. This assumption, however, does not hold in real-world applications, which leads to severe vulnerabilities in LLMs. For example, users of forums often use ASCII art, a form of text-based art, to convey image information. In this paper, we propose a novel ASCII art-based jailbreak attack and introduce a comprehensive benchmark Vision-in-Text Challenge (ViTC) to evaluate the capabilities of LLMs in recognizing prompts that cannot be solely interpreted by semantics. We show that five SOTA LLMs (GPT-3.5, GPT-4, Gemini, Claude, and Llama2) struggle to recognize prompts provided in the form of ASCII art. Based on this observation, we develop the jailbreak attack ArtPrompt, which leverages the poor performance of LLMs in recognizing ASCII art to bypass safety measures and elicit undesired behaviors from LLMs. ArtPrompt only requires black-box access to the victim LLMs, making it a practical attack. We evaluate ArtPrompt on five SOTA LLMs, and show that ArtPrompt can effectively and efficiently induce undesired behaviors from all five LLMs.
翻訳日:2024-02-20 19:09:43 公開日:2024-02-19
# 対角化SGD:再パラメータ化と平滑化による非微分モデルに対する高速収束SGD

Diagonalisation SGD: Fast & Convergent SGD for Non-Differentiable Models via Reparameterisation and Smoothing ( http://arxiv.org/abs/2402.11752v1 )

ライセンス: Link先を確認
Dominik Wagner, Basim Khajwal, C.-H. Luke Ong(参考訳) 低分散を示す再パラメータ勾配推定器が非微分可能モデルに対して偏りがあることはよく知られている。 これは、確率勾配降下(SGD)のような勾配に基づく最適化手法の正しさを損なう可能性がある。 本稿では,非微分可能関数を区分的に定義するための単純な構文フレームワークを導入し,再パラメータ勾配推定器が偏りのない平滑化を得るための体系的アプローチを提案する。 我々の主な貢献は、SGDの新しい変種である対角化確率勾配(Diagonalisation Stochastic Gradient Descent)であり、最適化中の滑らかな近似の精度を徐々に向上させ、非滑らか(元)目的の定常点への収束を証明している。 私たちのアプローチはシンプルで、高速で、安定しており、仕事の正規化された分散の桁違いの縮小を実現しています。

It is well-known that the reparameterisation gradient estimator, which exhibits low variance in practice, is biased for non-differentiable models. This may compromise correctness of gradient-based optimisation methods such as stochastic gradient descent (SGD). We introduce a simple syntactic framework to define non-differentiable functions piecewisely and present a systematic approach to obtain smoothings for which the reparameterisation gradient estimator is unbiased. Our main contribution is a novel variant of SGD, Diagonalisation Stochastic Gradient Descent, which progressively enhances the accuracy of the smoothed approximation during optimisation, and we prove convergence to stationary points of the unsmoothed (original) objective. Our empirical evaluation reveals benefits over the state of the art: our approach is simple, fast, stable and attains orders of magnitude reduction in work-normalised variance.
翻訳日:2024-02-20 19:09:16 公開日:2024-02-19
# 近接量子限界雑音特性を持つ4波混合を用いた4-8GHzの動特性インダクタンスパラメトリック増幅器

A 4-8 GHz Kinetic Inductance Travelling-Wave Parametric Amplifier Using Four-Wave Mixing with Near Quantum-Limit Noise Performance ( http://arxiv.org/abs/2402.11751v1 )

ライセンス: Link先を確認
Farzad Faramarzi, Ryan Stephenson, Sasha Sypkens, Byeong H. Eom, Henry LeDuc, and Peter Day(参考訳) 動インダクタンス進行波パラメトリック増幅器(KI-TWPA)は、量子制限感度に近づき、比較的高いダイナミックレンジを有する。 このため、低温検出器や超伝導量子ビットに適した読み出し装置であり、量子センシングにも様々な応用がある。 本研究では,NbTiNマイクロストリップ伝送線路における4波長混合に基づくKI-TWPAの設計,製造,性能について述べる。 別個の高周波数帯域で発生する画像トーンから汚染されることなく、4〜8〜GHzの信号帯域を増幅する。 4~8ghz帯は、マイクロ波速度インダクタンス検出器(mkids)やジョセフソンジャンクションベースの量子ビットなどの極低温検出器を読み出すためによく用いられる。 1-dBゲイン圧縮点が-58dBmの4波長混合による最大ゲイン20dB以上を,そのバンドよりも15dBのゲイン15dBで測定した。 帯域幅とピークゲインは、ポンプ音の周波数と電力を調整することで調整可能である。 また、Y-factor法を用いて、4.5 - 8GHzの1.5$光子の増幅器付加雑音を測定した。

Kinetic inductance traveling-wave parametric amplifiers (KI-TWPA) have a wide instantaneous bandwidth with near quantum-limited sensitivity and a relatively high dynamic range. Because of this, they are suitable readout devices for cryogenic detectors and superconducting qubits and have a variety of applications in quantum sensing. This work discusses the design, fabrication, and performance of a KI-TWPA based on four-wave mixing in a NbTiN microstrip transmission line. This device amplifies a signal band from 4 to 8~GHz without contamination from image tones, which are produced in a separate higher frequency band. The 4 - 8~GHz band is commonly used to read out cryogenic detectors, such as microwave kinetic inductance detectors (MKIDs) and Josephson junction-based qubits. We report a measured maximum gain of over 20 dB using four-wave mixing with a 1-dB gain compression point of -58 dBm at 15 dB of gain over that band. The bandwidth and peak gain are tunable by adjusting the pump-tone frequency and power. Using a Y-factor method, we measure an amplifier-added noise of $ 0.5 \leq N_{added} \leq 1.5$ photons from 4.5 - 8 GHz.
翻訳日:2024-02-20 19:08:57 公開日:2024-02-19
# 影響分析によるインテクスト学習の実証選択

In-Context Learning Demonstration Selection via Influence Analysis ( http://arxiv.org/abs/2402.11750v1 )

ライセンス: Link先を確認
Vinay M.S., Minh-Hao Van, Xintao Wu(参考訳) 大規模言語モデル(llm)は、グラデーション更新なしで、わずかなショット学習を実行する機会を提供する、コンテキスト内学習(icl)機能を実証した。 複数の利点があるにもかかわらず、iclの一般化性能は選択されたデモに敏感である。 iclの効果的なデモの選択は、まだオープンリサーチの課題である。 この課題に対処するために,インフルエンス機能を通じてトレーニングサンプルの影響を分析するinficlというデモンストレーション選択手法を提案する。 高い影響力を持つトレーニングサンプルの特定は、iclの一般化性能向上に役立つ可能性がある。 inficlの実行コストを制限するため、サンプル埋め込みを生成するのにllmのみを使用し、コストのかかる微調整は行いません。 複数の実世界のデータセットに関する実証的研究を行い、最先端のベースラインに対するInfICLのメリットを示します。

Large Language Models (LLMs) have demonstrated their In-Context Learning (ICL) capabilities which provides an opportunity to perform few shot learning without any gradient update. Despite its multiple benefits, ICL generalization performance is sensitive to the selected demonstrations. Selecting effective demonstrations for ICL is still an open research challenge. To address this challenge, we propose a demonstration selection method called InfICL which analyzes influences of training samples through influence functions. Identifying highly influential training samples can potentially aid in uplifting the ICL generalization performance. To limit the running cost of InfICL, we only employ the LLM to generate sample embeddings, and don't perform any costly fine tuning. We perform empirical study on multiple real-world datasets and show merits of our InfICL against state-of-the-art baselines.
翻訳日:2024-02-20 19:08:35 公開日:2024-02-19
# 音声感情認識と領域適応のためのパラメータ最適化

Parameter Efficient Finetuning for Speech Emotion Recognition and Domain Adaptation ( http://arxiv.org/abs/2402.11747v1 )

ライセンス: Link先を確認
Nineli Lashkarashvili, Wen Wu, Guangzhi Sun, Philip C. Woodland(参考訳) 基礎モデルは音声感情認識(ser)において優れた性能を示している。 しかし、感情コーパスの限られたデータを考えると、SERのための大きな事前訓練されたモデルのパラメータをすべて微調整することはリソース集約的であり、過度に適合する可能性がある。 本稿では,SERのためのパラメータ効率ファインタニング(PEFT)について検討する。 離散的感情カテゴリーの分類と次元的感情特性の予測について,様々なPEFT適応器を系統的に研究した。 その結果,PEFT法とPEFT法の組み合わせは,トレーニング可能なパラメータの数を大幅に減らした。 さらに、2段階の適応戦略により、より容易に利用できる行動感情データに基づいて訓練されたモデルを適応させ、自然な感情表現を捉えやすくする。 コーパス内およびクロスコーパス内実験は、ソースドメインとターゲットドメインの両方の性能向上における提案手法の有効性を検証する。

Foundation models have shown superior performance for speech emotion recognition (SER). However, given the limited data in emotion corpora, finetuning all parameters of large pre-trained models for SER can be both resource-intensive and susceptible to overfitting. This paper investigates parameter-efficient finetuning (PEFT) for SER. Various PEFT adaptors are systematically studied for both classification of discrete emotion categories and prediction of dimensional emotional attributes. The results demonstrate that the combination of PEFT methods surpasses full finetuning with a significant reduction in the number of trainable parameters. Furthermore, a two-stage adaptation strategy is proposed to adapt models trained on acted emotion data, which is more readily available, to make the model more adept at capturing natural emotional expressions. Both intra- and cross-corpus experiments validate the efficacy of the proposed approach in enhancing the performance on both the source and target domains.
翻訳日:2024-02-20 19:08:22 公開日:2024-02-19
# 言語モデルはホーマー・シンプソン! タスク演算による微調整言語モデルの安全性再評価

Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic ( http://arxiv.org/abs/2402.11746v1 )

ライセンス: Link先を確認
Rishabh Bhardwaj, Do Duc Anh, Soujanya Poria(参考訳) 言語モデルの微調整が安全を損なうことがしばしばあるため、言語モデルは重大な制限に直面します。 そこで本研究では,LLMの安全性向上を実現するシンプルな方法RESTAを提案する。 RESTA は Task Arithmetic による安全の維持を意味する。 中心となるのは、妥協されたモデルの重みに安全ベクトルを単純な算術的に付加することである。 我々は、パラメータ効率とフル微調整におけるRESTAの有効性を実証し、中国語、英語、ヒンディー語での指示や、コードと数学における問題解決機能を含む幅広い下流タスクをカバーした。 また,既存の3つの安全評価ベンチマークと,11のカテゴリをカバーする550の有害質問からなる多言語ベンチマークデータセットについて,restaの汎用性を示す。 全体として、restaは漏洩したモデルの有害性を18.6%から5.1%に、パラメーター効率と完全な微調整において9.2%から1.5%に低下させる。 ソースコードはhttps://github.com/declare-lab/resta。

Aligned language models face a significant limitation as their fine-tuning often results in compromised safety. To tackle this, we propose a simple method RESTA that performs LLM safety realignment. RESTA stands for REstoring Safety through Task Arithmetic. At its core, it involves a simple arithmetic addition of a safety vector to the weights of the compromised model. We demonstrate the effectiveness of RESTA in both parameter-efficient and full fine-tuning, covering a wide range of downstream tasks, including instruction following in Chinese, English, and Hindi, as well as problem-solving capabilities in Code and Math. We also showcase the generalizability of RESTA on three existing safety evaluation benchmarks and a multilingual benchmark dataset proposed as a part of this work, consisting of 550 harmful questions covering 11 categories, each with 5 sub-categories of harm. Overall, RESTA decreases the harmfulness of the compromised model from 18.6% to 5.1% and from 9.2% to 1.5% in parameter-efficient and full fine-tuning, respectively, while maintaining most of the model's performance on the task. We release the source codes at: https://github.com/declare-lab/resta.
翻訳日:2024-02-20 19:08:05 公開日:2024-02-19
# マシン生成テキストローカライズ

Machine-generated Text Localization ( http://arxiv.org/abs/2402.11744v1 )

ライセンス: Link先を確認
Zhongping Zhang, Wenda Qin, Bryan A. Plummer(参考訳) MGT(Machine-Generated Text)検出は、テキストを機械または人文として識別することを目的としている。 それまでの作業はMGTを文書全体に対するバイナリ分類タスクとして定式化しており、文書の一部のみが機械生成される場合に限定的な作業である。 本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。 したがって、悪役がニュース記事の重要部分を変更して誤報を広めると、大半は人間が書いたため、全文書mgt検出は失敗するかもしれないが、その粒度の細かいアプローチによって、我々のアプローチは成功する。 MGTローカライゼーションタスクにおける重要な課題は、例えば1文のような短いテキストが、その短い長さのために機械が生成されるかどうかを示す情報が少ないことである。 これに対処するために、複数の文が機械か人間かを同時に書くかを予測する文脈情報を利用する。 これにより、パフォーマンスを高めるためにスタイルやコンテンツの変更を特定することができます。 以前の作業に対する平均精度(map)は4-13%上昇し、goodnews、visualnews、wikitext、エッセイ、wpの5つの多様なデータセットに対するアプローチの有効性が示されている。 実装は \href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL} でリリースしています。

Machine-Generated Text (MGT) detection aims to identify a piece of text as machine or human written. Prior work has primarily formulated MGT as a binary classification task over an entire document, with limited work exploring cases where only part of a document is machine generated. This paper provides the first in-depth study of MGT that localizes the portions of a document that were machine generated. Thus, if a bad actor were to change a key portion of a news article to spread misinformation, whole document MGT detection may fail since the vast majority is human written, but our approach can succeed due to its granular approach. A key challenge in our MGT localization task is that short spans of text, e.g., a single sentence, provides little information indicating if it is machine generated due to its short length. To address this, we leverage contextual information, where we predict whether multiple sentences are machine or human written at once. This enables our approach to identify changes in style or content to boost performance. A gain of 4-13% mean Average Precision (mAP) over prior work demonstrates the effectiveness of approach on five diverse datasets: GoodNews, VisualNews, WikiText, Essay, and WP. We release our implementation at \href{https://github.com/Zhongping-Zhang/MGT_Localization}{this http URL}.
翻訳日:2024-02-20 19:07:47 公開日:2024-02-19
# generation meets verification: smart parallel auto-correct decodingによる大規模言語モデル推論の高速化

Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding ( http://arxiv.org/abs/2402.11809v1 )

ライセンス: Link先を確認
Hanling Yi, Feng Lin, Hongbin Li, Peiyang Ning, Xiaotian Yu, Rong Xiao(参考訳) 本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 本稿では, LLMのロスレスアクセラレーションを実現するための革新的なアプローチであるSPACE(textbf{S}mart \textbf{P}arallel \textbf{A}uto-\textbf{C}orrect d\textbf{E}coding)を提案する。 半自己回帰推論と投機的復号機能を統合することにより、SPACEはトークン生成と検証を並列化する自動回帰LDMを独自に実現している。 これは、既存のllmに複数のトークンを同時に予測する能力を与える特別な半自己回帰的教師付き微調整プロセスによって実現される。 さらに、自動訂正復号アルゴリズムは、1つのモデル呼び出し内でトークンシーケンスの同時生成と検証を容易にする。 幅広い LLM の実験を通じて、SPACE は出力品質を維持しながら、HumanEval-X 上の2.7x-4.0x までの推論速度を実証した。

This research aims to accelerate the inference speed of large language models (LLMs) with billions of parameters. We propose \textbf{S}mart \textbf{P}arallel \textbf{A}uto-\textbf{C}orrect d\textbf{E}coding (SPACE), an innovative approach designed for achieving lossless acceleration of LLMs. By integrating semi-autoregressive inference and speculative decoding capabilities, SPACE uniquely enables autoregressive LLMs to parallelize token generation and verification. This is realized through a specialized semi-autoregressive supervised fine-tuning process that equips existing LLMs with the ability to simultaneously predict multiple tokens. Additionally, an auto-correct decoding algorithm facilitates the simultaneous generation and verification of token sequences within a single model invocation. Through extensive experiments on a range of LLMs, SPACE has demonstrated inference speedup ranging from 2.7x-4.0x on HumanEval-X while maintaining output quality.
翻訳日:2024-02-20 18:56:50 公開日:2024-02-19
# マルチキュービットな拡張不能な製品ベースの構築

The construction of multiqubit unextendible product bases ( http://arxiv.org/abs/2402.11785v1 )

ライセンス: Link先を確認
Caohan Cheng and Lin Chen(参考訳) 拡張不可能直交行列(UPB)は、量子情報の様々な問題に利用できる。 2つの UPB が互いに等価でないかどうかをチェックするアルゴリズムを提供する。 提案手法は UPB の構成法であり,本手法を適用して 5 ビットの UPB サイズ 8 のすべての UPB を求める。 提案アルゴリズムを用いて,5ドルキュービット UPB サイズ 8 が互いに等価でないかどうかを確認する。 サイズ 8 の 5$-qubit の UPB の全てに基づいて、与えられた UPB に同値でない新しい UPB を構築するための定理を提案する。

The unextendible orthogonal matrices (UPBs) can be used for various problems in quantum information. We provide an algorithm to check if two UPBs are non-equivalent to each other. We give a method to construct UPBs and we apply this method to find all $5$-qubit UPBs of size eight. We apply the algorithm to check if the $5$-qubit UPBs of size eight are non-equivalent to each other. Based on all the $5$-qubit UPBs of size eight, we propose a theorem for constructing a new UPB non-equivalent to a given one.
翻訳日:2024-02-20 18:56:34 公開日:2024-02-19
# 言語モデルが説得力を持つ証拠は何か?

What Evidence Do Language Models Find Convincing? ( http://arxiv.org/abs/2402.11782v1 )

ライセンス: Link先を確認
Alexander Wan, Eric Wallace, Dan Klein(参考訳) 検索型言語モデルでは,主観的,議論的,矛盾するクエリ("is aspartame linked to cancer" など)のタスクがますます多くなっています。 これらの曖昧なクエリを解決するには、広範囲のWebサイトを検索し、“この証拠のどれが説得力があるか”を考える必要がある。 本研究では, LLM がこの疑問にどう答えるかを検討する。 具体的には、異なる事実(例えば、定量的な結果)、議論のスタイル(例えば、権威への訴え)、回答(yes or no)を含む一連の実世界の証拠文書と、議論の分かれるクエリを組み合わせるデータセット conflictingqa を構築します。 このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。 全体として、現在のモデルは、webサイトとクエリとの関連性に大きく依存しているが、テキストが科学的な参照を含むか、中立的なトーンで書かれているかといった、人間が重要視するスタイル的特徴は無視している。 これらの結果は、RAGコーパスの品質の重要性(例えば、誤報をフィルタリングする必要性)と、LLMが人間の判断によく適合するように訓練される方法の変化を浮き彫りにした。

Retrieval-augmented language models are being increasingly tasked with subjective, contentious, and conflicting queries such as "is aspartame linked to cancer". To resolve these ambiguous queries, one must search through a large range of websites and consider "which, if any, of this evidence do I find convincing?". In this work, we study how LLMs answer this question. In particular, we construct ConflictingQA, a dataset that pairs controversial queries with a series of real-world evidence documents that contain different facts (e.g., quantitative results), argument styles (e.g., appeals to authority), and answers (Yes or No). We use this dataset to perform sensitivity and counterfactual analyses to explore which text features most affect LLM predictions. Overall, we find that current models rely heavily on the relevance of a website to the query, while largely ignoring stylistic features that humans find important such as whether a text contains scientific references or is written with a neutral tone. Taken together, these results highlight the importance of RAG corpus quality (e.g., the need to filter misinformation), and possibly even a shift in how LLMs are trained to better align with human judgements.
翻訳日:2024-02-20 18:56:24 公開日:2024-02-19
# DNNアーキテクチャとコンピュート・イン・メモリハードウェアの構成の協調最適化に向けて

Towards Joint Optimization for DNN Architecture and Configuration for Compute-In-Memory Hardware ( http://arxiv.org/abs/2402.11780v1 )

ライセンス: Link先を確認
Souvik Kundu, Anthony Sarah, Vinay Joshi, Om J Omer, Sreenivas Subramoney(参考訳) 最近の大規模深層ニューラルネットワークの需要増加に伴い、計算インメモリ(cim)は、von-neumanアーキテクチャを制約する帯域幅とチップ上のインターコネクトボトルネックを緩和するための顕著なソリューションとして考案された。 しかし、CiMハードウェアの構築は、異なるインタフェースにおけるキャッシュサイズとメモリ帯域幅の特定のメモリ階層が、テンソル次元や演算強度などのニューラルネットワークの属性と理想的に一致しない可能性があるため、最適化された性能の低いシステムに繋がる。 ニューラルネットワークサーチ(NAS)技術は、与えられたハードウェアメトリック予算(例えば、DNNの実行時間やレイテンシ)に対して効率的なサブネットワークを提供することに成功したが、ハードウェア構成は凍結され、しばしば与えられた予算に対して最適なサブネットワークを提供する。 本稿では,CiMアーキテクチャのための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。 提案フレームワークは、サブネットワークの性能と、帯域幅、処理要素サイズ、メモリサイズを含むCiMハードウェア構成の複雑な相互作用を理解することができる。 CNNとTransformerファミリーの異なるモデルアーキテクチャに関する実験は、CiMNetが協調最適化サブネットワークとCiMハードウェア構成を見つける上で有効であることを実証している。 具体的には、ImageNetの分類精度をベースラインのViT-Bと同等にするために、モデルアーキテクチャのみを最適化するとパフォーマンスが1.7倍に向上し、モデルアーキテクチャとハードウェア構成の両方を最適化すると3.1倍に向上する。

With the recent growth in demand for large-scale deep neural networks, compute in-memory (CiM) has come up as a prominent solution to alleviate bandwidth and on-chip interconnect bottlenecks that constrain Von-Neuman architectures. However, the construction of CiM hardware poses a challenge as any specific memory hierarchy in terms of cache sizes and memory bandwidth at different interfaces may not be ideally matched to any neural network's attributes such as tensor dimension and arithmetic intensity, thus leading to suboptimal and under-performing systems. Despite the success of neural architecture search (NAS) techniques in yielding efficient sub-networks for a given hardware metric budget (e.g., DNN execution time or latency), it assumes the hardware configuration to be frozen, often yielding sub-optimal sub-networks for a given budget. In this paper, we present CiMNet, a framework that jointly searches for optimal sub-networks and hardware configurations for CiM architectures creating a Pareto optimal frontier of downstream task accuracy and execution metrics (e.g., latency). The proposed framework can comprehend the complex interplay between a sub-network's performance and the CiM hardware configuration choices including bandwidth, processing element size, and memory size. Exhaustive experiments on different model architectures from both CNN and Transformer families demonstrate the efficacy of the CiMNet in finding co-optimized sub-networks and CiM hardware configurations. Specifically, for similar ImageNet classification accuracy as baseline ViT-B, optimizing only the model architecture increases performance (or reduces workload execution time) by 1.7x while optimizing for both the model architecture and hardware configuration increases it by 3.1x.
翻訳日:2024-02-20 18:56:00 公開日:2024-02-19
# 自己消費生成モデルの理論的理解に向けて

Towards Theoretical Understandings of Self-Consuming Generative Models ( http://arxiv.org/abs/2402.11778v1 )

ライセンス: Link先を確認
Shi Fu, Sen Zhang, Yingjie Wang, Xinmei Tian, Dacheng Tao(参考訳) 本稿では,実データと合成データの混合データを用いて,連続するモデルが再帰的に訓練される自己消費ループ内の生成モデル訓練の新たな課題に挑戦する。 我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。 具体的には、様々な混合訓練シナリオにおいて、将来のモデルによって生成された合成データ分布と元の実データ分布との間の全変動(tv)距離の境界を導出する。 この距離は,混合学習データセットのサイズや実データの比率が十分に大きいという条件下で効果的に制御できることを示す。 興味深いことに、我々は合成データ量の拡大によって誘導される相転移をさらに明らかにし、TV距離が初期上昇を示す一方で、しきい値を超えていることを理論的に証明した。 最後に,拡散モデルに一般結果を特化して,自己消費ループ内での最適早期停止の有効性などの曖昧な洞察を提供する。

This paper tackles the emerging challenge of training generative models within a self-consuming loop, wherein successive generations of models are recursively trained on mixtures of real and synthetic data from previous generations. We construct a theoretical framework to rigorously evaluate how this training regimen impacts the data distributions learned by future models. Specifically, we derive bounds on the total variation (TV) distance between the synthetic data distributions produced by future models and the original real data distribution under various mixed training scenarios. Our analysis demonstrates that this distance can be effectively controlled under the condition that mixed training dataset sizes or proportions of real data are large enough. Interestingly, we further unveil a phase transition induced by expanding synthetic data amounts, proving theoretically that while the TV distance exhibits an initial ascent, it declines beyond a threshold point. Finally, we specialize our general results to diffusion models, delivering nuanced insights such as the efficacy of optimal early stopping within the self-consuming loop.
翻訳日:2024-02-20 18:55:26 公開日:2024-02-19
# fod-swin-net: トランスベース深層モデルによる繊維配向分布の角超解像

FOD-Swin-Net: angular super resolution of fiber orientation distribution using a transformer-based deep model ( http://arxiv.org/abs/2402.11775v1 )

ライセンス: Link先を確認
Mateus Oliveira da Silva, Caio Pinheiro Santana, Diedre Santos do Carmo, Let\'icia Rittner(参考訳) 脳線維束の同定と特徴付けは多くの疾患や病態を理解するのに役立つ。 このプロセスの重要なステップは、拡散重み付け磁気共鳴イメージング(DW-MRI)を用いた繊維配向の推定である。 しかし、ロバストな配向推定値を得るには高解像度のデータが必要であり、必ずしも臨床的に利用できない長い買収につながる。 本研究では,この課題を克服するために,高速な取得から自動角化超解法を用いることを検討する。 我々は,Human Connectome Project (HCP) DW-MRIデータを用いて,繊維配向分布(FOD)における角超解像を実現するために,トランスフォーマーに基づくディープラーニングアーキテクチャを訓練した。 パッチベースの手法であるFOD-Swin-Netは、32方向から駆動される単一シェル再構成を複数シェル288方向のFOD再構成に匹敵するように実現し、初期取得に必要な方向の数を大幅に削減できる。 角相関係数と定性的可視化による再構成fodの評価は, hcp試験データにおいて, 最新技術よりも優れた性能を示す。 再現性のためのオープンソースコードはhttps://github.com/MICLab-Unicamp/FOD-Swin-Netで公開されている。

Identifying and characterizing brain fiber bundles can help to understand many diseases and conditions. An important step in this process is the estimation of fiber orientations using Diffusion-Weighted Magnetic Resonance Imaging (DW-MRI). However, obtaining robust orientation estimates demands high-resolution data, leading to lengthy acquisitions that are not always clinically available. In this work, we explore the use of automated angular super resolution from faster acquisitions to overcome this challenge. Using the publicly available Human Connectome Project (HCP) DW-MRI data, we trained a transformer-based deep learning architecture to achieve angular super resolution in fiber orientation distribution (FOD). Our patch-based methodology, FOD-Swin-Net, is able to bring a single-shell reconstruction driven from 32 directions to be comparable to a multi-shell 288 direction FOD reconstruction, greatly reducing the number of required directions on initial acquisition. Evaluations of the reconstructed FOD with Angular Correlation Coefficient and qualitative visualizations reveal superior performance than the state-of-the-art in HCP testing data. Open source code for reproducibility is available at https://github.com/MICLab-Unicamp/FOD-Swin-Net.
翻訳日:2024-02-20 18:55:09 公開日:2024-02-19
# テンソル時系列の動的マルチネットワークマイニング

Dynamic Multi-Network Mining of Tensor Time Series ( http://arxiv.org/abs/2402.11773v1 )

ライセンス: Link先を確認
Kohei Obata, Koki Kawabata, Yasuko Matsubara, Yasushi Sakurai(参考訳) 時系列のサブシーケンスクラスタリングは、データマイニングにおいて不可欠なタスクであり、結果として得られたクラスタを解釈するのもまた重要です。 したがって、タイムスタンプを含む複数のモードからなるテンソル時系列の大規模なコレクションを考えると、どのようにテンソル時系列のサブシーケンスクラスタリングを達成し、解釈可能な洞察を提供するのか? 本稿では,テンソル時系列を,l1-ノルムに制約された依存ネットワークを特徴とする,様々な長さ(すなわちクラスタ)のセグメント群に変換する新しい手法である動的マルチネットワークマイニング(dmm)を提案する。 本手法は以下の性質を有する。 (a)解釈可能:クラスタを複数のネットワークで特徴付け、それぞれが対応する非時間モードのスパース依存ネットワークであり、キー関係に対する可視的かつ解釈可能な洞察を提供する。 (b)正確:最小記述長(mdl)に従って、テンソル時系列から異なるネットワークを持つクラスタを検出する。 (c)スケーラブル:非凸問題を解く際に、セグメント数やクラスタ数を最適化するために、入力データサイズの観点から線形にスケールするので、長距離および高次元テンソルに適用できる。 合成データセットを用いた広範囲な実験により,本手法がクラスタリング精度において最先端手法よりも優れていることを確認した。 次に、実際のデータセットを用いて、DMMがテンソル時系列からの解釈可能な洞察を提供するのに役立つことを示す。

Subsequence clustering of time series is an essential task in data mining, and interpreting the resulting clusters is also crucial since we generally do not have prior knowledge of the data. Thus, given a large collection of tensor time series consisting of multiple modes, including timestamps, how can we achieve subsequence clustering for tensor time series and provide interpretable insights? In this paper, we propose a new method, Dynamic Multi-network Mining (DMM), that converts a tensor time series into a set of segment groups of various lengths (i.e., clusters) characterized by a dependency network constrained with l1-norm. Our method has the following properties. (a) Interpretable: it characterizes the cluster with multiple networks, each of which is a sparse dependency network of a corresponding non-temporal mode, and thus provides visible and interpretable insights into the key relationships. (b) Accurate: it discovers the clusters with distinct networks from tensor time series according to the minimum description length (MDL). (c) Scalable: it scales linearly in terms of the input data size when solving a non-convex problem to optimize the number of segments and clusters, and thus it is applicable to long-range and high-dimensional tensors. Extensive experiments with synthetic datasets confirm that our method outperforms the state-of-the-art methods in terms of clustering accuracy. We then use real datasets to demonstrate that DMM is useful for providing interpretable insights from tensor time series.
翻訳日:2024-02-20 18:54:49 公開日:2024-02-19
# 指標に基づく治療割当の有効性の評価

Evaluating the Effectiveness of Index-Based Treatment Allocation ( http://arxiv.org/abs/2402.11771v1 )

ライセンス: Link先を確認
Niclas Boehmer, Yash Nair, Sanket Shah, Lucas Janson, Aparna Taneja, Milind Tambe(参考訳) リソースが不足する場合、誰がリソースを受け取るかを決めるために割り当てポリシーが必要となる。 この問題は、例えば、少ない医療資源を割り当てるときに起こり、近代的なML手法でしばしば解決される。 本稿では, ランダム化制御試験のデータを用いて, 最適な資源を最も必要とする人に割り当てる, インデックスベースのアロケーションポリシーを評価する手法を提案する。 このようなポリシーはエージェント間の依存関係を生成し、標準統計テストの背後にある仮定を無効にし、推定器の有効性を制限する。 これらの課題に対処し,最近の研究成果を統計文献から翻訳・拡張し,漸近的に正しい信頼区間を計算するための効率的な推定器と手法を提案する。 これにより,実効的な統計的結論,すなわち先行研究における重要なギャップを効果的に引き出すことができる。 本研究は,我々の方法論を実践的に検証すると共に,その統計的能力を示すものである。 我々は、過去のランダム化制御試験を再評価し、mHealthプログラムの文脈で異なるMLアロケーションポリシーを評価するための方法論の拡張を提案し、実証的に検証し、これまで目に見えない結論を導き出す。

When resources are scarce, an allocation policy is needed to decide who receives a resource. This problem occurs, for instance, when allocating scarce medical resources and is often solved using modern ML methods. This paper introduces methods to evaluate index-based allocation policies -- that allocate a fixed number of resources to those who need them the most -- by using data from a randomized control trial. Such policies create dependencies between agents, which render the assumptions behind standard statistical tests invalid and limit the effectiveness of estimators. Addressing these challenges, we translate and extend recent ideas from the statistics literature to present an efficient estimator and methods for computing asymptotically correct confidence intervals. This enables us to effectively draw valid statistical conclusions, a critical gap in previous work. Our extensive experiments validate our methodology in practical settings, while also showcasing its statistical power. We conclude by proposing and empirically verifying extensions of our methodology that enable us to reevaluate a past randomized control trial to evaluate different ML allocation policies in the context of a mHealth program, drawing previously invisible conclusions.
翻訳日:2024-02-20 18:54:24 公開日:2024-02-19
# コンテントグラウンドQA会話のFew-Shot生成のための構造化連鎖プロンプト

Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations ( http://arxiv.org/abs/2402.11770v1 )

ライセンス: Link先を確認
Md Arafat Sultan and Jatin Ganhotra and Ram\'on Fernandez Astudillo(参考訳) 本稿では,事前学習された大言語モデル(LLM)を用いて,コンテント・グラウンド・マルチターン質問応答会話を生成するための構造化チェーン・オブ・シント(SCoT)を提案する。 我々の提案の核心は、複雑なタスクをステートマシン内の複数の状態に構造化し、コンテンツ読み込みや発話生成といった様々なサブタスクに対応するアクションを、それぞれの専用状態で実行できるようにすることである。 各状態はプロンプトや(オプションで)追加ツールを含むユニークなリソースセットを活用して生成プロセスを強化している。 実験の結果,SCoTによる幻覚の緩和は,文書の接地に対するエージェント忠実度を最大16.8%向上させることがわかった。 トレーニングデータとして使用する場合、ウィキペディアをベースとした6つのシードデモから合成したオープンドメインの会話は、強力な会話型QAエージェントを訓練する。

We introduce a structured chain-of-thought (SCoT) prompting approach to generating content-grounded multi-turn question-answer conversations using a pre-trained large language model (LLM). At the core of our proposal is a structured breakdown of the complex task into a number of states in a state machine, so that actions corresponding to various subtasks, e.g., content reading and utterance generation, can be executed in their own dedicated states. Each state leverages a unique set of resources including prompts and (optionally) additional tools to augment the generation process. Our experimental results show that SCoT prompting with designated states for hallucination mitigation increases agent faithfulness to grounding documents by up to 16.8%. When used as training data, our open-domain conversations synthesized from only 6 Wikipedia-based seed demonstrations train strong conversational QA agents; in out-of-domain evaluation, for example, we observe improvements of up to 13.9% over target domain gold data when the latter is augmented with our generated examples.
翻訳日:2024-02-20 18:54:06 公開日:2024-02-19
# LLMのパラメータ効率向上のためのChatGPTに基づくデータ拡張

ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs ( http://arxiv.org/abs/2402.11764v1 )

ライセンス: Link先を確認
Pengrui Han, Rafal Kocielnik, Adhithya Saravanan, Roy Jiang, Or Sharir, Anima Anandkumar(参考訳) 大きな言語モデル(LLM)は強力だが、有害な社会的バイアスを示す。 遅延は計算コスト、データ制約、マルチタスク言語能力の潜在的な劣化のためにしばしば困難である。 本研究は, 合成学習データの生成にChatGPTを用いた新しい手法を導入し, LLMの劣化の促進を目的とした。 我々は、既知のバイアスに対して効果的なデバイアスを提供するが、問題のバイアスの事前指定を必要とするターゲットプロンプトと、いくつかのカテゴリでデバイアスを提供する一般的なプロンプトの2つの戦略を提案する。 アダプタチューニングを用いたリソース効率の高いllmデバイアスを活用し,既存のデバイアスデータセットと合成データの有効性を比較した。 以上の結果から,(1)ChatGPTは,他のLSMを劣化させるための高品質なトレーニングデータを効率よく生成することができること,(2)既存のLCMの内部知識を保ちながら,デバイアス性能のデータセットを超越したデータが得られること,(3)合成データはカテゴリ間での一般化性を示し,交叉性を含む様々なバイアスを効果的に軽減できることを示した。 これらの結果は,LLMの公正性を最小再トレーニングコストで推し進める上での合成データの可能性を裏付けるものである。

Large Language models (LLMs), while powerful, exhibit harmful social biases. Debiasing is often challenging due to computational costs, data constraints, and potential degradation of multi-task language capabilities. This work introduces a novel approach utilizing ChatGPT to generate synthetic training data, aiming to enhance the debiasing of LLMs. We propose two strategies: Targeted Prompting, which provides effective debiasing for known biases but necessitates prior specification of bias in question; and General Prompting, which, while slightly less effective, offers debiasing across various categories. We leverage resource-efficient LLM debiasing using adapter tuning and compare the effectiveness of our synthetic data to existing debiasing datasets. Our results reveal that: (1) ChatGPT can efficiently produce high-quality training data for debiasing other LLMs; (2) data produced via our approach surpasses existing datasets in debiasing performance while also preserving internal knowledge of a pre-trained LLM; and (3) synthetic data exhibits generalizability across categories, effectively mitigating various biases, including intersectional ones. These findings underscore the potential of synthetic data in advancing the fairness of LLMs with minimal retraining cost.
翻訳日:2024-02-20 18:53:47 公開日:2024-02-19
# 予測カスケードの擬似代替としての強化学習:画像セグメンテーションを事例として

Reinforcement Learning as a Parsimonious Alternative to Prediction Cascades: A Case Study on Image Segmentation ( http://arxiv.org/abs/2402.11760v1 )

ライセンス: Link先を確認
Bharat Srikishan, Anika Tabassum, Srikanth Allu, Ramakrishnan Kannan, Nikhil Muralidhar(参考訳) ディープラーニングアーキテクチャは、オブジェクト検出やイメージセグメンテーションといったコンピュータビジョンタスクにおいて、最先端(SOTA)のパフォーマンスを達成した。 これは、大規模なデータセットで実行される過度にパラメータ化されたモノリシックなディープラーニングアーキテクチャの使用に起因する可能性がある。 このようなアーキテクチャは精度の向上につながるが、通常、推論中に計算量とメモリ要件が大幅に増加する。 これは従来の機械学習パイプラインでは問題ではないが、最近の機械学習とモノのインターネットのような分野の融合によって、そのような大きなアーキテクチャは低リソース環境では実行不可能になっている。 このような設定では、所望のパフォーマンスが達成されるまで、入力が複雑さを増すモデルを通して渡される決定カスケードが提案されている。 しかし, カスケード予測は, 中間計算の無駄による計算コストの増大につながると論じる。 そこで本研究では,カスケード型アーキテクチャに代わる非カスケード型・コスト対応型学習パイプラインであるpaser(parsimonious segmentation with reinforcement learning)を提案する。 実世界および標準データセットの実験的評価を通じて、pasperはカスケードされたモデルに対する計算コストを最小化しながら、より良い精度を達成できることを実証する。 さらに,コストと性能のバランスを評価するため,新しい指標IoU/GigaFlopを導入する。 電池材料相分割の現実世界のタスクにおいて、pasperはベースラインに関してiou/gigaflopメトリックの最小性能改善を174%で得る。 また、ノイズの多いMNISTデータセットでトレーニングされた補完モデルに対するPaSeRの適応性を示し、SOTAモデルよりも13.4%のIoU/GigaFlopで最小性能の改善を達成した。 コードとデータはhttps://github.com/scailab/paser.comで入手できる。

Deep learning architectures have achieved state-of-the-art (SOTA) performance on computer vision tasks such as object detection and image segmentation. This may be attributed to the use of over-parameterized, monolithic deep learning architectures executed on large datasets. Although such architectures lead to increased accuracy, this is usually accompanied by a large increase in computation and memory requirements during inference. While this is a non-issue in traditional machine learning pipelines, the recent confluence of machine learning and fields like the Internet of Things has rendered such large architectures infeasible for execution in low-resource settings. In such settings, previous efforts have proposed decision cascades where inputs are passed through models of increasing complexity until desired performance is achieved. However, we argue that cascaded prediction leads to increased computational cost due to wasteful intermediate computations. To address this, we propose PaSeR (Parsimonious Segmentation with Reinforcement Learning) a non-cascading, cost-aware learning pipeline as an alternative to cascaded architectures. Through experimental evaluation on real-world and standard datasets, we demonstrate that PaSeR achieves better accuracy while minimizing computational cost relative to cascaded models. Further, we introduce a new metric IoU/GigaFlop to evaluate the balance between cost and performance. On the real-world task of battery material phase segmentation, PaSeR yields a minimum performance improvement of 174% on the IoU/GigaFlop metric with respect to baselines. We also demonstrate PaSeR's adaptability to complementary models trained on a noisy MNIST dataset, where it achieved a minimum performance improvement on IoU/GigaFlop of 13.4% over SOTA models. Code and data are available at https://github.com/scailab/paser .
翻訳日:2024-02-20 18:53:23 公開日:2024-02-19
# ステミングのための大規模言語モデル:約束、落とし穴、失敗

Large Language Models for Stemming: Promises, Pitfalls and Failures ( http://arxiv.org/abs/2402.11757v1 )

ライセンス: Link先を確認
Shuai Wang, Shengyao Zhuang, Guido Zuccon(参考訳) テキスト・ステミング(英: Text stemming)は、自然言語処理の技法で、単語を基本形に減らすために用いられる。 IRにおける幹細胞の使用は、BM25のようなキーワードマッチングモデルの有効性を改善することがしばしば示されている。 しかし、個々の用語のみに焦点をあてた伝統的なステーミング手法は、文脈情報の豊かさを見落としている。 本稿では,このギャップを認識し,文脈理解の能力を活用して,大言語モデル(LLM)を用いて単語を綴じるという有望なアイデアを考察する。 With this respect, we identify three avenues, each characterised by different trade-offs in terms of computational cost, effectiveness and robustness : (1) use LLMs to stem the vocabulary for a collection, i.e., the set of unique words that appear in the collection (vocabulary stemming), (2) use LLMs to stem each document separately (contextual stemming), and (3) use LLMs to extract from each document entities that should not be stemmed, then use vocabulary stemming to stem the rest of the terms (entity-based contextual stemming). 一連の経験的実験を通じて、英語のテキストに対して、Porter や Krovetz のような従来の語彙的ステムマーのステミングに LLM を用いることを比較した。 語彙の茎と文脈の茎は従来の茎語よりも高い効果を得られないが、エンティティベースの茎語は特定の条件下ではポーターの茎語のみを使うよりも高い効果が得られる。

Text stemming is a natural language processing technique that is used to reduce words to their base form, also known as the root form. The use of stemming in IR has been shown to often improve the effectiveness of keyword-matching models such as BM25. However, traditional stemming methods, focusing solely on individual terms, overlook the richness of contextual information. Recognizing this gap, in this paper, we investigate the promising idea of using large language models (LLMs) to stem words by leveraging its capability of context understanding. With this respect, we identify three avenues, each characterised by different trade-offs in terms of computational cost, effectiveness and robustness : (1) use LLMs to stem the vocabulary for a collection, i.e., the set of unique words that appear in the collection (vocabulary stemming), (2) use LLMs to stem each document separately (contextual stemming), and (3) use LLMs to extract from each document entities that should not be stemmed, then use vocabulary stemming to stem the rest of the terms (entity-based contextual stemming). Through a series of empirical experiments, we compare the use of LLMs for stemming with that of traditional lexical stemmers such as Porter and Krovetz for English text. We find that while vocabulary stemming and contextual stemming fail to achieve higher effectiveness than traditional stemmers, entity-based contextual stemming can achieve a higher effectiveness than using Porter stemmer alone, under specific conditions.
翻訳日:2024-02-20 18:52:53 公開日:2024-02-19
# MARS:生成LDMの不確かさ推定のための意味認識応答スコア

MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in Generative LLMs ( http://arxiv.org/abs/2402.11756v1 )

ライセンス: Link先を確認
Yavuz Faruk Bakman, Duygu Nur Yaldiz, Baturalp Buyukates, Chenyang Tao, Dimitrios Dimitriadis, Salman Avestimehr(参考訳) 生成型大規模言語モデル(LLM)は、様々なタスクにおける卓越性のために広く利用されている。 しかし、不正確または誤ったアウトプットを生み出す傾向は、特に高い環境において潜在的なリスクを引き起こす。 したがって、生成LDM出力の正しさを推定することは信頼性を高める重要な課題である。 生成LDMにおける不確かさ推定(UE)は進化する領域であり、SOTA確率に基づく手法は一般に長さ正規化スコアを用いる。 本研究では,UE法における長さ正規化スコアリングの代替として,MARS(Meaning-Aware Response Scoring)を提案する。 MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考える新しいスコアリング機能である。 UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。 我々は,5つの学習済みLLMに対して,3つの異なるクローズドブック質問応答データセットを用いて実験を行った。 最後に,医療用QAデータセットにおけるMARSの有効性を検証する。 コードはhttps://anonymous.4open.science/r/LLM_Uncertainity-309Bにある。

Generative Large Language Models (LLMs) are widely utilized for their excellence in various tasks. However, their tendency to produce inaccurate or misleading outputs poses a potential risk, particularly in high-stakes environments. Therefore, estimating the correctness of generative LLM outputs is an important task for enhanced reliability. Uncertainty Estimation (UE) in generative LLMs is an evolving domain, where SOTA probability-based methods commonly employ length-normalized scoring. In this work, we propose Meaning-Aware Response Scoring (MARS) as an alternative to length-normalized scoring for UE methods. MARS is a novel scoring function that considers the semantic contribution of each token in the generated sequence in the context of the question. We demonstrate that integrating MARS into UE methods results in a universal and significant improvement in UE performance. We conduct experiments using three distinct closed-book question-answering datasets across five popular pre-trained LLMs. Lastly, we validate the efficacy of MARS on a Medical QA dataset. Code can be found https://anonymous.4open.science/r/LLM_Uncertainity-309B.
翻訳日:2024-02-20 18:52:29 公開日:2024-02-19
# SPML: プロンプト攻撃に対する言語モデルを守るためのDSL

SPML: A DSL for Defending Language Models Against Prompt Attacks ( http://arxiv.org/abs/2402.11755v1 )

ライセンス: Link先を確認
Reshabh K Sharma and Vinayak Gupta and Dan Grossman(参考訳) 大規模言語モデル(llm)は自然言語アプリケーションを大きく変え、チャットボットを設計するための命令ベースの定義に依存しています。 しかし、デプロイ後のチャットボット定義は修正されており、悪意のあるユーザによる攻撃に対して脆弱であり、非倫理的なアプリケーションや金銭的損失を防ぐ必要性を強調している。 既存の研究では、LLMベースのチャットボットに対するユーザプロンプトの影響を探求しているが、アプリケーション固有のチャットボットに対する攻撃を封じ込めるための実践的手法は未解明のままである。 本稿では,システムプロンプトメタ言語(SPML, System Prompt Meta Language)について述べる。 SPMLは攻撃プロンプトを積極的にチェックし、ユーザ入力とチャットボットの定義を一致させ、LLMバックボーン上で悪意のある実行を防止し、コストを最適化する。 また、自然言語設計の課題を克服し、プログラミング言語機能を備えたチャットボット定義を合理化する。 さらに、1.8kシステムプロンプトと20kユーザ入力を備えた画期的なベンチマークを導入し、チャットボット定義評価のための最初の言語とベンチマークを提供する。 データセットにわたる実験では、攻撃者のプロンプトを理解するSPMLの習熟度が、GPT-4、GPT-3.5、LLAMAといったモデルを上回ることを示している。 私たちのデータとコードは、https://prompt-compiler.github.io/SPML/で公開されています。

Large language models (LLMs) have profoundly transformed natural language applications, with a growing reliance on instruction-based definitions for designing chatbots. However, post-deployment the chatbot definitions are fixed and are vulnerable to attacks by malicious users, emphasizing the need to prevent unethical applications and financial losses. Existing studies explore user prompts' impact on LLM-based chatbots, yet practical methods to contain attacks on application-specific chatbots remain unexplored. This paper presents System Prompt Meta Language (SPML), a domain-specific language for refining prompts and monitoring the inputs to the LLM-based chatbots. SPML actively checks attack prompts, ensuring user inputs align with chatbot definitions to prevent malicious execution on the LLM backbone, optimizing costs. It also streamlines chatbot definition crafting with programming language capabilities, overcoming natural language design challenges. Additionally, we introduce a groundbreaking benchmark with 1.8k system prompts and 20k user inputs, offering the inaugural language and benchmark for chatbot definition evaluation. Experiments across datasets demonstrate SPML's proficiency in understanding attacker prompts, surpassing models like GPT-4, GPT-3.5, and LLAMA. Our data and codes are publicly available at: https://prompt-compiler.github.io/SPML/.
翻訳日:2024-02-20 18:52:14 公開日:2024-02-19
# 1つの正しい出力を持つアルゴリズムに対する最大ラピッド量子誤差軽減法

Maximum Likelihood Quantum Error Mitigation for Algorithms with a Single Correct Output ( http://arxiv.org/abs/2402.11830v1 )

ライセンス: Link先を確認
Dror Baron, Hrushikesh Pramod Patil and Huiyang Zhou(参考訳) 量子誤差緩和は、量子コンピュータにおけるノイズの影響を低減する重要な技術である。 量子コンピュータではますます多くの量子ビットがサポートされているため、2つの根本的な課題が生まれている。 まず、観測可能量の有意義な分布や期待値を得るためには、大量の量子ビットを持つ量子アルゴリズムに必要なショットの数を増やす必要がある。 第二に、各量子ビットの忠実度を改善するために着実に進歩してきたが、多数の量子ビットを持つ回路は誤った結果をもたらす可能性が高い。 この低ショットで高ノイズのレジームは、高度にスケーラブルなエラー緩和技術を要求する。 本稿では,1つの正しい出力を持つ量子アルゴリズムに対して,単純かつ効果的な緩和手法であるqubit-wise majority voteを提案する。 提案手法は,特定の仮定の下で最大確率(ML)を推定し,必要なショット数を制限していることを示す。 実量子デバイスにおける実験結果から,提案手法は既存のものよりも少ないショットを必要とすることが確認され,測定結果から観測されていない場合でも,正しい回答を復元することができる。

Quantum error mitigation is an important technique to reduce the impact of noise in quantum computers. With more and more qubits being supported on quantum computers, there are two emerging fundamental challenges. First, the number of shots required for quantum algorithms with large numbers of qubits needs to increase in order to obtain a meaningful distribution or expected value of an observable. Second, although steady progress has been made in improving the fidelity of each qubit, circuits with a large number of qubits are likely to produce erroneous results. This low-shot, high-noise regime calls for highly scalable error mitigation techniques. In this paper, we propose a simple and effective mitigation scheme, qubit-wise majority vote, for quantum algorithms with a single correct output. We show that our scheme produces the maximum likelihood (ML) estimate under certain assumptions, and bound the number of shots required. Our experimental results on real quantum devices confirm that our proposed approach requires fewer shots than existing ones, and can sometimes recover the correct answers even when they are not observed from the measurement results.
翻訳日:2024-02-20 18:44:35 公開日:2024-02-19
# 高速道路における自律走行車の適応的ストレステストのための新しい枠組み

A novel framework for adaptive stress testing of autonomous vehicles in highways ( http://arxiv.org/abs/2402.11813v1 )

ライセンス: Link先を確認
Linh Trinh, Quang-Hung Luu, Thai M. Nguyen, Hai L. Vu(参考訳) 自動運転車(AV)の安全運用の確保は、広く普及し、一般に受け入れられるために重要である。 したがって、標準の安全テストに対してavを評価するだけでなく、安全でない行動やシナリオにつながる可能性のあるテスト中のavの潜在的なコーナーケースを発見することは、非常に重要である。 本稿では,道路交通シナリオにおける安全上の懸念を生じ得るコーナーケースを体系的に探究する新しい枠組みを提案する。 このフレームワークは適応的ストレステスト(AST)アプローチに基づいており、マルコフ決定プロセスを利用してシナリオを定式化し、深層強化学習(DRL)を用いてコーナーケースを表す望ましいパターンを発見する。 そこで本研究では,テスト中のAV車(エゴ車)と高速道路上の他の車両の軌道との衝突確率推定に基づいて,事故シナリオの特定においてASTを誘導する新たな報酬関数を開発した。 提案手法はさらに新しい運転モデルと統合され、高速道路で走行する車両の縦方向と横方向の両方を捉えるより現実的な交通シナリオを作成できる。 実験では,カリフォルニアにおける自動走行車を含む現実の事故統計を用いてモデルを校正し,AVとフレームワークの特性を分析した。 実験結果の定量的・定性的分析により,既存のastスキームよりも優れたフレームワークが得られた。 この研究は、運転中に未知または欠如しているavのクラッシュシナリオを発見するのに役立ち、av技術の安全性と信頼性を高めることができる。

Guaranteeing the safe operations of autonomous vehicles (AVs) is crucial for their widespread adoption and public acceptance. It is thus of a great significance to not only assess the AV against the standard safety tests, but also discover potential corner cases of the AV under test that could lead to unsafe behaviour or scenario. In this paper, we propose a novel framework to systematically explore corner cases that can result in safety concerns in a highway traffic scenario. The framework is based on an adaptive stress testing (AST) approach, an emerging validation method that leverages a Markov decision process to formulate the scenarios and deep reinforcement learning (DRL) to discover the desirable patterns representing corner cases. To this end, we develop a new reward function for DRL to guide the AST in identifying crash scenarios based on the collision probability estimate between the AV under test (i.e., the ego vehicle) and the trajectory of other vehicles on the highway. The proposed framework is further integrated with a new driving model enabling us to create more realistic traffic scenarios capturing both the longitudinal and lateral movements of vehicles on the highway. In our experiment, we calibrate our model using real-world crash statistics involving automated vehicles in California, and then we analyze the characteristics of the AV and the framework. Quantitative and qualitative analyses of our experimental results demonstrate that our framework outperforms other existing AST schemes. The study can help discover crash scenarios of AV that are unknown or absent in human driving, thereby enhancing the safety and trustworthiness of AV technology.
翻訳日:2024-02-20 18:44:18 公開日:2024-02-19
# アドホックビデオ検索のための解釈可能な埋め込み

Interpretable Embedding for Ad-hoc Video Search ( http://arxiv.org/abs/2402.11812v1 )

ライセンス: Link先を確認
Jiaxin Wu, Chong-Wah Ngo(参考訳) セマンティック概念による質問への回答は、ビデオ検索の主流となっている。 最近まで、そのパフォーマンスはコンセプトフリーのアプローチに勝っており、クエリをビデオとしてジョイントスペースに埋め込む。 それでも、組み込み機能や検索結果は解釈できないため、ビデオ閲覧やクエリの再構成のステップが妨げられる。 本稿では,機能埋め込みと概念解釈をニューラルネットワークに統合し,デュアルタスク学習を行う。 このように、埋め込みは、ビデオコンテンツの解釈として意味概念のリストに関連付けられている。 本稿では,組込み機能や概念を用いることで,TRECVidベンチマークデータセット上でかなりの検索改善が達成できることを実証的に示す。 コンセプトは偽陽性ビデオのプルーニングに効果があるだけでなく、概念のない検索に非常に相補的であり、最先端のアプローチと比べて大きな改善点となっている。

Answering query with semantic concepts has long been the mainstream approach for video search. Until recently, its performance is surpassed by concept-free approach, which embeds queries in a joint space as videos. Nevertheless, the embedded features as well as search results are not interpretable, hindering subsequent steps in video browsing and query reformulation. This paper integrates feature embedding and concept interpretation into a neural network for unified dual-task learning. In this way, an embedding is associated with a list of semantic concepts as an interpretation of video content. This paper empirically demonstrates that, by using either the embedding features or concepts, considerable search improvement is attainable on TRECVid benchmarked datasets. Concepts are not only effective in pruning false positive videos, but also highly complementary to concept-free search, leading to large margin of improvement compared to state-of-the-art approaches.
翻訳日:2024-02-20 18:43:52 公開日:2024-02-19
# FIPO: 優先度データセットとモジュールファインチューニングスキーマを用いた自由形式命令指向プロンプト最適化

FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema ( http://arxiv.org/abs/2402.11811v1 )

ライセンス: Link先を確認
Junru Lu and Siyu An and Min Zhang and Yulan He and Di Yin and Xing Sun(参考訳) エンドユーザとボットのインタラクションでアクセス可能な大規模言語モデル(llm)の深い知性を促進するため、プロンプト作成の技術は、平均的なユーザにとって重要かつ複雑なタスクとして現れます。 従来のモデル指向で命令に依存しない自動プロンプト最適化手法とは対照的に,事前定義された対象モデルに対して,アウト・オブ・ボックスモデルで急速に劣化する一方,洗練された結果が得られる。 このアプローチは当社の大規模プロンプト選好データセットでサポートされており、モジュール化された微調整スキーマを採用している。 fipoスキーマは、コンテンツに動的に適応するメタプロンプトで固定された管理可能なモジュールに最適化プロセスを再設計する。 これにより、生のタスク命令、オプションの命令応答、オプションの基底真理を柔軟に統合して、最適化されたタスクプロンプトを生成することができる。 FIPO選好データセットは最適かつ準最適のLLMを用いて慎重に構築され、人間の専門家や分析モデルによる厳密な相互検証が行われている。 Tulu2モデルと微調整戦略によるデータからの洞察を適用して、5つの公開ベンチマークでFIPOスキーマの有効性を検証する。 コード、データ、スクリプトはこちら。 https://github.com/lujunru/fipo_project。

In the quest to facilitate the deep intelligence of Large Language Models (LLMs) accessible in final-end user-bot interactions, the art of prompt crafting emerges as a critical yet complex task for the average user. Contrast to previous model-oriented yet instruction-agnostic Automatic Prompt Optimization methodologies, yielding polished results for predefined target models while suffering rapid degradation with out-of-box models, we present Free-form Instruction-oriented Prompt Optimization (FIPO). This approach is supported by our large-scale prompt preference dataset and employs a modular fine-tuning schema. The FIPO schema reimagines the optimization process into manageable modules, anchored by a meta prompt that dynamically adapts content. This allows for the flexible integration of the raw task instruction, the optional instruction response, and the optional ground truth to produce finely optimized task prompts. The FIPO preference dataset is meticulously constructed using the optimal and suboptimal LLMs, undergoing rigorous cross-verification by human experts and analytical models. Applying the insights from the data with Tulu2 models and fine-tuning strategies, we validate the efficacy of FIPO schema across five public benchmarks. Codes, data and scripts are here: https://github.com/LuJunru/FIPO_Project.
翻訳日:2024-02-20 18:43:38 公開日:2024-02-19
# 量子インターネットのための階層的アーキテクチャと通信モデルの構築

Building a Hierarchical Architecture and Communication Model for the Quantum Internet ( http://arxiv.org/abs/2402.11806v1 )

ライセンス: Link先を確認
Binjie He, Dong Zhang, Seng W. Loke, Shengrui Lin, and Luke Lu(参考訳) アーキテクチャの研究は量子インターネットの実現において極めて重要である。 標準的な量子インターネットアーキテクチャはまだ存在しないが、分散アーキテクチャは量子リピータや専用の絡み合い源をフラットな構造に利用して、絡み合いの準備と分散を行うことが可能なソリューションの1つである。 本稿では,分散アーキテクチャを詳細に分析し,その限界が3つあることを示す。 1)高いメンテナンスオーバーヘッドの可能性。 2)低性能エンタングルメント分布の可能性,及び 3)最適な絡み合いルーティングをサポートできない。 上記の問題を解決するために,階層型量子インターネットアーキテクチャと通信モデルを設計する。 また,w-state based central entanglement preparation & distribution (w-state based cepd) スキームと集中的 entanglement routing (cer) アルゴリズムを階層アーキテクチャ内で提案し,分散アーキテクチャ内の他の entanglement preparation & distribution scheme と entanglement routing algorithm との比較実験を行った。 その結果、階層アーキテクチャの絡み合い分散効率は、平均で分散アーキテクチャの絡み合い分散効率よりも11.5%高く(最小3.3%、最大37.3%)、階層アーキテクチャの絡み合いルーティング性能は、忠実度とスループットに応じて分散アーキテクチャよりもはるかに優れていることがわかった。

The research of architecture has tremendous significance in realizing quantum Internet. Although there is not yet a standard quantum Internet architecture, the distributed architecture is one of the possible solutions, which utilizes quantum repeaters or dedicated entanglement sources in a flat structure for entanglement preparation & distribution. In this paper, we analyze the distributed architecture in detail and demonstrate that it has three limitations: 1) possible high maintenance overhead, 2) possible low-performance entanglement distribution, and 3) unable to support optimal entanglement routing. We design a hierarchical quantum Internet architecture and a communication model to solve the problems above. We also present a W-state Based Centralized Entanglement Preparation & Distribution (W-state Based CEPD) scheme and a Centralized Entanglement Routing (CER) algorithm within our hierarchical architecture and perform an experimental comparison with other entanglement preparation & distribution schemes and entanglement routing algorithms within the distributed architecture. The evaluation results show that the entanglement distribution efficiency of hierarchical architecture is 11.5% higher than that of distributed architecture on average (minimum 3.3%, maximum 37.3%), and the entanglement routing performance of hierarchical architecture is much better than that of a distributed architecture according to the fidelity and throughput.
翻訳日:2024-02-20 18:43:15 公開日:2024-02-19
# LLM as Prompter: 任意知識グラフに基づく低リソースインダクティブ推論

LLM as Prompter: Low-resource Inductive Reasoning on Arbitrary Knowledge Graphs ( http://arxiv.org/abs/2402.11804v1 )

ライセンス: Link先を確認
Kai Wang, Yuwei Xu, Zhiyong Wu, Siqiang Luo(参考訳) 知識グラフ(KG)帰納的推論は、トレーニング中に見えない新しいKGから欠落した事実を推測することを目的としており、様々なアプリケーションで広く採用されている。 kg帰納的推論の批判的課題は、テキスト的および構造的側面の両方において不足する低リソースシナリオを扱うことである。 本稿では,この課題を大規模言語モデル(llm)を用いて解決しようとする。 特に、最先端のLCMを用いて、事前学習されたグラフニューラルネットワーク(GNN)を強化するグラフ構造的プロンプトを生成し、KG帰納的推論手法に対する新たな方法論的洞察と、実際に高い一般化性をもたらす。 方法論的な側面から,任意のKGをまたいだ低リソース帰納的推論のための事前学習・促進フレームワークProLINKを導入する。 実用面では,36の低リソースkgデータセットに対するアプローチを実験的に評価し,prolinkが従来の3ショット,ワンショット,ゼロショットの推論タスクよりも優れており,平均パフォーマンスが20%,45%,147%向上していることを確認した。 さらに、ProLINKは様々なLLMプロンプトとフルショットシナリオに対して強い堅牢性を示している。

Knowledge Graph (KG) inductive reasoning, which aims to infer missing facts from new KGs that are not seen during training, has been widely adopted in various applications. One critical challenge of KG inductive reasoning is handling low-resource scenarios with scarcity in both textual and structural aspects. In this paper, we attempt to address this challenge with Large Language Models (LLMs). Particularly, we utilize the state-of-the-art LLMs to generate a graph-structural prompt to enhance the pre-trained Graph Neural Networks (GNNs), which brings us new methodological insights into the KG inductive reasoning methods, as well as high generalizability in practice. On the methodological side, we introduce a novel pretraining and prompting framework ProLINK, designed for low-resource inductive reasoning across arbitrary KGs without requiring additional training. On the practical side, we experimentally evaluate our approach on 36 low-resource KG datasets and find that ProLINK outperforms previous methods in three-shot, one-shot, and zero-shot reasoning tasks, exhibiting average performance improvements by 20%, 45%, and 147%, respectively. Furthermore, ProLINK demonstrates strong robustness for various LLM promptings as well as full-shot scenarios.
翻訳日:2024-02-20 18:42:49 公開日:2024-02-19
# ボース・アインシュタイン凝縮体における強相関不純物の量子ソリトンひずみ

Quantum soliton-trains of strongly correlated impurities in Bose-Einstein condensates ( http://arxiv.org/abs/2402.11802v1 )

ライセンス: Link先を確認
Hoshu Hiyane, Thomas Busch, Thom\'as Fogarty(参考訳) ボース・アインシュタイン凝縮体(BEC)に浸漬された強い相関不純物は、種間相互作用と種内相互作用が競合するため、密集した単一原子の周期構造を形成し、自己組織化されたピン状態をもたらす。 本研究では,自己ピンド状態の不純物がソリトントレインを形成することを,becを媒介とする魅力的な自己相互作用と排他原理による秩序の結果として数値的に示す。 不純物の力学は、魅力的なBECに現れるように明るい物質波ソリトンに類似した特性を持つが、数少ない不純物の場合、衝突の詳細な性質は量子統計によって決定される。

Strongly correlated impurities immersed in a Bose-Einstein condensate (BEC) can form a periodic structure of tightly localized single atoms due to competing inter- and intra-species interactions, leading to a self-organized pinned state. In this work, we show numerically that the impurities in the self-pinned state form a soliton-train, as a consequence of a BEC-mediated attractive self-interaction and ordering due to the exclusion principle. The dynamics of the impurities possess similar characteristics to bright matter-wave solitons as they appear in attractive BECs, however in the few impurities case, the detailed nature of collisions is determined by their quantum statistics.
翻訳日:2024-02-20 18:42:25 公開日:2024-02-19
# 遅延更新を伴う確率近似:マルコフサンプリング下の有限時間率

Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling ( http://arxiv.org/abs/2402.11800v1 )

ライセンス: Link先を確認
Arman Adibi, Nicolo Dal Fabbro, Luca Schenato, Sanjeev Kulkarni, H. Vincent Poor, George J. Pappas, Hamed Hassani, Aritra Mitra(参考訳) 大規模・マルチエージェント強化学習の応用により,マルコフサンプリング下での遅延更新を伴う確率近似(SA)スキームの漸近的性能について検討した。 遅延の影響は最適化のために広範囲に研究されてきたが、saの有限時間性能を形作るマルコフ過程と相互作用する方法は未だよく分かっていない。 この文脈において、我々の最初の主な貢献は、時間変化した有界遅延の下で、遅延SA更新規則は、SA演算子の固定点の周囲の球に \emph{last iterate} の指数的に高速収束を保証することを示すことである。 特に、我々の境界は最大遅延$\tau_{max}$と混合時間$\tau_{mix}$の両方に依存して \emph{tight} となる。 この厳密な境界を達成するために、既存の様々な遅延最適化解析とは異なり、イテレートの均一な有界性を確立することに依存する新しい帰納的証明手法を開発した。 したがって、我々の証明は独立した関心を持つかもしれない。 次に、最大遅延が収束率に与える影響を軽減するために、マルコフサンプリングの下での遅延適応型SAスキームの最初の有限時間解析を行う。 特に、このスキームの収束指数は、バニラ遅延sa規則に対する$\tau_{max}$とは対照的に、$\tau_{avg}$でスケールダウンされることを示している。 さらに、適応スキームはステップサイズチューニングのための遅延シーケンスの事前知識を必要としない。 理論的には, マルコフサンプリング下でのTD学習, Q-ラーニング, 確率勾配降下を含む, 幅広いアルゴリズムの遅延の有限時間効果に光を当てた。

Motivated by applications in large-scale and multi-agent reinforcement learning, we study the non-asymptotic performance of stochastic approximation (SA) schemes with delayed updates under Markovian sampling. While the effect of delays has been extensively studied for optimization, the manner in which they interact with the underlying Markov process to shape the finite-time performance of SA remains poorly understood. In this context, our first main contribution is to show that under time-varying bounded delays, the delayed SA update rule guarantees exponentially fast convergence of the \emph{last iterate} to a ball around the SA operator's fixed point. Notably, our bound is \emph{tight} in its dependence on both the maximum delay $\tau_{max}$, and the mixing time $\tau_{mix}$. To achieve this tight bound, we develop a novel inductive proof technique that, unlike various existing delayed-optimization analyses, relies on establishing uniform boundedness of the iterates. As such, our proof may be of independent interest. Next, to mitigate the impact of the maximum delay on the convergence rate, we provide the first finite-time analysis of a delay-adaptive SA scheme under Markovian sampling. In particular, we show that the exponent of convergence of this scheme gets scaled down by $\tau_{avg}$, as opposed to $\tau_{max}$ for the vanilla delayed SA rule; here, $\tau_{avg}$ denotes the average delay across all iterations. Moreover, the adaptive scheme requires no prior knowledge of the delay sequence for step-size tuning. Our theoretical findings shed light on the finite-time effects of delays for a broad class of algorithms, including TD learning, Q-learning, and stochastic gradient descent under Markovian sampling.
翻訳日:2024-02-20 18:42:10 公開日:2024-02-19
# 魔法を解き明かす:検索増強世代における注意蒸留の調査

Unveiling the Magic: Investigating Attention Distillation in Retrieval-augmented Generation ( http://arxiv.org/abs/2402.11794v1 )

ライセンス: Link先を確認
Zizhong Li, Haopeng Zhang, Jiawei Zhang(参考訳) 検索型生成フレームワークは、より正確な回答のためにリアルタイムの知識更新を可能にすることで、大きな言語モデルの制限に対処できる。 検索強化モデルの学習段階における効率的な方法は、注意点を手動で注釈付けされたクエリ文書ペアの代わりに監督信号として利用する注意蒸留である。 人気が高まっているにもかかわらず、注意蒸留の成功の背景にある詳細なメカニズムは解明されていない。 本稿では,注意蒸留ワークフローの包括的レビューを行い,検索型言語モデルの学習品質に影響を与える要因を特定することで,このギャップを解消する。 さらに,モデルの学習方法の最適化と非効率な訓練の回避のための指標を提案する。

Retrieval-augmented generation framework can address the limitations of large language models by enabling real-time knowledge updates for more accurate answers. An efficient way in the training phase of retrieval-augmented models is attention distillation, which uses attention scores as a supervision signal instead of manually annotated query-document pairs. Despite its growing popularity, the detailed mechanisms behind the success of attention distillation remain unexplored, particularly the specific patterns it leverages to benefit training. In this paper, we address this gap by conducting a comprehensive review of attention distillation workflow and identifying key factors influencing the learning quality of retrieval-augmented language models. We further propose indicators for optimizing models' training methods and avoiding ineffective training.
翻訳日:2024-02-20 18:41:36 公開日:2024-02-19
# 生成型カレイドスコープネットワーク

Generative Kaleidoscopic Networks ( http://arxiv.org/abs/2402.11793v1 )

ライセンス: Link先を確認
Harsh Shrivastava(参考訳) 深層reluネットワーク(または多層パーセプトロンアーキテクチャ)が「超一般化」現象を示すことを発見した。 すなわち、トレーニング中に観測されなかった入力の出力値を、学習プロセス中に観測された出力範囲の近くにマッピングする。 言い換えれば、MLPは多対一マッピングを学習し、MLPの層数や深さを増やすことにより、この効果はより顕著である。 深層reluネットワークの特性を利用して,「生成的カレイドスコープネットワーク」と呼ばれるデータセットカレイドスコープを設計した。 簡単に言うと、入力 $x\in\mathbb{r}^d$ から自身 $f_\mathcal{n}(x)\rightarrow x$ への mlp を学習すると、'kaleidoscopic sampling' 手順はランダムな入力ノイズ $z\in\mathbb{r}^d$ から始まり、再帰的に$f_\mathcal{n}(\cdots f_\mathcal{n}(z)\cdots )$ を適用する。 バーンイン期間後, 入力分布から試料を観察し始めると, MLPの深部では, 回収した試料の品質が高いことがわかった。 Scope: 私たちは、CNNやTransformers、U-Netといった他のディープラーニングアーキテクチャに対して、この現象をさまざまな程度に観測しました。

We discovered that the Deep ReLU networks (or Multilayer Perceptron architecture) demonstrate an 'over-generalization' phenomenon. That is, the output values for the inputs that were not seen during training are mapped close to the output range that were observed during the learning process. In other words, the MLP learns a many-to-one mapping and this effect is more prominent as we increase the number of layers or depth of the MLP. We utilize this property of Deep ReLU networks to design a dataset kaleidoscope, termed as 'Generative Kaleidoscopic Networks'. Briefly, if we learn a MLP to map from input $x\in\mathbb{R}^D$ to itself $f_\mathcal{N}(x)\rightarrow x$, the 'Kaleidoscopic sampling' procedure starts with a random input noise $z\in\mathbb{R}^D$ and recursively applies $f_\mathcal{N}(\cdots f_\mathcal{N}(z)\cdots )$. After a burn-in period duration, we start observing samples from the input distribution and we found that deeper the MLP, higher is the quality of samples recovered. Scope: We observed this phenomenon to various degrees for the other deep learning architectures like CNNs, Transformers & U-Nets and we are currently investigating them further.
翻訳日:2024-02-20 18:41:23 公開日:2024-02-19
# sdge: 360{\deg}カメラセットのステレオガイド深度推定

SDGE: Stereo Guided Depth Estimation for 360{\deg} Camera Sets ( http://arxiv.org/abs/2402.11791v1 )

ライセンス: Link先を確認
Jialei Xu, Xianming Liu, Junjun Jiang, Xiangyang Ji(参考訳) 深度推定は自動運転において重要な技術であり、マルチカメラシステムは360{\deg}の知覚を達成するためにしばしば使用される。 これらの360{\deg}カメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。 あるいは、単分子的手法は一貫したクロスビュー予測を生成できない。 そこで本研究では,多視点ステレオ結果の重なりを明示的に活用し,全画像の奥行き推定を高速化するステレオガイド深度推定(sgde)法を提案する。 魚眼カメラの歪み問題を解消し、2種類の360{\deg}カメラの処理を統合するために仮想ピンホールカメラを構築することを提案する。 不安定な動きによって生じるカメラポーズのノイズの処理には, 近接するカメラの高精度な相対的なポーズを得るために, 自己校正法を用いる。 これにより、重なり領域に先立って高品質な深度を得るためのロバストなステレオ手法が利用可能となる。 この先行は、追加入力だけでなく、深度推定法の精度を高め、クロスビュー予測整合性を改善する擬似ラベルとしても機能する。 SGDEの有効性を,1つの魚眼カメラデータセット,Synthetic Urbanと2つのピンホールカメラデータセット,DDADとnuSceneで評価した。 実験により,SGDEは教師付き深度推定と自己監督型深度推定の両方に有効であることが示され,3次元物体検出や占有予測などの下流自動走行技術の進歩の可能性を強調した。

Depth estimation is a critical technology in autonomous driving, and multi-camera systems are often used to achieve a 360{\deg} perception. These 360{\deg} camera sets often have limited or low-quality overlap regions, making multi-view stereo methods infeasible for the entire image. Alternatively, monocular methods may not produce consistent cross-view predictions. To address these issues, we propose the Stereo Guided Depth Estimation (SGDE) method, which enhances depth estimation of the full image by explicitly utilizing multi-view stereo results on the overlap. We suggest building virtual pinhole cameras to resolve the distortion problem of fisheye cameras and unify the processing for the two types of 360{\deg} cameras. For handling the varying noise on camera poses caused by unstable movement, the approach employs a self-calibration method to obtain highly accurate relative poses of the adjacent cameras with minor overlap. These enable the use of robust stereo methods to obtain high-quality depth prior in the overlap region. This prior serves not only as an additional input but also as pseudo-labels that enhance the accuracy of depth estimation methods and improve cross-view prediction consistency. The effectiveness of SGDE is evaluated on one fisheye camera dataset, Synthetic Urban, and two pinhole camera datasets, DDAD and nuScenes. Our experiments demonstrate that SGDE is effective for both supervised and self-supervised depth estimation, and highlight the potential of our method for advancing downstream autonomous driving technologies, such as 3D object detection and occupancy prediction.
翻訳日:2024-02-20 18:40:52 公開日:2024-02-19
# 拡散モデルによる発生仮説の統計的検証

Statistical Test for Generated Hypotheses by Diffusion Models ( http://arxiv.org/abs/2402.11789v1 )

ライセンス: Link先を確認
Teruyuki Katsuoka, Tomohiro Shiraishi, Daiki Miwa, Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) AIの性能が向上し、科学研究への統合が加速した。 特に、科学的仮説を作成するための生成aiの使用は有望であり、様々な分野に適用されるようになっている。 しかし、医療診断などの重要な判断にaiが生成する仮説を用いる場合、その信頼性の検証が不可欠である。 本研究では,拡散モデルを用いて生成画像を用いた医療診断タスクを考察し,その信頼性を定量化するための統計的テストを提案する。 提案する統計的テストの背後にある基本的な考え方は、選択的推論フレームワークを採用することである。ここでは、生成された画像が訓練された拡散モデルによって生成されるという事実に基づく統計的テスト条件を考える。 提案手法を用いて, 医用画像診断結果の統計的信頼性をp値の形で定量化し, 誤差率の制御による意思決定を可能にする。 提案する統計的テストの理論的妥当性と,その有効性について,合成および脳画像データセットの数値実験により示す。

The enhanced performance of AI has accelerated its integration into scientific research. In particular, the use of generative AI to create scientific hypotheses is promising and is increasingly being applied across various fields. However, when employing AI-generated hypotheses for critical decisions, such as medical diagnoses, verifying their reliability is crucial. In this study, we consider a medical diagnostic task using generated images by diffusion models, and propose a statistical test to quantify its reliability. The basic idea behind the proposed statistical test is to employ a selective inference framework, where we consider a statistical test conditional on the fact that the generated images are produced by a trained diffusion model. Using the proposed method, the statistical reliability of medical image diagnostic results can be quantified in the form of a p-value, allowing for decision-making with a controlled error rate. We show the theoretical validity of the proposed statistical test and its effectiveness through numerical experiments on synthetic and brain image datasets.
翻訳日:2024-02-20 18:40:23 公開日:2024-02-19
# MM-SurvNet:マルチモーダルデータ融合による乳癌の深層学習による生存リスク階層化

MM-SurvNet: Deep Learning-Based Survival Risk Stratification in Breast Cancer Through Multimodal Data Fusion ( http://arxiv.org/abs/2402.11788v1 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K.A. Millar, Arcot Sowmya, Erik Meijering(参考訳) 生存リスク層化は乳がん治療の臨床的決定における重要なステップである。 本研究では, 病理画像, 遺伝子, 臨床データを統合した新しい深層学習手法を提案する。 画像の特徴抽出には視覚変換器、特にMaxViTモデルを使用し、患者レベルで複雑な画像関係を捉えている。 二重クロスアテンション機構はこれらの特徴を遺伝データと融合させ、臨床データを最終層に組み込んで予測精度を高める。 一般のTCGA-BRCAデータセットを用いた実験により, 負のログ可能性損失関数を用いてトレーニングしたモデルでは, 既存の手法を上回り, 平均Cインデックス0。 この進歩は治療戦略を調整し、患者の予後を改善する可能性がある。

Survival risk stratification is an important step in clinical decision making for breast cancer management. We propose a novel deep learning approach for this purpose by integrating histopathological imaging, genetic and clinical data. It employs vision transformers, specifically the MaxViT model, for image feature extraction, and self-attention to capture intricate image relationships at the patient level. A dual cross-attention mechanism fuses these features with genetic data, while clinical data is incorporated at the final layer to enhance predictive accuracy. Experiments on the public TCGA-BRCA dataset show that our model, trained using the negative log likelihood loss function, can achieve superior performance with a mean C-index of 0.64, surpassing existing methods. This advancement facilitates tailored treatment strategies, potentially leading to improved patient outcomes.
翻訳日:2024-02-20 18:40:07 公開日:2024-02-19
# 離散偏光軸を持つ六方晶窒化ホウ素中の近接コヒーレント量子エミッタ

Near-coherent quantum emitters in hexagonal boron nitride with discrete polarization axes ( http://arxiv.org/abs/2402.11786v1 )

ライセンス: Link先を確認
Jake Horder, Dominic Scognamiglio, Adam Ganyecz, Viktor Ivaday, Mehran Kianinia, Milos Toth and Igor Aharonovich(参考訳) 六方晶窒化ホウ素(hBN)は近年、固体の量子放出体として注目されている。 しかし、hBNエミッタは、スケーラブルな量子技術への展開に必要な特性を欠いていると報告されている。 ここでは、スペクトルホールバーニング分光法と共鳴偏光測定を用いて、C2v対称性の欠陥を示す3つの離散偏光軸で、単体およびアンサンブルの両方でほぼコヒーレントなhBN量子エミッタを観測する。 この結果は、集積量子フォトニクスにおけるhbn量子エミッタの実装に向けた重要なマイルストーンである。

Hexagonal boron nitride (hBN) has recently gained attention as a solid state host of quantum emitters. However, hBN emitters reported to date lack the properties needed for their deployment in scalable quantum technologies. Here we employ spectral hole burning spectroscopy and resonant polarization measurements to observe nearly-coherent hBN quantum emitters, both as singles and in ensembles, with three discrete polarization axes indicative of a C2v symmetry defect. Our results constitute an important milestone towards the implementation of hBN quantum emitters in integrated quantum photonics.
翻訳日:2024-02-20 18:39:52 公開日:2024-02-19
# 音声アシスタントを超えて:実走行シナリオにおける車載ソーシャルロボットのメリットとリスクを探る

Beyond Voice Assistants: Exploring Advantages and Risks of an In-Car Social Robot in Real Driving Scenarios ( http://arxiv.org/abs/2402.11853v1 )

ライセンス: Link先を確認
Yuanchao Li, Lachlan Urquhart, Nihan Karatas, Shun Shao, Hiroshi Ishiguro, Xun Shen(参考訳) 自動車内音声アシスタント(vas)は自動車ユーザーインターフェース設計においてますます重要な役割を果たす。 しかし、既存のVAは主に単純な「問い合わせ」タスクを実行し、ドライバーの長期的な注意を維持できる能力を制限する。 本研究では,車内ロボットアシスタント (ra) の有効性について検討した。 ソーシャルロボットの存在は、実際の運転シナリオにおいて、ユーザエクスペリエンスにどのように影響するのか? 本研究は,車内vasの視点と運転経験への影響を理解するためのユーザ調査から始まった。 次に、RAを用いてユーザエクスペリエンスを評価するために、選択した参加者と非自動運転およびオンロード実験を行う。 さらに,ロボット設計において重要なRAの個性に対するユーザ認識を評価するために,主観評価を行う。 また、倫理的リスクに関する潜在的な懸念についても検討する。 最後に,車載RAの今後の開発について,包括的な議論と提言を行う。

In-car Voice Assistants (VAs) play an increasingly critical role in automotive user interface design. However, existing VAs primarily perform simple 'query-answer' tasks, limiting their ability to sustain drivers' long-term attention. In this study, we investigate the effectiveness of an in-car Robot Assistant (RA) that offers functionalities beyond voice interaction. We aim to answer the question: How does the presence of a social robot impact user experience in real driving scenarios? Our study begins with a user survey to understand perspectives on in-car VAs and their influence on driving experiences. We then conduct non-driving and on-road experiments with selected participants to assess user experiences with an RA. Additionally, we conduct subjective ratings to evaluate user perceptions of the RA's personality, which is crucial for robot design. We also explore potential concerns regarding ethical risks. Finally, we provide a comprehensive discussion and recommendations for the future development of in-car RAs.
翻訳日:2024-02-20 18:31:07 公開日:2024-02-19
# DIO:ロボットとコンピュータビジョンのための室内物体の3次元メッシュモデルのデータセット

DIO: Dataset of 3D Mesh Models of Indoor Objects for Robotics and Computer Vision Applications ( http://arxiv.org/abs/2402.11836v1 )

ライセンス: Link先を確認
Nillan Nimal, Wenbin Li, Ronald Clark, Sajad Saeedi(参考訳) 現実世界のオブジェクトの正確な仮想モデルの作成は、ロボットシミュレーションやコンピュータビジョン、人工知能、機械学習といった応用に必須である。 本稿では,現実世界のオブジェクトのメッシュモデルのデータベース生成に使用するさまざまな手法について述べる。 これらの方法はCADソフトウェアを用いて手動でモデルを生成するという面倒で時間を要するプロセスに対処する。 基本的には、ターゲットオブジェクトの画像を取得するためにDSLR/電話カメラが使用された。 これらの画像は、メッシュルームと呼ばれるフォトグラメトリーソフトウェアを使用して処理され、シーンの高密度な表面再構成を生成する。 Meshroomが作成した結果は、メッシュ編集ソフトウェアであるMeshLabを使用して、最終モデルの作成と簡略化が行われた。 得られたモデルに基づき、このプロセスは実世界の物体の形状とテクスチャを高い忠実度でモデル化するのに有効である。 アクティブな3dスキャナも、大きなオブジェクトの処理を加速するために利用された。 生成されたモデルとキャプチャされたイメージはすべて、プロジェクトのWebサイトで利用可能である。

The creation of accurate virtual models of real-world objects is imperative to robotic simulations and applications such as computer vision, artificial intelligence, and machine learning. This paper documents the different methods employed for generating a database of mesh models of real-world objects. These methods address the tedious and time-intensive process of manually generating the models using CAD software. Essentially, DSLR/phone cameras were employed to acquire images of target objects. These images were processed using a photogrammetry software known as Meshroom to generate a dense surface reconstruction of the scene. The result produced by Meshroom was edited and simplified using MeshLab, a mesh-editing software to produce the final model. Based on the obtained models, this process was effective in modelling the geometry and texture of real-world objects with high fidelity. An active 3D scanner was also utilized to accelerate the process for large objects. All generated models and captured images are made available on the website of the project.
翻訳日:2024-02-20 18:30:53 公開日:2024-02-19
# ABCとして簡単:ボルツマンのQ-Learningと対実レグレレット最小化

Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret Minimization ( http://arxiv.org/abs/2402.11835v1 )

ライセンス: Link先を確認
Luca D'Amico-Wong, Hugh Zhang, Marc Lanctot, David C. Parkes(参考訳) 本稿では,Boltzmann Q-learning(BQL)と,マルチエージェントドメインを学習する中心的アルゴリズムである反実的後悔最小化(CFR)を組み合わせた,ベスト・オブ・ボス・ワールド・アルゴリズムであるABC(Adaptive Branching through Child Staarity)を提案する。 abcsは、環境の報酬と遷移ダイナミクスの定常性を測定することによって、各イテレーションを探索する環境のどの部分を選択する。 マルコフ決定過程において、ABCは、環境中のアクションの数であるBQLと比較して、少なくともO(A)因子の減速によって最適なポリシーに収束する。 2プレイヤーのゼロサムゲームでは、ABCは(定常性を検出するための完璧なオラクルへのアクセスを仮定する)ナッシュ均衡に収束することが保証されるが、BQLはそのような保証を持っていない。 実験的に、ABCはOpenSpielゲームライブラリとOpenAI Gymから引き出された環境をベンチマークすると強い性能を示し、完全に静止的でも、完全に静止的でもない環境では、すべての従来の手法を超える。

We propose ABCs (Adaptive Branching through Child stationarity), a best-of-both-worlds algorithm combining Boltzmann Q-learning (BQL), a classic reinforcement learning algorithm for single-agent domains, and counterfactual regret minimization (CFR), a central algorithm for learning in multi-agent domains. ABCs adaptively chooses what fraction of the environment to explore each iteration by measuring the stationarity of the environment's reward and transition dynamics. In Markov decision processes, ABCs converges to the optimal policy with at most an O(A) factor slowdown compared to BQL, where A is the number of actions in the environment. In two-player zero-sum games, ABCs is guaranteed to converge to a Nash equilibrium (assuming access to a perfect oracle for detecting stationarity), while BQL has no such guarantees. Empirically, ABCs demonstrates strong performance when benchmarked across environments drawn from the OpenSpiel game library and OpenAI Gym and exceeds all prior methods in environments which are neither fully stationary nor fully nonstationary.
翻訳日:2024-02-20 18:30:38 公開日:2024-02-19
# アルゴリズム冷却プロトコルの熱力学解析:効率指標と設計改善

Thermodynamic Analysis of Algorithmic Cooling Protocols: Efficiency Metrics and Improved Designs ( http://arxiv.org/abs/2402.11832v1 )

ライセンス: Link先を確認
Junan Lin, Nayeli A. Rodr\'iguez-Briones, Eduardo Mart\'in-Mart\'inez, Raymond Laflamme(参考訳) アルゴリズム冷却(AC)プロトコルは主に冷却能力について研究されており、熱力学特性に注意が払われている。 本研究は熱力学の観点から幅広い交流プロトコル群を解析することにより,新しい視点を探求する。 まず、標準acプロトコルの詳細なレビューと形式的分類を行う。 転送行列形式を利用することで、冷却限界と目標状態進化の両方を包含して、パフォーマンスメトリクスの一貫した計算を実現する。 これらの多様な冷却限界を統一し, 単一のコヒーレントな数学的表現とし, 比較分析の合理化を行った。 次に、コヒーレント冷却プロトコルの効率を評価するために、性能係数$k$とランドウアー比$r_l$という2つの一般的なメトリクスを導入し、直接相関を確立する。 これらの指標を適用して、選択されたACプロトコルを徹底的に評価し、それらの相対的な強度を強調した。 最後に, 熱力学的性能を向上し, 所望の目標温度を低い作業入力で達成するACプロトコルの改良版を提案する。 この研究は、ACプロトコルの深い理解に寄与し、様々なアプリケーションで効率的な冷却戦略を設計するための貴重な洞察を提供する。

Algorithmic cooling (AC) protocols have been predominantly studied for their cooling capabilities, with limited attention paid to their thermodynamic properties. This work explores a novel perspective by analyzing a broad family of AC protocols from a thermodynamic standpoint. First, we give an in-depth review and formal classification of standard AC protocols. Leveraging the transfer matrix formalism, we achieve a consistent calculation of performance metrics, encompassing both cooling limits and target state evolution. We obtained a unification of these diverse cooling limits into a single, coherent mathematical expression, streamlining comparative analyses. Then, to assess the efficiency of coherent cooling protocols, we introduce two generic metrics: the coefficient of performance $K$ and the Landauer Ratio $R_L$, and establish a direct interrelation. Applying these metrics, we thoroughly evaluate selected AC protocols, highlighting their relative strengths. Finally, we propose improved versions of AC protocols that exhibit enhanced thermodynamic performance, achieving desired target temperatures with lower work inputs. This research contributes to a deeper understanding of AC protocols and provides valuable insights for designing efficient cooling strategies in various applications.
翻訳日:2024-02-20 18:30:13 公開日:2024-02-19
# 残留ネットワークに基づく岩石の分類

Rock Classification Based on Residual Networks ( http://arxiv.org/abs/2402.11831v1 )

ライセンス: Link先を確認
Sining Zhoubian, Yuyang Wang, Zhihuan Jiang(参考訳) 岩石分類は重要な形成情報を提供するため、重要な地質問題である。 しかし、畳み込みニューラルネットワークによるこの問題の探索は不十分である。 そこで本研究では,残差ニューラルネットワークを用いた2つのアプローチを提案する。 まず、データセットを拡大するためにデータ拡張手法を採用します。 ResNet34をベースとしたカーネルサイズや正規化メソッド,コンポジションを変更することで,通常のResnet34に比べて3.5%の精度で,テストデータセット上で70.1%の精度を実現した。 さらに、マルチヘッド自己注意を組み込んだBoTNetのようなバックボーンを用いて、モデルの内部残差接続も使用しています。 これによりモデルのパフォーマンスが向上し、テストデータセットで73.7%の精度が得られる。 また、ボトルネックトランスフォーマーブロックの数がモデルの性能に与える影響についても検討する。 複数のボトルネックトランスフォーマーブロックを持つモデルでは,パフォーマンスが向上しない可能性がある。 最後に、我々はこのアプローチがこの問題に関連する将来の作業に刺激を与え、モデル設計は新たな残留モデルアーキテクチャの開発を促進することができると考えている。

Rock Classification is an essential geological problem since it provides important formation information. However, exploration on this problem using convolutional neural networks is not sufficient. To tackle this problem, we propose two approaches using residual neural networks. We first adopt data augmentation methods to enlarge our dataset. By modifying kernel sizes, normalization methods and composition based on ResNet34, we achieve an accuracy of 70.1% on the test dataset, with an increase of 3.5% compared to regular Resnet34. Furthermore, using a similar backbone like BoTNet that incorporates multihead self attention, we additionally use internal residual connections in our model. This boosts the model's performance, achieving an accuracy of 73.7% on the test dataset. We also explore how the number of bottleneck transformer blocks may influence model performance. We discover that models with more than one bottleneck transformer block may not further improve performance. Finally, we believe that our approach can inspire future work related to this problem and our model design can facilitate the development of new residual model architectures.
翻訳日:2024-02-20 18:29:53 公開日:2024-02-19
# 最適な質問: 会話探索における大規模言語モデルと検索者の好みの整合

Ask Optimal Questions: Aligning Large Language Models with Retriever's Preference in Conversational Search ( http://arxiv.org/abs/2402.11827v1 )

ライセンス: Link先を確認
Chanwoong Yoon, Gangwoo Kim, Byeongguk Jeon, Sungdong Kim, Yohan Jo, Jaewoo Kang(参考訳) 会話検索は、シングルターン検索タスクとは異なり、対話コンテキスト内の現在の質問を理解する必要がある。 リフレッシュ-then-retrieveの一般的なアプローチは、質問を非コンテクスト化して、既成の検索者にとって自己満足のいくものにすることを目的としている。 この制限を克服するために,検索クエリを最適化するための言語モデル(lm)を目標検索システムの選好に合わせて最適化する,新たなフレームワークであるretpo(retriever's preference optimization)を提案する。 このプロセスは、大きなLMに様々な潜在的な書き換えを起こさせるよう促すことから始まり、その後、検索者の好みとしてこれらの書き換えの検索性能を収集する。 このプロセスを通じて、Retrieversのフィードバックを含むRFコレクションと呼ばれる大規模データセットを構築し、12Kの会話で410K以上のクエリ書き換えを行う。 さらに、このデータセットを用いて小さなLMを微調整し、レトリバーの好みをフィードバックとして調整する。 その結果,GPT-3.5を含む既存のベースラインを著しく上回り,最新の2つの対話型検索ベンチマークにおける最先端性能を実現した。

Conversational search, unlike single-turn retrieval tasks, requires understanding the current question within a dialogue context. The common approach of rewrite-then-retrieve aims to decontextualize questions to be self-sufficient for off-the-shelf retrievers, but most existing methods produce sub-optimal query rewrites due to the limited ability to incorporate signals from the retrieval results. To overcome this limitation, we present a novel framework RetPO (Retriever's Preference Optimization), which is designed to optimize a language model (LM) for reformulating search queries in line with the preferences of the target retrieval systems. The process begins by prompting a large LM to produce various potential rewrites and then collects retrieval performance for these rewrites as the retrievers' preferences. Through the process, we construct a large-scale dataset called RF collection, containing Retrievers' Feedback on over 410K query rewrites across 12K conversations. Furthermore, we fine-tune a smaller LM using this dataset to align it with the retrievers' preferences as feedback. The resulting model achieves state-of-the-art performance on two recent conversational search benchmarks, significantly outperforming existing baselines, including GPT-3.5.
翻訳日:2024-02-20 18:29:40 公開日:2024-02-19
# depths: 挑戦的シナリオのためのマルチモーダル融合フレームワーク

Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging Scenarios ( http://arxiv.org/abs/2402.11826v1 )

ライセンス: Link先を確認
Jialei Xu, Xianming Liu, Junjun Jiang, Kui Jiang, Rui Li, Kai Cheng, Xiangyang Ji(参考訳) RGB画像からの単眼深度推定は3次元視覚において重要な役割を果たす。 しかし、夜間や悪天候などの困難な環境では精度が低下する可能性がある。 ロングウェーブ赤外線カメラは、このような困難な状況下で安定した撮像を提供するが、本質的に低解像度であり、rgb画像によってもたらされるようなテクスチャやセマンティクスを欠いている。 現在の方法は、両方のソースから忠実な深さの手がかりを識別し統合することが困難であるため、単一のモダリティのみに焦点を当てている。 これらの課題に対処するため,本論文では,支配的なモダリティ間深度特徴を学習ベースのフレームワークで識別し,統合する手法を提案する。 具体的には,各モダリティからの個々の深さの手がかりを十分に活用し,各ネットワークの粗い深さマップを独立に計算する。 両モードにまたがる有利な深さが広がるにつれて,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼度マップを作成する新しい信頼度損失を提案する。 得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。 本手法は,提案するパイプラインを利用して,様々な困難シナリオにおいてロバストな深さ推定を行う能力を示す。 挑戦的なMS$^2$およびViViD++データセットの実験結果から,本手法の有効性とロバスト性を示す。

Monocular depth estimation from RGB images plays a pivotal role in 3D vision. However, its accuracy can deteriorate in challenging environments such as nighttime or adverse weather conditions. While long-wave infrared cameras offer stable imaging in such challenging conditions, they are inherently low-resolution, lacking rich texture and semantics as delivered by the RGB image. Current methods focus solely on a single modality due to the difficulties to identify and integrate faithful depth cues from both sources. To address these issues, this paper presents a novel approach that identifies and integrates dominant cross-modality depth features with a learning-based framework. Concretely, we independently compute the coarse depth maps with separate networks by fully utilizing the individual depth cues from each modality. As the advantageous depth spreads across both modalities, we propose a novel confidence loss steering a confidence predictor network to yield a confidence map specifying latent potential depth areas. With the resulting confidence map, we propose a multi-modal fusion network that fuses the final depth in an end-to-end manner. Harnessing the proposed pipeline, our method demonstrates the ability of robust depth estimation in a variety of difficult scenarios. Experimental results on the challenging MS$^2$ and ViViD++ datasets demonstrate the effectiveness and robustness of our method.
翻訳日:2024-02-20 18:29:12 公開日:2024-02-19
# 強磁場イオン化における光電子偏光渦

Photoelectron Polarization Vortexes in Strong-Field Ionization ( http://arxiv.org/abs/2402.11825v1 )

ライセンス: Link先を確認
Pei-Lun He, Zhao-Han Zhang, Karen Z. Hatsagortsyan, and Christoph H. Keitel(参考訳) 強い線形偏光レーザー場によって誘起される光電子のスピン偏光を、スピン分解強磁場近似と古典軌道モンテカルロシミュレーションによる解析処理と合わせて時間依存シュリンガー方程式の数値解を用いて検討した。 光電子運動量に対して平均的な偏光が消滅しても、運動量分解されたスピン偏光は重要であり、通常はレーザー偏光軸に対して渦構造を示す。 偏極は、束縛状態におけるスピン-軌道結合の連続体のスピン-相関量子軌道への移動から生じる。 原子核での光電子の再散乱は分極渦構造の形成に重要な役割を果たすが、連続体ダイナミクスにおけるスピン軌道結合の有意な効果はない。 さらに、スピン偏光電子ホログラフィーが示され、原子に関する微細な構造情報を抽出することができる。

The spin polarization of photoelectrons induced by an intense linearly polarized laser field is investigated using numerical solutions of the time-dependent Schr\"odinger equation in companion with our analytic treatment via the spin-resolved strong-field approximation and classical trajectory Monte Carlo simulations. We demonstrate that, even though the total polarization vanishes upon averaging over the photoelectron momentum, momentum-resolved spin polarization is significant, typically exhibiting a vortex structure relative to the laser polarization axis. The polarization arises from the transfer of spin-orbital coupling in the bound state to the spin-correlated quantum orbits in the continuum. The rescattering of photoelectrons at the atomic core plays an important role in forming the polarization vortex structure, while there is no significant effect of the spin-orbit coupling during the continuum dynamics. Furthermore, spin-polarized electron holography is demonstrated, feasible for extracting fine structural information about the atom.
翻訳日:2024-02-20 18:28:47 公開日:2024-02-19
# ウェアラブルを用いた大学生の周期的ストレスの特定

Identifying Periods of Cyclical Stress in University Students Using Wearables In-the-Wild ( http://arxiv.org/abs/2402.11823v1 )

ライセンス: Link先を確認
Peter Neigel, Andrew Vargo, Benjamin Tag and Koichi Kise(参考訳) 大学生は、最終試験に伴う周期的ストレスを含む、学業旅行中に様々なストレスに遭遇する。 幸福のサポートは、ストレスレベルを管理するのに役立つ。 本研究では,日本の大学生103名を対象に,最大28ヶ月間の健康追跡リングを装着した。 本研究は,類似の日程を有する試料において,ストレスの集団的バイオマーカーを同定できるか,その発生時期を学年ごとに特定できるかを検討することを目的とした。 調査の結果,受験期間中のストレスマーカーの増加,新年,就業時期,就業市場の特色が認められた。 以上の結果から, ノイズの多いデータから, 既成のウェアラブルを用いて, 大学生の現在の精神状態の観測が可能であり, ユーザの幸福感に有意な影響を及ぼす可能性が示唆された。 本手法と分析方法は,個人を歌わずに生徒のストレスレベルをモニタできるため,プライバシ保護手法である。 このようにして、新しい、突然のストレスの増加を認識することができ、ストレスを識別し、対策の設計と導入を知らせることができる。

University students encounter various forms of stress during their academic journey, including cyclical stress associated with final exams. Supporting their well-being means helping them manage their stress levels. In this study, we used a wearable health-tracking ring on a cohort of 103 Japanese university students for up to 28 months in the wild. The study aimed to investigate whether group-wide biomarkers of stress can be identified in a sample having similar daily schedules and whether these occurrences can be pinpointed to specific periods of the academic year. We found population-wide increased stress markers during exams, New Year's, and job hunting season, a Japanese job market peculiarity. Our results highlight the available potential of unobtrusive, in-situ detection of the current mental state of university student populations using off-the-shelf wearables from noisy data, with significant implications for the well-being of the users. Our approach and method of analysis allows for monitoring the student body's stress level without singling out individuals and therefore represents a privacy-preserving method. This way, new and sudden stress increases can be recognized, which can help identify the stressor and inform the design and introduction of counter measures.
翻訳日:2024-02-20 18:28:34 公開日:2024-02-19
# 大規模言語モデルによるグラフリコールの微細構造と精度

Microstructures and Accuracy of Graph Recall by Large Language Models ( http://arxiv.org/abs/2402.11821v1 )

ライセンス: Link先を確認
Yanbang Wang, Hejie Cui, Jon Kleinberg(参考訳) グラフデータは多くのアプリケーションにとって不可欠であり、その多くがテキスト形式で記述された関係にある。 結果として、以前のテキストで記述されたグラフを正確にリコールし、エンコードできることは、LCMがグラフ構造化情報を含む推論タスクを実行するかどうかを実証するために必要な基本的かつ重要な能力である。 グラフリコールにおける人間のパフォーマンスは、何十年にもわたって認知科学者によって研究されており、社会的関係の人間の扱いと一致するバイアスの特定の構造的パターンを示すことがしばしば発見されている。 しかし、これまでのところ、LLMがグラフリコールタスクでどのように振る舞うかはほとんどわかっていない。リコールされたグラフは特定のバイアスのあるパターンも示し、もしそうなら、人間と比べ、他のグラフ推論タスクにどのように影響するのか? 本研究では,llmsによるグラフリコールの体系的研究を行い,そのリコールにおける精度とバイアス構造(局所構造パターン)について検討した。 LLMはグラフリコールにおいてしばしば性能が低下するだけでなく、より多くの三角形と2-パスの交互化を好む傾向にある。 さらに、より先進的なLLMは、実際のグラフが---から来るドメインに顕著な依存があることに気付き、グラフが元のドメインと整合した言語スタイルでナレーションされたときに、最高のリコール精度を得る。

Graphs data is crucial for many applications, and much of it exists in the relations described in textual format. As a result, being able to accurately recall and encode a graph described in earlier text is a basic yet pivotal ability that LLMs need to demonstrate if they are to perform reasoning tasks that involve graph-structured information. Human performance at graph recall by has been studied by cognitive scientists for decades, and has been found to often exhibit certain structural patterns of bias that align with human handling of social relationships. To date, however, we know little about how LLMs behave in analogous graph recall tasks: do their recalled graphs also exhibit certain biased patterns, and if so, how do they compare with humans and affect other graph reasoning tasks? In this work, we perform the first systematical study of graph recall by LLMs, investigating the accuracy and biased microstructures (local structural patterns) in their recall. We find that LLMs not only underperform often in graph recall, but also tend to favor more triangles and alternating 2-paths. Moreover, we find that more advanced LLMs have a striking dependence on the domain that a real-world graph comes from -- by yielding the best recall accuracy when the graph is narrated in a language style consistent with its original domain.
翻訳日:2024-02-20 18:28:14 公開日:2024-02-19
# 大規模言語モデルのための頭部共有型注意

Head-wise Shareable Attention for Large Language Models ( http://arxiv.org/abs/2402.11819v1 )

ライセンス: Link先を確認
Zouying Cao, Yifei Yang, Hai Zhao(参考訳) 大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限する。 ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。 しかし、現在の重み共有技術は主にBERTのような小規模モデルに焦点を合わせ、層単位で粗い粒度の共有ルールを採用する。 LLMが普及し、レイヤ全体やブロックの共有が明らかに重量共有の柔軟性を低下させるため、これは制限となる。 本稿では、大言語モデルに対する$\textit{$\textbf{head-wise Shareable attention for large language model}$}$について述べる。 さらに,注意ヘッド間でパラメータを共有する2つのメモリ効率のよい手法を提案する。 どちらも共有重み行列を選択するのに同じ動的戦略を用いる。 最初の方法は、トレーニングせずにトレーニング済みのウェイトを直接再利用し、$\textbf{DirectShare}$と表記する。 2つ目の方法は、まず重み行列の類似性に制約を課し、次に共有し、$\textbf{PostShare}$と表記する。 実験結果から, 頭部共有モデルは良好な機能を維持しており, LLMに適用した微細な重量共有の実現可能性を示している。

Large Language Models (LLMs) suffer from huge number of parameters, which restricts their deployment on edge devices. Weight sharing is one promising solution that encourages weight reuse, effectively reducing memory usage with less performance drop. However, current weight sharing techniques primarily focus on small-scale models like BERT and employ coarse-grained sharing rules, e.g., layer-wise. This becomes limiting given the prevalence of LLMs and sharing an entire layer or block obviously diminishes the flexibility of weight sharing. In this paper, we present a perspective on $\textit{$\textbf{head-wise shareable attention for large language models}$}$. We further propose two memory-efficient methods that share parameters across attention heads, with a specific focus on LLMs. Both of them use the same dynamic strategy to select the shared weight matrices. The first method directly reuses the pre-trained weights without retraining, denoted as $\textbf{DirectShare}$. The second method first post-trains with constraint on weight matrix similarity and then shares, denoted as $\textbf{PostShare}$. Experimental results reveal our head-wise shared models still maintain satisfactory capabilities, demonstrating the feasibility of fine-grained weight sharing applied to LLMs.
翻訳日:2024-02-20 18:27:49 公開日:2024-02-19
# 少人数の環境保全メディアによる低リソース言語モニタリング

Where It Really Matters: Few-Shot Environmental Conservation Media Monitoring for Low-Resource Languages ( http://arxiv.org/abs/2402.11818v1 )

ライセンス: Link先を確認
Sameer Jain, Sedrick Scott Keh, Shova Chettri, Karun Dewan, Pablo Izquierdo, Johanna Prussman, Pooja Shreshtha, Cesar Suarez, Zheyuan Ryan Shi, Lei Li, Fei Fang(参考訳) 環境保護団体は、環境に影響を及ぼす可能性のある開発状況の認識を維持するため、保護区域の保護に関するニュースコンテンツを定期的に監視している。 既存の自動メディア監視システムは、ドメインの専門家によってラベル付けされた大量のデータを必要とする。 しかしながら、そのようなツールは、関心のニュースが主にローカルな低リソース言語にあるグローバルサウスでは最も必要であり、データセットに注釈を付ける専門家ははるかに少ない。 本稿では,低資源言語における環境保全コンテンツの自動認識手法であるnewsserowを提案する。 newsserowは、大言語モデル(llm)を用いた要約、文脈内少数ショット分類、自己回帰のパイプラインである。 ネパールの10以上のデモ的なニュース記事を使用することで、newsserowは他の少数の方法を大きく上回り、数千の例を使ってモデルと同等のパフォーマンスを達成している。 World Wide Fund for Nature(WWF)は、ネパールでメディア監視のためにNewsSerowをデプロイし、運用上の負担を大幅に削減し、保護のためのAIツールが、それらを最も必要とするコミュニティに実際に到達できるようにする。 NewsSerowはコロンビアなどの他国にも展開されている。

Environmental conservation organizations routinely monitor news content on conservation in protected areas to maintain situational awareness of developments that can have an environmental impact. Existing automated media monitoring systems require large amounts of data labeled by domain experts, which is only feasible at scale for high-resource languages like English. However, such tools are most needed in the global south where news of interest is mainly in local low-resource languages, and far fewer experts are available to annotate datasets sustainably. In this paper, we propose NewsSerow, a method to automatically recognize environmental conservation content in low-resource languages. NewsSerow is a pipeline of summarization, in-context few-shot classification, and self-reflection using large language models (LLMs). Using at most 10 demonstration example news articles in Nepali, NewsSerow significantly outperforms other few-shot methods and achieves comparable performance with models fully fine-tuned using thousands of examples. The World Wide Fund for Nature (WWF) has deployed NewsSerow for media monitoring in Nepal, significantly reducing their operational burden, and ensuring that AI tools for conservation actually reach the communities that need them the most. NewsSerow has also been deployed for countries with other languages like Colombia.
翻訳日:2024-02-20 18:27:29 公開日:2024-02-19
# コントラスト学習における特徴抑制の回避--これまで学ばなかったことを学ぶ

Avoiding Feature Suppression in Contrastive Learning: Learning What Has Not Been Learned Before ( http://arxiv.org/abs/2402.11816v1 )

ライセンス: Link先を確認
Jihai Zhang, Xiang Lan, Xiaoye Qu, Yu Cheng, Mengling Feng, Bryan Hooi(参考訳) ラベルのないデータから高品質な表現を得るための強力な方法として,自己指導型コントラスト学習が登場した。 しかし、最近、標準のコントラスト学習(例えば、SimCLR、CLIP)で機能抑制が特定され、単一のエンドツーエンドのトレーニング段階において、コントラストモデルはコントラストビューをまたいだ共有情報の一部のみをキャプチャし、他の潜在的に有用な情報を無視する。 特徴抑圧では、コントラッシブモデルは様々な下流タスクに使える十分な表現を学ばないことが多い。 特徴抑圧問題を緩和し、コントラストモデルによる総合表現の学習を確実にするために、新しい多段階コントラスト学習(mcl)フレームワークを開発した。 しばしば機能抑制をもたらす標準的なコントラスト学習とは異なり、mclは、よく学習された機能を維持しながら、前段階から検討されていない新機能を徐々に学習する。 様々な公開ベンチマークで実施した大規模な実験により,提案フレームワークの有効性が検証された。 さらに,提案したMCLは,一般的なコントラスト学習のバックボーンに適応し,標準のコントラスト学習手順では得られない特徴を学習によって向上することができることを示した。

Self-Supervised contrastive learning has emerged as a powerful method for obtaining high-quality representations from unlabeled data. However, feature suppression has recently been identified in standard contrastive learning ($e.g.$, SimCLR, CLIP): in a single end-to-end training stage, the contrastive model captures only parts of the shared information across contrasting views, while ignore the other potentially useful information. With feature suppression, contrastive models often fail to learn sufficient representations capable for various downstream tasks. To mitigate the feature suppression problem and ensure the contrastive model to learn comprehensive representations, we develop a novel Multistage Contrastive Learning (MCL) framework. Unlike standard contrastive learning that often result in feature suppression, MCL progressively learn new features that have not been explored in the previous stage, while maintaining the well-learned features. Extensive experiments conducted on various publicly available benchmarks validate the effectiveness of our proposed framework. In addition, we demonstrate that the proposed MCL can be adapted to a variety of popular contrastive learning backbones and boost their performance by learning features that could not be gained from standard contrastive learning procedures.
翻訳日:2024-02-20 18:27:06 公開日:2024-02-19
# semeval-2024 task 8a: コントラスト学習は、機械で生成されたテキストを検出するために埋め込みを学習できるか?

HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to Detect Machine-Generated Text? ( http://arxiv.org/abs/2402.11815v1 )

ライセンス: Link先を確認
Shubhashis Roy Dipta and Sadat Shahriar(参考訳) 本稿では, semeval-2024タスク8 "multigenerator, multidomain, and multilingual black-box machine- generated text detection" のために開発したシステムについて述べる。 機械生成テキストは、偽のテキスト生成、フィッシング、試験での不正、さらには著作権資料の盗用など、大きな言語モデル(LLM)の使用が主な関心事の一つである。 機械生成テキストを検出するために多くのシステムが開発されている。 それにもかかわらず、これらのシステムの大部分はテキスト生成モデルに依存しており、ユーザーがテキスト生成に使った特定のモデルを知ることがしばしば不可能であるため、現実世界のシナリオでは現実的でない制限である。 本研究では,ベースラインのパラメータの約40%(149m対355m)を使用するが,テストデータセット(参加者137人中21人)で同等のパフォーマンスを示す,コントラスト学習に基づく単一モデルを提案する。 私たちの重要な発見は、複数のモデルのアンサンブルがなくても、データ拡張とコントラスト学習の助けを借りて、1つのベースモデルで同等のパフォーマンスが得られるということです。

This paper describes our system developed for SemEval-2024 Task 8, "Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection." Machine-generated texts have been one of the main concerns due to the use of large language models (LLM) in fake text generation, phishing, cheating in exams, or even plagiarizing copyright materials. A lot of systems have been developed to detect machine-generated text. Nonetheless, the majority of these systems rely on the text-generating model, a limitation that is impractical in real-world scenarios, as it's often impossible to know which specific model the user has used for text generation. In this work, we propose a single model based on contrastive learning, which uses ~40% of the baseline's parameters (149M vs. 355M) but shows a comparable performance on the test dataset (21st out of 137 participants). Our key finding is that even without an ensemble of multiple models, a single base model can have comparable performance with the help of data augmentation and contrastive learning.
翻訳日:2024-02-20 18:26:44 公開日:2024-02-19
# 最適絡み合い証人に基づく絡み合い尺度

Entanglement Measure Based on Optimal Entanglement Witness ( http://arxiv.org/abs/2402.11865v1 )

ライセンス: Link先を確認
Nan Yang, Jiaji Wu, Xianyun Dong, Longyu Xiao, Jing Wang, Ming Li(参考訳) 最適な絡み合いの証人に基づく新しい絡み合い尺度を導入する。 まず、この絡み合い尺度は、すべての分離可能な状態に対するゼロ絡み合い、凸性、連続性、局所ユニタリ演算による不変性、局所演算および古典通信(LOCC)による非増加など、いくつかの必要な性質を満たすことを示す。 さらに、任意の二成分混合状態に対するこの絡み合い測度の下限に対して、特定の数学的表現を与える。 2$ \otimes 2 のシステムに対する下限をさらに改善します。 最後に、数種類の特定の量子状態の下限を数値的にシミュレートする。

We introduce a new entanglement measure based on optimal entanglement witness. First of all, we show that the entanglement measure satisfies some necessary properties, including zero entanglements for all separable states, convexity, continuity, invariance under local unitary operations and non-increase under local operations and classical communication(LOCC). More than that, we give a specific mathematical expression for the lower bound of this entanglement measure for any bipartite mixed states. We further improve the lower bound for 2$ \otimes $2 systems. Finally, we numerically simulate the lower bound of several types of specific quantum states.
翻訳日:2024-02-20 18:19:20 公開日:2024-02-19
# 大規模言語モデルによる説明の解釈はどの程度可能か?

How Interpretable are Reasoning Explanations from Prompting Large Language Models? ( http://arxiv.org/abs/2402.11863v1 )

ライセンス: Link先を確認
Yeo Wei Jie, Ranjan Satapathy, Goh Siow Mong, Rick, Erik Cambria(参考訳) Prompt Engineeringは、多数のタスクにわたる大規模言語モデルの性能向上に重要な注目を集めている。 chain-of-thoughtのようなテクニックは、タスクのパフォーマンスを高めるだけでなく、明確な推論ステップの軌跡を示し、聴衆に具体的な説明を提供する。 解釈可能性に関する先行研究は、単数軸(すなわち忠実性)に沿ってのみ思考の連鎖によって得られる推論連鎖を評価する。 本稿では,多面的な解釈可能性の評価を行い,信頼度だけでなく,複数のコモンセンス推論ベンチマークにおける堅牢性や有用性についても検討する。 同様に、我々の調査は単一のプロンプト技術に限らず、大規模言語モデルで広く用いられているプロンプト技術の範囲を広くカバーし、広範かつ徹底的な評価を保証する。 さらに,多次元の解釈性において70\%以上の改善をもたらす,自己補足連鎖思考と呼ばれる単純な解釈可能性アライメント手法を導入する。 コードはhttps://github.com/wj210/CoT_interpretabilityで入手できる。

Prompt Engineering has garnered significant attention for enhancing the performance of large language models across a multitude of tasks. Techniques such as the Chain-of-Thought not only bolster task performance but also delineate a clear trajectory of reasoning steps, offering a tangible form of explanation for the audience. Prior works on interpretability assess the reasoning chains yielded by Chain-of-Thought solely along a singular axis, namely faithfulness. We present a comprehensive and multifaceted evaluation of interpretability, examining not only faithfulness but also robustness and utility across multiple commonsense reasoning benchmarks. Likewise, our investigation is not confined to a single prompting technique; it expansively covers a multitude of prevalent prompting techniques employed in large language models, thereby ensuring a wide-ranging and exhaustive evaluation. In addition, we introduce a simple interpretability alignment technique, termed Self-Entailment-Alignment Chain-of-thought, that yields more than 70\% improvements across multiple dimensions of interpretability. Code is available at https://github.com/wj210/CoT_interpretability
翻訳日:2024-02-20 18:19:10 公開日:2024-02-19
# リー群上の確率的ヘッシアンフィッティング

Stochastic Hessian Fitting on Lie Group ( http://arxiv.org/abs/2402.11858v1 )

ライセンス: Link先を確認
Xi-Lin Li(参考訳) 本稿では,ヘシアンあるいはその逆の確率的ヘシアンベクトル生成物との適合性について検討する。 分析には、bfgs、gaussian-newton、adagradなど、一般的に使用される方法のほとんどを導出するために用いられるヘッセン適合基準を用いる。 本研究では, ユークリッド空間における勾配降下のsublinear rate, 一般に用いられる閉形式解, 対称正定値行列(spl) とあるリー群の多様体上の勾配降下の線形率など, 異なるヘッセンフィッティング法に対する収束率の違いを明らかにした。 ヘッセン整合問題は、より穏やかな条件下では十分一般のリー群上で強く凸であることがさらに示される。 これらの手法は, ノイズの多いヘッセンベクトル生成物, 時間変化ヘッセン, 低精度演算など, 異なる条件下で検証される。 これらの結果は、高速でロバストで正確なヘッセン推定に依存する確率的二次最適化に有用である。

This paper studies the fitting of Hessian or its inverse with stochastic Hessian-vector products. A Hessian fitting criterion, which can be used to derive most of the commonly used methods, e.g., BFGS, Gaussian-Newton, AdaGrad, etc., is used for the analysis. Our studies reveal different convergence rates for different Hessian fitting methods, e.g., sublinear rates for gradient descent in the Euclidean space and a commonly used closed-form solution, linear rates for gradient descent on the manifold of symmetric positive definite (SPL) matrices and certain Lie groups. The Hessian fitting problem is further shown to be strongly convex under mild conditions on a specific yet general enough Lie group. To confirm our analysis, these methods are tested under different settings like noisy Hessian-vector products, time varying Hessians, and low precision arithmetic. These findings are useful for stochastic second order optimizations that rely on fast, robust and accurate Hessian estimations.
翻訳日:2024-02-20 18:18:52 公開日:2024-02-19
# 局所的即時誤差補償を用いたコミュニケーション効率の良い分散学習

Communication-Efficient Distributed Learning with Local Immediate Error Compensation ( http://arxiv.org/abs/2402.11857v1 )

ライセンス: Link先を確認
Yifei Cheng, Li Shen, Linli Xu, Xun Qian, Shiwei Wu, Yiming Zhou, Tie Zhang, Dacheng Tao, Enhong Chen(参考訳) 誤り補償によるグラディエント圧縮は,分散学習における通信オーバーヘッドの低減を目標として注目されている。 しかし、既存の圧縮手法は、通信コストが高い1イテレーションで一方向圧縮のみを実行するか、収束速度が遅い双方向圧縮を行う。 本研究では、双方向圧縮と慎重に設計した補償手法に基づいて、上記のボトルネックを解消する局所即時誤差補償SGD(LIEC-SGD)最適化アルゴリズムを提案する。 具体的には、双方向圧縮技術は通信コストを削減し、補償技術は、局所圧縮誤差をモデル更新に即時補償すると同時に、サーバ上のグローバルエラー変数のみを維持して、その有効性を向上する。 理論的には、LIEC-SGDは収束率と通信コストのいずれにおいても従来の研究よりも優れていることが証明され、LIEC-SGDは一方向圧縮と双方向圧縮の2つの利点を継承できることを示す。 最後に、深層ニューラルネットワークのトレーニング実験により、提案したLIEC-SGDアルゴリズムの有効性を検証する。

Gradient compression with error compensation has attracted significant attention with the target of reducing the heavy communication overhead in distributed learning. However, existing compression methods either perform only unidirectional compression in one iteration with higher communication cost, or bidirectional compression with slower convergence rate. In this work, we propose the Local Immediate Error Compensated SGD (LIEC-SGD) optimization algorithm to break the above bottlenecks based on bidirectional compression and carefully designed compensation approaches. Specifically, the bidirectional compression technique is to reduce the communication cost, and the compensation technique compensates the local compression error to the model update immediately while only maintaining the global error variable on the server throughout the iterations to boost its efficacy. Theoretically, we prove that LIEC-SGD is superior to previous works in either the convergence rate or the communication cost, which indicates that LIEC-SGD could inherit the dual advantages from unidirectional compression and bidirectional compression. Finally, experiments of training deep neural networks validate the effectiveness of the proposed LIEC-SGD algorithm.
翻訳日:2024-02-20 18:18:33 公開日:2024-02-19
# コンフュージョン:単一画像からの複数の特定のシーンにおけるパーソナライズされた主題生成

ComFusion: Personalized Subject Generation in Multiple Specific Scenes From Single Image ( http://arxiv.org/abs/2402.11849v1 )

ライセンス: Link先を確認
Yan Hong, Jianfu Zhang(参考訳) テキストから画像への拡散モデル(t2i)のパーソナライズにおける最近の進歩は、限られた数のユーザ提供例を用いて、パーソナライズされた視覚概念に基づいた画像を生成する能力を示している。 しかし、これらのモデルは、特にテキスト入力で定義されたシーンを操作する場合、高い視覚的忠実性を維持するのに苦労することが多い。 これに対応するために,コンフュージョン (ComFusion) は,いくつかのユーザ提供対象画像と事前定義されたテキストシーンの合成を生成する事前学習モデルを活用する手法である。 comfusionは、クラスレベルの事前保存正規化を統合し、学習済みモデルからの主題クラスとシーン固有の知識を組み合わせることで、生成の忠実性を高める。 さらに、ComFusionは粗い生成イメージを使用し、インスタンスイメージとシーンテキストの両方を効果的に整合させる。 その結果、コンフュージョンは被写体の本質の把握とシーンの忠実さの微妙なバランスを保ち、T2Iパーソナライゼーションにおける様々なベースラインに対するコンフュージョンの徹底的な評価は質的かつ定量的に優れていることを示した。

Recent advancements in personalizing text-to-image (T2I) diffusion models have shown the capability to generate images based on personalized visual concepts using a limited number of user-provided examples. However, these models often struggle with maintaining high visual fidelity, particularly in manipulating scenes as defined by textual inputs. Addressing this, we introduce ComFusion, a novel approach that leverages pretrained models generating composition of a few user-provided subject images and predefined-text scenes, effectively fusing visual-subject instances with textual-specific scenes, resulting in the generation of high-fidelity instances within diverse scenes. ComFusion integrates a class-scene prior preservation regularization, which leverages composites the subject class and scene-specific knowledge from pretrained models to enhance generation fidelity. Additionally, ComFusion uses coarse generated images, ensuring they align effectively with both the instance image and scene texts. Consequently, ComFusion maintains a delicate balance between capturing the essence of the subject and maintaining scene fidelity.Extensive evaluations of ComFusion against various baselines in T2I personalization have demonstrated its qualitative and quantitative superiority.
翻訳日:2024-02-20 18:18:15 公開日:2024-02-19
# unlearncanvas:拡散モデルのためのベンチマークマシンアンラーニングのためのスタイリッシュな画像データセット

UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning for Diffusion Models ( http://arxiv.org/abs/2402.11846v1 )

ライセンス: Link先を確認
Yihua Zhang, Yimeng Zhang, Yuguang Yao, Jinghan Jia, Jiancheng Liu, Xiaoming Liu, Sijia Liu(参考訳) 拡散モデル(DM)の急速な進歩は、様々な現実世界の産業に変化をもたらしただけでなく、有害なコンテンツの生成、著作権紛争、ステレオタイプや偏見の台頭など、社会的なネガティブな懸念をもたらした。 これらの問題を解決するために、機械学習(mu)は潜在的な解決策として登場し、様々なアプリケーションでdmsの望ましくない生成能力を取り除く能力を示している。 しかし,既存のMU評価手法を検討することにより,DMにおけるMUの不完全,不正確な,あるいは偏りのある評価をもたらす可能性のあるいくつかの重要な課題を明らかにする。 それらに対処するために,dms後アンラーニングにおいてしばしば見過ごされがちな保持性測定の導入を含む,muの評価基準を強化する。 さらに,unlearncanvasという総合的な高分解能スタイリゼーション画像データセットを導入し,関連する画像オブジェクトと連動して芸術的絵画スタイルを未学習で評価する。 このデータセットは、DM上でのMUテクニックの標準化および自動化評価フレームワークを確立する上で重要な役割を担い、未学習の有効性の様々な側面に対処する7つの定量的指標を特徴とする。 幅広い実験を通じて、5つの最先端MU手法をベンチマークし、その長所と短所、基礎となる未学習メカニズムに関する新たな洞察を明らかにする。 さらに,UnlearnCanvasがスタイル伝達などの他の生成的モデリングタスクをベンチマークする可能性を示す。 この作業の結果を再現するためのUnlearnCanvasデータセット、ベンチマーク、コードは、https://github.com/OPTML-Group/UnlearnCanvasにある。

The rapid advancement of diffusion models (DMs) has not only transformed various real-world industries but has also introduced negative societal concerns, including the generation of harmful content, copyright disputes, and the rise of stereotypes and biases. To mitigate these issues, machine unlearning (MU) has emerged as a potential solution, demonstrating its ability to remove undesired generative capabilities of DMs in various applications. However, by examining existing MU evaluation methods, we uncover several key challenges that can result in incomplete, inaccurate, or biased evaluations for MU in DMs. To address them, we enhance the evaluation metrics for MU, including the introduction of an often-overlooked retainability measurement for DMs post-unlearning. Additionally, we introduce UnlearnCanvas, a comprehensive high-resolution stylized image dataset that facilitates us to evaluate the unlearning of artistic painting styles in conjunction with associated image objects. We show that this dataset plays a pivotal role in establishing a standardized and automated evaluation framework for MU techniques on DMs, featuring 7 quantitative metrics to address various aspects of unlearning effectiveness. Through extensive experiments, we benchmark 5 state-of-the-art MU methods, revealing novel insights into their pros and cons, and the underlying unlearning mechanisms. Furthermore, we demonstrate the potential of UnlearnCanvas to benchmark other generative modeling tasks, such as style transfer. The UnlearnCanvas dataset, benchmark, and the codes to reproduce all the results in this work can be found at https://github.com/OPTML-Group/UnlearnCanvas.
翻訳日:2024-02-20 18:17:50 公開日:2024-02-19
# Few-shot Hateful Meme DetectionのためのModularized Networks

Modularized Networks for Few-shot Hateful Meme Detection ( http://arxiv.org/abs/2402.11845v1 )

ライセンス: Link先を確認
Rui Cao, Roy Ka-Wei Lee, Jing Jiang(参考訳) 本稿では,ラベル付きサンプルがいくつか存在する低リソース環境において,ヘイトフルミームを検出するという課題に対処する。 提案手法は,パラメータ効率向上手法であるローランク適応(LoRA)の構成性を活用する。 我々は,憎しみのあるミーム検出に関連するタスクに対して,LoRAを用いた大規模言語モデル(LLM)を微調整し,LoRAモジュール群を生成する。 これらのモジュールはヘイトフルミーム検出に不可欠な推論スキルを持つ。 次に、利用可能な数少ないアノテーション付きサンプルを使用してモジュール作曲家を訓練し、その関連性に基づいてLoRAモジュールに重みを割り当てます。 モデルの学習可能なパラメータは、LoRAモジュールの数に直接比例する。 LLMに基盤を置き、LoRAモジュールで拡張したこのモジュール化ネットワークは、ヘイトフルミーム検出の文脈における一般化の強化を示す。 私たちの評価は、数回の学習コンテキストでヘイトフルミーム検出用に設計された3つのデータセットにまたがる。 提案手法は,従来の文脈内学習よりも優れた性能を示し,その関連性に基づいて重みをLoRAモジュールに割り当てるモジュール作曲家の訓練に利用可能な数少ない注釈付きサンプルを用いる。 モデルの学習可能なパラメータは、LoRAモジュールの数に直接比例する。 LLMに基盤を置き、LoRAモジュールで拡張したこのモジュール化ネットワークは、ヘイトフルミーム検出の文脈における一般化の強化を示す。 私たちの評価は、数回の学習コンテキストでヘイトフルミーム検出用に設計された3つのデータセットにまたがる。 提案手法は,推論中に計算量が多くなる従来のインコンテキスト学習よりも優れた性能を示す。

In this paper, we address the challenge of detecting hateful memes in the low-resource setting where only a few labeled examples are available. Our approach leverages the compositionality of Low-rank adaptation (LoRA), a widely used parameter-efficient tuning technique. We commence by fine-tuning large language models (LLMs) with LoRA on selected tasks pertinent to hateful meme detection, thereby generating a suite of LoRA modules. These modules are capable of essential reasoning skills for hateful meme detection. We then use the few available annotated samples to train a module composer, which assigns weights to the LoRA modules based on their relevance. The model's learnable parameters are directly proportional to the number of LoRA modules. This modularized network, underpinned by LLMs and augmented with LoRA modules, exhibits enhanced generalization in the context of hateful meme detection. Our evaluation spans three datasets designed for hateful meme detection in a few-shot learning context. The proposed method demonstrates superior performance to traditional in-context learning, which is also more computationally intensive during inference.We then use the few available annotated samples to train a module composer, which assigns weights to the LoRA modules based on their relevance. The model's learnable parameters are directly proportional to the number of LoRA modules. This modularized network, underpinned by LLMs and augmented with LoRA modules, exhibits enhanced generalization in the context of hateful meme detection. Our evaluation spans three datasets designed for hateful meme detection in a few-shot learning context. The proposed method demonstrates superior performance to traditional in-context learning, which is also more computationally intensive during inference.
翻訳日:2024-02-20 18:17:20 公開日:2024-02-19
# WildFake:AI生成画像検出のための大規模カオスデータセット

WildFake: A Large-scale Challenging Dataset for AI-Generated Images Detection ( http://arxiv.org/abs/2402.11843v1 )

ライセンス: Link先を確認
Yan Hong, Jianfu Zhang(参考訳) 生成モデルの異常な能力により、人間が人工知能(AI)の生成した画像と実際の写真とを区別できないような高品質な画像の生成が可能になった。 生成技術の開発は新たな機会を開放したが、同時にプライバシー、認証、セキュリティに対する潜在的なリスクももたらした。 したがって、AI生成画像を検出するタスクは、違法な活動を防ぐために最重要となる。 AI生成画像検出の一般化性と堅牢性を評価するため、最先端のジェネレータ、多様なオブジェクトカテゴリ、実世界のアプリケーションからなる大規模データセットWildFakeを提案する。 WildFakeデータセットには以下の利点がある。 1) Wildコレクションによるリッチコンテンツ: WildFakeはオープンソースコミュニティからフェイクイメージを収集し、幅広いイメージクラスとイメージスタイルでその多様性を充実させる。 2)階層構造:WildFakeは、GAN、拡散モデル、および他の生成モデルから異なる種類のジェネレータによって合成された偽画像を含む。 これらの重要な強みは、WildFakeで訓練された検出器の一般化と堅牢性を高め、現実のシナリオにおけるAI生成検出器に対するWildFakeの相当な関連性と有効性を示す。 さらに、我々の広範囲な評価実験は、WildFakeのユニークな階層構造によって得られる、異なるレベルの生成モデルの能力に関する深い洞察を得られるように調整されている。

The extraordinary ability of generative models enabled the generation of images with such high quality that human beings cannot distinguish Artificial Intelligence (AI) generated images from real-life photographs. The development of generation techniques opened up new opportunities but concurrently introduced potential risks to privacy, authenticity, and security. Therefore, the task of detecting AI-generated imagery is of paramount importance to prevent illegal activities. To assess the generalizability and robustness of AI-generated image detection, we present a large-scale dataset, referred to as WildFake, comprising state-of-the-art generators, diverse object categories, and real-world applications. WildFake dataset has the following advantages: 1) Rich Content with Wild collection: WildFake collects fake images from the open-source community, enriching its diversity with a broad range of image classes and image styles. 2) Hierarchical structure: WildFake contains fake images synthesized by different types of generators from GANs, diffusion models, to other generative models. These key strengths enhance the generalization and robustness of detectors trained on WildFake, thereby demonstrating WildFake's considerable relevance and effectiveness for AI-generated detectors in real-world scenarios. Moreover, our extensive evaluation experiments are tailored to yield profound insights into the capabilities of different levels of generative models, a distinctive advantage afforded by WildFake's unique hierarchical structure.
翻訳日:2024-02-20 18:16:53 公開日:2024-02-19
# codeart: シンボルの欠如による注意の正規化によるより良いコードモデル

CodeArt: Better Code Models by Attention Regularization When Symbols Are Lacking ( http://arxiv.org/abs/2402.11842v1 )

ライセンス: Link先を確認
Zian Su, Xiangzhe Xu, Ziyang Huang, Zhuo Zhang, Yapeng Ye, Jianjun Huang, Xiangyu Zhang(参考訳) トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。 しかし、その効果はシンボルが欠落したり、情報的でない場合に低下する。 理由は、モデルがシンボルの助けなしに適切な相関やコンテキストに注意を払うことを学ばないからだ。 シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。 このような場合、プログラムは非常に原始的な言語で書かれたものに縮退する。 そこで,プログラム解析を用いて(バニラモデルのように記号やマスキング言語モデルに頼るのではなく)事前の文脈を抽出することを提案する。 次に,これらの文脈に適応するモデル,例えば双方向プログラム依存推移クロージャやトークン共起といったモデルのみを許容するために,新しい注意マスキング手法を利用する。 その間、本質的な自己注意機構を利用して、他と比較してどの注意がより重要であるかを学ぶ。 このアイデアを実現するために,BERTモデルのバニラトークン化とモデルアーキテクチャを強化し,アテンションマスクの構築と活用を行い,新しい事前学習アルゴリズムを導入する。 ツールによって抽出された明示的なプログラム依存情報を持つ2600万個の削除されたバイナリ関数のデータセットを用いて、このBERTライクなモデルをスクラッチから事前訓練する。 このモデルを,バイナリ類似性,型推論,マルウェアファミリー分類という3つの下流タスクに適用した。 我々の事前学習モデルでは,これらのタスクのSOTAを53%から64%,49%から60%,74%から94%に改善することができる。 また、コード理解モデルの一般的な事前学習技術を大幅に上回っている。

Transformer based code models have impressive performance in many software engineering tasks. However, their effectiveness degrades when symbols are missing or not informative. The reason is that the model may not learn to pay attention to the right correlations/contexts without the help of symbols. We propose a new method to pre-train general code models when symbols are lacking. We observe that in such cases, programs degenerate to something written in a very primitive language. We hence propose to use program analysis to extract contexts a priori (instead of relying on symbols and masked language modeling as in vanilla models). We then leverage a novel attention masking method to only allow the model attending to these contexts, e.g., bi-directional program dependence transitive closures and token co-occurrences. In the meantime, the inherent self-attention mechanism is utilized to learn which of the allowed attentions are more important compared to others. To realize the idea, we enhance the vanilla tokenization and model architecture of a BERT model, construct and utilize attention masks, and introduce a new pre-training algorithm. We pre-train this BERT-like model from scratch, using a dataset of 26 million stripped binary functions with explicit program dependence information extracted by our tool. We apply the model in three downstream tasks: binary similarity, type inference, and malware family classification. Our pre-trained model can improve the SOTAs in these tasks from 53% to 64%, 49% to 60%, and 74% to 94%, respectively. It also substantially outperforms other general pre-training techniques of code understanding models.
翻訳日:2024-02-20 18:16:29 公開日:2024-02-19
# ASGNet:ログベース異常診断のための適応セマンティックゲートネットワーク

ASGNet: Adaptive Semantic Gate Networks for Log-Based Anomaly Diagnosis ( http://arxiv.org/abs/2402.11841v1 )

ライセンス: Link先を確認
Haitian Yang, Degang Sun, Wen Liu, Yanshu Li, Yan Wang, Weiqing Huang(参考訳) ログはソフトウェアシステムの開発とメンテナンスに広く利用されている。 ログは、システムのランタイム動作を理解し、システム障害を診断するのに役立つ。 異常診断には、過去のログから抽出したログイベントデータを用いて診断モデルを構築するのが一般的である。 しかし, 既存の手法では, (1) 統計的特徴: 単語頻度やラベル分布の異常など, ログデータに固有の特徴が十分に活用されていない。 ログ生データと比較すると、統計的特徴は決定論的であり、対応するタスクと自然に互換性がある。 (2) セマンティック機能: ログにはソフトウェアシステムの背後にある実行ロジックが含まれているため、ログステートメントは深いセマンティック関係を共有します。 本稿では,ログデータの統計的特徴と意味的特徴を効果的に組み合わせ,ログ異常診断の性能を向上させる方法を提案する。 本稿では,統計的特徴と意味的特徴を組み合わせることで,統計的特徴を選択的に活用し,ログテキスト意味表現を統合した適応的意味ゲートネットワーク(asgnet)を提案する。 具体的には、ASGNetは変分符号化モジュールを介して統計的特徴を符号化し、よく設計された適応的セマンティックしきい値機構を通じて有用な情報を融合する。 しきい値機構は、ロバストな分類器を訓練することを意図した決定における意味的特徴の信頼性に基づいて、分類器に情報フローを導入する。 実データを用いた実験結果から,提案手法は各種性能指標において,すべての基本手法よりも優れていることがわかった。

Logs are widely used in the development and maintenance of software systems. Logs can help engineers understand the runtime behavior of systems and diagnose system failures. For anomaly diagnosis, existing methods generally use log event data extracted from historical logs to build diagnostic models. However, we find that existing methods do not make full use of two types of features, (1) statistical features: some inherent statistical features in log data, such as word frequency and abnormal label distribution, are not well exploited. Compared with log raw data, statistical features are deterministic and naturally compatible with corresponding tasks. (2) semantic features: Logs contain the execution logic behind software systems, thus log statements share deep semantic relationships. How to effectively combine statistical features and semantic features in log data to improve the performance of log anomaly diagnosis is the key point of this paper. In this paper, we propose an adaptive semantic gate networks (ASGNet) that combines statistical features and semantic features to selectively use statistical features to consolidate log text semantic representation. Specifically, ASGNet encodes statistical features via a variational encoding module and fuses useful information through a well-designed adaptive semantic threshold mechanism. The threshold mechanism introduces the information flow into the classifier based on the confidence of the semantic features in the decision, which is conducive to training a robust classifier and can solve the overfitting problem caused by the use of statistical features. The experimental results on the real data set show that our method proposed is superior to all baseline methods in terms of various performance indicators.
翻訳日:2024-02-20 18:16:04 公開日:2024-02-19
# 鏡視下キセル : 術中画像診断による3次元解剖モデル

An Endoscopic Chisel: Intraoperative Imaging Carves 3D Anatomical Models ( http://arxiv.org/abs/2402.11840v1 )

ライセンス: Link先を確認
Jan Emily Mangulabnan, Roger D. Soberanis-Mukul, Timo Teufel, Manish Sahu, Jose L. Porras, S. Swaroop Vedula, Masaru Ishii, Gregory Hager, Russell H. Taylor, Mathias Unberath(参考訳) 目的:ctは複雑な解剖学の患者固有の洞察を提供し,リアルタイムの術中ナビゲーションにより内視鏡検査を補完する。 しかし, 術前モデルでは, 解剖学的変化は認められず, 手術進行時のナビゲーションに不正確な根拠が生じる。 方法: 術中内視鏡映像を応用した術前3次元解剖モデルを更新するための最初のビジョンベースアプローチを提案する。 術中単眼深度推定値と手術前深度図を比較して修正領域を同定した。 新しい深度は、組織操作を反映した術中3Dモデルを生成するために、切り離された符号付き距離関数表現の体積融合によってこれらの領域に統合される。 結果: 体外標本の5段階の手術進行のモデルを逐次更新することにより, アプローチを定量的に評価した。 本研究は, 解剖学的修正領域における術中CTと更新モデルからの対応の誤差を計算した。 結果として得られたモデルでは, 手術進行中の誤差が減少し, 更新を行わない場合には増大する。 結語: 術前の3次元解剖モデルでは, 副鼻腔手術の術中内視鏡映像を用いて更新できる可能性が示唆された。 今後の作業では,単眼深度推定の改善や,外部ナビゲーションシステムの必要性の排除が検討される予定である。 患者モデルを継続的に更新する能力は、外科医に現在の解剖学的状態をより正確に理解し、副鼻腔手術のためのデジタルツインパラダイムへの道を開く可能性がある。

Purpose: Preoperative imaging plays a pivotal role in sinus surgery where CTs offer patient-specific insights of complex anatomy, enabling real-time intraoperative navigation to complement endoscopy imaging. However, surgery elicits anatomical changes not represented in the preoperative model, generating an inaccurate basis for navigation during surgery progression. Methods: We propose a first vision-based approach to update the preoperative 3D anatomical model leveraging intraoperative endoscopic video for navigated sinus surgery where relative camera poses are known. We rely on comparisons of intraoperative monocular depth estimates and preoperative depth renders to identify modified regions. The new depths are integrated in these regions through volumetric fusion in a truncated signed distance function representation to generate an intraoperative 3D model that reflects tissue manipulation. Results: We quantitatively evaluate our approach by sequentially updating models for a five-step surgical progression in an ex vivo specimen. We compute the error between correspondences from the updated model and ground-truth intraoperative CT in the region of anatomical modification. The resulting models show a decrease in error during surgical progression as opposed to increasing when no update is employed. Conclusion: Our findings suggest that preoperative 3D anatomical models can be updated using intraoperative endoscopy video in navigated sinus surgery. Future work will investigate improvements to monocular depth estimation as well as removing the need for external navigation systems. The resulting ability to continuously update the patient model may provide surgeons with a more precise understanding of the current anatomical state and paves the way toward a digital twin paradigm for sinus surgery.
翻訳日:2024-02-20 18:15:38 公開日:2024-02-19
# テキスト特徴選択とクラスタリングのためのgrey wolf optimizer(gwo)を用いた強化学習ベース最適化(tlbo)

An enhanced Teaching-Learning-Based Optimization (TLBO) with Grey Wolf Optimizer (GWO) for text feature selection and clustering ( http://arxiv.org/abs/2402.11839v1 )

ライセンス: Link先を確認
Mahsa Azarshab, Mohammad Fathian, Babak Amiri(参考訳) テキスト文書のクラスタリングは,テキスト文書の整理と処理において重要な役割を果たす。 大規模文書に含まれる非形式的かつ冗長な機能はクラスタリングアルゴリズムの有効性を低下させる。 特徴選択(FS)は、これらの特徴を取り除くためのよく知られたテクニックである。 FSは最適化問題として定式化できるため、様々なメタヒューリスティックアルゴリズムが用いられている。 授業学習ベース最適化(TLBO)は,低数のパラメータと高速収束の恩恵を受ける新しいメタヒューリスティックアルゴリズムである。 ハイブリッド手法はTLBOの利点を同時に生かすことができ、局所的な最適解法に対処することができる。 本稿では,TLBO,Grey Wolf Optimizer (GWO),およびGA演算子のハイブリッドを提案することにより,フィルタベースFSアルゴリズム(TLBO-GWO)を提案する。 6つのベンチマークデータセットが選択され、TLBO-GWOは、最近提案された3つのFSアルゴリズムと比較される。 比較は, クラスタリング評価尺度, 収束挙動, 次元低減法に基づいて実施し, 統計的テストを用いて検証した。 その結果,tlbo-gwoはテキストクラスタリング (k-means) の有効性を著しく向上できることがわかった。

Text document clustering can play a vital role in organizing and handling the everincreasing number of text documents. Uninformative and redundant features included in large text documents reduce the effectiveness of the clustering algorithm. Feature selection (FS) is a well-known technique for removing these features. Since FS can be formulated as an optimization problem, various meta-heuristic algorithms have been employed to solve it. Teaching-Learning-Based Optimization (TLBO) is a novel meta-heuristic algorithm that benefits from the low number of parameters and fast convergence. A hybrid method can simultaneously benefit from the advantages of TLBO and tackle the possible entrapment in the local optimum. By proposing a hybrid of TLBO, Grey Wolf Optimizer (GWO), and Genetic Algorithm (GA) operators, this paper suggests a filter-based FS algorithm (TLBO-GWO). Six benchmark datasets are selected, and TLBO-GWO is compared with three recently proposed FS algorithms with similar approaches, the main TLBO and GWO. The comparison is conducted based on clustering evaluation measures, convergence behavior, and dimension reduction, and is validated using statistical tests. The results reveal that TLBO-GWO can significantly enhance the effectiveness of the text clustering technique (K-means).
翻訳日:2024-02-20 18:15:13 公開日:2024-02-19
# UniST:都市時空間予測のためのプロンプト型ユニバーサルモデル

UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction ( http://arxiv.org/abs/2402.11838v1 )

ライセンス: Link先を確認
Yuan Yuan, Jingtao Ding, Jie Feng, Depeng Jin, Yong Li(参考訳) 都市空間の時空間予測は交通管理,資源最適化,都市計画といった情報的意思決定に不可欠である。 自然言語のための事前訓練された基礎モデルは驚くべきブレークスルーを経験しており、1つの汎用モデルが様々な領域で複数のタスクをこなすことができるが、都市時空間モデリングは遅れている。 既存の都市予測のアプローチは通常、タスク固有のモデル設計と広範なドメイン内トレーニングデータを必要とする特定の時空間シナリオに合わせて調整される。 本研究では,都市時空間予測のためのユニバーサルモデルUniSTを提案する。 大規模な言語モデルからインスピレーションを得たUniSTは、以下の通り成功している。 一 多様な時空間データ特性に対する柔軟性 (II)複雑な時空間関係を捉えるための精巧なマスキング戦略による効果的な生成前訓練 (iii)シナリオ間で内在的かつ共有的な知識を調整・活用する時空間的知識誘導型プロンプト。 これらの設計は、強力な一般化能力を持つ時空間予測のための1対1のモデルの可能性を解き放ちます。 15都市と6つのドメインに関する広範囲な実験は、unistが最先端の予測性能、特に少数およびゼロショットシナリオにおける普遍性を示している。

Urban spatio-temporal prediction is crucial for informed decision-making, such as transportation management, resource optimization, and urban planning. Although pretrained foundation models for natural languages have experienced remarkable breakthroughs, wherein one general-purpose model can tackle multiple tasks across various domains, urban spatio-temporal modeling lags behind. Existing approaches for urban prediction are usually tailored for specific spatio-temporal scenarios, requiring task-specific model designs and extensive in-domain training data. In this work, we propose a universal model, UniST, for urban spatio-temporal prediction. Drawing inspiration from large language models, UniST achieves success through: (i) flexibility towards diverse spatio-temporal data characteristics, (ii) effective generative pre-training with elaborated masking strategies to capture complex spatio-temporal relationships, (iii) spatio-temporal knowledge-guided prompts that align and leverage intrinsic and shared knowledge across scenarios. These designs together unlock the potential of a one-for-all model for spatio-temporal prediction with powerful generalization capability. Extensive experiments on 15 cities and 6 domains demonstrate the universality of UniST in advancing state-of-the-art prediction performance, especially in few-shot and zero-shot scenarios.
翻訳日:2024-02-20 18:14:48 公開日:2024-02-19
# 自己ガイドロバストグラフ構造再構成

Self-Guided Robust Graph Structure Refinement ( http://arxiv.org/abs/2402.11837v1 )

ライセンス: Link先を確認
Yeonjun In, Kanghoon Yoon, Kibum Kim, Kijung Shin, and Chanyoung Park(参考訳) 近年の研究では、GNNは敵の攻撃に弱いことが判明している。 このような攻撃に対して、堅牢なグラフ構造改善(GSR)手法は、ノードの特徴、グラフ構造、外部情報に基づく対角線の影響を最小限に抑えることを目的としている。 しかし,既存のGSR手法は,クリーンノードの特徴の仮定,中程度の構造的攻撃,外部クリーングラフの可用性など,狭義の手法によって制限されていることが判明した。 本稿では,攻撃されたグラフ自体のクリーンな部分グラフを利用する自己誘導型GSRフレームワーク(SG-GSR)を提案する。 さらに、クリーンな部分グラフ抽出における2つの技術的課題に対処する新しいグラフ強化とグループ学習戦略を提案する。 1)構造情報の喪失、及び 2)不均衡なノード次数分布。 非標的攻撃、標的攻撃、フィーチャーアタック、Eコマース詐欺、ノイズの多いノードラベルなど、さまざまなシナリオにおけるSG-GSRの有効性を示す。 私たちのコードはhttps://github.com/yeonjun-in/torch-SG-GSRで公開されています。

Recent studies have revealed that GNNs are vulnerable to adversarial attacks. To defend against such attacks, robust graph structure refinement (GSR) methods aim at minimizing the effect of adversarial edges based on node features, graph structure, or external information. However, we have discovered that existing GSR methods are limited by narrowassumptions, such as assuming clean node features, moderate structural attacks, and the availability of external clean graphs, resulting in the restricted applicability in real-world scenarios. In this paper, we propose a self-guided GSR framework (SG-GSR), which utilizes a clean sub-graph found within the given attacked graph itself. Furthermore, we propose a novel graph augmentation and a group-training strategy to handle the two technical challenges in the clean sub-graph extraction: 1) loss of structural information, and 2) imbalanced node degree distribution. Extensive experiments demonstrate the effectiveness of SG-GSR under various scenarios including non-targeted attacks, targeted attacks, feature attacks, e-commerce fraud, and noisy node labels. Our code is available at https://github.com/yeonjun-in/torch-SG-GSR.
翻訳日:2024-02-20 18:14:29 公開日:2024-02-19
# ROSEはそうしない: 逆プロンプトコントラストデコーディングによる命令付き大規模言語モデルの安全性を高める

ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding ( http://arxiv.org/abs/2402.11889v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao(参考訳) 命令調整型大規模言語モデル(LLM)の開発により,LLMの安全性の向上がますます重要になっている。 しかしながら、LLMの出力を期待される安全性に合わせるための現在のアプローチは、通常、高品質の安全データや高価な計算資源など、費用がかかり非効率な訓練努力を必要とする。 そこで本研究では,既存の命令調整 LLM の安全性を,追加の訓練を伴わずに直接向上させる,逆プロンプトコントラスト復号法 (ROSE) を提案する。 ROSEの原理は、慎重に設計された逆プロンプトによって引き起こされる望ましくない出力を抑えることにより、所望の安全出力の確率を改善することである。 6つの安全性と2つの汎用タスクに関する実験では、5種類の命令調整llmで一貫性と大幅な安全性向上(最大+13.8%の安全性スコア)をもたらすだけでなく、llmの汎用能力にもメリットがあります。 ROSEの基盤となるメカニズムを詳細に分析し、いつどこで使用するかを明らかにする。

With the development of instruction-tuned large language models (LLMs), improving the safety of LLMs has become more critical. However, the current approaches for aligning the LLMs output with expected safety usually require substantial training efforts, e.g., high-quality safety data and expensive computational resources, which are costly and inefficient. To this end, we present reverse prompt contrastive decoding (ROSE), a simple-yet-effective method to directly boost the safety of existing instruction-tuned LLMs without any additional training. The principle of ROSE is to improve the probability of desired safe output via suppressing the undesired output induced by the carefully-designed reverse prompts. Experiments on 6 safety and 2 general-purpose tasks show that, our ROSE not only brings consistent and significant safety improvements (up to +13.8% safety score) upon 5 types of instruction-tuned LLMs, but also benefits the general-purpose ability of LLMs. In-depth analyses explore the underlying mechanism of ROSE, and reveal when and where to use it.
翻訳日:2024-02-20 18:05:53 公開日:2024-02-19
# 生成的半教師付きグラフ異常検出

Generative Semi-supervised Graph Anomaly Detection ( http://arxiv.org/abs/2402.11887v1 )

ライセンス: Link先を確認
Hezhe Qiao, Qingsong Wen, Xiaoli Li, Ee-Peng Lim, Guansong Pang(参考訳) この研究は、グラフ内のノードの一部が正規であることが知られている実用的な半教師付きグラフ異常検出(GAD)シナリオを考察し、完全にラベル付けされていないグラフを持つほとんどのGAD研究において、教師なしの設定とは対照的である。 期待されたように、これらの通常のノードへのアクセスは、半教師付き設定に適応した場合、既存の教師なしGADメソッドの検出性能を向上させる。 しかし、これらの通常のノードの利用は限られている。 本稿では,正規ノードをより有効活用するために,半教師付きシナリオのための新しい生成型gadアプローチ(ggad)を提案する。 鍵となるアイデアは、局所構造とノード表現の両方で異常ノードを同化する外れ値ノードを生成し、識別可能な一級分類器を訓練する際に効果的な負のノードサンプルを提供することである。 生成異常検出手法は数多く存在するが,非グラフデータ用に設計されており,その結果,グラフ構造情報の考慮に失敗した。 本手法では,正規ノードと非対称な親和性を持つグラフ構造認識異常ノードを生成し,ノード表現空間における正規ノードとの自己中心的近接性を実現する。 4つの実世界のデータセットに関する総合的な実験を行い、半教師付きGADのベンチマークを確立し、GGADが訓練正常ノード数の異なる最先端の非教師付きおよび半教師付きGADメソッドを大幅に上回ることを示す。 コードはhttps://github.com/mala-lab/GGAD.comで公開される。

This work considers a practical semi-supervised graph anomaly detection (GAD) scenario, where part of the nodes in a graph are known to be normal, contrasting to the unsupervised setting in most GAD studies with a fully unlabeled graph. As expected, we find that having access to these normal nodes helps enhance the detection performance of existing unsupervised GAD methods when they are adapted to the semi-supervised setting. However, their utilization of these normal nodes is limited. In this paper, we propose a novel Generative GAD approach (GGAD) for the semi-supervised scenario to better exploit the normal nodes. The key idea is to generate outlier nodes that assimilate anomaly nodes in both local structure and node representations for providing effective negative node samples in training a discriminative one-class classifier. There have been many generative anomaly detection approaches, but they are designed for non-graph data, and as a result, they fail to take account of the graph structure information. Our approach tackles this problem by generating graph structure-aware outlier nodes that have asymmetric affinity separability from normal nodes while being enforced to achieve egocentric closeness to normal nodes in the node representation space. Comprehensive experiments on four real-world datasets are performed to establish a benchmark for semi-supervised GAD and show that GGAD substantially outperforms state-of-the-art unsupervised and semi-supervised GAD methods with varying numbers of training normal nodes. Code will be made available at https://github.com/mala-lab/GGAD.
翻訳日:2024-02-20 18:05:29 公開日:2024-02-19
# LLMのカラーフルフューチャー:キューアユースにおける感情支援者としてのLCMの評価と改善

The Colorful Future of LLMs: Evaluating and Improving LLMs as Emotional Supporters for Queer Youth ( http://arxiv.org/abs/2402.11886v1 )

ライセンス: Link先を確認
Shir Lissak, Nitay Calderon, Geva Shenkman, Yaakov Ophir, Eyal Fruchter, Anat Brunstein Klomek and Roi Reichart(参考訳) キーアの若者は抑うつ、不安、自殺イデオロギーなどの精神的健康リスクが高まる。 否定的なスティグマに妨げられ、しばしば助けを求めるのを避け、互換性のない情報を提供するオンラインリソースに頼る。 支援的な環境と信頼できる情報へのアクセスは貴重なものであるが、世界中の多くの若者はそのような支援にアクセスできない。 しかし、これはChatGPTのような大規模言語モデル(LLM)の急速な採用によってすぐに変わる可能性がある。 本稿では,LCMがクイアに対する感情的支援に革命をもたらす可能性を包括的に探求することを目的とする。 そこで我々は,LLMとクイア関連コンテンツとの相互作用を質的,定量的に分析する。 反応の質を評価するために,心理学的基準と専門家のインプットに触発された新しい10質問尺度を開発した。 この尺度を適用して、いくつかのllmと人間のコメントを、queer youthがアドバイスを求め、経験を共有する投稿に適用する。 LLMの反応は支持的であり、包括的であり、人間を誇張している。 しかし、それらは汎用的で共感力に乏しく、パーソナライゼーションに欠ける傾向があり、信頼できない、潜在的に有害なアドバイスをもたらす。 我々は,これらの課題について議論し,専用プロンプトがパフォーマンスを向上させることを示すとともに,ユーザコンテキストを積極的に(しかし敏感に)求め,パーソナライズされ,共感的で,信頼性の高い応答を提供するllmサポートの青写真を提案する。 注釈付きデータセットは、さらなる研究のために利用可能です。

Queer youth face increased mental health risks, such as depression, anxiety, and suicidal ideation. Hindered by negative stigma, they often avoid seeking help and rely on online resources, which may provide incompatible information. Although access to a supportive environment and reliable information is invaluable, many queer youth worldwide have no access to such support. However, this could soon change due to the rapid adoption of Large Language Models (LLMs) such as ChatGPT. This paper aims to comprehensively explore the potential of LLMs to revolutionize emotional support for queers. To this end, we conduct a qualitative and quantitative analysis of LLM's interactions with queer-related content. To evaluate response quality, we develop a novel ten-question scale that is inspired by psychological standards and expert input. We apply this scale to score several LLMs and human comments to posts where queer youth seek advice and share experiences. We find that LLM responses are supportive and inclusive, outscoring humans. However, they tend to be generic, not empathetic enough, and lack personalization, resulting in nonreliable and potentially harmful advice. We discuss these challenges, demonstrate that a dedicated prompt can improve the performance, and propose a blueprint of an LLM-supporter that actively (but sensitively) seeks user context to provide personalized, empathetic, and reliable responses. Our annotated dataset is available for further research.
翻訳日:2024-02-20 18:04:58 公開日:2024-02-19
# 内科医のための大規模言語モデルInMD-X

InMD-X: Large Language Models for Internal Medicine Doctors ( http://arxiv.org/abs/2402.11883v1 )

ライセンス: Link先を確認
Hansle Gwon (1), Imjin Ahn (1), Hyoje Jung (2), Byeolhee Kim (2), Young-Hak Kim (3), Tae Joon Jun (4) ((1) INMED DATA, Seoul, Republic of Korea (2) Department of Information Medicine, Asan Medical Center, Seoul, Republic of Korea (3) Division of Cardiology, Department of Information Medicine, Asan Medical Center, University of Ulsan College of Medicine, Seoul, Republic of Korea (4) Big Data Research Center, Asan Institute for Life Sciences, Asan Medical Center, Seoul, Republic of Korea)(参考訳) 本稿では,内科医(IMD)の特徴と要求に特化して設計された多言語モデルのコレクションであるInMD-Xを紹介する。 InMD-Xは自然言語処理における画期的な発展であり、内科領域の様々な側面に微調整された言語モデルスイートを提供する。 これらのモデルは幅広い医療サブ専門分野を包含しており、imdはより効率的で正確な研究、診断、ドキュメンテーションを行うことができる。 InMD-Xの汎用性と適応性は、医療産業の改善、医療専門家間のコミュニケーションの強化、医療研究の進展に有用なツールである。 InMD-X内の各モデルは、IMDが直面する特定の課題に慎重に対応し、臨床テキスト分析と意思決定支援において、最高の精度と包括性を確保する。 本稿では,InMD-Xの設計,開発,評価について概説し,内科医が医療データや情報と相互作用する方法に革命をもたらす可能性を示す。 実世界の医療シナリオにおけるInMD-Xの有効性と実用性を示す。

In this paper, we introduce InMD-X, a collection of multiple large language models specifically designed to cater to the unique characteristics and demands of Internal Medicine Doctors (IMD). InMD-X represents a groundbreaking development in natural language processing, offering a suite of language models fine-tuned for various aspects of the internal medicine field. These models encompass a wide range of medical sub-specialties, enabling IMDs to perform more efficient and accurate research, diagnosis, and documentation. InMD-X's versatility and adaptability make it a valuable tool for improving the healthcare industry, enhancing communication between healthcare professionals, and advancing medical research. Each model within InMD-X is meticulously tailored to address specific challenges faced by IMDs, ensuring the highest level of precision and comprehensiveness in clinical text analysis and decision support. This paper provides an overview of the design, development, and evaluation of InMD-X, showcasing its potential to revolutionize the way internal medicine practitioners interact with medical data and information. We present results from extensive testing, demonstrating the effectiveness and practical utility of InMD-X in real-world medical scenarios.
翻訳日:2024-02-20 18:04:32 公開日:2024-02-19
# 注:直接選好最適化に基づく効率的なアプローチによる患者テキスト要約の生成

NOTE: Notable generation Of patient Text summaries through Efficient approach based on direct preference optimization ( http://arxiv.org/abs/2402.11882v1 )

ライセンス: Link先を確認
Imjin Ahn (1 and 2), Hansle Gwon (1 and 2), Young-Hak Kim (1 and 3), Tae Joon Jun (1 and 3), Sanghyun Park (2) ((1) INMED DATA, Seoul, Republic of Korea, (2) Yonsei University, Seoul, Republic of Korea (3) Asan Medical Center, Seoul, Republic of Korea)(参考訳) 退院の概要は、複数の訪問、薬品、検査、手術/調達、入院/退院など、入院中に経験したすべての出来事を包括する、患者旅行における重要な文書の1つである。 患者の進捗状況の要約を提供することは、将来のケアと計画に大きな影響を与える。 その結果、臨床医は、排出概要に必要なすべてのデータを手作業で収集、整理、結合する、精力的で資源集約的な業務に直面している。 そこで,本研究では,患者テキスト要約を,直接選好最適化に基づく効率的なアプローチで生成する「NOTE」を提案する。 注記は集中治療iiiデータセットのための医療情報マートに基づいており、患者の単一の入院を要約している。 患者イベントは順次組み合わせられ、各入院の退院の概要を生成するために使用される。 近年,大規模言語モデルのアプリケーションプログラミングインターフェース(LLMsのAPI)が広く普及しているが,医療機関のプライバシ保護ポリシーにより,医療データのインポートとエクスポートが重大な課題となっている。 さらに、最適な性能を確保するためには、病院内の内部サーバやプログラムのための軽量モデルを実装することが不可欠である。 そこで我々は,DPOとパラメータ効率のよい微細チューニング(PEFT)技術を用いて,優れた性能を保証するファインチューニング手法を適用した。 開発したNOTEの実用的応用を実証するために,Webページベースのデモソフトウェアを提供する。 将来的には、病院の診療医が実際に利用できるソフトウェアをデプロイすることを目指しています。 NOTEは、サマリーを放出するだけでなく、患者の旅行を通して様々なサマリーを生成できるため、臨床医の労働負荷を軽減し、効率の向上を目指すことができる。

The discharge summary is a one of critical documents in the patient journey, encompassing all events experienced during hospitalization, including multiple visits, medications, tests, surgery/procedures, and admissions/discharge. Providing a summary of the patient's progress is crucial, as it significantly influences future care and planning. Consequently, clinicians face the laborious and resource-intensive task of manually collecting, organizing, and combining all the necessary data for a discharge summary. Therefore, we propose "NOTE", which stands for "Notable generation Of patient Text summaries through an Efficient approach based on direct preference optimization". NOTE is based on Medical Information Mart for Intensive Care- III dataset and summarizes a single hospitalization of a patient. Patient events are sequentially combined and used to generate a discharge summary for each hospitalization. In the present circumstances, large language models' application programming interfaces (LLMs' APIs) are widely available, but importing and exporting medical data presents significant challenges due to privacy protection policies in healthcare institutions. Moreover, to ensure optimal performance, it is essential to implement a lightweight model for internal server or program within the hospital. Therefore, we utilized DPO and parameter efficient fine tuning (PEFT) techniques to apply a fine-tuning method that guarantees superior performance. To demonstrate the practical application of the developed NOTE, we provide a webpage-based demonstration software. In the future, we will aim to deploy the software available for actual use by clinicians in hospital. NOTE can be utilized to generate various summaries not only discharge summaries but also throughout a patient's journey, thereby alleviating the labor-intensive workload of clinicians and aiming for increased efficiency.
翻訳日:2024-02-20 18:04:13 公開日:2024-02-19
# HPCクラスタ上での大規模変分量子アルゴリズムのシミュレータ実証

Simulator Demonstration of Large Scale Variational Quantum Algorithm on HPC Cluster ( http://arxiv.org/abs/2402.11878v1 )

ライセンス: Link先を確認
Mikio Morita, Yoshinori Tomita, Junpei Koyama, and Koichi Kimura(参考訳) 量子アルゴリズムの研究がより洗練され複雑になっているため、量子シミュレータ技術の進歩はますます必要とされている。 状態ベクトルシミュレーションは、量子ビット数に関して指数関数的に計算ノード内のcpuとメモリリソースを利用するが、変分量子アルゴリズムでは、古典的最適化による繰り返し実行も重荷である。 この問題は、効果的に動作する多数の計算ノードやシミュレーションフレームワークを準備することで解決されている。 本研究は,mpiの比率を調整して限られた計算資源を効率的に活用し,目標問題に対応する分散処理並列処理を効果的に活用し,計算結果に対する精度の影響を考慮してハミルトニアンをスリム化することを目的とした。 InfiniBandにより最大1024個のFUJITSUプロセッサA64FXを接続したHPCクラスタ上で,変分量子固有解器(VQE)を用いてフェルミオンモデルの基底状態エネルギー計算を行った。 VQEシミュレーションの200倍の高速化を実現し,32kbitsの地中エネルギー計算を許容時間で実証した。 この結果は、30 量子ビット状態ベクトルシミュレーションが、変分量子アルゴリズムのさらなる研究に現実的に利用できることを示している。

Advances in quantum simulator technology is increasingly required because research on quantum algorithms is becoming more sophisticated and complex. State vector simulation utilizes CPU and memory resources in computing nodes exponentially with respect to the number of qubits; furthermore, in a variational quantum algorithm, the large number of repeated runs by classical optimization is also a heavy load. This problem has been addressed by preparing numerous computing nodes or simulation frameworks that work effectively. This study aimed to accelerate quantum simulation using two newly proposed methods: to efficiently utilize limited computational resources by adjusting the ratio of the MPI and distributed processing parallelism corresponding to the target problem settings and to slim down the Hamiltonian by considering the effect of accuracy on the calculation result. Ground-state energy calculations of fermionic model were performed using variational quantum eigensolver (VQE) on an HPC cluster with up to 1024 FUJITSU Processor A64FX connected to each other by InfiniBand; the processor is also used on supercomputer Fugaku. We achieved 200 times higher speed over VQE simulations and demonstrated 32 qubits ground-state energy calculations in acceptable time. This result indicates that > 30 qubit state vector simulations can be realistically utilized to further research on variational quantum algorithms.
翻訳日:2024-02-20 18:03:42 公開日:2024-02-19
# リラクシドサンプリングモデルを用いたオンラインQ-Learningの有限時間誤差解析

Finite-Time Error Analysis of Online Model-Based Q-Learning with a Relaxed Sampling Model ( http://arxiv.org/abs/2402.11877v1 )

ライセンス: Link先を確認
Han-Dong Lim, HyeAnn Lee, Donghwan Lee(参考訳) 強化学習は、特にモデルベースのアプローチの出現とともに、大きな進歩をみせた。 このうち、$q$-learningはモデルフリー設定の強力なアルゴリズムであることが証明されている。 しかし、モデルベースのフレームワークへの$q$-learningの拡張は、比較的未調査のままである。 本稿では,モデルベースアプローチと統合した場合のq$-learningのサンプル複雑さについて考察する。 理論解析と経験的評価を通じて,モデルベースである$q$-learningが,モデルフリーのそれと比較してサンプル効率において優れている条件を明らかにする。

Reinforcement learning has witnessed significant advancements, particularly with the emergence of model-based approaches. Among these, $Q$-learning has proven to be a powerful algorithm in model-free settings. However, the extension of $Q$-learning to a model-based framework remains relatively unexplored. In this paper, we delve into the sample complexity of $Q$-learning when integrated with a model-based approach. Through theoretical analyses and empirical evaluations, we seek to elucidate the conditions under which model-based $Q$-learning excels in terms of sample efficiency compared to its model-free counterpart.
翻訳日:2024-02-20 18:03:16 公開日:2024-02-19
# M2K-VDG: モデル適応型マルチモーダル知識アンカーによるビデオ地上対話生成

M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation ( http://arxiv.org/abs/2402.11875v1 )

ライセンス: Link先を確認
Hongcheng Liu and Pingjie Wang and Yu Wang and Yanfeng Wang(参考訳) ビデオグラウンドド・ダイアログ生成(VDG)では,マルチモーダル知識に基づいて,流動的で正確な回答を生成する必要がある。 しかし、マルチモーダル知識利用の難しさは、実際にはVDGモデルに深刻な幻覚をもたらす。 以前の研究は幻覚を様々な方法で緩和したものの、マルチモーダル知識アンカー応答トークンの重要性にはほとんど気付いていない。 本稿では,異なるVDGモデルがさまざまな幻覚を経験し,多様なアンカートークンを示すことを明らかにする。 そこで本研究では,モデル適応型マルチモーダル知識アンカー拡張フレームワークであるm2k-vdgを提案する。 さらに,より正確なアンカートークン検出のための対策効果についても紹介する。 一般的な3つのベンチマーク実験の結果,最先端手法に対するアプローチの優位性を示し,幻覚の低減効果を示した。

Video-grounded dialogue generation (VDG) requires the system to generate a fluent and accurate answer based on multimodal knowledge. However, the difficulty in multimodal knowledge utilization brings serious hallucinations to VDG models in practice. Although previous works mitigate the hallucination in a variety of ways, they hardly take notice of the importance of the multimodal knowledge anchor answer tokens. In this paper, we reveal via perplexity that different VDG models experience varying hallucinations and exhibit diverse anchor tokens. Based on this observation, we propose M2K-VDG, a model-adaptive multimodal knowledge anchor enhancement framework for hallucination reduction. Furthermore, we introduce the counterfactual effect for more accurate anchor token detection. The experimental results on three popular benchmarks exhibit the superiority of our approach over state-of-the-art methods, demonstrating its effectiveness in reducing hallucinations.
翻訳日:2024-02-20 18:03:06 公開日:2024-02-19
# 言語誘導画像反射分離

Language-guided Image Reflection Separation ( http://arxiv.org/abs/2402.11874v1 )

ライセンス: Link先を確認
Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, Boxin Shi(参考訳) 本稿では, 言語記述を導入し, 層間コンテンツ提供による不適切な反射分離問題に対処することを目的とした, 言語誘導反射分離の問題について検討する。 本稿では,言語記述と画像層との対応性を構築するために,コントラスト学習戦略を用いたクロスアテンション機構を活用した統合フレームワークを提案する。 ゲートネットワーク設計とランダムなトレーニング戦略を用いて、認識可能な層あいまいさに対処する。 提案手法の有効性は,既存の反射分離法に比べて定量的および定性的な比較において有意な性能上の優位性によって検証された。

This paper studies the problem of language-guided reflection separation, which aims at addressing the ill-posed reflection separation problem by introducing language descriptions to provide layer content. We propose a unified framework to solve this problem, which leverages the cross-attention mechanism with contrastive learning strategies to construct the correspondence between language descriptions and image layers. A gated network design and a randomized training strategy are employed to tackle the recognizable layer ambiguity. The effectiveness of the proposed method is validated by the significant performance advantage over existing reflection separation methods on both quantitative and qualitative comparisons.
翻訳日:2024-02-20 18:02:52 公開日:2024-02-19
# nonadiabatic holonomic operationにおける系統的振幅誤差の軽減

Mitigation of systematic amplitude error in nonadiabatic holonomic operations ( http://arxiv.org/abs/2402.11873v1 )

ライセンス: Link先を確認
P. Z. Zhao, Jiangbin Gong(参考訳) 非断熱的ホロノミック操作は非断熱的非アベル幾何学的位相に基づいており、したがって制御誤差に対する堅牢性に固有の幾何学的特徴を持っている。 しかし,非断熱的ホロノミック動作はパルスタイミングやレーザー強度の制御が不完全であることによる系統的振幅誤差に依然として敏感である。 本研究では,その系統的振幅誤差を軽減するために,非断熱的ホロノミック操作の簡単なスキームを提案する。 これにより、モニタキュービットと、エラー補正装置として機能するモニタキュービットの条件測定を導入することができる。 系統的振幅誤差の望ましくない効果をフィルタリングする方法を示し,非断熱的ホロノミック演算の性能を向上させる。

Nonadiabatic holonomic operations are based on nonadiabatic non-Abelian geometric phases, hence possessing the inherent geometric features for robustness against control errors. However, nonadiabatic holonomic operations are still sensitive to the systematic amplitude error induced by imperfect control of pulse timing or laser intensity. In this work, we present a simple scheme of nonadiabatic holonomic operations in order to mitigate the said systematic amplitude error. This is achieved by introducing a monitor qubit along with a conditional measurement on the monitor qubit that serves as an error correction device. We shall show how to filter out the undesired effect of the systematic amplitude error, thereby improving the performance of nonadiabatic holonomic operations.
翻訳日:2024-02-20 18:02:42 公開日:2024-02-19
# 現実から論理へ: 生データから計画のための象徴的な語彙、行動、モデルを創出する

From Reals to Logic and Back: Inventing Symbolic Vocabularies, Actions and Models for Planning from Raw Data ( http://arxiv.org/abs/2402.11871v1 )

ライセンス: Link先を確認
Naman Shah, Jayesh Nagpal, Pulkit Verma, Siddharth Srivastava(参考訳) 手作りの論理的状態と行動表現は、タスクや動作計画問題を含む長い水平ロボット計画問題の難解な計算複雑性を克服するために広く用いられている。 しかし、そのような表現を作成するには、ロボットに関する強い直感と詳細な知識を持つ専門家と、特定の環境で達成すべきタスクが必要である。 この人間の直感への依存を取り除くことは、非常に活発な研究分野である。 本稿では,無意味な高次元実数値ロボット軌道から始まる抽象状態と行動に対する論理的関係表現を自律的に学習する最初のアプローチを提案する。 学習された表現は、pddlライクなドメインモデルを構成する。 決定論的設定における経験的な結果は、強力な抽象表現は、ほんの一握りのロボットの軌跡から学べることを示し、学習された関係表現は、古典的な直感的なハイレベルなアクションの概念を含まないこと、そして学習されたモデルは、これまで手作りの抽象化なしで計画のスコープを超えたタスクに計画アルゴリズムをスケールすることを可能にする。

Hand-crafted, logic-based state and action representations have been widely used to overcome the intractable computational complexity of long-horizon robot planning problems, including task and motion planning problems. However, creating such representations requires experts with strong intuitions and detailed knowledge about the robot and the tasks it may need to accomplish in a given setting. Removing this dependency on human intuition is a highly active research area. This paper presents the first approach for autonomously learning generalizable, logic-based relational representations for abstract states and actions starting from unannotated high-dimensional, real-valued robot trajectories. The learned representations constitute auto-invented PDDL-like domain models. Empirical results in deterministic settings show that powerful abstract representations can be learned from just a handful of robot trajectories; the learned relational representations include but go beyond classical, intuitive notions of high-level actions; and that the learned models allow planning algorithms to scale to tasks that were previously beyond the scope of planning without hand-crafted abstractions.
翻訳日:2024-02-20 18:02:32 公開日:2024-02-19
# 正確な解を持つ量子化学のベンチマーク問題としての軌道回転フェルミ・ハバードモデル

Orbital-rotated Fermi-Hubbard model as a benchmarking problem for quantum chemistry with the exact solution ( http://arxiv.org/abs/2402.11869v1 )

ライセンス: Link先を確認
Ryota Kojima, Masahiko Kamoshita, Keita Kanno(参考訳) 量子コンピュータにおける異なる量子アルゴリズムの相対的性能の評価は、量子アルゴリズムの研究において非常に重要である。 本研究では,量子アルゴリズムの重要な応用の一つと考えられる量子化学の問題を考える。 量子ビット数の多い系でこれらのアルゴリズムを評価することは、アルゴリズムのスケーラビリティを確認するために必須であるが、この評価に通常用いられる可解モデルは、量子化学で使われる分子ハミルトニアンと比較して、少ない項しか持たない。 分子ハミルトニアンにおける多くの用語は、量子化学に量子アルゴリズムを適用する際に大きなボトルネックとなる。 この問題に対処する様々な手法が検討されており、量子化学のための量子アルゴリズムの開発における重要性を強調している。 これらの点に基づいて、分子ハミルトニアンに匹敵する多くの項を持つ可解モデルは、そのようなアルゴリズムの性能を評価するために不可欠である。 本稿では,1次元フェルミ・ハバード・ハミルトニアンにスピン誘起軌道回転を適用することにより,分子ハミルトニアンと同等の項次数を持つ解解可能なハミルトニアンの集合を提案する。 分子ハミルトニアンとの類似性を検証するとともに、密度行列再正規化群を48量子ビットに対応する24点まで適用することにより、軌道回転前後の基底状態エネルギー変化の計算の難しさを検証した。 この提案により、量子化学における量子アルゴリズムの性能を適切に評価することができ、アルゴリズム開発のための指針となる。

Evaluating the relative performance of different quantum algorithms for quantum computers is of great significance in the research of quantum algorithms. In this study, we consider the problem of quantum chemistry, which is considered one of the important applications of quantum algorithms. While evaluating these algorithms in systems with a large number of qubits is essential to see the scalability of the algorithms, the solvable models usually used for such evaluations typically have a small number of terms compared to the molecular Hamiltonians used in quantum chemistry. The large number of terms in molecular Hamiltonians is a major bottleneck when applying quantum algorithms to quantum chemistry. Various methods are being considered to address this problem, highlighting its importance in developing quantum algorithms for quantum chemistry. Based on these points, a solvable model with a number of terms comparable to the molecular Hamiltonian is essential to evaluate the performance of such algorithms. In this paper, we propose a set of exactly solvable Hamiltonians that has a comparable order of terms with molecular Hamiltonians by applying a spin-involving orbital rotation to the one-dimensional Fermi-Hubbard Hamiltonian. We verify its similarity to the molecular Hamiltonian from some prospectives and investigate whether the difficulty of calculating the ground-state energy changes before and after orbital rotation by applying the density matrix renormalization group up to 24 sites corresponding to 48 qubits. This proposal would enable proper evaluation of the performance of quantum algorithms for quantum chemistry, serving as a guiding framework for algorithm development.
翻訳日:2024-02-20 18:02:10 公開日:2024-02-19
# 量子回路の並列・高精度MPSシミュレーションのためのZKCMライブラリの最近の拡張

Recent Extensions of the ZKCM Library for Parallel and Accurate MPS Simulation of Quantum Circuits ( http://arxiv.org/abs/2402.11868v1 )

ライセンス: Link先を確認
Akira SaiToh(参考訳) C++ライブラリのZKCMと拡張ライブラリのZKCM_QCは、2011年からマルチ精度行列計算と正確な行列生成状態(MPS)量子回路シミュレーションのために開発されている。 本稿では,openmpフレームワークとcudaフレームワークとの並列処理を主目的とする,これらのライブラリの拡張に関する最近の進歩について述べる。

A C++ library ZKCM and its extension library ZKCM_QC have been developed since 2011 for multiple-precision matrix computation and accurate matrix-product-state (MPS) quantum circuit simulation, respectively. In this report, a recent progress in the extensions of these libraries is described, which are mainly for parallel processing with the OpenMP and CUDA frameworks.
翻訳日:2024-02-20 18:01:44 公開日:2024-02-19
# NTKレジームにおけるLoRAトレーニング : すっきりした局所性ミニマ

LoRA Training in the NTK Regime has No Spurious Local Minima ( http://arxiv.org/abs/2402.11867v1 )

ライセンス: Link先を確認
Uijeong Jang, Jason D. Lee, Ernest K. Ryu(参考訳) 低ランク適応(LoRA)は,大規模言語モデル(LLM)のパラメータ効率の高い微調整の標準手法となっているが,ロRAの理論的理解は限られている。 本研究では,ニューラルネットワークカーネル(NTK)システムにおけるLoRA微細チューニングを理論的に解析し,以下の点を示す。 (i)完全微調整(LoRAなしで)は、階数$r\lesssim \sqrt{N}$の低ランク解を認める。 (ii) ランク $r\gtrsim \sqrt{N}$ の LoRA を用いることで、緩やかな局所ミニマを排除し、勾配降下により低階解を見つけることができる。 3) LoRA を用いた低ランク解はよく一般化される。

Low-rank adaptation (LoRA) has become the standard approach for parameter-efficient fine-tuning of large language models (LLM), but our theoretical understanding of LoRA has been limited. In this work, we theoretically analyze LoRA fine-tuning in the neural tangent kernel (NTK) regime with $N$ data points, showing: (i) full fine-tuning (without LoRA) admits a low-rank solution of rank $r\lesssim \sqrt{N}$; (ii) using LoRA with rank $r\gtrsim \sqrt{N}$ eliminates spurious local minima, allowing gradient descent to find the low-rank solutions; (iii) the low-rank solution found using LoRA generalizes well.
翻訳日:2024-02-20 18:01:36 公開日:2024-02-19
# 解析階層過程とファジィ論理に基づく2つのオンライン地図マッチングアルゴリズム

Two Online Map Matching Algorithms Based on Analytic Hierarchy Process and Fuzzy Logic ( http://arxiv.org/abs/2402.11866v1 )

ライセンス: Link先を確認
Jeremy J. Lin, Tomoro Mochida, Riley C. W. O'Neill, Atsuro Yoshida, Masashi Yamazaki, Akinobu Sasada(参考訳) 本稿では,新しい地図マッチングアルゴリズムの開発と,それ以前の作業を改善することを目的とする。 解析階層プロセス(AHP)マップマッチングとファジィ論理マップマッチングの2つの主要なアプローチに対処する。 ahpは数学的分析と人間の判断を組み合わせる意思決定手法であり、ファジィ論理は真理の程度に基づく計算へのアプローチであり、通常のブール論理よりも0から1までの不正確な推論モードをモデル化することを目的としている。 これらのアルゴリズムのうち, AHP をマップマッチングに適用する方法が新たに開発され, ファジィ論理をマップマッチングに適用することは, 若干の小さな変更を除いて, 既存の研究とほとんど同じである。 両手法が不正確な情報を扱うように設計されている共通の特徴と実装の単純さから,これらの手法を使うことにした。

Our aim of this paper is to develop new map matching algorithms and to improve upon previous work. We address two key approaches: Analytic Hierarchy Process (AHP) map matching and fuzzy logic map matching. AHP is a decision-making method that combines mathematical analysis with human judgment, and fuzzy logic is an approach to computing based on the degree of truth and aims at modeling the imprecise modes of reasoning from 0 to 1 rather than the usual boolean logic. Of these algorithms, the way of our applying AHP to map matching is newly developed in this paper, meanwhile, our application of fuzzy logic to map matching is mostly the same as existing research except for some small changes. Because of the common characteristic that both methods are designed to handle imprecise information and simplicity for implementation, we decided to use these methods.
翻訳日:2024-02-20 18:01:22 公開日:2024-02-19
# SLADE:自己監視学習によるラベルなしエッジストリームの動的異常検出

SLADE: Detecting Dynamic Anomalies in Edge Streams without Labels via Self-Supervised Learning ( http://arxiv.org/abs/2402.11933v1 )

ライセンス: Link先を確認
Jongha Lee, Sunwoo Kim, Kijung Shin(参考訳) ソーシャル,メール,金融ネットワークなどの実世界のグラフの異常を検出するために,様々なアプローチが開発されている。 彼らは通常静的な入力グラフを仮定するが、ほとんどの現実世界のグラフは時間とともに成長し、自然にエッジストリームとして表される。 この文脈では、私たちは3つの目標を目指しています。 (a)異常の発生を瞬時に検知する。 (b)動的に変化する状態に適応すること、 (c)動的異常ラベルの不足に対処すること。 本稿では,エッジストリームの動的異常をラベルに依存しずに迅速に検出するためのslade(self-supervised learning for anomaly detection in edge streams)を提案する。 SLADEは、時間とともに相互作用パターンの偏差を観察することで、ノードの異常状態へのシフトを検出する。 この目的のために、ディープニューラルネットワークを訓練して、2つの自己監視タスクを実行する。 (a)ノード表現におけるドリフトの最小化及び (b)短期的なパターンから長期的相互作用パターンを生成すること。 ノードのこれらのタスクの失敗は、標準からの逸脱を示す。 特に、ニューラルネットワークとタスクは、入力ストリームの各新しいエッジに応答して、すべての必要な操作を一定時間(例えばグラフサイズ)で実行できるように、慎重に設計されている。 4つの実世界のデータセットにわたる動的異常検出では、sladeは9つの競合するメソッドよりも優れている。

To detect anomalies in real-world graphs, such as social, email, and financial networks, various approaches have been developed. While they typically assume static input graphs, most real-world graphs grow over time, naturally represented as edge streams. In this context, we aim to achieve three goals: (a) instantly detecting anomalies as they occur, (b) adapting to dynamically changing states, and (c) handling the scarcity of dynamic anomaly labels. In this paper, we propose SLADE (Self-supervised Learning for Anomaly Detection in Edge Streams) for rapid detection of dynamic anomalies in edge streams, without relying on labels. SLADE detects the shifts of nodes into abnormal states by observing deviations in their interaction patterns over time. To this end, it trains a deep neural network to perform two self-supervised tasks: (a) minimizing drift in node representations and (b) generating long-term interaction patterns from short-term ones. Failure in these tasks for a node signals its deviation from the norm. Notably, the neural network and tasks are carefully designed so that all required operations can be performed in constant time (w.r.t. the graph size) in response to each new edge in the input stream. In dynamic anomaly detection across four real-world datasets, SLADE outperforms nine competing methods, even those leveraging label supervision.
翻訳日:2024-02-20 17:54:10 公開日:2024-02-19
# ドメイン特化コサインを用いた胸部X線検査における意味的テキスト類似性評価

Semantic Textual Similarity Assessment in Chest X-ray Reports Using a Domain-Specific Cosine-Based Metric ( http://arxiv.org/abs/2402.11908v1 )

ライセンス: Link先を確認
Sayeh Gholipour Picha, Dawood Al Chanti, Alice Caplier(参考訳) 医学言語処理と深層学習技術は、特に医用画像と医用テキストデータの分析において、医療を改善する重要なツールとして登場した。 これらのマルチモーダルデータ融合技術は、医用画像の解釈を改善し、診断精度の向上、臨床診断のインフォームド、患者結果の改善に寄与する。 これらのモデルの成功は、臨床テキストから意味情報を抽出し統合する能力に依存している。 本稿では,医療報告のセマンティックな内容を評価するための,より堅牢な手法の必要性に対処する。 従来の自然言語処理のアプローチとメトリクスは、当初、自然言語領域と機械翻訳のセマンティックコンテキストを考えるために設計されており、しばしば医療内容に固有の複雑な意味を捉えていない。 本研究では,生成された医療報告と基礎的真実とのセマンティックな類似性を評価するための新しいアプローチを提案する。 本手法の有効性を検証し,医学的文脈におけるドメイン固有の意味的類似性を評価する。 最先端のケストX線レポート生成モデルに指標を適用し,従来の指標に適合するだけでなく,検討対象の医療領域においてより文脈的に意味のあるスコアを提供する結果を得た。

Medical language processing and deep learning techniques have emerged as critical tools for improving healthcare, particularly in the analysis of medical imaging and medical text data. These multimodal data fusion techniques help to improve the interpretation of medical imaging and lead to increased diagnostic accuracy, informed clinical decisions, and improved patient outcomes. The success of these models relies on the ability to extract and consolidate semantic information from clinical text. This paper addresses the need for more robust methods to evaluate the semantic content of medical reports. Conventional natural language processing approaches and metrics are initially designed for considering the semantic context in the natural language domain and machine translation, often failing to capture the complex semantic meanings inherent in medical content. In this study, we introduce a novel approach designed specifically for assessing the semantic similarity between generated medical reports and the ground truth. Our approach is validated, demonstrating its efficiency in assessing domain-specific semantic similarity within medical contexts. By applying our metric to state-of-the-art Chest X-ray report generation models, we obtain results that not only align with conventional metrics but also provide more contextually meaningful scores in the considered medical domain.
翻訳日:2024-02-20 17:53:53 公開日:2024-02-19
# 自己回帰型プロンプト蒸留による直接大言語モデルアライメント

Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation ( http://arxiv.org/abs/2402.11907v1 )

ライセンス: Link先を確認
Aiwei Liu, Haoping Bai, Zhiyun Lu, Xiang Kong, Simon Wang, Jiulong Shan, Meng Cao, Lijie Wen(参考訳) 人手による好みデータを持たない大規模言語モデル(LLM)を人間の期待に合わせることは重要な問題である。 本稿では,RLAIFと比較してLLaMA2-7BとLLaMA2-13Bの性能が向上し,応答対の出力確率を用いて応答選好を評価する手法を提案する。 そこで本研究では,DLMA(Direct Large Model Alignment)の自動アライメント手法を提案する。 まず、コントラストプロンプトペアを使用して、好みデータを自動的に生成する。 そして、生成した選好データをコントラストプロンプトペアを用いて評価し、自己学習スコアを算出する。 最後に、この自己回帰スコアを組み合わせることで、DPOアルゴリズムを用いてLLMを効果的に調整する。 実験段階では, DLMA法は人手による好みデータに頼ることなく, texttt{RLHF}法を超えることができる。

Aligning large language models (LLMs) with human expectations without human-annotated preference data is an important problem. In this paper, we propose a method to evaluate the response preference by using the output probabilities of response pairs under contrastive prompt pairs, which could achieve better performance on LLaMA2-7B and LLaMA2-13B compared to RLAIF. Based on this, we propose an automatic alignment method, Direct Large Model Alignment (DLMA). First, we use contrastive prompt pairs to automatically generate preference data. Then, we continue to evaluate the generated preference data using contrastive prompt pairs and calculate a self-rewarding score. Finally, we use the DPO algorithm to effectively align LLMs by combining this self-rewarding score. In the experimental stage, our DLMA method could surpass the \texttt{RLHF} method without relying on human-annotated preference data.
翻訳日:2024-02-20 17:53:30 公開日:2024-02-19
# 編集への学習: llmと知識編集の連携

Learning to Edit: Aligning LLMs with Knowledge Editing ( http://arxiv.org/abs/2402.11905v1 )

ライセンス: Link先を確認
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang(参考訳) 大規模言語モデル(LLM)における知識のごく一部を、他の入力に悪影響を及ぼすことなく効率的に修正することを目的とした知識編集技術は、広く注目を集めている。 しかし、既存の手法は主に更新された知識を記憶することに依存しており、LLMは質問に答える際に、新しい知識と固有の知識を効果的に組み合わせることを妨げる。 そこで本研究では,LLMに「人間に魚を教える」という哲学に触発されて,知識を入力質問に適用する学習(LTE)フレームワークを提案する。 LTEには2段階のプロセスがあります。 (i)細密にキュレートされた並列データセット上でllmを微調整し、スコープ外情報と言語能力を維持しつつ、信頼性の高いインスコープ編集を行うアライメントフェーズ (ii)リアルタイム・大量知識編集のための検索ベース機構を用いた推論フェーズ。 4つの一般的な知識編集ベンチマークと2つのLLMアーキテクチャにまたがって,我々のアプローチを7つの高度なベースラインと比較することにより,LTEによる知識編集性能の向上,バッチおよびシーケンシャルな編集の堅牢性,一般的なタスクへの干渉の最小化,高速な編集速度を示す。 データとコードはhttps://github.com/YJiangcm/LTEで入手できる。

Knowledge editing techniques, aiming to efficiently modify a minor proportion of knowledge in large language models (LLMs) without negatively impacting performance across other inputs, have garnered widespread attention. However, existing methods predominantly rely on memorizing the updated knowledge, impeding LLMs from effectively combining the new knowledge with their inherent knowledge when answering questions. To this end, we propose a Learning to Edit (LTE) framework, focusing on teaching LLMs to apply updated knowledge into input questions, inspired by the philosophy of "Teach a man to fish." LTE features a two-phase process: (i) the Alignment Phase, which fine-tunes LLMs on a meticulously curated parallel dataset to make reliable, in-scope edits while preserving out-of-scope information and linguistic proficiency; and (ii) the Inference Phase, which employs a retrieval-based mechanism for real-time and mass knowledge editing. By comparing our approach with seven advanced baselines across four popular knowledge editing benchmarks and two LLM architectures, we demonstrate LTE's superiority in knowledge editing performance, robustness in both batch and sequential editing, minimal interference on general tasks, and rapid editing speeds. The data and code are available at https://github.com/YJiangcm/LTE.
翻訳日:2024-02-20 17:53:15 公開日:2024-02-19
# zeroth-order と first-order optimization を併用したスケーラブルな仮想評価型コンビネートオークション設計

Scalable Virtual Valuations Combinatorial Auction Design by Combining Zeroth-Order and First-Order Optimization Method ( http://arxiv.org/abs/2402.11904v1 )

ライセンス: Link先を確認
Zhijian Duan, Haoran Sun, Yichong Xia, Siqiang Wang, Zhilin Zhang, Chuan Yu, Jian Xu, Bo Zheng, Xiaotie Deng(参考訳) 自動オークションデザインは、機械学習を用いて経験的に高効率でインセンティブに適合するメカニズムを発見しようとしている。 主要な戦略インセンティブ互換性(DSIC)の確保は不可欠であり、最も効果的なアプローチはAffine Maximizer Auctions(AMA)のメカニズムを限定することである。 それでも、既存のAMAベースのアプローチは、スケーラビリティの問題(組み合わせ候補の割り当てから生じる)や収益の非差別性といった課題に直面している。 本稿では、スケーラブルなAMAベースの手法を実現するために、パラメータが大幅に少ないAMAのサブセットであるVVCA(Virtual Valuations Combinatorial Auctions)にオークション機構をさらに制限する。 まず、並列化可能な動的プログラムアルゴリズムを用いて、VVCAの入賞割り当てを計算する。 次に,VVCAパラメータを最適化するために,ゼロ階法と1階法を組み合わせた新しい最適化手法を提案する。 VVCAのゼロ次最適化(ZFO-VVCA)と1次最適化(ZFO-VVCA)と呼ばれる提案手法の有効性と拡張性を実証した。

Automated auction design seeks to discover empirically high-revenue and incentive-compatible mechanisms using machine learning. Ensuring dominant strategy incentive compatibility (DSIC) is crucial, and the most effective approach is to confine the mechanism to Affine Maximizer Auctions (AMAs). Nevertheless, existing AMA-based approaches encounter challenges such as scalability issues (arising from combinatorial candidate allocations) and the non-differentiability of revenue. In this paper, to achieve a scalable AMA-based method, we further restrict the auction mechanism to Virtual Valuations Combinatorial Auctions (VVCAs), a subset of AMAs with significantly fewer parameters. Initially, we employ a parallelizable dynamic programming algorithm to compute the winning allocation of a VVCA. Subsequently, we propose a novel optimization method that combines both zeroth-order and first-order techniques to optimize the VVCA parameters. Extensive experiments demonstrate the efficacy and scalability of our proposed approach, termed Zeroth-order and First-order Optimization of VVCAs (ZFO-VVCA), particularly when applied to large-scale auctions.
翻訳日:2024-02-20 17:52:48 公開日:2024-02-19
# SoLA: より良い論理推論のためのLLMのソルバー層適応

SoLA: Solver-Layer Adaption of LLM for Better Logic Reasoning ( http://arxiv.org/abs/2402.11903v1 )

ライセンス: Link先を確認
Yu Zhang, Hui-Ling Zhen, Zehua Pei, Yingzhao Lian, Lihao Yin, Mingxuan Yuan, Bei Yu(参考訳) 論理推論における大規模言語モデル(llm)が直面する課題を考えると、以前の取り組みはツール学習による問題解決の転換を試みてきた。 小規模な問題では進展が見られるが, 大規模かつ複雑な表現のため, 産業ケースの解決は依然として困難である。 本稿では,LLMの新たな層として解法を導入し,解法を満足度に導出する,新しい解法層適応法(SoLA)を提案する。 SoLAでは、LLMは自然言語で記述された探索空間を理解し、最高品質の局所解を識別することを目的としており、解法層は初期解が満たさない制約にのみ焦点をあてている。 MaxSATを橋梁として利用し、前方および後方移行勾配を定義し、最終モデルが満足した解に収束したり、満足できないことを証明できる。 バックドア理論は、SoLAが多項式ループ内で正確な解を得ることができることを保証している。 我々は,様々なデータセット上でのSoLAの性能を評価し,既存の記号解法(Z3やKissatを含む)やツール学習法に対して,大規模問題解決における効率性の観点から,その一貫した性能を実証的に実証した。

Considering the challenges faced by large language models (LLMs) on logical reasoning, prior efforts have sought to transform problem-solving through tool learning. While progress has been made on small-scale problems, solving industrial cases remains difficult due to their large scale and intricate expressions. In this paper, we propose a novel solver-layer adaptation (SoLA) method, where we introduce a solver as a new layer of the LLM to differentially guide solutions towards satisfiability. In SoLA, LLM aims to comprehend the search space described in natural language and identify local solutions of the highest quality, while the solver layer focuses solely on constraints not satisfied by the initial solution. Leveraging MaxSAT as a bridge, we define forward and backward transfer gradients, enabling the final model to converge to a satisfied solution or prove unsatisfiability. The backdoor theory ensures that SoLA can obtain accurate solutions within polynomial loops. We evaluate the performance of SoLA on various datasets and empirically demonstrate its consistent outperformance against existing symbolic solvers (including Z3 and Kissat) and tool-learning methods in terms of efficiency in large-scale problem-solving.
翻訳日:2024-02-20 17:52:26 公開日:2024-02-19
# PDDL+以上の実世界の計画

Real-World Planning with PDDL+ and Beyond ( http://arxiv.org/abs/2402.11901v1 )

ライセンス: Link先を確認
Wiktor Piotrowski, Alexandre Perez(参考訳) AIプランニングの現実的な応用はしばしば、ターゲットシステムの重要な複雑さを正確に捉えるために、高度に表現力のあるモデリング言語を必要とする。 ハイブリッドシステムは現実世界ではユビキタスであり、PDDL+は計画ドメインのようなシステムを取得するための標準化されたモデリング言語である。 PDDL+は、混合離散連続系力学、外因性活動、および現実シナリオで示された多くの興味深い特徴の正確な符号化を可能にする。 しかし、PDDL+の利用は、PDDL+の計画ソフトウェアが全般的に不足していることや、既存のプランナーの厳格な制限により、遅く、理解されている。 このシャームを克服するために、我々は、軽量さ、単純さ、そして最も重要な、適応性を強調するために作られた新しいPDDL+プランナーであるNyxを紹介します。 このプランナーはPDDL+の範囲を超えて機能を拡張するために、自由にカスタマイズできるように設計されている。 結果として、Nyxは、ある種のAIプランニングを必要とする事実上の現実世界のアプリケーションに合わせることができ、現実の問題を解決するための計画手法をより広く採用するための道を開くことができる。

Real-world applications of AI Planning often require a highly expressive modeling language to accurately capture important intricacies of target systems. Hybrid systems are ubiquitous in the real-world, and PDDL+ is the standardized modeling language for capturing such systems as planning domains. PDDL+ enables accurate encoding of mixed discrete-continuous system dynamics, exogenous activity, and many other interesting features exhibited in realistic scenarios. However, the uptake in usage of PDDL+ has been slow and apprehensive, largely due to a general shortage of PDDL+ planning software, and rigid limitations of the few existing planners. To overcome this chasm, we present Nyx, a novel PDDL+ planner built to emphasize lightness, simplicity, and, most importantly, adaptability. The planner is designed to be effortlessly customizable to expand its capabilities well beyond the scope of PDDL+. As a result, Nyx can be tailored to virtually any potential real-world application requiring some form of AI Planning, paving the way for wider adoption of planning methods for solving real-world problems.
翻訳日:2024-02-20 17:52:06 公開日:2024-02-19
# 大規模言語モデルの知識編集における複数ホップファクチュアルショートカットの検討

Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models ( http://arxiv.org/abs/2402.11900v1 )

ライセンス: Link先を確認
Tianjie Ju, Yijin Chen, Xinwei Yuan, Zhuosheng Zhang, Wei Du, Yubin Zheng, Gongshen Liu(参考訳) 最近の研究は、知識と推論をリコールする際の大きな言語モデル(LLM)の強力な能力を示した。 しかし、これらの2つの能力とマルチホップ事実による推論を組み合わせたLLMの信頼性は、広く研究されていない。 本稿では,マルチホップ知識の初期と終端の直接接続に基づくショートカットの利用の可能性について,体系的に検討する。 まず、知識ニューロンを通して事実的近道の存在を探求し、そのことを明らかにします。 i) 実効的近道の強度は,事前訓練用コーパスにおける初期実体及び終端実体の共起頻度と高い相関関係にある。 (ii)単発プロンプトは、連鎖的プロンプトに比べて、複数ホップ質問への回答により多くのショートカットを利用する。 次に,多段階知識編集の観点から,事実的近道によって生じるリスクを分析した。 分析によると、障害の約20%はショートカットによるもので、これらの障害インスタンスの初期エンティティと終端エンティティは通常、トレーニング前のコーパスで高い共起がある。 最後に, ショートカットニューロンを消去し, 関連するリスクを軽減し, ショートカットによるマルチホップ知識編集の失敗を著しく低減する手法を提案する。

Recent work has showcased the powerful capability of large language models (LLMs) in recalling knowledge and reasoning. However, the reliability of LLMs in combining these two capabilities into reasoning through multi-hop facts has not been widely explored. This paper systematically investigates the possibilities for LLMs to utilize shortcuts based on direct connections between the initial and terminal entities of multi-hop knowledge. We first explore the existence of factual shortcuts through Knowledge Neurons, revealing that: (i) the strength of factual shortcuts is highly correlated with the frequency of co-occurrence of initial and terminal entities in the pre-training corpora; (ii) few-shot prompting leverage more shortcuts in answering multi-hop questions compared to chain-of-thought prompting. Then, we analyze the risks posed by factual shortcuts from the perspective of multi-hop knowledge editing. Analysis shows that approximately 20% of the failures are attributed to shortcuts, and the initial and terminal entities in these failure instances usually have higher co-occurrences in the pre-training corpus. Finally, we propose erasing shortcut neurons to mitigate the associated risks and find that this approach significantly reduces failures in multiple-hop knowledge editing caused by shortcuts.
翻訳日:2024-02-20 17:51:48 公開日:2024-02-19
# SIBO:パラメータ効率の良いファインチューニングのための簡易ブースタ

SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2402.11896v1 )

ライセンス: Link先を確認
Zhihao Wen, Jie Zhang, Yuan Fang(参考訳) 大規模言語モデル(llm)の全てのパラメータを微調整するには、かなりの計算能力と時間を要する。 アダプタチューニングやloraなど、パラメータ効率の良いファインチューニング(peft)技術における最新の進歩により、これらのllmのパラメータのごく一部しか調整できない。 同時に、過度なスムース化の問題は、これらのトランスフォーマーベースのLCMの有効性を低下させ、下流タスクにおける準最適性能をもたらすことが指摘されている。 本稿では,初期残余を注入することによってPEFTを増強するSIBOについて述べる。 SIBOは、過度な平滑化を緩和し、性能を高めるために、最先端のPEFT技術に容易に拡張できる。 22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。

Fine-tuning all parameters of large language models (LLMs) necessitates substantial computational power and extended time. Latest advancements in parameter-efficient fine-tuning (PEFT) techniques, such as Adapter tuning and LoRA, allow for adjustments to only a minor fraction of the parameters of these LLMs. Concurrently, it has been noted that the issue of over-smoothing diminishes the effectiveness of these Transformer-based LLMs, resulting in suboptimal performances in downstream tasks. In this paper, we present SIBO, which is a SImple BOoster to enhance PEFT, by injecting an initial residual. SIBO is straight-forward and readily extensible to a range of state-of-the-art PEFT techniques to alleviate over-smoothing and enhance performance. Extensive experiments on 22 benchmark datasets demonstrate that SIBO significantly enhances the performance of various strong baselines, achieving up to 15.7% and 23.5% improvement over existing PEFT methods on the arithmetic and commonsense reasoning tasks, respectively.
翻訳日:2024-02-20 17:51:30 公開日:2024-02-19
# ブリッジまたはブレイク:集団間の相互作用が宗教分極に及ぼす影響

Bridging or Breaking: Impact of Intergroup Interactions on Religious Polarization ( http://arxiv.org/abs/2402.11895v1 )

ライセンス: Link先を確認
Rochana Chaturvedi, Sugat Chaturvedi and Elena Zheleva(参考訳) 多様な視点への露出は分極を減少させるが、議論が逆らうとバックファイア効果を生じさせ、分極を悪化させる可能性がある。 本稿では,重要な事象に関するグループ間相互作用が,ソーシャルネットワークにおける多数派と少数派間の分極に影響を及ぼすかどうかを考察する。 2020年中に、covid-19関連の談話に携わる70万人近いインド人のtwitterユーザーの宗教的アイデンティティに関するデータをまとめました。 ツイートテキストの文脈的埋め込みに基づく個人集団の適合性に関する新しい尺度を導入し,宗教集団間の分極性を評価する。 次に,メタラーニングの枠組みを用いて,集団間相互作用が集団的,政治的,社会経済的事象に照らし合わせて個人集団の適合性に及ぼす不均一な治療効果を検討する。 政治や社会の出来事において、集団間の相互作用は分極を減少させる。 この減少は、既にグループに高い適合性を示す極端にいる個人にとって弱い。 対照的に、集団間の相互作用は集団の適合性を高めることができる。 最後に,宗教集団間での感情や議論の話題の観点から異なる効果を分解する。 その結果,宗教分極のダイナミクスは文脈に敏感であり,グループ間相互作用の役割を理解する上で重要な意味を持つことがわかった。

While exposure to diverse viewpoints may reduce polarization, it can also have a backfire effect and exacerbate polarization when the discussion is adversarial. Here, we examine the question whether intergroup interactions around important events affect polarization between majority and minority groups in social networks. We compile data on the religious identity of nearly 700,000 Indian Twitter users engaging in COVID-19-related discourse during 2020. We introduce a new measure for an individual's group conformity based on contextualized embeddings of tweet text, which helps us assess polarization between religious groups. We then use a meta-learning framework to examine heterogeneous treatment effects of intergroup interactions on an individual's group conformity in the light of communal, political, and socio-economic events. We find that for political and social events, intergroup interactions reduce polarization. This decline is weaker for individuals at the extreme who already exhibit high conformity to their group. In contrast, during communal events, intergroup interactions can increase group conformity. Finally, we decompose the differential effects across religious groups in terms of emotions and topics of discussion. The results show that the dynamics of religious polarization are sensitive to the context and have important implications for understanding the role of intergroup interactions.
翻訳日:2024-02-20 17:51:13 公開日:2024-02-19
# 私を見ましたか。 信頼性とタイムリーな評価に向けたデータセット更新の自動化

Have Seen Me Before? Automating Dataset Updates Towards Reliable and Timely Evaluation ( http://arxiv.org/abs/2402.11894v1 )

ライセンス: Link先を確認
Jiahao Ying, Yixin Cao, Bo Wang, Wei Tang, Yizhe Yang, Shuicheng Yan(参考訳) 拡張能力と事前学習データのため、Large Language Models (LLM) はますます深刻な評価課題に直面している。 一方、データ漏洩問題は既存のベンチマークに過大評価を引き起こす。 一方、定期的にデータセットを手動でキュレートするのはコストがかかる。 本稿では、信頼性とタイムリーな評価のためのデータセット更新を自動化することを提案する。 基本的な考え方は、未確認で高品質なテストサンプルを既存のサンプルに基づいて生成し、漏洩問題を軽減することである。 具体的には,体系的に検証する2つの戦略を提案する。 まず、模倣戦略はLLMを使って既存のものに似た新しいサンプルを作成し、元のデータセットのスタイリスティックを最大限に保存する。 本実験は,複数インスタンス間の評価安定性とデータ漏洩問題への対処の有効性を示す。 第二に、データセットの模倣がうまくいかない場合、様々な認知レベルに応じて生成されたサンプルの難易度を調整する拡張戦略を設計する。 これは、評価をより体系的にするだけでなく、バランスのとれた難易度で、よりきめ細かいレベルでモデルの能力を見極めます。

Due to the expanding capabilities and pre-training data, Large Language Models (LLMs) are facing increasingly serious evaluation challenges. On one hand, the data leakage issue cause over-estimation on existing benchmarks. On the other hand, periodically curating datasets manually is costly. In this paper, we propose to automate dataset updates for reliable and timely evaluation. The basic idea is to generate unseen and high-quality testing samples based on existing ones to mitigate leakage issues. In specific, we propose two strategies with systematically verification. First, the mimicking strategy employs LLMs to create new samples resembling existing ones, to the maximum extent preserving the stylistic of the original dataset. Our experiments demonstrate its evaluation stability across multiple instantiations and its effectiveness in dealing with data leakage issues in most cases. Second, for the cases that mimicking dataset works poorly, we design an extending strategy that adjusts the difficulty of the generated samples according to varying cognitive levels. This not only makes our evaluation more systematic, but also, with a balanced difficulty, even discern model capabilities better at fine-grained levels.
翻訳日:2024-02-20 17:50:57 公開日:2024-02-19
# 文脈情報エントロピー制約付き適応デコードによる知識衝突の識別と解決

Discerning and Resolving Knowledge Conflicts through Adaptive Decoding with Contextual Information-Entropy Constraint ( http://arxiv.org/abs/2402.11893v1 )

ライセンス: Link先を確認
Xiaowei Yuan, Zhao Yang, Yequan Wang, Shengping Liu, Jun Zhao, Kang Liu(参考訳) 大規模言語モデルは、事前訓練中に膨大なパラメトリック知識を内部化する。 同時に、現実的なアプリケーションは、基礎となるタスクのモデルを支援するために外部のコンテキスト知識を必要とします。 これは知識紛争として知られる重要なジレンマを引き起こし、そこでは文脈的知識が衝突する。 しかし、既存の解読作業は知識紛争の解決に特化しており、紛争のないパフォーマンスを不注意に劣化させる可能性がある。 本稿では,文脈情報エントロピー制約デコーディング(COIECD)と呼ばれる適応的復号法を提案する。 矛盾するコンテキストに対するモデルの忠実さを改善し、非私たちの実験の中で高いパフォーマンスを同時に維持することは、現実のデータセットにおける知識の衝突よりも、coiecdが強いパフォーマンスと堅牢性を示すことを示している。 コードは利用可能。

Large language models internalize enormous parametric knowledge during pre-training. Concurrently, realistic applications necessitate external contextual knowledge to aid models on the underlying tasks. This raises a crucial dilemma known as knowledge conflicts, where the contextual knowledge clashes with the However, existing decoding works are specialized in resolving knowledge conflicts and could inadvertently deteriorate performance in absence of conflicts. In this paper, we propose an adaptive decoding method, termed as contextual information-entropy constraint decoding (COIECD), to discern whether the knowledge conflicts occur and resolve them. It can improve the model's faithfulness to conflicting context, and simultaneously maintain high performance among non- Our experiments show that COIECD exhibits strong performance and robustness over knowledge conflicts in realistic datasets. Code is available.
翻訳日:2024-02-20 17:50:40 公開日:2024-02-19
# 意味保存変換を用いたプログラム修復の評価 : 自然性評価

Evaluating Program Repair with Semantic-Preserving Transformations: A Naturalness Assessment ( http://arxiv.org/abs/2402.11892v1 )

ライセンス: Link先を確認
Thanh Le-Cong, Dat Nguyen, Bach Le, Toby Murray(参考訳) 本稿では,意味保存変換の自然性とそのNPR評価への影響について検討する。 これを達成するために,(1)上級ソフトウェア開発者へのインタビューを行い,コード変換の自然性を評価するための最初の具体的な基準を確立すること,(2)10人の開発者が1178の変換の自然性を評価すること,すなわち225の現実世界のバグに適用するオリジナルプログラムと変換プログラムのペアについて調査する。 以上の結果から,これらの変換の60%と20%は自然かつ不自然なものであり,ヒトのアノテータ間ではかなりの一致が認められた。 さらに、不自然なコード変換は5つのよく知られたNPRシステムの堅牢性に対して25.2%の誤警報率をもたらす。 さらに、NPRシステムの性能は自然変換を用いて評価すると顕著に低下し、これらのシステムによって生成された正しいパッチの数では22.9%と23.6%まで低下する。 これらの結果は,NPRシステムの真の有効性を明らかにするコード変換の自然性を考えることによって,ロバストネステストの重要性を強調した。 最後に,クロスエントロピーに基づく新たな自然度指標を導出することにより,コード変換の自然性評価の自動化に関する調査研究を行う。 自然度測定値に基づいて、AUC 0.7 でコード変換の自然度を自動的に評価できる。

In this paper, we investigate the naturalness of semantic-preserving transformations and their impacts on the evaluation of NPR. To achieve this, we conduct a two-stage human study, including (1) interviews with senior software developers to establish the first concrete criteria for assessing the naturalness of code transformations and (2) a survey involving 10 developers to assess the naturalness of 1178 transformations, i.e., pairs of original and transformed programs, applied to 225 real-world bugs. Our findings reveal that nearly 60% and 20% of these transformations are considered natural and unnatural with substantially high agreement among human annotators. Furthermore, the unnatural code transformations introduce a 25.2% false alarm rate on robustness of five well-known NPR systems. Additionally, the performance of the NPR systems drops notably when evaluated using natural transformations, i.e., a drop of up to 22.9% and 23.6% in terms of the numbers of correct and plausible patches generated by these systems. These results highlight the importance of robustness testing by considering naturalness of code transformations, which unveils true effectiveness of NPR systems. Finally, we conduct an exploration study on automating the assessment of naturalness of code transformations by deriving a new naturalness metric based on Cross-Entropy. Based on our naturalness metric, we can effectively assess naturalness for code transformations automatically with an AUC of 0.7.
翻訳日:2024-02-20 17:50:24 公開日:2024-02-19
# FeB4RAG:検索量増加の文脈におけるフェデレーション検索の評価

FeB4RAG: Evaluating Federated Search in the Context of Retrieval Augmented Generation ( http://arxiv.org/abs/2402.11891v1 )

ライセンス: Link先を確認
Shuai Wang, Ekaterina Khramtsova, Shengyao Zhuang, Guido Zuccon(参考訳) フェデレートされた検索システムは、複数の検索エンジンから結果を集約し、結果の品質を高め、ユーザの意図に合わせた適切なソースを選択する。 Retrieval-Augmented Generation (RAG)パイプラインの取り込みの増加に伴い、フェデレーション検索は異種データソース間で関連情報をソーシングし、情報応答を生成する上で重要な役割を果たす。 しかしながら、過去のTREC FedWebトラックで開発されたような既存のデータセットは、RAGパラダイムシフトよりも早く、現代の情報検索の課題の表現が不足している。 このギャップを埋めるため、RAGフレームワーク内でのフェデレーション検索に特化した新しいデータセットFeB4RAGを提案する。 このデータセットは、広く使用されているShabeirベンチマークコレクションの16のサブコレクションから派生したもので、チャットボットアプリケーション用に調整された790の情報リクエスト(会話クエリ)と、各リソースから返される上位結果と、それに関連するLLM関連判断が含まれている。 さらに,本収集の必要性に対応するため,RAGの高品質なフェデレーションサーチシステムに対する応答生成への影響を,フェデレーションサーチに対するナイーブなアプローチと比較した。 我々は、RAGパイプラインで生成された回答を質的な側面比較によって比較する。 我々のコレクションは、特にRAGパイプラインの文脈において、新しいフェデレーション検索手法の開発と評価を支援している。

Federated search systems aggregate results from multiple search engines, selecting appropriate sources to enhance result quality and align with user intent. With the increasing uptake of Retrieval-Augmented Generation (RAG) pipelines, federated search can play a pivotal role in sourcing relevant information across heterogeneous data sources to generate informed responses. However, existing datasets, such as those developed in the past TREC FedWeb tracks, predate the RAG paradigm shift and lack representation of modern information retrieval challenges. To bridge this gap, we present FeB4RAG, a novel dataset specifically designed for federated search within RAG frameworks. This dataset, derived from 16 sub-collections of the widely used \beir benchmarking collection, includes 790 information requests (akin to conversational queries) tailored for chatbot applications, along with top results returned by each resource and associated LLM-derived relevance judgements. Additionally, to support the need for this collection, we demonstrate the impact on response generation of a high quality federated search system for RAG compared to a naive approach to federated search. We do so by comparing answers generated through the RAG pipeline through a qualitative side-by-side comparison. Our collection fosters and supports the development and evaluation of new federated search methods, especially in the context of RAG pipelines.
翻訳日:2024-02-20 17:49:58 公開日:2024-02-19
# 自己回帰言語モデルにおける知識蒸留の再検討

Revisiting Knowledge Distillation for Autoregressive Language Models ( http://arxiv.org/abs/2402.11890v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Li Shen, Juhua Liu, Bo Du, Dacheng Tao(参考訳) 知識蒸留(KD)は、より小さな学生モデルを訓練することで、推論コストとメモリフットプリントを減らすために教師モデルを圧縮する一般的な手法である。 しかし、lms(autoregressive language models)の文脈では、より大きな教師のlmsが劇的に貧弱な生徒を生み出す可能性があることを経験的に見出す。 この問題への対応として,一連の分析を行い,異なるトークンが異なる指導モードを持っていることを明らかにし,性能低下につながる要因を無視する。 そこで本研究では,KD を改善するための簡易かつ効果的な適応型教育手法 (ATKD) を提案する。 ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。 8つのLMタスクに関する大規模な実験は、ATKDの助けを借りて、様々なベースラインのKD手法が、すべてのモデルタイプとサイズに対して、一貫性と重要なパフォーマンス向上(平均スコア+3.04%)を達成することを示した。 より奨励的に、ATKDは学生モデルの一般化を効果的に改善することができる。

Knowledge distillation (KD) is a common approach to compress a teacher model to reduce its inference cost and memory footprint, by training a smaller student model. However, in the context of autoregressive language models (LMs), we empirically find that larger teacher LMs might dramatically result in a poorer student. In response to this problem, we conduct a series of analyses and reveal that different tokens have different teaching modes, neglecting which will lead to performance degradation. Motivated by this, we propose a simple yet effective adaptive teaching approach (ATKD) to improve the KD. The core of ATKD is to reduce rote learning and make teaching more diverse and flexible. Extensive experiments on 8 LM tasks show that, with the help of ATKD, various baseline KD methods can achieve consistent and significant performance gains (up to +3.04% average score) across all model types and sizes. More encouragingly, ATKD can improve the student model generalization effectively.
翻訳日:2024-02-20 17:49:31 公開日:2024-02-19
# オルソシンプレクティック $z_2\times z_2$-graded lie superalgebras and parastatistics

Orthosymplectic $Z_2\times Z_2$-graded Lie superalgebras and parastatistics ( http://arxiv.org/abs/2402.11952v1 )

ライセンス: Link先を確認
N.I. Stoilova and J. Van der Jeugt(参考訳) z_2\times z_2$-graded lie superalgebra $g$ は、z_2\times z_2$-graded algebra の括弧 $[.,.]$ で、対称性とヤコビの同一性のあるグレードバージョンを満たす。 特に、共通用語にもかかわらず、$g$ はリー超代数ではない。 z_2\times z_2$-graded lie superalgebra $osp(2m_1+1,2m_2|2n_1,2n_2)$ を行列の定義の観点から構成する。 この代数の特別な場合はすでに2014年にトルストイの作業中に現れた。 我々の構成は、$Z_2\times Z_2$-graded matrix に対する次数付き超積の概念に基づいている。 正則シンプレクティックリー超代数 $osp(2m+1|2n)$ はパラボソン、パラフェルミオン、混合パラ統計学の定義と密接に関連しているので、ここでは $osp(2m_1+1,2m_2|2n_1,2n_2)$ から続く新しいパラ統計学関係について調べる。 いくつかの特別なケースは、たとえパラボゾンのみを扱う場合であっても、特に興味深い。

A $Z_2\times Z_2$-graded Lie superalgebra $g$ is a $Z_2\times Z_2$-graded algebra with a bracket $[.,.]$ that satisfies certain graded versions of the symmetry and Jacobi identity. In particular, despite the common terminology, $g$ is not a Lie superalgebra. We construct the most general orthosymplectic $Z_2\times Z_2$-graded Lie superalgebra $osp(2m_1+1,2m_2|2n_1,2n_2)$ in terms of defining matrices. A special case of this algebra appeared already in work of Tolstoy in 2014. Our construction is based on the notion of graded supertranspose for a $Z_2\times Z_2$-graded matrix. Since the orthosymplectic Lie superalgebra $osp(2m+1|2n)$ is closely related to the definition of parabosons, parafermions and mixed parastatistics, we investigate here the new parastatistics relations following from $osp(2m_1+1,2m_2|2n_1,2n_2)$. Some special cases are of particular interest, even when one is dealing with parabosons only.
翻訳日:2024-02-20 17:44:02 公開日:2024-02-19
# AICAttack: 注意に基づく最適化による敵対的イメージキャプション攻撃

AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization ( http://arxiv.org/abs/2402.11940v1 )

ライセンス: Link先を確認
Jiyao Li, Mingze Ni, Yifei Dong, Tianqing Zhu and Wei Liu(参考訳) 近年のディープラーニング研究の進歩は、コンピュータビジョン(CV)と自然言語処理(NLP)における多くのタスクにおいて顕著な成果を示している。 CVとNLPの交わりは画像キャプションの問題であり、敵攻撃に対する関連モデルの堅牢性は十分に研究されていない。 本稿では,AICAttack (Attention-based Image Captioning Attack) と呼ばれる,画像上の微妙な摂動による画像キャプションモデルへの攻撃を目的とした,新たな敵攻撃戦略を提案する。 ブラックボックス攻撃シナリオ内で動作し,対象モデルのアーキテクチャやパラメータ,勾配情報へのアクセスを必要としない。 本稿では,攻撃対象の最適な画素を識別する注意に基づく候補選択機構と,画素のrgb値の摂動のための差分進化(de)を提案する。 複数の犠牲者モデルを用いたベンチマークデータセットの広範な実験により,AICAttackの有効性を示す。 実験の結果,提案手法は,単語のアライメントとセマンティクスを効果的に分散することにより,現在の先行手法を超えることを示した。

Recent advances in deep learning research have shown remarkable achievements across many tasks in computer vision (CV) and natural language processing (NLP). At the intersection of CV and NLP is the problem of image captioning, where the related models' robustness against adversarial attacks has not been well studied. In this paper, we present a novel adversarial attack strategy, which we call AICAttack (Attention-based Image Captioning Attack), designed to attack image captioning models through subtle perturbations on images. Operating within a black-box attack scenario, our algorithm requires no access to the target model's architecture, parameters, or gradient information. We introduce an attention-based candidate selection mechanism that identifies the optimal pixels to attack, followed by Differential Evolution (DE) for perturbing pixels' RGB values. We demonstrate AICAttack's effectiveness through extensive experiments on benchmark datasets with multiple victim models. The experimental results demonstrate that our method surpasses current leading-edge techniques by effectively distributing the alignment and semantics of words in the output.
翻訳日:2024-02-20 17:43:32 公開日:2024-02-19
# 経路範囲の並列プログラム解析

Parallel Program Analysis on Path Ranges ( http://arxiv.org/abs/2402.11938v1 )

ライセンス: Link先を確認
Jan Haltermanna, Marie-Christine Jakobs, Cedric Richter, Heike Wehrheim(参考訳) シンボル実行は、プログラムを象徴的に実行し、バグをチェックするソフトウェア検証技法である。 Ranged symbolic execution は、並列にパス範囲と呼ばれるプログラム部分でシンボリックな実行を実行する。 並列性のため、検証は加速され、より大きなプログラムにスケールする。 本稿では,任意のプログラム解析に対する範囲付きシンボル実行の一般化について論じる。 具体的には,プログラムを経路範囲に分割し,任意の解析を並列に行う検証手法を提案する。 特に我々のアプローチは、異なるプログラムパーツで異なる分析を実行できる。 我々は,ツールCPAchecker上にこの一般化を実装し,SV-COMPベンチマークのプログラム上で評価した。 評価の結果, 検証作業の並列化は有効であるが, 効率的になるためには, 作業盗難(分析)の形式も必要であることがわかった。

Symbolic execution is a software verification technique symbolically running programs and thereby checking for bugs. Ranged symbolic execution performs symbolic execution on program parts, so called path ranges, in parallel. Due to the parallelism, verification is accelerated and hence scales to larger programs. In this paper, we discuss a generalization of ranged symbolic execution to arbitrary program analyses. More specifically, we present a verification approach that splits programs into path ranges and then runs arbitrary analyses on the ranges in parallel. Our approach in particular allows to run different analyses on different program parts. We have implemented this generalization on top of the tool CPAchecker and evaluated it on programs from the SV-COMP benchmark. Our evaluation shows that verification can benefit from the parallelisation of the verification task, but also needs a form of work stealing (between analyses) as to become efficient
翻訳日:2024-02-20 17:43:09 公開日:2024-02-19
# SemEval-2024 Task 8におけるチームQUST:AI生成テキスト検出のための単言語的・多言語的アプローチの総合的研究

Team QUST at SemEval-2024 Task 8: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting AI-generated Text ( http://arxiv.org/abs/2402.11934v1 )

ライセンス: Link先を確認
Xiaoman Xu, Xiangrun Li, Taihang Wang, Jianxiang Tian, Ye Jiang(参考訳) 本稿では,タスク8SemEval 2024におけるチームQUSTの参加について述べる。 まず,モデルの学習効率と精度を高めるため,データセット上でデータ拡張とクリーニングを行った。 単言語課題では,従来のディープラーニング法,多スケール正無ラベルフレームワーク(mpu),微調整,アダプタ,アンサンブル法を評価した。 次に,単言語モデルからそれらの精度に基づいてトップパフォーマンスモデルを選択し,それらをサブタスクA,Bで評価した。 当社のシステムは,サブタスクAの多言語設定における公式テストセットにおいて,8位(精度では8位,公式には13位)を達成した。

This paper presents the participation of team QUST in Task 8 SemEval 2024. We first performed data augmentation and cleaning on the dataset to enhance model training efficiency and accuracy. In the monolingual task, we evaluated traditional deep-learning methods, multiscale positive-unlabeled framework (MPU), fine-tuning, adapters and ensemble methods. Then, we selected the top-performing models based on their accuracy from the monolingual models and evaluated them in subtasks A and B. The final model construction employed a stacking ensemble that combined fine-tuning with MPU. Our system achieved 8th (scored 8th in terms of accuracy, officially ranked 13th) place in the official test set in multilingual settings of subtask A. We release our system code at:https://github.com/warmth27/SemEval2024_QUST
翻訳日:2024-02-20 17:42:47 公開日:2024-02-19
# 絡み合った光子による量子偏光度測定の非局所性による精度向上

Nonlocality enhanced precision in quantum polarimetry via entangled photons ( http://arxiv.org/abs/2402.11932v1 )

ライセンス: Link先を確認
Ali Pedram, Vira R. Besaga, Frank Setzpfandt, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 本研究では,光子対の絡み合い現象を利用して試料特性決定の精度を向上させる非局所量子偏光法を提案する。 興味のサンプルを含む2つの異なるチャネルを基準として使用することにより、絡み合った光子間の固有相関が測定感度を高めることができる条件を探索する。 具体的には,量子フィッシャー情報(qfi)を計算し,単一サンプルチャネルの場合の精度と感度を2チャンネルの量子状態トモグラフィと比較した。 理論的結果は実験的解析によって検証される。 筆者らの理論的および実験的枠組みは,非局所戦略が局所的測定よりも試料特性に関する情報を抽出する際の精度と精度を高めることを実証している。 理論および実験の結果, 推定パラメータの精度は, 選択された推定値と雑音チャネルによって低下することがわかった。 このような量子強度の非局所偏光測定は、量子絡み合いによる高精度な測定を通じて、物質科学、生体医用イメージング、リモートセンシングを含む様々な分野の進展を約束する。

We present a nonlocal quantum approach to polarimetry, leveraging the phenomenon of entanglement in photon pairs to enhance the precision in sample property determination. By employing two distinct channels, one containing the sample of interest and the other serving as a reference, we explore the conditions under which the inherent correlation between entangled photons can increase measurement sensitivity. Specifically, we calculate the quantum Fisher information (QFI) and compare the accuracy and sensitivity for the cases of single sample channel versus two channel quantum state tomography measurements. The theoretical results are verified by experimental analysis. Our theoretical and experimental framework demonstrates that the nonlocal strategy enables enhanced precision and accuracy in extracting information about sample characteristics more than the local measurements. Depending on the chosen estimators and noise channels present, theoretical and experimental results show that noise-induced bias decreases the precision for the estimated parameter. Such a quantum-enhanced nonlocal polarimetry holds promise for advancing diverse fields including material science, biomedical imaging, and remote sensing, via high-precision measurements through quantum entanglement.
翻訳日:2024-02-20 17:42:17 公開日:2024-02-19
# DiLightNet:拡散画像生成のための微細照明制御

DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation ( http://arxiv.org/abs/2402.11929v1 )

ライセンス: Link先を確認
Chong Zeng and Yue Dong and Pieter Peers and Youkang Kong and Hongzhi Wu and Xin Tong(参考訳) 本稿では,テキスト駆動拡散ベース画像生成における細粒度照明制御を行う新しい手法を提案する。 既存の拡散モデルは、いかなる照明条件でも画像を生成することができるが、追加のガイダンスなしでは、これらのモデルは画像の内容と照明を関連付ける傾向がある。 さらに、テキストプロンプトには詳細な照明設定を記述するために必要な表現力がない。 画像生成時の照明のきめ細かい制御を可能とし、かつ、照度ヒントの形で詳細な照明情報、すなわち、ターゲット照明下で均質な正準材を用いたシーン形状の可視化によりテキストプロンプトを増強するコンテンツクリエータを提供する。 しかし、放射光のヒントを生成するのに必要なシーン形状は不明である。 我々のキーとなる観察は、拡散過程のみを導く必要があるため、正確な放射率のヒントは不要であり、拡散モデルを正しい方向に向ける必要があることである。 この観測に基づいて,画像生成時の照明を制御する3段階の手法を提案する。 最初の段階では、標準の事前学習拡散モデルを利用して、制御不能な照明下で暫定的な画像を生成する。 次に、第2段階では、仮画像から推定される前景オブジェクトの粗い形状に計算された放射率ヒントを用いて、ターゲット照明を改良された拡散モデルであるDiLightNetに渡すことにより、生成画像中の前景オブジェクトを再合成し、精製する。 テクスチャの詳細を保持するために,光度ヒントを仮合成画像のニューラルエンコーディングと乗算し,それをdilightnetに渡す。 最後に,第3段階では,前景の照明と一致するように背景を合成する。 様々なテキストプロンプトと照明条件において,照明制御拡散モデルを実証し,検証する。

This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.
翻訳日:2024-02-20 17:41:43 公開日:2024-02-19
# 対照表現学習による共通パターンとサルエントパターンの分離

Separating common from salient patterns with Contrastive Representation Learning ( http://arxiv.org/abs/2402.11928v1 )

ライセンス: Link先を確認
Robin Louiset, Edouard Duchesnay, Antoine Grigis, Pietro Gori(参考訳) コントラスト分析(Contrastive Analysis)は、2つのデータセット、背景(健康な被験者)と対象(疾患のある被験者)の共通の要因を、ターゲットデータセットにのみ存在する変動の健全な要因から分離することを目的とした表現学習のサブフィールドである。 その関連性にもかかわらず、変分オートエンコーダに基づく現在のモデルは意味表現の学習において性能が劣っている。 一方で、対照的な表現学習は、さまざまなアプリケーション(分類、クラスタリングなど)で大きなパフォーマンスの飛躍を示している。 本研究では,コントラスト分析に適合した意味表現表現を学習するためのコントラスト学習の能力を活用することを提案する。 我々はInfoMax Principleのレンズの下でそれを再構成し、2つの相互情報項を最大化し、1つは最小化する。 対照的な学習で一般的に行われるように、最初の2つの用語をアライメントと一様項に分解する。 次に,共通分布と有意分布との間の情報漏洩を防止するために,新たな相互情報最小化戦略を動機付ける。 sepclrと呼ばれる手法を,3つの視覚データセットと3つの医療データセット上で検証し,コントラスト解析におけるパターン分離能力を評価することを意図した。 コードはhttps://github.com/neurospin-projects/2024_rlouiset_sep_clr。

Contrastive Analysis is a sub-field of Representation Learning that aims at separating common factors of variation between two datasets, a background (i.e., healthy subjects) and a target (i.e., diseased subjects), from the salient factors of variation, only present in the target dataset. Despite their relevance, current models based on Variational Auto-Encoders have shown poor performance in learning semantically-expressive representations. On the other hand, Contrastive Representation Learning has shown tremendous performance leaps in various applications (classification, clustering, etc.). In this work, we propose to leverage the ability of Contrastive Learning to learn semantically expressive representations well adapted for Contrastive Analysis. We reformulate it under the lens of the InfoMax Principle and identify two Mutual Information terms to maximize and one to minimize. We decompose the first two terms into an Alignment and a Uniformity term, as commonly done in Contrastive Learning. Then, we motivate a novel Mutual Information minimization strategy to prevent information leakage between common and salient distributions. We validate our method, called SepCLR, on three visual datasets and three medical datasets, specifically conceived to assess the pattern separation capability in Contrastive Analysis. Code available at https://github.com/neurospin-projects/2024_rlouiset_sep_clr.
翻訳日:2024-02-20 17:40:16 公開日:2024-02-19
# 共同データ深化・プレフェッチによるエネルギー効率の良いエッジ学習

Energy-Efficient Edge Learning via Joint Data Deepening-and-Prefetching ( http://arxiv.org/abs/2402.11925v1 )

ライセンス: Link先を確認
Sujin Kook, Won-Yong Shin, Seong-Lyun Kim, and Seung-Woo Ko(参考訳) 広汎な人工知能(AI)サービスのビジョンは、モノのインターネット(IoT)デバイスによって収集されたリアルタイムデータを使用して、AIモデルをリアルタイムでトレーニングすることで実現することができる。 この目的のためにIoTデバイスは、データを近くのエッジサーバにオフロードする必要がある。 しかし、エネルギー制約されたIoTデバイスから高次元および高輝度データを送信することは、大きな課題となる。 この制限に対処するために,2つの重要な技術からなる機能間オフロードであるジョイントデータディープニング・アンド・プレフェッチ(JD2P)と呼ばれる新しいオフロードアーキテクチャを提案する。 1つ目はデータ深化であり、各データサンプルの特徴は、原則コンポーネント分析(PCA)のようなデータ埋め込み技術によって決定される重要度順に順次オフロードされる。 オフロードは、送信済みのフィーチャが正確なデータ分類に十分であったら終了し、送信されたデータ量を減らす。 データをオフロードする基準は、サポートベクトルマシン(SVM)とディープニューラルネットワーク(DNN)に基づいて設計されたバイナリとマルチクラス分類器に対して導出される。 2つ目はデータプリフェッチであり、将来必要となるいくつかの機能は事前にオフロードされ、正確な予測とパラメータ最適化によって高い効率を達成する。 MNISTデータセットを用いた実験により, JD2Pの有効性を評価し, 学習精度を劣化させることなく, 予測されるエネルギー消費量を大幅に削減できることを示した。

The vision of pervasive artificial intelligence (AI) services can be realized by training an AI model on time using real-time data collected by internet of things (IoT) devices. To this end, IoT devices require offloading their data to an edge server in proximity. However, transmitting high-dimensional and voluminous data from energy-constrained IoT devices poses a significant challenge. To address this limitation, we propose a novel offloading architecture, called joint data deepening-and-prefetching (JD2P), which is feature-by-feature offloading comprising two key techniques. The first one is data deepening, where each data sample's features are sequentially offloaded in the order of importance determined by the data embedding technique such as principle component analysis (PCA). Offloading is terminated once the already transmitted features are sufficient for accurate data classification, resulting in a reduction in the amount of transmitted data. The criteria to offload data are derived for binary and multi-class classifiers, which are designed based on support vector machine (SVM) and deep neural network (DNN), respectively. The second one is data prefetching, where some features potentially required in the future are offloaded in advance, thus achieving high efficiency via precise prediction and parameter optimization. We evaluate the effectiveness of JD2P through experiments using the MNIST dataset, and the results demonstrate its significant reduction in expected energy consumption compared to several benchmarks without degrading learning accuracy.
翻訳日:2024-02-20 17:39:27 公開日:2024-02-19
# MRKE:知識版によるLLMのマルチホップ推論評価

MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition ( http://arxiv.org/abs/2402.11924v1 )

ライセンス: Link先を確認
Jian Wu, Linyi Yang, Manabu Okumura, Yue Zhang(参考訳) 大規模言語モデル(LLM)はMHQA(Multi-hop Question Answering)タスクにおいて高いパフォーマンスを示しているが、真の推論能力はいまだ探索中である。 現在のllm qa評価ベンチマークには、制限がある。 1) データの汚染, 評価データは, 事前訓練期間中に LLM に暴露される可能性がある。 2) 推論連鎖評価の無視 そこで,本研究では,市販のHotpotQAデータセットを編集し,前例のない知識に基づく最初のQAベンチマークであるLLM MHQA評価ベンチマークを導入する。 具体的には、観察に基づいて。 1) LLMは, 従来のHotpotQAと編集したデータの間に性能差を示し, 現在のMHQAベンチマークでは, LLMの性能を客観的かつ科学的に評価することが困難なデータ汚染のリスクがあると考えられた。 2) LLM は正しい推論鎖のごく一部しか得られず、例えば GPT-4 は正しい推論鎖の36.3 %しか得られない。 我々は,新しいマルチホップQA評価ベンチマークと新しい評価手法により,MHQAタスクにおける信頼性の高いLCM評価の開発が容易になると考えている。

Although Large Language Models (LLMs) have shown strong performance in Multi-hop Question Answering (MHQA) tasks, their real reasoning ability remains exploration. Current LLM QA evaluation benchmarks have shown limitations, including 1) data contamination, the evaluation data are potentially exposed to LLMs during the pretraining stage; and 2) ignoration of the reasoning chain evaluation. Thus we introduce an LLM MHQA evaluation benchmark, the first QA benchmark based on the new, unprecedented knowledge by editing the off-the-shelf HotpotQA dataset; Besides, we also annotate and evaluate the reasoning chain in the form of sub-questions and intermediate answers corresponding to the multi-hop questions. Specifically, based on the observation, 1) LLMs show a performance gap between the original HotpotQA and our edited data, deeming that current MHQA benchmarks have the potential risk of data contamination that hard to evaluate LLMs' performance objectively and scientifically; 2) LLMs only get a small percentage of the right reasoning chain, e.g. GPT-4 only gets 36.3\% right reasoning chain. We believe this new Multi-hop QA evaluation benchmark and novel evaluation methods will facilitate the development of trustworthy LLM evaluation on the MHQA task.
翻訳日:2024-02-20 17:39:01 公開日:2024-02-19
# 時空間グラフ転送学習のための生成事前学習フレームワーク

A Generative Pre-Training Framework for Spatio-Temporal Graph Transfer Learning ( http://arxiv.org/abs/2402.11922v1 )

ライセンス: Link先を確認
Yuan Yuan, Chenyang Shao, Jingtao Ding, Depeng Jin, Yong Li(参考訳) 時空間グラフ(stg)学習はスマートシティ応用の基礎であるが、多くの都市や地域でのデータ不足によってしばしば妨げられている。 このギャップを埋めるために,STG転送学習のための新しい生成事前学習フレームワーク GPDiff を提案する。 一般的な特徴抽出や複雑な伝達学習設計に強く依存する従来のアプローチとは異なり、本ソリューションは、ソース都市からのデータに最適化されたモデルパラメータの集合に対して生成前トレーニングを行うことで、新しいアプローチを取る。 我々はSTG転送学習を生成型ハイパーネットワークの事前学習として再考し、プロンプトでガイドされたモデルパラメータを生成し、多様なデータ分布や都市特有の特性に適応できるようにする。 GPDiffは、強力なSTGモデルと統合するにはモデルに依存しないトランスフォーマーベースのデノナイジングネットワークを備えた拡散モデルを採用している。 データギャップと都市間の知識の一般化の複雑さから生じる課題に対処することによって、私たちのフレームワークは、トラフィック速度予測やクラウドフロー予測といったタスクにおいて、複数の実世界のデータセットにおける最先端のベースラインを一貫して上回ります。 実装はhttps://github.com/pluto-scy/gpdiffです。

Spatio-temporal graph (STG) learning is foundational for smart city applications, yet it is often hindered by data scarcity in many cities and regions. To bridge this gap, we propose a novel generative pre-training framework, GPDiff, for STG transfer learning. Unlike conventional approaches that heavily rely on common feature extraction or intricate transfer learning designs, our solution takes a novel approach by performing generative pre-training on a collection of model parameters optimized with data from source cities. We recast STG transfer learning as pre-training a generative hypernetwork, which generates tailored model parameters guided by prompts, allowing for adaptability to diverse data distributions and city-specific characteristics. GPDiff employs a diffusion model with a transformer-based denoising network, which is model-agnostic to integrate with powerful STG models. By addressing challenges arising from data gaps and the complexity of generalizing knowledge across cities, our framework consistently outperforms state-of-the-art baselines on multiple real-world datasets for tasks such as traffic speed prediction and crowd flow prediction. The implementation of our approach is available: https://github.com/PLUTO-SCY/GPDiff.
翻訳日:2024-02-20 17:38:37 公開日:2024-02-19
# シンボリックマルチステップ推論タスクで学習した変圧器の力学解析

A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task ( http://arxiv.org/abs/2402.11917v1 )

ライセンス: Link先を確認
Jannik Brinkmann, Abhay Sheshadri, Victor Levoso, Paul Swoboda, Christian Bartelt(参考訳) トランスフォーマーは様々な推論ベンチマークで印象的なパフォーマンスを示している。 これらの能力が実際の推論の結果である程度を評価するために、既存の研究は行動研究の洗練されたベンチマークの開発に焦点を当てている。 しかし、これらの研究は観測能力を動かす内部機構についての洞察を提供していない。 変圧器の内部機構の理解を深めるために,合成推論タスクで訓練された変圧器の包括的機構解析を行う。 モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いて結果を検証する。 その結果,並列に動作し,中間結果を選択されたトークン位置に格納する深さ境界リカレント機構を実装していることが示唆された。 私たちが合成設定で特定したモチーフは、トランスフォーマーのより広範な動作原理に関する貴重な洞察を与え、より複雑なモデルを理解するための基盤となることを期待する。

Transformers demonstrate impressive performance on a range of reasoning benchmarks. To evaluate the degree to which these abilities are a result of actual reasoning, existing work has focused on developing sophisticated benchmarks for behavioral studies. However, these studies do not provide insights into the internal mechanisms driving the observed capabilities. To improve our understanding of the internal mechanisms of transformers, we present a comprehensive mechanistic analysis of a transformer trained on a synthetic reasoning task. We identify a set of interpretable mechanisms the model uses to solve the task, and validate our findings using correlational and causal evidence. Our results suggest that it implements a depth-bounded recurrent mechanisms that operates in parallel and stores intermediate results in selected token positions. We anticipate that the motifs we identified in our synthetic setting can provide valuable insights into the broader operating principles of transformers and thus provide a basis for understanding more complex models.
翻訳日:2024-02-20 17:38:15 公開日:2024-02-19
# PhySU-Net: 自己教師付き事前学習によるrPPGの長期文脈変換器

PhySU-Net: Long Temporal Context Transformer for rPPG with Self-Supervised Pre-training ( http://arxiv.org/abs/2402.11913v1 )

ライセンス: Link先を確認
Marko Savic, Guoying Zhao(参考訳) 遠隔胸部CT(remote Photoplethysmography, RPPG)は, 顔画像からの心臓活動の非接触計測技術である。 最近のアプローチでは、時間的モデリング能力に制限のある畳み込みネットワークを使用するか、長い時間的文脈を無視する。 監視されたrPPGメソッドも、データ可用性の不足によって大幅に制限されている。 本研究では,最初の空間時空間マップrppgトランスフォーマーネットワークであるphysu-netと,ラベルなしデータを利用してモデルを改善する自己教師あり事前学習戦略を提案する。 従来の手法と画像マスキングを活用し,自己教師付き事前学習のための擬似ラベルを提供する。 我々のモデルは2つの公開データセット(OBFとVIPL-HR)でテストされ、教師あり訓練において優れた性能を示す。 さらに,ラベルなしデータから学習した表現を活用し,自己教師付き事前学習戦略により,モデルの性能がさらに向上することを示す。

Remote photoplethysmography (rPPG) is a promising technology that consists of contactless measuring of cardiac activity from facial videos. Most recent approaches utilize convolutional networks with limited temporal modeling capability or ignore long temporal context. Supervised rPPG methods are also severely limited by scarce data availability. In this work, we propose PhySU-Net, the first long spatial-temporal map rPPG transformer network and a self-supervised pre-training strategy that exploits unlabeled data to improve our model. Our strategy leverages traditional methods and image masking to provide pseudo-labels for self-supervised pre-training. Our model is tested on two public datasets (OBF and VIPL-HR) and shows superior performance in supervised training. Furthermore, we demonstrate that our self-supervised pre-training strategy further improves our model's performance by leveraging representations learned from unlabeled data.
翻訳日:2024-02-20 17:37:58 公開日:2024-02-19
# テキストからテストケース生成のための大規模言語モデルの強化

Enhancing Large Language Models for Text-to-Testcase Generation ( http://arxiv.org/abs/2402.11910v1 )

ライセンス: Link先を確認
Saranya Alagarsamy, Chakkrit Tantithamthavorn, Chetan Arora, Aldeida Aleti(参考訳) コンテキスト: テスト駆動開発(TDD)は、コードを記述する前に要件に基づいてテストケースを開発することを含む、広く使われているソフトウェア開発プラクティスです。 自動テストケース生成のための様々なメソッドが提案されているが、コードではなく要求が入力として機能するTDDには特に適していない。 目的:本論文では,大規模言語モデル(GPT-3.5)に基づくテキスト・ツー・テストケース生成手法を提案する。 方法:本手法では,テキスト対テストケース生成タスクのための基本gpt-3.5の機能を拡張し,効果的なプロンプト設計を行う。 提案手法の有効性を,5つの大規模オープンソースプロジェクトを用いて評価した。 結果:我々のアプローチでは,オープンソースプロジェクトの7kのテストケースを生成し,78.5%の構文的正しさ,67.09%の要件整合性,61.7%のコードカバレッジを実現しました。 さらに,我々はGPT-3.5モデルの微調整および促進性能の大幅な向上を実証した。 結論: これらの知見は、テキストからテストケース生成タスクのための言語モデルを構築する際に、将来、微調整とプロンプトを検討するべきであると結論づける。

Context: Test-driven development (TDD) is a widely employed software development practice that involves developing test cases based on requirements prior to writing the code. Although various methods for automated test case generation have been proposed, they are not specifically tailored for TDD, where requirements instead of code serve as input. Objective: In this paper, we introduce a text-to-testcase generation approach based on a large language model (GPT-3.5) that is fine-tuned on our curated dataset with an effective prompt design. Method: Our approach involves enhancing the capabilities of basic GPT-3.5 for text-to-testcase generation task that is fine-tuned on our curated dataset with an effective prompting design. We evaluated the effectiveness of our approach using a span of five large-scale open-source software projects. Results: Our approach generated 7k test cases for open source projects, achieving 78.5% syntactic correctness, 67.09% requirement alignment, and 61.7% code coverage, which substantially outperforms all other LLMs (basic GPT-3.5, Bloom, and CodeT5). In addition, our ablation study demonstrates the substantial performance improvement of the fine-tuning and prompting components of the GPT-3.5 model. Conclusions: These findings lead us to conclude that fine-tuning and prompting should be considered in the future when building a language model for the text-to-testcase generation task
翻訳日:2024-02-20 17:37:39 公開日:2024-02-19
# One2Avatar: ユーザ適応のための生成的インシシデントヘッドアバター

One2Avatar: Generative Implicit Head Avatar For Few-shot User Adaptation ( http://arxiv.org/abs/2402.11909v1 )

ライセンス: Link先を確認
Zhixuan Yu, Ziqian Bai, Abhimitra Meka, Feitong Tan, Qiangeng Xu, Rohit Pandey, Sean Fanello, Hyun Soo Park and Yinda Zhang(参考訳) モノクロビデオから高品質でパーソナライズされたヘッドアバターを構築する従来の方法は、顔のキャプチャとトレーニング時間を必要とする。 本稿では,1ユーザあたり1枚ないし数枚の画像のみを利用した高品質なアバター作成手法を提案する。 我々は,2407人の表情の多視点データセットから,3次元の写実的頭部アバター生成モデルを学び,それを,少数の写真からパーソナライズされたアバターを作成するための前段階として活用する。 従来の3D認識顔生成モデルとは違って,前者は3DMMで合成した神経放射野のバックボーンで構築した。 また、不安定な3DMMフィッティングを3DMMフィッティングとカメラキャリブレーションを共同で最適化することで、より優れた数ショット適応を実現する。 提案手法は, より効率的かつパーソナライズされたアバター作成を実現するため, 従来のアバター適応手法よりも優れていることを示す。

Traditional methods for constructing high-quality, personalized head avatars from monocular videos demand extensive face captures and training time, posing a significant challenge for scalability. This paper introduces a novel approach to create high quality head avatar utilizing only a single or a few images per user. We learn a generative model for 3D animatable photo-realistic head avatar from a multi-view dataset of expressions from 2407 subjects, and leverage it as a prior for creating personalized avatar from few-shot images. Different from previous 3D-aware face generative models, our prior is built with a 3DMM-anchored neural radiance field backbone, which we show to be more effective for avatar creation through auto-decoding based on few-shot inputs. We also handle unstable 3DMM fitting by jointly optimizing the 3DMM fitting and camera calibration that leads to better few-shot adaptation. Our method demonstrates compelling results and outperforms existing state-of-the-art methods for few-shot avatar adaptation, paving the way for more efficient and personalized avatar creation.
翻訳日:2024-02-20 17:37:13 公開日:2024-02-19
# 知覚回帰のためのベイジアンアクティブラーニング

Bayesian Active Learning for Censored Regression ( http://arxiv.org/abs/2402.11973v1 )

ライセンス: Link先を確認
Frederik Boe H\"uttel, Christoffer Riis, Filipe Rodrigues, Francisco C\^amara Pereira(参考訳) ベイズアクティブラーニングは、新しい観察がモデルパラメータに与える情報を最大化することに焦点を当てた情報理論的アプローチに基づいている。 これは一般的に、Bayesian Active Learning by Disagreement (BALD) 取得関数の最大化によって行われる。 しかし,新たなデータポイントが検閲の対象となり,ターゲットのクリップ値のみが観察される場合,BALDを推定することは困難である。 これを解決するために、検閲された配信のエントロピーと相互情報を導出し、検閲されたレグレッション(\mathcal{C}$-BALD)におけるアクティブな学習のためのBALD目標を導出する。 本稿では,$\mathcal{C}$-BALD目標を推定する新しいモデリング手法を提案する。 幅広いデータセットやモデルを用いて、$\mathcal{C}$-BALDが、検閲された回帰において他のベイズ的アクティブな学習方法よりも優れていることを示す。

Bayesian active learning is based on information theoretical approaches that focus on maximising the information that new observations provide to the model parameters. This is commonly done by maximising the Bayesian Active Learning by Disagreement (BALD) acquisitions function. However, we highlight that it is challenging to estimate BALD when the new data points are subject to censorship, where only clipped values of the targets are observed. To address this, we derive the entropy and the mutual information for censored distributions and derive the BALD objective for active learning in censored regression ($\mathcal{C}$-BALD). We propose a novel modelling approach to estimate the $\mathcal{C}$-BALD objective and use it for active learning in the censored setting. Across a wide range of datasets and models, we demonstrate that $\mathcal{C}$-BALD outperforms other Bayesian active learning methods in censored regression.
翻訳日:2024-02-20 17:29:19 公開日:2024-02-19
# 方言話者は何を望んでいるのか? ドイツ方言における言語技術に対する意識調査

What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects ( http://arxiv.org/abs/2402.11968v1 )

ライセンス: Link先を確認
Verena Blaschke, Christoph Purschke, Hinrich Sch\"utze, Barbara Plank(参考訳) 自然言語処理(NLP)は主に標準化された言語をモデル化することに焦点を当てている。 最近では、現地の非標準言語や方言に注目が移りつつある。 しかし,NLPツールに対する話者のニーズや要望はほとんど分かっていない。 本稿では,ドイツ語に関連する方言や地域言語に焦点をあてる。 これらの方言の話者(n=327)を調査し,その方言に対する仮説言語技術について意見を述べる。 回答者の態度はサブグループによって異なるが、仮想アシスタントのような方言入力(特に音声入力)を扱うNLPツールが特に好まれており、機械翻訳やスペルチェッカーのような方言出力を生成するアプリケーションではそうではない。

Natural language processing (NLP) has largely focused on modelling standardized languages. More recently, attention has increasingly shifted to local, non-standardized languages and dialects. However, the relevant speaker populations' needs and wishes with respect to NLP tools are largely unknown. In this paper, we focus on dialects and regional languages related to German -- a group of varieties that is heterogeneous in terms of prestige and standardization. We survey speakers of these varieties (N=327) and present their opinions on hypothetical language technologies for their dialects. Although attitudes vary among subgroups of our respondents, we find that respondents are especially in favour of potential NLP tools that work with dialectal input (especially audio input) such as virtual assistants, and less so for applications that produce dialectal output such as machine translation or spellcheckers.
翻訳日:2024-02-20 17:28:59 公開日:2024-02-19
# 回帰データセットの不均衡

Imbalance in Regression Datasets ( http://arxiv.org/abs/2402.11963v1 )

ライセンス: Link先を確認
Daniel Kowatsch, Nicolas M. M\"uller, Kilian Tscharke, Philip Sperl, Konstantin B\"otinger(参考訳) 分類に関して、クラス不均衡の問題はよく知られており、広く研究されている。 本稿では,データセットのターゲット分布の過度な表現と過度な表現のため,回帰器はネーティブなモデルに縮退する傾向にあり,非日常的なトレーニングデータやトレーニング中に頻繁に見られる過度なターゲットを体系的に無視する傾向にある。 我々は、この問題を理論的に分析し、結果の洞察を用いて回帰における不均衡の最初の定義を開発し、これは分類において一般的に用いられる不均衡尺度の一般化であることを示す。 これにより、不均衡という見落とされがちな問題に注目を向け、今後の研究に共通基盤を提供したいと思っています。

For classification, the problem of class imbalance is well known and has been extensively studied. In this paper, we argue that imbalance in regression is an equally important problem which has so far been overlooked: Due to under- and over-representations in a data set's target distribution, regressors are prone to degenerate to naive models, systematically neglecting uncommon training data and over-representing targets seen often during training. We analyse this problem theoretically and use resulting insights to develop a first definition of imbalance in regression, which we show to be a generalisation of the commonly employed imbalance measure in classification. With this, we hope to turn the spotlight on the overlooked problem of imbalance in regression and to provide common ground for future research.
翻訳日:2024-02-20 17:28:47 公開日:2024-02-19
# DB-LLM:効率の良いLLMのための高精度デュアルバイナライゼーション

DB-LLM: Accurate Dual-Binarization for Efficient LLMs ( http://arxiv.org/abs/2402.11960v1 )

ライセンス: Link先を確認
Hong Chen, Chengtao Lv, Liang Ding, Haotong Qin, Xiabin Zhou, Yifu Ding, Xuebo Liu, Min Zhang, Jinyang Guo, Xianglong Liu, Dacheng Tao(参考訳) 大規模言語モデル (LLM) は自然言語処理の分野を著しく進歩させ、高価なメモリと計算消費は実際の展開を妨げる。 量子化はLLMの計算効率を改善する最も効果的な方法の1つである。 しかし、既存の超低ビット量子化は常に厳しい精度低下を引き起こす。 本稿では,超低ビット量子化のマイクロおよびマクロ特性を実証的に緩和し,新しいデュアルバイナライズ法であるDB-LLMを提案する。 マイクロレベルでは、2ビット幅の精度の利点と2値化の効率の利点を考慮に入れ、フレキシブルデュアルバイナリ化(FDB)を導入する。 2ビットの量子化重みを2つの独立したバイナリに分割することにより、FDBは表現の精度を保証し、超低ビット量子化の固有の高間隔を維持しつつ、二項化の効率的なビットワイズ演算を利用する柔軟性を導入する。 マクロレベルでは、標本のあいまいさに関連する偏差として特定される量子化後のLSMの予測に存在する歪みが分かる。 そこで本研究では, モデルが異なる試料に焦点を合わせ, 脱離認識蒸留 (dad) 法を提案する。 包括的実験により,我々のdb-llmは,超低ビット量子化における現在のsota(state-of-the-art)を大幅に上回るだけでなく,同じビット幅のsota法と比較して計算消費電力がさらに20%減少することを示した。 私たちのコードはまもなくリリースされます。

Large language models (LLMs) have significantly advanced the field of natural language processing, while the expensive memory and computation consumption impede their practical deployment. Quantization emerges as one of the most effective methods for improving the computational efficiency of LLMs. However, existing ultra-low-bit quantization always causes severe accuracy drops. In this paper, we empirically relieve the micro and macro characteristics of ultra-low bit quantization and present a novel Dual-Binarization method for LLMs, namely DB-LLM. For the micro-level, we take both the accuracy advantage of 2-bit-width and the efficiency advantage of binarization into account, introducing Flexible Dual Binarization (FDB). By splitting 2-bit quantized weights into two independent sets of binaries, FDB ensures the accuracy of representations and introduces flexibility, utilizing the efficient bitwise operations of binarization while retaining the inherent high sparsity of ultra-low bit quantization. For the macro-level, we find the distortion that exists in the prediction of LLM after quantization, which is specified as the deviations related to the ambiguity of samples. We propose the Deviation-Aware Distillation (DAD) method, enabling the model to focus differently on various samples. Comprehensive experiments show that our DB-LLM not only significantly surpasses the current State-of-The-Art (SoTA) in ultra-low bit quantization (eg, perplexity decreased from 9.64 to 7.23), but also achieves an additional 20\% reduction in computational consumption compared to the SOTA method under the same bit-width. Our code will be released soon.
翻訳日:2024-02-20 17:28:33 公開日:2024-02-19
# LLMを用いたメンタルヘルスカウンセリングの自動評価

Automatic Evaluation for Mental Health Counseling using LLMs ( http://arxiv.org/abs/2402.11958v1 )

ライセンス: Link先を確認
Anqi Li, Yu Lu, Nirui Song, Shuai Zhang, Lizhi Ma, Zhenzhong Lan(参考訳) 高品質な心理カウンセリングは世界中のメンタルヘルスにとって不可欠であり、タイムリーな評価はその効果を確実にするために不可欠である。 しかし、各カウンセリングセッションの専門的評価を得ることは高価で困難である。 自己または第三者のマニュアルレポートに頼ってカウンセリングの質を評価する既存の方法は、主観的バイアスと時間の制限に悩まされている。 以上の課題に対処するために,大規模言語モデル(LLM)を用いてカウンセリング会話における作業アライアンスを評価する,革新的で効率的な自動アプローチを提案する。 包括的カウンセリングデータセットを収集し,治療関係理論に基づく複数の第三者評価を行った。 我々のLCMに基づく評価とガイドラインは、人間の評価と高い一致を示し、カウンセリングスクリプトに関する貴重な洞察を提供する。 このことは、精神療法士の監督ツールとしてのLLMの可能性を強調している。 評価プロセスにllmを統合することにより,カウンセリング品質を評価するための費用対効果と信頼性が向上し,総合的効果が向上する。

High-quality psychological counseling is crucial for mental health worldwide, and timely evaluation is vital for ensuring its effectiveness. However, obtaining professional evaluation for each counseling session is expensive and challenging. Existing methods that rely on self or third-party manual reports to assess the quality of counseling suffer from subjective biases and limitations of time-consuming. To address above challenges, this paper proposes an innovative and efficient automatic approach using large language models (LLMs) to evaluate the working alliance in counseling conversations. We collected a comprehensive counseling dataset and conducted multiple third-party evaluations based on therapeutic relationship theory. Our LLM-based evaluation, combined with our guidelines, shows high agreement with human evaluations and provides valuable insights into counseling scripts. This highlights the potential of LLMs as supervisory tools for psychotherapists. By integrating LLMs into the evaluation process, our approach offers a cost-effective and dependable means of assessing counseling quality, enhancing overall effectiveness.
翻訳日:2024-02-20 17:28:02 公開日:2024-02-19
# イベントベースモーション拡大

Event-Based Motion Magnification ( http://arxiv.org/abs/2402.11957v1 )

ライセンス: Link先を確認
Yutian Chen, Shi Guo, Fangzheng Yu, Feng Zhang, Jinwei Gu and Tianfan Xue(参考訳) 実世界のシナリオにおける知覚不能な高周波運動の検出と拡大は、産業および医療応用に重大な影響を及ぼす。 これらの動きは小さな振幅と高い周波数で特徴づけられる。 従来の動き倍率法は高価な高速カメラや能動光源に依存しており、適用範囲を制限している。 本研究では,イベントストリームからの時間密度情報とRGB画像からの空間密度データを含む,イベントカメラと従来のRGBカメラからなるデュアルカメラシステムを提案する。 この革新的な組み合わせは、広範かつ費用対効果の高い高周波運動の増幅を可能にする。 物理カメラモデルの再検討により,動き方向と大きさの推定は,イベントストリームと追加画像特徴の統合を必要とすることがわかった。 On this basis, we propose a novel deep network for event-based video motion magnification that addresses two primary challenges: firstly, the high frequency of motion induces a large number of interpolated frames (up to 80), which our network mitigates with a Second-order Recurrent Propagation module for better handling of long-term frame interpolations; and secondly, magnifying subtle motions is sensitive to noise, which we address by utilizing a temporal filter to amplify motion at specific frequencies and reduce noise impact. 我々は、小型で高周波な動きを拡大する広範囲な実験を通じて、我々のデュアルカメラシステムとネットワークの有効性と精度を実証し、動き検出と倍率化のためのコスト効率と柔軟なソリューションを提供する。

Detecting and magnifying imperceptible high-frequency motions in real-world scenarios has substantial implications for industrial and medical applications. These motions are characterized by small amplitudes and high frequencies. Traditional motion magnification methods rely on costly high-speed cameras or active light sources, which limit the scope of their applications. In this work, we propose a dual-camera system consisting of an event camera and a conventional RGB camera for video motion magnification, containing temporally-dense information from the event stream and spatially-dense data from the RGB images. This innovative combination enables a broad and cost-effective amplification of high-frequency motions. By revisiting the physical camera model, we observe that estimating motion direction and magnitude necessitates the integration of event streams with additional image features. On this basis, we propose a novel deep network for event-based video motion magnification that addresses two primary challenges: firstly, the high frequency of motion induces a large number of interpolated frames (up to 80), which our network mitigates with a Second-order Recurrent Propagation module for better handling of long-term frame interpolations; and secondly, magnifying subtle motions is sensitive to noise, which we address by utilizing a temporal filter to amplify motion at specific frequencies and reduce noise impact. We demonstrate the effectiveness and accuracy of our dual-camera system and network through extensive experiments in magnifying small-amplitude, high-frequency motions, offering a cost-effective and flexible solution for motion detection and magnification.
翻訳日:2024-02-20 17:27:45 公開日:2024-02-19
# サリエンスアロケーションを用いた多領域抽象要約の解析

Analysis of Multidomain Abstractive Summarization Using Salience Allocation ( http://arxiv.org/abs/2402.11955v1 )

ライセンス: Link先を確認
Tohida Rehman, Raghubir Bose, Soumik Dey, Samiran Chattopadhyay(参考訳) 本稿では,サリエンス割り当て技術を活用した要約モデルであるSEASON(Salience Allocation as Guidance for Abstractive SummarizatiON)のレンズによる抽象テキスト要約の領域について検討する。 この研究は、SEASONの有効性を、BART、PEGASUS、ProphetNetなどの著名なモデルと比較することで評価する。 この評価は、cnn/dailymail、samsum、financial-newsベースのイベント駆動トレーディング(edt)を含む多様なデータセットを使用して行われ、特に2020/03/01から2021/05/06までの大量のニュース記事を含む金融データセットに焦点を当てている。 本稿では, rouge, meteor, bertscore, moverscoreなどの様々な評価指標を用いて, 要約生成のための微調整モデルの性能評価を行った。 これらのメトリクスの分析は、ニュースデータセット、対話データセット、金融テキストデータセットを要約する各モデルによって示される強みと弱みに関する詳細な洞察を提供する。 本論文は,SEASONモデルの有効性評価に寄与するだけでなく,様々な種類のデータセットを対象としたサリエンス割り当て手法の複雑化にも寄与する。

This paper explores the realm of abstractive text summarization through the lens of the SEASON (Salience Allocation as Guidance for Abstractive SummarizatiON) technique, a model designed to enhance summarization by leveraging salience allocation techniques. The study evaluates SEASON's efficacy by comparing it with prominent models like BART, PEGASUS, and ProphetNet, all fine-tuned for various text summarization tasks. The assessment is conducted using diverse datasets including CNN/Dailymail, SAMSum, and Financial-news based Event-Driven Trading (EDT), with a specific focus on a financial dataset containing a substantial volume of news articles from 2020/03/01 to 2021/05/06. This paper employs various evaluation metrics such as ROUGE, METEOR, BERTScore, and MoverScore to evaluate the performance of these models fine-tuned for generating abstractive summaries. The analysis of these metrics offers a thorough insight into the strengths and weaknesses demonstrated by each model in summarizing news dataset, dialogue dataset and financial text dataset. The results presented in this paper not only contribute to the evaluation of the SEASON model's effectiveness but also illuminate the intricacies of salience allocation techniques across various types of datasets.
翻訳日:2024-02-20 17:27:23 公開日:2024-02-19
# Invisibleのステアリング: 逆例とタイミングサイドチェンネルによる事前学習CNNモデルの展開

Stealing the Invisible: Unveiling Pre-Trained CNN Models through Adversarial Examples and Timing Side-Channels ( http://arxiv.org/abs/2402.11953v1 )

ライセンス: Link先を確認
Shubhi Shukla, Manaar Alam, Pabitra Mitra, Debdeep Mukhopadhyay(参考訳) 機械学習はその無数の応用によって、多くの技術システムの不可欠な要素となっている。 このドメインにおける一般的なプラクティスは、事前学習されたモデルのアーキテクチャが、特定のタスクに適合するように微調整される、転送学習(transfer learning)の使用である。 マシンラーニング・アズ・ア・サービス(MLaaS)プラットフォームは、バックエンドでトレーニング済みのモデルをますます活用しているため、これらのアーキテクチャを保護し、脆弱性を理解することが重要です。 そこで本研究では,逆境画像の分類パターンを,モデルを盗む手段として用いることができるという観察に基づくアプローチを提案する。 さらに、逆画像分類とタイミング側チャネルとの併用により、モデルステルス法が実現可能である。 我々のアプローチは、リモートMLaaS環境における典型的なユーザーレベルアクセスのために設計されており、様々なモデルにわたる敵画像の様々な誤分類を利用して、いくつかの有名な畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)アーキテクチャを指紋化する。 リモートモデル推論時間のプロファイリングを利用して、必要な敵画像の削減と、必要なクエリ数の減少を行う。 我々は,cifar-10データセットを用いた27種類のcnnおよびvitアーキテクチャを事前学習したモデルを提示し,クエリ予算を20未満に保ちながら,88.8%の精度を示す。

Machine learning, with its myriad applications, has become an integral component of numerous technological systems. A common practice in this domain is the use of transfer learning, where a pre-trained model's architecture, readily available to the public, is fine-tuned to suit specific tasks. As Machine Learning as a Service (MLaaS) platforms increasingly use pre-trained models in their backends, it's crucial to safeguard these architectures and understand their vulnerabilities. In this work, we present an approach based on the observation that the classification patterns of adversarial images can be used as a means to steal the models. Furthermore, the adversarial image classifications in conjunction with timing side channels can lead to a model stealing method. Our approach, designed for typical user-level access in remote MLaaS environments exploits varying misclassifications of adversarial images across different models to fingerprint several renowned Convolutional Neural Network (CNN) and Vision Transformer (ViT) architectures. We utilize the profiling of remote model inference times to reduce the necessary adversarial images, subsequently decreasing the number of queries required. We have presented our results over 27 pre-trained models of different CNN and ViT architectures using CIFAR-10 dataset and demonstrate a high accuracy of 88.8% while keeping the query budget under 20.
翻訳日:2024-02-20 17:26:58 公開日:2024-02-19
# トランスフォーマーと組み合わされた新規なVAE分子生成モデル

A novel molecule generative model of VAE combined with Transformer ( http://arxiv.org/abs/2402.11950v1 )

ライセンス: Link先を確認
Yasuhiro Yoshikai, Tadahaya Mizuno, Shumpei Nemoto, Hiroyuki Kusuhara(参考訳) 近年,深層学習を用いた分子生成が積極的に研究されている。 この分野では、TransformerとVAEは強力なモデルとして広く使われているが、構造的および性能的ミスマッチのために組み合わせて使われることは稀である。 本研究では, この2つのモデルを組み合わせて, 多様な分子の処理における構造とパラメータの最適化を行うモデルを提案する。 提案手法は分子生成における既存モデルと同等の性能を示し, 未知構造を持つ分子の生成において極めて優れた性能を示した。 さらに,VAEの潜在表現を用いた分子特性の予測にも成功している。 アブレーション研究は、新しい分子の生成における言語モデルのような他の生成モデルに対するvaeの利点を示唆し、分子は既存の記述子やモデルよりもはるかに小さい32次元変数で記述できることを示した。 本研究は, 仮想スクリーニングのための多種多様な化合物を含む仮想化学ライブラリーを提供することが期待されている。

Recently, molecule generation using deep learning has been actively investigated in drug discovery. In this field, Transformer and VAE are widely used as powerful models, but they are rarely used in combination due to structural and performance mismatch of them. This study proposes a model that combines these two models through structural and parameter optimization in handling diverse molecules. The proposed model shows comparable performance to existing models in generating molecules, and showed by far superior performance in generating molecules with unseen structures. In addition, the proposed model successfully predicted molecular properties using the latent representation of VAE. Ablation studies suggested the advantage of VAE over other generative models like language model in generating novel molecules, and that the molecules can be described by ~32 dimensional variables, much smaller than existing descriptors and models. This study is expected to provide a virtual chemical library containing a wide variety of compounds for virtual screening and to enable efficient screening.
翻訳日:2024-02-20 17:26:33 公開日:2024-02-19
# Mini-Hes: 並列化可能な2次潜在因子分析モデル

Mini-Hes: A Parallelizable Second-order Latent Factor Analysis Model ( http://arxiv.org/abs/2402.11948v1 )

ライセンス: Link先を確認
Jialiang Wang, Weiling Li, Yurong Zhong, Xin Luo(参考訳) 多数のエンティティ間の相互作用は、多くのビッグデータ関連タスクにおいて自然に高次元かつ不完全である。 ユーザの行動特性はこれらの相互作用に隠されているため,HDIデータの効果的な表現はユーザの行動を理解するための基本的な課題である。 潜在因子分析(LFA)モデルはHDIデータの表現に有効であることが証明されている。 LFAモデルの性能は、非凸最適化であるトレーニングプロセスに大きく依存している。 学習過程中に局所曲率と前処理勾配を組み込むことで,一階法で構築したLFAモデルよりも優れた性能が得られることが証明されている。 しかし、データ量の増加に伴い、二階アルゴリズムの実現可能性には困難が伴う。 そこで本研究では,LFAモデル構築のための最小ブロック対角ヘシアンフリー(Mini-Hes)最適化を提案する。 一般化されたガウス・ニュートン行列の主対角ブロックを LFA モデルのヘッセン行列の解析に基づいて利用し、一階最適化と二階最適化のギャップを埋める中間戦略として機能する。 実験結果から,Mini-Hesでは,レコメンダシステムからの複数の実HDIデータセットの欠落したデータ推定タスクに対処する上で,LFAモデルはいくつかの最先端モデルよりも優れていた。 (Mini-Hesのソースコードはhttps://github.com/Goallow/Mini-Hes)。

Interactions among large number of entities is naturally high-dimensional and incomplete (HDI) in many big data related tasks. Behavioral characteristics of users are hidden in these interactions, hence, effective representation of the HDI data is a fundamental task for understanding user behaviors. Latent factor analysis (LFA) model has proven to be effective in representing HDI data. The performance of an LFA model relies heavily on its training process, which is a non-convex optimization. It has been proven that incorporating local curvature and preprocessing gradients during its training process can lead to superior performance compared to LFA models built with first-order family methods. However, with the escalation of data volume, the feasibility of second-order algorithms encounters challenges. To address this pivotal issue, this paper proposes a mini-block diagonal hessian-free (Mini-Hes) optimization for building an LFA model. It leverages the dominant diagonal blocks in the generalized Gauss-Newton matrix based on the analysis of the Hessian matrix of LFA model and serves as an intermediary strategy bridging the gap between first-order and second-order optimization methods. Experiment results indicate that, with Mini-Hes, the LFA model outperforms several state-of-the-art models in addressing missing data estimation task on multiple real HDI datasets from recommender system. (The source code of Mini-Hes is available at https://github.com/Goallow/Mini-Hes)
翻訳日:2024-02-20 17:26:16 公開日:2024-02-19
# 調和振動子モデルによる超強光-物質相互作用の記述とキャビティQEDハミルトニアンとの関係

Description of ultrastrong light-matter interaction through coupled harmonic oscillator models and their connection with cavity-QED Hamiltonians ( http://arxiv.org/abs/2402.11944v1 )

ライセンス: Link先を確認
Unai Muniain, Javier Aizpurua, Rainer Hillenbrand, Luis Mart\'in-Moreno and Ruben Esteban(参考訳) 古典結合調和振動子モデルは、光モードが分子または物質励起と結合する多くのナノフォトニクス系のスペクトルをうまく記述できることが証明されている。 異なる結合項を持つモデルが提案されているが、弱いカップリングレジームと強いカップリングレジームの類似した結果のために相互に使用される。 しかし、超強結合系では、各振動子モデルは全く異なる予測を導く。 さらに、各系で適切に測定可能な量を再現するために、これらのモデルのそれぞれの調和振動子にどの物理大きさが関係しているかを決定することが重要である。 与えられた実験にどの古典的モデルを使う必要があるかを明らかにするため、空洞量子電磁力学に基づくこれらのシステムの量子記述と接続を確立する。 古典的カップリング項の適切な選択は、量子モデルにおける反磁性項の存在の有無と、カップリングに関与する電磁モードが横方向か縦方向かに依存することを示す。 量子モデルとの比較により、システムのハイブリッドモードの計測可能な情報を抽出するために、振動子モデルにおける量子演算子と古典変数の対応付けが可能になる。

Classical coupled harmonic oscillator models have been proven capable to describe successfully the spectra of many nanophotonic systems where an optical mode couples to a molecular or matter excitation. Although models with distinct coupling terms have been proposed, they are used interchangeably due to their similar results in the weak and strong coupling regimes. However, in the ultrastrong coupling regime, each oscillator model leads to very different predictions. Further, it is important to determine which physical magnitude is associated to each harmonic oscillator of these models in order to reproduce appropriately experimentally measurable quantities in each system. To clarify which classical model must be used for a given experiment, we establish a connection with the quantum description of these systems based on cavity quantum electrodynamics. We show that the proper choice of the classical coupling term depends on the presence or absence of the diamagnetic term in the quantum models and on whether the electromagnetic modes involved in the coupling are transverse or longitudinal. The comparison with quantum models further enables to make the correspondence between quantum operators and classical variables in the oscillator models, in order to extract measurable information of the hybrid modes of the system.
翻訳日:2024-02-20 17:25:52 公開日:2024-02-19
# LEMMA:外部知識強化によるLVLM強化マルチモーダル誤情報検出に向けて

LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation ( http://arxiv.org/abs/2402.11943v1 )

ライセンス: Link先を確認
Keyang Xuan, Li Yi, Fan Yang, Ruochen Wu, Yi R. Fung, Heng Ji(参考訳) 社会プラットフォーム上でのマルチモーダルな誤情報の増加は、個人や社会にとって大きな課題となっている。 信頼度が高まり、文章的誤情報よりも幅広い影響が検出を複雑にし、様々なメディアタイプにまたがる強固な推論と正確な検証のための深い知識を必要とする。 LVLM(Large Vision Language Model)の出現は、この問題に対する潜在的な解決策を提供する。 LVLMは、視覚情報やテキスト情報を処理する能力を活用し、複雑な情報を認識し、強力な推論スキルを示す有望な能力を示す。 本稿では,マルチモーダル誤情報検出におけるLVLMの可能性について検討する。 LVLM は LLM よりも優れた性能を示すが、その深い推論は証拠の欠如とともに限られたパワーを示す可能性がある。 これらの観測結果に基づき,LVLMによる外部知識増強によるマルチモーダル誤報検出手法を提案する。 LEMMAは、LVLMの直観と推論能力を活用し、それらを外部知識で強化し、誤情報検出の精度を高める。 本手法は,twitter と fakeddit のデータセットにおいて,上位ベースライン lvlm の精度をそれぞれ7%,13%向上させる。

The rise of multimodal misinformation on social platforms poses significant challenges for individuals and societies. Its increased credibility and broader impact compared to textual misinformation make detection complex, requiring robust reasoning across diverse media types and profound knowledge for accurate verification. The emergence of Large Vision Language Model (LVLM) offers a potential solution to this problem. Leveraging their proficiency in processing visual and textual information, LVLM demonstrates promising capabilities in recognizing complex information and exhibiting strong reasoning skills. In this paper, we first investigate the potential of LVLM on multimodal misinformation detection. We find that even though LVLM has a superior performance compared to LLMs, its profound reasoning may present limited power with a lack of evidence. Based on these observations, we propose LEMMA: LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation. LEMMA leverages LVLM intuition and reasoning capabilities while augmenting them with external knowledge to enhance the accuracy of misinformation detection. Our method improves the accuracy over the top baseline LVLM by 7% and 13% on Twitter and Fakeddit datasets respectively.
翻訳日:2024-02-20 17:25:33 公開日:2024-02-19
# 過パラメータネットワークのトレーニングと一般化におけるLeaky ReLUsの効果

The effect of Leaky ReLUs on the training and generalization of overparameterized networks ( http://arxiv.org/abs/2402.11942v1 )

ライセンス: Link先を確認
Yinglong Guo, Shaohan Li, Gilad Lerman(参考訳) 本稿では,オーバーパラメータ付きニューラルネットワーク(nns)の学習と一般化誤差について,リーク正規化線形単位(relu)関数を用いた検討を行う。 具体的には、トレーニングエラーの収束率とこれらのNNの一般化誤差の両方を慎重に上限付けし、Leaky ReLU パラメータ $\alpha$ に対するこれらの境界の依存性を調べる。 絶対値活性化関数に対応する$\alpha =-1$は、トレーニングエラー境界に対して最適であることを示す。 さらに、特別な設定では、一般化誤差境界にも最適である。 数値実験は、理論によって導かれる実践的な選択を実証的に支持する。

We investigate the training and generalization errors of overparameterized neural networks (NNs) with a wide class of leaky rectified linear unit (ReLU) functions. More specifically, we carefully upper bound both the convergence rate of the training error and the generalization error of such NNs and investigate the dependence of these bounds on the Leaky ReLU parameter, $\alpha$. We show that $\alpha =-1$, which corresponds to the absolute value activation function, is optimal for the training error bound. Furthermore, in special settings, it is also optimal for the generalization error bound. Numerical experiments empirically support the practical choices guided by the theory.
翻訳日:2024-02-20 17:25:15 公開日:2024-02-19
# スマートフォンGUI自動化のための総合認知LDMエージェント

Comprehensive Cognitive LLM Agent for Smartphone GUI Automation ( http://arxiv.org/abs/2402.11941v1 )

ライセンス: Link先を確認
Xinbei Ma, Zhuosheng Zhang, Hai Zhao(参考訳) 大規模言語モデル(llm)は、人間のような自律型言語エージェントが現実世界の環境、特にgui(graphical user interface)自動化と相互作用する、驚くべき可能性を示している。 しかし、これらのGUIエージェントは、徹底的な知覚や信頼できる行動応答を含む包括的な認知能力を必要とする。 我々は,gui自動化性能を体系的に向上させるために,cep(comprehensive environment perception)とcap(conditional action prediction)という2つの新しいアプローチを用いて,ココエージェント (co-agent) を提案する。 まず、CEPは、視覚チャネルのスクリーンショットや補完的な詳細なレイアウト、テキストチャネルの歴史的アクションなど、異なる側面と粒度のGUI知覚を促進する。 第2に、CAPはアクション予測をサブプロブレムに分解する:アクションタイプの予測とアクションタイプの条件付きアクションターゲットである。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。

Large language models (LLMs) have shown remarkable potential as human-like autonomous language agents to interact with real-world environments, especially for graphical user interface (GUI) automation. However, those GUI agents require comprehensive cognition ability including exhaustive perception and reliable action response. We propose \underline{Co}mprehensive \underline{Co}gnitive LLM \underline{Agent}, CoCo-Agent, with two novel approaches, comprehensive environment perception (CEP) and conditional action prediction (CAP), to systematically improve the GUI automation performance. First, CEP facilitates the GUI perception through different aspects and granularity, including screenshots and complementary detailed layouts for the visual channel and historical actions for the textual channel. Second, CAP decomposes the action prediction into sub-problems: action type prediction and action target conditioned on the action type. With our technical design, our agent achieves new state-of-the-art performance on AITW and META-GUI benchmarks, showing promising abilities in realistic scenarios.
翻訳日:2024-02-20 17:25:05 公開日:2024-02-19
# ジャンルと話題特性に基づく選択的マスキングによる専門分野への言語モデル適応

Language Model Adaptation to Specialized Domains through Selective Masking based on Genre and Topical Characteristics ( http://arxiv.org/abs/2402.12036v1 )

ライセンス: Link先を確認
Anas Belfathi, Ygor Gallina, Nicolas Hernandez, Richard Dufour, Laura Monceaux(参考訳) 事前学習された言語モデリングの最近の進歩は、様々な自然言語処理(NLP)タスクにおいて大きな進歩をもたらした。 モデルトレーニング中のワードマスキングは、BERTのようなアーキテクチャにおける言語モデリングの重要な要素である。 しかし、単語マスキングの一般的な方法はランダムな選択に依存し、ドメイン固有の言語属性を無視する可能性がある。 本稿では、ジャンルや話題情報を活用した革新的なマスキング手法を導入し、言語モデルを専門ドメインにカスタマイズする。 本手法では,その重要度に基づいて単語を優先順位付けし,マスキング手順の指導を行う。 法域内での継続事前学習を用いて行った実験は、英語のLegalGLUEベンチマークにおけるアプローチの有効性を裏付けている。 事前訓練された言語モデルとコードは無料で利用できる。

Recent advances in pre-trained language modeling have facilitated significant progress across various natural language processing (NLP) tasks. Word masking during model training constitutes a pivotal component of language modeling in architectures like BERT. However, the prevalent method of word masking relies on random selection, potentially disregarding domain-specific linguistic attributes. In this article, we introduce an innovative masking approach leveraging genre and topicality information to tailor language models to specialized domains. Our method incorporates a ranking process that prioritizes words based on their significance, subsequently guiding the masking procedure. Experiments conducted using continual pre-training within the legal domain have underscored the efficacy of our approach on the LegalGLUE benchmark in the English language. Pre-trained language models and code are freely available for use.
翻訳日:2024-02-20 17:19:03 公開日:2024-02-19
# 異種スマートターゲット追跡のためのsarsaとq-learningに基づく索引ポリシー

An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart Target Tracking ( http://arxiv.org/abs/2402.12015v1 )

ライセンス: Link先を確認
Yuhang Hao and Zengfu Wang and Jing Fu and Quan Pan(参考訳) 能動型・受動型レーダネットワーク内における複数のスマートターゲット追跡のための非明視的レーダスケジューリングの解決には,短期的な追跡性能と将来的な目標追従の可能性の両方を考慮する必要がある。 アクティブレーダと受動レーダのビームリソースをスケジューリングしながら、長期追跡性能を取得することは、課題となる。 この課題に対処するため、我々はこの問題を並列restless banditプロセスからなるマルコフ決定プロセスとしてモデル化する。 各バンディットプロセスはスマートターゲットに関連付けられ、ターゲットが追跡されているか否かの異なるアクションに対する異なる離散的動的モデルに従って推定状態が進化する。 離散状態は動的モードによって定義される。 この問題は、最適解が一般に難解であるような次元性の呪いを示す。 我々は、有名なrestless multi-armed bandit技術を通じてヒューリスティックスに頼る。 これは、異なるアクションをとる際の限界報酬を表す実数である指標に基づく効率的なスケジューリングポリシーに従う。 未知遷移行列の必然的な実例に対して,状態動作値関数や等価なq関数を適応させることで,前方sarsaと後方q-learningを用いてインデックスを近似する新しい手法を提案し,長期追跡報酬を最大化するための新しい方針isqを提案する。 数値的な結果から,提案手法は従来のQ-ラーニング手法よりも優れており,そのベンチマークである状態遷移モデルを用いて,よく知られたWhittleインデックスポリシーに迅速に収束することが示された。

In solving the non-myopic radar scheduling for multiple smart target tracking within an active and passive radar network, we need to consider both short-term enhanced tracking performance and a higher probability of target maneuvering in the future with active tracking. Acquiring the long-term tracking performance while scheduling the beam resources of active and passive radars poses a challenge. To address this challenge, we model this problem as a Markov decision process consisting of parallel restless bandit processes. Each bandit process is associated with a smart target, of which the estimation state evolves according to different discrete dynamic models for different actions - whether or not the target is being tracked. The discrete state is defined by the dynamic mode. The problem exhibits the curse of dimensionality, where optimal solutions are in general intractable. We resort to heuristics through the famous restless multi-armed bandit techniques. It follows with efficient scheduling policies based on the indices that are real numbers representing the marginal rewards of taking different actions. For the inevitable practical case with unknown transition matrices, we propose a new method that utilizes the forward Sarsa and backward Q-learning to approximate the indices through adapting the state-action value functions, or equivalently the Q-functions, and propose a new policy, namely ISQ, aiming to maximize the long-term tracking rewards. Numerical results demonstrate that the proposed ISQ policy outperforms conventional Q-learning-based methods and rapidly converges to the well-known Whittle index policy with revealed state transition models, which is considered the benchmark.
翻訳日:2024-02-20 17:18:51 公開日:2024-02-19
# 語彙意味変化のための文脈付き単語埋め込みの体系的比較

A Systematic Comparison of Contextualized Word Embeddings for Lexical Semantic Change ( http://arxiv.org/abs/2402.12011v1 )

ライセンス: Link先を確認
Francesco Periti, Nina Tahmasebi(参考訳) 文脈的埋め込みは、Lexical Semantic Change (LSC) をモデリングするための好ましいツールである。 現在の評価は通常、グレード・チェンジ検出(GCD)と呼ばれる特定のタスクに焦点を当てている。 しかしながら、作業間のパフォーマンス比較は、さまざまな設定に依存するため、しばしば誤解を招く。 本稿では,同じ条件下でGCDの最先端モデルとアプローチを評価する。 さらに、LCC問題をWord-in-Context(WiC)とWord Sense Injection(WSI)タスクに分解し、これらの異なるレベルのモデルと比較する。 LSCのための8つのベンチマークで、異なる言語で評価を行い、その結果を示した。 (i)PDはGCDの他のアプローチより優れている。 (ii)XL-LEXEMEは、GPT-4と同等でありながら、WiC、WSI、GCDの他の文脈モデルよりも優れている。 (iii)意味変化の程度にのみ焦点をあてるのではなく、単語の意味のモデリングを改善し、どのように、いつ、そしてなぜその意味が変わるかに焦点を合わせる必要がある。

Contextualized embeddings are the preferred tool for modeling Lexical Semantic Change (LSC). Current evaluations typically focus on a specific task known as Graded Change Detection (GCD). However, performance comparison across work are often misleading due to their reliance on diverse settings. In this paper, we evaluate state-of-the-art models and approaches for GCD under equal conditions. We further break the LSC problem into Word-in-Context (WiC) and Word Sense Induction (WSI) tasks, and compare models across these different levels. Our evaluation is performed across different languages on eight available benchmarks for LSC, and shows that (i) APD outperforms other approaches for GCD; (ii) XL-LEXEME outperforms other contextualized models for WiC, WSI, and GCD, while being comparable to GPT-4; (iii) there is a clear need for improving the modeling of word meanings, as well as focus on how, when, and why these meanings change, rather than solely focusing on the extent of semantic change.
翻訳日:2024-02-20 17:18:22 公開日:2024-02-19
# エリートサンプルを用いたグリーンAIモデルのトレーニング

Training Green AI Models Using Elite Samples ( http://arxiv.org/abs/2402.12010v1 )

ライセンス: Link先を確認
Mohammed Alswaitti, Roberto Verdecchia, Gr\'egoire Danoy, Pascal Bouvry and Johnatan Pecero(参考訳) AIモデルトレーニングの大幅な増加は、よりエネルギー効率が高く持続可能なAIプラクティスを強制する、環境にかなりの影響を及ぼす。 一方、データ中心のアプローチは、エネルギー効率のよいAIモデルをトレーニングする大きな可能性を示している。 一方、インスタンス選択手法は、最小限のトレーニングセットと無視可能な性能劣化でAIモデルを訓練する能力を示す。 どちらのトピックにも関心が高まっているが、データ中心のトレーニングセットの選択がエネルギー効率に与える影響は未定である。 本稿では進化型サンプリングフレームワークを提案する。 一 データセット及びモデルペアに適したエリートトレーニングサンプルを識別すること。 (ii)典型的な模型訓練実践に対する模型性能とエネルギー効率の向上の比較 (iii)持続可能なモデル訓練の実践を育むための枠組みの実現可能性を検討する。 提案フレームワークを評価するために,8つの一般的なai分類モデルと25の公開データセットを含む実証実験を行った。 その結果、10%のエリートトレーニングサンプルを考慮すると、モデルの性能は50%向上し、一般的なトレーニング実践と比較して98%の省エネ効果が得られた。

The substantial increase in AI model training has considerable environmental implications, mandating more energy-efficient and sustainable AI practices. On the one hand, data-centric approaches show great potential towards training energy-efficient AI models. On the other hand, instance selection methods demonstrate the capability of training AI models with minimised training sets and negligible performance degradation. Despite the growing interest in both topics, the impact of data-centric training set selection on energy efficiency remains to date unexplored. This paper presents an evolutionary-based sampling framework aimed at (i) identifying elite training samples tailored for datasets and model pairs, (ii) comparing model performance and energy efficiency gains against typical model training practice, and (iii) investigating the feasibility of this framework for fostering sustainable model training practices. To evaluate the proposed framework, we conducted an empirical experiment including 8 commonly used AI classification models and 25 publicly available datasets. The results showcase that by considering 10% elite training samples, the models' performance can show a 50% improvement and remarkable energy savings of 98% compared to the common training practice.
翻訳日:2024-02-20 17:18:04 公開日:2024-02-19
# 不適切な特徴に対するクラスター量感度

Cluster Metric Sensitivity to Irrelevant Features ( http://arxiv.org/abs/2402.12008v1 )

ライセンス: Link先を確認
Miles McCrory and Spencer A. Thomas(参考訳) クラスタリングアルゴリズムは、データ探索と発見のためのデータ分析に広く使われている。 技術進歩は、体積、次元、複雑さの点でデータの継続的な成長につながる。 これにより、さまざまな目的でデータを尋問できるため、データ分析において大きな機会が得られます。 しかし、これは特定のタスクに関連する特徴の特定のような課題を導く。 教師付きタスクでは、タスク目的(例えば分類精度)の入力機能を最適化するために、多くのメソッドを利用することができる。 教師なし問題では、ラベルなしのタスクで特徴の関連性を定量化できないため、そのようなツールは簡単には利用できない。 本稿では,クラスタが明確に定義されたベースラインデータセットに反復的に付加される非相関変数のクラスタリング性能の感度について検討する。 異なる種類の無関係変数が、異なる方法で$k$-meansからクラスタリングの結果にどのように影響するかを示す。 我々は,調整ランド指数 (ari) と正規化相互情報 (nmi) に対する無関係特徴の非常に高い割合に対するレジリエンスを,無関係特徴がガウス分布である場合に観察する。 均一に分布する無関係な特徴に対しては,ari と nmi のレジリエンスがデータの次元に依存することに気付き,ハイスコアとニアゼロの間のチップポイントを示す。 その結果,silhouette係数とdavies-bouldinスコアは,下位分布やデータスケーリングによらず,無関係な特徴の相対的に低い割合でスコアに大きな変化を示す無関係な特徴に最も敏感であることがわかった。 このように、シルエット係数とデイビス・ボーディンスコアは教師なしクラスタリングタスクで特徴選択を最適化する良い候補となる。

Clustering algorithms are used extensively in data analysis for data exploration and discovery. Technological advancements lead to continually growth of data in terms of volume, dimensionality and complexity. This provides great opportunities in data analytics as the data can be interrogated for many different purposes. This however leads challenges, such as identification of relevant features for a given task. In supervised tasks, one can utilise a number of methods to optimise the input features for the task objective (e.g. classification accuracy). In unsupervised problems, such tools are not readily available, in part due to an inability to quantify feature relevance in unlabeled tasks. In this paper, we investigate the sensitivity of clustering performance noisy uncorrelated variables iteratively added to baseline datasets with well defined clusters. We show how different types of irrelevant variables can impact the outcome of a clustering result from $k$-means in different ways. We observe a resilience to very high proportions of irrelevant features for adjusted rand index (ARI) and normalised mutual information (NMI) when the irrelevant features are Gaussian distributed. For Uniformly distributed irrelevant features, we notice the resilience of ARI and NMI is dependent on the dimensionality of the data and exhibits tipping points between high scores and near zero. Our results show that the Silhouette Coefficient and the Davies-Bouldin score are the most sensitive to irrelevant added features exhibiting large changes in score for comparably low proportions of irrelevant features regardless of underlying distribution or data scaling. As such the Silhouette Coefficient and the Davies-Bouldin score are good candidates for optimising feature selection in unsupervised clustering tasks.
翻訳日:2024-02-20 17:17:49 公開日:2024-02-19
# 合成テキスト-画像パーソナライズのための直接一貫性最適化

Direct Consistency Optimization for Compositional Text-to-Image Personalization ( http://arxiv.org/abs/2402.12004v1 )

ライセンス: Link先を確認
Kyungmin Lee, Sangkyung Kwak, Kihyuk Sohn, Jinwoo Shin(参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。 しかし、元の事前学習されたモデルで可能な異なるシナリオやスタイルのイメージを合成することができない。 そこで本研究では,参照画像との整合性を最大化しつつ,事前学習モデルからの偏差を補償し,T2Iモデルを微調整する手法を提案する。 我々は,T2I拡散モデルに対する新たな学習目標を考案し,事前学習したモデルを最小限に微調整して整合性を実現する。 Emph{Direct Consistency Optimization} と呼ばれる手法は、正規拡散損失と同じくらい単純であり、パーソナライズされたT2Iモデルの構成性を著しく向上させる。 また,画像忠実度とプロンプト忠実度とのトレードオフを制御する新しいサンプリング手法を提案する。 最後に,参照画像に包括的キャプションを用いることにより,画像とテキストのアライメントをさらに強化することの必要性を強調した。 提案手法が被験者,スタイル,あるいはその両方に対するT2Iパーソナライズに有効であることを示す。 特に,本手法では,ベースラインに対するparetoフロンティアが優れている。 生成された例とコードはプロジェクトのページにある(https://dco-t2i.github.io/)。

Text-to-image (T2I) diffusion models, when fine-tuned on a few personal images, are able to generate visuals with a high degree of consistency. However, they still lack in synthesizing images of different scenarios or styles that are possible in the original pretrained models. To address this, we propose to fine-tune the T2I model by maximizing consistency to reference images, while penalizing the deviation from the pretrained model. We devise a novel training objective for T2I diffusion models that minimally fine-tunes the pretrained model to achieve consistency. Our method, dubbed \emph{Direct Consistency Optimization}, is as simple as regular diffusion loss, while significantly enhancing the compositionality of personalized T2I models. Also, our approach induces a new sampling method that controls the tradeoff between image fidelity and prompt fidelity. Lastly, we emphasize the necessity of using a comprehensive caption for reference images to further enhance the image-text alignment. We show the efficacy of the proposed method on the T2I personalization for subject, style, or both. In particular, our method results in a superior Pareto frontier to the baselines. Generated examples and codes are in our project page( https://dco-t2i.github.io/).
翻訳日:2024-02-20 17:17:26 公開日:2024-02-19
# 抽出知識グラフ要約に関する調査研究 : 応用,アプローチ,評価,今後の方向性

A Survey on Extractive Knowledge Graph Summarization: Applications, Approaches, Evaluation, and Future Directions ( http://arxiv.org/abs/2402.12001v1 )

ライセンス: Link先を確認
Xiaxia Wang, Gong Cheng(参考訳) 大規模知識グラフ(KG)の連続的な成長に伴い、抽出的KG要約はトレンドとなる。 コンパクトなサブグラフを凝縮した情報で蒸留することを目的として、様々な下流KGベースのタスクを容易にする。 本研究は,本研究の応用を体系的に概説し,既存手法の分類を学際研究から定義した最初の事例である。 今後の方向性は、我々の広範囲かつ比較的なレビューに基づいて策定されます。

With the continuous growth of large Knowledge Graphs (KGs), extractive KG summarization becomes a trending task. Aiming at distilling a compact subgraph with condensed information, it facilitates various downstream KG-based tasks. In this survey paper, we are among the first to provide a systematic overview of its applications and define a taxonomy for existing methods from its interdisciplinary studies. Future directions are also laid out based on our extensive and comparative review.
翻訳日:2024-02-20 17:17:04 公開日:2024-02-19
# その年の出来事を覚えてるか? 大規模言語モデルにおける時間情報と推論の評価

Remember This Event That Year? Assessing Temporal Information and Reasoning in Large Language Models ( http://arxiv.org/abs/2402.11997v1 )

ライセンス: Link先を確認
Himanshu Beniwal, Kowsik Nandagopan D, Mayank Singh(参考訳) 大規模言語モデル(LLM)はますます普及しているが、時間的情報の推論と保持能力は依然として限られている。 これにより、イベントのシーケンシャルな性質を理解することが不可欠である現実世界のシナリオでのアプリケーションの障害となる。 本稿では,新しい大規模時間的データセットである「textbf{TempUN}」の最先端モデルを用いて,時間的保持と推論能力の大幅な制限を明らかにする。 興味深いことに、クローズドソースモデルは知識ギャップをより頻繁に示し、不確実性認識と誤った反応のトレードオフを示唆している。 さらに、様々な微調整アプローチを探索しても大きな性能改善は得られなかった。 関連するデータセットとコードは、以下のURLで利用できる(https://github.com/lingoiitgn/TempUN)。

Large Language Models (LLMs) are increasingly becoming ubiquitous, yet their ability to reason about and retain temporal information remains limited. This hinders their application in real-world scenarios where understanding the sequential nature of events is crucial. This paper experiments with state-of-the-art models on a novel, large-scale temporal dataset, \textbf{TempUN}, to reveal significant limitations in temporal retention and reasoning abilities. Interestingly, closed-source models indicate knowledge gaps more frequently, potentially suggesting a trade-off between uncertainty awareness and incorrect responses. Further, exploring various fine-tuning approaches yielded no major performance improvements. The associated dataset and code are available at the following URL (https://github.com/lingoiitgn/TempUN).
翻訳日:2024-02-20 17:16:54 公開日:2024-02-19
# ISCUTE: テキスト埋め込みを用いたケーブルのインスタンス分割

ISCUTE: Instance Segmentation of Cables Using Text Embedding ( http://arxiv.org/abs/2402.11996v1 )

ライセンス: Link先を確認
Shir Kozlovsky, Omkar Joglekar and Dotan Di Castro(参考訳) ロボット工学と自動化の分野では、電線やケーブル、柔軟なチューブといった変形可能な線形オブジェクト(dlos)を知覚する上で、従来のオブジェクト認識とインスタンスセグメンテーションの方法が大きな課題に直面している。 この課題は、形状、色、テクスチャといった明確な特性の欠如から生じており、正確な識別を達成するために調整された解を求める。 本稿では,テキストプロポータブルでユーザフレンドリーな基礎モデルに基づくdloインスタンスセグメンテーション手法を提案する。 具体的には,CLIPSegモデルのテキスト条件セマンティックセグメンテーション機能とSegment Anything Model (SAM)のゼロショット一般化機能を組み合わせた。 本手法はDLOインスタンスセグメンテーションにおけるSOTA性能を超え,mIoUが91.21\%$であることを示す。 また、サンプルセグメンテーションのためのリッチで多様なDLO特化データセットも導入します。

In the field of robotics and automation, conventional object recognition and instance segmentation methods face a formidable challenge when it comes to perceiving Deformable Linear Objects (DLOs) like wires, cables, and flexible tubes. This challenge arises primarily from the lack of distinct attributes such as shape, color, and texture, which calls for tailored solutions to achieve precise identification. In this work, we propose a foundation model-based DLO instance segmentation technique that is text-promptable and user-friendly. Specifically, our approach combines the text-conditioned semantic segmentation capabilities of CLIPSeg model with the zero-shot generalization capabilities of Segment Anything Model (SAM). We show that our method exceeds SOTA performance on DLO instance segmentation, achieving a mIoU of $91.21\%$. We also introduce a rich and diverse DLO-specific dataset for instance segmentation.
翻訳日:2024-02-20 17:16:42 公開日:2024-02-19
# 二元化ニューラルネットのネットワークインバージョン

Network Inversion of Binarised Neural Nets ( http://arxiv.org/abs/2402.11995v1 )

ライセンス: Link先を確認
Pirzada Suhail, Supratik Chakraborty, Amit Sethi(参考訳) ニューラルネットワークの展開は、印象的な結果をもたらし、様々なアプリケーションでより普及する一方で、その解釈性と理解は依然として重要な課題である。 モデルの学習した内部表現から入力空間を再構築する技術であるネットワークインバージョンは、ニューラルネットワークにおける出力マッピングへの入力のブラックボックスの性質を解き放つ上で重要な役割を果たす。 モデルアウトプットが重要な決定に影響を及ぼす可能性のある安全クリティカルなシナリオでは、対応する入力空間の完全性が最重要であり、ネットワークの信頼性を確保するために不要な"ガーベージ"の排除が必要である。 バイナリ重みとアクティベーションを特徴とするbinarized neural networks(bnns)は、計算効率とメモリ要件の削減を提供し、リソース制約のある環境に適している。 本稿では,学習したBNNをCNF式に符号化し,ネットワークの構造を捉え,推論と逆変換を両立させる手法を提案する。

While the deployment of neural networks, yielding impressive results, becomes more prevalent in various applications, their interpretability and understanding remain a critical challenge. Network inversion, a technique that aims to reconstruct the input space from the model's learned internal representations, plays a pivotal role in unraveling the black-box nature of input to output mappings in neural networks. In safety-critical scenarios, where model outputs may influence pivotal decisions, the integrity of the corresponding input space is paramount, necessitating the elimination of any extraneous "garbage" to ensure the trustworthiness of the network. Binarised Neural Networks (BNNs), characterized by binary weights and activations, offer computational efficiency and reduced memory requirements, making them suitable for resource-constrained environments. This paper introduces a novel approach to invert a trained BNN by encoding it into a CNF formula that captures the network's structure, allowing for both inference and inversion.
翻訳日:2024-02-20 17:16:27 公開日:2024-02-19
# 潜在拡散モデルに対するプライバシー保護低ランク適応

Privacy-Preserving Low-Rank Adaptation for Latent Diffusion Models ( http://arxiv.org/abs/2402.11989v1 )

ライセンス: Link先を確認
Zihao Luo, Xilie Xu, Feng Liu, Yun Sing Koh, Di Wang and Jingfeng Zhang(参考訳) 低ランク適応(LoRA)は、適応損失を最小限に抑えて特定のオブジェクトを生成する訓練データセットに潜時拡散モデル(LDM)を適用するための効率的な戦略である。 しかし、LoRAを介して適用されたLCMは、特定のデータポイントがプライベートトレーニングデータセットに属するかどうかを判断できるメンバーシップ推論(MI)攻撃に弱いため、プライバシー漏洩の深刻なリスクに直面している。 MI攻撃に対する防御として,プライバシ保護のLoRA (PrivateLoRA) という簡単なソリューションを提案する。 PrivateLoRAは、適応損失とプロキシ攻撃モデルのMIゲインの和を最小化して、MIゲインを最大化してプロキシ攻撃モデルを訓練するmin-max最適化問題として定式化される。 しかし, 適応を阻害する勾配尺度の変動が大きいため, privatelora が不安定最適化の問題を持っていることを実証的に明らかにした。 この問題を軽減するために,MIゲインに対する適応損失の比率を最小化してLCMに適応する安定プライベートロラを提案し,グラデーションを暗黙的に再スケールし,最適化を安定化させる。 我々の総合的な実験結果は、Stable PrivateLoRAを介してLDMを適応させることで、高品質な画像を生成しながらMI攻撃を効果的に防ぐことができることを裏付ける。 私たちのコードはhttps://github.com/WilliamLUO0/StablePrivateLoRAで公開されています。

Low-rank adaptation (LoRA) is an efficient strategy for adapting latent diffusion models (LDMs) on a training dataset to generate specific objects by minimizing the adaptation loss. However, adapted LDMs via LoRA are vulnerable to membership inference (MI) attacks that can judge whether a particular data point belongs to private training datasets, thus facing severe risks of privacy leakage. To defend against MI attacks, we make the first effort to propose a straightforward solution: privacy-preserving LoRA (PrivateLoRA). PrivateLoRA is formulated as a min-max optimization problem where a proxy attack model is trained by maximizing its MI gain while the LDM is adapted by minimizing the sum of the adaptation loss and the proxy attack model's MI gain. However, we empirically disclose that PrivateLoRA has the issue of unstable optimization due to the large fluctuation of the gradient scale which impedes adaptation. To mitigate this issue, we propose Stable PrivateLoRA that adapts the LDM by minimizing the ratio of the adaptation loss to the MI gain, which implicitly rescales the gradient and thus stabilizes the optimization. Our comprehensive empirical results corroborate that adapted LDMs via Stable PrivateLoRA can effectively defend against MI attacks while generating high-quality images. Our code is available at https://github.com/WilliamLUO0/StablePrivateLoRA.
翻訳日:2024-02-20 17:16:10 公開日:2024-02-19
# 異なるROI提案ネットワークとソフトROIポーリングを有する胸部X線における弱監視対象検出

Weakly Supervised Object Detection in Chest X-Rays with Differentiable ROI Proposal Networks and Soft ROI Pooling ( http://arxiv.org/abs/2402.11985v1 )

ライセンス: Link先を確認
Philip M\"uller, Felix Meissen, Georgios Kaissis, Daniel Rueckert(参考訳) 弱教師付き物体検出(wsup-od)は、追加の監視を必要とせずに画像分類アルゴリズムの有用性と解釈性を高める。 しかし、このタスクにおける複数のインスタンス学習の成功は、そのオブジェクトの非常に異なる特性(すなわち病理)のため、医療画像にうまく変換できない。 本研究は,関心度(ROI-アテンション)モジュールの専用領域を用いて,フライ時にバウンディングボックスの提案を生成する新しい手法であるWeakly Supervised ROI Proposal Networks (WSRPN)を提案する。 WSRPNは古典的なバックボーン・ヘッド分類アルゴリズムとよく統合されており、画像ラベルの監督のみでエンドツーエンドのトレーニングが可能である。 胸部X線画像における疾患局所化の課題において,本手法が既存の方法よりも優れていることを示す。 コード: https://github.com/philip-mueller/wsrpn

Weakly supervised object detection (WSup-OD) increases the usefulness and interpretability of image classification algorithms without requiring additional supervision. The successes of multiple instance learning in this task for natural images, however, do not translate well to medical images due to the very different characteristics of their objects (i.e. pathologies). In this work, we propose Weakly Supervised ROI Proposal Networks (WSRPN), a new method for generating bounding box proposals on the fly using a specialized region of interest-attention (ROI-attention) module. WSRPN integrates well with classic backbone-head classification algorithms and is end-to-end trainable with only image-label supervision. We experimentally demonstrate that our new method outperforms existing methods in the challenging task of disease localization in chest X-ray images. Code: https://github.com/philip-mueller/wsrpn
翻訳日:2024-02-20 17:15:26 公開日:2024-02-19
# ヘビアン学習に基づくスパイクニューラルネットワークの連続学習のための直交投影

Hebbian Learning based Orthogonal Projection for Continual Learning of Spiking Neural Networks ( http://arxiv.org/abs/2402.11984v1 )

ライセンス: Link先を確認
Mingqing Xiao, Qingyan Meng, Zongpeng Zhang, Di He, Zhouchen Lin(参考訳) スパイクニューラルネットワークを用いたニューロモルフィックコンピューティングは、エネルギー効率の良い人工知能(ai)応用に有望である。 しかし、生涯にわたって異なるタスクを継続的に学習する人間とは異なり、ニューラルネットワークモデルは破滅的な忘れに苦しむ。 神経手術がこの問題をどうやって解決できるかは、AIと神経科学にとって重要な問題である。 これまでの多くの研究は、観察された神経科学現象から着想を得て、エピソディックリプレイやシナプスの異形性を提案するが、ニューロン集団の知識を明示的に保存することは保証されていない。 他の研究は、高次元空間上の直交射影など、より数学的基盤を持つ機械学習手法に焦点を当てているが、ニューロモルフィックコンピューティングに対するニューラル対応は存在しない。 本研究は,ニューロンの活動トレースを直交部分空間に投影することで知識を保護し,シナプス重み更新が古い作業に支障を来さないようにする,側方接続とヘビアン学習に基づく神経操作を用いた新しい手法を開発する。 本研究は, 神経活動の主部分空間を効果的に抽出し, 直交投射を可能にすることができることを示す。 これは、神経回路とヘビー学習が継続的な学習にどのように役立つか、また、直交射影の概念がニューロン系でどのように実現されるかについての新しい洞察を与える。 また,前シナプス活動/トラスに基づく任意の訓練手法を活用できる。 提案手法は,誤り伝播の異なる様々な教師付き学習法において,ほぼゼロのスパイクニューラルネットワークに対する忘れることを一貫して解決し,様々な条件下では従来手法よりも優れることを示す。 本手法は連続ニューロモルフィックコンピューティングシステムを構築するための固い経路を舗装することができる。

Neuromorphic computing with spiking neural networks is promising for energy-efficient artificial intelligence (AI) applications. However, different from humans who continually learn different tasks in a lifetime, neural network models suffer from catastrophic forgetting. How could neuronal operations solve this problem is an important question for AI and neuroscience. Many previous studies draw inspiration from observed neuroscience phenomena and propose episodic replay or synaptic metaplasticity, but they are not guaranteed to explicitly preserve knowledge for neuron populations. Other works focus on machine learning methods with more mathematical grounding, e.g., orthogonal projection on high dimensional spaces, but there is no neural correspondence for neuromorphic computing. In this work, we develop a new method with neuronal operations based on lateral connections and Hebbian learning, which can protect knowledge by projecting activity traces of neurons into an orthogonal subspace so that synaptic weight update will not interfere with old tasks. We show that Hebbian and anti-Hebbian learning on recurrent lateral connections can effectively extract the principal subspace of neural activities and enable orthogonal projection. This provides new insights into how neural circuits and Hebbian learning can help continual learning, and also how the concept of orthogonal projection can be realized in neuronal systems. Our method is also flexible to utilize arbitrary training methods based on presynaptic activities/traces. Experiments show that our method consistently solves forgetting for spiking neural networks with nearly zero forgetting under various supervised training methods with different error propagation approaches, and outperforms previous approaches under various settings. Our method can pave a solid path for building continual neuromorphic computing systems.
翻訳日:2024-02-20 17:14:48 公開日:2024-02-19
# ワッサーシュタイン分布ロバストモデルに対する普遍一般化保証

Universal Generalization Guarantees for Wasserstein Distributionally Robust Models ( http://arxiv.org/abs/2402.11981v1 )

ライセンス: Link先を確認
Tam Le (UGA, LJK), J\'er\^ome Malick (UGA, CNRS, Grenoble INP, LJK)(参考訳) 分散ロバストな最適化は、堅牢な機械学習モデルをトレーニングし、データの不確実性と分散シフトをキャプチャする魅力的な方法として登場した。 最近の統計分析により、ワッサーシュタイン曖昧性集合から構築されたロバストモデルが優れた一般化を保証することが証明され、次元性の呪いが破られる。 しかし、これらの結果は特定の場合、近似のコスト、あるいは実際に検証することが難しい仮定の下で得られる。 対照的に、この記事では、輸送コスト関数や損失関数、潜在的に凸や非平滑性を含むすべての実例をカバーする正確な一般化を保証する。 例えば、私たちの結果は制限的な仮定を必要とせず、ディープラーニングに適用されます。 この結果は,非平滑解析法と古典的濃度解析法を組み合わせた新しい証明手法によって達成される。 我々のアプローチは、(二重)正則化を伴う最近のwasserstein/sinkhorn分布的ロバストな問題にも拡張できるほど一般的である。

Distributionally robust optimization has emerged as an attractive way to train robust machine learning models, capturing data uncertainty and distribution shifts. Recent statistical analyses have proved that robust models built from Wasserstein ambiguity sets have nice generalization guarantees, breaking the curse of dimensionality. However, these results are obtained in specific cases, at the cost of approximations, or under assumptions difficult to verify in practice. In contrast, we establish, in this article, exact generalization guarantees that cover all practical cases, including any transport cost function and any loss function, potentially non-convex and nonsmooth. For instance, our result applies to deep learning, without requiring restrictive assumptions. We achieve this result through a novel proof technique that combines nonsmooth analysis rationale with classical concentration results. Our approach is general enough to extend to the recent versions of Wasserstein/Sinkhorn distributionally robust problems that involve (double) regularizations.
翻訳日:2024-02-20 17:13:19 公開日:2024-02-19
# Compress to Impress: リアルタイム長期会話における圧縮記憶の可能性

Compress to Impress: Unleashing the Potential of Compressive Memory in Real-World Long-Term Conversations ( http://arxiv.org/abs/2402.11975v1 )

ライセンス: Link先を確認
Nuo Chen, Hongguang Li, Juhua Huang, Baoyuan Wang, Jia Li(参考訳) 既存の検索手法は,長期会話の維持に大きく貢献している。 しかし、これらのアプローチは、メモリデータベース管理と正確なメモリ検索において課題に直面し、動的で現実世界の相互作用におけるそれらの効果を妨げる。 本研究は,従来の検索モジュールやメモリデータベースを活用する新しいフレームワークであるCOMEDY(Commpressive Memory-Enhanced Dialogue sYstems)を紹介する。 代わりに、単一の言語モデルを使用してメモリ生成、圧縮、応答生成を管理する'one-for-all'アプローチを採用している。 このフレームワークの中心は圧縮メモリの概念であり、セッション固有の要約、ユーザー・ボットのダイナミクス、過去のイベントを簡潔なメモリ形式にまとめる。 COMEDYをサポートするために,実際のユーザ-チャットボットインタラクションから派生した,大規模な中国語命令チューニングデータセットDolphinをキュレートした。 比較評価により,COMEDYは従来の検索手法よりも,よりニュアンスで人間らしい会話体験を創出することが示されている。 私たちのコードはhttps://github.com/nuochenpku/comedyで利用可能です。

Existing retrieval-based methods have made significant strides in maintaining long-term conversations. However, these approaches face challenges in memory database management and accurate memory retrieval, hindering their efficacy in dynamic, real-world interactions. This study introduces a novel framework, COmpressive Memory-Enhanced Dialogue sYstems (COMEDY), which eschews traditional retrieval modules and memory databases. Instead, COMEDY adopts a ''One-for-All'' approach, utilizing a single language model to manage memory generation, compression, and response generation. Central to this framework is the concept of compressive memory, which intergrates session-specific summaries, user-bot dynamics, and past events into a concise memory format. To support COMEDY, we curated a large-scale Chinese instruction-tuning dataset, Dolphin, derived from real user-chatbot interactions. Comparative evaluations demonstrate COMEDY's superiority over traditional retrieval-based methods in producing more nuanced and human-like conversational experiences. Our codes are available at https://github.com/nuochenpku/COMEDY.
翻訳日:2024-02-20 17:12:50 公開日:2024-02-19
# WKVQuant: 大規模言語モデルのためのウェイトとキー/バリューキャッシュの定量化

WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More ( http://arxiv.org/abs/2402.12065v1 )

ライセンス: Link先を確認
Yuxuan Yue, Zhihang Yuan, Haojie Duanmu, Sifan Zhou, Jianlong Wu, Liqiang Nie(参考訳) 大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。 本稿では,モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を削減する手法であるllmsの量子化に注目する。 我々は,既存の量子化手法を批判的に分析し,量子化llmの精度と効率のバランスの限界を明らかにする。 これらの制限を超えて、特に重みの定量化とLLMのキー/値(KV)キャッシュのためのPTQフレームワークであるWKVQuantを提案する。 具体的には,過去の量子化を取り入れ,注意の計算性を向上させる。 さらに,kvキャッシュの分散を扱うための2次元量子化戦略とパラメータ最適化のためのクロスブロック再構成正規化を導入する。 実験により、WKVQuantはウェイトアクティベーション量子化にほぼ同等のメモリセーブを実現し、ウェイトオンリー量子化の性能に近づいた。

Large Language Models (LLMs) face significant deployment challenges due to their substantial memory requirements and the computational demands of auto-regressive text generation process. This paper addresses these challenges by focusing on the quantization of LLMs, a technique that reduces memory consumption by converting model parameters and activations into low-bit integers. We critically analyze the existing quantization approaches, identifying their limitations in balancing the accuracy and efficiency of the quantized LLMs. To advance beyond these limitations, we propose WKVQuant, a PTQ framework especially designed for quantizing weights and the key/value (KV) cache of LLMs. Specifically, we incorporates past-only quantization to improve the computation of attention. Additionally, we introduce two-dimensional quantization strategy to handle the distribution of KV cache, along with a cross-block reconstruction regularization for parameter optimization. Experiments show that WKVQuant achieves almost comparable memory savings to weight-activation quantization, while also approaching the performance of weight-only quantization.
翻訳日:2024-02-20 17:06:01 公開日:2024-02-19
# 多対数ミニマックス後悔を伴うリニアバンディット

Linear bandits with polylogarithmic minimax regret ( http://arxiv.org/abs/2402.12042v1 )

ライセンス: Link先を確認
Josep Lumbreras, Marco Tomamichel(参考訳) 本研究では,未知ベクトルに近い単位球面上の動作を選択することで,サブガウス雑音パラメータが線形に消失する線形確率バンディットの雑音モデルについて検討する。 従来のバンディットアルゴリズムに対する後悔の正方根スケーリングとは対照的に、この問題のアルゴリズムは、time horizon $t$において、minimax regret scalingを$\log^3(t)$として示す。 我々の戦略は、重み付き最小二乗推定に基づいて、ノイズモデルとは独立で独立した幾何学的議論を通じて、設計行列 $v_t$ に対して、固有値関係 $\lambda_{\min} ( v_t ) = \omega (\sqrt{\lambda_{\max}(v_t ) }) を達成する。 これにより、各時間ステップにおける期待された後悔を$O(\frac1{t})$の順番で厳格に制御することができ、累積的後悔の対数的スケーリングにつながる。

We study a noise model for linear stochastic bandits for which the subgaussian noise parameter vanishes linearly as we select actions on the unit sphere closer and closer to the unknown vector. We introduce an algorithm for this problem that exhibits a minimax regret scaling as $\log^3(T)$ in the time horizon $T$, in stark contrast the square root scaling of this regret for typical bandit algorithms. Our strategy, based on weighted least-squares estimation, achieves the eigenvalue relation $\lambda_{\min} ( V_t ) = \Omega (\sqrt{\lambda_{\max}(V_t ) })$ for the design matrix $V_t$ at each time step $t$ through geometrical arguments that are independent of the noise model and might be of independent interest. This allows us to tightly control the expected regret in each time step to be of the order $O(\frac1{t})$, leading to the logarithmic scaling of the cumulative regret.
翻訳日:2024-02-20 17:05:41 公開日:2024-02-19
# コンピュータビジョンとシミュレーションにおけるサラウンドビュー魚眼光学:調査と挑戦

Surround-View Fisheye Optics in Computer Vision and Simulation: Survey and Challenge ( http://arxiv.org/abs/2402.12041v1 )

ライセンス: Link先を確認
Daniel Jakab, Brian Michael Deegan, Sushil Sharma, Eoin Martino Grua, Jonathan Horgan, Enda Ward, Pepijn Van De Ven, Anthony Scanlan, Ciaran Eising(参考訳) 本稿では,自動走行およびADASにおけるコンピュータビジョンタスクにおける光学工芸品の影響に着目し,自動車のサラウンドビュー魚眼光学に関する調査を行う。 自動車産業は最新のコンピュータビジョンを適用し、道路の安全性を高め、自動運転機能を提供する。 車両のカメラシステムを使用する場合、低速操縦、自動駐車、コクーンセンシングなどの領域において、車両の周囲全体を把握するための広い視野が必要である。 しかし、サラウンドビューカメラにおける重要な課題は、文献にほとんど注目されていないフィッシュアイカメラの光学的収差である。 さらに、車両自動化における安全クリティカルなシナリオをテストするために、包括的なデータセットが必要である。 業界は、サラウンドビューカメラ画像を用いた合成データセットを作成するための費用対効果の戦略としてシミュレーションに転換した。 シミュレーション手法(モデル駆動・データ駆動シミュレーションなど)について検討し,実世界の光学性能をモデル化するシミュレータの能力(あるいはその欠如)について考察する。 概して,本論文では,車載魚眼データセットの光学収差と模擬魚眼データセットの光学的現実感の限界に注目し,サラウンドビュー光学系におけるコンピュータビジョンに着目した。

In this paper, we provide a survey on automotive surround-view fisheye optics, with an emphasis on the impact of optical artifacts on computer vision tasks in autonomous driving and ADAS. The automotive industry has advanced in applying state-of-the-art computer vision to enhance road safety and provide automated driving functionality. When using camera systems on vehicles, there is a particular need for a wide field of view to capture the entire vehicle's surroundings, in areas such as low-speed maneuvering, automated parking, and cocoon sensing. However, one crucial challenge in surround-view cameras is the strong optical aberrations of the fisheye camera, which is an area that has received little attention in the literature. Additionally, a comprehensive dataset is needed for testing safety-critical scenarios in vehicle automation. The industry has turned to simulation as a cost-effective strategy for creating synthetic datasets with surround-view camera imagery. We examine different simulation methods (such as model-driven and data-driven simulations) and discuss the simulators' ability (or lack thereof) to model real-world optical performance. Overall, this paper highlights the optical aberrations in automotive fisheye datasets, and the limitations of optical reality in simulated fisheye datasets, with a focus on computer vision in surround-view optical systems.
翻訳日:2024-02-20 17:05:14 公開日:2024-02-19
# self-amplify: 自己後説明による小さな言語モデルの改善

Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations ( http://arxiv.org/abs/2402.12038v1 )

ライセンス: Link先を確認
Milan Bhan and Jean-Noel Vittaut and Nicolas Chesneau and Marie-Jeanne Lesot(参考訳) インプロンプトとインコンテキスト学習(ICL)に自然言語の合理性を組み込むことで、LLM(Large Language Models)のパフォーマンスが大幅に向上した。 しかしながら、現在、有望なサンプルをターゲットにしたり、高品質な有理数を生成するために、人間アノテーションや補助プロキシモデルの使用が必要である。 そこで本研究では,Small Language Models (SLM) に適用したポストホックな説明手法から,自動論理式を生成するセルフAMPLIFYを提案する。 Self-AMPLIFYは、サンプルをターゲットとし、合理性を生成し、ICLを活用するための最後のプロンプトを構築する3段階のメソッドである。 自己AMPLIFYのパフォーマンスは、推論能力を必要とする2つのSLMと2つのデータセットで評価される。 Self-AMPLIFYは、SLMにポストホックな説明法を適用して、完全に自動化された方法で自身のパフォーマンスを改善するための合理性を生成する最初の方法である。

Incorporating natural language rationales in the prompt and In-Context Learning (ICL) has led to a significant improvement of Large Language Models (LLMs) performance. However, rationales currently require human-annotation or the use of auxiliary proxy models to target promising samples or generate high-quality rationales. In this work, we propose Self-AMPLIFY to generate automatically rationales from post hoc explanation methods applied to Small Language Models (SLMs) to improve their own performance. Self-AMPLIFY is a 3-step method that targets samples, generates rationales and builds a final prompt to leverage ICL. Self-AMPLIFY performance is evaluated on two SLMs and two datasets requiring reasoning abilities: these experiments show that Self-AMPLIFY achieves good results against competitors. Self-AMPLIFY is the first method to apply post hoc explanation methods to SLM to generate rationales to improve their own performance in a fully automated manner.
翻訳日:2024-02-20 17:04:52 公開日:2024-02-19
# Josephson Traveling Wave Parametric Amplifiers (JTWPAs) の数値シミュレーション : オープンソースツールの比較研究

Numerical simulations of Josephson Traveling Wave Parametric Amplifiers (JTWPAs): comparative study of open-source tools ( http://arxiv.org/abs/2402.12037v1 )

ライセンス: Link先を確認
A. Yu. Levochkina, H. G. Ahmad, P. Mastrovito, I. Chatterjee, D. Massarotti, D. Montemurro, F. Tafuri, G.P. Pepe and M. Esposito(参考訳) Josephson Traveling Wave Parametric Amplifiers (JTWPAs) は、マイクロ波系におけるブロードバンドおよび低ノイズ性能の量子技術において主に利用されている。 入力に1つ以上のマイクロ波トーンを印加した場合、そのようなデバイスは固有の非線形性質のために複雑な波動混合応答を示す。 JTWPAの非線形挙動の数値シミュレーションは、これらのデバイスの設計だけでなく、実験結果の解釈と検証にも有用である。 本稿では,JTWPAの数値シミュレーションに使用可能なオープンソースツールの比較分析について述べる。 WRSPICEとPSCAN2という過渡シミュレーションのための2つのツールと、周波数領域の振る舞いを直接シミュレーションする1つのツール、JosephsonCircuit.jlに焦点を当てた。 これら3つのツールの動作原理を記述し、現実的な実験パラメータを持つSNAIL(Superconducting Nonly Asymmetric Inductive eLement)に基づくJTWPAのベンチマークとして検討する。 この結果は,JTWPAとオープンソースツールの数値シミュレーションのガイドとして機能し,シミュレーションタスクによる利点と欠点を強調した。

Josephson Traveling Wave Parametric Amplifiers (JTWPAs) are largely exploited in quantum technologies for their broadband and low noise performance in the microwave regime. When one or more microwave tones are applied at the input, such devices show a complex wave-mixing response due to their intrinsic nonlinear nature. Numerical simulations of the JTWPAs nonlinear behaviour provide useful insights not only for the design of such devices, but also for the interpretation and validation of the experimental results. Here we present and discuss a comparative analysis of different open-source tools which can be used for JTWPAs numerical simulations. We focus on two tools for transient simulations, WRSPICE and PSCAN2, and on one tool for direct simulation of the frequency domain behaviour, JosephsonCircuit.jl. We describe the working principle of these three tools and test them considering as a benchmark a JTWPA based on SNAILs (Superconducting Nonlinear Asymmetric Inductive eLement) with realistic experimental parameters. Our results can serve as a guide for numerical simulations of JTWPAs with open-source tools, highlighting advantages and disadvantages depending on the simulation tasks.
翻訳日:2024-02-20 17:04:33 公開日:2024-02-19
# 時系列のクラスインクリメンタル学習:ベンチマークと評価

Class-incremental Learning for Time Series: Benchmark and Evaluation ( http://arxiv.org/abs/2402.12035v1 )

ライセンス: Link先を確認
Zhongzheng Qiao, Quang Pham, Zhen Cao, Hoang H Le, P.N.Suganthan, Xudong Jiang, Ramasamy Savitha(参考訳) 現実の環境は本質的に非定常的であり、時間とともに新しいクラスを頻繁に導入する。 これは、医療における新しい疾患分類の出現や、人間の活動認識における新しい活動の追加など、時系列分類において特に一般的である。 このような場合、学習システムは、新しいクラスを効果的に同化しつつ、古いクラスを破滅的に忘れてしまうことを回避し、クラス増進学習(CIL)問題を引き起こす。 しかし、画像と言語領域の進歩を奨励しているにもかかわらず、時系列データのcilは比較的未熟である。 既存の研究は一貫性のない実験設計に悩まされており、幅広いデータセットにわたる手法の包括的な評価とベンチマークが必要である。 この目的のために、まず、時系列クラス増分学習(TSCIL)問題の概要を述べ、その独特な課題を強調し、先進的な方法論を取り上げる。 さらに、標準化された設定に基づいて、新しいアルゴリズムの迅速な開発、新しいデータセットの容易な統合、評価プロセスの標準化を支援する統一実験フレームワークを開発した。 このフレームワークを用いて、標準およびプライバシに敏感なシナリオにおいて、様々なジェネリックおよび時系列固有のcilメソッドを包括的に評価する。 我々の広範な実験は、将来の研究をサポートする標準ベースラインを提供するだけでなく、正規化層やメモリ予算しきい値といった様々な設計要因の影響にも光を当てた。 コードはhttps://github.com/zqiao11/TSCILで入手できる。

Real-world environments are inherently non-stationary, frequently introducing new classes over time. This is especially common in time series classification, such as the emergence of new disease classification in healthcare or the addition of new activities in human activity recognition. In such cases, a learning system is required to assimilate novel classes effectively while avoiding catastrophic forgetting of the old ones, which gives rise to the Class-incremental Learning (CIL) problem. However, despite the encouraging progress in the image and language domains, CIL for time series data remains relatively understudied. Existing studies suffer from inconsistent experimental designs, necessitating a comprehensive evaluation and benchmarking of methods across a wide range of datasets. To this end, we first present an overview of the Time Series Class-incremental Learning (TSCIL) problem, highlight its unique challenges, and cover the advanced methodologies. Further, based on standardized settings, we develop a unified experimental framework that supports the rapid development of new algorithms, easy integration of new datasets, and standardization of the evaluation process. Using this framework, we conduct a comprehensive evaluation of various generic and time-series-specific CIL methods in both standard and privacy-sensitive scenarios. Our extensive experiments not only provide a standard baseline to support future research but also shed light on the impact of various design factors such as normalization layers or memory budget thresholds. Codes are available at https://github.com/zqiao11/TSCIL.
翻訳日:2024-02-20 17:04:13 公開日:2024-02-19
# オフ・ポリティィとオン・ポリティィ・ポリシー・グラディエント・メソッドはいつ整合するのか?

When Do Off-Policy and On-Policy Policy Gradient Methods Align? ( http://arxiv.org/abs/2402.12034v1 )

ライセンス: Link先を確認
Davide Mambelli, Stephan Bongers, Onno Zoeter, Matthijs T.J. Spaan, Frans A. Oliehoek(参考訳) 政策勾配法は連続的な行動空間を持つタスクに対する強化学習アルゴリズムとして広く採用されている。 しかし、これらの手法は多くのアプリケーション領域で成功したが、その悪名高いサンプルの効率が悪いため、高速で正確なシミュレーションが利用できる問題に限られている。 サンプル効率を改善する一般的な方法は、重要でないサンプリングから計算可能な目的関数を変更することである。 確立されたオフ・ポリシーの目標は、エクスカージョンの目的である。 本研究は,旅行目標と従来の政治目標との差について検討し,その差をオンオフギャップと呼ぶ。 オンオフギャップを減少させる条件を示す最初の理論解析を行い、これらの条件が満たされない場合に発生する不足の実証的証拠を確立する。

Policy gradient methods are widely adopted reinforcement learning algorithms for tasks with continuous action spaces. These methods succeeded in many application domains, however, because of their notorious sample inefficiency their use remains limited to problems where fast and accurate simulations are available. A common way to improve sample efficiency is to modify their objective function to be computable from off-policy samples without importance sampling. A well-established off-policy objective is the excursion objective. This work studies the difference between the excursion objective and the traditional on-policy objective, which we refer to as the on-off gap. We provide the first theoretical analysis showing conditions to reduce the on-off gap while establishing empirical evidence of shortfalls arising when these conditions are not met.
翻訳日:2024-02-20 17:03:47 公開日:2024-02-19
# クロストケナイザー蒸留に向けて:LLMのユニバーサルロジット蒸留損失

Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs ( http://arxiv.org/abs/2402.12030v1 )

ライセンス: Link先を確認
Nicolas Boizard, Kevin El-Haddad, C\'eline Hudelot, Pierre Colombo(参考訳) 数十億のパラメータを持つ大規模言語モデル(llm)のデプロイは、コストやレイテンシの制限、ハードウェアアクセシビリティといった制約のため、ほとんどの産業用途において実用的ではない。 知識蒸留(KD)は、資源集約型大規模モデルからより小さなモデルへの知識の圧縮による解を提供する。 様々な戦略が存在しており、教師モデルが生成したテキストに依存し、任意に彼のロジットを利用して学習を強化する。 しかしながら、ロジットに基づくこれらの手法は、教師と学生の両方が同じトークン化子を共有することを必要とし、異なるLLMファミリーに適用性を制限する。 本稿では,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失について述べる。 実験の結果, 異なるアーキテクチャとトークン化器を有するモデル間での蒸留が可能となり, 蒸留技術のより広範な利用への道が開けた。

Deploying large language models (LLMs) of several billion parameters can be impractical in most industrial use cases due to constraints such as cost, latency limitations, and hardware accessibility. Knowledge distillation (KD) offers a solution by compressing knowledge from resource-intensive large models to smaller ones. Various strategies exist, some relying on the text generated by the teacher model and optionally utilizing his logits to enhance learning. However, these methods based on logits often require both teacher and student models to share the same tokenizer, limiting their applicability across different LLM families. In this paper, we introduce Universal Logit Distillation (ULD) loss, grounded in optimal transport, to address this limitation. Our experimental results demonstrate the effectiveness of ULD loss in enabling distillation across models with different architectures and tokenizers, paving the way to a more widespread use of distillation techniques.
翻訳日:2024-02-20 17:03:34 公開日:2024-02-19
# 周波数空間のダウンスケーリングによるバックドアポゾンデータセットからのクリーン言語モデル取得

Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space ( http://arxiv.org/abs/2402.12026v1 )

ライセンス: Link先を確認
Zongru Wu, Zhuosheng Zhang, Pengzhou Cheng, Gongshen Liu(参考訳) 自然言語処理(NLP)タスクにおける言語モデル(LM)の顕著な成功にもかかわらず、LMの信頼性はバックドア攻撃の影響を受けやすい。 以前の研究は、毒付きデータセットでlmsをトレーニングしながらバックドア学習を緩和しようとするが、現実のシナリオでは複雑なバックドア攻撃に苦しむ。 本稿では,フーリエ解析による周波数空間におけるバックドアlmsの学習機構について検討する。 以上の結果から, 汚染されたデータセットに提示されたバックドアマッピングは, クリーンマッピングよりも低周波傾向が顕著であり, バックドアマッピングの収束が早いことが示唆された。 このジレンマを緩和するために,マルチスケール低ランク適応法(musclelora)を提案する。対象モデルに低ランク適応を加えて周波数空間に複数のラジアルスケーリングを展開し,パラメータ更新時の勾配をさらに調整する。 周波数空間のダウンスケーリングを通じて、MuScleLoRAは比較的高周波なクリーンマッピングの学習を優先させ、結果としてバックドア学習を緩和する。 実験の結果, MuScleLoRAはベースラインを著しく上回ることがわかった。 muscleloraは、さまざまなバックドア攻撃の平均成功率を複数のデータセットで15\%以下に削減し、bert、roberta、llama2を含む様々なバックボーンlmmに一般化する。 コードはhttps://github.com/zrw00/muscleloraで入手できる。

Despite the notable success of language models (LMs) in various natural language processing (NLP) tasks, the reliability of LMs is susceptible to backdoor attacks. Prior research attempts to mitigate backdoor learning while training the LMs on the poisoned dataset, yet struggles against complex backdoor attacks in real-world scenarios. In this paper, we investigate the learning mechanisms of backdoor LMs in the frequency space by Fourier analysis. Our findings indicate that the backdoor mapping presented on the poisoned datasets exhibits a more discernible inclination towards lower frequency compared to clean mapping, resulting in the faster convergence of backdoor mapping. To alleviate this dilemma, we propose Multi-Scale Low-Rank Adaptation (MuScleLoRA), which deploys multiple radial scalings in the frequency space with low-rank adaptation to the target model and further aligns the gradients when updating parameters. Through downscaling in the frequency space, MuScleLoRA encourages the model to prioritize the learning of relatively high-frequency clean mapping, consequently mitigating backdoor learning. Experimental results demonstrate that MuScleLoRA outperforms baselines significantly. Notably, MuScleLoRA reduces the average success rate of diverse backdoor attacks to below 15\% across multiple datasets and generalizes to various backbone LMs, including BERT, RoBERTa, and Llama2. The codes are available at https://github.com/ZrW00/MuScleLoRA.
翻訳日:2024-02-20 17:03:16 公開日:2024-02-19
# 音声基礎モデルと大規模言語モデルを用いた音声翻訳:何が存在し、何が欠けているのか?

Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing? ( http://arxiv.org/abs/2402.12025v1 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Matteo Negri and Luisa Bentivogli(参考訳) 自然言語処理(NLP)の分野は、最近、基盤モデル、特にテキストベースのNLPに革命をもたらした大規模言語モデル(LLM)の出現とともに、変革的な変化を目撃している。 このパラダイムは、スピーチを含む他のモダリティにまで拡張され、研究者は、音声基礎モデル(SFM)とLLMの組み合わせを、マルチモーダルタスクに対処可能な単一の統一モデルに積極的に探求している。 本稿では,音声からテキストへの翻訳(st)について述べる。 このトピックに関する論文を検証し、アーキテクチャソリューションとトレーニング戦略の統一的なビューを提案し、それらの類似点と相違点を強調した。 本研究は,学習した教訓を整理するだけでなく,建築ブロックごとの最高の性能ソリューションの同定や学習選択を,多様な設定や評価アプローチがいかに妨げているかを示す。 最後に,STに対するSFM+LLMソリューションの長所と短所をよりよく理解することを目的とした,今後の研究の提言について概説する。

The field of natural language processing (NLP) has recently witnessed a transformative shift with the emergence of foundation models, particularly Large Language Models (LLMs) that have revolutionized text-based NLP. This paradigm has extended to other modalities, including speech, where researchers are actively exploring the combination of Speech Foundation Models (SFMs) and LLMs into single, unified models capable of addressing multimodal tasks. Among such tasks, this paper focuses on speech-to-text translation (ST). By examining the published papers on the topic, we propose a unified view of the architectural solutions and training strategies presented so far, highlighting similarities and differences among them. Based on this examination, we not only organize the lessons learned but also show how diverse settings and evaluation approaches hinder the identification of the best-performing solution for each architectural building block and training choice. Lastly, we outline recommendations for future works on the topic aimed at better understanding the strengths and weaknesses of the SFM+LLM solutions for ST.
翻訳日:2024-02-20 17:02:49 公開日:2024-02-19
# UCovによる軽量シンタクティックAPI利用分析

Lightweight Syntactic API Usage Analysis with UCov ( http://arxiv.org/abs/2402.12024v1 )

ライセンス: Link先を確認
Gustave Monce (LaBRI), Thomas Couturou (LaBRI), Yasmine Hamdaoui (LaBRI), Thomas Degueule (LaBRI), Jean-R\'emy Falleri (LaBRI, IUF)(参考訳) 効果的なAPIの設計はライブラリ開発者にとって必須であり、クライアントがそのユーザビリティとメリットを判断するレンズであり、ライブラリが進化する際の主要な摩擦点でもある。 その重要性にもかかわらず、apiの境界を定義することは難しい作業であり、主に、非自明なインタープレイを持つプログラミング言語によって提供される多様なメカニズムのためである。 本稿では,ライブラリメンテナがapiで許可されるインタラクションを理解するのを支援するために,構文的利用モデルを用いた新しい概念的フレームワークを提案する。 これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができる。 補完的な構文的使用フットプリントとカバレッジスコアは、APIを使用したクライアントコード(例:ドキュメンテーションサンプル、テスト、サードパーティクライアント)から推測されるもので、開発者はAPIの内部使用を理解し、テストとドキュメンテーションの妥当性を反映することができる。 新しいツールUCovでこれらのモデルをJavaライブラリに実装し、jsoup、commons-cli、Sparkという3つのインタラクションスタイルを示す3つのライブラリでその能力をデモします。 調査ケーススタディでは、UCovはAPI設計やクライアントコードのきめ細かい分析に関する貴重な情報を提供し、未試験および未文書のライブラリコードを識別する。

Designing an effective API is essential for library developers as it is the lens through which clients will judge its usability and benefits, as well as the main friction point when the library evolves. Despite its importance, defining the boundaries of an API is a challenging task, mainly due to the diverse mechanisms provided by programming languages that have non-trivial interplays. In this paper, we present a novel conceptual framework designed to assist library maintainers in understanding the interactions allowed by their APIs via the use of syntactic usage models. These customizable models enable library maintainers to improve their design ahead of release, reducing friction during evolution. The complementary syntactic usage footprints and coverage scores, inferred from client code using the API (e.g., documentation samples, tests, third-party clients), enable developers to understand in-the-wild uses of their APIs and to reflect on the adequacy of their tests and documentation. We implement these models for Java libraries in a new tool UCov and demonstrate its capabilities on three libraries exhibiting diverse styles of interaction: jsoup, commons-cli, and spark. Our exploratory case study shows that UCov provides valuable information regarding API design and fine-grained analysis of client code to identify under-tested and under-documented library code.
翻訳日:2024-02-20 17:02:32 公開日:2024-02-19
# 思考の連鎖に基づくChatGPTのスマートコントラクト監査能力の評価

Evaluation of ChatGPT's Smart Contract Auditing Capabilities Based on Chain of Thought ( http://arxiv.org/abs/2402.12023v1 )

ライセンス: Link先を確認
Yuying Du and Xueyan Tang(参考訳) ブロックチェーン技術の主要なコンポーネントであるスマートコントラクトは、トランザクションの自動化とプロトコルルールの遵守を保証する上で重要な役割を果たす。 しかし、スマートコントラクトはセキュリティ上の脆弱性に影響を受けやすいため、悪用されると大きな資産損失につながる可能性がある。 本研究は,GPT-4モデルを用いたスマートコントラクトセキュリティ監査の強化の可能性を検討する。 732の脆弱性を含むsolidifi-benchmark脆弱性ライブラリの35のスマートコントラクトのデータセットを使用して,gpt-4の一般的な7種類の脆弱性を識別する能力を評価するために,他の5つの脆弱性検出ツールと比較した。 さらに,8つのスマートコントラクトの監査報告に基づいて,専門家の監査プロセスをCoT(Chain of Thought)プロンプトでシミュレートすることで,GPT-4のコード解析と脆弱性キャプチャのパフォーマンスを評価した。 また,GPT-4による概念の固性証明 (PoC) の記述能力も評価した。 実験の結果、GPT-4は96.6%の精度でスマートコントラクトの脆弱性を検出できたが、リコールは37.8%、F1スコアは41.1%で、検出中に脆弱性を見逃す傾向が見られた。 一方で、スマートコントラクトの背景情報と機能的関係を識別可能な、平均6.5の総合スコアで、優れたコントラクトコード解析能力を示した。 これらの実験結果は、gpt-4はスマートコントラクトの脆弱性を効果的に検出する能力が欠けていることを示しているが、そのコントラクトコード解析とpoc書き込みのパフォーマンスは、スマートコントラクトセキュリティ監査の効率と有効性を高める補助ツールとして、その大きな可能性を証明している。

Smart contracts, as a key component of blockchain technology, play a crucial role in ensuring the automation of transactions and adherence to protocol rules. However, smart contracts are susceptible to security vulnerabilities, which, if exploited, can lead to significant asset losses. This study explores the potential of enhancing smart contract security audits using the GPT-4 model. We utilized a dataset of 35 smart contracts from the SolidiFI-benchmark vulnerability library, containing 732 vulnerabilities, and compared it with five other vulnerability detection tools to evaluate GPT-4's ability to identify seven common types of vulnerabilities. Moreover, we assessed GPT-4's performance in code parsing and vulnerability capture by simulating a professional auditor's auditing process using CoT(Chain of Thought) prompts based on the audit reports of eight groups of smart contracts. We also evaluated GPT-4's ability to write Solidity Proof of Concepts (PoCs). Through experimentation, we found that GPT-4 performed poorly in detecting smart contract vulnerabilities, with a high Precision of 96.6%, but a low Recall of 37.8%, and an F1-score of 41.1%, indicating a tendency to miss vulnerabilities during detection. Meanwhile, it demonstrated good contract code parsing capabilities, with an average comprehensive score of 6.5, capable of identifying the background information and functional relationships of smart contracts; in 60% of the cases, it could write usable PoCs, suggesting GPT-4 has significant potential application in PoC writing. These experimental results indicate that GPT-4 lacks the ability to detect smart contract vulnerabilities effectively, but its performance in contract code parsing and PoC writing demonstrates its significant potential as an auxiliary tool in enhancing the efficiency and effectiveness of smart contract security audits.
翻訳日:2024-02-20 17:02:06 公開日:2024-02-19
# テキスト属性グラフ学習のための大規模言語モデルの蒸留

Distilling Large Language Models for Text-Attributed Graph Learning ( http://arxiv.org/abs/2402.12022v1 )

ライセンス: Link先を確認
Bo Pan, Zheng Zhang, Yifei Zhang, Yuntong Hu, Liang Zhao(参考訳) Text-Attributed Graphs (TAG) は、接続されたテキストドキュメントのグラフである。 グラフモデルは効率的にタグを学習することができるが、そのトレーニングは人間の注釈付きラベルに大きく依存している。 大規模言語モデル(LLM)は、最近、少数ショットとゼロショットのTAG学習において顕著な能力を示したが、スケーラビリティ、コスト、プライバシーの問題に悩まされている。 そこで本研究では,タグ学習における局所グラフモデルにllmのパワーを蒸留することで,llmとグラフモデルを相補的な強みで融合することに焦点を当てる。 テキスト生成モデル(テキスト生成モデル)とグラフモデル(グラフの識別モデル)の相違に対処するために,まず LLM がリッチテキスト論理学で通訳を教えること,次に,学生モデルが LLM のテキスト論理学なしで通訳の推論を模倣することを提案する。 広範な実験により,提案手法の有効性が検証された。

Text-Attributed Graphs (TAGs) are graphs of connected textual documents. Graph models can efficiently learn TAGs, but their training heavily relies on human-annotated labels, which are scarce or even unavailable in many applications. Large language models (LLMs) have recently demonstrated remarkable capabilities in few-shot and zero-shot TAG learning, but they suffer from scalability, cost, and privacy issues. Therefore, in this work, we focus on synergizing LLMs and graph models with their complementary strengths by distilling the power of LLMs to a local graph model on TAG learning. To address the inherent gaps between LLMs (generative models for texts) and graph models (discriminative models for graphs), we propose first to let LLMs teach an interpreter with rich textual rationale and then let a student model mimic the interpreter's reasoning without LLMs' textual rationale. Extensive experiments validate the efficacy of our proposed framework.
翻訳日:2024-02-20 17:01:37 公開日:2024-02-19
# ランダム化および量子ConGESTモデルにおける偶数サイクル検出

Even-Cycle Detection in the Randomized and Quantum CONGEST Model ( http://arxiv.org/abs/2402.12018v1 )

ライセンス: Link先を確認
Pierre Fraigniaud, Mael Luce, Frederic Magniez, Ioan Todinca(参考訳) 各$k\geq 2$, $c_{2k}$-freeness について、一面誤差確率$1/3$のランダム化モンテカルロ分散アルゴリズムにより、\congest{} モデルの$o(n^{1-1/k})$ round で決定できることを示す。 これはDruckerらによる$k\in\{2,3,4,5\}$に対する既知アルゴリズムの最も複雑なラウンドコンプレックスと一致する。 [podc'14] と censor-hillel et al。 [DISC'20]だが、Edenらによって、既知のアルゴリズムの複雑さを$k>5$で改善する。 [DISC'19]は基本的に$\tilde O(n^{1-2/k^2})$である。 このアルゴリズムはしきい値付きカラーbfs探索を用いるが、fraigniaudらによる最近の不可能性を克服できるオリジナルの \emph{global} アプローチを採用している。 SIROCCO'23] では, サイクル検出に "emph{local} threshold" を用いた色付きBFS探索を行った。 また,ラウンド複雑度$\tilde o(n^{\frac{1}{2}-\frac{1}{2k}}) を量子化することで,自由度$c_{2k} を決定する方法を示す。 さらに、ファン・アペルドールンとド・ヴォスによる長さ \emph{at most}~$2k$のサイクルを検出するというより単純な問題の既知の量子複雑性を改善することができる。 我々の量子化は2つの段階にある。 まず、ランダム化アルゴリズムの混雑を減らし、その成功確率も低減する。 第二に、逐次アルゴリズムから派生した新しい量子フレームワーク、モンテカルロ量子増幅を用いて成功確率を高める。

We show that, for every $k\geq 2$, $C_{2k}$-freeness can be decided in $O(n^{1-1/k})$ rounds in the \CONGEST{} model by a randomized Monte-Carlo distributed algorithm with one-sided error probability $1/3$. This matches the best round-complexities of previously known algorithms for $k\in\{2,3,4,5\}$ by Drucker et al. [PODC'14] and Censor-Hillel et al. [DISC'20], but improves the complexities of the known algorithms for $k>5$ by Eden et al. [DISC'19], which were essentially of the form $\tilde O(n^{1-2/k^2})$. Our algorithm uses colored BFS-explorations with threshold, but with an original \emph{global} approach that enables to overcome a recent impossibility result by Fraigniaud et al. [SIROCCO'23] about using colored BFS-exploration with \emph{local} threshold for detecting cycles. We also show how to quantize our algorithm for achieving a round-complexity $\tilde O(n^{\frac{1}{2}-\frac{1}{2k}})$ in the quantum setting for deciding $C_{2k}$ freeness. Furthermore, this allows us to improve the known quantum complexities of the simpler problem of detecting cycles of length \emph{at most}~$2k$ by van Apeldoorn and de Vos [PODC'22]. Our quantization is in two steps. First, the congestion of our randomized algorithm is reduced, to the cost of reducing its success probability too. Second, the success probability is boosted using a new quantum framework derived from sequential algorithms, namely Monte-Carlo quantum amplification.
翻訳日:2024-02-20 17:01:15 公開日:2024-02-19
# プレトレーニング時のアウトリーチ除去のためのフリーランチか?

Is It a Free Lunch for Removing Outliers during Pretraining? ( http://arxiv.org/abs/2402.12102v1 )

ライセンス: Link先を確認
Baohao Liao, Christof Monz(参考訳) 大きな言語モデルのサイズが大きくなるにつれて、量子化の役割はますます重要になる。 しかし、重みやアクティベーションに存在する外れ値は、特に量子化されたモデルの性能に影響を及ぼす。 近ごろ \citet{qtransformer} は、外乱のない方法でモデルを事前学習することを目的とした新しいソフトマックス関数を導入し、量子化への適合性を高めた。 興味深いことに、そのようなアプローチは完全な精度で性能劣化を引き起こす。 この知見に基づいて,プレトレーニングと微調整のギャップを埋める重要な要素であるシーケンス長に正規化が不変であることを保証し,その方法を強化する。 さらに,この改良手法は因果言語モデルの事前学習を成功させる。

With the growing size of large language models, the role of quantization becomes increasingly significant. However, outliers present in weights or activations notably influence the performance of quantized models. Recently, \citet{qtransformer} introduced a novel softmax function aimed at pretraining models in an outlier-free manner, thereby enhancing their suitability for quantization. Interestingly, we observed that such an approach leads to performance degradation in full precision. Building on this insight, we enhance the method by ensuring its normalization is invariant to sequence length, a crucial factor for bridging the gap between pretraining and fine-tuning. Moreover, this improved method also facilitates successful pretraining of causal language models.
翻訳日:2024-02-20 16:53:40 公開日:2024-02-19
# 逆問題に対する変分的および機械学習アプローチのロバスト性と探索:概要

Robustness and Exploration of Variational and Machine Learning Approaches to Inverse Problems: An Overview ( http://arxiv.org/abs/2402.12072v1 )

ライセンス: Link先を確認
Alexander Auras, Kanchana Vaishnavi Gandikota, Hannah Droege, Michael Moeller(参考訳) 本稿では,変分法と機械学習を用いた画像の逆問題に対する現在のアプローチの概要について述べる。 特別な焦点は、点推定器とその敵の摂動に対する堅牢性である。 この文脈で, 1次元玩具問題の数値実験を行い, 異なるアプローチのロバスト性を示し, 理論的保証を実証的に検証した。 このレビューのもう1つの焦点は、特定の意味的またはテクスチュラルな特性を満たすための明確なガイダンスを通じて、データ一貫性のあるソリューションのサブスペースを探索することである。

This paper attempts to provide an overview of current approaches for solving inverse problems in imaging using variational methods and machine learning. A special focus lies on point estimators and their robustness against adversarial perturbations. In this context results of numerical experiments for a one-dimensional toy problem are provided, showing the robustness of different approaches and empirically verifying theoretical guarantees. Another focus of this review is the exploration of the subspace of data consistent solutions through explicit guidance to satisfy specific semantic or textural properties.
翻訳日:2024-02-20 16:53:29 公開日:2024-02-19
# EmoBench: 大規模言語モデルの感情知性を評価する

EmoBench: Evaluating the Emotional Intelligence of Large Language Models ( http://arxiv.org/abs/2402.12071v1 )

ライセンス: Link先を確認
Sahand Sabour, Siyang Liu, Zheyuan Zhang, June M. Liu, Jinfeng Zhou, Alvionna S. Sunaryo, Juanzi Li, Tatia M.C. Lee, Rada Mihalcea, Minlie Huang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、堅牢で包括的で挑戦的なベンチマークの必要性を強調している。 しかし、感情知性(EI)を評価する研究は極めて限られている。 第一に、感情認識、感情制御や感情理解による思考の円滑化といった本質的なei能力の無視、第二に、それらは、頻繁なパターン、明示的な情報、アノテーションエラーを含む既存のデータセットから主に構築されており、信頼性の低い評価につながる。 EmoBenchは、確立した心理学理論を基礎として、感情理解と感情応用を含む、マシンEIの包括的定義を提案する。 EmoBenchには、英語と中国語で400の手作りの質問が含まれている。 以上の結果から,既存のLDMのEIと平均的な人間の間には,かなりのギャップが見られ,今後の研究への期待が浮かび上がっている。 私たちのコードとデータはhttps://github.com/Sahandfer/EmoBench.comから公開されます。

Recent advances in Large Language Models (LLMs) have highlighted the need for robust, comprehensive, and challenging benchmarks. Yet, research on evaluating their Emotional Intelligence (EI) is considerably limited. Existing benchmarks have two major shortcomings: first, they mainly focus on emotion recognition, neglecting essential EI capabilities such as emotion regulation and thought facilitation through emotion understanding; second, they are primarily constructed from existing datasets, which include frequent patterns, explicit information, and annotation errors, leading to unreliable evaluation. We propose EmoBench, a benchmark that draws upon established psychological theories and proposes a comprehensive definition for machine EI, including Emotional Understanding and Emotional Application. EmoBench includes a set of 400 hand-crafted questions in English and Chinese, which are meticulously designed to require thorough reasoning and understanding. Our findings reveal a considerable gap between the EI of existing LLMs and the average human, highlighting a promising direction for future research. Our code and data will be publicly available from https://github.com/Sahandfer/EmoBench.
翻訳日:2024-02-20 16:53:19 公開日:2024-02-19
# 視覚ナビゲーションタスクにおける解釈可能な脳誘発表現によるRL性能の向上

Interpretable Brain-Inspired Representations Improve RL Performance on Visual Navigation Tasks ( http://arxiv.org/abs/2402.12067v1 )

ライセンス: Link先を確認
Moritz Lange, Raphael C. Engelhardt, Wolfgang Konen, Laurenz Wiskott(参考訳) ビジュアルナビゲーションには、あらゆる機能が必要です。 これらのうち重要なものは、エージェントが自身の位置を判断し、環境に向かう能力である。 先行研究は、この情報を与えられたものとみなすのが一般的であり、あるいは適切な帰納バイアスがなく、時間とともにエラーを蓄積する手法を使用する。 本研究では,神経科学研究に触発された遅い特徴解析(sfa)の手法が,エージェントの位置や方向をエンコードする視覚データの解釈可能な表現を生成することにより,両者の限界を克服することを示す。 我々はsfaを現代的強化学習コンテキストで採用し,表現の分析と比較を行い,階層的sfaがナビゲーションタスクにおいて他の特徴抽出器よりも優れていることを示す。

Visual navigation requires a whole range of capabilities. A crucial one of these is the ability of an agent to determine its own location and heading in an environment. Prior works commonly assume this information as given, or use methods which lack a suitable inductive bias and accumulate error over time. In this work, we show how the method of slow feature analysis (SFA), inspired by neuroscience research, overcomes both limitations by generating interpretable representations of visual data that encode location and heading of an agent. We employ SFA in a modern reinforcement learning context, analyse and compare representations and illustrate where hierarchical SFA can outperform other feature extractors on navigation tasks.
翻訳日:2024-02-20 16:53:00 公開日:2024-02-19
# アルゴリズムフェアネスとしての因果等保護

Causal Equal Protection as Algorithmic Fairness ( http://arxiv.org/abs/2402.12062v1 )

ライセンス: Link先を確認
Marcello Di Bello, Nicol\`o Cangiotti, Michele Loi(参考訳) 過去10年間、コンピュータ科学と哲学の文献はアルゴリズムの公正性の異なる基準を定式化してきた。 最も議論されている分類の1つは、予測アルゴリズムの誤分類が、保護された特性によって抽出された群に対して等しい頻度で起こることを要求する。 直感的なアピールにもかかわらず、分類パリティは攻撃を受けている。 複数のシナリオを想像できる - 直観的に - 予測アルゴリズムは個人を不公平に扱うのではなく、分類パリティに違反する。 進歩するために、我々は刑事司法の文脈で発展した、関連する原則である平等保護に目を向ける。 平等な保護の鍵は、誤分類の率を等化するのではなく、誤分類のリスクを(特定される意味で)等化することである。 平等な保護は, 同一性に対する反例の多くを回避するだけでなく, 予測者が保護特性に対して因果的に下流にある場合など, 様々な共通シナリオにおいて, 道徳的直観をモデル化することができないことを示す。 これらの課題に対処するため、因果等保護という新たな原則を保護し、因果性レンズによる誤分類のリスクの公平な配分をモデル化する。

Over the last ten years the literature in computer science and philosophy has formulated different criteria of algorithmic fairness. One of the most discussed, classification parity, requires that the erroneous classifications of a predictive algorithm occur with equal frequency for groups picked out by protected characteristics. Despite its intuitive appeal, classification parity has come under attack. Multiple scenarios can be imagined in which - intuitively - a predictive algorithm does not treat any individual unfairly, and yet classification parity is violated. To make progress, we turn to a related principle, equal protection, originally developed in the context of criminal justice. Key to equal protection is equalizing the risks of erroneous classifications (in a sense to be specified) as opposed to equalizing the rates of erroneous classifications. We show that equal protection avoids many of the counterexamples to classification parity, but also fails to model our moral intuitions in a number of common scenarios, for example, when the predictor is causally downstream relative to the protected characteristic. To address these difficulties, we defend a novel principle, causal equal protection, that models the fair allocation of the risks of erroneous classification through the lenses of causality.
翻訳日:2024-02-20 16:52:47 公開日:2024-02-19
# すべての言語モデルが大きくて小さく

All Language Models Large and Small ( http://arxiv.org/abs/2402.12061v1 )

ライセンス: Link先を確認
Zhixun Chen, Yali Du, David Mguni(参考訳) 多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。 これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。 本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。 LONDIは、低リソースのLMをどこでも使用しながら、複雑な意思決定と推論を必要とする場合にのみ、大規模なLMを選択的に採用することを学ぶ。 londiは、2つの(オフ)ポリシーネットワーク、lm、大きなlm(llm)、および、スイッチングコントロールを使用してllmを呼び出すシステムの状態を素早く学習する強化学習モジュールで構成される。 次に LLM コールの予算制約とリソース使用量を維持する LONDI の変種を導入する。 理論的には、LONDIはシステム状態のサブセットを学習し、その課題を解決するのに必要なLLMを活性化する。 次に、LONDIが最適解に収束すると同時に、LLMコールの予算制約をほぼ確実に保ちながら、計算コストを大幅に削減しながら様々なタスクを解決できることを証明した。 我々は、ScienceWorldとBabyAI-TextのタスクでLONDIのパフォーマンスをテストし、LONDIはリソース集約型LLMでのみ解決可能なタスクを解き、GPU使用率を最大30%削減できることを示した。

Many leading language models (LMs) use high-intensity computational resources both during training and execution. This poses the challenge of lowering resource costs for deployment and faster execution of decision-making tasks among others. We introduce a novel plug-and-play LM framework named Language Optimising Network Distribution (LONDI) framework. LONDI learns to selectively employ large LMs only where complex decision-making and reasoning are required while using low-resource LMs everywhere else. LONDI consists of a system of two (off-)policy networks, an LM, a large LM (LLM), and a reinforcement learning module that uses switching controls to quickly learn which system states to call the LLM. We then introduce a variant of LONDI that maintains budget constraints on LLM calls and hence its resource usage. Theoretically, we prove LONDI learns the subset of system states to activate the LLM required to solve the task. We then prove that LONDI converges to optimal solutions while also preserving budgetary constraints on LLM calls almost surely enabling it to solve various tasks while significantly lowering computational costs. We test LONDI's performance in a range of tasks in ScienceWorld and BabyAI-Text and demonstrate that LONDI can solve tasks only solvable by resource-intensive LLMs while reducing GPU usage by up to 30%.
翻訳日:2024-02-20 16:52:25 公開日:2024-02-19
# 大規模マルチモーダルモデルにおける視覚言語協調を促進する足場座標

Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models ( http://arxiv.org/abs/2402.12058v1 )

ライセンス: Link先を確認
Xuanyu Lei, Zonghan Yang, Xinrui Chen, Peng Li and Yang Liu(参考訳) 最先端のLMM(Large Multi-Modal Models)は視覚言語タスクにおいて例外的な機能を示す。 高度な機能にもかかわらず、LMMのパフォーマンスは、複数のレベルの視覚情報を必要とする複雑な推論を必要とする困難なシナリオに制限されている。 LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いており、LMMにおける視覚言語協調を促進するためのシンプルで一般的な視覚的プロンプトスキームが欠如している。 本研究では,視覚言語協調の促進を目的とした足場座標の提案を行う。 具体的には、画像内のドット行列を視覚情報アンカーとしてオーバーレイし、多次元座標をテキスト位置参照として利用する。 幅広い視覚言語タスクに対する広範な実験は、テキストCoTプロンプトによるGPT-4VよりもScaffoldの方が優れていることを示した。 私たちのコードはhttps://github.com/leixy20/scaffoldでリリースしています。

State-of-the-art Large Multi-Modal Models (LMMs) have demonstrated exceptional capabilities in vision-language tasks. Despite their advanced functionalities, the performances of LMMs are still limited in challenging scenarios that require complex reasoning with multiple levels of visual information. Existing prompting techniques for LMMs focus on either improving textual reasoning or leveraging tools for image preprocessing, lacking a simple and general visual prompting scheme to promote vision-language coordination in LMMs. In this work, we propose Scaffold prompting that scaffolds coordinates to promote vision-language coordination. Specifically, Scaffold overlays a dot matrix within the image as visual information anchors and leverages multi-dimensional coordinates as textual positional references. Extensive experiments on a wide range of challenging vision-language tasks demonstrate the superiority of Scaffold over GPT-4V with the textual CoT prompting. Our code is released in https://github.com/leixy20/Scaffold.
翻訳日:2024-02-20 16:52:00 公開日:2024-02-19
# LLMによるNLG品質基準の相違

Are LLM-based Evaluators Confusing NLG Quality Criteria? ( http://arxiv.org/abs/2402.12055v1 )

ライセンス: Link先を確認
Xinyu Hu, Mingqi Gao, Sen Hu, Yang Zhang, Yicheng Chen, Teng Xu, Xiaojun Wan(参考訳) いくつかの先行研究により、LCMは異なるタスクに対するNLG評価において良好に機能することが示されている。 しかし,LLMは異なる評価基準を混乱させ,信頼性を低下させることがわかった。 さらなる検証のために,まず,既存のnlg品質基準自体における一貫性のない概念化やあいまいな表現の問題を回避することを検討する。 そこで本稿では,従来の研究と異なる基準で,11の共通側面の明確な階層分類システムを要約する。 行動テストに触発された18種類のアスペクト標的摂動攻撃を詳細に設計し,異なるllmの評価行動のきめ細かい解析を行った。 また,摂動の影響を検証するために,分類システムの指導を超えた人間のアノテーションも実施する。 実験の結果,LSMに固有の混乱や,その他の注目すべき現象が明らかとなり,LCMによる評価のさらなる研究と改善が求められた。

Some prior work has shown that LLMs perform well in NLG evaluation for different tasks. However, we discover that LLMs seem to confuse different evaluation criteria, which reduces their reliability. For further verification, we first consider avoiding issues of inconsistent conceptualization and vague expression in existing NLG quality criteria themselves. So we summarize a clear hierarchical classification system for 11 common aspects with corresponding different criteria from previous studies involved. Inspired by behavioral testing, we elaborately design 18 types of aspect-targeted perturbation attacks for fine-grained analysis of the evaluation behaviors of different LLMs. We also conduct human annotations beyond the guidance of the classification system to validate the impact of the perturbations. Our experimental results reveal confusion issues inherent in LLMs, as well as other noteworthy phenomena, and necessitate further research and improvements for LLM-based evaluation.
翻訳日:2024-02-20 16:51:45 公開日:2024-02-19
# 小さなモデルと大きな洞察:スリムなプロキシモデルを活用してllmの取得時期と取得方法を決定する

Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs ( http://arxiv.org/abs/2402.12052v1 )

ライセンス: Link先を確認
Jiejun Tan, Zhicheng Dou, Yutao Zhu, Peidong Guo, Kun Fang, Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)と検索エンジンの統合は,知識獲得手法の大幅な進化を示唆している。 しかし、llmがすでに持っている知識と検索エンジンの助けを必要とする知識を決定することは未解決の問題である。 既存のほとんどの手法は、LCM自体による予備的な答えや推論の結果によってこの問題を解決するが、計算コストが過度に高い。 本稿では,LLMの知識獲得プロセスを強化するために,スリムプロキシモデルを用いてLLMの知識不足を検出する新しい協調手法であるSlimPLMを提案する。 パラメータがはるかに少ないプロキシモデルを採用し、その回答をヒューリスティックな回答とする。 ヒューリスティックな回答は、ユーザの質問に答えるために必要な知識や、llm内の既知の、未知の知識を予測するために使用される。 LLMが知らない質問において、不足した知識の検索のみを行う。 2つのLLMを持つ5つのデータセットの大規模な実験結果から、質問応答タスクにおけるLLMのエンドツーエンド性能が顕著に向上し、LLM推論コストの低い現在の最先端モデルを達成または超えた。

The integration of large language models (LLMs) and search engines represents a significant evolution in knowledge acquisition methodologies. However, determining the knowledge that an LLM already possesses and the knowledge that requires the help of a search engine remains an unresolved issue. Most existing methods solve this problem through the results of preliminary answers or reasoning done by the LLM itself, but this incurs excessively high computational costs. This paper introduces a novel collaborative approach, namely SlimPLM, that detects missing knowledge in LLMs with a slim proxy model, to enhance the LLM's knowledge acquisition process. We employ a proxy model which has far fewer parameters, and take its answers as heuristic answers. Heuristic answers are then utilized to predict the knowledge required to answer the user question, as well as the known and unknown knowledge within the LLM. We only conduct retrieval for the missing knowledge in questions that the LLM does not know. Extensive experimental results on five datasets with two LLMs demonstrate a notable improvement in the end-to-end performance of LLMs in question-answering tasks, achieving or surpassing current state-of-the-art models with lower LLM inference costs.
翻訳日:2024-02-20 16:51:28 公開日:2024-02-19
# Model Tailor: マルチモーダル大規模言語モデルにおける破滅的予測の緩和

Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models ( http://arxiv.org/abs/2402.12048v1 )

ライセンス: Link先を確認
Didi Zhu, Zhongyi Sun, Zexi Li, Tao Shen, Ke Yan, Shouhong Ding, Kun Kuang, Chao Wu(参考訳) マルチモーダルな大規模言語モデル(MLLM)を微調整することで、目に見えないタスクのパフォーマンスが向上し、元のタスクのパフォーマンスが大幅に低下する。 本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。 提案手法は,小調整パラメータの少数個数 (\leq$ 10\%) を置き換えつつ,事前学習に対する元のタスクの有効性を$\sim$ 99\%,新しいタスクに対して$\sim$ 97\%を維持しながら,事前学習パラメータの保存を主目的とする。 具体的には、塩分と感度分析を統合する融合戦略に基づいて、「モデルパッチ」を特定するためにスパースマスクを導出する。 その後、"パッチをデコレートする"ための補償機構が導入され、ターゲットタスクとオリジナルタスクの両方でモデルのパフォーマンスが向上する。 さらに,本手法はマルチタスクシナリオに適用可能である。 InstructBLIP と LLaVA-1.5 による画像キャプションと視覚的質問応答の両タスクの広範な実験を通じて,本手法は固有の事前学習能力を維持しながら,タスク適応性を示す。

Catastrophic forgetting emerges as a critical challenge when fine-tuning multi-modal large language models (MLLMs), where improving performance on unseen tasks often leads to a significant performance drop on the original tasks. This paper presents a comprehensive analysis of catastrophic forgetting in MLLMs and introduces a post-training adjustment method called Model Tailor. Our method primarily preserves the pre-trained parameters while replacing a small number ($\leq$ 10\%) of fine-tuned parameters, maintaining $\sim$ 99\% effectiveness on original tasks versus pre-training, and achieving $\sim$ 97\% on new tasks compared to standard fine-tuning. Specifically, we derive a sparse mask to identify the "model patch", based on a fusion strategy that integrates salience and sensitivity analysis. Subsequently, a compensation mechanism is introduced to "decorate the patch", enhancing the model's performance on both target and original tasks. Additionally, our method is adaptable to multi-task scenarios. Through extensive experiments on InstructBLIP and LLaVA-1.5 in both image captioning and visual question answering tasks, our approach demonstrates significant task adaptability while preserving inherent pre-trained capabilities.
翻訳日:2024-02-20 16:51:06 公開日:2024-02-19
# Citation Amnesia:NLPその他の学術分野はCitation Age Recessionにある

Citation Amnesia: NLP and Other Academic Fields Are in a Citation Age Recession ( http://arxiv.org/abs/2402.12046v1 )

ライセンス: Link先を確認
Jan Philip Wahle and Terry Ruas and Mohamed Abdalla and Bela Gipp and Saif M. Mohammad(参考訳) 本研究は, 43年間(1980-2023年)の20分野にわたる研究成果を引用する傾向について検討した。 我々は,NLPが時間とともに他の分野と類似した時間的引用パターンを示すかどうか,あるいは相違点が観察できるかどうかを解析するために,これらの20分野の文脈における古い研究を引用するNLPの妥当性を述べた。 我々の分析は、およそ4億4000万の論文のデータセットに基づいて、より広範な科学的傾向を明らかにしている: 多くの分野は、古い研究(心理学、コンピュータ科学など)を引用して明らかに減少している。 我々はこの減少を「引用年齢不況」と呼び、経済学者が経済活動の減少期間を定義する方法に類似している。 この傾向はNLPとMLの研究で最強(以前のピークからの引用年齢の12.8%と5.5%)である。 以上の結果から,近年の論文の引用は,論文数の増加を抑えつつも,出版率(分野ごとの3.4%,人文科学の5.2%,フォーマル科学の5.5%)の上昇によるものではないことが示唆された。 研究成果は,過去の文献,特にNLPに対する科学コミュニティの関与や,古い研究を無視する可能性について疑問を呈するものである。 結果を示すデータとデモが公開されている。

This study examines the tendency to cite older work across 20 fields of study over 43 years (1980--2023). We put NLP's propensity to cite older work in the context of these 20 other fields to analyze whether NLP shows similar temporal citation patterns to these other fields over time or whether differences can be observed. Our analysis, based on a dataset of approximately 240 million papers, reveals a broader scientific trend: many fields have markedly declined in citing older works (e.g., psychology, computer science). We term this decline a 'citation age recession', analogous to how economists define periods of reduced economic activity. The trend is strongest in NLP and ML research (-12.8% and -5.5% in citation age from previous peaks). Our results suggest that citing more recent works is not directly driven by the growth in publication rates (-3.4% across fields; -5.2% in humanities; -5.5% in formal sciences) -- even when controlling for an increase in the volume of papers. Our findings raise questions about the scientific community's engagement with past literature, particularly for NLP, and the potential consequences of neglecting older but relevant research. The data and a demo showcasing our results are publicly available.
翻訳日:2024-02-20 16:50:41 公開日:2024-02-19
# DARTWARSにおける広帯域パラメトリック増幅

Broadband parametric amplification in DARTWARS ( http://arxiv.org/abs/2402.12045v1 )

ライセンス: Link先を確認
Marco Faverzani, Pietro Campana, Rodolfo Carobene, Marco Gobbo, Felix Ahrens, Guerino Avallone, Carlo Barone, Matteo Borghesi, Silvia Capelli, Giovanni Carapella, Anna Paola Caricato, Luca Callegaro, Iacopo Carusotto, Andrea Celotto, Alessandro Cian, Alessandro D'Elia, Daniele Di Gioacchino, Emanuele Enrico, Paolo Falferi, Luca Fasolo, Elena Ferri, Giovanni Filatrella, Claudio Gatti, Damiano Giubertoni, Veronica Granata, Claudio Guarcello, Alessandro Irace, Danilo Labranca, Angelo Leo, Carlo Ligi, Giovanni Maccarrone, Federica Mantegazzini, Benno Margesin, Giuseppe Maruccio, Renato Mezzena, Anna Grazia Moneduro, Roberto Moretti, Angelo Nucciotti, Luca Oberto, Luca Origo, Sergio Pagano, Alex Stephane Piedjou Komnang, Luca Piersanti, Alessio Rettaroli, Silvia Rizzato, Simone Tocci, Andrea Vinante, Mario Zannoni, Andrea Giachero(参考訳) 超伝導パラメトリック増幅器は、非常に低いレベルの追加ノイズで弱信号の増幅能力を提供し、量子制限増幅に到達できる。 この特徴は、これらを高忠実な量子コンピューティングの領域において不可欠な要素とし、量子センシングの分野における進歩を促進するのに役立つ。 特に、進行波パラメトリック増幅器(twpas)は、より確立された技術であるにもかかわらず、ジョセフソンパラメトリック増幅器(jpas)に欠けている特徴であるマルチギガヘルツ増幅帯域のため、実用用途に特に適している。 本稿では,dartwars (detector array readout with travel wave amplifiers) プロジェクトの最近の開発について紹介する。 このプロジェクトの目的は20ドル(約2万2000円)の増幅を実現できるkitwpaの開発だ。 生産歩留まりを高めるため、最初の試作機は最終装置の半分の長さと期待利得で製造された。 本稿では,半長さプロトタイプの1つをキャラクタリゼーションした結果について述べる。 この測定結果によると、kitwpaの平均増幅量は、約9$,$dbで、帯域幅は2$,$ghzで、長さは17$,$mmである。

Superconducting parametric amplifiers offer the capability to amplify feeble signals with extremely low levels of added noise, potentially reaching quantum-limited amplification. This characteristic makes them essential components in the realm of high-fidelity quantum computing and serves to propel advancements in the field of quantum sensing. In particular, Traveling-Wave Parametric Amplifiers (TWPAs) may be especially suitable for practical applications due to their multi-Gigahertz amplification bandwidth, a feature lacking in Josephson Parametric Amplifiers (JPAs), despite the latter being a more established technology. This paper presents recent developments of the DARTWARS (Detector Array Readout with Traveling Wave AmplifieRS) project, focusing on the latest prototypes of Kinetic Inductance TWPAs (KITWPAs). The project aims to develop a KITWPA capable of achieving $20\,$ dB of amplification. To enhance the production yield, the first prototypes were fabricated with half the length and expected gain of the final device. In this paper, we present the results of the characterization of one of the half-length prototypes. The measurements revealed an average amplification of approximately $9\,$dB across a $2\,$GHz bandwidth for a KITWPA spanning $17\,$mm in length.
翻訳日:2024-02-20 16:50:14 公開日:2024-02-19
# 圧縮光を用いた分散量子ビット読み出しの指数関数的改善

Exponentially Improved Dispersive Qubit Readout with Squeezed Light ( http://arxiv.org/abs/2402.12044v1 )

ライセンス: Link先を確認
Wei Qin, Adam Miranowicz, and Franco Nori(参考訳) 圧縮光で分散キュービットの読み出しを改善することが長年の目標だった。 しかし、IES (Injected external squeezing) {\it cannot} により、SNR (Signal-to-noise ratio) の実質的な増加が可能となり、同時に、ICS (Intracavity squeezing) の使用によるSNRの増加も無視可能である。 ここで、逆直観的に} は、ies と ic を一緒に使うと、測定時間に対するsnr の「指数関数的」な改善につながることを証明し、通常、桁違いに減少する測定誤差に対応する。 さらに驚くべきことに、短時間の測定では、SNRはさらに指数関数的に改善され、スクイーズパラメータは2倍になる。 その結果、高速かつ高忠実な読み出しを予測できる。 この研究は、量子エラーの修正やフォールトトレラントな量子計算に即座に応用することで、分散量子ビット読み出しのための絞り込み光を探索するための有望な道を提供する。

It has been a long-standing goal to improve dispersive qubit readout with squeezed light. However, injected external squeezing (IES) {\it cannot} enable a practically interesting increase in the signal-to-noise ratio (SNR), and simultaneously, the increase of the SNR due to the use of intracavity squeezing (ICS) is even {\it negligible}. Here, we {\it counterintuitively} demonstrate that using IES and ICS together can lead to an {\it exponential} improvement of the SNR for any measurement time, corresponding to a measurement error reduced typically by many orders of magnitude. More remarkably, we find that in a short-time measurement, the SNR is even improved exponentially with {\it twice} the squeezing parameter. As a result, we predict a fast and high-fidelity readout. This work offers a promising path toward exploring squeezed light for dispersive qubit readout, with immediate applications in quantum error correction and fault-tolerant quantum computation.
翻訳日:2024-02-20 16:49:51 公開日:2024-02-19
# ブラインド画像品質評価のための軽量並列フレームワーク

A Lightweight Parallel Framework for Blind Image Quality Assessment ( http://arxiv.org/abs/2402.12043v1 )

ライセンス: Link先を確認
Qunyue Huang, Bin Fang(参考訳) 既存のブラインド画像品質評価(BIQA)手法は、畳み込みニューラルネットワーク(CNN)やトランスフォーマーに基づく複雑なネットワークの設計に重点を置いている。 さらに、いくつかのBIQA手法は、2段階の訓練方法でモデルの性能を向上させる。 大幅な進歩にもかかわらず、これらの手法はモデルのパラメータ数を著しく増加させ、より多くのトレーニング時間と計算資源を必要とする。 上記の問題に対処するため,BIQAのための軽量並列フレームワーク (LPF) を提案する。 まず,事前学習した特徴抽出ネットワークを用いて視覚特徴を抽出する。 さらに、視覚的特徴を変換するための簡易で効果的な特徴埋め込みネットワーク(FEN)を構築し、顕著な歪み情報を含む潜在表現を生成する。 潜在表現のロバスト性を改善するために,サンプルレベルのカテゴリ予測タスクとバッチレベルの品質比較タスクを含む2つの新しい自己教師付きサブタスクを提案する。 粗粒度歪み知覚を有するモデルを支援するためにサンプルレベルカテゴリ予測タスクを提案する。 バッチレベルの品質比較タスクを定式化し、トレーニングデータを強化し、潜在表現のロバスト性を向上させる。 最後に、遅延表現を歪み認識品質回帰ネットワーク(DaQRN)に入力し、人間の視覚システム(HVS)をシミュレートし、正確な品質スコアを生成する。 複数のベンチマークデータセットに対する実験結果から,提案手法は最先端手法よりも優れた性能を示すことが示された。 さらに,提案手法は計算複雑性が低く,収束速度が速いことを示す。

Existing blind image quality assessment (BIQA) methods focus on designing complicated networks based on convolutional neural networks (CNNs) or transformer. In addition, some BIQA methods enhance the performance of the model in a two-stage training manner. Despite the significant advancements, these methods remarkably raise the parameter count of the model, thus requiring more training time and computational resources. To tackle the above issues, we propose a lightweight parallel framework (LPF) for BIQA. First, we extract the visual features using a pre-trained feature extraction network. Furthermore, we construct a simple yet effective feature embedding network (FEN) to transform the visual features, aiming to generate the latent representations that contain salient distortion information. To improve the robustness of the latent representations, we present two novel self-supervised subtasks, including a sample-level category prediction task and a batch-level quality comparison task. The sample-level category prediction task is presented to help the model with coarse-grained distortion perception. The batch-level quality comparison task is formulated to enhance the training data and thus improve the robustness of the latent representations. Finally, the latent representations are fed into a distortion-aware quality regression network (DaQRN), which simulates the human vision system (HVS) and thus generates accurate quality scores. Experimental results on multiple benchmark datasets demonstrate that the proposed method achieves superior performance over state-of-the-art approaches. Moreover, extensive analyses prove that the proposed method has lower computational complexity and faster convergence speed.
翻訳日:2024-02-20 16:49:29 公開日:2024-02-19
# SSTKG:Intepretable and Versatile Dynamic Information Embeddingのための簡易時空間知識グラフ

SSTKG: Simple Spatio-Temporal Knowledge Graph for Intepretable and Versatile Dynamic Information Embedding ( http://arxiv.org/abs/2402.12132v1 )

ライセンス: Link先を確認
Ruiyi Yang, Flora D. Salim and Hao Xue(参考訳) 知識グラフ(KG)は、現実のデータセットを使用したリンク予測とレコメンデーションにますます採用されている。 しかし、現在の手法の大半は静的データに依存しており、現実のシナリオの動的性質や時空間的属性を無視している。 これはしばしば最適でない予測とレコメンデーションをもたらす。 効果的な時空間推定手法はあるが、大きなデータセットによるスケーラビリティやセマンティック理解の不十分など、パフォーマンスを損なう課題に直面している。 これらの制約に対処するために,時空間KGの構築と探索を目的とした,SSTKG(Simple Spatio-Temporal Knowledge Graph)を提案する。 空間的および時間的データをkgsに統合するために, 新たな3段階埋め込み方式を用いた。 出力埋め込みは将来の時間的シーケンス予測や空間情報レコメンデーションに利用でき、小売販売予測や交通量予測といった様々なアプリケーションに有用な洞察を提供する。 我々のフレームワークは、動的KGの基盤となるパターンや傾向を理解し、予測の精度とレコメンデーションの関連性を高めるための、シンプルで包括的な方法を提供する。 この研究は、kgsにおける時空間データのより効果的な利用への道を開き、幅広い分野にまたがる潜在的な影響をもたらす。

Knowledge graphs (KGs) have been increasingly employed for link prediction and recommendation using real-world datasets. However, the majority of current methods rely on static data, neglecting the dynamic nature and the hidden spatio-temporal attributes of real-world scenarios. This often results in suboptimal predictions and recommendations. Although there are effective spatio-temporal inference methods, they face challenges such as scalability with large datasets and inadequate semantic understanding, which impede their performance. To address these limitations, this paper introduces a novel framework - Simple Spatio-Temporal Knowledge Graph (SSTKG), for constructing and exploring spatio-temporal KGs. To integrate spatial and temporal data into KGs, our framework exploited through a new 3-step embedding method. Output embeddings can be used for future temporal sequence prediction and spatial information recommendation, providing valuable insights for various applications such as retail sales forecasting and traffic volume prediction. Our framework offers a simple but comprehensive way to understand the underlying patterns and trends in dynamic KG, thereby enhancing the accuracy of predictions and the relevance of recommendations. This work paves the way for more effective utilization of spatio-temporal data in KGs, with potential impacts across a wide range of sectors.
翻訳日:2024-02-20 16:40:14 公開日:2024-02-19
# 最大強度投影の2次元アノテーションによる3次元血管分割

3D Vascular Segmentation Supervised by 2D Annotation of Maximum Intensity Projection ( http://arxiv.org/abs/2402.12128v1 )

ライセンス: Link先を確認
Zhanqiang Guo and Zimeng Tan and Jianjiang Feng and Jie Zhou(参考訳) 血管構造のセグメンテーションは、医学的分析と臨床応用において重要な役割を果たす。 完全教師付きセグメンテーションモデルの実践的導入は、3次元空間におけるアノテート容器の複雑で時間を要する性質によって妨げられる。 このことが、高価なセグメンテーションアノテーションへの依存を減らす弱い教師付きアプローチの探求を促した。 それにもかかわらず、臓器分節法(点、境界箱、落書きを含む)では、スパース血管構造を扱う際には、最適以下の性能を示す。 この問題を緩和するために,我々は3次元体積の次元を2次元画像に縮小するために最大強度投影(MIP)を用い,その2次元ラベルを用いて3次元血管セグメンテーションモデルをトレーニングするためのガイダンスと監視を行う。 まず2次元投影のアノテーションを用いて3次元血管の擬似ラベルを生成する。 次に,2Dラベルの取得手法を考慮し,MIPを介して2D-3Dの深い特徴を融合させてセグメンテーション性能を向上させる弱教師付きネットワークを導入する。 さらに,信頼度学習と不確実性推定を統合し,生成された擬似ラベルを洗練し,セグメンテーションネットワークを微調整する。 本手法は5つのデータセット(脳血管,大動脈,冠動脈を含む)で検証され,分画血管における高い競合性を示し,血管注記に必要な時間と労力を大幅に削減する可能性を示す。 私たちのコードは、https://github.com/gzq17/Weakly-Supervised-by-MIPで利用可能です。

Vascular structure segmentation plays a crucial role in medical analysis and clinical applications. The practical adoption of fully supervised segmentation models is impeded by the intricacy and time-consuming nature of annotating vessels in the 3D space. This has spurred the exploration of weakly-supervised approaches that reduce reliance on expensive segmentation annotations. Despite this, existing weakly supervised methods employed in organ segmentation, which encompass points, bounding boxes, or graffiti, have exhibited suboptimal performance when handling sparse vascular structure. To alleviate this issue, we employ maximum intensity projection (MIP) to decrease the dimensionality of 3D volume to 2D image for efficient annotation, and the 2D labels are utilized to provide guidance and oversight for training 3D vessel segmentation model. Initially, we generate pseudo-labels for 3D blood vessels using the annotations of 2D projections. Subsequently, taking into account the acquisition method of the 2D labels, we introduce a weakly-supervised network that fuses 2D-3D deep features via MIP to further improve segmentation performance. Furthermore, we integrate confidence learning and uncertainty estimation to refine the generated pseudo-labels, followed by fine-tuning the segmentation network. Our method is validated on five datasets (including cerebral vessel, aorta and coronary artery), demonstrating highly competitive performance in segmenting vessels and the potential to significantly reduce the time and effort required for vessel annotation. Our code is available at: https://github.com/gzq17/Weakly-Supervised-by-MIP.
翻訳日:2024-02-20 16:39:51 公開日:2024-02-19
# 視覚言語モデルの画像レビュー能力の評価

Evaluating Image Review Ability of Vision Language Models ( http://arxiv.org/abs/2402.12121v1 )

ライセンス: Link先を確認
Shigeki Saito, Kazuki Hayashi, Yusuke Ide, Yusuke Sakai, Kazuma Onishi, Toma Suzuki, Seiji Gobara, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe(参考訳) 大規模視覚言語モデル (LVLM) は、1つのモデルで画像やテキスト入力を処理できる言語モデルである。 本稿では,LVLMを用いた画像のレビューテキストの生成について検討する。 LVLMが画像のレビューを行う能力は完全には理解されておらず、レビュー能力の方法論的な評価の必要性を強調している。 画像キャプションとは異なり、レビューテキストは画像構成や露出といった様々な視点から書くことができる。 このレビュー視点の多様性は、画像の単一の正しいレビューを一意に決定するのを難しくする。 この課題に対処するために、ランク相関分析に基づく評価手法を導入し、レビューテキストを人間とLVLMでランク付けし、これらのランク付けの相関を計測する。 我々は、最近のLVLMの画像レビュー能力を評価するためのベンチマークデータセットを作成することで、このアプローチをさらに検証する。 このデータセットを用いた実験により,LVLM,特に他の評価的文脈において優れており,高品質な画像レビューとサブスタンダードな画像レビューの区別が優れていることがわかった。

Large-scale vision language models (LVLMs) are language models that are capable of processing images and text inputs by a single model. This paper explores the use of LVLMs to generate review texts for images. The ability of LVLMs to review images is not fully understood, highlighting the need for a methodical evaluation of their review abilities. Unlike image captions, review texts can be written from various perspectives such as image composition and exposure. This diversity of review perspectives makes it difficult to uniquely determine a single correct review for an image. To address this challenge, we introduce an evaluation method based on rank correlation analysis, in which review texts are ranked by humans and LVLMs, then, measures the correlation between these rankings. We further validate this approach by creating a benchmark dataset aimed at assessing the image review ability of recent LVLMs. Our experiments with the dataset reveal that LVLMs, particularly those with proven superiority in other evaluative contexts, excel at distinguishing between high-quality and substandard image reviews.
翻訳日:2024-02-20 16:39:27 公開日:2024-02-19
# DualView: デュアルパースペクティブからのデータ属性

DualView: Data Attribution from the Dual Perspective ( http://arxiv.org/abs/2402.12118v1 )

ライセンス: Link先を確認
Galip \"Umit Yolcu, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin(参考訳) ローカルデータ属性(あるいは影響推定)技術は、トレーニング中に個々のデータポイントがテスト期間中にトレーニング済みの機械学習モデルの特定の予測に与える影響を推定することを目的としている。 従来の手法は、文献から異なる評価基準を満たさないか、高い計算需要によって特徴づけられるか、両方に苦しむかのどちらかである。 本研究では,サロゲートモデルに基づくポストホックデータ帰属のための新しい手法であるdualviewを提案する。 ニューラルネットワークに着目し,関連する局所的データ帰属法に対する文献から適切な定量的評価戦略を用いて,提案手法を評価した。 DualViewは、他の手法に比べて計算資源がかなり少ないのに対して、評価指標間で競合するアプローチに匹敵する性能を示す。 さらに,提案手法では,超パラメータを用いてスパースネスをチューニングできるスパース説明を生成する。 最後に、DualViewでは、既存のローカル機能属性メソッドと互換性のあるローカルデータ属性からの説明を描画できるようになった。 トレーニングセットからの衝撃的なサンプルの観点から説明された(テスト)データポイントの各予測に対して、その(テスト)サンプルの予測が、特徴を認識し、モデルによって認識される各影響トレーニングサンプルとどのように関連しているかを計算し、視覚化することができる。 私たちはdualview onlineのオープンソース実装と、私たちが比較した他のすべてのローカルデータトリビューションメソッドの実装、およびここで報告したメトリクスを完全な再現性のために提供します。

Local data attribution (or influence estimation) techniques aim at estimating the impact that individual data points seen during training have on particular predictions of an already trained Machine Learning model during test time. Previous methods either do not perform well consistently across different evaluation criteria from literature, are characterized by a high computational demand, or suffer from both. In this work we present DualView, a novel method for post-hoc data attribution based on surrogate modelling, demonstrating both high computational efficiency, as well as good evaluation results. With a focus on neural networks, we evaluate our proposed technique using suitable quantitative evaluation strategies from the literature against related principal local data attribution methods. We find that DualView requires considerably lower computational resources than other methods, while demonstrating comparable performance to competing approaches across evaluation metrics. Futhermore, our proposed method produces sparse explanations, where sparseness can be tuned via a hyperparameter. Finally, we showcase that with DualView, we can now render explanations from local data attributions compatible with established local feature attribution methods: For each prediction on (test) data points explained in terms of impactful samples from the training set, we are able to compute and visualize how the prediction on (test) sample relates to each influential training sample in terms of features recognized and by the model. We provide an Open Source implementation of DualView online, together with implementations for all other local data attribution methods we compare against, as well as the metrics reported here, for full reproducibility.
翻訳日:2024-02-20 16:39:10 公開日:2024-02-19
# 光コヒーレンストモグラフィにおける3次元画像融合のための時空間イルミネーションモデル

A Spatiotemporal Illumination Model for 3D Image Fusion in Optical Coherence Tomography ( http://arxiv.org/abs/2402.12114v1 )

ライセンス: Link先を確認
Stefan Ploner, Jungeun Won, Julia Schottenhamml, Jessica Girgis, Kenneth Lam, Nadia Waheed, James Fujimoto, Andreas Maier(参考訳) 光コヒーレンストモグラフィー(OCT)は、眼科における臨床標準となった非侵襲的、マイクロメータースケールの画像モダリティである。 ラスタ走査により、逐次断面画像スライスを取得し、体積データを生成する。 in-vivoイメージングは、動きと照明のアーティファクトとして現れるスライス間の不連続に苦しむ。 直交ラスタ走査ボリュームデータにおける連続性を利用した新しい照明モデルを提案する。 新たに開発した時空間パラメトリゼーションは, 時間的, 時間的, 空間的に, 横方向の照明連続性に寄与する。 しかし、我々の定式化は、不連続性を持つかもしれないスライス間仮定を成さない。 OCTにおける画像再構成における3次元逆モデルの最初の最適化である。 病理組織検査による68巻の評価では,88\%で照明アーティファクトが減少し,中程度に残存する照明アーティファクトが6\%に留まった。 この方法は、より正確で、OCTにおけるスーパーサンプリングと高度な3次元画像再構成が可能な前方ワープ運動補正データの使用を可能にする。

Optical coherence tomography (OCT) is a non-invasive, micrometer-scale imaging modality that has become a clinical standard in ophthalmology. By raster-scanning the retina, sequential cross-sectional image slices are acquired to generate volumetric data. In-vivo imaging suffers from discontinuities between slices that show up as motion and illumination artifacts. We present a new illumination model that exploits continuity in orthogonally raster-scanned volume data. Our novel spatiotemporal parametrization adheres to illumination continuity both temporally, along the imaged slices, as well as spatially, in the transverse directions. Yet, our formulation does not make inter-slice assumptions, which could have discontinuities. This is the first optimization of a 3D inverse model in an image reconstruction context in OCT. Evaluation in 68 volumes from eyes with pathology showed reduction of illumination artifacts in 88\% of the data, and only 6\% showed moderate residual illumination artifacts. The method enables the use of forward-warped motion corrected data, which is more accurate, and enables supersampling and advanced 3D image reconstruction in OCT.
翻訳日:2024-02-20 16:38:42 公開日:2024-02-19
# テンソルネットワークを用いたパラメタライズド量子回路の合同最適化手法

A joint optimization approach of parameterized quantum circuits with a tensor network ( http://arxiv.org/abs/2402.12105v1 )

ライセンス: Link先を確認
Clara Ferreira Cores, Kaur Kristjuhan, Mark Nicholas Jones(参考訳) 量子コンピュータの利点は、従来の量子コンピュータと比較してシミュレーションを行うときにもたらされるが、現在のノイズの多い中間スケール量子(nisq)デバイスはその能力に制限がある。 パラメタライズド量子回路(PQC)のトレーニングは、ハードウェア実装に必要な浅い回路深さの要求により、依然として重要な課題である。 変分量子固有解法(VQE)のような量子デバイスと共に古典的コンピュータを用いるハイブリッド手法は、関連する最適化問題を解決するためにNISQデバイスの能力を分析するのに有用であることが証明されている。 それでも、量子力学における多体問題を含む複雑な構造のシミュレーションでは、システムの表現と、古典的計算装置を明らかに上回る結果を得る上での大きな問題が残っている。 本研究では,vqeアルゴリズムの性能向上を試み,パラメータ化テンソルネットワーク(tns)の利用を提案する。 ここで、システムのハミルトニアンをパラメータ化されたユニタリtn内の行列積演算子(mpo)にカプセル化し、tnとvqeの間の最適化タスクを分割するジョイントアプローチを提案する。 VQEによるランダム初期化量子回路の最適化と比較して,ハイブリッドTN-VQEの実装によりアルゴリズムの収束性が向上することを示す。

Despite the advantage quantum computers are expected to deliver when performing simulations compared to their classical counterparts, the current noisy intermediate-scale quantum (NISQ) devices remain limited in their capabilities. The training of parameterized quantum circuits (PQCs) remains a significant practical challenge, exacerbated by the requirement of shallow circuit depth necessary for their hardware implementation. Hybrid methods employing classical computers alongside quantum devices, such as the Variational Quantum Eigensolver (VQE), have proven useful for analyzing the capabilities of NISQ devices to solve relevant optimization problems. Still, in the simulation of complex structures involving the many-body problem in quantum mechanics, major issues remain about the representation of the system and obtaining results which clearly outperform classical computational devices. In this research contribution we propose the use of parameterized Tensor Networks (TNs) to attempt an improved performance of the VQE algorithm. A joint approach is presented where the Hamiltonian of a system is encapsulated into a Matrix Product Operator (MPO) within a parameterized unitary TN hereby splitting up the optimization task between the TN and the VQE. We show that the hybrid TN-VQE implementation improves the convergence of the algorithm in comparison to optimizing randomly-initialized quantum circuits via VQE.
翻訳日:2024-02-20 16:38:24 公開日:2024-02-19
# Groot:木に基づくセマンティック変換を用いた生成テキスト・画像モデルの逆テスト

Groot: Adversarial Testing for Generative Text-to-Image Models with Tree-based Semantic Transformation ( http://arxiv.org/abs/2402.12100v1 )

ライセンス: Link先を確認
Yi Liu, Guowei Yang, Gelei Deng, Feiyue Chen, Yuqi Chen, Ling Shi, Tianwei Zhang, and Yang Liu(参考訳) テキストから画像への生成モデルの普及により、それらの安全性は重要な関心事となる。 NSFW(Not-Safe-For-Work)コンテンツを生成するために,このようなモデルを誘導できるかどうかを調査するために,敵の試験技術が開発された。 しかし、既存のソリューションは、成功率や非効率性など、いくつかの課題に直面している。 テキストから画像へのモデルの逆テストにツリーベースのセマンティクス変換を利用する最初の自動化フレームワークであるgrootを紹介する。 grootはsemantic decomposition と sensitive element drowning strategy をllmと共に採用し、敵対的プロンプトを体系的に洗練している。 DALL-E 3 や Midjourney のような主要なテキスト・ツー・イメージモデルにおいて,Groot の有効性は現状の手法の性能を上回るだけでなく,顕著な成功率 (93.66%) を達成している。

With the prevalence of text-to-image generative models, their safety becomes a critical concern. adversarial testing techniques have been developed to probe whether such models can be prompted to produce Not-Safe-For-Work (NSFW) content. However, existing solutions face several challenges, including low success rate and inefficiency. We introduce Groot, the first automated framework leveraging tree-based semantic transformation for adversarial testing of text-to-image models. Groot employs semantic decomposition and sensitive element drowning strategies in conjunction with LLMs to systematically refine adversarial prompts. Our comprehensive evaluation confirms the efficacy of Groot, which not only exceeds the performance of current state-of-the-art approaches but also achieves a remarkable success rate (93.66%) on leading text-to-image models such as DALL-E 3 and Midjourney.
翻訳日:2024-02-20 16:38:01 公開日:2024-02-19
# 問合せワーピングによる人間のビデオ翻訳

Human Video Translation via Query Warping ( http://arxiv.org/abs/2402.12099v1 )

ライセンス: Link先を確認
Haiming Zhu and Yangyang Xu and Shengfeng He(参考訳) 本稿では,時間的コヒーレントなヒューマンモーションビデオ翻訳のための新しいフレームワークであるQueryWarpを提案する。 局所的および構造的領域の保存を損なう時間的一貫性を確保するために、キーと値のトークンのみに依存する、既存の拡散ベースのビデオ編集アプローチ。 対照的に,異なるフレームからの問合せトークン間の時間的相関関係を構築することにより,補足的な問合せ優先を考えることを目的とする。 まず,人間の前景運動を連続的に捉えるために,音源ポーズから出現フローを抽出する。 その後,拡散モデルの復調過程において,従来のフレームのクエリトークンをワープするために出現フローを用いて,現在のフレームのクエリと整合する。 このクエリワーピングは、自己接続層の出力に明示的な制約を課し、時間的コヒーレントな翻訳を効果的に保証する。 我々は,人間の動画像翻訳タスクについて実験を行い,QueryWarpフレームワークが定性的かつ定量的に最先端の手法を超えることを示す。

In this paper, we present QueryWarp, a novel framework for temporally coherent human motion video translation. Existing diffusion-based video editing approaches that rely solely on key and value tokens to ensure temporal consistency, which scarifies the preservation of local and structural regions. In contrast, we aim to consider complementary query priors by constructing the temporal correlations among query tokens from different frames. Initially, we extract appearance flows from source poses to capture continuous human foreground motion. Subsequently, during the denoising process of the diffusion model, we employ appearance flows to warp the previous frame's query token, aligning it with the current frame's query. This query warping imposes explicit constraints on the outputs of self-attention layers, effectively guaranteeing temporally coherent translation. We perform experiments on various human motion video translation tasks, and the results demonstrate that our QueryWarp framework surpasses state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2024-02-20 16:37:45 公開日:2024-02-19
# グラディエントベースターゲットローカライゼーションによる説明可能なLiDARポイントクラウドセマンティックセグメンテーションに向けて

Towards Explainable LiDAR Point Cloud Semantic Segmentation via Gradient Based Target Localization ( http://arxiv.org/abs/2402.12098v1 )

ライセンス: Link先を確認
Abhishek Kuriyal, Vaibhav Kumar(参考訳) LiDARポイントクラウドのセマンティックセグメンテーション(SS)は、都市計画や自動運転など、多くのアプリケーションに不可欠である。 画像のSS予測の解釈には多くの進歩があったが、ポイントクラウドSS予測の解釈は依然として課題である。 本稿では,ニューラルネットワークアクティベーション層内のサリエンシマップを生成するための勾配法であるpGS-CAMを紹介する。 局所的な重要性を強調するために勾配を使用するGrad-CAMにインスパイアされたpGS-CAMは、さまざまなデータセット(SemanticKITTI、Paris-Lille3D、DALES)と3Dディープラーニングアーキテクチャ(KPConv、RandLANet)で堅牢で効果的である。 pGS-CAMは,各点の寄与を強調することにより,SSアーキテクチャの中間活性化における特徴学習を効果的にアクティベートすることを示す。 これにより、SSモデルがどのように予測を行い、改善の潜在的な領域を特定するのかをよりよく理解できます。 関連コードはhttps://github.com/geoai4cities/pGS-CAMで公開されている。

Semantic Segmentation (SS) of LiDAR point clouds is essential for many applications, such as urban planning and autonomous driving. While much progress has been made in interpreting SS predictions for images, interpreting point cloud SS predictions remains a challenge. This paper introduces pGS-CAM, a novel gradient-based method for generating saliency maps in neural network activation layers. Inspired by Grad-CAM, which uses gradients to highlight local importance, pGS-CAM is robust and effective on a variety of datasets (SemanticKITTI, Paris-Lille3D, DALES) and 3D deep learning architectures (KPConv, RandLANet). Our experiments show that pGS-CAM effectively accentuates the feature learning in intermediate activations of SS architectures by highlighting the contribution of each point. This allows us to better understand how SS models make their predictions and identify potential areas for improvement. Relevant codes are available at https://github.com/geoai4cities/pGS-CAM.
翻訳日:2024-02-20 16:37:28 公開日:2024-02-19
# TOM:地球観測のための拡張可能なデータセット

Major TOM: Expandable Datasets for Earth Observation ( http://arxiv.org/abs/2402.12095v1 )

ライセンス: Link先を確認
Alistair Francis and Mikolaj Czerkawski(参考訳) ディープラーニングモデルはますますデータに飢えており、トレーニングに必要なデータセットの収集とコンパイルにはかなりのリソースを必要としている。 しかしながら、EOにおけるデータセットの展望は比較的微妙であり、さまざまなフォーマットやデータ構造による相互運用性は困難である。 より大きなデータセットを構築し、労力の重複を最小限に抑えるためには、複数のデータセットを組み合わせてアクセスするための共有フレームワークが必要です。 ここでは、この拡張可能なフレームワークとして、Major TOM(地球観測メタセット)を提案する。 主に、グリッドポイントのセットに基づく地理的インデックスシステムと、異なるソースを持つ複数のデータセットをマージ可能なメタデータ構造で構成されている。 フレームワークとしてのメジャー・トムの仕様に加えて、この研究は大規模なオープンアクセス・データセットである majortom-core も提供しており、地球の陸地の大部分をカバーしている。 このデータセットはコミュニティにすぐに役立つリソースを提供し、Major TOMエコシステムへの将来の追加のテンプレートとして機能する。 アクセス:https://huggingface.co/Major-TOM

Deep learning models are increasingly data-hungry, requiring significant resources to collect and compile the datasets needed to train them, with Earth Observation (EO) models being no exception. However, the landscape of datasets in EO is relatively atomised, with interoperability made difficult by diverse formats and data structures. If ever larger datasets are to be built, and duplication of effort minimised, then a shared framework that allows users to combine and access multiple datasets is needed. Here, Major TOM (Terrestrial Observation Metaset) is proposed as this extensible framework. Primarily, it consists of a geographical indexing system based on a set of grid points and a metadata structure that allows multiple datasets with different sources to be merged. Besides the specification of Major TOM as a framework, this work also presents a large, open-access dataset, MajorTOM-Core, which covers the vast majority of the Earth's land surface. This dataset provides the community with both an immediately useful resource, as well as acting as a template for future additions to the Major TOM ecosystem. Access: https://huggingface.co/Major-TOM
翻訳日:2024-02-20 16:37:07 公開日:2024-02-19
# 大きな言語モデルはロジックを理解するか、単にコンテキストを模倣するか?

Do Large Language Models Understand Logic or Just Mimick Context? ( http://arxiv.org/abs/2402.12091v1 )

ライセンス: Link先を確認
Junbing Yan, Chengyu Wang, Jun Huang, Wei Zhang(参考訳) 過去数年間、大規模言語モデル(LLM)の能力は広く注目されており、論理的推論や記号的推論といった複雑なシナリオにおいて非常によく機能している。 この進歩に寄与する重要な要因は、コンテキスト内学習と数発のプロンプトの利点である。 しかし、文脈推論を用いたモデルの成功の背景にある理由は十分に検討されていない。 LLMは推論を引き出す論理的ルールを理解しているのか、あるいはコンテキストを通して確率的マッピングのタイプを学ぶことによって、答えを‘guess’しているのか? 本稿では,2つの論理推論データセットにおけるllmsの推論能力について,文脈テキストの置換と論理概念の修正に反事実的手法を用いて検討する。 分析の結果,LLMは論理規則を真に理解していないことが判明した。 文脈テキスト中の特定の単語を変更したり、論理用語の概念を変えたりすると、llmの出力は著しく乱れ、直観に反する反応に繋がる。 この研究は、LSMの限界に関する重要な洞察を与え、LSMの信頼性を確保するためのより堅牢なメカニズムの必要性を強調している。

Over the past few years, the abilities of large language models (LLMs) have received extensive attention, which have performed exceptionally well in complicated scenarios such as logical reasoning and symbolic inference. A significant factor contributing to this progress is the benefit of in-context learning and few-shot prompting. However, the reasons behind the success of such models using contextual reasoning have not been fully explored. Do LLMs have understand logical rules to draw inferences, or do they ``guess'' the answers by learning a type of probabilistic mapping through context? This paper investigates the reasoning capabilities of LLMs on two logical reasoning datasets by using counterfactual methods to replace context text and modify logical concepts. Based on our analysis, it is found that LLMs do not truly understand logical rules; rather, in-context learning has simply enhanced the likelihood of these models arriving at the correct answers. If one alters certain words in the context text or changes the concepts of logical terms, the outputs of LLMs can be significantly disrupted, leading to counter-intuitive responses. This work provides critical insights into the limitations of LLMs, underscoring the need for more robust mechanisms to ensure reliable logical reasoning in LLMs.
翻訳日:2024-02-20 16:36:50 公開日:2024-02-19
# LLMはReasonsで計算できるか?

Can LLMs Compute with Reasons? ( http://arxiv.org/abs/2402.12080v1 )

ライセンス: Link先を確認
Harshit Sandilya, Peehu Raj, Jainit Sushil Bafna, Srija Mukhopadhyay, Shivansh Sharma, Ellwil Sharma, Arastu Sharma, Neeta Trivedi, Manish Shrivastava, Rajesh Kumar(参考訳) 大規模言語モデル(llm)は、しばしば複雑な数学的タスクに苦労し、統計的パターンに依存するため、不正確な答えを「幻覚」しがちである。 この制限は、コンテキストやトレーニングデータに制限のある平均的なSmall LangSLMでさらに増幅される。 そこで本研究では,SLMの分散ネットワークを利用した「帰納学習」手法を提案する。 このネットワークはエラーベースの学習とヒントを活用し、slmの推論能力を洗練する。 当社の目標は、slmが高パラメータモデルによって達成された論理ベースのアプリケーションレベルに近づくことを可能にするフレームワークを提供することです。 最終的に、この概念は、様々な分野にわたる人間とLLMの間の論理的ギャップを埋める道を開く。

Large language models (LLMs) often struggle with complex mathematical tasks, prone to "hallucinating" incorrect answers due to their reliance on statistical patterns. This limitation is further amplified in average Small LangSLMs with limited context and training data. To address this challenge, we propose an "Inductive Learning" approach utilizing a distributed network of SLMs. This network leverages error-based learning and hint incorporation to refine the reasoning capabilities of SLMs. Our goal is to provide a framework that empowers SLMs to approach the level of logic-based applications achieved by high-parameter models, potentially benefiting any language model. Ultimately, this novel concept paves the way for bridging the logical gap between humans and LLMs across various fields.
翻訳日:2024-02-20 16:36:30 公開日:2024-02-19
# lvchat: 長いビデオ理解の促進

LVCHAT: Facilitating Long Video Comprehension ( http://arxiv.org/abs/2402.12079v1 )

ライセンス: Link先を確認
Yu Wang, Zeyuan Zhang, Julian McAuley, Zexue He(参考訳) マルチモーダルllmでは,大規模言語モデル(llm)によるビデオの可読化が不可欠である。 既存の作品は短いビデオに約束を示すが、長いビデオ(例えば1分以上)の理解は難しいままである。 主な問題は、ビデオの過剰圧縮、つまりエンコードされたビデオ表現がビデオ全体を表現するのに十分でないことである。 そこで本稿では,フレームスカラーエンコーディング (fse) を導入することで,ビデオの持続時間に合わせてフレームスカラーエンコーディングの回数を動的に調整し,複数のエンベッドに長いビデオが過度に圧縮されないようにする長尺ビデオチャット (lvchat) を提案する。 トレーニング中に見るビデオの長さを超える長いビデオを扱うため,インターリーブフレームエンコーディング (ife) を提案し,複数のビデオグループ間の位置埋め込みとインターリーブを行い,長いビデオ入力を可能にし,過度に長いビデオによるパフォーマンス低下を回避する。 実験の結果,LVChatは,長ビデオQAデータセットと長ビデオキャプションベンチマークにおいて,最大27倍の精度で既存手法よりも優れていた。 私たちのコードはhttps://github.com/wangyu-ustc/lvchatで公開しています。

Enabling large language models (LLMs) to read videos is vital for multimodal LLMs. Existing works show promise on short videos whereas long video (longer than e.g.~1 minute) comprehension remains challenging. The major problem lies in the over-compression of videos, i.e., the encoded video representations are not enough to represent the whole video. To address this issue, we propose Long Video Chat (LVChat), where Frame-Scalable Encoding (FSE) is introduced to dynamically adjust the number of embeddings in alignment with the duration of the video to ensure long videos are not overly compressed into a few embeddings. To deal with long videos whose length is beyond videos seen during training, we propose Interleaved Frame Encoding (IFE), repeating positional embedding and interleaving multiple groups of videos to enable long video input, avoiding performance degradation due to overly long videos. Experimental results show that LVChat significantly outperforms existing methods by up to 27\% in accuracy on long-video QA datasets and long-video captioning benchmarks. Our code is published at https://github.com/wangyu-ustc/LVChat.
翻訳日:2024-02-20 16:36:16 公開日:2024-02-19
# HIPネットワーク:時間知識グラフを用いた外挿推論のための履歴情報伝達ネットワーク

HIP Network: Historical Information Passing Network for Extrapolation Reasoning on Temporal Knowledge Graph ( http://arxiv.org/abs/2402.12074v1 )

ライセンス: Link先を確認
Yongquan He and Peng Zhang and Luchen Liu and Qi Liang and Wenyuan Zhang and Chuang Zhang(参考訳) 近年,時間知識グラフ(TKG)の推論が注目されている。 既存のほとんどのメソッドは、トレーニング中にすべてのタイムスタンプと対応するグラフが利用できると仮定しており、将来のイベントを予測することは困難である。 この問題に対処するために、最近の研究は、歴史的情報に基づいて将来の出来事を推測することを学ぶ。 しかし、これらの手法は時間変化の背後にある潜在パターンを包括的に考慮せず、履歴情報を選択的に伝え、適切に表現を更新し、イベントを正確に予測する。 本稿では,今後の事象を予測するためのヒストリカル・インフォメーション・パッシング(HIP)ネットワークを提案する。 HIPネットワークは、イベントの時間的進化、同時に発生するイベントの相互作用、既知のイベントをモデル化するために使用される、時間的、構造的、反復的な視点からの情報を渡す。 特に,関係表現の更新を考慮し,上記の次元に対応する3つのスコアリング関数を採用する。 5つのベンチマークデータセットにおける実験結果は、hipネットワークの優位性を示し、hit@1の大幅な改善は、この方法が今後起こることをより正確に予測できることを示しています。

In recent years, temporal knowledge graph (TKG) reasoning has received significant attention. Most existing methods assume that all timestamps and corresponding graphs are available during training, which makes it difficult to predict future events. To address this issue, recent works learn to infer future events based on historical information. However, these methods do not comprehensively consider the latent patterns behind temporal changes, to pass historical information selectively, update representations appropriately and predict events accurately. In this paper, we propose the Historical Information Passing (HIP) network to predict future events. HIP network passes information from temporal, structural and repetitive perspectives, which are used to model the temporal evolution of events, the interactions of events at the same time step, and the known events respectively. In particular, our method considers the updating of relation representations and adopts three scoring functions corresponding to the above dimensions. Experimental results on five benchmark datasets show the superiority of HIP network, and the significant improvements on Hits@1 prove that our method can more accurately predict what is going to happen.
翻訳日:2024-02-20 16:35:55 公開日:2024-02-19
# pan-mamba: 状態空間モデルによる効果的なパンシャープ化

Pan-Mamba: Effective pan-sharpening with State Space Model ( http://arxiv.org/abs/2402.12192v1 )

ライセンス: Link先を確認
Xuanhua He, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou(参考訳) パンシャーピングは、高解像度のマルチスペクトルと高解像度のパンクロマティック画像からの情報を統合することで、高解像度のマルチスペクトルを生成する。 状態空間モデルの最近の進歩、特にmambaによって達成された効率的な長距離依存性モデリングは、コンピュータビジョンコミュニティに革命をもたらした。 コントリビューションであるPan-Mambaは,グローバル情報モデリングにおけるMambaモデルの効率性を活用した,新しいパンシャーピングネットワークである。 pan-mambaでは、チャネルスワッピングmambaとクロスモーダルmambaの2つのコアコンポーネントをカスタマイズし、効率的なクロスモーダル情報交換と融合のために戦略的に設計された。 前者は部分的なパンクロマティックチャネルとマルチスペクトルチャネルの交換を通じて軽量なクロスモーダル相互作用を開始し、後者は固有なクロスモーダル関係を利用して情報表現能力を実現する。 多様なデータセットにまたがる広範な実験を通じて,提案手法は最先端の手法を上回り,パンシャープ化に優れた融合結果を示す。 我々の知る限りでは、この研究はマンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。 ソースコードはhttps://github.com/alexhe101/pan-mambaで入手できる。

Pan-sharpening involves integrating information from lowresolution multi-spectral and high-resolution panchromatic images to generate high-resolution multi-spectral counterparts. While recent advancements in the state space model, particularly the efficient long-range dependency modeling achieved by Mamba, have revolutionized computer vision community, its untapped potential in pan-sharpening motivates our exploration. Our contribution, Pan-Mamba, represents a novel pansharpening network that leverages the efficiency of the Mamba model in global information modeling. In Pan-Mamba, we customize two core components: channel swapping Mamba and cross-modal Mamba, strategically designed for efficient cross-modal information exchange and fusion. The former initiates a lightweight cross-modal interaction through the exchange of partial panchromatic and multispectral channels, while the latter facilities the information representation capability by exploiting inherent cross-modal relationships. Through extensive experiments across diverse datasets, our proposed approach surpasses state-of-theart methods, showcasing superior fusion results in pan-sharpening. To the best of our knowledge, this work is the first attempt in exploring the potential of the Mamba model and establishes a new frontier in the pan-sharpening techniques. The source code is available at https://github.com/alexhe101/Pan-Mamba .
翻訳日:2024-02-20 16:28:50 公開日:2024-02-19
# mafin:model augmented fine-tuningによるブラックボックス埋め込みの拡張

Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-tuning ( http://arxiv.org/abs/2402.12177v1 )

ライセンス: Link先を確認
Mingtian Zhang, Shawn Lan, Peter Hayes, David Barber(参考訳) Retrieval Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する有効なソリューションとして登場した。 RAGの検索段階は通常、クエリとパスをベクトルに変換してセマンティクスをキャプチャする事前訓練された埋め込みモデルを含む。 しかし、標準的な事前学習型埋め込みモデルは、特定のドメイン知識に適用した場合に準最適性能を示し、微調整を必要とする。 本稿では,組込みがブラックボックスモデルからのみ利用できるシナリオについて述べる。 mafin (model augmented fine-tuning) - 学習可能な埋め込みモデルで拡張することでブラックボックス埋め込みモデルを微調整するための新しいアプローチである。 その結果,mafinは小さな拡張モデルのトレーニングだけで,ブラックボックス埋め込みの性能を大幅に向上できることがわかった。 ラベル付きデータセットとラベル付きデータセットの両方において,提案手法の有効性を検証する。

Retrieval Augmented Generation (RAG) has emerged as an effective solution for mitigating hallucinations in Large Language Models (LLMs). The retrieval stage in RAG typically involves a pre-trained embedding model, which converts queries and passages into vectors to capture their semantics. However, a standard pre-trained embedding model may exhibit sub-optimal performance when applied to specific domain knowledge, necessitating fine-tuning. This paper addresses scenarios where the embeddings are only available from a black-box model. We introduce Model augmented fine-tuning (Mafin) -- a novel approach for fine-tuning a black-box embedding model by augmenting it with a trainable embedding model. Our results demonstrate that Mafin significantly enhances the performance of the black-box embeddings by only requiring the training of a small augmented model. We validate the effectiveness of our method on both labeled and unlabeled datasets, illustrating its broad applicability and efficiency.
翻訳日:2024-02-20 16:28:25 公開日:2024-02-19
# gomeaを用いた学習離散ベイズネットワーク

Learning Discretized Bayesian Networks with GOMEA ( http://arxiv.org/abs/2402.12175v1 )

ライセンス: Link先を確認
Damy M.F. Ha, Tanja Alderliesten, Peter A.N. Bosman(参考訳) ベイズネットワークは不確実性の下で確率変数間の関係をモデル化し、観測された証拠を取り入れながら事象や結果の可能性を予測できる。 eXplainable AI(XAI)の観点から見ると、そのようなモデルはコンパクトである傾向があるため興味深い。 さらに、捕獲された関係はドメインの専門家によって直接検査される。 実際には、データは実際に評価されることが多い。 正規性の仮定が得られない限り、離散化がしばしば必要となる。 しかし、最適の離散化は、変数間のモデル化された関係に依存する。 これはベイズネットワークの学習をデータから複雑にする。 そのため、ほとんどの文献は、構造学習と呼ばれる変数の集合間の条件依存の学習に焦点を当てている。 本稿では,遺伝子プール最適混合進化アルゴリズム(gomea)に基づく既存の構造学習手法を拡張し,可変離散化を共同学習する。 提案した離散ベイズネットワーク GOMEA (DBN-GOMEA) は, ランダムに生成した地層トラスネットワークの検索を行う際に, 現在の最先端技術よりも類似あるいは良好な結果が得られる。 さらに,進化的アルゴリズムの重要な強みを生かして,dbn学習を多目的に行うことができる。 これにより、専門家の知識を独特な方法で取り入れ、複数のdbnを見つけ、複雑さ、正確性、事前決定された専門家ネットワークとの相違を解消することができる。

Bayesian networks model relationships between random variables under uncertainty and can be used to predict the likelihood of events and outcomes while incorporating observed evidence. From an eXplainable AI (XAI) perspective, such models are interesting as they tend to be compact. Moreover, captured relations can be directly inspected by domain experts. In practice, data is often real-valued. Unless assumptions of normality can be made, discretization is often required. The optimal discretization, however, depends on the relations modelled between the variables. This complicates learning Bayesian networks from data. For this reason, most literature focuses on learning conditional dependencies between sets of variables, called structure learning. In this work, we extend an existing state-of-the-art structure learning approach based on the Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA) to jointly learn variable discretizations. The proposed Discretized Bayesian Network GOMEA (DBN-GOMEA) obtains similar or better results than the current state-of-the-art when tasked to retrieve randomly generated ground-truth networks. Moreover, leveraging a key strength of evolutionary algorithms, we can straightforwardly perform DBN learning multi-objectively. We show how this enables incorporating expert knowledge in a uniquely insightful fashion, finding multiple DBNs that trade-off complexity, accuracy, and the difference with a pre-determined expert network.
翻訳日:2024-02-20 16:28:07 公開日:2024-02-19
# BIDER: 鍵支援エビデンスによる効率的な検索拡張LDMのための知識の整合性のブリッジ

BIDER: Bridging Knowledge Inconsistency for Efficient Retrieval-Augmented LLMs via Key Supporting Evidence ( http://arxiv.org/abs/2402.12174v1 )

ライセンス: Link先を確認
Jiajie Jin, Yutao Zhu, Yujia Zhou, Zhicheng Dou(参考訳) Retrieval-augmented large language model (LLMs)は、オープンドメインQAのような知識集約的なタスクにおいて、知識更新と事実的不適切性の固有の課題に対処する効果を実証している。 しかし, 検索知識とLLMに必要な知識との矛盾が生じ, LLMの回答品質は低下した。 本稿では,知識合成,教師付き微調整(sft),選好アライメントを通じて,検索文書をkse(key support evidence)に統合する手法である bider を提案する。 我々は,KSEの製作から学習してBIDERを訓練し,その出力をLLMの情報取得の好みに合わせて最大化する。 5つのデータセットにまたがる評価では、入札者がllmsの回答品質を7%向上させ、検索文書の入力コンテンツの長さを80%削減し、既存の手法を上回っている。 提案したKSEシミュレーションは,LLMに正確な質問応答に必要な情報を与える。

Retrieval-augmented large language models (LLMs) have demonstrated efficacy in knowledge-intensive tasks such as open-domain QA, addressing inherent challenges in knowledge update and factual inadequacy. However, inconsistencies between retrieval knowledge and the necessary knowledge for LLMs, leading to a decline in LLM's answer quality. This paper introduces BIDER, an approach that refines retrieval documents into Key Supporting Evidence (KSE) through knowledge synthesis, supervised fine-tuning (SFT), and preference alignment. We train BIDER by learning from crafting KSE, while maximizing its output to align with LLM's information acquisition preferences through reinforcement learning. Evaluations across five datasets show BIDER boosts LLMs' answer quality by 7% while reducing input content length in retrieval documents by 80%, outperforming existing methods. The proposed KSE simulation effectively equips LLMs with essential information for accurate question answering.
翻訳日:2024-02-20 16:27:42 公開日:2024-02-19
# パラメータ効率の良いファインチューニングのための重み付きバックドアアタック対策

Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2402.12168v1 )

ライセンス: Link先を確認
Shuai Zhao, Leilei Gan, Luu Anh Tuan, Jie Fu, Lingjuan Lyu, Meihuizi Jia, Jinming Wen(参考訳) 近年,言語モデルに適用するための様々なパラメータ効率細調整(PEFT)戦略が提案され,実装が成功している。 しかし、このことは、限られたモデルパラメータのみを更新するPEFTが、重み付けされたバックドア攻撃に直面した場合にセキュリティ上の脆弱性を構成するかどうかという問題を引き起こす。 本研究では,完全パラメータの微調整法と比較して,ペフトが重み付けバックドア攻撃の影響を受けやすいことを示し,事前定義されたトリガーは,微調整後も高い信頼性を保ったまま活用可能であることを示した。 この知見に動機づけられ,peftを利用した有毒サンプル識別モジュール (psim) を開発した。 具体的には、PEFTを利用して、ランダムにリセットされたサンプルラベルでPSIMをトレーニングする。 推論プロセスでは、極度の信頼度が有毒サンプルの指標となり、他のものはクリーンである。 テキスト分類タスク,5つの微調整戦略,および3つの重み付けバックドア攻撃手法について実験を行った。 実験では、PEFTを利用する場合、重量を抑えるバックドア攻撃が100%近い成功率を示す。 さらに,本研究の防御的アプローチは,バックドア攻撃を緩和する全体的な競争力を示す。

Recently, various parameter-efficient fine-tuning (PEFT) strategies for application to language models have been proposed and successfully implemented. However, this raises the question of whether PEFT, which only updates a limited set of model parameters, constitutes security vulnerabilities when confronted with weight-poisoning backdoor attacks. In this study, we show that PEFT is more susceptible to weight-poisoning backdoor attacks compared to the full-parameter fine-tuning method, with pre-defined triggers remaining exploitable and pre-defined targets maintaining high confidence, even after fine-tuning. Motivated by this insight, we developed a Poisoned Sample Identification Module (PSIM) leveraging PEFT, which identifies poisoned samples through confidence, providing robust defense against weight-poisoning backdoor attacks. Specifically, we leverage PEFT to train the PSIM with randomly reset sample labels. During the inference process, extreme confidence serves as an indicator for poisoned samples, while others are clean. We conduct experiments on text classification tasks, five fine-tuning strategies, and three weight-poisoning backdoor attack methods. Experiments show near 100% success rates for weight-poisoning backdoor attacks when utilizing PEFT. Furthermore, our defensive approach exhibits overall competitive performance in mitigating weight-poisoning backdoor attacks.
翻訳日:2024-02-20 16:27:04 公開日:2024-02-19
# 確率的公正性を有する事前学習グラフモデル

Endowing Pre-trained Graph Models with Provable Fairness ( http://arxiv.org/abs/2402.12161v1 )

ライセンス: Link先を確認
Zhongjian Zhang, Mengmei Zhang, Yue Yu, Cheng Yang, Jiawei Liu and Chuan Shi(参考訳) 事前学習されたグラフモデル(PGM)は、転送可能な固有の構造特性をキャプチャして、異なる下流タスクに適用することを目的としている。 事前訓練された言語モデルと同様に、PGMは人間の社会からの偏見を継承し、下流の応用において差別的行動をもたらす。 既存のフェアメソッドのデバイアス処理は、一般的にGNNのパラメータ最適化と結合する。 しかし、異なる下流タスクは、実際には異なる感度特性に関連付けられ、PGMの公平性を改善するために既存の手法を直接活用することは、柔軟で非効率である。 さらに、そのほとんどは理論的な保証、すなわち、実用シナリオで直接保証を提供するモデル予測の公平性に関する証明可能な下限を欠いている。 これらの制限を克服するために,事前に訓練した \textbf{Graph} モデルに \textbf{P}rovable f\textbf{A}i\textbf{R}ness (GraphPAR) を付与する新しいアダプタチューニングフレームワークを提案する。 GraphPARはPGMのパラメータを凍結し、パラメータ効率のよいアダプタをトレーニングし、下流タスクにおけるPGMの公平性を柔軟に改善する。 具体的には,ノード表現に敏感なセマンティクス拡張器をデザインし,ノード表現を各ノードに対して異なる繊細な属性セマンティクスで拡張する。 拡張表現は、pgmからタスク予測への機密属性セマンティクスの伝播を防ぐため、アダプタのさらなるトレーニングに使用される。 さらに、GraphPARでは、各ノードの公平性が証明可能であるかどうかを定量化します。 実世界のデータセットに対する実験的評価は、GraphPARがノード分類タスクにおける最先端の予測性能と公平性を達成することを示す。 さらに、GraphPARに基づいて、約90%のノードが証明可能な公平性を持っています。

Pre-trained graph models (PGMs) aim to capture transferable inherent structural properties and apply them to different downstream tasks. Similar to pre-trained language models, PGMs also inherit biases from human society, resulting in discriminatory behavior in downstream applications. The debiasing process of existing fair methods is generally coupled with parameter optimization of GNNs. However, different downstream tasks may be associated with different sensitive attributes in reality, directly employing existing methods to improve the fairness of PGMs is inflexible and inefficient. Moreover, most of them lack a theoretical guarantee, i.e., provable lower bounds on the fairness of model predictions, which directly provides assurance in a practical scenario. To overcome these limitations, we propose a novel adapter-tuning framework that endows pre-trained \textbf{Graph} models with \textbf{P}rovable f\textbf{A}i\textbf{R}ness (called GraphPAR). GraphPAR freezes the parameters of PGMs and trains a parameter-efficient adapter to flexibly improve the fairness of PGMs in downstream tasks. Specifically, we design a sensitive semantic augmenter on node representations, to extend the node representations with different sensitive attribute semantics for each node. The extended representations will be used to further train an adapter, to prevent the propagation of sensitive attribute semantics from PGMs to task predictions. Furthermore, with GraphPAR, we quantify whether the fairness of each node is provable, i.e., predictions are always fair within a certain range of sensitive attribute semantics. Experimental evaluations on real-world datasets demonstrate that GraphPAR achieves state-of-the-art prediction performance and fairness on node classification task. Furthermore, based on our GraphPAR, around 90\% nodes have provable fairness.
翻訳日:2024-02-20 16:26:42 公開日:2024-02-19
# 変圧器に基づく因果言語モデルによるクラスタリング

Transformer-based Causal Language Models Perform Clustering ( http://arxiv.org/abs/2402.12151v1 )

ライセンス: Link先を確認
Xinbo Wu, Lav R. Varshney(参考訳) 大きな言語モデル(LLM)は、様々な自然言語タスクを解く際、顕著な能力を示してきたが、LLMが人間の指示に従う能力は依然として懸念されている。 最近の研究は、命令追従タスクの追加トレーニングを通じて、命令追従能力を大幅に改善している。 しかし、効果的な指示追従能力のメカニズムはいまだに不十分である。 本稿では、簡易な命令追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。 以上の結果から,このクラスタリングプロセスは学習中に動的に進化し,隠れた空間内でデータをクラスタリングすることでタスク固有の情報を学習することが示唆された。 また,この現象が,未知のインスタンスを扱うモデルをどのように支援し,より現実的な設定で結果を検証するかを示す。

Even though large language models (LLMs) have demonstrated remarkable capability in solving various natural language tasks, the capability of an LLM to follow human instructions is still a concern. Recent works have shown great improvements in the instruction-following capability via additional training for instruction-following tasks. However, the mechanisms responsible for effective instruction-following capabilities remain inadequately understood. Here, we introduce a simplified instruction-following task and use synthetic datasets to analyze a Transformer-based causal language model. Our findings suggest that the model learns task-specific information by clustering data within its hidden space, with this clustering process evolving dynamically during learning. We also demonstrate how this phenomenon assists the model in handling unseen instances and validate our results in a more realistic setting.
翻訳日:2024-02-20 16:26:07 公開日:2024-02-19
# あなたの大きな言語モデルは、ひそかに公正な支持者です。

Your Large Language Model is Secretly a Fairness Proponent and You Should Prompt it Like One ( http://arxiv.org/abs/2402.12150v1 )

ライセンス: Link先を確認
Tianlin Li, Xiaoyu Zhang, Chao Du, Tianyu Pang, Qian Liu, Qing Guo, Chao Shen, Yang Liu(参考訳) 大規模言語モデル(LLM)の普及は、彼らの公正性を保証する緊急の必要性を浮き彫りにする。 しかし、LSMは少数派からの代替的な視点を無視しながら支配的な視点をしばしば示し、潜在的な偏見をもたらす。 LLMはトレーニングデータの大部分を表す人格を用いて視点を表現しているため、これらの公正な違反行為が生じるという仮説を立てる。 これに対応して,特定の役割を持つLLMの促進により,LLMが多様な視点を表現できることを示す。 この洞察と観察に基づいて,LLMが公正表現に対する多様な視点を明確化する役割を自動生成するパイプラインであるFairThinkingを開発した。 FairThinkingを評価するために、1000項目からなるデータセットを作成し、GPT-3.5、GPT-4、Llama2、Mistralで実験を行い、その優れた性能を示す。

The widespread adoption of large language models (LLMs) underscores the urgent need to ensure their fairness. However, LLMs frequently present dominant viewpoints while ignoring alternative perspectives from minority parties, resulting in potential biases. We hypothesize that these fairness-violating behaviors occur because LLMs express their viewpoints using a human personality that represents the majority of training data. In response to this, we validate that prompting LLMs with specific roles can allow LLMs to express diverse viewpoints. Building on this insight and observation, we develop FairThinking, a pipeline designed to automatically generate roles that enable LLMs to articulate diverse perspectives for fair expressions. To evaluate FairThinking, we create a dataset with a thousand items covering three fairness-related topics and conduct experiments on GPT-3.5, GPT-4, Llama2, and Mistral to demonstrate its superior performance.
翻訳日:2024-02-20 16:25:52 公開日:2024-02-19
# mlfef: 競争スポーツの勢いを探るための経験的公式を持つ機械学習融合モデル

MLFEF: Machine Learning Fusion Model with Empirical Formula to Explore the Momentum in Competitive Sports ( http://arxiv.org/abs/2402.12149v1 )

ライセンス: Link先を確認
Ruixin Peng, Ziqing Li(参考訳) テニスは非常に人気があり、コーチや選手は運動量などのスキル以外の要素に興味を持っている。 本稿では,テニスの試合のリアルタイム解析の基礎として,運動量の定義と定量化を試みる。 近年のテニスグランドスラム男子シングルスマッチデータに基づいて,データ駆動モデルの構築と経験的公式に基づくモデルの構築という2つのモデルを構築した。 データ駆動型モデルでは,過去5年間にテニスの試合の公開データや選手の個人情報データを含む大量の公開データを発見した。 その後、データは前処理され、フィーチャエンジニアリングされ、SVM、ランダムフォレストアルゴリズム、XGBoostの融合モデルが確立された。 機構解析モデルでは,多くのテニス選手や愛好家の提案に基づいて重要な特徴が選択され,スライディングウインドウアルゴリズムが重量の計算に用いられ,モメンタムの可視化には異なる手法が用いられた。 モーメント変動のさらなる分析は、業界で人気のCUMSUMアルゴリズムとRUNテストに基づいており、その結果、モーメントがランダムではなく、トレンドがランダムであることを示している。 最終的に、核融合モデルの堅牢性はモンテカルロシミュレーションによって解析される。

Tennis is so popular that coaches and players are curious about factors other than skill, such as momentum. This article will try to define and quantify momentum, providing a basis for real-time analysis of tennis matches. Based on the tennis Grand Slam men's singles match data in recent years, we built two models, one is to build a model based on data-driven, and the other is to build a model based on empirical formulas. For the data-driven model, we first found a large amount of public data including public data on tennis matches in the past five years and personal information data of players. Then the data is preprocessed, and feature engineered, and a fusion model of SVM, Random Forrest algorithm and XGBoost was established. For the mechanism analysis model, important features were selected based on the suggestions of many tennis players and enthusiasts, the sliding window algorithm was used to calculate the weight, and different methods were used to visualize the momentum. For further analysis of the momentum fluctuation, it is based on the popular CUMSUM algorithm in the industry as well as the RUN Test, and the result shows the momentum is not random and the trend might be random. At last, the robustness of the fusion model is analyzed by Monte Carlo simulation.
翻訳日:2024-02-20 16:25:35 公開日:2024-02-19
# 大規模多言語ファクトチェックのエンドツーエンド化

End-to-end multilingual fact-checking at scale ( http://arxiv.org/abs/2402.12147v1 )

ライセンス: Link先を確認
Vinay Setty(参考訳) 本稿では,Factiverse AIモデルを用いて100以上の言語でエンドツーエンドのファクトチェックを行う方法について述べる。 また, GPT-4, GPT-3.5-Turbo, Mistral-7bなどの大規模言語モデルよりも優れたファクトチェックタスクに適した微調整モデルを示す。

In this article, we describe how you can perform end-to-end fact-checking in over 100 languages using Factiverse AI models. We also show through an experimental benchmark that fine-tuned models tailored for fact-checking tasks outperform Large Language Models such as GPT-4, GPT-3.5-Turbo, and Mistral-7b.
翻訳日:2024-02-20 16:25:12 公開日:2024-02-19
# メタランク付け: 単一応答判断が可能な言語モデルが少ない

Meta Ranking: Less Capable Language Models are Capable for Single Response Judgement ( http://arxiv.org/abs/2402.12146v1 )

ライセンス: Link先を確認
Zijun Liu, Boqun Kou, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu(参考訳) 大規模言語モデル(llm)は幅広いタスクで強力なパフォーマンスを示しているが、幻覚のような信頼性の課題に直面している。 これまでの研究では、gpt-4のような高い能力を持つllmは個々の応答の信頼性を判断するのに効果的であるが、同じクエリに対する応答の相対的信頼性を評価するために、能力の低いものはしばしば調整される。 個々の応答の信頼性を効果的に判断する能力の低いLCMを実現するために, $\textit{Meta}$ $\textit{Ranking}$ (MR) という新しい手法を提案する。 応答を直接評価する従来の手法とは異なり,対象のクエリ応答対と参照クエリ応答対を比較して判断を行う。 精度の低いLLMが微調整なしでも強いベースラインを上回りうる推論タスクにおけるLLM応答の誤り検出において,その顕著な有効性を見出した。 さらに,クエリルーティングと反復的トレーニングデータフィルタリングという2つの実用アプリケーションにおいて,MRがLLMの性能向上に有効であることを示す。 前者はトークン消費量の半分未満でgpt-4-turboに匹敵する性能を達成し、後者は2.7bモデルのllama-7bとphi-2は、より少ないトレーニングサンプルよりもalpaca-13bを大きく上回り、提案手法の高ポテンシャルを裏付けている。

Although Large Language Models (LLMs) have demonstrated strong performance on a wide range of tasks, they still face reliability challenges such as hallucination. Previous studies reveal that highly capable LLMs like GPT-4 are effective in judging the reliability of individual responses, while less capable ones are often tuned to evaluate the relative reliability of responses to the same query. To enable less capable LLMs to effectively judge the reliability of individual responses, we propose a novel method named $\textit{Meta}$ $\textit{Ranking}$ (MR). Unlike previous methods, which assess the response directly, we achieve the judgement by comparing the target query-response pair with reference query-response pairs. We found its remarkable effectiveness in error detection for LLM responses on reasoning tasks, where less capable LLMs could outperform strong baselines, even without fine-tuning. We further demonstrate that MR can be used to enhance the performance of LLMs in two practical applications: query routing and iterative training data filtering. The former achieves GPT-4-turbo comparable performance with less than half the token consumption, while the latter makes the instruction-tuned LLaMA-7B and Phi-2, a 2.7B model, significantly surpass Alpaca-13B over fewer training samples, underscoring the high potential of our proposed method.
翻訳日:2024-02-20 16:25:04 公開日:2024-02-19
# ベイジアンネットワークの連合

Federated Bayesian Network Ensembles ( http://arxiv.org/abs/2402.12142v1 )

ライセンス: Link先を確認
Florian van Daalen, Lianne Ippel, Andre Dekker, Inigo Bermejo(参考訳) フェデレーション学習により、プライバシの懸念によりデータ共有が許可されていない場合、分散データ上で機械学習アルゴリズムを実行することができます。 アンサンブルベースの学習は、出力が集約された複数の(弱)分類器を訓練する。 フェデレーションアンサンブル(federated ensemble)は、フェデレーション設定に適用されるアンサンブルであり、アンサンブル内の各分類器は、1つのデータロケーションで訓練される。 本稿では,ベイズネットワークのフェデレーションアンサンブル(FBNE)を様々な実験で使用し,その性能を,分散データからベイズネットワークを訓練するためのフェデレーション学習アルゴリズムであるVertiBayesで訓練されたローカルトレーニングモデルとモデルと比較する。 その結果、FBNEはローカルモデルよりも優れており、VertiBayesと比較してトレーニング速度が大幅に向上し、多くの設定で同様の性能を維持している。 FBNEは,特に地域住民に偏りが強い場合や,政党間の集団規模に強い不均衡がある場合において,フェデレーション学習ツールボックス内で潜在的に有用なツールであることを示す。 本稿では,時間的複雑性,モデル精度,プライバシ保護,モデル解釈可能性の観点から,このアプローチのメリットとデメリットについて論じる。

Federated learning allows us to run machine learning algorithms on decentralized data when data sharing is not permitted due to privacy concerns. Ensemble-based learning works by training multiple (weak) classifiers whose output is aggregated. Federated ensembles are ensembles applied to a federated setting, where each classifier in the ensemble is trained on one data location. In this article, we explore the use of federated ensembles of Bayesian networks (FBNE) in a range of experiments and compare their performance with locally trained models and models trained with VertiBayes, a federated learning algorithm to train Bayesian networks from decentralized data. Our results show that FBNE outperforms local models and provides a significant increase in training speed compared with VertiBayes while maintaining a similar performance in most settings, among other advantages. We show that FBNE is a potentially useful tool within the federated learning toolbox, especially when local populations are heavily biased, or there is a strong imbalance in population size across parties. We discuss the advantages and disadvantages of this approach in terms of time complexity, model accuracy, privacy protection, and model interpretability.
翻訳日:2024-02-20 16:24:36 公開日:2024-02-19
# 双方向クロスアテンション変換器による長周期知覚

Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers ( http://arxiv.org/abs/2402.12138v1 )

ライセンス: Link先を確認
Markus Hiller, Krista A. Ehinger, Tom Drummond(参考訳) 計算コストとメモリ消費の面では入力サイズと線形にスケールするが、他の効率的なトランスベースアプローチで見られる1つの入力モダリティのみの性能や制限を損なわない、新しい双方向トランスフォーマーアーキテクチャ(bixt)を提案する。 BiXTはPerceiverアーキテクチャにインスパイアされているが、繰り返しの注意を、入力トークンと潜伏変数が同時に参加する効率的な双方向の横断モジュールに置き換え、両者の間に自然に現れる注意対称性を活用する。 このアプローチは、perceiverのようなアーキテクチャによって経験される重要なボトルネックを解き放ち、セマンティクス(`what')とロケーション(`where')の両方の処理と解釈を、複数のレイヤにまたがって開発することを可能にします。 効率性とフルトランスフォーマーアーキテクチャの汎用性とパフォーマンスを組み合わせることで、BiXTはポイントクラウドやイメージなどの長いシーケンスを高い機能解像度で処理し、ポイントクラウド部分のセグメンテーション、セマンティックイメージのセグメンテーション、イメージ分類といったタスクで競合的なパフォーマンスを達成することができる。

We present a novel bi-directional Transformer architecture (BiXT) which scales linearly with input size in terms of computational cost and memory consumption, but does not suffer the drop in performance or limitation to only one input modality seen with other efficient Transformer-based approaches. BiXT is inspired by the Perceiver architectures but replaces iterative attention with an efficient bi-directional cross-attention module in which input tokens and latent variables attend to each other simultaneously, leveraging a naturally emerging attention-symmetry between the two. This approach unlocks a key bottleneck experienced by Perceiver-like architectures and enables the processing and interpretation of both semantics (`what') and location (`where') to develop alongside each other over multiple layers -- allowing its direct application to dense and instance-based tasks alike. By combining efficiency with the generality and performance of a full Transformer architecture, BiXT can process longer sequences like point clouds or images at higher feature resolutions and achieves competitive performance across a range of tasks like point cloud part segmentation, semantic image segmentation and image classification.
翻訳日:2024-02-20 16:24:13 公開日:2024-02-19
# 効率的な香り生成のための分子生成と最適化

Molecule Generation and Optimization for Efficient Fragrance Creation ( http://arxiv.org/abs/2402.12134v1 )

ライセンス: Link先を確認
Bruno C. L. Rodrigues, Vinicius V. Santana, Sandris Murins and Idelfonso B. R. Nogueira(参考訳) 本研究では,香水知覚の定量化実験を通じて,嗅覚体験を再現する機械学習中心のアプローチを提案する。 主な貢献は、香水分子構造と人間の嗅覚を結合するハイブリッドモデルである。 本モデルは、ai駆動分子発生装置(グラフおよび生成ニューラルネットワークを利用する)、臭気強度の定量化及び予測、および所望の香りに対する最適な溶媒と分子の組み合わせの精製を含む。 さらに、熱力学モデルにより嗅覚と液相濃度の関連が確立される。 この方法は伝達学習を用い、蒸気圧と香りノートに基づいて最も適した分子を選択する。 最終的に、新しい嗅覚経験と対象嗅覚経験の相違を最小限に抑えるために数学的最適化問題が定式化される。 この方法論は、利用可能な実験データを用いて2つの異なる嗅覚経験を再現することで検証される。

This research introduces a Machine Learning-centric approach to replicate olfactory experiences, validated through experimental quantification of perfume perception. Key contributions encompass a hybrid model connecting perfume molecular structure to human olfactory perception. This model includes an AI-driven molecule generator (utilizing Graph and Generative Neural Networks), quantification and prediction of odor intensity, and refinery of optimal solvent and molecule combinations for desired fragrances. Additionally, a thermodynamic-based model establishes a link between olfactory perception and liquid-phase concentrations. The methodology employs Transfer Learning and selects the most suitable molecules based on vapor pressure and fragrance notes. Ultimately, a mathematical optimization problem is formulated to minimize discrepancies between new and target olfactory experiences. The methodology is validated by reproducing two distinct olfactory experiences using available experimental data.
翻訳日:2024-02-20 16:23:48 公開日:2024-02-19
# 改築アライメント

Reformatted Alignment ( http://arxiv.org/abs/2402.12219v1 )

ライセンス: Link先を確認
Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu(参考訳) 微調整データの質は、大きな言語モデル(LLM)と人間の値の整合に不可欠である。 データ品質を改善するための現在の手法は、労働集約的か、LLM幻覚によって引き起こされる事実的誤りのどちらかである。 本稿では,既存の指示データの品質向上と人的価値の整合性向上について検討し,指示データの応答を既定の基準や照合されたエビデンスに合致する形式に再構成する,reignという単純かつ効果的な手法を導入する。 このアプローチは、人間のアノテーション、幻覚、スケーリングの難しさを最小化し、既存のアライメント技術に直交する。 実験的に、ReAlignはLLMの一般的なアライメント能力、数学推論、事実性、可読性を大幅に向上させる。 奨励的に、追加のデータや高度な訓練技術を導入することなく、単に応答を再構成するだけで、gsm8kにおけるllama-2-13bの数学的推論能力は46.77%から56.63%に向上できる。 さらに、ReAlignデータの5%は、Alpacaデータセットによって測定された一般的なアライメント能力を67%向上させる。 この研究は、LLMの科学と機械的解釈可能性に関するさらなる研究の必要性を強調している。 我々は、関連するコードとデータを公開して、https://github.com/GAIR-NLP/ReAlign.comで将来の研究をサポートするようにしました。

The quality of finetuning data is crucial for aligning large language models (LLMs) with human values. Current methods to improve data quality are either labor-intensive or prone to factual errors caused by LLM hallucinations. This paper explores elevating the quality of existing instruction data to better align with human values, introducing a simple and effective approach named ReAlign, which reformats the responses of instruction data into a format that better aligns with pre-established criteria and the collated evidence. This approach minimizes human annotation, hallucination, and the difficulty in scaling, remaining orthogonal to existing alignment techniques. Experimentally, ReAlign significantly boosts the general alignment ability, math reasoning, factuality, and readability of the LLMs. Encouragingly, without introducing any additional data or advanced training techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy. Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment ability measured by the Alpaca dataset. This work highlights the need for further research into the science and mechanistic interpretability of LLMs. We have made the associated code and data publicly accessible to support future studies at https://github.com/GAIR-NLP/ReAlign.
翻訳日:2024-02-20 16:15:29 公開日:2024-02-19
# 量子光学のための高品質要素を有するナノメカニカルaln共振器

Nanomechanical crystalline AlN resonators with high quality factors for quantum optoelectromechanics ( http://arxiv.org/abs/2402.12196v1 )

ライセンス: Link先を確認
Anastasiia Ciers, Alexander Jung, Joachim Ciers, Laurentius Radit Nindito, Hannes Pfeifer, Armin Dadgar, Andre Strittmatter, and Witlef Wieczorek(参考訳) 高$q_m$メカニカル共振器は、ミラーサスペンション、量子空洞光機械デバイス、ナノメカニカルセンサなど、低ノイズと長いコヒーレンス時間を必要とするアプリケーションに必須である。 材料の引張ひずみは、消散希釈およびひずみ工学技術の使用を可能にし、機械的品質因子を増加させる。 これらの技術は、アモルファス材料から作られ、最近ではInGaP、SiC、Siなどの結晶材料から作られる高価格のQ_m$機械共振器に用いられている。 実質的な圧電性を示すひずみ結晶膜は、電子自由度を直接活用する高Q_m$ナノメカニカル共振器の能力を拡大する。 本研究では, 強圧電性を有するエピタキシャル成長結晶材料である引張ひずみ290nmのAlNで作製したQ_m$最大2.9\times 10^{7}$のナノメカニカル共振器を実現する。 分散希釈とひずみ工学を生かしたナノメカニカル共振器が、室温で10^{13}$ hzに接近するq_m \times f_m$-productに達することを実証する。 我々は,Al-N結合に沿う形状の新規共振器形状であるトライアングリンは,フォトニック結晶でパターン化した中心パッドを提供する。 これにより、平面外光への効率的な結合のために80%以上の光学反射率に達することができる。 提案した結果は, 引張ひずみAlNに基づいて, 室温での量子オプトエレクトロメカニカルデバイスへの道を開いた。

High-$Q_m$ mechanical resonators are crucial for applications where low noise and long coherence time are required, as mirror suspensions, quantum cavity optomechanical devices, or nanomechanical sensors. Tensile strain in the material enables the use of dissipation dilution and strain engineering techniques, which increase the mechanical quality factor. These techniques have been employed for high-$Q_m$ mechanical resonators made from amorphous materials and, recently, from crystalline materials such as InGaP, SiC, and Si. A strained crystalline film exhibiting substantial piezoelectricity expands the capability of high-$Q_m$ nanomechanical resonators to directly utilize electronic degrees of freedom. In this work we realize nanomechanical resonators with $Q_m$ up to $2.9\times 10^{7}$ made from tensile-strained 290 nm-thick AlN, which is an epitaxially-grown crystalline material offering strong piezoelectricity. We demonstrate nanomechanical resonators that exploit dissipation dilution and strain engineering to reach a $Q_m \times f_m$-product approaching $10^{13}$ Hz at room temperature. We realize a novel resonator geometry, triangline, whose shape follows the Al-N bonds and offers a central pad that we pattern with a photonic crystal. This allows us to reach an optical reflectivity above 80% for efficient coupling to out-of-plane light. The presented results pave the way for quantum optoelectromechanical devices at room temperature based on tensile-strained AlN.
翻訳日:2024-02-20 16:14:44 公開日:2024-02-19
# Browse and Concentrate: 事前LLMコンテキスト融合によるマルチモーダルコンテンツの補完

Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion ( http://arxiv.org/abs/2402.12195v1 )

ライセンス: Link先を確認
Ziyue Wang, Chi Chen, Yiqi Zhu, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu(参考訳) LLM(Large Language Models)の興隆に伴い、LLMと事前訓練されたビジョンモデルを組み合わせたマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。 しかし、複数の画像を含む文脈を理解するには不十分である。 この欠点の主な理由は、各画像の視覚的特徴がLPMバックボーンに入力する前に凍結エンコーダによって個別に符号化され、他の画像やマルチモーダル命令の認識が欠如していることである。 我々はこの問題をLLM前のモダリティ分離と呼び、LLMに機能を供給する前に、より深いマルチモーダルコンテキストの融合を可能にするために、ブラウズ・アンド・集中型2相パラダイムを提案する。 このパラダイムは、まず本質的な洞察のための入力を通して"ブラウジング"し、その後、これらの洞察によって導かれる重要な詳細について"集中"するために入力を再検討し、マルチモーダルな入力をより包括的に理解する。 さらに,マルチイメージ入力の理解を高めるためのトレーニング戦略も開発している。 提案手法は, 3B と 11B LLM の強い MLLM ベースラインに対して, 平均精度 2.13% と 7.60% の増加に寄与する。

With the bloom of Large Language Models (LLMs), Multimodal Large Language Models (MLLMs) that incorporate LLMs with pre-trained vision models have recently demonstrated impressive performance across diverse vision-language tasks. However, they fall short to comprehend context involving multiple images. A primary reason for this shortcoming is that the visual features for each images are encoded individually by frozen encoders before feeding into the LLM backbone, lacking awareness of other images and the multimodal instructions. We term this issue as prior-LLM modality isolation and propose a two phase paradigm, browse-and-concentrate, to enable in-depth multimodal context fusion prior to feeding the features into LLMs. This paradigm initially "browses" through the inputs for essential insights, and then revisits the inputs to "concentrate" on crucial details, guided by these insights, to achieve a more comprehensive understanding of the multimodal inputs. Additionally, we develop training strategies specifically to enhance the understanding of multi-image inputs. Our method markedly boosts the performance on 7 multi-image scenarios, contributing to increments on average accuracy by 2.13% and 7.60% against strong MLLMs baselines with 3B and 11B LLMs, respectively.
翻訳日:2024-02-20 16:14:12 公開日:2024-02-19
# 大規模言語モデルにおける安全度評価のための中国語データセット

A Chinese Dataset for Evaluating the Safeguards in Large Language Models ( http://arxiv.org/abs/2402.12193v1 )

ライセンス: Link先を確認
Yuxia Wang, Zenan Zhai, Haonan Li, Xudong Han, Lizhi Lin, Zhenxuan Zhang, Jingru Zhao, Preslav Nakov, Timothy Baldwin(参考訳) 多くの研究は、大きな言語モデル(LLM)が有害な応答を発生し、LCMがデプロイされた時に予期せぬリスクにユーザをさらすことを実証している。 従来の研究では、LSMがもたらすリスクの包括的分類法や、LSMの安全性のメカニズムを調べるためのそれに対応するプロンプトが提案されている。 しかし、その焦点は英語に限られており、他の言語についてはほとんど語られていない。 ここではこのギャップを埋めることを目指しています。 まず,中国のllmの安全性評価のためのデータセットを導入し,リスクの高い早期拒絶の観点で偽陰性例と偽陽性例をより識別するために使用できる,他の2つのシナリオに拡張する。 さらに, リスクタイプごとに詳細な安全性評価基準を提示し, LLM応答の有害性の観点から手動のアノテーションと自動評価を容易にする。 5つのLSMに関する実験により、地域固有のリスクが一般的なリスクのタイプであることを示し、私たちが実験したすべての中国LSMで大きな問題を提示した。 警告: 本論文は攻撃的、有害、または偏見のあるデータを含む。

Many studies have demonstrated that large language models (LLMs) can produce harmful responses, exposing users to unexpected risks when LLMs are deployed. Previous studies have proposed comprehensive taxonomies of the risks posed by LLMs, as well as corresponding prompts that can be used to examine the safety mechanisms of LLMs. However, the focus has been almost exclusively on English, and little has been explored for other languages. Here we aim to bridge this gap. We first introduce a dataset for the safety evaluation of Chinese LLMs, and then extend it to two other scenarios that can be used to better identify false negative and false positive examples in terms of risky prompt rejections. We further present a set of fine-grained safety assessment criteria for each risk type, facilitating both manual annotation and automatic evaluation in terms of LLM response harmfulness. Our experiments on five LLMs show that region-specific risks are the prevalent type of risk, presenting the major issue with all Chinese LLMs we experimented with. Warning: this paper contains example data that may be offensive, harmful, or biased.
翻訳日:2024-02-20 16:13:46 公開日:2024-02-19
# aiに基づく精密腫瘍学に向けて : マルチオミクスデータに基づくパーソナライズされた対物的治療提案のための機械学習フレームワーク

Towards AI-Based Precision Oncology: A Machine Learning Framework for Personalized Counterfactual Treatment Suggestions based on Multi-Omics Data ( http://arxiv.org/abs/2402.12190v1 )

ライセンス: Link先を確認
Manuel Sch\"urch, Laura Boos, Viola Heinzelmann-Schwarz, Gabriele Gut, Michael Krauthammer, Andreas Wicki, Tumor Profiler Consortium(参考訳) AI駆動の精度オンコロジーは、複雑な患者の特徴とそれに対応する治療結果の間の相互作用を分析するために、AIモデルのパワーを活用することによって、がん治療を再形成するトランスフォーメーション能力を持つ。 新しい技術プラットフォームは、単細胞マルチオミクスデータのような前例のない解像度で腫瘍生物学のマルチモーダルデータのタイムリーな取得を促進し、この品質とデータをデータ駆動による臨床診断の改善に利用できるようにする。 本稿では,多様なマルチオミクス技術を用いて訓練された機械学習専門家のアンサンブルに基づいて,癌治療をパーソナライズするためのモジュール型機械学習フレームワークを提案する。 これらの特殊対物的専門家は、常に優れたパフォーマンスを持つより強力な専門家に集約され、その決定に対する自信と説明を提供することができる。 このフレームワークは、データの高次元的性質や、振り返り観察データにおける治療課題バイアスの存在など、データ駆動型がん研究に内在する重要な課題に対処するために調整されている。 このフレームワークは、卵巣がん患者のコホートからのin-vitroおよびin-vivo治療反応のデータを用いて、包括的なデモンストレーションを通じて展示される。 本手法は, がん患者のマルチオミクス特性に対する治療戦略を調整するための, 信頼性を調整した確率的治療提案, パーソナライズされた説明を含む, 現実的な意思決定支援ツールを臨床医に提供することを目的とする。

AI-driven precision oncology has the transformative potential to reshape cancer treatment by leveraging the power of AI models to analyze the interaction between complex patient characteristics and their corresponding treatment outcomes. New technological platforms have facilitated the timely acquisition of multimodal data on tumor biology at an unprecedented resolution, such as single-cell multi-omics data, making this quality and quantity of data available for data-driven improved clinical decision-making. In this work, we propose a modular machine learning framework designed for personalized counterfactual cancer treatment suggestions based on an ensemble of machine learning experts trained on diverse multi-omics technologies. These specialized counterfactual experts per technology are consistently aggregated into a more powerful expert with superior performance and can provide both confidence and an explanation of its decision. The framework is tailored to address critical challenges inherent in data-driven cancer research, including the high-dimensional nature of the data, and the presence of treatment assignment bias in the retrospective observational data. The framework is showcased through comprehensive demonstrations using data from in-vitro and in-vivo treatment responses from a cohort of patients with ovarian cancer. Our method aims to empower clinicians with a reality-centric decision-support tool including probabilistic treatment suggestions with calibrated confidence and personalized explanations for tailoring treatment strategies to multi-omics characteristics of individual cancer patients.
翻訳日:2024-02-20 16:13:26 公開日:2024-02-19
# 擬似ラベルメンバーシップによる微調整によるトレーニングデータ露出の増幅

Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships ( http://arxiv.org/abs/2402.12189v1 )

ライセンス: Link先を確認
Myung Gyo Oh, Hong Eun Ahn, Leo Hyun Park, Taekyoung Kwon(参考訳) ニューラルネットワークモデル(LM)は、データ記憶によるデータ抽出攻撃のトレーニングに脆弱である。 本稿では,攻撃者が予め訓練したlmsを微調整し,元のトレーニングデータの露出を増幅する新たな攻撃シナリオを提案する。 この戦略は、LMの事前学習データセットの保持を強化することを目的として、以前の研究とは異なる。 これを達成するために、攻撃者は事前訓練されたデータと密接に一致する生成されたテキストを収集する必要がある。 しかし、実際のデータセットの知識がなければ、生成されたテキスト内の事前トレーニングデータの定量化は困難である。 そこで本研究では,これらのテキストに対する擬似ラベルの使用を提案する。 次に,その構成確率に基づいて,事前学習データから派生する確率の高い世代を好むようにlmを微調整した。 1b以上のパラメータを持つlmsは,4倍から8倍のトレーニングデータ露出率を示した。 我々は潜在的な緩和について議論し、今後の研究方向性を提案する。

Neural language models (LMs) are vulnerable to training data extraction attacks due to data memorization. This paper introduces a novel attack scenario wherein an attacker adversarially fine-tunes pre-trained LMs to amplify the exposure of the original training data. This strategy differs from prior studies by aiming to intensify the LM's retention of its pre-training dataset. To achieve this, the attacker needs to collect generated texts that are closely aligned with the pre-training data. However, without knowledge of the actual dataset, quantifying the amount of pre-training data within generated texts is challenging. To address this, we propose the use of pseudo-labels for these generated texts, leveraging membership approximations indicated by machine-generated probabilities from the target LM. We subsequently fine-tune the LM to favor generations with higher likelihoods of originating from the pre-training data, based on their membership probabilities. Our empirical findings indicate a remarkable outcome: LMs with over 1B parameters exhibit a four to eight-fold increase in training data exposure. We discuss potential mitigations and suggest future research directions.
翻訳日:2024-02-20 16:12:59 公開日:2024-02-19
# 多領域リカレントニューラルネットワークにおける活動構造

Structure of activity in multiregion recurrent neural networks ( http://arxiv.org/abs/2402.12188v1 )

ライセンス: Link先を確認
David G. Clark, Manuel Beiran(参考訳) ニューラルネットワークは複数の領域で構成され、それぞれがリッチなダイナミクスを持ち、他の領域との通信に従事している。 局所的領域内ダイナミクスとグローバルネットワークレベルのダイナミクスの組み合わせは、計算の柔軟性を提供すると考えられている。 しかし、そのような多領域ダイナミクスの性質と基盤となるシナプス接続パターンは、いまだによく分かっていない。 本稿では,複数の相互接続領域を有するリカレントニューラルネットワークのダイナミクスについて検討する。 各領域内では、ニューロンはランダムと構造化されたリカレント接続の組み合わせを持っている。 皮質領域間の通信部分空間の実験的な証拠により、これらのネットワークは領域間の低ランク接続を持ち、活動の選択的ルーティングを可能にする。 これらのネットワークは、領域内の高次元のゆらぎと、領域間の低次元信号伝達の2つの相互作用形態を示す。 この相互作用を特徴付けるために、各領域が無限個のニューロンを含む限界において、それらのネットワークを解析するための動的平均場理論を開発し、交差領域電流をキーオーダーパラメータとする。 リージョンは、私たちが競合している役割であるアクティビティのジェネレータとトランスミッターの両方として機能する。 特に、ある領域内の活動の複雑さを和らげるには、他の領域への信号のルーティングが必要である。 神経回路における従来モデルと異なり,信号の流れを制御するニューロン群の活動を抑制していたが,接続構造と非線形リカレントダイナミクスの組み合わせにより,様々な高次元活動パターンを刺激することにより,神経回路のルーティングを実現する。 この理論は、マルチリージョンニューラルネットワークとトレーニングニューラルネットワークの両方の解釈に関する洞察を与える。

Neural circuits are composed of multiple regions, each with rich dynamics and engaging in communication with other regions. The combination of local, within-region dynamics and global, network-level dynamics is thought to provide computational flexibility. However, the nature of such multiregion dynamics and the underlying synaptic connectivity patterns remain poorly understood. Here, we study the dynamics of recurrent neural networks with multiple interconnected regions. Within each region, neurons have a combination of random and structured recurrent connections. Motivated by experimental evidence of communication subspaces between cortical areas, these networks have low-rank connectivity between regions, enabling selective routing of activity. These networks exhibit two interacting forms of dynamics: high-dimensional fluctuations within regions and low-dimensional signal transmission between regions. To characterize this interaction, we develop a dynamical mean-field theory to analyze such networks in the limit where each region contains infinitely many neurons, with cross-region currents as key order parameters. Regions can act as both generators and transmitters of activity, roles that we show are in conflict. Specifically, taming the complexity of activity within a region is necessary for it to route signals to and from other regions. Unlike previous models of routing in neural circuits, which suppressed the activities of neuronal groups to control signal flow, routing in our model is achieved by exciting different high-dimensional activity patterns through a combination of connectivity structure and nonlinear recurrent dynamics. This theory provides insight into the interpretation of both multiregion neural data and trained neural networks.
翻訳日:2024-02-20 16:12:40 公開日:2024-02-19
# adversarial feature alignment:adversarial trainingによるディープラーニングにおけるロバスト性と精度のバランス

Adversarial Feature Alignment: Balancing Robustness and Accuracy in Deep Learning via Adversarial Training ( http://arxiv.org/abs/2402.12187v1 )

ライセンス: Link先を確認
Leo Hyun Park, Jaeuk Kim, Myung Gyo Oh, Jaewoo Park, Taekyoung Kwon(参考訳) 深層学習モデルは精度が向上し続けているが、敵の攻撃に弱いままであり、しばしば敵の例の誤分類につながる。 敵の訓練はこれらの攻撃に対する堅牢性を高めることでこの問題を軽減するために使用される。 しかし、このアプローチは通常、クリーンで非敵対的なサンプルに対するモデルの標準精度を低下させる。 セキュリティのための堅牢性と正確性のバランスをとるためのディープラーニングモデルの必要性は明らかだが、このバランスを達成することは依然として困難であり、根底にある理由はまだ明らかになっていない。 本稿では,これらの問題に対処するために,AFA (Adversarial Feature Alignment) と呼ばれる新しい対人訓練手法を提案する。 特徴空間内の不一致は、サンプルが良性であるか敵対的であるかに関わらず、しばしば誤分類につながる。 AFAはこのリスクを軽減し、コントラスト学習に基づく新しい最適化アルゴリズムを用いて潜在的な特徴の不一致を軽減する。 評価を通じて,AFAの優れた性能を示す。 ベースラインAFAは,CIFAR10とCIFAR100でそれぞれ1.86%,8.91%の清潔度低下を最小化しつつ,従来の対向的コントラスト学習法よりもロバストな精度を提供する。 また,最近の拡散モデルを用いたデータ拡張に伴うAFAとTRADESの共同最適化により,最先端の精度と堅牢性が得られることを示す。

Deep learning models continue to advance in accuracy, yet they remain vulnerable to adversarial attacks, which often lead to the misclassification of adversarial examples. Adversarial training is used to mitigate this problem by increasing robustness against these attacks. However, this approach typically reduces a model's standard accuracy on clean, non-adversarial samples. The necessity for deep learning models to balance both robustness and accuracy for security is obvious, but achieving this balance remains challenging, and the underlying reasons are yet to be clarified. This paper proposes a novel adversarial training method called Adversarial Feature Alignment (AFA), to address these problems. Our research unveils an intriguing insight: misalignment within the feature space often leads to misclassification, regardless of whether the samples are benign or adversarial. AFA mitigates this risk by employing a novel optimization algorithm based on contrastive learning to alleviate potential feature misalignment. Through our evaluations, we demonstrate the superior performance of AFA. The baseline AFA delivers higher robust accuracy than previous adversarial contrastive learning methods while minimizing the drop in clean accuracy to 1.86% and 8.91% on CIFAR10 and CIFAR100, respectively, in comparison to cross-entropy. We also show that joint optimization of AFA and TRADES, accompanied by data augmentation using a recent diffusion model, achieves state-of-the-art accuracy and robustness.
翻訳日:2024-02-20 16:12:16 公開日:2024-02-19
# 量子コンピュータにおける分子応答特性のシミュレーションのための部分空間法

Subspace methods for the simulation of molecular response properties on a quantum computer ( http://arxiv.org/abs/2402.12186v1 )

ライセンス: Link先を確認
Peter Reinholdt, Erik Rosendahl Kjellgren, Juliane Holst Fuglsbjerg, Karl Michael Ziems, Sonia Coriani, Stephan P. A. Sauer, Jacob Kongsted(参考訳) 量子自己整合線形応答(q-sc-LR)理論における励起エネルギーおよびその他の線形応答特性を得るためのダビッドソン法について検討する。 デビッドソン型法は、電子ヘッシアンを明示的に構成することなく、少数の選択された励起エネルギーを得ることができる。 ダビッドソン法を用いて水素鎖の励起エネルギー(h$_{10}$まで)を計算し、量子シミュレータ上での励起エネルギーを計算するための統計ノイズの側面を分析する。 さらに, H$_2$, LiH, H$_2$O, OH$^-$, NH$_3$の静的偏光率などの線形応答特性の計算にダビッドソン法を適用し, 強い相関関係を持つ分子系において, 単元結合クラスタが古典的投影結合クラスタより優れていたことを示す。 最後に, 減衰(複雑)線形応答のダビッドソン法を定式化し, アンモニアの窒素KエッジX線吸収, H$_2$, LiH, H$_2$O, OH$^-$, NH$_3$の係数について検討した。

We explore Davidson methods for obtaining excitation energies and other linear response properties within quantum self-consistent linear response (q-sc-LR) theory. Davidson-type methods allow for obtaining only a few selected excitation energies without explicitly constructing the electronic Hessian since they only require the ability to perform Hessian-vector multiplications. We apply the Davidson method to calculate the excitation energies of hydrogen chains (up to H$_{10}$) and analyze aspects of statistical noise for computing excitation energies on quantum simulators. Additionally, we apply Davidson methods for computing linear response properties such as static polarizabilities for H$_2$, LiH, H$_2$O, OH$^-$, and NH$_3$, and show that unitary coupled cluster outperforms classical projected coupled cluster for molecular systems with strong correlation. Finally, we formulate the Davidson method for damped (complex) linear response, with application to the nitrogen K-edge X-ray absorption of ammonia, and the $C_6$ coefficients of H$_2$, LiH, H$_2$O, OH$^-$, and NH$_3$.
翻訳日:2024-02-20 16:11:49 公開日:2024-02-19
# ChartX & ChartVLM: 複雑なチャート推論のためのVersatileベンチマークと基礎モデル

ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning ( http://arxiv.org/abs/2402.12185v1 )

ライセンス: Link先を確認
Renqiu Xia, Bo Zhang, Hancheng Ye, Xiangchao Yan, Qi Liu, Hongbin Zhou, Zijun Chen, Min Dou, Botian Shi, Junchi Yan, Yu Qiao(参考訳) 近年,多言語多モード大言語モデル (MLLM) が数多く登場している。 しかし、ビジュアルチャートで表現された情報をクエリし、クエリされた内容に基づいて推論を行う能力は未調査のままである。 本稿では,チャート領域における既製のMLLMの能力を包括的かつ厳密に評価するために,チャートタイプ18,チャートタスク7,ディシプリナトピック22,高品質チャートデータを含むマルチモーダル評価セットであるChartXを構築した。 さらに、チャートや幾何学画像の分野における推論タスクなど、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新たな視点を提供するため、ChartVLMを開発した。 提案したChartX評価セットに基づいて,メインストリームMLLMとChartVLMのチャート関連能力を評価する。 広範囲な実験により、ChartVLMは汎用モデルとチャート関連モデルの両方を超越し、GPT-4Vに匹敵する結果が得られた。 我々は、より包括的なチャート評価セットを作成し、より解釈可能なマルチモーダルモデルを開発するための、さらなる探索の道を開くことができると考えている。 ChartX と ChartVLM はいずれも https://github.com/UniModal4Reasoning/ChartVLM

Recently, many versatile Multi-modal Large Language Models (MLLMs) have emerged continuously. However, their capacity to query information depicted in visual charts and engage in reasoning based on the queried contents remains under-explored. In this paper, to comprehensively and rigorously benchmark the ability of the off-the-shelf MLLMs in the chart domain, we construct ChartX, a multi-modal evaluation set covering 18 chart types, 7 chart tasks, 22 disciplinary topics, and high-quality chart data. Besides, we develop ChartVLM to offer a new perspective on handling multi-modal tasks that strongly depend on interpretable patterns, such as reasoning tasks in the field of charts or geometric images. We evaluate the chart-related ability of mainstream MLLMs and our ChartVLM on the proposed ChartX evaluation set. Extensive experiments demonstrate that ChartVLM surpasses both versatile and chart-related large models, achieving results comparable to GPT-4V. We believe that our study can pave the way for further exploration in creating a more comprehensive chart evaluation set and developing more interpretable multi-modal models. Both ChartX and ChartVLM are available at: https://github.com/UniModal4Reasoning/ChartVLM
翻訳日:2024-02-20 16:11:26 公開日:2024-02-19
# 単色放射フィールドのカラー化

Colorizing Monochromatic Radiance Fields ( http://arxiv.org/abs/2402.12184v1 )

ライセンス: Link先を確認
Yean Cheng, Renjie Wan, Shuchen Weng, Chengxuan Zhu, Yakun Chang, Boxin Shi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は2次元画像の集合を用いて、世界のカラフルな3次元表現を生成できるが、単色画像のみを提供すると、そのような能力は存在しない。 世界を表現するには色が必要であるため、単色放射フィールドから色を再現することが重要となる。 この目的を達成するために,単色放射場を直接操作するのではなく,実験室カラー空間における表現予測タスクと考える。 まず、単色画像を用いて輝度と密度の表現を構築することにより、画像色化モジュールに基づいて色表現を再現できる。 次に、輝度、密度、色を表現することで、カラフルな暗黙のモデルを再現する。 提案手法の有効性を検証するため, 広範囲な実験を行った。 プロジェクトページ: https://liquidammonia.github.io/color-nerf。

Though Neural Radiance Fields (NeRF) can produce colorful 3D representations of the world by using a set of 2D images, such ability becomes non-existent when only monochromatic images are provided. Since color is necessary in representing the world, reproducing color from monochromatic radiance fields becomes crucial. To achieve this goal, instead of manipulating the monochromatic radiance fields directly, we consider it as a representation-prediction task in the Lab color space. By first constructing the luminance and density representation using monochromatic images, our prediction stage can recreate color representation on the basis of an image colorization module. We then reproduce a colorful implicit model through the representation of luminance, density, and color. Extensive experiments have been conducted to validate the effectiveness of our approaches. Our project page: https://liquidammonia.github.io/color-nerf.
翻訳日:2024-02-20 16:11:04 公開日:2024-02-19
# MultiFIX:マルチモーダルデータからモデルを構築するためのXAIフレンドリーな機能導入アプローチ

MultiFIX: An XAI-friendly feature inducing approach to building models from multimodal data ( http://arxiv.org/abs/2402.12183v1 )

ライセンス: Link先を確認
Mafalda Malafaia, Thalea Schlender, Peter A. N. Bosman, Tanja Alderliesten(参考訳) 健康領域では、決定はしばしば異なるデータモダリティに基づいています。 したがって、予測モデルを作成する場合、異なるデータモダリティから関連する特徴を抽出・結合できるマルチモーダル融合アプローチは、非常に有益である。 さらに、各モダリティが最終予測にどのように影響するかを理解することが重要であり、特に高い領域において、これらのモデルが信頼できる責任ある方法で使用できる。 我々は,新たな解釈可能性に着目したマルチモーダルデータ融合パイプラインであるMultiFIXを提案する。 エンドツーエンドのディープラーニングアーキテクチャを使用して、予測モデルをトレーニングし、各モードの代表的特徴を抽出する。 モデルの各部分は、説明可能な人工知能技術を用いて説明される。 注意マップは画像入力において重要な領域を強調するために使われる。 GP-GOMEAで学習した連続的に解釈可能な記号表現は、表型入力の寄与を記述するために用いられる。 また, GP-GOMEAで学習したシンボル表現によって, 抽出した特徴の融合とターゲットラベルの予測が置き換えられる。 合成問題の結果はMultiFIXの強度と限界を示している。 最後に,悪性皮膚病変検出のための公開データセットにマルチフィックスを適用する。

In the health domain, decisions are often based on different data modalities. Thus, when creating prediction models, multimodal fusion approaches that can extract and combine relevant features from different data modalities, can be highly beneficial. Furthermore, it is important to understand how each modality impacts the final prediction, especially in high-stake domains, so that these models can be used in a trustworthy and responsible manner. We propose MultiFIX: a new interpretability-focused multimodal data fusion pipeline that explicitly induces separate features from different data types that can subsequently be combined to make a final prediction. An end-to-end deep learning architecture is used to train a predictive model and extract representative features of each modality. Each part of the model is then explained using explainable artificial intelligence techniques. Attention maps are used to highlight important regions in image inputs. Inherently interpretable symbolic expressions, learned with GP-GOMEA, are used to describe the contribution of tabular inputs. The fusion of the extracted features to predict the target label is also replaced by a symbolic expression, learned with GP-GOMEA. Results on synthetic problems demonstrate the strengths and limitations of MultiFIX. Lastly, we apply MultiFIX to a publicly available dataset for the detection of malignant skin lesions.
翻訳日:2024-02-20 16:10:50 公開日:2024-02-19
# 深層強化学習におけるデータ強化の再検討

Revisiting Data Augmentation in Deep Reinforcement Learning ( http://arxiv.org/abs/2402.12181v1 )

ライセンス: Link先を確認
Jianshu Hu, Yunpeng Jiang and Paul Weng(参考訳) 近年,画像に基づく深部強化学習(DRL)において,様々なデータ拡張手法が提案されている。 サンプル効率の向上や一般化にデータ拡張の有効性を実証的に示すが,どの手法が望ましいかは必ずしも明確ではない。 この問題に取り組むため、既存の方法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。 特に、これらの手法のQ-ターゲットのばらつきと経験的アクター/批判的損失を表現することにより、それぞれのコンポーネントの効果を分析し、比較することができる。 さらに,対象のq値を計算する際に異なるデータ拡張変換を選択することにより,これらの手法がどのように影響を受けるかを説明する。 この分析は、データ拡張をより原則的に活用する方法を推奨する。 さらに、コンピュータビジョンで提案されていたタンジェント・プロップと呼ばれる正規化用語も含んでいるが、DRLへの適応は私たちの知識の最も新しいものである。 我々は提案を評価し、いくつかの領域で分析を検証する。 関連したベースラインと比較すると,多くの環境において最先端の性能を実現し,複雑な環境において高いサンプル効率と優れた一般化能力を示す。

Various data augmentation techniques have been recently proposed in image-based deep reinforcement learning (DRL). Although they empirically demonstrate the effectiveness of data augmentation for improving sample efficiency or generalization, which technique should be preferred is not always clear. To tackle this question, we analyze existing methods to better understand them and to uncover how they are connected. Notably, by expressing the variance of the Q-targets and that of the empirical actor/critic losses of these methods, we can analyze the effects of their different components and compare them. We furthermore formulate an explanation about how these methods may be affected by choosing different data augmentation transformations in calculating the target Q-values. This analysis suggests recommendations on how to exploit data augmentation in a more principled way. In addition, we include a regularization term called tangent prop, previously proposed in computer vision, but whose adaptation to DRL is novel to the best of our knowledge. We evaluate our proposition and validate our analysis in several domains. Compared to different relevant baselines, we demonstrate that it achieves state-of-the-art performance in most environments and shows higher sample efficiency and better generalization ability in some complex environments.
翻訳日:2024-02-20 16:10:31 公開日:2024-02-19
# オンライン検査における異常行動検出システムの検討

Examining Monitoring System: Detecting Abnormal Behavior In Online Examinations ( http://arxiv.org/abs/2402.12179v1 )

ライセンス: Link先を確認
Dinh An Ngo, Thanh Dat Nguyen, Thi Le Chi Dang, Huy Hoan Le, Ton Bao Ho, Vo Thanh Khang Nguyen, Truong Thanh Hung Nguyen(参考訳) 過去10年間で、特に新型コロナウイルス(COVID-19)パンデミック(COVID-19)の期間中に、オンライン試験の実施が問題となっている。 本研究は, 学生の異常行動の特定を支援するため, オンライン試験における異常行動検出システム「exam monitoring system: detection abnormal behavior in online examinations」を考案した。 本システムでは,リアルタイムシナリオにおける不正検出の精度と高速化,貴重な情報の提供,意思決定におけるプロクタ支援を行う。 本稿では,オンライン試験における不正行為を緩和するための方法論とシステムの有効性について概説する。

Cheating in online exams has become a prevalent issue over the past decade, especially during the COVID-19 pandemic. To address this issue of academic dishonesty, our "Exam Monitoring System: Detecting Abnormal Behavior in Online Examinations" is designed to assist proctors in identifying unusual student behavior. Our system demonstrates high accuracy and speed in detecting cheating in real-time scenarios, providing valuable information, and aiding proctors in decision-making. This article outlines our methodology and the effectiveness of our system in mitigating the widespread problem of cheating in online exams.
翻訳日:2024-02-20 16:10:12 公開日:2024-02-19
# 米国国土安全保障省における第3のサイバー脅威追跡プロセスに関するインタビュー研究

An Interview Study on Third-Party Cyber Threat Hunting Processes in the U.S. Department of Homeland Security ( http://arxiv.org/abs/2402.12252v1 )

ライセンス: Link先を確認
William P. Maxam III and James C. Davis(参考訳) サイバーセキュリティは大企業にとって大きな課題だ。 従来のサイバーセキュリティ防衛はリアクティブだ。 サイバーセキュリティオペレーションセンターは、侵入後に敵とインシデント対応チームがクリーンアップする。 サイバー脅威ハンティング(TH: Cyber Threat Hunting)は、他のサイバーディフェンスが見逃す可能性のある妥協を探している。 THは連邦政府の行政機関と政府請負業者に委任されている。 脅威狩りは新しいサイバーセキュリティ分野であり、ほとんどのthチームは特定のプロセスなしで活動する。 THの実践と課題はまだ文書化されていない。 このギャップに対処するため,本論文では脅威狩り実践者の初回インタビュー研究について述べる。 我々はアクセスを取得し、米国政府の国土安全保障省に関連する11の脅威ハンターにインタビューした。 インタビューは1時間行われた。 我々は,その過程の多様性を記述し,それらの過程が文献で報告されたthプロセスと異なることを示し,対象者の記述を一つのthプロセスに統合する。 最も一般的な2つの課題は、脅威ハンターの専門性を評価することの難しさと自動化の開発と維持であった。 我々は、THチームの推奨事項(計画の改善、自動化の重視、新しいメンバーの見習い)と将来の作業の方向性(柔軟性とフォーマリズムのバランスをとるTHプロセスの完成、THチームのパフォーマンス評価の特定)を結論付けます。

Cybersecurity is a major challenge for large organizations. Traditional cybersecurity defense is reactive. Cybersecurity operations centers keep out adversaries and incident response teams clean up after break-ins. Recently a proactive stage has been introduced: Cyber Threat Hunting (TH) looks for potential compromises missed by other cyber defenses. TH is mandated for federal executive agencies and government contractors. As threat hunting is a new cybersecurity discipline, most TH teams operate without a defined process. The practices and challenges of TH have not yet been documented. To address this gap, this paper describes the first interview study of threat hunt practitioners. We obtained access and interviewed 11 threat hunters associated with the U.S. government's Department of Homeland Security. Hour-long interviews were conducted. We analyzed the transcripts with process and thematic coding.We describe the diversity among their processes, show that their processes differ from the TH processes reported in the literature, and unify our subjects' descriptions into a single TH process.We enumerate common TH challenges and solutions according to the subjects. The two most common challenges were difficulty in assessing a Threat Hunter's expertise, and developing and maintaining automation. We conclude with recommendations for TH teams (improve planning, focus on automation, and apprentice new members) and highlight directions for future work (finding a TH process that balances flexibility and formalism, and identifying assessments for TH team performance).
翻訳日:2024-02-20 16:02:17 公開日:2024-02-19
# Kernel KMeansクラスタリングによるエンドツーエンドの教師なし決定ツリーの分割

Kernel KMeans clustering splits for end-to-end unsupervised decision trees ( http://arxiv.org/abs/2402.12232v1 )

ライセンス: Link先を確認
Louis Ohl, Pierre-Alexandre Mattei, Micka\"el Leclercq, Arnaud Droit, Fr\'ed\'eric Precioso(参考訳) ツリーは比較的小さなデータセットで説明可能な予測を得るために便利なモデルである。 教師あり学習において、このような木をエンドツーエンドに構築する提案は数多くあるが、ラベルなしでクラスタリングするための木をエンドツーエンドに学習することは、まだオープンな課題である。 多くの研究が、別のクラスタリングアルゴリズムの結果をツリーで解釈することに集中しているので、ここではクラスタリングのための新しいエンドツーエンドの訓練を受けていないバイナリツリー、Kauriを紹介します。 この方法は、セントロイドの定義を必要とせず、カーネルKMeansの目的を欲しがる最大化する。 複数のデータセットでこのモデルを最近の教師なしツリーと比較し、線形カーネルを使用する場合、kauriは同じ性能を示す。 他のカーネルでは、kauriはしばしばカーネルkmeanとカート決定ツリーの結合よりも優れている。

Trees are convenient models for obtaining explainable predictions on relatively small datasets. Although there are many proposals for the end-to-end construction of such trees in supervised learning, learning a tree end-to-end for clustering without labels remains an open challenge. As most works focus on interpreting with trees the result of another clustering algorithm, we present here a novel end-to-end trained unsupervised binary tree for clustering: Kauri. This method performs a greedy maximisation of the kernel KMeans objective without requiring the definition of centroids. We compare this model on multiple datasets with recent unsupervised trees and show that Kauri performs identically when using a linear kernel. For other kernels, Kauri often outperforms the concatenation of kernel KMeans and a CART decision tree.
翻訳日:2024-02-20 16:01:53 公開日:2024-02-19
# 拡散テンパリングは常微分方程式の確率積分器によるパラメータ推定を改善する

Diffusion Tempering Improves Parameter Estimation with Probabilistic Integrators for Ordinary Differential Equations ( http://arxiv.org/abs/2402.12231v1 )

ライセンス: Link先を確認
Jonas Beck, Nathanael Bosch, Michael Deistler, Kyra L. Kadhim, Jakob H. Macke, Philipp Hennig, Philipp Berens(参考訳) 通常微分方程式(ODE)は科学の力学系を記述するために広く用いられているが、実験的な測定を説明するパラメータを特定することは困難である。 特に、ODEは微分可能であり、勾配に基づくパラメータ最適化が可能であるが、ODEの非線形ダイナミクスは多くの場合、多くの局所最小化と初期条件に対する極度な感度をもたらす。 そこで我々は,ODEにおける勾配に基づくパラメータ最適化の収束性を改善する確率的数値法の新しい正規化手法である拡散テンパリングを提案する。 確率積分器の雑音パラメータを反復的に低減することにより、提案手法は真のパラメータにより確実に収束する。 本手法は複雑性の異なる力学系に有効であることを実証し,実際に関連するパラメータ数を持つホジキン・ハクスリーモデルに対して信頼性の高いパラメータ推定が得られることを示す。

Ordinary differential equations (ODEs) are widely used to describe dynamical systems in science, but identifying parameters that explain experimental measurements is challenging. In particular, although ODEs are differentiable and would allow for gradient-based parameter optimization, the nonlinear dynamics of ODEs often lead to many local minima and extreme sensitivity to initial conditions. We therefore propose diffusion tempering, a novel regularization technique for probabilistic numerical methods which improves convergence of gradient-based parameter optimization in ODEs. By iteratively reducing a noise parameter of the probabilistic integrator, the proposed method converges more reliably to the true parameters. We demonstrate that our method is effective for dynamical systems of different complexity and show that it obtains reliable parameter estimates for a Hodgkin-Huxley model with a practically relevant number of parameters.
翻訳日:2024-02-20 16:01:37 公開日:2024-02-19
# AnyGPT:離散シーケンスモデリングによる統一型マルチモーダルLCM

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling ( http://arxiv.org/abs/2402.12226v1 )

ライセンス: Link先を確認
Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu(参考訳) 我々は、音声、テキスト、画像、音楽を含む様々なモーダルの統一処理に離散表現を利用する、任意のマルチモーダル言語モデルであるAnyGPTを紹介する。 任意のGPTは、現在の大規模言語モデル(LLM)アーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができる。 代わりに、それはデータレベルのプリプロセッシングにのみ依存し、新しい言語の導入に似たllmへの新しいモダリティのシームレスな統合を促進する。 我々はマルチモーダルアライメント事前学習のためのマルチモーダルテキスト中心データセットを構築する。 生成モデルを用いて、我々は最初の大規模任意のマルチモーダル命令データセットを合成する。 様々なモダリティを複雑に織り交ぜるマルチターン会話の108kのサンプルで構成されており、マルチモーダル入力と出力の任意の組み合わせを扱うためのモデルを備えている。 実験結果から,AnyGPTは任意のマルチモーダル対話を促進できると同時に,すべてのモダリティにまたがる特殊モデルに匹敵する性能を実現し,言語モデル内の複数のモダリティを効果的かつ便利に統一できることが証明された。 デモはhttps://junzhan2000.github.io/AnyGPT.github.io/で見ることができる。

We introduce AnyGPT, an any-to-any multimodal language model that utilizes discrete representations for the unified processing of various modalities, including speech, text, images, and music. AnyGPT can be trained stably without any alterations to the current large language model (LLM) architecture or training paradigms. Instead, it relies exclusively on data-level preprocessing, facilitating the seamless integration of new modalities into LLMs, akin to the incorporation of new languages. We build a multimodal text-centric dataset for multimodal alignment pre-training. Utilizing generative models, we synthesize the first large-scale any-to-any multimodal instruction dataset. It consists of 108k samples of multi-turn conversations that intricately interweave various modalities, thus equipping the model to handle arbitrary combinations of multimodal inputs and outputs. Experimental results demonstrate that AnyGPT is capable of facilitating any-to-any multimodal conversation while achieving performance comparable to specialized models across all modalities, proving that discrete representations can effectively and conveniently unify multiple modalities within a language model. Demos are shown in https://junzhan2000.github.io/AnyGPT.github.io/
翻訳日:2024-02-20 16:01:21 公開日:2024-02-19
# キャパシティとスケーラビリティを考慮した3次元形状生成のための自己回帰モデル

Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability ( http://arxiv.org/abs/2402.12225v1 )

ライセンス: Link先を確認
Xuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu(参考訳) 自己回帰モデルでは,格子空間における関節分布のモデル化により2次元画像生成が達成されている。 本稿では, 自動回帰モデルを3次元領域に拡張し, キャパシティとスケーラビリティを同時に向上することにより, 3次元形状生成の強力な能力を求める。 まず,大規模モデルのトレーニングを容易にするために,利用可能な3dデータセットのアンサンブルを活用する。 約90,000のオブジェクトからなる包括的なコレクションで構成され、メッシュ、ポイント、ボクセル、レンダリング画像、テキストキャプションの複数の特性を持つ。 この多種多様なラベル付きデータセットはobjaverse-mixと呼ばれ、私たちのモデルに幅広いオブジェクトのバリエーションから学ぶ権限を与えます。 しかし、3次元自己回帰を直接適用することは、体積格子に対する高い計算要求とグリッド次元に沿ったあいまいな自己回帰順序という重要な課題に直面する。 この目的のために、キャパシティの観点から新しいフレームワーク argus3d を提示します。 具体的には,体積格子ではなく潜在ベクトルに基づく離散表現学習を導入することで,計算コストを削減できるだけでなく,より扱いやすい順序でジョイント分布を学習することで,重要な幾何学的詳細を保存できる。 これにより、点雲、カテゴリ、画像、テキストなど、様々な条件入力を潜在ベクトルに簡単に結合することで条件生成能力を実現することができる。 さらに、モデルアーキテクチャの単純さのおかげで、我々は自然に36億のパラメータを持つ大きなモデルにアプローチを拡大し、汎用的な3D生成の品質をさらに向上させます。 4つの世代タスクに関する大規模な実験により、Argus3Dは様々なカテゴリにまたがる多様で忠実な形状を合成できることを示した。

Auto-regressive models have achieved impressive results in 2D image generation by modeling joint distributions in grid space. In this paper, we extend auto-regressive models to 3D domains, and seek a stronger ability of 3D shape generation by improving auto-regressive models at capacity and scalability simultaneously. Firstly, we leverage an ensemble of publicly available 3D datasets to facilitate the training of large-scale models. It consists of a comprehensive collection of approximately 900,000 objects, with multiple properties of meshes, points, voxels, rendered images, and text captions. This diverse labeled dataset, termed Objaverse-Mix, empowers our model to learn from a wide range of object variations. However, directly applying 3D auto-regression encounters critical challenges of high computational demands on volumetric grids and ambiguous auto-regressive order along grid dimensions, resulting in inferior quality of 3D shapes. To this end, we then present a novel framework Argus3D in terms of capacity. Concretely, our approach introduces discrete representation learning based on a latent vector instead of volumetric grids, which not only reduces computational costs but also preserves essential geometric details by learning the joint distributions in a more tractable order. The capacity of conditional generation can thus be realized by simply concatenating various conditioning inputs to the latent vector, such as point clouds, categories, images, and texts. In addition, thanks to the simplicity of our model architecture, we naturally scale up our approach to a larger model with an impressive 3.6 billion parameters, further enhancing the quality of versatile 3D generation. Extensive experiments on four generation tasks demonstrate that Argus3D can synthesize diverse and faithful shapes across multiple categories, achieving remarkable performance.
翻訳日:2024-02-20 16:00:58 公開日:2024-02-19
# CovRL: LLMベースのミューテーションのためのカバレッジガイド強化学習によるJavaScriptエンジンのファジリング

CovRL: Fuzzing JavaScript Engines with Coverage-Guided Reinforcement Learning for LLM-based Mutation ( http://arxiv.org/abs/2402.12222v1 )

ライセンス: Link先を確認
Jueon Eom, Seyeon Jeong, Taekyoung Kwon(参考訳) Fuzzingは効果的なバグフィニングテクニックであるが、正確な文法入力を必要とするJavaScriptエンジンのような複雑なシステムと競合する。 近年,この問題に対処するためにファジングにおける文脈認識変異のための言語モデルが採用されている。 しかし、既存の技術は、むしろブラックボックス方式で実行されるファジィングのカバレッジガイダンスを利用する場合に限られている。 本稿では,大規模言語モデル(LLM)とカバレッジフィードバックからの強化学習を組み合わせた,CovRL(Coverage-guided Reinforcement Learning)と呼ばれる新しい手法を提案する。 我々のファズーであるCovRL-Fuzzは、TF-IDF(Term Frequency-Inverse Document Frequency)法を利用して、重み付きカバレッジマップを構築することにより、LLMに直接カバレッジフィードバックを組み込む。 このマップはファジング報酬を計算する上で鍵となり、強化学習を通じてllmベースのミューテータに適用される。 CovRL-Fuzzはこのアプローチを通じて、新たなカバレッジ領域を発見する可能性が高いテストケースの生成を可能にし、構文とセマンティックエラーを最小限にしながら脆弱性の検出を改善する。 CovRL-Fuzzは、39の既知の脆弱性と11のCVEを含む、最新のJavaScriptエンジンにおける48の実際のセキュリティ関連バグを特定しました。

Fuzzing is an effective bug-finding technique but it struggles with complex systems like JavaScript engines that demand precise grammatical input. Recently, researchers have adopted language models for context-aware mutation in fuzzing to address this problem. However, existing techniques are limited in utilizing coverage guidance for fuzzing, which is rather performed in a black-box manner. This paper presents a novel technique called CovRL (Coverage-guided Reinforcement Learning) that combines Large Language Models (LLMs) with reinforcement learning from coverage feedback. Our fuzzer, CovRL-Fuzz, integrates coverage feedback directly into the LLM by leveraging the Term Frequency-Inverse Document Frequency (TF-IDF) method to construct a weighted coverage map. This map is key in calculating the fuzzing reward, which is then applied to the LLM-based mutator through reinforcement learning. CovRL-Fuzz, through this approach, enables the generation of test cases that are more likely to discover new coverage areas, thus improving vulnerability detection while minimizing syntax and semantic errors, all without needing extra post-processing. Our evaluation results indicate that CovRL-Fuzz outperforms the state-of-the-art fuzzers in terms of code coverage and bug-finding capabilities: CovRL-Fuzz identified 48 real-world security-related bugs in the latest JavaScript engines, including 39 previously unknown vulnerabilities and 11 CVEs.
翻訳日:2024-02-20 16:00:29 公開日:2024-02-19
# 破壊的忘れを克服するベイズパラメーター効率の良い微調整法

Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting ( http://arxiv.org/abs/2402.12220v1 )

ライセンス: Link先を確認
Haolin Chen, Philip N. Garner(参考訳) テキスト音声合成モデルの適応に動機付けられるが、より汎用的なパラメータ効率の微調整(PEFT)は、このような適応を行うのに適したフレームワークである。 しかし、悲惨な忘れはPEFTの問題であり、事前訓練されたモデル固有の能力を損なう。 既設のベイズ学習手法をペフトに適用して,微調整層のパラメータシフトを微分的に計算できる限り,壊滅的な忘れを防止できることを実証する。 言語モデルと音声合成タスクに関する一連の実験において,lora (low-rank adapt) とpeft を正則化し,事前学習知識保存における性能を比較するために,ダイアゴナル法とクロネッカー因果法を含むラプラス近似を用いた。 以上の結果から,詳細なチューニング性能を損なうことなく破滅的な放棄を克服できることを示すとともに,クロネッカー因果近似を用いることにより,対角的知識よりも事前学習知識の保存性が向上した。

Although motivated by the adaptation of text-to-speech synthesis models, we argue that more generic parameter-efficient fine-tuning (PEFT) is an appropriate framework to do such adaptation. However, catastrophic forgetting remains an issue with PEFT, damaging the pre-trained model's inherent capabilities. We demonstrate that existing Bayesian learning techniques can be applied to PEFT to prevent catastrophic forgetting as long as the parameter shift of the fine-tuned layers can be calculated differentiably. In a principled series of experiments on language modeling and speech synthesis tasks, we utilize established Laplace approximations, including diagonal and Kronecker factored approaches, to regularize PEFT with the low-rank adaptation (LoRA) and compare their performance in pre-training knowledge preservation. Our results demonstrate that catastrophic forgetting can be overcome by our methods without degrading the fine-tuning performance, and using the Kronecker factored approximations produces a better preservation of the pre-training knowledge than the diagonal ones.
翻訳日:2024-02-20 15:59:59 公開日:2024-02-19
# AIGC著作権ジレンマの緩和のためのコピレフト : 分析と公衆の認識と意味

Copyleft for Alleviating AIGC Copyright Dilemma: What-if Analysis, Public Perception and Implications ( http://arxiv.org/abs/2402.12216v1 )

ライセンス: Link先を確認
Xinwei Guo, Yujun Li, Yafeng Peng, Xuetao Wei(参考訳) AIGCが過去数年間に我々の社会に大きな影響を与えてきたため、倫理的問題に大きな注目を集めている。 もっとも緊急なのはAIGC著作権のジレンマであり、AIGCの発展を著しく抑制し、社会全体に多大な損害を与える可能性がある。 AIGC著作権管理の複雑さと、現在完璧なソリューションが存在しないという事実を考えると、以前の研究はAIガバナンスのコピーレフトを支持したが、実体分析は行わなかった。 本稿では,aigc著作権ジレンマを緩和するコピーレフトの実現可能性についてさらに検討する。 我々は2つの側面から混合方法論の研究を行う: 質的に、我々は形式的なWhat-if分析を用いてジレンマを明確にし、事例研究を行い、コピーレフトの実現可能性を示す; 定量的に、AIGCのコピーレフトに対する大衆の感性を調べるために、慎重に設計された調査を行う。 主な発見は以下のとおりである。 a) 一般にジレンマを知覚する人々 b) 緩い制限の下で認可されたAIGCを使用することを好む。 c) AIGCのコピーレフトに陽性であり、将来それを使用する意思がある。

As AIGC has impacted our society profoundly in the past years, ethical issues have received tremendous attention. The most urgent one is the AIGC copyright dilemma, which can immensely stifle the development of AIGC and greatly cost the entire society. Given the complexity of AIGC copyright governance and the fact that no perfect solution currently exists, previous work advocated copyleft on AI governance but without substantive analysis. In this paper, we take a step further to explore the feasibility of copyleft to alleviate the AIGC copyright dilemma. We conduct a mixed-methods study from two aspects: qualitatively, we use a formal what-if analysis to clarify the dilemma and provide case studies to show the feasibility of copyleft; quantitatively, we perform a carefully designed survey to find out how the public feels about copylefting AIGC. The key findings include: a) people generally perceive the dilemma, b) they prefer to use authorized AIGC under loose restriction, and c) they are positive to copyleft in AIGC and willing to use it in the future.
翻訳日:2024-02-20 15:59:41 公開日:2024-02-19
# エコーチャンバー下での自律生成AIエージェントの分極

Polarization of Autonomous Generative AI Agents Under Echo Chambers ( http://arxiv.org/abs/2402.12212v1 )

ライセンス: Link先を確認
Masaya Ohagi(参考訳) オンラインソーシャルネットワークは、人々が自分の信念を補強する意見のみを聞くエコーチャンバーを作ることが多い。 エコー室はしばしば分極を発生させ、2021年1月6日のアメリカ議会議事堂攻撃のような急進的な意見を持つ人々による紛争を引き起こした。 echo chamberは人間特有の問題と見なされているが、この暗黙の仮定は、chatgptのような大きな言語モデルが社会的能力を取得するほど合理的ではない。 そこで我々は, エコーチャンバー環境における生成言語モデルに基づく自律型AIエージェント群において, 偏極が発生する可能性について検討した。 AIエージェントが特定のトピックについて議論し、議論が進むにつれてグループの意見がどのように変わったかを分析しました。 その結果, エコー室環境下では, ChatGPTをベースとしたエージェント群が分極する傾向が認められた。 意見遷移の分析は、この結果がChatGPTの自己および周辺エージェントの意見を考慮し、その意見を更新する素早い理解能力によって引き起こされたことを示している。 我々は,aiエージェントが偏光しやすい特定の条件下でのさらなる実験を行った。 その結果, エージェントのペルソナなど, 偏光に強い影響を及ぼす因子が同定された。 これらの要因は、AIエージェントの分極を防ぐために監視されるべきである。

Online social networks often create echo chambers where people only hear opinions reinforcing their beliefs. An echo chamber often generates polarization, leading to conflicts caused by people with radical opinions, such as the January 6, 2021, attack on the US Capitol. The echo chamber has been viewed as a human-specific problem, but this implicit assumption is becoming less reasonable as large language models, such as ChatGPT, acquire social abilities. In response to this situation, we investigated the potential for polarization to occur among a group of autonomous AI agents based on generative language models in an echo chamber environment. We had AI agents discuss specific topics and analyzed how the group's opinions changed as the discussion progressed. As a result, we found that the group of agents based on ChatGPT tended to become polarized in echo chamber environments. The analysis of opinion transitions shows that this result is caused by ChatGPT's high prompt understanding ability to update its opinion by considering its own and surrounding agents' opinions. We conducted additional experiments to investigate under what specific conditions AI agents tended to polarize. As a result, we identified factors that strongly influence polarization, such as the agent's persona. These factors should be monitored to prevent the polarization of AI agents.
翻訳日:2024-02-20 15:59:21 公開日:2024-02-19
# 資源リッチ言語からの自己蒸留による大規模言語モデルの多言語機能向上

Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages ( http://arxiv.org/abs/2402.12204v1 )

ライセンス: Link先を確認
Yuanchi Zhang, Yile Wang, Zijun Liu, Shuo Wang, Xiaolong Wang, Peng Li, Maosong Sun, Yang Liu(参考訳) 大規模言語モデル(llm)は多言語コーパスで事前学習されているが、その性能はいくつかのリソース豊富な言語に比べてほとんどの言語で劣っている。 この問題を緩和するための一般的なアプローチは、リソース豊富な言語から他の言語へのトレーニングデータを変換し、トレーニングを続けることである。 しかし、言語間のLLMの本来の能力を無視しながら翻訳のみに依存したデータを使用することは、必ずしも効果的ではない。 本研究では,資源リッチ言語におけるLLMの内部機能を活用することで,多言語性能を効果的に向上するSDRRLを提案する。 LLM(LLaMA-2 と SeaLLM)とソース言語を様々な理解・生成タスクで比較した結果,SDRRL は資源豊富な言語における本来の性能への影響を最小化しつつ,多言語機能を大幅に向上させることができることが示された。

While large language models (LLMs) have been pre-trained on multilingual corpora, their performance still lags behind in most languages compared to a few resource-rich languages. One common approach to mitigate this issue is to translate training data from resource-rich languages into other languages and then continue training. However, using the data obtained solely relying on translation while ignoring the original capabilities of LLMs across languages is not always effective, which we show will limit the performance of cross-lingual knowledge transfer. In this work, we propose SDRRL, a method based on Self-Distillation from Resource-Rich Languages that effectively improve multilingual performance by leveraging the internal capabilities of LLMs on resource-rich languages. We evaluate on different LLMs (LLaMA-2 and SeaLLM) and source languages across various comprehension and generation tasks, experimental results demonstrate that SDRRL can significantly enhance multilingual capabilities while minimizing the impact on original performance in resource-rich languages.
翻訳日:2024-02-20 15:58:58 公開日:2024-02-19
# アプリケーションパフォーマンス向上のためのMPI実装プロファイリング

MPI Implementation Profiling for Better Application Performance ( http://arxiv.org/abs/2402.12203v1 )

ライセンス: Link先を確認
Riley Shipley, Garrett Hooten, David Boehme, Derek Schafer, Anthony Skjellum, Olga Pearce(参考訳) アプリケーションプロファイリングは,長年にわたってHPCコミュニティの主流となっているが,MPIやその他の通信ミドルウェアのプロファイリングは同様の調査を受けていない。 本稿では,MPIプロファイリングの議論をさらに加え,2つの汎用プロファイリング手法と,これらの手法の実用的応用を既存実装に貢献する。 これらの手法を用いてMPI符号の性能欠陥を検出する能力は、通信最適化におけるさらなる研究と開発の可能性を高める。

While application profiling has been a mainstay in the HPC community for years, profiling of MPI and other communication middleware has not received the same degree of exploration. This paper adds to the discussion of MPI profiling, contributing two general-purpose profiling methods as well as practical applications of these methods to an existing implementation. The ability to detect performance defects in MPI codes using these methods increases the potential of further research and development in communication optimization.
翻訳日:2024-02-20 15:58:39 公開日:2024-02-19
# 異種性に配慮したクロススクール選抜:ハイブリッドフェデレーションアプローチ

Heterogeneity-aware Cross-school Electives Recommendation: a Hybrid Federated Approach ( http://arxiv.org/abs/2402.12202v1 )

ライセンス: Link先を確認
Chengyi Ju and Jiannong Cao and Yu Yang and Zhen-Qun Yang and Ho Man Lee(参考訳) 近代教育の時代には、特に選択科目選択のためのパーソナライズされた推薦システムにおいて、学校間学習者の多様性に対処することが不可欠である。 しかし、プライバシの懸念はしばしば、学校間のデータ共有を制限するため、既存のメソッドがスパースデータをモデル化し、効果的に異質性に対処する能力を妨げる。 そこで本研究では,相互選抜型進路推薦のためのヘテロジェネリティアウェアハイブリッドフェデレーションレコメンダシステムhfrecを提案する。 提案モデルでは,学校ごとの異種グラフを構築し,学生間のインタラクションや過去の振る舞いを取り入れ,文脈情報とコンテンツ情報を統合する。 異質性認識表現をキャプチャするアテンション機構を設計する。 さらに,フェデレーテッド・スキームでは,個別の学校ベースモデルに適応学習設定を施し,適応型選択語を推薦する。 当社のhfrecモデルは、オープンソースのデータセットと現実のデータセットの両方で最先端のモデルを上回るため、プライバシを維持しながらパーソナライズされた選択型の推奨を提供することで、その効果を示しています。

In the era of modern education, addressing cross-school learner diversity is crucial, especially in personalized recommender systems for elective course selection. However, privacy concerns often limit cross-school data sharing, which hinders existing methods' ability to model sparse data and address heterogeneity effectively, ultimately leading to suboptimal recommendations. In response, we propose HFRec, a heterogeneity-aware hybrid federated recommender system designed for cross-school elective course recommendations. The proposed model constructs heterogeneous graphs for each school, incorporating various interactions and historical behaviors between students to integrate context and content information. We design an attention mechanism to capture heterogeneity-aware representations. Moreover, under a federated scheme, we train individual school-based models with adaptive learning settings to recommend tailored electives. Our HFRec model demonstrates its effectiveness in providing personalized elective recommendations while maintaining privacy, as it outperforms state-of-the-art models on both open-source and real-world datasets.
翻訳日:2024-02-20 15:58:32 公開日:2024-02-19
# 辞書学習による機械的解釈容易性の向上:Othello-GPTを事例として

Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic Interpretability: A Case Study on Othello-GPT ( http://arxiv.org/abs/2402.12201v1 )

ライセンス: Link先を確認
Zhengfu He, Xuyang Ge, Qiong Tang, Tianxiang Sun, Qinyuan Cheng, Xipeng Qiu(参考訳) スパース辞書学習は、重ね合わせを攻撃し、モデルアクティベーションからより人間に理解可能な特徴を抽出する機械的解釈可能性において急速に成長する技術である。 抽出されたモノセマンティックな特徴に基づいてさらに疑問を呈する: 膨大な辞書特徴を接続する回路をどのように認識するか? 本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。 私たちのフレームワークは、分散のアウトオブディストリビューションに苦しむことが少なく、漸近的な複雑さの観点からより効率的であることが証明されます。 我々のフレームワークの基本単位は、埋め込み、注意出力、MPP出力を含む残ストリームに書き込む全てのモジュールから分解された辞書機能である。 あらゆるロジット、辞書機能、アテンションスコアから、すべてのトークンの下位レベルの辞書機能までトレースし、これらの解釈可能で局所的なモデル行動への貢献を計算します。 我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。

Sparse dictionary learning has been a rapidly growing technique in mechanistic interpretability to attack superposition and extract more human-understandable features from model activations. We ask a further question based on the extracted more monosemantic features: How do we recognize circuits connecting the enormous amount of dictionary features? We propose a circuit discovery framework alternative to activation patching. Our framework suffers less from out-of-distribution and proves to be more efficient in terms of asymptotic complexity. The basic unit in our framework is dictionary features decomposed from all modules writing to the residual stream, including embedding, attention output and MLP output. Starting from any logit, dictionary feature or attention score, we manage to trace down to lower-level dictionary features of all tokens and compute their contribution to these more interpretable and local model behaviors. We dig in a small transformer trained on a synthetic task named Othello and find a number of human-understandable fine-grained circuits inside of it.
翻訳日:2024-02-20 15:58:08 公開日:2024-02-19
# ヘイトミーム検出のためのゼロショットVLM:まだ存在するか?

Zero shot VLMs for hate meme detection: Are we there yet? ( http://arxiv.org/abs/2402.12198v1 )

ライセンス: Link先を確認
Naquee Rizwan, Paramananda Bhaskar, Mithun Das, Swadhin Satyaprakash Majhi, Punyajoy Saha, Animesh Mukherjee(参考訳) ソーシャルメディア上のマルチメディアコンテンツは急速に進化しており、ミームは顕著な形式として注目されている。 残念ながら、悪意のあるユーザの中には、個人や脆弱なコミュニティをターゲットにするミームを悪用する者もいる。 ヘイトミーム検出モデルを開発することでこの問題に対処する研究が盛んに行われている。 しかし、従来の機械学習モデルの顕著な制限は、正確な分類のためのラベル付きデータセットの要求である。 近年、研究コミュニティは様々なタスクにおいて優れたパフォーマンスを示す視覚言語モデルの出現を目撃している。 本研究では,ハト・ミーム検出などの複雑なタスクに対する視覚言語モデルの有効性を検討することを目的とする。 ヘイトフル/ハームフルミームのゼロショット分類にフォーカスするために、さまざまなプロンプト設定を使用します。 分析の結果,大きなVLMは依然としてゼロショットヘイトミーム検出に弱いことがわかった。

Multimedia content on social media is rapidly evolving, with memes gaining prominence as a distinctive form. Unfortunately, some malicious users exploit memes to target individuals or vulnerable communities, making it imperative to identify and address such instances of hateful memes. Extensive research has been conducted to address this issue by developing hate meme detection models. However, a notable limitation of traditional machine/deep learning models is the requirement for labeled datasets for accurate classification. Recently, the research community has witnessed the emergence of several visual language models that have exhibited outstanding performance across various tasks. In this study, we aim to investigate the efficacy of these visual language models in handling intricate tasks such as hate meme detection. We use various prompt settings to focus on zero-shot classification of hateful/harmful memes. Through our analysis, we observe that large VLMs are still vulnerable for zero-shot hate meme detection.
翻訳日:2024-02-20 15:57:47 公開日:2024-02-19
# L-QLES:量子線形方程式解析のためのスパースラプラシアン生成器

L-QLES: Sparse Laplacian generator for evaluating Quantum Linear Equation Solvers ( http://arxiv.org/abs/2402.12266v1 )

ライセンス: Link先を確認
Leigh Lapworth(参考訳) L-QLESは1D、2D、3Dラプラシア作用素と関連するポアソン方程式とその古典解を生成するためのオープンソースのピソンコードである。 量子アルゴリズムの目標は、エンドユーザのドメイン知識や柔軟なワンオフ産業が提供するマトリックスセットに依存することなく、産業用アプリケーションの機能を組み込むことのできる、フレキシブルなテストケースフレームワークを提供することだ。 1, 2, 3次元ラプラシアンのサンプルセットを提案し, 適応ブロック符号化法とfableブロック符号化法の性能を比較検討した。 その結果,産業特性を調査するには大きなマトリックスは必要ないことがわかった。 条件数17,000の行列は13量子ビットで符号化できる。 L-QLESはまた、アルゴリズム開発者が量子線形方程式ソルバの避けられないハイブリッド性質の古典的側面と量子的側面の両方を研究、最適化できるようにするために作られた。 4,096x4,096マトリクスをポーリ弦に分解するのに1時間以上の古典的前処理時間を要する準備選択符号化は、l-qles行列を用いて検討できる。 同様に、同じ行列に対して成功確率を持つ行列クエリオラクルを$\le 10^{-7}$で調べることができる。

L-QLES is an open source python code for generating 1D, 2D and 3D Laplacian operators and associated Poisson equations and their classical solutions. Its goal is to provide quantum algorithm developers with a flexible test case framework where features of industrial applications can be incorporated without the need for end-user domain knowledge or reliance on inflexible one-off industry supplied matrix sets. A sample set of 1, 2, and 3 dimensional Laplacians are suggested and used to compare the performance of the Prepare-Select and FABLE block encoding techniques. Results show that large matrices are not needed to investigate industrial characteristics. A matrix with a condition number of 17,000 can be encoded using 13 qubits. L-QLES has also been produced to enable algorithm developers to investigate and optimise both the classical and quantum aspects of the inevitable hybrid nature of quantum linear equation solvers. Prepare-Select encoding that takes over an hour of classical preprocessing time to decompose a 4,096x4,096 matrix into Pauli strings can be can investigated using L-QLES matrices. Similarly, row-column query oracles that have success probabilities $\le 10^{-7}$ for the same matrix can be investigated.
翻訳日:2024-02-20 15:51:36 公開日:2024-02-19
# マルコフ過程に対するリャプノフ密度:非劣化測定による量子系への応用

Lyapunov Densities For Markov Processes: An Application To Quantum Systems With Non-Demolition Measurements ( http://arxiv.org/abs/2402.12257v1 )

ライセンス: Link先を確認
\"Ozkan Karabacak, Horia Cornean, Rafael Wisniewski(参考訳) 離散時間マルコフ過程の確率収束は双対リアプノフ法に基づいて解析されている。 マルコフ過程のエルゴード理論に関する既存の結果を用いて、適切な部分不変函数(決定論系におけるリャプノフ密度の項)の存在は、この函数が可積分である集合からマルコフ過程を掃くことを意味することが示されている。 そのような関数は確率系の確率における収束の証明として用いることができる。 この手法を非退化測定の量子系によって誘起されるマルコフ過程に適用し、スイープを証明するために二重リアプノフ証明書を提案する。

Stochastic convergence of discrete time Markov processes has been analysed based on a dual Lyapunov approach. Using some existing results on ergodic theory of Markov processes, it has been shown that existence of a properly subinvariant function (counterpart of the Lyapunov density in deterministic systems) implies sweeping of a Markov process out of the sets where this function is integrable. Such a function can be used as a certificate of convergence in probability of a stochastic system. We apply this technique to Markov processes induced by a quantum system with non-demolition measurement and propose dual Lyapunov certificates to certify sweeping.
翻訳日:2024-02-20 15:51:08 公開日:2024-02-19
# GPT生成テキストにおける知識の不足合成--自動作業合成を事例として

Shallow Synthesis of Knowledge in GPT-Generated Texts: A Case Study in Automatic Related Work Composition ( http://arxiv.org/abs/2402.12255v1 )

ライセンス: Link先を確認
Anna Martin-Boyle, Aahan Tyagi, Marti A. Hearst, and Dongyeop Kang(参考訳) 研究プロセスのさまざまな段階を支援するために、多くのAI支援学術応用が開発されている。 本稿では,学術論文の文献の整理と関連作業部の構成を目的としたツールであるScholaCiteを用いて,AIを活用した学術著作の分析を行う。 本評価法は,文章中の引用文の構造的複雑さと相互接続性を評価するための引用グラフの解析に焦点をあて,(1)原文テキスト,(2)純GPT生成テキスト,(3)人・AI協調テキストの3方向比較を行う。 GPT-4はブレインストーミングにおいて人間のユーザを支援するために適切な粗い引用グループを生成できるが、人間の介入なしに関連する作品の詳細な合成を行うことができない。 今後,人間の著作者とは独立して文章の書き起こしを行うツールが使われるべきではないことを示唆する。

Numerous AI-assisted scholarly applications have been developed to aid different stages of the research process. We present an analysis of AI-assisted scholarly writing generated with ScholaCite, a tool we built that is designed for organizing literature and composing Related Work sections for academic papers. Our evaluation method focuses on the analysis of citation graphs to assess the structural complexity and inter-connectedness of citations in texts and involves a three-way comparison between (1) original human-written texts, (2) purely GPT-generated texts, and (3) human-AI collaborative texts. We find that GPT-4 can generate reasonable coarse-grained citation groupings to support human users in brainstorming, but fails to perform detailed synthesis of related works without human intervention. We suggest that future writing assistant tools should not be used to draft text independently of the human author.
翻訳日:2024-02-20 15:50:48 公開日:2024-02-19
# レベンシュテイン変圧器のデコーダとその変種の解析

Analysis of Levenshtein Transformer's Decoder and Its Variants ( http://arxiv.org/abs/2402.12249v1 )

ライセンス: Link先を確認
Ruiyang Zhou(参考訳) Levenshtein transformer (LevT) は、並列復号処理と反復精算処理により、高い復号効率と同等の翻訳品質を持つ非自己回帰機械翻訳モデルである。 翻訳の欠陥や改善点はありますか? 本稿では,levtのデコーダに着目し,デコード結果の長さ,サブワード生成,削除モジュールの能力について分析する。 今後の改善のためにデコーダの弱点を特定したいと思っています。 また,オリジナルのlevt,知識蒸留型levt,翻訳メモリ付きlevt,翻訳メモリ付きkd-levtの翻訳を比較し,kdと翻訳メモリがどのように役立つかを確認した。

Levenshtein transformer (LevT) is a non-autoregressive machine translation model with high decoding efficiency and comparable translation quality in terms of bleu score, due to its parallel decoding and iterative refinement procedure. Are there any deficiencies of its translations and what improvements could be made? In this report, we focus on LevT's decoder and analyse the decoding results length, subword generation, and deletion module's capability. We hope to identify weaknesses of the decoder for future improvements. We also compare translations of the original LevT, knowledge-distilled LevT, LevT with translation memory, and the KD-LevT with translation memory to see how KD and translation memory can help.
翻訳日:2024-02-20 15:50:20 公開日:2024-02-19
# 浅い回路計算における非条件量子磁気的利点

Unconditional quantum MAGIC advantage in shallow circuit computation ( http://arxiv.org/abs/2402.12246v1 )

ライセンス: Link先を確認
Xingjian Zhang, Zhaokai Pan, Guoding Liu(参考訳) 量子理論は古典的な方法よりも計算のスピードアップを約束する。 完全なパワーは「魔法」状態、あるいは非クリフォード操作に存在すると信じられている ―― 普遍的な量子コンピューティングを確立する秘密のソースである。 Gottesman-Knill Theoremは、魔法のない計算は古典的なコンピュータで効率的にシミュレートできると述べているが、「魔法」が本当に魔法なのかは疑問である。 実際、既存のすべての結果は、証明されていない複雑性の仮定やブラックボックスのオラクルへのクエリに対する効率的な計算の優位性を確立している。 本研究では,少なくとも一定の深さの浅い回路において,魔法のアドバンテージを無条件に確立できることを示す。 この目的のために、まず線形二項制約システムにインスパイアされた特定の非局所ゲームを構築し、所望の非局所統計や量子的「擬似テレパシー」を生成するのに魔法の資源を必要とする。 任意の非局所計算サイト間の相関関係を生成することを目的とした関係問題として,量子擬似テレパシーの戦略をサブルーチンとして用い,ファンインゲートが有界な浅い回路を構築した。 対照的に、マジックフリーなものは必然的に入力サイズに対数回路深さを必要とし、分離が最適であることが証明される。 副産物として、我々の構成する非局所ゲームは、量子自己テストにおいて開問題に答える、非特異な完全勝利戦略を持つことを示す。 また,魔法を必要とする非ローカルゲームの探索を支援する効率的なアルゴリズムを提供する。 我々は、普遍量子計算の非条件的優位性の究極的な確立を期待する。

Quantum theory promises computation speed-ups than classical means. The full power is believed to reside in "magic" states, or equivalently non-Clifford operations -- the secret sauce to establish universal quantum computing. Despite the celebrated Gottesman-Knill Theorem stating that magic-free computation can be efficiently simulated by a classical computer, it is still questionable whether "magic" is really magical. Indeed, all the existing results establish its supremacy for efficient computation upon unproven complexity assumptions or queries to black-box oracles. In this work, we show that the magic advantage can be unconditionally established, at least in a shallow circuit with a constant depth. For this purpose, we first construct a specific nonlocal game inspired by the linear binary constraint system, which requires the magic resource to generate the desired nonlocal statistics or quantum "pseudo telepathy." For a relation problem targeting generating such correlations between arbitrary nonlocal computation sites, we construct a shallow circuit with bounded fan-in gates that takes the strategy for quantum pseudo telepathy as a sub-routine to solve the problem with certainty. In contrast, magic-free counterparts inevitably require a logarithmic circuit depth to the input size, and the separation is proven optimal. As by-products, we prove that the nonlocal game we construct has non-unique perfect winning strategies, answering an open problem in quantum self-testing. We also provide an efficient algorithm to aid the search for potential magic-requiring nonlocal games similar to the current one. We anticipate our results to enlighten the ultimate establishment of the unconditional advantage of universal quantum computation.
翻訳日:2024-02-20 15:49:58 公開日:2024-02-19
# テキストからSQLへのノイズの影響を理解する:BIRD-Benchベンチマークの検討

Understanding the Effects of Noise in Text-to-SQL: An Examination of the BIRD-Bench Benchmark ( http://arxiv.org/abs/2402.12243v1 )

ライセンス: Link先を確認
Niklas Wretblad, Fredrik Gordh Riseby, Rahul Biswas, Amin Ahmadi, Oskar Holmstr\"om(参考訳) 自然言語を構造化クエリ言語(sql)に翻訳することを含むtext-to-sqlは、専門知識なしで構造化データベースへの広範なアクセスを可能にするために重要である。 しかし、あいまいな質問や構文上の誤りなどの「ノイズ」が存在するなど、多くの要因により、そのようなタスクのモデルの設計は困難である。 本研究では,広範に使用されているBIRD-Benchベンチマークにおけるノイズの分布とタイプ,およびモデルに対するノイズの影響を詳細に分析する。 BIRD-Benchは汚くてノイズの多いデータベースの値をモデル化するために作られたが、質問やゴールドクエリにノイズやエラーを含むように作られたものではない。 問合せやゴールドクエリのノイズはデータセットに多く存在し、ドメイン毎に様々な量があり、ノイズタイプ間で不均一な分布があることがわかった。 誤ったゴールドSQLクエリの存在は、誤ったゴールド回答を発生させ、ベンチマークの信頼性に大きな影響を及ぼす。 驚いたことに、修正SQLクエリのモデルを評価するとき、ゼロショットベースラインは最先端のプロンプトメソッドのパフォーマンスを上回った。 様々な種類のノイズを処理できる新しいテキスト-SQL手法を開発するためには,情報付ノイズラベルと信頼性ベンチマークが不可欠である。

Text-to-SQL, which involves translating natural language into Structured Query Language (SQL), is crucial for enabling broad access to structured databases without expert knowledge. However, designing models for such tasks is challenging due to numerous factors, including the presence of 'noise,' such as ambiguous questions and syntactical errors. This study provides an in-depth analysis of the distribution and types of noise in the widely used BIRD-Bench benchmark and the impact of noise on models. While BIRD-Bench was created to model dirty and noisy database values, it was not created to contain noise and errors in the questions and gold queries. We found that noise in questions and gold queries are prevalent in the dataset, with varying amounts across domains, and with an uneven distribution between noise types. The presence of incorrect gold SQL queries, which then generate incorrect gold answers, has a significant impact on the benchmark's reliability. Surprisingly, when evaluating models on corrected SQL queries, zero-shot baselines surpassed the performance of state-of-the-art prompting methods. We conclude that informative noise labels and reliable benchmarks are crucial to developing new Text-to-SQL methods that can handle varying types of noise.
翻訳日:2024-02-20 15:48:40 公開日:2024-02-19
# カテゴリー拡散モデルを用いた合成位置軌道生成

Synthetic location trajectory generation using categorical diffusion models ( http://arxiv.org/abs/2402.12242v1 )

ライセンス: Link先を確認
Simon Dirmeier and Ye Hong and Fernando Perez-Cruz(参考訳) 拡散確率モデル(DPM)は、コンピュータビジョン、オーディオ、自然言語処理、バイオ分子生成など、合成データのシミュレーションのための主要な生成モデルの一つとして急速に進化してきた。 本稿では、個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。 ILTは、人口の移動行動を理解し、政治的意思決定を最終的に伝えるために、移動研究において重要である。 我々は,irtを多次元カテゴリ確率変数として表現し,連続非拘束空間における拡散過程を最初に適用し,連続変数を離散空間にマッピングすることにより,連続dpmを用いた合同分布のモデル化を提案する。 本モデルでは,条件付きかつ無条件に生成されたシーケンスと,gnss追跡データセットから実世界のilpとを比較することで,現実のilpを合成できることを実証する。

Diffusion probabilistic models (DPMs) have rapidly evolved to be one of the predominant generative models for the simulation of synthetic data, for instance, for computer vision, audio, natural language processing, or biomolecule generation. Here, we propose using DPMs for the generation of synthetic individual location trajectories (ILTs) which are sequences of variables representing physical locations visited by individuals. ILTs are of major importance in mobility research to understand the mobility behavior of populations and to ultimately inform political decision-making. We represent ILTs as multi-dimensional categorical random variables and propose to model their joint distribution using a continuous DPM by first applying the diffusion process in a continuous unconstrained space and then mapping the continuous variables into a discrete space. We demonstrate that our model can synthesize realistic ILPs by comparing conditionally and unconditionally generated sequences to real-world ILPs from a GNSS tracking data set which suggests the potential use of our model for synthetic data generation, for example, for benchmarking models used in mobility research.
翻訳日:2024-02-20 15:48:15 公開日:2024-02-19
# リカレントニューラルネットワークにおける勾配降下の収束:非漸近解析

Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis ( http://arxiv.org/abs/2402.12241v1 )

ライセンス: Link先を確認
Semih Cayci, Atilla Eryilmaz(参考訳) 動的システムの教師付き学習環境において,勾配降下を訓練した繰り返しニューラルネットワークを解析し,勾配降下が超過パラメータ化の最適性を達成することを証明した。 奥行きの非漸近分析 (i)ネットワークサイズ$m$とイテレーションの複雑さ$\tau$を、シーケンス長$T$、サンプルサイズ$n$、環境次元$d$、そして、シャープなバウンドを提供する。 (II) 活性化関数のリプシッツ連続性に依存する遮断点によって特徴づけられる収束とネットワーク幅境界に対する力学系における長期依存性の有意な影響を同定する。 驚くべきことに、この分析により、n$のサンプルでトレーニングされた適切な初期化されたリカレントニューラルネットワークは、ネットワークサイズ$m$で最適性を達成できる。 これは、強い正規性条件を確立するのにm$ on $n$の高階多項式依存性を必要とする以前の作品と明確に対照的である。 この結果は,ノルム制約付き輸送マッピングを用いてニューラルネットワークによって近似および学習可能な力学系のクラスを明示的に評価し,学習可能なパラメータに関して隠れ状態の局所的滑らかさ特性を確立することに基づく。

We analyze recurrent neural networks trained with gradient descent in the supervised learning setting for dynamical systems, and prove that gradient descent can achieve optimality \emph{without} massive overparameterization. Our in-depth nonasymptotic analysis (i) provides sharp bounds on the network size $m$ and iteration complexity $\tau$ in terms of the sequence length $T$, sample size $n$ and ambient dimension $d$, and (ii) identifies the significant impact of long-term dependencies in the dynamical system on the convergence and network width bounds characterized by a cutoff point that depends on the Lipschitz continuity of the activation function. Remarkably, this analysis reveals that an appropriately-initialized recurrent neural network trained with $n$ samples can achieve optimality with a network size $m$ that scales only logarithmically with $n$. This sharply contrasts with the prior works that require high-order polynomial dependency of $m$ on $n$ to establish strong regularity conditions. Our results are based on an explicit characterization of the class of dynamical systems that can be approximated and learned by recurrent neural networks via norm-constrained transportation mappings, and establishing local smoothness properties of the hidden state with respect to the learnable parameters.
翻訳日:2024-02-20 15:47:38 公開日:2024-02-19
# BEARS、ニューロ・シンボリック・モデルのショートカットを認識

BEARS Make Neuro-Symbolic Models Aware of their Reasoning Shortcuts ( http://arxiv.org/abs/2402.12240v1 )

ライセンス: Link先を確認
Emanuele Marconato and Samuele Bortolotti and Emile van Krieken and Antonio Vergari and Andrea Passerini and Stefano Teso(参考訳) ニューロ・シンボリック(NeSy)予測子は、例えば安全性の制約など、記号的知識符号化に従うが、推論的ショートカット(Reasoning Shortcuts、RS)の影響を受けうる。 この論文で示すように、RSは信頼性と一般化を妥協し、予測された概念について過度に信頼されているNeSyモデルと関連付けられている。 残念なことに、唯一信頼できる緩和戦略は、概念を厳格に監視することである。 rssを完全に回避しようとするのではなく、nesyモデルが学習する概念の意味的曖昧さを認識して、ユーザによる低品質の概念の識別と不信感を実現することを提案する。 3つの単純なデシラタ(BE Aware of Reasoning Shortcuts)から始まり、予測精度を損なうことなくモデルの概念レベルの信頼性を校正するアンサンブル手法であるクマ(BE Aware of Reasoning Shortcuts)を導出する。 我々は,最先端のnesyモデルのrs認識性が改善されるとともに,その緩和を目的とした情報的密接なアノテーションの獲得が容易になることを示す。

Neuro-Symbolic (NeSy) predictors that conform to symbolic knowledge - encoding, e.g., safety constraints - can be affected by Reasoning Shortcuts (RSs): They learn concepts consistent with the symbolic knowledge by exploiting unintended semantics. RSs compromise reliability and generalization and, as we show in this paper, they are linked to NeSy models being overconfident about the predicted concepts. Unfortunately, the only trustworthy mitigation strategy requires collecting costly dense supervision over the concepts. Rather than attempting to avoid RSs altogether, we propose to ensure NeSy models are aware of the semantic ambiguity of the concepts they learn, thus enabling their users to identify and distrust low-quality concepts. Starting from three simple desiderata, we derive bears (BE Aware of Reasoning Shortcuts), an ensembling technique that calibrates the model's concept-level confidence without compromising prediction accuracy, thus encouraging NeSy architectures to be uncertain about concepts affected by RSs. We show empirically that bears improves RS-awareness of several state-of-the-art NeSy models, and also facilitates acquiring informative dense annotations for mitigation purposes.
翻訳日:2024-02-20 15:47:13 公開日:2024-02-19
# 逆軌道予測のための混合ガウス流

Mixed Gaussian Flow for Diverse Trajectory Prediction ( http://arxiv.org/abs/2402.12238v1 )

ライセンス: Link先を確認
Jiahe Chen, Jinkun Cao, Dahua Lin, Kris Kitani, Jiangmiao Pang(参考訳) 既存の軌道予測研究は生成モデルを強く活用している。 流れの正規化は、予測される軌道の確率密度を引き出すことができないという利点を持つジャンルの1つである。 しかしながら、フローベースモデルによる標準ガウスモデルからのマッピングは、訓練データにおける表現不足の意図を無視して、複雑な軌道パターンをキャプチャする能力を傷つける。 この問題を解決するために,混合ガウス多様体を将来の軌道多様体に変換するフローベースモデルを提案する。 このモデルでは、多様な軌道パターンを生成する能力が向上している。 また、各部分ガウジアンを軌跡の特定の部分空間に関連付けることで、制御可能な運動意図を持つ将来の軌跡を生成することができる。 このような方法では、フローベースモデルは単に意図された多様体の最も可能性を求めるのではなく、明示的な解釈可能性を持つ制御多様体の族である。 提案手法は,トップM生成候補における標本整列軌道の定量的評価における最先端性能を示す。 また,多様な,制御可能な,分布外のトラジェクトリを生成することも実証した。 コードはhttps://github.com/mulplue/mgfで入手できる。

Existing trajectory prediction studies intensively leverage generative models. Normalizing flow is one of the genres with the advantage of being invertible to derive the probability density of predicted trajectories. However, mapping from a standard Gaussian by a flow-based model hurts the capacity to capture complicated patterns of trajectories, ignoring the under-represented motion intentions in the training data. To solve the problem, we propose a flow-based model to transform a mixed Gaussian prior into the future trajectory manifold. The model shows a better capacity for generating diverse trajectory patterns. Also, by associating each sub-Gaussian with a certain subspace of trajectories, we can generate future trajectories with controllable motion intentions. In such a fashion, the flow-based model is not encouraged to simply seek the most likelihood of the intended manifold anymore but a family of controlled manifolds with explicit interpretability. Our proposed method is demonstrated to show state-of-the-art performance in the quantitative evaluation of sampling well-aligned trajectories in top-M generated candidates. We also demonstrate that it can generate diverse, controllable, and out-of-distribution trajectories. Code is available at https://github.com/mulplue/MGF.
翻訳日:2024-02-20 15:46:45 公開日:2024-02-19
# コンテンツモデレーションにおける推論の学習--ヒューマン・aiインタープレイ

Learning to Defer in Content Moderation: The Human-AI Interplay ( http://arxiv.org/abs/2402.12237v1 )

ライセンス: Link先を確認
Thodoris Lykouris, Wentao Weng(参考訳) オンラインプラットフォームにおけるコンテンツモデレーションの成功は、人間とAIのコラボレーションアプローチに依存している。 典型的なヒューリスティックな見積もりでは、ポストが期待される有害性を推定し、一定の閾値を使って削除するかどうか、ヒューマンレビューに送るかどうかを判断する。 これは、予測の不確実性、人間のレビュー能力とポスト到着の時間変化要素、データセットの選択的サンプリング(入場アルゴリズムでフィルタリングされたレビューポストのみ)を無視している。 本稿では,コンテンツモデレーションにおける人間とAIの相互作用を捉えるモデルを提案する。 このアルゴリズムは、受信した投稿の文脈情報を観察し、分類と入場の決定を行い、ヒューマンレビューのためにポストをスケジュールする。 許可された投稿だけが、その有害性に関する人間のレビューを受ける。 これらのレビューは、機械学習アルゴリズムの教育に役立つが、人間のレビューシステムの混雑により遅れている。 この人間とAIの相互作用を捉えるための古典的な学習理論は、学習のフレームワークを通じて遅延し、アルゴリズムは特定のコストで人間に分類タスクを延期し、即座にフィードバックを受け取るオプションを持つ。 我々のモデルは,人間のレビューシステムに混雑を導入することで,この文献に寄与する。 さらに、フィードバックの遅延がアルゴリズムの判断に外在的である遅延フィードバックによるオンライン学習の作業とは異なり、我々のモデルにおける遅延は入試とスケジュール決定の両方に内在的である。 提案アルゴリズムは,選択されたサンプルデータセットからの分類損失,非レビューポストの慣用的損失,ヒトレビューシステムにおける混雑の遅延損失とを慎重にバランスさせる。 我々の知る限りでは、これは文脈待ち行列システムにおけるオンライン学習の最初の結果であり、分析フレームワークは独立した関心を持つかもしれない。

Successful content moderation in online platforms relies on a human-AI collaboration approach. A typical heuristic estimates the expected harmfulness of a post and uses fixed thresholds to decide whether to remove it and whether to send it for human review. This disregards the prediction uncertainty, the time-varying element of human review capacity and post arrivals, and the selective sampling in the dataset (humans only review posts filtered by the admission algorithm). In this paper, we introduce a model to capture the human-AI interplay in content moderation. The algorithm observes contextual information for incoming posts, makes classification and admission decisions, and schedules posts for human review. Only admitted posts receive human reviews on their harmfulness. These reviews help educate the machine-learning algorithms but are delayed due to congestion in the human review system. The classical learning-theoretic way to capture this human-AI interplay is via the framework of learning to defer, where the algorithm has the option to defer a classification task to humans for a fixed cost and immediately receive feedback. Our model contributes to this literature by introducing congestion in the human review system. Moreover, unlike work on online learning with delayed feedback where the delay in the feedback is exogenous to the algorithm's decisions, the delay in our model is endogenous to both the admission and the scheduling decisions. We propose a near-optimal learning algorithm that carefully balances the classification loss from a selectively sampled dataset, the idiosyncratic loss of non-reviewed posts, and the delay loss of having congestion in the human review system. To the best of our knowledge, this is the first result for online learning in contextual queueing systems and hence our analytical framework may be of independent interest.
翻訳日:2024-02-20 15:46:26 公開日:2024-02-19
# 学習の基本的限界

The Fundamental Limits of Least-Privilege Learning ( http://arxiv.org/abs/2402.12235v1 )

ライセンス: Link先を確認
Theresa Stadler, Bogdan Kulynych, Nicoals Papernot, Michael Gastpar, Carmela Troncoso(参考訳) 最小特権学習の約束 -- 学習タスクに役立つが、このタスクとは無関係な機密情報の推測を防ぐ機能表現を見つけることは、非常に魅力的である。 しかし、今のところこの概念は非公式にのみ述べられている。 したがって、この目標を達成できるか、どのように達成できるかは、まだ疑問の余地がない。 本稿では,機械学習における最小優先原理の最初の形式化と実現可能性について述べる。 我々は、あるタスクに対する表現のユーティリティと、その意図したタスクを超えたリークとの間に基本的なトレードオフがあることを証明している: 意図されたタスクに対して高いユーティリティを持つ表現を学習することは不可能であるが、同時に、タスクラベル自身以外の属性の推論を防止できる。 このトレードオフは、これらの表現を生成する機能マッピングを学ぶのに使用されるテクニックに関係なく保持される。 この結果を、幅広い学習技術、モデルアーキテクチャ、データセットに対して実証的に検証します。

The promise of least-privilege learning -- to find feature representations that are useful for a learning task but prevent inference of any sensitive information unrelated to this task -- is highly appealing. However, so far this concept has only been stated informally. It thus remains an open question whether and how we can achieve this goal. In this work, we provide the first formalisation of the least-privilege principle for machine learning and characterise its feasibility. We prove that there is a fundamental trade-off between a representation's utility for a given task and its leakage beyond the intended task: it is not possible to learn representations that have high utility for the intended task but, at the same time prevent inference of any attribute other than the task label itself. This trade-off holds regardless of the technique used to learn the feature mappings that produce these representations. We empirically validate this result for a wide range of learning techniques, model architectures, and datasets.
翻訳日:2024-02-20 15:45:57 公開日:2024-02-19
# 文脈学習によるタスク指向対話

Task-Oriented Dialogue with In-Context Learning ( http://arxiv.org/abs/2402.12234v1 )

ライセンス: Link先を確認
Tom Bocklisch, Thomas Werkmeister, Daksh Varshneya, Alan Nichol(参考訳) 本稿では,大規模言語モデル(llms)の文脈内学習能力とビジネスロジック決定論的実行を組み合わせたタスク指向対話システムを構築するシステムについて述べる。 LLMは、会話の表面形式とビジネスロジックを進めるために使用されるドメイン固有言語(DSL)の間の翻訳に使われる。 私たちは、現在業界で主に使われている意図に基づくNLUアプローチと比較します。 実験の結果,本システムを用いたチャットボットの開発は,確立されたアプローチよりもはるかに少ない労力を必要とすること,nluベースのシステムでは極めて難しい複雑な対話をうまくナビゲートできること,タスク指向対話システムを多数のタスクにスケールアップするための望ましい特性を有すること,などが示されている。 使用とさらなる研究のために実装を利用可能にします。

We describe a system for building task-oriented dialogue systems combining the in-context learning abilities of large language models (LLMs) with the deterministic execution of business logic. LLMs are used to translate between the surface form of the conversation and a domain-specific language (DSL) which is used to progress the business logic. We compare our approach to the intent-based NLU approach predominantly used in industry today. Our experiments show that developing chatbots with our system requires significantly less effort than established approaches, that these chatbots can successfully navigate complex dialogues which are extremely challenging for NLU-based systems, and that our system has desirable properties for scaling task-oriented dialogue systems to a large number of tasks. We make our implementation available for use and further study.
翻訳日:2024-02-20 15:45:43 公開日:2024-02-19
# 変圧器フィードフォワード層における更新キーバリュー記憶に関する実証的研究

Empirical Study on Updating Key-Value Memories in Transformer Feed-forward Layers ( http://arxiv.org/abs/2402.12233v1 )

ライセンス: Link先を確認
Zihan Qiu, Zeyu Huang, Youcheng Huang and Jie Fu(参考訳) トランスにおけるフィードフォワードネットワーク(FFN)は、抽象的な高レベルの知識を復元するためのキー値のニューラルメモリのグループとして認識される。 本研究では,鍵(FFNs層における第1層)または値(FFNs層における第2層)の更新に関する実証的アブレーション研究を行う。 これら2つの手法を,大規模言語モデルの知識編集や微調整タスクで比較し,ffnの理解を深める。 コードは$\href{https://github.com/qiuzh20/Tuning-keys-v.s.-values}{this\,repo}$で入手できる。

The feed-forward networks (FFNs) in transformers are recognized as a group of key-value neural memories to restore abstract high-level knowledge. In this work, we conduct an empirical ablation study on updating keys (the 1st layer in the FFNs layer) or values (the 2nd layer in the FFNs layer). We compare those two methods in various knowledge editing and fine-tuning tasks of large language models to draw insights to understand FFNs further. Code is available at $\href{https://github.com/qiuzh20/Tuning-keys-v.s.-values}{this\,repo}$.
翻訳日:2024-02-20 15:45:31 公開日:2024-02-19
# スペクトルクラスタリングにおける固有ベクトルの漸近ガウスゆらぎ

Asymptotic Gaussian Fluctuations of Eigenvectors in Spectral Clustering ( http://arxiv.org/abs/2402.12302v1 )

ライセンス: Link先を確認
Hugo Lebeau, Florent Chatelain, Romain Couillet(参考訳) スペクトルクラスタリングの性能は、類似性行列の固有ベクトルの成分の変動に依存するが、これはこれまで文字化されていない。 本文では,一般スパイクランダム行列モデルの信号$+$ノイズ構造を対応するグラムカーネル行列の固有ベクトルに転送し,その成分のゆらぎが大次元状態においてガウス的であることを示す。 このCLTライクな結果は、スペクトルクラスタリングの分類性能を正確に予測する最後の欠落点であった。 提案する証明は非常に一般的であり、ノイズの回転不変性のみに依存する。 合成および実データに関する数値実験は、この現象の普遍性を示している。

The performance of spectral clustering relies on the fluctuations of the entries of the eigenvectors of a similarity matrix, which has been left uncharacterized until now. In this letter, it is shown that the signal $+$ noise structure of a general spike random matrix model is transferred to the eigenvectors of the corresponding Gram kernel matrix and the fluctuations of their entries are Gaussian in the large-dimensional regime. This CLT-like result was the last missing piece to precisely predict the classification performance of spectral clustering. The proposed proof is very general and relies solely on the rotational invariance of the noise. Numerical experiments on synthetic and real data illustrate the universality of this phenomenon.
翻訳日:2024-02-20 15:36:28 公開日:2024-02-19
# 適応スケルトングラフ復号法

Adaptive Skeleton Graph Decoding ( http://arxiv.org/abs/2402.12280v1 )

ライセンス: Link先を確認
Shuowei Jin, Yongji Wu, Haizhong Zheng, Qingzhao Zhang, Matthew Lentz, Z. Morley Mao, Atul Prakash, Feng Qian, Danyang Zhuo(参考訳) 大規模言語モデル(llm)は、大量のモデルパラメータ(例えば70b+)の成功によって、自然言語タスクにかなりの採用が見られたが、llm推論は、かなりの計算量とメモリコストを伴っている。 最近のアプローチでは、stoel-of-thought(sot)のような並列デコード戦略を提案し、プロンプトを並列にデコードできるサブプロンプトに分割することでパフォーマンスを向上させるが、応答品質の低下に苦しむことが多い。 私たちの重要な洞察は、サブプロブレムを生成して応答品質とパフォーマンスの両方を改善する際に、追加の情報、特に依存関係と困難を要求できるということです。 本稿では,サブプロブレム間の依存関係を公開して,依存サブプロブレム間の情報転送を支援するSkeleton Graph Decoding (SGD)を提案する。 さらに,各サブプロブレムの難易度推定を活用して,適切なサイズモデルを選択し,品質を著しく低下させることなく性能を向上させる。 sgdは標準のオートレグレッシブ・ジェネレーションとsotと比較して1.59倍のスピードアップを達成し、品質は最大51%向上した。

Large language models (LLMs) have seen significant adoption for natural language tasks, owing their success to massive numbers of model parameters (e.g., 70B+); however, LLM inference incurs significant computation and memory costs. Recent approaches propose parallel decoding strategies, such as Skeleton-of-Thought (SoT), to improve performance by breaking prompts down into sub-problems that can be decoded in parallel; however, they often suffer from reduced response quality. Our key insight is that we can request additional information, specifically dependencies and difficulty, when generating the sub-problems to improve both response quality and performance. In this paper, we propose Skeleton Graph Decoding (SGD), which uses dependencies exposed between sub-problems to support information forwarding between dependent sub-problems for improved quality while exposing parallelization opportunities for decoding independent sub-problems. Additionally, we leverage difficulty estimates for each sub-problem to select an appropriately-sized model, improving performance without significantly reducing quality. Compared to standard autoregressive generation and SoT, SGD achieves a 1.69x speedup while improving quality by up to 51%.
翻訳日:2024-02-20 15:36:17 公開日:2024-02-19
# 生成課題における効果的なゼロショット言語間知識伝達のための主成分

Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks ( http://arxiv.org/abs/2402.12279v1 )

ライセンス: Link先を確認
Nadezhda Chirkova, Vassilina Nikoulina(参考訳) ゼロショットのクロスリンガル生成は、ある言語における生成タスクで多言語事前学習された言語モデルを微調整し、それを使用して他の言語でこのタスクの予測を行うことを意味する。 以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。 本研究では,mBARTやNLLB-200といった代替バックボーンモデルを含む,統一された設定で文献から提案されるさまざまなアプローチを比較した。 まず、ファインタニングに使用されるチューニング学習率の重要性について述べ、これは間違った言語における生成の問題を大幅に軽減するのに役立ちます。 次に,注意深い学習率チューニングを行うことで,モデルの完全な微調整が非常に強力なベースラインとなり,代替手法は限界的な改善のみをもたらすことを示した。 最後に,mBARTはmT5と同じサイズで動作し,NLLB-200と競合する場合もある。 最終モデルは,ゼロショットクロスリンガル生成のための上位ベースラインと見なされるデータ変換に基づくアプローチの性能に達する。

Zero-shot cross-lingual generation implies finetuning of the multilingual pretrained language model on a generation task in one language and then using it to make predictions for this task in other languages. Previous works notice a frequent problem of generation in a wrong language and propose approaches to address it, usually using mT5 as a backbone model. In this work we compare various approaches proposed from the literature in unified settings, also including alternative backbone models, namely mBART and NLLB-200. We first underline the importance of tuning learning rate used for finetuning, which helps to substantially alleviate the problem of generation in the wrong language. Then, we show that with careful learning rate tuning, the simple full finetuning of the model acts as a very strong baseline and alternative approaches bring only marginal improvements. Finally, we find that mBART performs similarly to mT5 of the same size, and NLLB-200 can be competitive in some cases. Our final models reach the performance of the approach based on data translation which is usually considered as an upper baseline for zero-shot cross-lingual generation.
翻訳日:2024-02-20 15:35:57 公開日:2024-02-19
# モデルベースLLMエージェントWorldCoder:コードを書くことによって世界モデルを構築し、環境と相互作用する

WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment ( http://arxiv.org/abs/2402.12275v1 )

ライセンス: Link先を確認
Hao Tang, Darren Key, Kevin Ellis(参考訳) 我々は,環境とのインタラクションに基づいて,世界の知識を表現するPythonプログラムを構築するモデルベースエージェントを提案する。 世界モデルは、その相互作用を説明しつつ、どんな報酬が得られるのかを楽観的に説明しようとします。 LLMを通してプログラム合成の作業を拡張することでこれを実現します。 我々はグリッドワールドにおけるエージェントの研究を行い、我々のアプローチは深いRLに比べてサンプリング効率が良く、ReActスタイルのエージェントよりも計算効率が良いことを発見した。

We give a model-based agent that builds a Python program representing its knowledge of the world based on its interactions with the environment. The world model tries to explain its interactions, while also being optimistic about what reward it can achieve. We do this by extending work on program synthesis via LLMs. We study our agent on gridworlds, finding our approach is more sample-efficient compared to deep RL, and more compute-efficient compared to ReAct-style agents.
翻訳日:2024-02-20 15:35:37 公開日:2024-02-19
# 量子デバイスのためのフェルミオン・ボソン系の特殊アンサッツ

Exact Ansatz of Fermion-Boson Systems for a Quantum Device ( http://arxiv.org/abs/2402.12273v1 )

ライセンス: Link先を確認
Samuel Warren, Yuchen Wang, Carlos L. Benavides-Riveros and David A. Mazziotti(参考訳) 量子デバイス上で実装可能な混合フェルミオンボソン系の固有状態問題に対する正確なアンサッツを示す。 電子収縮型シュリンガー方程式(英語版)(CSE)の一般化に基づいて、量子デバイス上での混合CSEの残留を直接測定することにより、任意の混合ハミルトニアン基底状態へのトライアル波関数を導出する。 電子フォノンや電子光子系に適用される密度汎関数理論や結合クラスター理論とは異なり、このアプローチの精度は未知の交換相関関数や指数アンサッツの非制御形式によって制限されるわけではない。 提案手法の性能を検証するため,偏光量子化学でよく用いられるTavis-Cummingsモデルについて検討した。 以上の結果から,CSEは一般フェルミオンボソン多体問題を解くための量子アルゴリズムの開発において強力なツールであることが示された。

We present an exact ansatz for the eigenstate problem of mixed fermion-boson systems that can be implemented on quantum devices. Based on a generalization of the electronic contracted Schr\"odinger equation (CSE), our approach guides a trial wave function to the ground state of any arbitrary mixed Hamiltonian by directly measuring residuals of the mixed CSE on a quantum device. Unlike density-functional and coupled-cluster theories applied to electron-phonon or electron-photon systems, the accuracy of our approach is not limited by the unknown exchange-correlation functional or the uncontrolled form of the exponential ansatz. To test the performance of the method, we study the Tavis-Cummings model, commonly used in polaritonic quantum chemistry. Our results demonstrate that the CSE is a powerful tool in the development of quantum algorithms for solving general fermion-boson many-body problems.
翻訳日:2024-02-20 15:35:27 公開日:2024-02-19
# 異種クラウドと高性能コンピューティングリソース間のセキュアなフェデレーション学習-LLaMA2のフェデレーションファインチューニングを事例として-

Secure Federated Learning Across Heterogeneous Cloud and High-Performance Computing Resources -- A Case Study on Federated Fine-tuning of LLaMA 2 ( http://arxiv.org/abs/2402.12271v1 )

ライセンス: Link先を確認
Zilinghan Li, Shilan He, Pranshu Chaturvedi, Volodymyr Kindratenko, Eliu A Huerta, Kibaek Kim, Ravi Madduri(参考訳) フェデレートされた学習により、複数のデータ所有者は、ローカルにトレーニングされたモデルのパラメータを共有するだけで、大規模なまたは機密性の高いローカルデータセットを転送することなく、堅牢な機械学習モデルを協調的にトレーニングすることができる。 本稿では,サービスプラットフォームとしての分散機能であるGlobus ComputeとAmazon Web Servicesを活用して,クラウドコンピューティングの施設と高性能コンピューティングリソースにまたがる,エンドツーエンドのセキュアで信頼性の高いフェデレーション学習実験を合理化する,Advanced Privacy-Preserving Federated Learning (APPFL) フレームワークの設計について詳述する。 さらに,複数のクラウドリソースとスーパーコンピュータを用いたLLaMA 2 7Bモデルの微調整におけるAPPFLの適用例を示す。

Federated learning enables multiple data owners to collaboratively train robust machine learning models without transferring large or sensitive local datasets by only sharing the parameters of the locally trained models. In this paper, we elaborate on the design of our Advanced Privacy-Preserving Federated Learning (APPFL) framework, which streamlines end-to-end secure and reliable federated learning experiments across cloud computing facilities and high-performance computing resources by leveraging Globus Compute, a distributed function as a service platform, and Amazon Web Services. We further demonstrate the use case of APPFL in fine-tuning a LLaMA 2 7B model using several cloud resources and supercomputers.
翻訳日:2024-02-20 15:35:11 公開日:2024-02-19
# 部分加工したGromov-Wassersteinマッチングを用いた任意サイズグラフのエンドツーエンド予測

End-to-end Supervised Prediction of Arbitrary-size Graphs with Partially-Masked Fused Gromov-Wasserstein Matching ( http://arxiv.org/abs/2402.12269v1 )

ライセンス: Link先を確認
Paul Krzakala, Junjie Yang, R\'emi Flamary, Florence d'Alch\'e Buc, Charlotte Laclau, Matthieu Labeau(参考訳) 本稿では,SGP(Supervised Graph Prediction)のためのエンドツーエンドの深層学習手法を提案する。 本稿では, 従来の OT (Optimal Transport) に基づく損失, 部分マス付きファステッド・グロモフ・ワッサースタイン損失 (PM-FGW) を導入し, 隣接性や特徴行列などのグラフ表現を直接活用する。 PM-FGW はノード置換不変であり、部分微分可能であり、パッド付き表現とマスキングベクトルを比較して異なる大きさのグラフを扱う。 さらに,異なるタイプの入力データに容易に適応できるフレキシブルトランスフォーマーベースのアーキテクチャを提案する。 実験のセクションでは、新しい挑戦的な合成データセット(image2graph)と2つの実世界のタスク(image2mapとfinger2molecule)の3つの異なるタスクが、競合他社と比較してアプローチの効率と汎用性を示している。

We present a novel end-to-end deep learning-based approach for Supervised Graph Prediction (SGP). We introduce an original Optimal Transport (OT)-based loss, the Partially-Masked Fused Gromov-Wasserstein loss (PM-FGW), that allows to directly leverage graph representations such as adjacency and feature matrices. PM-FGW exhibits all the desirable properties for SGP: it is node permutation invariant, sub-differentiable and handles graphs of different sizes by comparing their padded representations as well as their masking vectors. Moreover, we present a flexible transformer-based architecture that easily adapts to different types of input data. In the experimental section, three different tasks, a novel and challenging synthetic dataset (image2graph) and two real-world tasks, image2map and fingerprint2molecule - showcase the efficiency and versatility of the approach compared to competitors.
翻訳日:2024-02-20 15:34:54 公開日:2024-02-19
# アウト・オブ・ザ・ボックス大言語モデルを用いた重大リソース言語のための高品質データ・テキスト生成

High-quality Data-to-Text Generation for Severely Under-Resourced Languages with Out-of-the-box Large Language Models ( http://arxiv.org/abs/2402.12267v1 )

ライセンス: Link先を確認
Michela Lorandi and Anya Belz(参考訳) 高度にリソース不足な言語に対するNLPメソッドのパフォーマンスは、十分にリソースが確保された言語に対するNLPメソッドの最先端性を期待できない。 我々は、アイルランド語、ウェールズ語、ブルトン語、マルタ語のdata-to-text生成の例を通して、事前訓練された大規模言語モデル(llm)がこのギャップを橋渡しできる範囲を調査した。 我々は、これらの低リソース言語と英語のLLMを、様々なシナリオでテストする。 LLMは、自動評価と人的評価の両方で測定されるように、アンダーリソース言語におけるアートの状態をかなりのマージンで容易に設定できる。 すべての言語において、人間による評価は最高のシステムに対して人間とほぼ同等のパフォーマンスを示すが、bleuスコアは英語と比較すると崩壊し、非タスク特有のシステムを評価するためのメトリクスの適合性に疑問を投げかけている。 その結果,LLMが低リソース言語の性能ギャップを埋める可能性を示した。

The performance of NLP methods for severely under-resourced languages cannot currently hope to match the state of the art in NLP methods for well resourced languages. We explore the extent to which pretrained large language models (LLMs) can bridge this gap, via the example of data-to-text generation for Irish, Welsh, Breton and Maltese. We test LLMs on these under-resourced languages and English, in a range of scenarios. We find that LLMs easily set the state of the art for the under-resourced languages by substantial margins, as measured by both automatic and human evaluations. For all our languages, human evaluation shows on-a-par performance with humans for our best systems, but BLEU scores collapse compared to English, casting doubt on the metric's suitability for evaluating non-task-specific systems. Overall, our results demonstrate the great potential of LLMs to bridge the performance gap for under-resourced languages.
翻訳日:2024-02-20 15:34:35 公開日:2024-02-19
# 蒸留系フェデレート学習のビザンチン耐性について

On the Byzantine-Resilience of Distillation-Based Federated Learning ( http://arxiv.org/abs/2402.12265v1 )

ライセンス: Link先を確認
Christophe Roux, Max Zimmer, Sebastian Pokutta(参考訳) 知識蒸留(kd)を用いたフェデレーション学習(fl)アルゴリズムは,プライバシ,非i.i.d.データ,通信コストの面で有利な性質から注目を集めている。 これらの方法は、モデルパラメータの送信から離れて、パブリックデータセットで予測を共有することによって、学習タスクに関する情報を伝達する。 本研究では, クライアントのサブセットが, 学習過程を妨害する目的で, 対角的に行動する, ビザンチン環境でのこのような手法の性能について検討する。 kdベースのflアルゴリズムは極めてレジリエントであり,連合平均化と比較してビザンチンクライアントが学習プロセスにどのように影響を与えるかを分析する。 これらの知見に基づき,新たなビザンチン攻撃を2回導入し,従来のビザンチン耐性法に対して有効であることを示す。 さらに,KDに基づくFLアルゴリズムのビザンチンレジリエンスを高め,その有効性を示す新しい手法であるFilterExpを提案する。 最後に、攻撃を検知しにくくし、その効果を向上させる一般的な方法を提案する。

Federated Learning (FL) algorithms using Knowledge Distillation (KD) have received increasing attention due to their favorable properties with respect to privacy, non-i.i.d. data and communication cost. These methods depart from transmitting model parameters and, instead, communicate information about a learning task by sharing predictions on a public dataset. In this work, we study the performance of such approaches in the byzantine setting, where a subset of the clients act in an adversarial manner aiming to disrupt the learning process. We show that KD-based FL algorithms are remarkably resilient and analyze how byzantine clients can influence the learning process compared to Federated Averaging. Based on these insights, we introduce two new byzantine attacks and demonstrate that they are effective against prior byzantine-resilient methods. Additionally, we propose FilterExp, a novel method designed to enhance the byzantine resilience of KD-based FL algorithms and demonstrate its efficacy. Finally, we provide a general method to make attacks harder to detect, improving their effectiveness.
翻訳日:2024-02-20 15:34:17 公開日:2024-02-19
# LoRAアンサンブルを用いた微調整LDMの不確かさ定量化

Uncertainty quantification in fine-tuned LLMs using LoRA ensembles ( http://arxiv.org/abs/2402.12264v1 )

ライセンス: Link先を確認
Oleksandr Balabanov, Hampus Linander(参考訳) 微調整された大きな言語モデルはタスク固有のパフォーマンスを改善することができるが、細調整されたモデルが学んだこと、忘れられたこと、予測を信頼する方法に関する一般的な理解はいまだに欠けている。 計算効率のよい低ランク適応アンサンブルを用いた後部近似による微調整LDMの不確実性定量化を導出した。 本研究では,mistral-7bに基づく低ランク適応アンサンブルを用いた3つの共通マルチチョイスデータセットを解析し,微調整時と後の異なる対象領域における複雑さとモデル有効性に関する定量的・定性的な結論を導出する。 特に、数値実験によって裏付けられたデータ領域に対するエントロピー不確実性尺度からの信号は、あるアーキテクチャが学習することが本質的に難しいと仮定する。

Fine-tuning large language models can improve task specific performance, although a general understanding of what the fine-tuned model has learned, forgotten and how to trust its predictions is still missing. We derive principled uncertainty quantification for fine-tuned LLMs with posterior approximations using computationally efficient low-rank adaptation ensembles. We analyze three common multiple-choice datasets using low-rank adaptation ensembles based on Mistral-7b, and draw quantitative and qualitative conclusions on their perceived complexity and model efficacy on the different target domains during and after fine-tuning. In particular, backed by the numerical experiments, we hypothesise about signals from entropic uncertainty measures for data domains that are inherently difficult for a given architecture to learn.
翻訳日:2024-02-20 15:33:57 公開日:2024-02-19
# 遺伝的アルゴリズムを用いたGated Recurrent Unitの調整型混合精度サブ8ビット量子化法

Towards a tailored mixed-precision sub-8bit quantization scheme for Gated Recurrent Units using Genetic Algorithms ( http://arxiv.org/abs/2402.12263v1 )

ライセンス: Link先を確認
Riccardo Miccini, Alessandro Cerioli, Cl\'ement Laroche, Tobias Piechowiak, Jens Spars{\o}, Luca Pezzarossa(参考訳) ディープニューラルネットワークのモデル圧縮技術の最近の進歩にもかかわらず、そのようなモデルを超低消費電力の組み込みデバイスにデプロイすることは依然として困難である。 特に、ゲートリカレント単位(gru)の量子化スキームは、内部状態に依存するためチューニングが困難であり、サブ8ビット量子化の恩恵を受けることができない。 本稿では,各演算子のビット幅を独立に選択できるGRUのモジュラ整数量子化方式を提案する。 次に遺伝的アルゴリズム(ga)を用いて、可能なビット幅の広大な探索空間を探索し、モデルサイズと精度を同時に最適化する。 提案手法を4つの異なる逐次タスクで評価し, 混合精度解がパレート効率の点で均一精度を超えることを示す。 その結果, モデルサイズを25%から55%に削減し, 8ビット同質等価値に匹敵する精度を維持した。

Despite the recent advances in model compression techniques for deep neural networks, deploying such models on ultra-low-power embedded devices still proves challenging. In particular, quantization schemes for Gated Recurrent Units (GRU) are difficult to tune due to their dependence on an internal state, preventing them from fully benefiting from sub-8bit quantization. In this work, we propose a modular integer quantization scheme for GRUs where the bit width of each operator can be selected independently. We then employ Genetic Algorithms (GA) to explore the vast search space of possible bit widths, simultaneously optimising for model size and accuracy. We evaluate our methods on four different sequential tasks and demonstrate that mixed-precision solutions exceed homogeneous-precision ones in terms of Pareto efficiency. In our results, we achieve a model size reduction between 25% and 55% while maintaining an accuracy comparable with the 8-bit homogeneous equivalent.
翻訳日:2024-02-20 15:33:42 公開日:2024-02-19
# NEO-BENCH: ニューロジズムを用いた大規模言語モデルのロバスト性評価

NEO-BENCH: Evaluating Robustness of Large Language Models with Neologisms ( http://arxiv.org/abs/2402.12261v1 )

ライセンス: Link先を確認
Jonathan Zheng, Alan Ritter, Wei Xu(参考訳) 大規模言語モデル(LLM)の性能は、モデルトレーニングに使用されるデータと推論中に見られる新しいテキストの間の時間的ドリフトから低下する。 データドリフトを引き起こす言語変更の未調査の道の1つは、新しい言葉形式であるネオロジズムの出現である。 我々は,いくつかの人気収集手法を用いて,近年の英語新石器主義の多様な資源を創出する。 新語を含む文と新語を置き換えたほぼ同一の文を既存の代用語と比較することにより,時間的ドリフトを分析する。 モデルのパフォーマンスは、1つの文章に1つのネオロジズムを導入すると機械翻訳でほぼ半減する。 これらの結果に動機づけられ、様々な自然言語理解タスクとモデルパープレキシティを持つ新言語に一般化するllmsの能力を評価するベンチマークを構築した。 後続の知識カットオフのモデルでは、より難易度が低くなり、下流のタスクでより良く機能する。 LLMは単語の言語的起源にもとづいて異なる影響を受けており、静的LLMにはネオロジズムが複雑であることを示している。 実験を再現するためのベンチマークとコードをリリースします。

The performance of Large Language Models (LLMs) degrades from the temporal drift between data used for model training and newer text seen during inference. One understudied avenue of language change causing data drift is the emergence of neologisms -- new word forms -- over time. We create a diverse resource of recent English neologisms by using several popular collection methods. We analyze temporal drift using neologisms by comparing sentences containing new words with near-identical sentences that replace neologisms with existing substitute words. Model performance is nearly halved in machine translation when a single neologism is introduced in a sentence. Motivated by these results, we construct a benchmark to evaluate LLMs' ability to generalize to neologisms with various natural language understanding tasks and model perplexity. Models with later knowledge cutoff dates yield lower perplexities and perform better in downstream tasks. LLMs are also affected differently based on the linguistic origins of words, indicating that neologisms are complex for static LLMs to address. We will release our benchmark and code for reproducing our experiments.
翻訳日:2024-02-20 15:33:25 公開日:2024-02-19
# Open3DSG: クエリ可能なオブジェクトとオープンセット関係を持つポイントクラウドからのオープン語彙3Dシーングラフ

Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with Queryable Objects and Open-Set Relationships ( http://arxiv.org/abs/2402.12259v1 )

ライセンス: Link先を確認
Sebastian Koch, Narunas Vaskevicius, Mirco Colosi, Pedro Hermosilla, Timo Ropinski(参考訳) 3Dシーングラフ予測の現在のアプローチは、既知のオブジェクトクラスと関係カテゴリの固定セットのモデルをトレーニングするためのラベル付きデータセットに依存している。 ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法Open3DSGを提案する。 我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。 これにより、オープンな語彙からオブジェクトクラスを問合せし、シーングラフの特徴を持つ接地LLMからオブジェクト間の関係をコンテキストとして予測することで、ゼロショットで3Dポイントクラウドから3Dシーングラフを予測できる。 Open3DSGは、明示的なオープン語彙オブジェクトクラスだけでなく、事前に定義されたラベルセットに制限されないオープンセットの関係を予測する最初の3Dポイントクラウドメソッドである。 実験の結果,Open3DSGは任意のオブジェクトクラスや,空間的,支援的,意味的,比較的な関係を記述した複雑なオブジェクト間関係を予測できることがわかった。

Current approaches for 3D scene graph prediction rely on labeled datasets to train models for a fixed set of known object classes and relationship categories. We present Open3DSG, an alternative approach to learn 3D scene graph prediction in an open world without requiring labeled scene graph data. We co-embed the features from a 3D scene graph prediction backbone with the feature space of powerful open world 2D vision language foundation models. This enables us to predict 3D scene graphs from 3D point clouds in a zero-shot manner by querying object classes from an open vocabulary and predicting the inter-object relationships from a grounded LLM with scene graph features and queried object classes as context. Open3DSG is the first 3D point cloud method to predict not only explicit open-vocabulary object classes, but also open-set relationships that are not limited to a predefined label set, making it possible to express rare as well as specific objects and relationships in the predicted 3D scene graph. Our experiments show that Open3DSG is effective at predicting arbitrary object classes as well as their complex inter-object relationships describing spatial, supportive, semantic and comparative relationships.
翻訳日:2024-02-20 15:32:32 公開日:2024-02-19
# 生存可能軌道とデータの生成

Generating Survival Interpretable Trajectories and Data ( http://arxiv.org/abs/2402.12331v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov, Stanislav R. Kirpichenko, Lev V. Utkin(参考訳) 特定の構造のオートエンコーダを適用して生存軌道とデータを生成する新しいモデルを提案する。 3つの課題を解く。 まず、beran推定器に基づいて、期待されるイベント時間と、新たに生成された特徴ベクトルのサバイバル関数の形での予測を提供する。 第2に、モデルは、元のデータセットを補完する所定のトレーニングセットに基づいて追加データを生成する。 第3に、最も重要なのは、オブジェクトのプロトタイプ時間依存の軌道を生成し、イベントに対する異なる時間を達成するために、オブジェクトの特徴をどのように変更できるかを特徴付けることだ。 軌道は反事実的説明の一種と見なすことができる。 提案モデルは,変分オートエンコーダに組み込んだ特定の重み付けスキームにより,トレーニングと推論において頑健である。 モデルはまた、分類タスクを解いて、新しい生成されたデータの検閲指標を決定する。 本稿では,合成データと実データを用いた数値実験を用いて,提案モデルの効率と特性を示す。 提案モデルを実装するアルゴリズムのコードは、公開されている。

A new model for generating survival trajectories and data based on applying an autoencoder of a specific structure is proposed. It solves three tasks. First, it provides predictions in the form of the expected event time and the survival function for a new generated feature vector on the basis of the Beran estimator. Second, the model generates additional data based on a given training set that would supplement the original dataset. Third, the most important, it generates a prototype time-dependent trajectory for an object, which characterizes how features of the object could be changed to achieve a different time to an event. The trajectory can be viewed as a type of the counterfactual explanation. The proposed model is robust during training and inference due to a specific weighting scheme incorporating into the variational autoencoder. The model also determines the censored indicators of new generated data by solving a classification task. The paper demonstrates the efficiency and properties of the proposed model using numerical experiments on synthetic and real datasets. The code of the algorithm implementing the proposed model is publicly available.
翻訳日:2024-02-20 15:26:12 公開日:2024-02-19
# TILP:知識グラフに基づく時間論理規則の微分学習

TILP: Differentiable Learning of Temporal Logical Rules on Knowledge Graphs ( http://arxiv.org/abs/2402.12309v1 )

ライセンス: Link先を確認
Siheng Xiong, Yuan Yang, Faramarz Fekri, James Clayton Kerce(参考訳) 静的知識グラフと比較すると、時間とともに情報の進化と変化を捉える時間的知識グラフ(tkg)はより現実的で一般的である。 しかしながら、時間の概念がルールの学習に導入される複雑さのため、エンティティ間の新しいリンクを予測するといった、正確なグラフ推論は依然として難しい問題である。 本稿では,時相論理規則学習のための微分可能なフレームワーク tilp を提案する。 制約付きランダムウォーク機構の設計と時間演算子の導入により,モデルの効率性が保証される。 我々はtkgにおける時間的特徴のモデル化、例えば、反復、時間順序、ペア間の間隔、継続時間について提示し、学習プロセスに組み込む。 2つのベンチマークデータセット上で,TILPと最先端手法を比較した。 提案フレームワークは, 解釈可能な結果を提供しながら, ベースラインメソッドの性能を向上させることができることを示す。 特に、トレーニングサンプルが制限され、データがバイアスを受け、トレーニングと推論の時間範囲が異なる様々なシナリオについて考察する。 これらすべてのケースにおいて、TILPは最先端の手法よりもずっとうまく機能します。

Compared with static knowledge graphs, temporal knowledge graphs (tKG), which can capture the evolution and change of information over time, are more realistic and general. However, due to the complexity that the notion of time introduces to the learning of the rules, an accurate graph reasoning, e.g., predicting new links between entities, is still a difficult problem. In this paper, we propose TILP, a differentiable framework for temporal logical rules learning. By designing a constrained random walk mechanism and the introduction of temporal operators, we ensure the efficiency of our model. We present temporal features modeling in tKG, e.g., recurrence, temporal order, interval between pair of relations, and duration, and incorporate it into our learning process. We compare TILP with state-of-the-art methods on two benchmark datasets. We show that our proposed framework can improve upon the performance of baseline methods while providing interpretable results. In particular, we consider various scenarios in which training samples are limited, data is biased, and the time range between training and inference are different. In all these cases, TILP works much better than the state-of-the-art methods.
翻訳日:2024-02-20 15:25:58 公開日:2024-02-19
# 放射状シュワルツシルトブラックホールの外における距離ベース量子資源の分布

Distribution of distance-based quantum resources outside a radiating Schwarzschild black hole ( http://arxiv.org/abs/2402.12308v1 )

ライセンス: Link先を確認
Samira Elghaayda, Xiang Zhou, and Mostafa Mansour(参考訳) 距離に基づく量子資源の解析式を求め,その分布をシュワルツシルトブラックホール(SBH)近傍の曲線背景で調べる。 自由落下の観測者とギシン状態を共有する静止した観測者にとって、量子資源は無限のホーキング温度で劣化する。 SBHの蒸発に伴って生じるこの劣化の程度は、フェルミオン周波数モード、ギシン状態パラメータ、および観測者と事象地平線(EH)の間の距離に依存する。 ミンコフスキー時空における量子ゆらぎスカラー場(QFSF)と相互作用する2つの加速検出器の場合、量子コヒーレンスと不協和は、ある初期状態に対して突然の消失を示し、アンルー温度に関わらず、絡み合い以外のものに対して突然の消失を示す。 また、SBHの外のゆらぎ量子場を通して2つの定常検出器の場合、ある検出器の量子資源を別の検出器に移すことも見いだした。 我々は、コヒーレンスや不協和とは対照的に、与えられた初期状態に対する絡み合いを再生することができず、異なる真空状態に対して等しいことを示す。 特定の状況下では、EHsの存在は利用可能な資源を著しく減少させておらず、すべての興味深い現象がEHs内で起こることが判明している。 世界は基本的に非慣性であるため、相対論的枠組み内での量子資源の分布を理解する必要がある。

We obtain analytical expressions for distance-based quantum resources and examine their distribution in the proximity of a Schwarzschild black hole (SBH) within a curved background. For an observer in free fall and their stationary counterpart sharing the Gisin state, the quantum resources are degraded at an infinite Hawking temperature. The extent of this degradation that occurs as the SBH evaporates is contingent upon the fermionic frequency mode, Gisin state parameters, and the distance between the observer and the event horizon (EH). In the case of two accelerating detectors in Minkowski spacetime interacting with quantum fluctuating scalar fields (QFSF), we find that quantum coherence and discord exhibit sudden disappearance for certain initial states and sudden reappearance for others except entanglement, regardless of the Unruh temperature. We also discover that the quantum resources of one detector can be transferred to another in the case of two stationary detectors through a fluctuating quantum field outside the SBH. We demonstrate that, in contrast to coherence and discord, we are unable to regenerate entanglement for a given initial state and that they are equal for different vacuum states. In certain circumstances, the presence of EHs does not significantly reduce the available resources, as it turns out that all interesting phenomena occur within EHs. Since the world is basically non-inertial, it is necessary to understand the distribution of quantum resources within a relativistic framework.
翻訳日:2024-02-20 15:25:40 公開日:2024-02-19
# 異種センサ融合のための多視点共形学習

Multi-View Conformal Learning for Heterogeneous Sensor Fusion ( http://arxiv.org/abs/2402.12307v1 )

ライセンス: Link先を確認
Enrique Garcia-Ceja(参考訳) 機械学習モデルにおける個々の予測の信頼性を評価することは、意思決定シナリオにおいて不可欠である。 特に、医療診断、セキュリティ、無人車両などの重要な応用においては、いくつかを挙げる必要がある。 過去数年間、複雑な予測モデルはハードタスクの解決に大きな成功をおさめ、新しい手法が毎日提案されている。 機械学習モデルにおける新しい開発のほとんどは、全体的なパフォーマンス向上に重点を置いているが、個々の予測の信頼性を評価する努力は少なく、センサー融合の文脈では、より少ない範囲で行われている。 この目的のために、不均一なセンサ融合のためのマルチビューおよびシングルビューコンフォメーションモデルを構築し、テストする。 我々のモデルは、共形予測フレームワークに基づいているため、理論的限界信頼保証を提供する。 また,集合交叉に基づく多視点半コンフォーマルモデルを提案する。 総合的な実験を通して、複数ビューモデルは、精度に基づく性能指標だけでなく、不確実性評価を提供するコンフォーメーション尺度においても、シングルビューモデルよりも優れた性能を示すことを示す。 また,複数ビューモデルが単一ビューモデルに比べて不確実性の低い予測セットを生成することを示した。

Being able to assess the confidence of individual predictions in machine learning models is crucial for decision making scenarios. Specially, in critical applications such as medical diagnosis, security, and unmanned vehicles, to name a few. In the last years, complex predictive models have had great success in solving hard tasks and new methods are being proposed every day. While the majority of new developments in machine learning models focus on improving the overall performance, less effort is put on assessing the trustworthiness of individual predictions, and even to a lesser extent, in the context of sensor fusion. To this end, we build and test multi-view and single-view conformal models for heterogeneous sensor fusion. Our models provide theoretical marginal confidence guarantees since they are based on the conformal prediction framework. We also propose a multi-view semi-conformal model based on sets intersection. Through comprehensive experimentation, we show that multi-view models perform better than single-view models not only in terms of accuracy-based performance metrics (as it has already been shown in several previous works) but also in conformal measures that provide uncertainty estimation. Our results also showed that multi-view models generate prediction sets with less uncertainty compared to single-view models.
翻訳日:2024-02-20 15:25:14 公開日:2024-02-19
# UncertaintyTrack:マルチオブジェクトトラッキングにおける爆発検出と局所不確かさ

UncertaintyTrack: Exploiting Detection and Localization Uncertainty in Multi-Object Tracking ( http://arxiv.org/abs/2402.12303v1 )

ライセンス: Link先を確認
Chang Won Lee and Steven L. Waslander(参考訳) 近年,Multi-object Tracking (MOT)法は,研究コミュニティからの強い関心と着実にオブジェクト検出法の改善により,性能が著しく向上している。 追跡手法の大多数は、追跡検出(TBD)パラダイムに従っており、関連する局所化の不確かさを意識せずに、受信した検出を盲目的に信頼している。 この不確実性認識の欠如は、motを含む下流タスクに伝播した誤検出によって乗客を危険にさらす自動運転のような安全クリティカルなタスクにおいて問題となる。 箱の周囲の局所的不確実性を予測する確率的物体検出の研究は存在するが、自律走行のための2次元MOTの研究は、これらの推定値が物体追跡に有効に活用できるかどうかを研究していない。 本論文では,複数のTBDトラッカーに適用可能な拡張の集合であるUncertaintyTrackを紹介し,確率的対象検出器からの局所化不確実性推定を考慮に入れた。 バークレーディープドライブMOTデータセットの実験では,本手法と情報不確実性推定の組み合わせにより,IDスイッチの数を約19~3%削減し,mMOTAを2~3%改善した。 ソースコードはhttps://github.com/TRAILab/UncertaintyTrackで入手できる。

Multi-object tracking (MOT) methods have seen a significant boost in performance recently, due to strong interest from the research community and steadily improving object detection methods. The majority of tracking methods follow the tracking-by-detection (TBD) paradigm, blindly trust the incoming detections with no sense of their associated localization uncertainty. This lack of uncertainty awareness poses a problem in safety-critical tasks such as autonomous driving where passengers could be put at risk due to erroneous detections that have propagated to downstream tasks, including MOT. While there are existing works in probabilistic object detection that predict the localization uncertainty around the boxes, no work in 2D MOT for autonomous driving has studied whether these estimates are meaningful enough to be leveraged effectively in object tracking. We introduce UncertaintyTrack, a collection of extensions that can be applied to multiple TBD trackers to account for localization uncertainty estimates from probabilistic object detectors. Experiments on the Berkeley Deep Drive MOT dataset show that the combination of our method and informative uncertainty estimates reduces the number of ID switches by around 19\% and improves mMOTA by 2-3%. The source code is available at https://github.com/TRAILab/UncertaintyTrack
翻訳日:2024-02-20 15:24:55 公開日:2024-02-19
# オープンソースはまだ存在するか? 胸部X線検査における商業用LCMとオープンソース用LCMの比較検討

Is Open-Source There Yet? A Comparative Study on Commercial and Open-Source LLMs in Their Ability to Label Chest X-Ray Reports ( http://arxiv.org/abs/2402.12298v1 )

ライセンス: Link先を確認
Felix J. Dorfner, Liv J\"urgensen, Leonhard Donle, Fares Al Mohamad, Tobias R. Bodenmann, Mason C. Cleveland, Felix Busch, Lisa C. Adams, James Sato, Thomas Schultz, Albert E. Kim, Jameson Merkow, Keno K. Bressem, Christopher P. Bridge(参考訳) はじめに: 大規模言語モデル(llm)の急速な進歩により、商用モデルだけでなく、多くの新しいオープンソースが生まれました。 近年のGPT-4は放射線学報告から興味のある情報を抽出する手法として研究されているが、GPT-4と他の主要なオープンソースモデルとの実際の比較は行われていない。 材料と方法: 2つの異なる独立したデータセットが使用された。 最初のデータセットは、2019年7月から2021年7月までにマサチューセッツ総合病院で作成された540個の胸部X線レポートから成っている。 第2のデータセットは、ImaGenomeデータセットから500個の胸部X線レポートで構成されている。 次に,OpenAI の商用モデル GPT-3.5 Turbo と GPT-4 と,オープンソースモデル Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B, QWEN1.5-72B, CheXbert と CheXpert-labeler を比較した。 結果:ImaGenomeデータセットでは,マイクロF1スコアが0.972と0.970のLlama2-70Bが最も優れたオープンソースモデルであった。 GPT-4は、それぞれ0.975と0.984のマイクロF1スコアを達成した。 システムデータセットにおいて、最もパフォーマンスの高いオープンソースモデルは、ゼロショットプロンプトでそれぞれ0.952と0.965のマイクロf1スコアを持つqwen1.5-72bである。 GPT-4は、それぞれ0.975と0.973のマイクロF1スコアを達成した。 結論: 本論文では, GPT-4はゼロショットレポートラベリングにおいて, オープンソースモデルよりも優れているが, 少数ショットプロンプトの実装により, GPT-4と同等のオープンソースモデルを実現できることを示す。 これは、オープンソースモデルが、放射線レポート分類のタスクのためにgpt-4の代わりに、パフォーマンスとプライバシを保護できることを示している。

Introduction: With the rapid advances in large language models (LLMs), there have been numerous new open source as well as commercial models. While recent publications have explored GPT-4 in its application to extracting information of interest from radiology reports, there has not been a real-world comparison of GPT-4 to different leading open-source models. Materials and Methods: Two different and independent datasets were used. The first dataset consists of 540 chest x-ray reports that were created at the Massachusetts General Hospital between July 2019 and July 2021. The second dataset consists of 500 chest x-ray reports from the ImaGenome dataset. We then compared the commercial models GPT-3.5 Turbo and GPT-4 from OpenAI to the open-source models Mistral-7B, Mixtral-8x7B, Llama2-13B, Llama2-70B, QWEN1.5-72B and CheXbert and CheXpert-labeler in their ability to accurately label the presence of multiple findings in x-ray text reports using different prompting techniques. Results: On the ImaGenome dataset, the best performing open-source model was Llama2-70B with micro F1-scores of 0.972 and 0.970 for zero- and few-shot prompts, respectively. GPT-4 achieved micro F1-scores of 0.975 and 0.984, respectively. On the institutional dataset, the best performing open-source model was QWEN1.5-72B with micro F1-scores of 0.952 and 0.965 for zero- and few-shot prompting, respectively. GPT-4 achieved micro F1-scores of 0.975 and 0.973, respectively. Conclusion: In this paper, we show that while GPT-4 is superior to open-source models in zero-shot report labeling, the implementation of few-shot prompting can bring open-source models on par with GPT-4. This shows that open-source models could be a performant and privacy preserving alternative to GPT-4 for the task of radiology report classification.
翻訳日:2024-02-20 15:24:31 公開日:2024-02-19
# DARTWARSプロジェクトのためのKI-TWPAの開発

Development of KI-TWPAs for the DARTWARS project ( http://arxiv.org/abs/2402.12295v1 )

ライセンス: Link先を確認
Felix Ahrens, Elena Ferri, Guerino Avallone, Carlo Barone, Matteo Borghesi, Luca Callegaro, Giovanni Carapella, Anna Paola Caricato, Iacopo Carusotto, Alessandro Cian, Alessandro D'Elia, Daniele Di Gioacchino, Emanuele Enrico, Paolo Falferi, Luca Fasolo, Marco Faverzani, Giovanni Filatrella, Claudio Gatti, Andrea Giachero, Damiano Giubertoni, Veronica Granata, Claudio Guarcello, Danilo Labranca, Angelo Leo, Carlo Ligi, Giovanni Maccarrone, Federica Mantegazzini, Benno Margesin, Giuseppe Maruccio, Renato Mezzena, Anna Grazia Monteduro, Roberto Moretti, Angelo Nucciotti, Luca Oberto, Luca Origo, Sergio Pagano, Alex Stephane Piedjou, Luca Piersanti, Alessio Rettaroli, Silvia Rizzato, Simone Tocci, Andrea Vinante, Mario Zannoni(参考訳) 広帯域上の量子限界におけるノイズは、将来のニュートリノ質量測定、ダークマター探索、宇宙マイクロ波背景(cmb)測定のための極低温実験や、超伝導量子ビットの高速高忠実化のための基本的な要件である。 過去数年間、ジョセフソンパラメトリック増幅器(jpa)は、量子限界に近いノイズレベルを示してきたが、帯域幅が狭いため、1行あたりの検出器や量子ビットが並列に読み出せるのはごくわずかである。 代替的で革新的な解決策は、進行波の概念を利用した超伝導パラメトリック増幅に基づいている。 DARTWARS (Detector Array Readout with Travelling Wave AmplifieRS) プロジェクトでは, 低温検出器とキュービット読み出しのためのKineetic Inductance Travelling-Wave Parametric Amplifiers (KI-TWPAs) を開発した。 KI-TWPAは一般的に3波混合(3WM)モードで動作し、高い利得、高い飽和電力、大きな増幅帯域幅、ほぼ量子制限ノイズ性能によって特徴付けられる。 DARTWARSプロジェクトの目標は、KI-TWPAの設計を最適化し、新しい材料を探索し、アンプの全体的な性能を高めるために代替の製造プロセスを研究することである。 本研究は, KI-TWPAの試作機を製作するDARTWARS共同研究の成果を, 製作からキャラクタリゼーションまで紹介する。

Noise at the quantum limit over a broad bandwidth is a fundamental requirement for future cryogenic experiments for neutrino mass measurements, dark matter searches and Cosmic Microwave Background (CMB) measurements as well as for fast high-fidelity read-out of superconducting qubits. In the last years, Josephson Parametric Amplifiers (JPA) have demonstrated noise levels close to the quantum limit, but due to their narrow bandwidth, only few detectors or qubits per line can be read out in parallel. An alternative and innovative solution is based on superconducting parametric amplification exploiting the travelling-wave concept. Within the DARTWARS (Detector Array Readout with Travelling Wave AmplifieRS) project, we develop Kinetic Inductance Travelling-Wave Parametric Amplifiers (KI-TWPAs) for low temperature detectors and qubit read-out. KI-TWPAs are typically operated in a threewave mixing (3WM) mode and are characterised by a high gain, a high saturation power, a large amplification bandwidth and nearly quantum limited noise performance. The goal of the DARTWARS project is to optimise the KI-TWPA design, explore new materials, and investigate alternative fabrication processes in order to enhance the overall performance of the amplifier. In this contribution we present the advancements made by the DARTWARS collaboration to produce a working prototype of a KI-TWPA, from the fabrication to the characterisation.
翻訳日:2024-02-20 15:23:31 公開日:2024-02-19
# 分節化による正則化:ベイズモデルとlangevin-within-split gibbsサンプリング

Regularization by denoising: Bayesian model and Langevin-within-split Gibbs sampling ( http://arxiv.org/abs/2402.12292v1 )

ライセンス: Link先を確認
Elhadji C. Faye, Mame Diarra Fall and Nicolas Dobigeon(参考訳) 本稿では,正則化・復号化(RED)パラダイムと相反する確率的手法を導出することにより,画像反転のためのベイズ的枠組みを提案する。 さらに、漸近的に正確なデータ拡張(AXDA)に基づいて、結果の後方分布からサンプリングするのに適したモンテカルロアルゴリズムを実装している。 提案アルゴリズムはスプリットギブスサンプリング(SGS)の近似例であり、ランゲヴィン・モンテカルロのステップを埋め込む。 提案手法は, 脱臭, 塗布, 超解像などの一般的な画像処理に応用し, 広範囲な数値実験による有効性を示す。 これらの貢献は、確率的枠組みの中でデータ駆動の正規化戦略を活用することにより、イメージングにおけるベイジアン推論を促進する。

This paper introduces a Bayesian framework for image inversion by deriving a probabilistic counterpart to the regularization-by-denoising (RED) paradigm. It additionally implements a Monte Carlo algorithm specifically tailored for sampling from the resulting posterior distribution, based on an asymptotically exact data augmentation (AXDA). The proposed algorithm is an approximate instance of split Gibbs sampling (SGS) which embeds one Langevin Monte Carlo step. The proposed method is applied to common imaging tasks such as deblurring, inpainting and super-resolution, demonstrating its efficacy through extensive numerical experiments. These contributions advance Bayesian inference in imaging by leveraging data-driven regularization strategies within a probabilistic framework.
翻訳日:2024-02-20 15:22:47 公開日:2024-02-19
# KARL:学習者の保持と学習を支援する知識認識検索と表現

KARL: Knowledge-Aware Retrieval and Representations aid Retention and Learning in Students ( http://arxiv.org/abs/2402.12291v1 )

ライセンス: Link先を確認
Matthew Shu, Nishant Balepur, Shi Feng, Jordan Boyd-Graber(参考訳) Flashcardスケジューラは依存するツール 1)生徒が知っているフラッシュカードを予測するための学生モデル 2)これらの予測に基づくスケジュールカードの指導方針。 しかし、既存の学生モデルは、学生の過去の反応のようなフラッシュカードレベルの機能しか使用せず、フラッシュカードのセマンティックな結びつきを無視している。 ディープ・ナレッジ・トレーシング(DKT)モデルは言語モデルとのセマンティックな関係を捉えることができるが、非効率であり、評価のためのコンテンツ豊富なデータセットがなく、堅牢な教育方針を必要とする。 これらの問題に対処するために,DKTにインスパイアされた学生モデルであるKARLを設計する。 karlをテストするために、triviaの質問に関するさまざまな研究履歴の新しいデータセットを収集します。 KARLは、AUCと校正エラーで既存の学生モデルに最適である。 最後に、DKTモデルの予測力を生かしてKARLをオンラインで展開する新しい教育方針を提案する。 KARLは、27人の学習者と32人の6日間の学習軌跡に基づいて、中期的な教育的学習を強化する能力を示し、スケジューリングの有効性を証明した。

Flashcard schedulers are tools that rely on 1) student models to predict the flashcards a student knows; and 2) teaching policies to schedule cards based on these predictions. Existing student models, however, only use flashcard-level features, like the student's past responses, ignoring the semantic ties of flashcards. Deep Knowledge Tracing (DKT) models can capture semantic relations with language models, but are inefficient, lack content-rich datasets for evaluation, and require robust teaching policies. To address these issues, we design KARL, a DKT-inspired student model that uses retrieval and BERT embeddings for efficient and accurate student recall predictions. To test KARL, we collect a new dataset of diverse study history on trivia questions. KARL bests existing student models in AUC and calibration error. Finally, we propose a novel teaching policy that exploits the predictive power of DKT models to deploy KARL online. Based on 27 learners and 32 6-day study trajectories, KARL shows the ability to enhance medium-term educational learning, proving its efficacy for scheduling.
翻訳日:2024-02-20 15:21:40 公開日:2024-02-19
# DriveVLM: 自律走行と大規模ビジョンランゲージモデルの収束性

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models ( http://arxiv.org/abs/2402.12289v1 )

ライセンス: Link先を確認
Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Chenxu Hu, Yang Wang, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao(参考訳) 都市環境における自律運転の主なハードルは、困難な道路条件や繊細な人間の行動など、複雑で長い尾のシナリオを理解することである。 本稿では,視覚言語モデル(VLM)を活用した自律走行システムであるDriveVLMを紹介した。 DriveVLMは、シーン記述、シーン分析、階層計画のためのチェーン・オブ・シント(CoT)モジュールのユニークな組み合わせを統合している。 さらに,空間的推論におけるVLMの限界を認識し,従来の自律走行パイプラインとDriveVLMの強度を相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。 DriveVLM-Dualは、堅牢な空間理解とリアルタイム推論速度を実現する。 nuScenesデータセットとSUP-ADデータセットの併用実験により,DriveVLMの有効性とDriveVLM-Dualの性能向上が実証された。

A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of chain-of-thought (CoT) modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. DriveVLM-Dual achieves robust spatial understanding and real-time inference speed. Extensive experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the effectiveness of DriveVLM and the enhanced performance of DriveVLM-Dual, surpassing existing methods in complex and unpredictable driving conditions.
翻訳日:2024-02-20 15:20:52 公開日:2024-02-19
# 絡み合い浄化プロトコルの統計的評価と最適化

Statistical evaluation and optimization of entanglement purification protocols ( http://arxiv.org/abs/2402.12287v1 )

ライセンス: Link先を確認
Francesco Preti, J\'ozsef Zsolt Bern\'ad(参考訳) 2量子ビットエンタングルメント精製プロトコルの定量的キャラクタリゼーションについて紹介する。 提案手法は,全2量子状態の凸集合に適用した並列性とヒット・アンド・ランアルゴリズムに基づく。 先駆的プロトコルは、ほぼ均一にサンプリングされた密度行列の推定初期平均コンカレンスを改善することはできないが、知られているように、ベル状態に近い状態において、いまだに量子ビットのペアを生成する。 また,より効率的なプロトコルを開発し,近年の提案であるエンタングリングランク2プロジェクタとともに数値的に検討する。 さらに,連続パラメータを持つ変分浄化プロトコルのクラスを提案し,その出力精度を最適化する。 これらの最適化アルゴリズムは、多くの絡み合った状態を無駄にすることなく、以前の提案や新しいプロトコルを上回っています。

Quantitative characterization of two-qubit entanglement purification protocols is introduced. Our approach is based on the concurrence and the hit-and-run algorithm applied to the convex set of all two-qubit states. We demonstrate that pioneering protocols are unable to improve the estimated initial average concurrence of almost uniformly sampled density matrices, however, as it is known, they still generate pairs of qubits in a state that is close to a Bell state. We also develop a more efficient protocol and investigate it numerically together with a recent proposal based on an entangling rank-two projector. Furthermore, we present a class of variational purification protocols with continuous parameters and optimize their output concurrence. These optimized algorithms turn out to surpass former proposals and our new protocol by means of not wasting too many entangled states.
翻訳日:2024-02-20 15:20:37 公開日:2024-02-19
# 教師なし環境設計のためのミニマックスの精錬

Refining Minimax Regret for Unsupervised Environment Design ( http://arxiv.org/abs/2402.12284v1 )

ライセンス: Link先を確認
Michael Beukman, Samuel Coward, Michael Matthews, Mattie Fellows, Minqi Jiang, Michael Dennis, Jakob Foerster(参考訳) 教師なし環境設計では、強化学習エージェントは、目標を最大化する敵によって生成される環境設定(レベル)に基づいて訓練される。 レグレトは理論上、望ましい堅牢性を保証するミニマックス後悔(MMR)政策をもたらす、一般的に用いられる目的である。 しかし、エージェントが全てのレベルに制限されたこの後悔点に達すると、敵は後悔点を更に減らすことができないレベルだけをサンプリングする。 これらの後悔を最大化するレベル以外のパフォーマンス改善は可能だが、学習は停滞している。 本稿では,この制限を克服したミニマックス後悔目標の洗練であるベイズレベル完全MMR(BLP)を紹介する。 我々は,この目的の解決がMMR政策のサブセットとなり,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して作用することを示す。 さらに、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。 我々は,ミニマックスの反抗から学習が早期に停滞し,ReMiDiが学習を続けることを実証的に実証した。

In unsupervised environment design, reinforcement learning agents are trained on environment configurations (levels) generated by an adversary that maximises some objective. Regret is a commonly used objective that theoretically results in a minimax regret (MMR) policy with desirable robustness guarantees; in particular, the agent's maximum regret is bounded. However, once the agent reaches this regret bound on all levels, the adversary will only sample levels where regret cannot be further reduced. Although there are possible performance improvements to be made outside of these regret-maximising levels, learning stagnates. In this work, we introduce Bayesian level-perfect MMR (BLP), a refinement of the minimax regret objective that overcomes this limitation. We formally show that solving for this objective results in a subset of MMR policies, and that BLP policies act consistently with a Perfect Bayesian policy over all levels. We further introduce an algorithm, ReMiDi, that results in a BLP policy at convergence. We empirically demonstrate that training on levels from a minimax regret adversary causes learning to prematurely stagnate, but that ReMiDi continues learning.
翻訳日:2024-02-20 15:20:23 公開日:2024-02-19
# オントロジによるクレーム検出

Ontology Enhanced Claim Detection ( http://arxiv.org/abs/2402.12282v1 )

ライセンス: Link先を確認
Zehra Melce H\"us\"unbeyi and Tatjana Scheffler(参考訳) 文に基づくクレーム検出のためのオントロジー強化モデルを提案する。 ClaimBusterとNewsClaimsデータセットのクレーム検出を行うため,知識ベースからBERT文埋め込みにオントロジー埋め込みを融合した。 我々のオントロジー強化アプローチは、他の統計的およびニューラル機械学習モデルと比較して、これらの小さなアンバランスデータセットの最良の結果を示した。 実験では、ドメイン固有の機能(トレーニングされた単語埋め込みやナレッジグラフメタデータ)を追加することで、従来のMLメソッドを改善できることが実証された。 さらに、オントロジー埋め込みという形でドメイン知識を追加することで、ニューラルネットワークベースのモデルで発生するバイアスを回避することができる。

We propose an ontology enhanced model for sentence based claim detection. We fused ontology embeddings from a knowledge base with BERT sentence embeddings to perform claim detection for the ClaimBuster and the NewsClaims datasets. Our ontology enhanced approach showed the best results with these small-sized unbalanced datasets, compared to other statistical and neural machine learning models. The experiments demonstrate that adding domain specific features (either trained word embeddings or knowledge graph metadata) can improve traditional ML methods. In addition, adding domain knowledge in the form of ontology embeddings helps avoid the bias encountered in neural network based models, for example the pure BERT model bias towards larger classes in our small corpus.
翻訳日:2024-02-20 15:20:04 公開日:2024-02-19
# 企業におけるmlopsによるイラン開発者の挑戦と経験

Challenges and Experiences of Iranian Developers with MLOps at Enterprise ( http://arxiv.org/abs/2402.12281v1 )

ライセンス: Link先を確認
Mohammad Heydari, Zahra Rezvani(参考訳) データはさらに複雑になってきており、それを処理するために設計されたアプローチもそうである。 企業はこれまでにないほど多くのデータにアクセスできるが、多くは自分の持っているものから完全な洞察を得るのに苦労している。 この研究は、イランの開発者が企業設定でmlopsパラダイムを実装する際の課題と経験を探求するものだ。 MLOps(Machine Learning Operations)は、機械学習モデルの継続的デリバリを自動化することに焦点を当てた分野である。 本研究では,大手テクノロジー企業が採用するmlopsツールについて概説する。 さらに,110名を超えるイランの機械学習専門家とソフトウェア開発者を対象に,mlopsツールと直面する主な障害について質問紙調査を行った。 この結果から、データ品質の問題、リソース不足、モデルデプロイメントの難しさが、実践者が直面している主な課題であることがわかった。 MLOpsを効果的に実装する上で、ML、DevOps、Ops、Scienceチームのコラボレーションは重要な課題だと考えられている。

Data is becoming more complex, and so are the approaches designed to process it. Enterprises have access to more data than ever, but many still struggle to glean the full potential of insights from what they have. This research explores the challenges and experiences of Iranian developers in implementing the MLOps paradigm within enterprise settings. MLOps, or Machine Learning Operations, is a discipline focused on automating the continuous delivery of machine learning models. In this study, we review the most popular MLOps tools used by leading technology enterprises. Additionally, we present the results of a questionnaire answered by over 110 Iranian Machine Learning experts and Software Developers, shedding light on MLOps tools and the primary obstacles faced. The findings reveal that data quality problems, a lack of resources, and difficulties in model deployment are among the primary challenges faced by practitioners. Collaboration between ML, DevOps, Ops, and Science teams is seen as a pivotal challenge in implementing MLOps effectively.
翻訳日:2024-02-20 15:19:50 公開日:2024-02-19
# LoRA+:大規模モデルの効率的な低ランク適応

LoRA+: Efficient Low Rank Adaptation of Large Models ( http://arxiv.org/abs/2402.12354v1 )

ライセンス: Link先を確認
Soufiane Hayou, Nikhil Ghosh, Bin Yu(参考訳) 本稿では,Hu et al. (2021) で最初に導入されたローランク適応 (LoRA) が,大きな幅(埋め込み次元)を持つモデルの最適下微細化につながることを示す。 これは、LoRAのアダプタ行列AとBが同じ学習率で更新されるためである。 広帯域ネットワークのスケーリング引数を用いて、AとBの学習率と同じで効率的な特徴学習ができないことを示す。 そこで, このLoRAの準最適性は, 適応行列 A と B の学習率を良好に設定することで簡単に補正できることを示す。 このアルゴリズムをLoRA$+$と呼ぶ。 我々の大規模な実験では、LoRA$+$はパフォーマンス(1-2$\%$改善)と微調整速度(最大$\sim$2X SpeedUp)を、LoRAと同じ計算コストで改善する。

In this paper, we show that Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021) leads to suboptimal finetuning of models with large width (embedding dimension). This is due to the fact that adapter matrices A and B in LoRA are updated with the same learning rate. Using scaling arguments for large width networks, we demonstrate that using the same learning rate for A and B does not allow efficient feature learning. We then show that this suboptimality of LoRA can be corrected simply by setting different learning rates for the LoRA adapter matrices A and B with a well-chosen ratio. We call this proposed algorithm LoRA$+$. In our extensive experiments, LoRA$+$ improves performance (1-2 $\%$ improvements) and finetuning speed (up to $\sim$ 2X SpeedUp), at the same computational cost as LoRA.
翻訳日:2024-02-20 15:12:02 公開日:2024-02-19
# グラフによるバイオメディカル知識の長期化

Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge ( http://arxiv.org/abs/2402.12352v1 )

ライセンス: Link先を確認
Julien Delile, Srayanta Mukherjee, Anton Van Pamel, Leonid Zhukov(参考訳) 大規模言語モデル(LLM)は、自然言語の会話を通じて大量の知識を要約して提示することで、情報の検索方法を変えつつある。 しかし、LSMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。 バイオメディカル研究の分野では、最新の発見は学術的・産業的なアクターにとって鍵であり、増え続ける文学コーパス(情報過負荷問題)の存在にあいまいである。 薬物、遺伝子、疾患などの生物医学的な実体とLLMとの新たな関連性は、生物医学的な科学的生産の長い知識を捉えることの課題となっている。 この課題を克服するために、Retrieval Augmented Generation (RAG) は、外部データセットから取得したコンテキストでプロンプトを拡大することにより、LLMの欠点のいくつかを軽減するために提案されている。 RAGメソッドは通常、テキスト埋め込みの最大類似度検索によってコンテキストを選択する。 本研究では,生物医学文献における過剰表現概念の集合により,RAG法が関連情報のかなりの割合を排除していることを示す。 本稿では,知識グラフを活用し,これらのクラスタをダウンサンプルし,情報過負荷問題を緩和する新しい情報リトライバル手法を提案する。 その検索性能は、精度とリコールの両方に類似性代替品を埋め込むよりも約2倍良い。 最後に, 類似点の埋め込みと知識グラフ検索の両手法が, 双方より優れているハイブリッドモデルに有利に組み合わされ, バイオメディカルな質問応答モデルの改善が期待できることを示す。

Large language models (LLMs) are transforming the way information is retrieved with vast amounts of knowledge being summarized and presented via natural language conversations. Yet, LLMs are prone to highlight the most frequently seen pieces of information from the training set and to neglect the rare ones. In the field of biomedical research, latest discoveries are key to academic and industrial actors and are obscured by the abundance of an ever-increasing literature corpus (the information overload problem). Surfacing new associations between biomedical entities, e.g., drugs, genes, diseases, with LLMs becomes a challenge of capturing the long-tail knowledge of the biomedical scientific production. To overcome this challenge, Retrieval Augmented Generation (RAG) has been proposed to alleviate some of the shortcomings of LLMs by augmenting the prompts with context retrieved from external datasets. RAG methods typically select the context via maximum similarity search over text embeddings. In this study, we show that RAG methods leave out a significant proportion of relevant information due to clusters of over-represented concepts in the biomedical literature. We introduce a novel information-retrieval method that leverages a knowledge graph to downsample these clusters and mitigate the information overload problem. Its retrieval performance is about twice better than embedding similarity alternatives on both precision and recall. Finally, we demonstrate that both embedding similarity and knowledge graph retrieval methods can be advantageously combined into a hybrid model that outperforms both, enabling potential improvements to biomedical question-answering models.
翻訳日:2024-02-20 15:11:46 公開日:2024-02-19
# GTBench:ゲーム理論によるLSMの戦略推論限界の解明

GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations ( http://arxiv.org/abs/2402.12348v1 )

ライセンス: Link先を確認
Jinhao Duan, Renming Zhang, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Elias Stengel-Eskin, Mohit Bansal, Tianlong Chen, Kaidi Xu(参考訳) 大きな言語モデル(LLM)が重要な現実世界のアプリケーションに統合されるにつれ、その戦略的および論理的推論能力はますます重要になっている。 本稿では,ゲーム理論的なタスク,例えば純粋論理と戦略推論を必要とするボードゲーム,カードゲームを通じて,競争環境におけるllmsの推論能力を評価する。 我々はまず,完全対不完全情報,動的対静的,確率的対決定論的シナリオという包括的ゲーム分類を通じて,広く認識された10のタスクを構成する言語駆動環境であるgtbenchを提案する。 次に, 1) LLMのゲーム理論的推論, (2) LLM-vs-LLM競技を推論評価として評価する。 例えば, LLMは, 完全かつ決定論的ゲームでは失敗するが, 確率的ゲームでは競合する, 2) CodeLlama-34b-InstructのようなオープンソースのLLMは, 複雑なゲームでは商用のLLMよりも競争力が少ない,などである。 加えて、コード事前訓練は戦略的推論に大きく貢献するが、Chain-of-Thought(CoT)やTree-of-Thought(ToT)といった高度な推論手法は必ずしも役に立たない。 LLMの動作をよりよく理解するために、詳細なエラープロファイルも提供されている。

As Large Language Models (LLMs) are integrated into critical real-world applications, their strategic and logical reasoning abilities are increasingly crucial. This paper evaluates LLMs' reasoning abilities in competitive environments through game-theoretic tasks, e.g., board and card games that require pure logic and strategic reasoning to compete with opponents. We first propose GTBench, a language-driven environment composing 10 widely-recognized tasks, across a comprehensive game taxonomy: complete versus incomplete information, dynamic versus static, and probabilistic versus deterministic scenarios. Then, we investigate two key problems: (1) Characterizing game-theoretic reasoning of LLMs; (2) LLM-vs-LLM competitions as reasoning evaluation. We observe that (1) LLMs have distinct behaviors regarding various gaming scenarios; for example, LLMs fail in complete and deterministic games yet they are competitive in probabilistic gaming scenarios; (2) Open-source LLMs, e.g., CodeLlama-34b-Instruct, are less competitive than commercial LLMs, e.g., GPT-4, in complex games. In addition, code-pretraining greatly benefits strategic reasoning, while advanced reasoning methods such as Chain-of-Thought (CoT) and Tree-of-Thought (ToT) do not always help. Detailed error profiles are also provided for a better understanding of LLMs' behavior.
翻訳日:2024-02-20 15:11:18 公開日:2024-02-19
# Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! ( http://arxiv.org/abs/2402.12343v1 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao(参考訳) 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。 しかし,本研究では,安全アライメントが敵操作下で有害な成果を意図せず促進できることを実証する推論時間攻撃フレームワークを提案する。 Emulated Disalignment (ED)という名前のこのフレームワークは、アウトプット空間において、トレーニングなしで有害な言語モデルを生成するために、トレーニング済みと安全に整合したオープンソースの2つの言語モデルを悪用する。 3つのデータセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)にわたるED実験により、EDはトレーニング済みモデルの有害性を2倍にし、強力なベースラインを上回り、48のサブセットのうち43の有害度を大きなマージンで達成した。 本研究は,安全アライメント後においても,オープンソース言語モデルの実践を再評価することの重要性を強調した。

Large language models (LLMs) need to undergo safety alignment to ensure safe conversations with humans. However, in this work, we introduce an inference-time attack framework, demonstrating that safety alignment can also unintentionally facilitate harmful outcomes under adversarial manipulation. This framework, named Emulated Disalignment (ED), adversely combines a pair of open-source pre-trained and safety-aligned language models in the output space to produce a harmful language model without any training. Our experiments with ED across three datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rate in 43 out of 48 evaluation subsets by a large margin. Crucially, our findings highlight the importance of reevaluating the practice of open-sourcing language models even after safety alignment.
翻訳日:2024-02-20 15:10:51 公開日:2024-02-19
# 事象識別モデルのロバスト性評価への敵意的アプローチ

An Adversarial Approach to Evaluating the Robustness of Event Identification Models ( http://arxiv.org/abs/2402.12338v1 )

ライセンス: Link先を確認
Obai Bahwal, Oliver Kosut, Lalitha Sankar(参考訳) インテリジェント機械学習のアプローチは、リアルタイムの状況認識を可能にするイベント検出と識別に活発に利用されている。 しかし、このような機械学習アルゴリズムは、受信したテレメトリデータに対する敵攻撃の影響を受けやすいことが示されている。 本稿では,イベント分類の特徴を抽出し,ロジスティック回帰と勾配ブースティングを含む解釈可能な分類器に着目し,負荷損失と発生損失の2種類のイベントを識別する物理ベースのモーダル分解法について考察する。 得られた分類器は、その堅牢性を評価するために、逆アルゴリズムに対してテストされる。 敵の攻撃は、攻撃者が分類モデルを正確に知っているホワイトボックス設定と、攻撃者が分類器の訓練に使われたのと同じネットワークから履歴データにアクセスするグレイボックス設定の2つの設定でテストされる。 サウスカロライナの500バス合成システムに関する徹底的な実験では、ロジスティック回帰のような比較的単純なモデルは勾配の上昇よりも敵対的な攻撃の影響を受けやすいことが示されている。

Intelligent machine learning approaches are finding active use for event detection and identification that allow real-time situational awareness. Yet, such machine learning algorithms have been shown to be susceptible to adversarial attacks on the incoming telemetry data. This paper considers a physics-based modal decomposition method to extract features for event classification and focuses on interpretable classifiers including logistic regression and gradient boosting to distinguish two types of events: load loss and generation loss. The resulting classifiers are then tested against an adversarial algorithm to evaluate their robustness. The adversarial attack is tested in two settings: the white box setting, wherein the attacker knows exactly the classification model; and the gray box setting, wherein the attacker has access to historical data from the same network as was used to train the classifier, but does not know the classification model. Thorough experiments on the synthetic South Carolina 500-bus system highlight that a relatively simpler model such as logistic regression is more susceptible to adversarial attacks than gradient boosting.
翻訳日:2024-02-20 15:10:27 公開日:2024-02-19
# Robust CLIP:ロバスト大視野モデルのための教師なし視覚埋め込みの微調整

Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models ( http://arxiv.org/abs/2402.12336v1 )

ライセンス: Link先を確認
Christian Schlarmann, Naman Deep Singh, Francesco Croce, Matthias Hein(参考訳) OpenFlamingo、LLaVA、GPT-4といったマルチモーダル基盤モデルは、様々な現実世界のタスクにますます使われている。 先行研究により、これらのモデルは視覚モダリティに対する敵対的攻撃に対して非常に脆弱であることが示されている。 これらの攻撃は偽の情報を広めたり、ユーザーを欺いたりするために利用でき、大きなマルチモーダル基盤モデルの堅牢性に重大なリスクをもたらす。 CLIPモデルは、LLaVAやOpenFlamingoなど、多くの視覚言語モデル(VLM)において、凍結した視覚エンコーダとして使用される。 本稿では,CLIPに依存した全視覚ダウンストリームタスク(VLM,ゼロショット分類)に対してロバストなCLIPビジョンエンコーダを実現するための教師なし逆調整方式を提案する。 特に,元のCLIPモデルを堅牢なものに置き換えれば,悪質な第三者によるVLMのユーザに対する盗難攻撃はもはや不可能であることを示す。 VLMの再訓練や微調整は不要である。 コードとロバストなモデルはhttps://github.com/chs20/robustvlmで利用可能である。

Multi-modal foundation models like OpenFlamingo, LLaVA, and GPT-4 are increasingly used for various real-world tasks. Prior work has shown that these models are highly vulnerable to adversarial attacks on the vision modality. These attacks can be leveraged to spread fake information or defraud users, and thus pose a significant risk, which makes the robustness of large multi-modal foundation models a pressing problem. The CLIP model, or one of its variants, is used as a frozen vision encoder in many vision-language models (VLMs), e.g. LLaVA and OpenFlamingo. We propose an unsupervised adversarial fine-tuning scheme to obtain a robust CLIP vision encoder, which yields robustness on all vision down-stream tasks (VLMs, zero-shot classification) that rely on CLIP. In particular, we show that stealth-attacks on users of VLMs by a malicious third party providing manipulated images are no longer possible once one replaces the original CLIP model with our robust one. No retraining or fine-tuning of the VLM is required. The code and robust models are available at https://github.com/chs20/RobustVLM
翻訳日:2024-02-20 15:10:09 公開日:2024-02-19
# triple-encoders: 一緒に発射し、接続する表現

Triple-Encoders: Representations That Fire Together, Wire Together ( http://arxiv.org/abs/2402.12332v1 )

ライセンス: Link先を確認
Justus-Jonas Erker, Florian Mai, Nils Reimers, Gerasimos Spanakis, Iryna Gurevych(参考訳) 検索ベースのダイアログモデルは通常、各ターンでダイアログ履歴を再エンコードし、高いコストがかかる。 音声間の相対的距離をバイエンコーダで符号化する表現学習法であるCurved Contrastive Learningは,最近,対話モデリングにおいて,はるかに優れた効率で有望な結果を示した。 発話を独立してエンコードすることで高い効率を達成するが、文脈化の重要性は無視される。 そこで本研究では,これら独立に符号化された発話から,ヘビアンにインスパイアされた共起学習目標を重みを使わずに効率よく分散発話混在を計算できる三重エンコーダを提案する。 経験的に、トリプルエンコーダはバイエンコーダよりも大幅に改善され、また再エンコーダを必要としない単一ベクトル表現モデルよりもゼロショットの一般化も改善される。 コード/モデルが公開されています。

Search-based dialog models typically re-encode the dialog history at every turn, incurring high cost. Curved Contrastive Learning, a representation learning method that encodes relative distances between utterances into the embedding space via a bi-encoder, has recently shown promising results for dialog modeling at far superior efficiency. While high efficiency is achieved through independently encoding utterances, this ignores the importance of contextualization. To overcome this issue, this study introduces triple-encoders, which efficiently compute distributed utterance mixtures from these independently encoded utterances through a novel hebbian inspired co-occurrence learning objective without using any weights. Empirically, we find that triple-encoders lead to a substantial improvement over bi-encoders, and even to better zero-shot generalization than single-vector representation models without requiring re-encoding. Our code/model is publicly available.
翻訳日:2024-02-20 15:09:46 公開日:2024-02-19
# クエリベースの逆プロンプト生成

Query-Based Adversarial Prompt Generation ( http://arxiv.org/abs/2402.12329v1 )

ライセンス: Link先を確認
Jonathan Hayase, Ema Borevkovic, Nicholas Carlini, Florian Tram\`er, Milad Nasr(参考訳) 近年の研究では、アライメント言語モデルが有害な文字列を出力したり、有害な振る舞いを行ったりする敵の例を構築することが可能である。 既存の攻撃は、ホワイトボックスの設定(モデルウェイトへの完全なアクセス)、または転送可能性(英語版)によって動作する。 私たちは、リモート言語モデルへのapiアクセスを活用したクエリベースの攻撃による事前作業を改善し、モデルが(非常に)高い確率で有害な文字列を発生させる敵の例を構築する。 我々は、GPT-3.5とOpenAIの安全分類器に対する攻撃を検証し、GPT-3.5に現在の転送攻撃が失敗する有害な文字列を放出させ、安全分類器を100%近い確率で回避することができる。

Recent work has shown it is possible to construct adversarial examples that cause an aligned language model to emit harmful strings or perform harmful behavior. Existing attacks work either in the white-box setting (with full access to the model weights), or through transferability: the phenomenon that adversarial examples crafted on one model often remain effective on other models. We improve on prior work with a query-based attack that leverages API access to a remote language model to construct adversarial examples that cause the model to emit harmful strings with (much) higher probability than with transfer-only attacks. We validate our attack on GPT-3.5 and OpenAI's safety classifier; we can cause GPT-3.5 to emit harmful strings that current transfer attacks fail at, and we can evade the safety classifier with nearly 100% probability.
翻訳日:2024-02-20 15:09:28 公開日:2024-02-19
# Shall We Talk: 競合するLLMエージェントの自発的なコラボレーションを探る

Shall We Talk: Exploring Spontaneous Collaborations of Competing LLM Agents ( http://arxiv.org/abs/2402.12327v1 )

ライセンス: Link先を確認
Zengqing Wu, Shuyuan Zheng, Qianying Liu, Xu Han, Brian Inhyuk Kwon, Makoto Onizuka, Shaojie Tang, Run Peng, Chuan Xiao(参考訳) 近年の進歩は、大規模言語モデル(LLM)を利用したエージェントが人間の行動や社会的ダイナミクスをシミュレートする能力を持っていることを示している。 しかし、明示的な指示がなければ、LLMエージェントが自発的に協調関係を確立できる可能性は研究されていない。 このギャップに対処するために,我々は3つのケーススタディを実施し,llmエージェントが競合環境においても自発的にコラボレーションを形成できることを明らかにした。 この発見は、人間の社会における競争と協力を模倣するLLMエージェントの能力を示すだけでなく、計算社会科学の有望なビジョンを検証する。 具体的には、LLMエージェントは、自発的なコラボレーションを含む人間の社会的相互作用をモデル化し、社会的現象に関する洞察を提供することができることを示唆している。 この研究のソースコードはhttps://github.com/wuzengqing001225/SABM_ShallWeTalk で公開されている。

Recent advancements have shown that agents powered by large language models (LLMs) possess capabilities to simulate human behaviors and societal dynamics. However, the potential for LLM agents to spontaneously establish collaborative relationships in the absence of explicit instructions has not been studied. To address this gap, we conduct three case studies, revealing that LLM agents are capable of spontaneously forming collaborations even within competitive settings. This finding not only demonstrates the capacity of LLM agents to mimic competition and cooperation in human societies but also validates a promising vision of computational social science. Specifically, it suggests that LLM agents could be utilized to model human social interactions, including those with spontaneous collaborations, thus offering insights into social phenomena. The source codes for this study are available at https://github.com/wuzengqing001225/SABM_ShallWeTalk .
翻訳日:2024-02-20 15:09:11 公開日:2024-02-19
# LLMエージェントの心理学的評価に関する研究

LLM Agents for Psychology: A Study on Gamified Assessments ( http://arxiv.org/abs/2402.12326v1 )

ライセンス: Link先を確認
Qisen Yang, Zekun Wang, Honghui Chen, Shenzhi Wang, Yifan Pu, Xin Gao, Wenhao Huang, Shiji Song, Gao Huang(参考訳) 心理的測定はメンタルヘルス、自己理解、個人の発達に不可欠である。 自己報告尺度や心理学者のインタビューのような伝統的な手法は、しばしばエンゲージメントとアクセシビリティの課題に直面している。 ゲームベースおよびLLMベースのツールは、ユーザの関心を改善し、評価を自動化するために研究されているが、汎用性とエンゲージメントのバランスをとるのに苦労している。 本研究では,心理学的評価の一般的なゲーミフィケーションを実現するために,サイコGATを提案する。 主な洞察は、強力なllmが優れた心理学者と革新的なゲームデザイナーの両方として機能できることである。 LLMエージェントを指定された役割に組み込んでそのインタラクションを慎重に管理することにより、サイコガトは標準化されたスケールをパーソナライズされ、魅力的なインタラクティブフィクションゲームに変換することができる。 提案手法を検証し,その効果を評価するために心理測定を行い,抑うつ,認知的歪み,性格特性など,様々な心理構造にまたがって生成された内容について評価を行う。 その結果,サイコGATは信頼性,収束妥当性,差別的妥当性などの心理的指標において統計的に有意な卓越性を達成し,効果的な評価ツールであることが示された。 さらに、人間の評価は、サイコGATのコンテンツコヒーレンス、対話性、興味、浸漬、満足度の向上を裏付けるものである。

Psychological measurement is essential for mental health, self-understanding, and personal development. Traditional methods, such as self-report scales and psychologist interviews, often face challenges with engagement and accessibility. While game-based and LLM-based tools have been explored to improve user interest and automate assessment, they struggle to balance engagement with generalizability. In this work, we propose PsychoGAT (Psychological Game AgenTs) to achieve a generic gamification of psychological assessment. The main insight is that powerful LLMs can function both as adept psychologists and innovative game designers. By incorporating LLM agents into designated roles and carefully managing their interactions, PsychoGAT can transform any standardized scales into personalized and engaging interactive fiction games. To validate the proposed method, we conduct psychometric evaluations to assess its effectiveness and employ human evaluators to examine the generated content across various psychological constructs, including depression, cognitive distortions, and personality traits. Results demonstrate that PsychoGAT serves as an effective assessment tool, achieving statistically significant excellence in psychometric metrics such as reliability, convergent validity, and discriminant validity. Moreover, human evaluations confirm PsychoGAT's enhancements in content coherence, interactivity, interest, immersion, and satisfaction.
翻訳日:2024-02-20 15:08:54 公開日:2024-02-19
# 非gps戦場におけるランドマーク認識と移動ノード定位のためのランドマークステレオデータセット

Landmark Stereo Dataset for Landmark Recognition and Moving Node Localization in a Non-GPS Battlefield Environment ( http://arxiv.org/abs/2402.12320v1 )

ライセンス: Link先を確認
Ganesh Sapkota, Sanjay Madria(参考訳) そこで本研究では,無線ベースのアンカーノードではなく,ランドマークアンカーノードを用いて移動部隊や防衛部隊の仮想座標(陸路,距離)を取得し,gpsで防御された戦場環境内の安全な経路に沿って部隊を追跡し、操る新たな戦略を提案する。 提案手法は,yolov5モデルを用いたランドマーク認識と,効率的なステレオマッチングアルゴリズムを用いたランドマーク距離推定を実現する。 低消費電力のモバイルデバイスを搭載した移動ノードは、キャリブレーションされたステレオビジョンカメラを用いて、デバイス自体に存在するオフラインサーバに格納された戦場領域内のランドマークを含むシーンのステレオ画像をキャプチャする。 私たちは、カスタムランドマークデータセットmstlandmarkv1を作り、34のランドマーククラスと、その34のランドマークインスタンスの別のランドマークステレオデータセット、mstlandmarkstereov1を作成しました。 YOLOv5モデルをMSTLandmarkv1データセットでトレーニングし,0.95 mAP @ 0.5 IoUと0.767 mAP @ [0.5: 0.95] IoUを達成した。 我々は,MSTLandmarkStereov1を用いた改良SGMアルゴリズムにより生成された境界ボックス座標と深度マップを用いて,ノードからランドマークまでの距離を計算した。 検出結果から得られたランドマークIDのタプルとSGMアルゴリズムによって算出された距離をノードの仮想座標として記憶する。 今後の研究では,これらの仮想座標を用いて効率的な三角アルゴリズムを用いてノードの位置を求め,適切な最適化手法を用いてノード位置を最適化する。

In this paper, we have proposed a new strategy of using the landmark anchor node instead of a radio-based anchor node to obtain the virtual coordinates (landmarkID, DISTANCE) of moving troops or defense forces that will help in tracking and maneuvering the troops along a safe path within a GPS-denied battlefield environment. The proposed strategy implements landmark recognition using the Yolov5 model and landmark distance estimation using an efficient Stereo Matching Algorithm. We consider that a moving node carrying a low-power mobile device facilitated with a calibrated stereo vision camera that captures stereo images of a scene containing landmarks within the battlefield region whose locations are stored in an offline server residing within the device itself. We created a custom landmark image dataset called MSTLandmarkv1 with 34 landmark classes and another landmark stereo dataset of those 34 landmark instances called MSTLandmarkStereov1. We trained the YOLOv5 model with MSTLandmarkv1 dataset and achieved 0.95 mAP @ 0.5 IoU and 0.767 mAP @ [0.5: 0.95] IoU. We calculated the distance from a node to the landmark utilizing the bounding box coordinates and the depth map generated by the improved SGM algorithm using MSTLandmarkStereov1. The tuple of landmark IDs obtained from the detection result and the distances calculated by the SGM algorithm are stored as the virtual coordinates of a node. In future work, we will use these virtual coordinates to obtain the location of a node using an efficient trilateration algorithm and optimize the node position using the appropriate optimization method.
翻訳日:2024-02-20 15:08:31 公開日:2024-02-19
# 公正意識を考慮した動的環境応答型オンラインメタラーニング

Dynamic Environment Responsive Online Meta-Learning with Fairness Awareness ( http://arxiv.org/abs/2402.12319v1 )

ライセンス: Link先を確認
Chen Zhao, Feng Mi, Xintao Wu, Kai Jiang, Latifur Khan, Feng Chen(参考訳) fairness-aware online learning frameworkは、継続的生涯学習のコンテキストにおいて強力なツールとして登場した。 このシナリオでは、学習者は時間とともに新しいタスクを段階的に獲得し、新たに導入されたタスクに関しては、人種や性別など、様々な保護されたサブグループ間で統計的に同等であることを保証する。 現在のアプローチの大きな制限は、データに関するi.i.d(独立かつ同一分散)の仮定に強く依存しているため、フレームワークの静的な後悔分析に繋がる。 それでも、低い静的後悔を達成することは、多種多様な分布からサンプリングされたタスクによって特徴づけられる動的環境において、強いパフォーマンスをもたらすとは限らないことに注意する必要がある。 本稿では、設定の進化における公正を意識したオンライン学習の課題に取り組むために、長期的公正性の制約を強固に適応した損失後悔フレームワークに組み込むことにより、ユニークな後悔対策であるFairSARを導入する。 さらに,各段階の最適モデルパラメータを決定するために,FairSAOMLと呼ばれる,適応的フェアネスを考慮したオンラインメタ学習アルゴリズムを導入する。 このアルゴリズムは、バイアス制御とモデル精度を効果的に管理することにより、動的環境に適応する能力を有する。 この問題は、モデルの原始パラメータと双対パラメータの両方を考慮し、それぞれ精度と公平性特性に関する二段階凸凸最適化(bi-level convex-concave optimization)として構成される。 理論的解析により、損失後悔と公正性制約の累積的違反の両方に対して線形上界が得られる。 動的環境における様々な実世界のデータセットの実験的評価により,提案手法が最も先進的なオンライン学習手法に根ざした代替手法を一貫して上回ることを示した。

The fairness-aware online learning framework has emerged as a potent tool within the context of continuous lifelong learning. In this scenario, the learner's objective is to progressively acquire new tasks as they arrive over time, while also guaranteeing statistical parity among various protected sub-populations, such as race and gender, when it comes to the newly introduced tasks. A significant limitation of current approaches lies in their heavy reliance on the i.i.d (independent and identically distributed) assumption concerning data, leading to a static regret analysis of the framework. Nevertheless, it's crucial to note that achieving low static regret does not necessarily translate to strong performance in dynamic environments characterized by tasks sampled from diverse distributions. In this paper, to tackle the fairness-aware online learning challenge in evolving settings, we introduce a unique regret measure, FairSAR, by incorporating long-term fairness constraints into a strongly adapted loss regret framework. Moreover, to determine an optimal model parameter at each time step, we introduce an innovative adaptive fairness-aware online meta-learning algorithm, referred to as FairSAOML. This algorithm possesses the ability to adjust to dynamic environments by effectively managing bias control and model accuracy. The problem is framed as a bi-level convex-concave optimization, considering both the model's primal and dual parameters, which pertain to its accuracy and fairness attributes, respectively. Theoretical analysis yields sub-linear upper bounds for both loss regret and the cumulative violation of fairness constraints. Our experimental evaluation on various real-world datasets in dynamic environments demonstrates that our proposed FairSAOML algorithm consistently outperforms alternative approaches rooted in the most advanced prior online learning methods.
翻訳日:2024-02-20 15:08:01 公開日:2024-02-19
# ネットワーク非局所性と自己テストにおけるメモリアタック

Memory attacks in network nonlocality and self-testing ( http://arxiv.org/abs/2402.12318v1 )

ライセンス: Link先を確認
Mirjam Weilenmann, Costantino Budroni and Miguel Navascues(参考訳) 本研究では,実験ラウンド間の独立性の仮定と同一分布(iid)が失敗する通信シナリオにおいて,何の認定が可能であるかを検討する。 この点において、非凸相関集合の会員試験は非イド状態では定式化できないことを示す。 同様に、同じ実験ラウンド内で1つ以上の使用を許可しない限り、混合状態やノイズ量子測定のような非極端な量子演算を自己テストすることは不可能である。 その結果,入力のない因果ネットワークにおける非古典性は実験的に実証できないことがわかった。 三角形シナリオにおける最適な非iid戦略を分析することにより、因果ネットワークのセットアップに必要な事前通信を考慮に入れる必要性が高まる。

We study what can or cannot be certified in communication scenarios where the assumption of independence and identical distribution (iid) between experimental rounds fails. In this respect, we prove that membership tests for non-convex sets of correlations cannot be formulated in the non-iid regime. Similarly, it is impossible to self-test non-extreme quantum operations, such as mixed states, or noisy quantum measurements, unless one allows more than a single use thereof within the same experimental round. One consequence of our results is that non-classicality in causal networks without inputs cannot be experimentally demonstrated. By analyzing optimal non-iid strategies in the triangle scenario, we raise the need to take into account the prior communication required to set up a causal network.
翻訳日:2024-02-20 15:07:29 公開日:2024-02-19
# arks: コード生成のための知識スープのアクティブ検索

ARKS: Active Retrieval in Knowledge Soup for Code Generation ( http://arxiv.org/abs/2402.12317v1 )

ライセンス: Link先を確認
Hongjin Su, Shuyang Jiang, Yuhang Lai, Haoyuan Wu, Boao Shi, Che Liu, Qian Liu, Tao Yu(参考訳) 近年,大規模言語モデル(LLM)に外部知識を組み込むことで,さらなる学習を行なわずに,検索強化世代(RAG)パラダイムが注目されている。 自然言語アプリケーションで広く研究されているが、コード生成におけるその利用は未調査のままである。 本稿では,コードに対する大規模言語モデルを一般化するための高度戦略である知識スープ(arks)のアクティブ検索を提案する。 単一のソースに依存するのとは対照的に、Web検索、ドキュメント、実行フィードバック、進化したコードスニペットを統合する知識のスープを構築する。 我々は,クエリを反復的に洗練し,知識スープを更新するアクティブ検索戦略を採用している。 ARKSの性能を評価するため、頻繁に更新されるライブラリや長い尾のプログラミング言語に関連する現実的なコーディング問題を含む新しいベンチマークをコンパイルする。 ChatGPTとCodeLlamaの実験結果から,LDM上でのARKSの平均実行精度が大幅に向上した。 本分析は,提案した知識スープとアクティブ検索戦略の有効性を確認し,効率的な検索拡張コード生成(RACG)パイプラインの構築に関する豊富な知見を提供する。 私たちのモデル、コード、データはhttps://arks-codegen.github.ioで利用可能です。

Recently the retrieval-augmented generation (RAG) paradigm has raised much attention for its potential in incorporating external knowledge into large language models (LLMs) without further training. While widely explored in natural language applications, its utilization in code generation remains under-explored. In this paper, we introduce Active Retrieval in Knowledge Soup (ARKS), an advanced strategy for generalizing large language models for code. In contrast to relying on a single source, we construct a knowledge soup integrating web search, documentation, execution feedback, and evolved code snippets. We employ an active retrieval strategy that iteratively refines the query and updates the knowledge soup. To assess the performance of ARKS, we compile a new benchmark comprising realistic coding problems associated with frequently updated libraries and long-tail programming languages. Experimental results on ChatGPT and CodeLlama demonstrate a substantial improvement in the average execution accuracy of ARKS on LLMs. The analysis confirms the effectiveness of our proposed knowledge soup and active retrieval strategies, offering rich insights into the construction of effective retrieval-augmented code generation (RACG) pipelines. Our model, code, and data are available at https://arks-codegen.github.io.
翻訳日:2024-02-20 15:07:15 公開日:2024-02-19
# 連続から離散時間結晶への相転移の観察

Observation of a phase transition from a continuous to a discrete time crystal ( http://arxiv.org/abs/2402.12378v1 )

ライセンス: Link先を確認
Phatthamon Kongkhambut, Jayson G. Cosme, Jim Skulte, Michelle A. Moreno Armijos, Ludwig Mathey, Andreas Hemmerich, Hans Ke{\ss}ler(参考訳) 離散時間結晶 (dtcs) と連続時間結晶 (ctcs) は、独立または連続時間変換対称性の自発的破れによって生じる頑健な自己持続振動によって特徴づけられる、新しい動的多体状態である。 DTCはドライブのサブハーモニックで振動する周期駆動系であり、CTCは連続的に駆動され、システム固有の周波数で振動する。 ここでは、連続時間結晶から離散時間結晶への相転移について検討する。 連続励起原子空洞系において、特性振動周波数$\omega_\mathrm{CTC}$のCTCを作成する。 CTCのポンプ強度を周波数$\omega_{\mathrm{dr}}$に近づくと、$\omega_\mathrm{CTC}$が$\omega_\mathrm{CTC}$から$\omega_{\mathrm{dr}}/2$に変化するので、DTCが発生する。 量子多体系におけるこの相転移は、非線形機械および電子発振器またはレーザーのサブハーモニック注入ロックと関連している。

Discrete (DTCs) and continuous time crystals (CTCs) are novel dynamical many-body states, that are characterized by robust self-sustained oscillations, emerging via spontaneous breaking of discrete or continuous time translation symmetry. DTCs are periodically driven systems that oscillate with a subharmonic of the drive, while CTCs are driven continuously and oscillate with a system inherent frequency. Here, we explore a phase transition from a continuous time crystal to a discrete time crystal. A CTC with a characteristic oscillation frequency $\omega_\mathrm{CTC}$ is prepared in a continuously pumped atom-cavity system. Modulating the pump intensity of the CTC with a frequency $\omega_{\mathrm{dr}}$ close to $2\,\omega_\mathrm{CTC}$ leads to robust locking of $\omega_\mathrm{CTC}$ to $\omega_{\mathrm{dr}}/2$, and hence a DTC arises. This phase transition in a quantum many-body system is related to subharmonic injection locking of non-linear mechanical and electronic oscillators or lasers.
翻訳日:2024-02-20 15:00:02 公開日:2024-02-19
# binary opacity grids: メッシュベースのビュー合成のための微細な幾何学的詳細をキャプチャする

Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis ( http://arxiv.org/abs/2402.12377v1 )

ライセンス: Link先を確認
Christian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger(参考訳) 表面ベースのビュー合成アルゴリズムは計算量が少ないため魅力的だが、しばしば薄い構造を再現するのに苦労している。 対照的に、シーンの幾何学を体積密度場(例えば、NeRF)としてモデル化するより高価な手法は、細かい幾何学的詳細を再構築するのに優れている。 しかし、密度場はしばしば「曖昧」な方法で幾何学を表し、表面の正確な局在を阻害する。 本研究では, 密度場を改良し, 薄い構造を再構成する能力を損なうことなく, 表面への収束を促す。 まず、連続密度場の代わりに離散不透明格子表現を用い、不透明値が表面でゼロから1に不連続に遷移することを可能にする。 第2に, 半透明ボクセルを用いずに咬合境界とサブピクセル構造をモデル化できる画素毎に複数の光線を鋳造することでアンチエイリアスを行う。 第3に,不透明度値の2値エントロピーを最小化し,不透明度値をトレーニング終了に向けて2値化することにより,表面形状の抽出を容易にする。 最後に,mesh simplification と appearance model fitting の次に fusion ベースのメッシュ戦略を開発した。 我々のモデルが生成したコンパクトメッシュはモバイルデバイス上でリアルタイムにレンダリングでき、既存のメッシュベースのアプローチに比べてビュー合成品質が大幅に向上する。

While surface-based view synthesis algorithms are appealing due to their low computational requirements, they often struggle to reproduce thin structures. In contrast, more expensive methods that model the scene's geometry as a volumetric density field (e.g. NeRF) excel at reconstructing fine geometric detail. However, density fields often represent geometry in a "fuzzy" manner, which hinders exact localization of the surface. In this work, we modify density fields to encourage them to converge towards surfaces, without compromising their ability to reconstruct thin structures. First, we employ a discrete opacity grid representation instead of a continuous density field, which allows opacity values to discontinuously transition from zero to one at the surface. Second, we anti-alias by casting multiple rays per pixel, which allows occlusion boundaries and subpixel structures to be modelled without using semi-transparent voxels. Third, we minimize the binary entropy of the opacity values, which facilitates the extraction of surface geometry by encouraging opacity values to binarize towards the end of training. Lastly, we develop a fusion-based meshing strategy followed by mesh simplification and appearance model fitting. The compact meshes produced by our model can be rendered in real-time on mobile devices and achieve significantly higher view synthesis quality compared to existing mesh-based approaches.
翻訳日:2024-02-20 14:59:38 公開日:2024-02-19
# FiT:拡散モデルのためのフレキシブルビジョントランス

FiT: Flexible Vision Transformer for Diffusion Model ( http://arxiv.org/abs/2402.12376v1 )

ライセンス: Link先を確認
Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai(参考訳) 自然は無限分解能である。 この現実の文脈では、Diffusion Transformersのような既存の拡散モデルは、訓練されたドメインの外で画像解像度を処理する際にしばしば課題に直面します。 本稿では,この限界を克服するために,非制限解像度とアスペクト比を有する画像を生成するためのトランスフォーマーであるflexible vision transformer (fit)を提案する。 静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。 この視点は、トレーニングと推論フェーズの両方において、多彩なアスペクト比に努力せずに適応する柔軟なトレーニング戦略を可能にし、解像度の一般化を促進し、画像トリミングによって引き起こされるバイアスを取り除く。 微調整されたネットワーク構造とトレーニング不要な外挿技術の統合によって強化されたFiTは、分解能外挿生成において顕著な柔軟性を示す。 総合的な実験は、FiTの幅広い解像度における異常な性能を実証し、トレーニングの解像度分布内外における効果を示す。 リポジトリはhttps://github.com/whlzy/FiT.comで入手できる。

Nature is infinitely resolution-free. In the context of this reality, existing diffusion models, such as Diffusion Transformers, often face challenges when processing image resolutions outside of their trained domain. To overcome this limitation, we present the Flexible Vision Transformer (FiT), a transformer architecture specifically designed for generating images with unrestricted resolutions and aspect ratios. Unlike traditional methods that perceive images as static-resolution grids, FiT conceptualizes images as sequences of dynamically-sized tokens. This perspective enables a flexible training strategy that effortlessly adapts to diverse aspect ratios during both training and inference phases, thus promoting resolution generalization and eliminating biases induced by image cropping. Enhanced by a meticulously adjusted network structure and the integration of training-free extrapolation techniques, FiT exhibits remarkable flexibility in resolution extrapolation generation. Comprehensive experiments demonstrate the exceptional performance of FiT across a broad range of resolutions, showcasing its effectiveness both within and beyond its training resolution distribution. Repository available at https://github.com/whlzy/FiT.
翻訳日:2024-02-20 14:59:13 公開日:2024-02-19
# Sequoia: スケーラブル、ロバスト、ハードウェア対応の投機的デコーディング

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding ( http://arxiv.org/abs/2402.12374v1 )

ライセンス: Link先を確認
Zhuoming Chen, Avner May, Ruslan Svirschevski, Yuhsun Huang, Max Ryabinin, Zhihao Jia, Beidi Chen(参考訳) 大規模言語モデル(LLM)の利用が増加するにつれて、これらのモデルによる効率的な推論がますます重要になる。 投機的復号化は推論を高速化するための有望な方向として最近登場したが、既存の手法は投機予算を拡大し、異なるハイパーパラメータやハードウェアに適応する能力に制限されている。 本稿では,投機的復号化のためのスケーラブルでロバストでハードウェア対応のアルゴリズムsequoiaを紹介する。 より優れたスケーラビリティを実現するため、sequoiaは推測されたトークンの最適ツリー構造を見つけるために動的プログラミングアルゴリズムを導入した。 安定した投機的性能を達成するためにsequoiaは、異なる復号温度で以前の作業を上回る新しいサンプリングおよび検証手法を使用している。 最後に、Sequoiaはハードウェア対応ツリーオプティマイザを導入し、特定のハードウェアプラットフォームのトークンツリーサイズと深さを自動的に選択することで、投機的パフォーマンスを最大化する。 評価によると、sequoiaはa100のllama2-7b, llama2-13b, vicuna-33bの復号速度を最大4.04\times$, $3.84\times$, $2.37\times$, llama2-70bのl40でのオフロードを最大10.33\times$とする。

As the usage of large language models (LLMs) grows, performing efficient inference with these models becomes increasingly important. While speculative decoding has recently emerged as a promising direction for speeding up inference, existing methods are limited in their ability to scale to larger speculation budgets, and adapt to different hyperparameters and hardware. This paper introduces Sequoia, a scalable, robust, and hardware-aware algorithm for speculative decoding. To attain better scalability, Sequoia introduces a dynamic programming algorithm to find the optimal tree structure for the speculated tokens. To achieve robust speculative performance, Sequoia uses a novel sampling and verification method that outperforms prior work across different decoding temperatures. Finally, Sequoia introduces a hardware-aware tree optimizer that maximizes speculative performance by automatically selecting the token tree size and depth for a given hardware platform. Evaluation shows that Sequoia improves the decoding speed of Llama2-7B, Llama2-13B, and Vicuna-33B on an A100 by up to $4.04\times$, $3.84\times$, and $2.37\times$, and Llama2-70B offloading by up to $10.33\times$ on L40.
翻訳日:2024-02-20 14:58:54 公開日:2024-02-19
# GPUによるLTL学習

LTL learning on GPUs ( http://arxiv.org/abs/2402.12373v1 )

ライセンス: Link先を確認
Mojtaba Valizadeh, Nathana\"el Fijalkow, Martin Berger(参考訳) 線形時間論理(LTL)は産業的検証に広く用いられている。 LTLの公式はトレースから学ぶことができる。 LTL公式学習のスケーリングはオープンな問題である。 我々は,新しい列挙型プログラム合成形式を用いて,GPUベースのLTL学習器を実装した。 学習者は健全で完ぺきです。 我々のベンチマークでは、少なくとも2048倍のトレースを処理し、既存の最先端の学習者よりも平均46倍高速であることが示された。 これは、例えば、$O(\log n)$時間複雑性を持つ新しいブランチフリーLTLセマンティクスで実現される。$n$はトレース長であり、以前の実装は$O(n^2)$以上である(ビットワイズなブール演算と2のパワーによるシフトは、現代のプロセッサにおける現実的な仮定である)。

Linear temporal logic (LTL) is widely used in industrial verification. LTL formulae can be learned from traces. Scaling LTL formula learning is an open problem. We implement the first GPU-based LTL learner using a novel form of enumerative program synthesis. The learner is sound and complete. Our benchmarks indicate that it handles traces at least 2048 times more numerous, and on average at least 46 times faster than existing state-of-the-art learners. This is achieved with, among others, novel branch-free LTL semantics that has $O(\log n)$ time complexity, where $n$ is trace length, while previous implementations are $O(n^2)$ or worse (assuming bitwise boolean operations and shifts by powers of 2 have unit costs -- a realistic assumption on modern processors).
翻訳日:2024-02-20 14:58:25 公開日:2024-02-19
# hunflair2 : 名前付きエンティティ認識と正規化ツールのクロスコーポレート評価

HunFlair2 in a cross-corpus evaluation of named entity recognition and normalization tools ( http://arxiv.org/abs/2402.12372v1 )

ライセンス: Link先を確認
Mario S\"anger, Samuele Garda, Xing David Wang, Leon Weber-Genzel, Pia Droop, Benedikt Fuchs, Alan Akbik, Ulf Leser(参考訳) 生命科学文学の指数的発展に伴い、バイオメディカルテキストマイニング(BTM)は出版物からの洞察の抽出を促進する重要な技術となっている。 テキスト中の名前付きエンティティ(病気、薬物、遺伝子など)の同定と参照知識ベースへのリンクは、異なるドキュメントから情報集約を可能にするためにbtmパイプラインの重要なステップである。 しかし、これらの2つのステップのツールは、それらが開発された同じ文脈ではほとんど適用されない。 代わりに、それらはワイルド、すなわち、ツールのトレーニングで使用されるものとは異なるアプリケーション依存のテキストコレクション、例えばフォーカス、ジャンル、スタイル、テキストタイプに適用される。 これにより、報告されたBTMツールのパフォーマンスが下流アプリケーションで信頼できるかどうかという疑問が持ち上がる。 本稿では,訓練中に使用しないコーパスに対してツールが体系的に適用された名前付きエンティティ抽出のための,慎重に設計されたクロスコーパスベンチマークの結果について報告する。 28の公開システムに関する調査に基づいて、4つの異なるエンティティタイプを包含する3つの公開コーパスの詳細な分析のために5つを選択した。 ツールの比較により、混合画像が得られ、クロスコーパス設定では、その性能がインコーパス設定で報告されたものよりも著しく低いことを示す。 HunFlair2は平均して最高のパフォーマンスを示し、PubTatorが続いた。 以上の結果から,BTM ツールの利用者は,オリジナルの出版物と比較して性能低下を期待すべきであり,BTM ツールをより堅牢にするためにはさらなる研究が必要であることが示唆された。

With the exponential growth of the life science literature, biomedical text mining (BTM) has become an essential technology for accelerating the extraction of insights from publications. Identifying named entities (e.g., diseases, drugs, or genes) in texts and their linkage to reference knowledge bases are crucial steps in BTM pipelines to enable information aggregation from different documents. However, tools for these two steps are rarely applied in the same context in which they were developed. Instead, they are applied in the wild, i.e., on application-dependent text collections different from those used for the tools' training, varying, e.g., in focus, genre, style, and text type. This raises the question of whether the reported performance of BTM tools can be trusted for downstream applications. Here, we report on the results of a carefully designed cross-corpus benchmark for named entity extraction, where tools were applied systematically to corpora not used during their training. Based on a survey of 28 published systems, we selected five for an in-depth analysis on three publicly available corpora encompassing four different entity types. Comparison between tools results in a mixed picture and shows that, in a cross-corpus setting, the performance is significantly lower than the one reported in an in-corpus setting. HunFlair2 showed the best performance on average, being closely followed by PubTator. Our results indicate that users of BTM tools should expect diminishing performances when applying them in the wild compared to original publications and show that further research is necessary to make BTM tools more robust.
翻訳日:2024-02-20 14:58:09 公開日:2024-02-19
# AnaloBench: 抽象および長文のアナロジーの同定のベンチマーク

AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies ( http://arxiv.org/abs/2402.12370v1 )

ライセンス: Link先を確認
Xiao Ye, Andrew Wang, Jacob Choi, Yining Lu, Shreya Sharma, Lingfeng Shen, Vijay Tiyyala, Nicholas Andrews, Daniel Khashabi(参考訳) 人間は、個人的な経験と現在の状況に関する類似の思考を定期的に行う(x$は$z$のため$y$に類似する)。 アナロジー思考は、人間が創造的な方法で問題を解決し、難しい概念を把握し、より効果的にアイデアを表現できるようにする。 言語モデル(LM)も同じことができますか? そこで本研究では,LMの類似推論能力を決定するベンチマークAnALOBENCHを提案する。 私たちのベンチマークアプローチは、人間に共通するこの能力の側面に焦点を当てています。 (i)大量の情報から関連する経験を思い出すこと、 (ii)複雑で長いシナリオに類推を適用すること。 我々は、プロプライエタリなモデル(GPTファミリ、Claude V2)とLLaMA2のようなオープンソースモデルの広範なコレクションをテストする。 以前の結果と同様に、LMのスケールアップによってパフォーマンスが向上する。 驚くべきことに、スケールは最小の利益をもたらす。 (i)類推には長いシナリオ、または (ii)大量の情報から関連するシナリオを想起すること。干し草の山で針を見つけるのと類似のプロセス。 これらの観測がこの分野のさらなる研究を促進することを願っている。

Humans regularly engage in analogical thinking, relating personal experiences to current situations ($X$ is analogous to $Y$ because of $Z$). Analogical thinking allows humans to solve problems in creative ways, grasp difficult concepts, and articulate ideas more effectively. Can language models (LMs) do the same? To answer this question, we propose ANALOBENCH, a benchmark to determine analogical reasoning ability in LMs. Our benchmarking approach focuses on aspects of this ability that are common among humans: (i) recalling related experiences from a large amount of information, and (ii) applying analogical reasoning to complex and lengthy scenarios. We test a broad collection of proprietary models (e.g., GPT family, Claude V2) and open source models such as LLaMA2. As in prior results, scaling up LMs results in some performance boosts. Surprisingly, scale offers minimal gains when, (i) analogies involve lengthy scenarios, or (ii) recalling relevant scenarios from a large pool of information, a process analogous to finding a needle in a haystack. We hope these observations encourage further research in this field.
翻訳日:2024-02-20 14:57:36 公開日:2024-02-19
# 畳み込みニューラルネットワークによるTESSフルフレーム画像曲線の短周期変動

Short-Period Variables in TESS Full-Frame Image Light Curves Identified via Convolutional Neural Networks ( http://arxiv.org/abs/2402.12369v1 )

ライセンス: Link先を確認
Greg Olmschenk, Richard K. Barry, Stela Ishitani Silva, Brian P. Powell, Ethan Kruse, Jeremy D. Schnittman, Agnieszka M. Cieplak, Thomas Barclay, Siddhant Solanki, Bianca Ortega, John Baker, Yesenia Helem Salinas Mamani(参考訳) トランジット太陽系外惑星探査衛星(TESS)は、2年間の一次ミッションを通して、空の85%の星からの光を観測し、トランジット系外惑星の探索において分析するために、数百万のTESS30分間のケイデンス光曲線を導いた。 この膨大なデータセットを探索するために、計算効率が高く、高い性能の予測を行い、必要な人間の探索作業を最小化するアプローチを提案する。 我々は,短い期間変数を識別するために学習する畳み込みニューラルネットワークを提案する。 所定の光度曲線の予測を行うためには,他の手法を用いた事前目標パラメータの特定は不要である。 私たちのネットワークは、ttess 30分周期の光曲線を単一のgpu上で約5msで推論し、大規模なアーカイブ検索を可能にします。 ネットワークによって識別された14156個の短周期変数のコレクションを提示する。 同定された変数の大部分は、短い周期主系列連星とデルタスカット星の2つの顕著な集団に分類される。 私たちのニューラルネットワークモデルと関連するコードは、パブリック使用と拡張のためのオープンソースコードとして提供されています。

The Transiting Exoplanet Survey Satellite (TESS) mission measured light from stars in ~85% of the sky throughout its two-year primary mission, resulting in millions of TESS 30-minute cadence light curves to analyze in the search for transiting exoplanets. To search this vast dataset, we aim to provide an approach that is both computationally efficient, produces highly performant predictions, and minimizes the required human search effort. We present a convolutional neural network that we train to identify short period variables. To make a prediction for a given light curve, our network requires no prior target parameters identified using other methods. Our network performs inference on a TESS 30-minute cadence light curve in ~5ms on a single GPU, enabling large scale archival searches. We present a collection of 14156 short-period variables identified by our network. The majority of our identified variables fall into two prominent populations, one of short-period main sequence binaries and another of Delta Scuti stars. Our neural network model and related code is additionally provided as open-source code for public use and extension.
翻訳日:2024-02-20 14:56:46 公開日:2024-02-19
# NLIモデルの領域一般化のための合成データアプローチ

A synthetic data approach for domain generalization of NLI models ( http://arxiv.org/abs/2402.12368v1 )

ライセンス: Link先を確認
Mohammad Javad Hosseini, Andrey Petrov, Alex Fabrikant, Annie Louis(参考訳) 自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。 NLIデータセットは、他のセマンティックタスクへの変換学習のためのスプリングボードであり、NLIモデルは、モデル生成テキストの忠実さを特定するための標準ツールである。 現在、いくつかの大規模nliデータセットがあり、これらのコレクションのヒルクライミングによってモデルは大幅に改善されている。 しかし、アウト・オブ・ディストリビューション/ドメインデータの現実的なパフォーマンスはよく理解されていない。 本稿では,nliモデルの領域一般化に関する問題を詳細に検討する。 既存のトレーニングセットではカバーされていないさまざまな領域と長さで合成NLIデータを生成するための新しいアプローチを実証する。 得られた例は意味のある前提を持ち、仮説はいくつかの前提トークンへの単純な編集よりも創造的な方法で形成され、ラベルは高い精度を持つ。 このデータに基づいてトレーニングされたモデル(685$Kの合成例)が、まったく新しい下流テスト設定に最適な一般化があることを示します。 TRUEベンチマークでは、私たちのデータでトレーニングされたT5小モデルでは、最適な代替データセットのトレーニングと比較して、平均で7\%ほど改善されています。 改良は小型モデルではより顕著だが、t5 xxlモデルではなお意味がある。 また、ドメイン内トレーニングデータをドメイン一般合成データで拡張した場合、テストセットが向上することを示す。

Natural Language Inference (NLI) remains an important benchmark task for LLMs. NLI datasets are a springboard for transfer learning to other semantic tasks, and NLI models are standard tools for identifying the faithfulness of model-generated text. There are several large scale NLI datasets today, and models have improved greatly by hill-climbing on these collections. Yet their realistic performance on out-of-distribution/domain data is less well-understood. We present an in-depth exploration of the problem of domain generalization of NLI models. We demonstrate a new approach for generating synthetic NLI data in diverse domains and lengths, so far not covered by existing training sets. The resulting examples have meaningful premises, the hypotheses are formed in creative ways rather than simple edits to a few premise tokens, and the labels have high accuracy. We show that models trained on this data ($685$K synthetic examples) have the best generalization to completely new downstream test settings. On the TRUE benchmark, a T5-small model trained with our data improves around $7\%$ on average compared to training on the best alternative dataset. The improvements are more pronounced for smaller models, while still meaningful on a T5 XXL model. We also demonstrate gains on test sets when in-domain training data is augmented with our domain-general synthetic data.
翻訳日:2024-02-20 14:56:23 公開日:2024-02-19
# 大規模言語モデルに対するAIフィードバックの批判的評価

A Critical Evaluation of AI Feedback for Aligning Large Language Models ( http://arxiv.org/abs/2402.12366v1 )

ライセンス: Link先を確認
Archit Sharma, Sedrick Keh, Eric Mitchell, Chelsea Finn, Kushal Arora, Thomas Kollar(参考訳) AIフィードバックによる強化学習(RLAIF)は、強力な事前学習言語モデルの命令追従能力を改善するための一般的なパラダイムである。 RLAIFはまず教師モデルからのデモンストレーションを用いて教師付き微調整(SFT)を行い、さらに批判モデルからのフィードバックを用いて強化学習(RL)でモデルをさらに微調整する。 最近のポピュラーなオープンソースモデルは、RLステップから大幅に改善されているが、この記事では、このRLステップの複雑さがAIフィードバックに真に保証されているかどうかを疑問視する。 本稿では,AIフィードバック生成に使用する批判者(GPT-4など)よりも,SFTデータ収集に弱い教師モデル(GPT-3.5など)を用いることによって,RLステップの改善がほぼ完全に実現されていることを示す。 具体的には、教師が既存のRLAIFパイプラインより優れたGPT-4による教師付き微調整を行うことを示す。 より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。 最後に、SFTが2段階のRLAIFパイプラインより優れている場合と、実際にRLAIFを最大限に有効にするための提案について説明する。

Reinforcement learning with AI feedback (RLAIF) is a popular paradigm for improving the instruction-following abilities of powerful pre-trained language models. RLAIF first performs supervised fine-tuning (SFT) using demonstrations from a teacher model and then further fine-tunes the model with reinforcement learning (RL), using feedback from a critic model. While recent popular open-source models have demonstrated substantial improvements in performance from the RL step, in this paper we question whether the complexity of this RL step is truly warranted for AI feedback. We show that the improvements of the RL step are virtually entirely due to the widespread practice of using a weaker teacher model (e.g. GPT-3.5) for SFT data collection than the critic (e.g., GPT-4) used for AI feedback generation. Specifically, we show that simple supervised fine-tuning with GPT-4 as the teacher outperforms existing RLAIF pipelines. More generally, we find that the gains from RLAIF vary substantially across base model families, test-time evaluation protocols, and critic models. Finally, we provide a mechanistic explanation for when SFT may outperform the full two-step RLAIF pipeline as well as suggestions for making RLAIF maximally useful in practice.
翻訳日:2024-02-20 14:55:30 公開日:2024-02-19
# ユニバーサル物理変換器

Universal Physics Transformers ( http://arxiv.org/abs/2402.12365v1 )

ライセンス: Link先を確認
Benedikt Alkin and Andreas F\"urst and Simon Schmid and Lukas Gruber and Markus Holzleitner and Johannes Brandstetter(参考訳) 偏微分方程式に対するディープニューラルネットワークに基づくサロゲートは近年、関心が高まっている。 しかし、数値的な手法と同様に、システムの基盤となるダイナミクスが似ているとしても、アプリケーション間で異なるテクニックが使用される。 有名な例として、計算流体力学におけるラグランジアンとオイラーの仕様があり、グリッドベースの力学とは対照的に、ニューラルネットワークが粒子を効果的にモデル化することが課題となっている。 我々は、ラグランジアンおよびユーレリアの離散化スキームに対して、幅広い時空間問題をモデル化する新しい学習パラダイムであるUniversal Physics Transformers (UPTs)を紹介する。 uptはグリッドや粒子ベースの潜入構造なしで動作し、メッシュや粒子にまたがる柔軟性を実現する。 UPTは、逆符号化と復号法で強調される潜在空間のダイナミクスを効率的に伝播する。 最後に、UTTは時空の任意の時点における潜在空間表現のクエリを可能にする。 メッシュ系流体シミュレーション, 定常レイノルズ平均Navier-Stokesシミュレーション, ラグランジアン動力学におけるUTTの有効性を示す。 プロジェクトページ: https://ml-jku.github.io/upt

Deep neural network based surrogates for partial differential equations have recently gained increased interest. However, akin to their numerical counterparts, different techniques are used across applications, even if the underlying dynamics of the systems are similar. A prominent example is the Lagrangian and Eulerian specification in computational fluid dynamics, posing a challenge for neural networks to effectively model particle- as opposed to grid-based dynamics. We introduce Universal Physics Transformers (UPTs), a novel learning paradigm which models a wide range of spatio-temporal problems - both for Lagrangian and Eulerian discretization schemes. UPTs operate without grid- or particle-based latent structures, enabling flexibility across meshes and particles. UPTs efficiently propagate dynamics in the latent space, emphasized by inverse encoding and decoding techniques. Finally, UPTs allow for queries of the latent space representation at any point in space-time. We demonstrate the efficacy of UPTs in mesh-based fluid simulations, steady-state Reynolds averaged Navier-Stokes simulations, and Lagrangian-based dynamics. Project page: https://ml-jku.github.io/UPT
翻訳日:2024-02-20 14:55:06 公開日:2024-02-19
# 認知動機付け言語モデルからの創発的語順普遍性

Emergent Word Order Universals from Cognitively-Motivated Language Models ( http://arxiv.org/abs/2402.12363v1 )

ライセンス: Link先を確認
Tatsuki Kuribayashi, Ryo Ueda, Ryo Yoshida, Yohei Oseki, Ted Briscoe, Timothy Baldwin(参考訳) 世界の言語は、ある種の類型的または含意的普遍性を示しており、例えば、SOV(Subject-Object-Verb)の語順は、一般にポストポジションを用いる。 このようなバイアスの源を説明することは言語学における重要な目標である。 言語モデル (LM) を用いた計算シミュレーションにより, 語順普遍性について検討する。 実験の結果,タイプ論的に典型的な単語順は,認知学的バイアス,特定の構文解析方略,記憶制限といった認知的バイアスを有するLMによって推定される難易度が低い傾向を示した。 これは、これらの認知バイアスと予測可能性(複雑度)の相互作用が、単語順普遍の多くの側面を説明できることを示唆している。 これはまた、言語普遍性の計算シミュレーションにおいて、認知モデリングに一般的に使用される認知動機付けLMの利点を示す。

The world's languages exhibit certain so-called typological or implicational universals; for example, Subject-Object-Verb (SOV) word order typically employs postpositions. Explaining the source of such biases is a key goal in linguistics. We study the word-order universals through a computational simulation with language models (LMs). Our experiments show that typologically typical word orders tend to have lower perplexity estimated by LMs with cognitively plausible biases: syntactic biases, specific parsing strategies, and memory limitations. This suggests that the interplay of these cognitive biases and predictability (perplexity) can explain many aspects of word-order universals. This also showcases the advantage of cognitively-motivated LMs, which are typically employed in cognitive modeling, in the computational simulation of language universals.
翻訳日:2024-02-20 14:54:47 公開日:2024-02-19
# 時間相関環境におけるスパムロバスト多軸量子ノイズ分光

SPAM-Robust Multi-axis Quantum Noise Spectroscopy in Temporally Correlated Environments ( http://arxiv.org/abs/2402.12361v1 )

ライセンス: Link先を確認
Muhammad Qasim Khan, Wenzheng Dong, Leigh M. Norris and Lorenza Viola(参考訳) 時間的相関( ``non-Markovian'')ノイズを特徴付けることは、ノイズ調整誤差軽減と最適なデバイス性能を達成するための重要な前提条件である。 量子ノイズスペクトロスコピーは、ノイズスペクトルの特徴を定量的に推定することができるが、現在の方法では、非理想性(特に状態準備と測定(SPAM)エラー)の実装に非常に脆弱である。 さらに、既存のプロトコルはデファスメントが支配的なノイズ処理のために開発されており、競合するデファスメントや緩和効果はほとんど考慮されていない。 スピンロック法に着想を得た量子ノイズ分光プロトコルを導入し、固定エネルギー分割を伴うキュービット上の任意の時間相関多軸雑音のキャラクタリゼーションを実現するとともに、現実的な静的SPAM誤差に対して弾力性を維持した。 数値シミュレーションとクラウドベースのIBM量子プロセッサの両方でプロトコルの性能を検証することにより、ネイティブノイズスペクトル成分とSPAM誤差率の分離と推定に成功したことを示す。 SPAMの誤差は、古典的なノイズレシエーションにおいてスペクトルを最大26.4%過大評価することで、重要なノイズ特徴を著しく変化または隠蔽することができる。 非古典的ノイズの明確なシグネチャは、SPAMエラー効果が補償されると、再構成されたIBM-qubit dephasingスペクトルに現れる。 我々の研究は、キュービットデバイスにおける現実的なノイズ源をベンチマークするためのタイムリーなツールを提供する。

Characterizing temporally correlated (``non-Markovian'') noise is a key prerequisite for achieving noise-tailored error mitigation and optimal device performance. Quantum noise spectroscopy can afford quantitative estimation of the noise spectral features; however, in its current form it is highly vulnerable to implementation non-idealities, notably, state-preparation and measurement (SPAM) errors. Further to that, existing protocols have been mostly developed for dephasing-dominated noise processes, with competing dephasing and relaxation effects being largely unaccounted for. We introduce quantum noise spectroscopy protocols inspired by spin-locking techniques that enable the characterization of arbitrary temporally correlated multi-axis noise on a qubit with fixed energy splitting, while remaining resilient to realistic static SPAM errors. By validating our protocol's performance in both numerical simulation and cloud-based IBM quantum processors, we demonstrate the successful separation and estimation of native noise spectrum components as well as SPAM error rates. We find that SPAM errors can significantly alter or mask important noise features, with spectra overestimated by up to 26.4% in a classical noise regime. Clear signatures of non-classical noise are manifest in the reconstructed IBM-qubit dephasing spectra, once SPAM-error effects are compensated for. Our work provides a timely tool for benchmarking realistic sources of noise in qubit devices.
翻訳日:2024-02-20 14:54:32 公開日:2024-02-19
# 物理形ニューラルネットワークを用いた非線形離散時間オブザーバ

Nonlinear Discrete-Time Observers with Physics-Informed Neural Networks ( http://arxiv.org/abs/2402.12360v1 )

ライセンス: Link先を確認
Hector Vargas Alvarez, Gianluca Fabiani, Ioannis G. Kevrekidis, Nikolaos Kazantzis, Constantinos Siettos(参考訳) 我々は、離散時間非線形オブザーバ状態推定問題を解くために物理情報ニューラルネットワーク(PINN)を用いる。 単段階の正確な観測線形化フレームワークに組み込まれたPINN手法は、不均一関数方程式のシステムを解くことによって非線形状態変換マップの学習を目的とする。 提案手法の性能評価は,観測線形化変換マップを解析的に導出可能な2つの図式ケーススタディを用いて行う。 また,提案したPINN方式に対して不確実な定量化分析を行い,電力系列解の計算に依存する従来の電力系列数値実装と比較する。

We use Physics-Informed Neural Networks (PINNs) to solve the discrete-time nonlinear observer state estimation problem. Integrated within a single-step exact observer linearization framework, the proposed PINN approach aims at learning a nonlinear state transformation map by solving a system of inhomogeneous functional equations. The performance of the proposed PINN approach is assessed via two illustrative case studies for which the observer linearizing transformation map can be derived analytically. We also perform an uncertainty quantification analysis for the proposed PINN scheme and we compare it with conventional power-series numerical implementations, which rely on the computation of a power series solution.
翻訳日:2024-02-20 14:54:05 公開日:2024-02-19
# エルミートゲートを用いた量子コンピューティング

Quantum Computing with Hermitian Gates ( http://arxiv.org/abs/2402.12356v1 )

ライセンス: Link先を確認
Ben Zindorf and Sougato Bose(参考訳) 量子計算のための普遍ゲート集合は、単一および2つのキュービット演算がアクセス可能であるとき、エルミートゲートと非エルミートゲートの両方を含む。 ここで、任意の単量子作用素は2つのエルミートゲートとして実装できるので、純粋なエルミート普遍集合が可能となる。 実装上の便利さは、非正則単量子エルミートゲートが大域位相までのπ回転に等しいことである。 CNOTゲートとともに2つの固定軸のπ回転からなるゲート集合が量子計算に普遍的であることを示す。 さらに、2つの pi 回転が任意の多元制御ユニタリの軸を変換できることを示し、特別な場合は任意の制御された pi 回転に対して 1 つの cnot sufficing であることを示した。 これらのゲートはエルミートの性質の観点から回路コンパイルのプロセスを単純化する。 さらに、2つのターゲット量子ビット上の任意の演算子を持つ制御U(4)ゲートの効率的な回路の設計にもこの知見が用いられる。

Universal gate sets for quantum computation, when single and two qubit operations are accessible, include both Hermitian and non-Hermitian gates. Here we show that any single-qubit operator may be implemented as two Hermitian gates, and thus a purely Hermitian universal set is possible. An implementational convenience can be that non-identity single-qubit Hermitian gates are equivalent to pi rotations up to a global phase. We show that a gate set comprised of pi rotations about two fixed axes, along with the CNOT gate, is universal for quantum computation. Moreover, we show that two pi rotations can transform the axis of any multi-controlled unitary, a special case being a single CNOT sufficing for any controlled pi rotation. These gates simplify the process of circuit compilation in view of their Hermitian nature. Further, the insights are used to design an efficient circuit for a controlled-U(4) gate with any arbitrary operator on two target qubits.
翻訳日:2024-02-20 14:53:52 公開日:2024-02-19