このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230608となっている論文です。

PDF登録状況(公開日: 20230608)

TitleAuthorsAbstract論文公表日・翻訳日
# WELL: 弱監視学習によるバグ検出をバグローカライゼーションに適用

WELL: Applying Bug Detectors to Bug Localization via Weakly Supervised Learning ( http://arxiv.org/abs/2305.17384v2 )

ライセンス: Link先を確認
Zhuo Li, Huangzhao Zhang, Zhi Jin, Ge Li(参考訳) バグローカライゼーション(バグローカライゼーション)は、プログラマがソースコード中のバグの位置を特定するのに役立つもので、ソフトウェア開発において必須のタスクである。 研究者はすでに、強力なディープラーニング(DL)技術を活用して自動化している。 しかしながら、バグローカライズモデルのトレーニングは通常、バグの正確な位置をラベル付けする大量のデータを必要とするため、収集が難しく、時間がかかるため、困難である。 対照的に、ソースコードにバグがあるかどうかのバイナリラベルでバグ検出データを取得するのは、ずっと簡単です。 本稿では,バグ検出データとバイナリラベルのみを用いて,バグローカライゼーションモデルをトレーニングするWEakly supervised bug LocaLization (WELL)法を提案する。 CodeBERTはバギーまたはノーのバイナリラベル付きデータに基づいて微調整されるため、WELLはバグのローカライゼーションを弱い管理方法で解決することができる。 3つのメソッドレベルの合成データセットと1つのファイルレベルの実世界のデータセットに対する評価は、変数誤用や他のプログラミングバグなどの典型的なバグローカライゼーションタスクにおいて、WELLが既存のSOTAモデルよりもはるかに優れていることを示している。

Bug localization, which is used to help programmers identify the location of bugs in source code, is an essential task in software development. Researchers have already made efforts to harness the powerful deep learning (DL) techniques to automate it. However, training bug localization model is usually challenging because it requires a large quantity of data labeled with the bug's exact location, which is difficult and time-consuming to collect. By contrast, obtaining bug detection data with binary labels of whether there is a bug in the source code is much simpler. This paper proposes a WEakly supervised bug LocaLization (WELL) method, which only uses the bug detection data with binary labels to train a bug localization model. With CodeBERT finetuned on the buggy-or-not binary labeled data, WELL can address bug localization in a weakly supervised manner. The evaluations on three method-level synthetic datasets and one file-level real-world dataset show that WELL is significantly better than the existing SOTA model in typical bug localization tasks such as variable misuse and other programming bugs.
翻訳日:2023-10-24 05:15:59 公開日:2023-06-08
# 形成的評価ツールとして使われる自動プログラミング評価システムの成功モデルに向けて

Towards a Success Model for Automated Programming Assessment Systems Used as a Formative Assessment Tool ( http://arxiv.org/abs/2306.04958v1 )

ライセンス: Link先を確認
Clemens Sauerwein, Tobias Antensteiner, Stefan Oppl, Iris Groher, Alexander Meschtscherjakov, Philipp Zech and Ruth Breu(参考訳) 大学教育におけるソースコードの評価は、プログラミングコースの講師にとって中心的かつ重要な課題である。 その過程で、教育者たちは、ますます多様な前提条件、教師の不足、そして高度にダイナミックな学習目標を持つ学生の増加に直面している。 これらの課題に対処するために、タイムリーで客観的なフィードバックを提供することで、形式的アセスメントを容易にする自動プログラミングアセスメントシステム(APAS)の使用が有望なソリューションである。 これらのプラットフォームの有効性と成功を測定することは、そのようなプラットフォームをどのように設計、実装、使用すべきかを理解するために重要です。 しかし、研究と実践はAPASの成功に影響を及ぼす側面の共通理解を欠いている。 これらの課題に対処するため,情報システムからの確立したモデルに基づくAPASの成功モデルとブレンドラーニング研究を考案し,同じAPASを用いた414人の学生を対象にオンライン調査を行った。 さらに,技術,システム,自己関連要因間の仲介者の役割と,apassに対するユーザの満足度について検討した。 最終的には,apasのユーザ満足度に影響を与える7つの構成要素からなる成功モデルを構築した。

The assessment of source code in university education is a central and important task for lecturers of programming courses. In doing so, educators are confronted with growing numbers of students having increasingly diverse prerequisites, a shortage of tutors, and highly dynamic learning objectives. To support lecturers in meeting these challenges, the use of automated programming assessment systems (APASs), facilitating formative assessments by providing timely, objective feedback, is a promising solution. Measuring the effectiveness and success of these platforms is crucial to understanding how such platforms should be designed, implemented, and used. However, research and practice lack a common understanding of aspects influencing the success of APASs. To address these issues, we have devised a success model for APASs based on established models from information systems as well as blended learning research and conducted an online survey with 414 students using the same APAS. In addition, we examined the role of mediators intervening between technology-, system- or self-related factors, respectively, and the users' satisfaction with APASs. Ultimately, our research has yielded a model of success comprising seven constructs influencing user satisfaction with an APAS.
翻訳日:2023-10-24 04:16:24 公開日:2023-06-08
# X-COBOL:COBOLリポジトリのデータセット

X-COBOL: A Dataset of COBOL Repositories ( http://arxiv.org/abs/2306.04892v1 )

ライセンス: Link先を確認
Mir Sameed Ali, Nikhil Manjunath, Sridhar Chimalakonda(参考訳) 既に1959年に提案されたにもかかわらず、cobol(common business-oriented language)は、金融、銀行、政府などの組織の運営のほとんどを担っている。 COBOLで書かれたレガシーシステムの必然的な近代化とメンテナンスをサポートするためには、組織、研究者、開発者がCOBOLプログラムの性質とソースコードを理解することが不可欠である。 しかしながら、私たちの知る限りでは、COBOLソフトウェアプロジェクトに関するデータを提供し、データセットの必要性を動機付けているデータセットを知らないのです。 そこで、オープンソースリポジトリにおけるCOBOLの理解に関する実証的研究を支援するために、GitHubから発掘された84のCOBOLリポジトリのデータセットを構築しました。 研究者は、私たちのデータセットを使ってCOBOLプロジェクトの進化、コードプロパティ、開発を支援するツールを研究できると考えています。 私たちのデータセットは、マイニングされたリポジトリ内に存在する1255のCOBOLファイルも提供しています。 データセットとアーティファクトはhttps://doi.org/10.5281/zenodo.7968845で入手できる。

Despite being proposed as early as 1959, COBOL (Common Business-Oriented Language) still predominantly acts as an integral part of the majority of operations of several financial, banking, and governmental organizations. To support the inevitable modernization and maintenance of legacy systems written in COBOL, it is essential for organizations, researchers, and developers to understand the nature and source code of COBOL programs. However, to the best of our knowledge, we are unaware of any dataset that provides data on COBOL software projects, motivating the need for the dataset. Thus, to aid empirical research on comprehending COBOL in open-source repositories, we constructed a dataset of 84 COBOL repositories mined from GitHub, containing rich metadata on the development cycle of the projects. We envision that researchers can utilize our dataset to study COBOL projects' evolution, code properties and develop tools to support their development. Our dataset also provides 1255 COBOL files present inside the mined repositories. The dataset and artifacts are available at https://doi.org/10.5281/zenodo.7968845.
翻訳日:2023-10-24 04:16:05 公開日:2023-06-08
# HornFuzz: ファジィCHCソルバ

HornFuzz: Fuzzing CHC solvers ( http://arxiv.org/abs/2306.04281v2 )

ライセンス: Link先を確認
Anzhela Sukhanova, Valentyn Sobol(参考訳) 多くの高度なプログラム解析と検証手法は、制約付きホーンクロース(CHC)の解法に基づいている。 chcソルバのテストは、その作業の正確性が解析されたプログラムのバグが検出されるか見逃されるかを決定するため、非常に重要である。 ソフトウェア自動テストの確立された効率的な方法の1つはファジングであり、ランダムな入力データに対するプログラムの反応を分析することである。 現在、CHCソルバのファズーは存在せず、SMTソルバのファズーはCHC特異性を考慮していないため、CHCソルバのテストでは効率が良くない。 本稿では,変成テストの考え方に基づいて,CHCソルバのバグを検出する変異ベースのグレーボックスファジリング技術であるHhornFuzzを提案する。 ファジッカーを高性能なCHCソルバの一つであるスペーサーで評価し、スペーサーでいくつかのバグを発見した。 特に、発見された問題のいくつかは非常に深刻であるため、解決法に大きな変更を加える修正が必要となる。

Many advanced program analysis and verification methods are based on solving systems of Constrained Horn Clauses (CHC). Testing CHC solvers is very important, as correctness of their work determines whether bugs in the analyzed programs are detected or missed. One of the well-established and efficient methods of automated software testing is fuzzing: analyzing the reactions of programs to random input data. Currently, there are no fuzzers for CHC solvers, and fuzzers for SMT solvers are not efficient in CHC solver testing, since they do not consider CHC specifics. In this paper, we present HornFuzz, a mutation-based gray-box fuzzing technique for detecting bugs in CHC solvers based on the idea of metamorphic testing. We evaluated our fuzzer on one of the highest performing CHC solvers, Spacer, and found a handful of bugs in Spacer. In particular, some discovered problems are so serious that they require fixes with significant changes to the solver.
翻訳日:2023-10-24 04:15:11 公開日:2023-06-08
# オープンソースソフトウェア運動におけるイデオロギーの実証理論に向けて

Towards An Empirical Theory of Ideologies in the Open Source Software Movement ( http://arxiv.org/abs/2306.05548v1 )

ライセンス: Link先を確認
Yang Yue, Yi Wang, and David Redmiles(参考訳) 多様な開発者、非技術ユーザ、組織、その他多くの利害関係者を含むオープンソースソフトウェア(oss)の開発は、最初の製品開発目標から幅広い社会運動へと拡大してきた。 思想体系としてのイデオロギーは、あらゆる社会運動に価値のコミットメントと規範的含意を提供するものであり、OSSイデオロギーはオープンソース運動のイデオロギーでもある。 しかし、オープンソースのイデオロギーに関する文献は、しばしば脆弱であり、経験的な証拠に欠ける。 本稿では,オープンソースソフトウェア運動におけるイデオロギーの包括的実証理論の開発を試みた。 提案手法は,オープンソースイニシアチブ(OSI)の公開スピーチの22件の半構造化インタビューと41件のビデオ録画から得られたデータを収集し,分析した。 OSSイデオロギーの実証的理論が我々の分析に現れ、メンバーシップ、ノルム/バリュー、ゴール、アクティビティ、リソース、位置/グループ関係の6つの主要なカテゴリがあり、それぞれは多くのテーマとサブテーマで構成されています。 我々は,その理論的意義に基づいて,慎重に選択されたテーマとサブテーマのサブセットを詳細に論じた。 このイデオロギーレンズを用いて,オープンソース開発の意義と洞察を調査し,将来的な社会的文化構築としてのオープンソース研究に光を当てた。

Encompassing a diverse population of developers, non-technical users, organizations, and many other stakeholders, open source software (OSS) development has expanded to broader social movements from the initial product development aims. Ideology, as a coherent system of ideas, offers value commitments and normative implications for any social movement, so does OSS ideology for the open source movement. However, the literature on open source ideology is often fragile, or lacking in empirical evidence. In this paper, we sought to develop a comprehensive empirical theory of ideologies in open source software movement. Following a grounded theory procedure, we collected and analyzed data from 22 semi-structured interviews and 41 video recordings of Open Source Initiative (OSI) board members' public speeches. An empirical theory of OSS ideology emerged in our analysis, with six key categories: membership, norms/values, goals, activities, resources, and positions/group relations; each consists of a number of themes and subthemes. We discussed a subset of carefully selected themes and subthemes in detail based on their theoretical significance. With this ideological lens, we examined the implications and insights into open source development, and shed light on the research into open source as a social-cultural construction in the future.
翻訳日:2023-10-24 04:03:57 公開日:2023-06-08
# 妥当性構築のための脅威報告の改善

Improving the Reporting of Threats to Construct Validity ( http://arxiv.org/abs/2306.05336v1 )

ライセンス: Link先を確認
Dag I.K. Sj{\o}berg and Gunnar R. Bergersen(参考訳) 背景: 構成妥当性は、直接測定できない概念を測定するための指標の使用に関するものである。 目的: 本研究は,実証的ソフトウェア工学文献における妥当性構築のための脅威に関する議論を識別し,分類し,評価し,定量化することを目的としている。 方法: 2015年から2019年までの5つのトップレベルのソフトウェアエンジニアリングジャーナルで発表された人間中心の実験を報告する83の論文を分析した。 有効性を構成する脅威に関する記事のテキストは、予め定義されたカテゴリに基づいてセグメント(分析単位)に分割された。 セグメントは、脅威と構造を明確に議論するかどうかについて評価された。 結果: セグメントの5分の3は, 構成妥当性に関係のない話題と関連づけられた。 記事の3分の2は、記事に記載された構成妥当性の定義を使わずに、構成妥当性について論じている。 脅威はセグメントの4分の4以上で明確に説明されていたが、問題となる構造はセグメントの3分の2で明確に説明されていた。 コンストラクトは、議論がコンストラクトの妥当性ではなく、他のタイプの妥当性に関連していたかは定かではなかった。 結論: ソフトウェア工学における構成妥当性の理解を改善する可能性を示す。 CVの認識と報告を改善するために、識別された弱点に対処する勧告が与えられる。

Background: Construct validity concerns the use of indicators to measure a concept that is not directly measurable. Aim: This study intends to identify, categorize, assess and quantify discussions of threats to construct validity in empirical software engineering literature and use the findings to suggest ways to improve the reporting of construct validity issues. Method: We analyzed 83 articles that report human-centric experiments published in five top-tier software engineering journals from 2015 to 2019. The articles' text concerning threats to construct validity was divided into segments (the unit of analysis) based on predefined categories. The segments were then evaluated regarding whether they clearly discussed a threat and a construct. Results: Three-fifths of the segments were associated with topics not related to construct validity. Two-thirds of the articles discussed construct validity without using the definition of construct validity given in the article. The threats were clearly described in more than four-fifths of the segments, but the construct in question was clearly described in only two-thirds of the segments. The construct was unclear when the discussion was not related to construct validity but to other types of validity. Conclusions: The results show potential for improving the understanding of construct validity in software engineering. Recommendations addressing the identified weaknesses are given to improve the awareness and reporting of CV.
翻訳日:2023-10-24 04:03:10 公開日:2023-06-08
# SmartBugs 2.0:Ethereumスマートコントラクトの弱さ検出のための実行フレームワーク

SmartBugs 2.0: An Execution Framework for Weakness Detection in Ethereum Smart Contracts ( http://arxiv.org/abs/2306.05057v1 )

ライセンス: Link先を確認
Monika di Angelo, Thomas Durieux, Jo\~ao F. Ferreira, Gernot Salzer(参考訳) スマートコントラクトは、しばしば価値ある資産を扱うブロックチェーンプログラムである。 セキュアなスマートコントラクトを書くのは簡単ではありません。 脆弱性の特定と排除を支援するため、自動分析のためのメソッドとツールが提案されている。 しかし、一般的に受け入れられているベンチマークスイートとパフォーマンスメトリクスが欠如しているため、これらのツールの比較と評価が困難である。 さらに、ツールはインターフェースやレポート、ランタイム要件で異質であり、いくつかのツールのインストールには時間がかかる。 本稿では,モジュール型実行フレームワークであるSmartBugs 2.0を紹介する。 スマートコントラクト分析を目的とした19のツールに統一インターフェースを提供し、SolidityソースコードとEVMバイトコードの両方を入力として受け入れる。 そのアーキテクチャを説明した後、フレームワークの特徴を強調する。 我々は,このフレームワークをコミュニティの受け取りを通じて評価し,その拡張性について325万件の分析を含む研究における役割を説明する。

Smart contracts are blockchain programs that often handle valuable assets. Writing secure smart contracts is far from trivial, and any vulnerability may lead to significant financial losses. To support developers in identifying and eliminating vulnerabilities, methods and tools for the automated analysis have been proposed. However, the lack of commonly accepted benchmark suites and performance metrics makes it difficult to compare and evaluate such tools. Moreover, the tools are heterogeneous in their interfaces and reports as well as their runtime requirements, and installing several tools is time-consuming. In this paper, we present SmartBugs 2.0, a modular execution framework. It provides a uniform interface to 19 tools aimed at smart contract analysis and accepts both Solidity source code and EVM bytecode as input. After describing its architecture, we highlight the features of the framework. We evaluate the framework via its reception by the community and illustrate its scalability by describing its role in a study involving 3.25 million analyses.
翻訳日:2023-10-24 04:02:35 公開日:2023-06-08
# 深層マルチタスク学習による時系列モーメントポートフォリオの構築

Constructing Time-Series Momentum Portfolios with Deep Multi-Task Learning ( http://arxiv.org/abs/2306.13661v1 )

ライセンス: Link先を確認
Joel Ong, Dorien Herremans(参考訳) 多様なリスク調整時系列モメンタム(tsmom)ポートフォリオは、異常なリターンをもたらし、極端な市場イベントの間、ある程度のテールリスク保護を提供することができる。 しかし、既存のTSMOM戦略の性能は、運動量信号の品質だけでなく、ボラティリティ推定器の有効性にも依存している。 しかし、既存の研究の多くは、これらの2つの要因が独立であると考えている。 MTL(Multi-Task Learning)の最近の進歩に触発された我々は、ポートフォリオ構築とボラティリティに関連する様々な補助的タスクを共同で学習するディープニューラルネットワークアーキテクチャにおいて、MTLを用いた新しいアプローチを提案する。 2000年1月から2020年12月までのバックテストを通じて、最大3ポイントの取引コストを考慮に入れたとしても、既存のTSMOM戦略よりも優れていることを示す。 さらに、補助的なタスクを追加することでポートフォリオのパフォーマンスが向上することが実験で確認されている。 これらの結果は、MTLが金融の強力なツールであることを示している。

A diversified risk-adjusted time-series momentum (TSMOM) portfolio can deliver substantial abnormal returns and offer some degree of tail risk protection during extreme market events. The performance of existing TSMOM strategies, however, relies not only on the quality of the momentum signal but also on the efficacy of the volatility estimator. Yet many of the existing studies have always considered these two factors to be independent. Inspired by recent progress in Multi-Task Learning (MTL), we present a new approach using MTL in a deep neural network architecture that jointly learns portfolio construction and various auxiliary tasks related to volatility, such as forecasting realized volatility as measured by different volatility estimators. Through backtesting from January 2000 to December 2020 on a diversified portfolio of continuous futures contracts, we demonstrate that even after accounting for transaction costs of up to 3 basis points, our approach outperforms existing TSMOM strategies. Moreover, experiments confirm that adding auxiliary tasks indeed boosts the portfolio's performance. These findings demonstrate that MTL can be a powerful tool in finance.
翻訳日:2023-07-02 13:45:21 公開日:2023-06-08
# 統計的リレーショナル学習とニューロシンボリックAI:一階述語論理とは何か?

Statistical relational learning and neuro-symbolic AI: what does first-order logic offer? ( http://arxiv.org/abs/2306.13660v1 )

ライセンス: Link先を確認
Vaishak Belle(参考訳) 本稿では、(一階述語)論理を用いて(確率的)知識を非技術的に表現する論理的・哲学的基礎を簡潔に調査・明瞭化することを目的とする。 私たちの動機は3倍です。 まず、なぜ研究コミュニティがリレーショナル表現に関心を持っているのかを知らない機械学習研究者にとって、この記事は穏やかな紹介となる。 第二に、学習領域に新参する論理専門家にとって、そのような記事は有限と無限の差と主観的確率とランダムな世界の意味論をナビゲートするのに役立ちます。 最後に、統計リレーショナル学習とニューロシンボリックAIの研究者は、通常、主観的確率を持つ有限の世界に埋め込まれ、無限のドメインとランダムな世界意味論がテーブルにもたらすものを理解することは、最も理論的インポートである。

In this paper, our aim is to briefly survey and articulate the logical and philosophical foundations of using (first-order) logic to represent (probabilistic) knowledge in a non-technical fashion. Our motivation is three fold. First, for machine learning researchers unaware of why the research community cares about relational representations, this article can serve as a gentle introduction. Second, for logical experts who are newcomers to the learning area, such an article can help in navigating the differences between finite vs infinite, and subjective probabilities vs random-world semantics. Finally, for researchers from statistical relational learning and neuro-symbolic AI, who are usually embedded in finite worlds with subjective probabilities, appreciating what infinite domains and random-world semantics brings to the table is of utmost theoretical import.
翻訳日:2023-07-02 13:45:03 公開日:2023-06-08
# 公正とバイアスの論理理論に向けて

Toward A Logical Theory Of Fairness and Bias ( http://arxiv.org/abs/2306.13659v1 )

ライセンス: Link先を確認
Vaishak Belle(参考訳) 近年、機械学習の公平性は、履歴データに基づいて訓練されたアルゴリズムが、歴史的バイアスを増幅し持続するため、かなりの関心を集めている。 本稿では,フェアネス定義の形式的再構成を議論する。既存の定義を置き換えるのではなく,その応用を認識論的に定め,豊かな環境モデリングを可能にする。 その結果, 公平性, 不認識, 人口格差, 反事実公平性の3つの概念を考察し, 疫学的な状況計算でこれらを定式化する。

Fairness in machine learning is of considerable interest in recent years owing to the propensity of algorithms trained on historical data to amplify and perpetuate historical biases. In this paper, we argue for a formal reconstruction of fairness definitions, not so much to replace existing definitions but to ground their application in an epistemic setting and allow for rich environmental modelling. Consequently we look into three notions: fairness through unawareness, demographic parity and counterfactual fairness, and formalise these in the epistemic situation calculus.
翻訳日:2023-07-02 13:44:45 公開日:2023-06-08
# アモルファス層によるヘテロ界面におけるフォノンの動的挙動

Phonon dynamic behaviors induced by amorphous interlayer at heterointerfaces ( http://arxiv.org/abs/2306.14901v1 )

ライセンス: Link先を確認
Quanjie Wang, Jie Zhang, Vladimir Chernysh, Xiangjun Liu(参考訳) 界面はヘテロ構造内の熱流を阻害し, 界面熱抵抗(ITR)は電子機器の熱散逸にとって重要な問題となっている。 そこで本研究では,非晶質層でgan/aln界面を通過するフォノンの動的挙動をフォノン波パケットシミュレーションを用いて検討する。 アモルファス層は界面のフォノン輸送を著しく阻害し、LA$\rightarrow$TA、TA$\rightarrow$LA、LA$\rightarrow$TO変換などの顕著なフォノンモード変換をもたらす。 しかし, モード変換と非弾性散乱により, カットオフ周波数よりも高い周波数のTAフォノンの一部が, 理想的なシャープ界面を透過できず, アモルファス層を部分的に透過し, 界面を通じて熱伝達路を付加し, 界面熱伝導率に正の影響を及ぼすことがわかった。 フォノン透過係数はアモルファス層間厚lの増加に伴ってitrが増加することを示し、フォノン透過係数はアモルファス層間における多重フォノン散乱に起因する明らかな振動挙動を示し、振動周期は2ビーム干渉方程式による理論的予測とさらに一致することが判明した。 また, アモルファス層中に明らかなフォノン周波数シフトとフォノンエネルギー局在現象が観察された。 最終的に、フォノン伝送を改善するため、界面形態はアニーリング再構成法によりさらに最適化され、その結果、アモルファス層が再結晶し、L=2nmのITRが約21%減少する。

Interface impedes heat flow in heterostructures and the interfacial thermal resistance (ITR) has become a critical issue for thermal dissipation in electronic devices. To explore the mechanism leading to the ITR, in this work, the dynamic behaviors of phonons passing through the GaN/AlN interface with an amorphous interlayer is investigated by using phonon wave packet simulation. It is found the amorphous interlayer significantly impedes phonon transport across the interface, and leads to remarkable phonon mode conversions, such as LA$\rightarrow$TA, TA$\rightarrow$LA, and LA$\rightarrow$TO conversion. However, due to mode conversion and inelastic scattering, we found a portion of high-frequency TA phonons, which are higher than the cut-off frequency and cannot transmit across the ideal sharp interface, can partially transmit across the amorphous interlayer, which introduces additional thermal transport channels through the interface and has positive effect on interfacial thermal conductance. According to phonon transmission coefficient, it is found the ITR increases with increasing of amorphous interlayer thickness L. The phonon transmission coefficient exhibits an obvious oscillation behavior, which is attributed to the multiple phonon scattering in the amorphous interlayer, and the oscillation period is further revealed to be consistent with the theoretical prediction by the two-beam interference equation. In addition, obvious phonon frequency shifts and phonon energy localization phenomena were observed in the amorphous interlayer. Finally, to improve phonon transmission, the interface morphology was further optimized via the annealing reconstruction technique, which results in re-crystallization of the amorphous interlayer and the decrease of ITR by ~21% as L=2 nm.
翻訳日:2023-07-02 13:37:04 公開日:2023-06-08
# 離散ウォークジャンプサンプリングによるタンパク質発見

Protein Discovery with Discrete Walk-Jump Sampling ( http://arxiv.org/abs/2306.12360v1 )

ライセンス: Link先を確認
Nathan C. Frey, Daniel Berenberg, Karina Zadorozhny, Joseph Kleinhenz, Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau, Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi(参考訳) 離散生成モデルにおける学習とサンプリングの難しさは、滑らかなエネルギー関数を学習し、ランジュバン・マルコフ連鎖モンテカルロ(mcmc)で滑らかなデータ多様体からサンプリングし、一段階の分別で真のデータ多様体へ投影することで解決する。 我々の離散ウォーク・ジャンプサンプリング形式は、エネルギーベースモデルの最大限のトレーニングとスコアベースモデルのサンプル品質の改善を組み合わせ、単一ノイズレベルのみを必要とするトレーニングとサンプリングを簡素化する。 抗体タンパク質生成モデルにおける本手法のロバスト性を評価し,タンパク質生成モデルに分布整合性スコアを導入する。 提案した分布適合度スコアをモデルから最適化・サンプリングすることにより, 97-100%のサンプルを正常に表現し精製し, 35%の官能基設計は, 実験1回実験において, 既知の官能基抗体と同等あるいは改善された結合親和性を示す。 また,MCMC鎖に多種多様な抗体タンパク群が出現する長周期高速混合MCMCMC鎖の最初の実演も報告した。

We resolve difficulties in training and sampling from a discrete generative model by learning a smoothed energy function, sampling from the smoothed data manifold with Langevin Markov chain Monte Carlo (MCMC), and projecting back to the true data manifold with one-step denoising. Our Discrete Walk-Jump Sampling formalism combines the maximum likelihood training of an energy-based model and improved sample quality of a score-based model, while simplifying training and sampling by requiring only a single noise level. We evaluate the robustness of our approach on generative modeling of antibody proteins and introduce the distributional conformity score to benchmark protein generative models. By optimizing and sampling from our models for the proposed distributional conformity score, 97-100% of generated samples are successfully expressed and purified and 35% of functional designs show equal or improved binding affinity compared to known functional antibodies on the first attempt in a single round of laboratory experiments. We also report the first demonstration of long-run fast-mixing MCMC chains where diverse antibody protein classes are visited in a single MCMC chain.
翻訳日:2023-06-26 01:09:19 公開日:2023-06-08
# 音声理解のための音声対テキストアダプタ及び音声対エンティティ検索器拡張llm

Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding ( http://arxiv.org/abs/2306.07944v1 )

ライセンス: Link先を確認
Mingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey(参考訳) 大規模言語モデル(llm)は音声領域に適用され、しばしば言語表現と言語表現のミスアライメントによってパフォーマンスが低下する。 このギャップを埋めるために,音声を音声情報を失うことなくテキストトークン埋め込み空間にマッピングするSpeech2Textアダプタを用いた共同音声・言語モデル(SLM)を提案する。 さらに,CTCに基づくブランクフィルタを用いることで,音声列長をテキスト長に短縮することができる。 音声MultiWozデータセット(DSTC11チャレンジ)では、SLMはダイアログ状態追跡(DST)のパフォーマンスを大幅に改善する(24.7%から28.4%の精度)。 さらに,レアエンティティの誤りに対処するために,音声を用いて関連エンティティを検索するSpeech2Entity検索器を用いてSLMを拡張し,それらをプレフィックスとして元のSLM入力に追加する。 この検索強化SLM(ReSLM)により、DST性能は34.6%に向上した。 さらに、対話理解タスクによるASRタスクの強化により、ASRのパフォーマンスは9.4%から8.5%に向上する。

Large Language Models (LLMs) have been applied in the speech domain, often incurring a performance drop due to misaligned between speech and language representations. To bridge this gap, we propose a joint speech and language model (SLM) using a Speech2Text adapter, which maps speech into text token embedding space without speech information loss. Additionally, using a CTC-based blank-filtering, we can reduce the speech sequence length to that of text. In speech MultiWoz dataset (DSTC11 challenge), SLM largely improves the dialog state tracking (DST) performance (24.7% to 28.4% accuracy). Further to address errors on rare entities, we augment SLM with a Speech2Entity retriever, which uses speech to retrieve relevant entities, and then adds them to the original SLM input as a prefix. With this retrieval-augmented SLM (ReSLM), the DST performance jumps to 34.6% accuracy. Moreover, augmenting the ASR task with the dialog understanding task improves the ASR performance from 9.4% to 8.5% WER.
翻訳日:2023-06-18 12:32:27 公開日:2023-06-08
# 大規模言語モデルの経済的トレードオフ--事例研究

The economic trade-offs of large language models: A case study ( http://arxiv.org/abs/2306.07402v1 )

ライセンス: Link先を確認
Kristen Howell, Gwen Christian, Pavel Fomitchov, Gitit Kehat, Julianne Marzulla, Leanne Rolston, Jadin Tredup, Ilana Zimmerman, Ethan Selfridge, and Joseph Bradley(参考訳) チャットによるカスタマサービスとの接触は一般的なプラクティスです。 顧客サービスエージェントの採用は費用がかかるため、多くの企業は、直接あるいは修正で使用できる自動生成応答によって、人間エージェントを支援するnlpに目を向けている。 大規模言語モデル(LLM)は、このユースケースに自然に適合するが、それらの有効性は、訓練と提供のコストとバランスをとらなければならない。 本稿では,企業におけるLCMの実用的コストと効果を,それらが生み出す応答の有用性の関数として評価する。 本稿では,NLPモデルの実用性を評価するためのコストフレームワークを提案し,既存のエージェント支援製品のコンテキストにおけるケーススタディとして1つのブランドに適用する。 LLMを専門とする3つの戦略 – 迅速なエンジニアリング,微調整,知識蒸留 – を,ブランドのカスタマーサービスエージェントからのフィードバックを使って比較する。 モデル応答のユーザビリティは,ケーススタディブランドの推論コストの大きな違いを補うことが可能であることが分かり,その結果をより広範なエンタープライズ領域に展開する。

Contacting customer service via chat is a common practice. Because employing customer service agents is expensive, many companies are turning to NLP that assists human agents by auto-generating responses that can be used directly or with modifications. Large Language Models (LLMs) are a natural fit for this use case; however, their efficacy must be balanced with the cost of training and serving them. This paper assesses the practical cost and impact of LLMs for the enterprise as a function of the usefulness of the responses that they generate. We present a cost framework for evaluating an NLP model's utility for this use case and apply it to a single brand as a case study in the context of an existing agent assistance product. We compare three strategies for specializing an LLM - prompt engineering, fine-tuning, and knowledge distillation - using feedback from the brand's customer service agents. We find that the usability of a model's responses can make up for a large difference in inference cost for our case study brand, and we extrapolate our findings to the broader enterprise space.
翻訳日:2023-06-18 12:31:20 公開日:2023-06-08
# 生成型人工知能とインターネットの相互作用理解に向けて

Towards Understanding the Interplay of Generative Artificial Intelligence and the Internet ( http://arxiv.org/abs/2306.06130v1 )

ライセンス: Link先を確認
Gonzalo Mart\'inez, Lauren Watson, Pedro Reviriego, Jos\'e Alberto Hern\'andez, Marc Juarez, Rik Sarkar(参考訳) DALL-E、MidJourney、ChatGPTといった、現実的な画像やテキストを生成する生成人工知能(AI)ツールの急速な採用は、これらの技術の社会的影響を公開討論の中心に置いている。 これらのツールは、インターネットを通じて公開されている大量のデータ(テキストと画像)によって可能となる。 同時に、これらの生成AIツールは、将来モデルのトレーニングに利用可能なデータにすでに貢献しているコンテンツクリエーターになる。 そのため、生成AIツールの将来のバージョンは、人によって作成されたコンテンツとAI生成されたコンテンツの混合でトレーニングされる。 生成型AIツールの将来のバージョンは、実データとAI生成データを混合してトレーニングした場合、どのように振る舞うのか? 新しいデータセットで進化し、改善するのか、それともその逆で劣化するのか? 進化は、世代別AIツールのバイアスをもたらすか、多様性を減らすのか? これらのモデルの劣化の社会的意味は何か。 このフィードバックループの効果を軽減できますか? 本稿では,この相互作用の効果を考察し,各種画像データセットを用いた簡易拡散モデルを用いて初期結果を報告する。 以上の結果から,生成画像の品質と多様性は時間とともに劣化し,aiが生成するデータが将来の生成モデルに望ましくない影響をもたらす可能性が示唆された。

The rapid adoption of generative Artificial Intelligence (AI) tools that can generate realistic images or text, such as DALL-E, MidJourney, or ChatGPT, have put the societal impacts of these technologies at the center of public debate. These tools are possible due to the massive amount of data (text and images) that is publicly available through the Internet. At the same time, these generative AI tools become content creators that are already contributing to the data that is available to train future models. Therefore, future versions of generative AI tools will be trained with a mix of human-created and AI-generated content, causing a potential feedback loop between generative AI and public data repositories. This interaction raises many questions: how will future versions of generative AI tools behave when trained on a mixture of real and AI generated data? Will they evolve and improve with the new data sets or on the contrary will they degrade? Will evolution introduce biases or reduce diversity in subsequent generations of generative AI tools? What are the societal implications of the possible degradation of these models? Can we mitigate the effects of this feedback loop? In this document, we explore the effect of this interaction and report some initial results using simple diffusion models trained with various image datasets. Our results show that the quality and diversity of the generated images can degrade over time suggesting that incorporating AI-created data can have undesired effects on future versions of generative models.
翻訳日:2023-06-13 21:11:56 公開日:2023-06-08
# PPGを用いた心拍数推定のためのML推論のエネルギー効率向上

Energy-efficient Wearable-to-Mobile Offload of ML Inference for PPG-based Heart-Rate Estimation ( http://arxiv.org/abs/2306.06129v1 )

ライセンス: Link先を確認
Alessio Burrello, Matteo Risso, Noemi Tomasello, Yukai Chen, Luca Benini, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) 現代のスマートウォッチには、ppgデータを他の信号と融合する複雑なアルゴリズムによって心拍数や血圧を測定するためのppg(photoplethysmography)センサーがあることが多い。 本研究では,スマートウォッチと接続スマートフォンの両方を用いた協調推論手法を提案し,心拍数(HR)トラッキングの性能を最大化するとともに,スマートウォッチのバッテリー寿命を最大化する。 特に私たちはまず,オンデバイスでhrトラッキングを実行するか,モバイルに作業をオフロードするかのトレードオフを分析します。 そして,今後の人事予測の難しさを評価する新たなステップにより,スマートウォッチとスマートフォン間の作業負荷をスマートに管理し,平均絶対誤差(MAE)を低く抑えつつエネルギー消費を低減できることを示した。 我々は、STM32WB55 MCUとBluetooth Low-Energy (BLE)通信を含むカスタムスマートウォッチのプロトタイプと、スマートフォンのプロキシとしてRaspberry Pi3をベンチマークした。 協調心拍数推定システム(CHRIS)を用いて、より少ないエネルギーを消費しながら、ステート・オブ・アート(SoA)アルゴリズムと同じMAEを示すパレート最適構成を得る。 例えば、TimePPG-Small (5.54 BPM MAE vs. 5.60 BPM MAE) のほぼ同じ MAE を達成でき、そのエネルギーを2.03倍に削減できる。 さらに、MAEの7.16BPMの性能劣化を受け入れることで、予測あたり179 uJのエネルギー消費を達成でき、スマートウォッチ上でTimePPG-Smallを実行するよりも3.03倍、全入力データを携帯電話にストリーミングするより1.82倍少ない。

Modern smartwatches often include photoplethysmographic (PPG) sensors to measure heartbeats or blood pressure through complex algorithms that fuse PPG data with other signals. In this work, we propose a collaborative inference approach that uses both a smartwatch and a connected smartphone to maximize the performance of heart rate (HR) tracking while also maximizing the smartwatch's battery life. In particular, we first analyze the trade-offs between running on-device HR tracking or offloading the work to the mobile. Then, thanks to an additional step to evaluate the difficulty of the upcoming HR prediction, we demonstrate that we can smartly manage the workload between smartwatch and smartphone, maintaining a low mean absolute error (MAE) while reducing energy consumption. We benchmark our approach on a custom smartwatch prototype, including the STM32WB55 MCU and Bluetooth Low-Energy (BLE) communication, and a Raspberry Pi3 as a proxy for the smartphone. With our Collaborative Heart Rate Inference System (CHRIS), we obtain a set of Pareto-optimal configurations demonstrating the same MAE as State-of-Art (SoA) algorithms while consuming less energy. For instance, we can achieve approximately the same MAE of TimePPG-Small (5.54 BPM MAE vs. 5.60 BPM MAE) while reducing the energy by 2.03x, with a configuration that offloads 80\% of the predictions to the phone. Furthermore, accepting a performance degradation to 7.16 BPM of MAE, we can achieve an energy consumption of 179 uJ per prediction, 3.03x less than running TimePPG-Small on the smartwatch, and 1.82x less than streaming all the input data to the phone.
翻訳日:2023-06-13 21:11:33 公開日:2023-06-08
# 窓付きオクトニオン線形正準変換の枠組み

A framework of windowed octonion linear canonical transform ( http://arxiv.org/abs/2306.06127v1 )

ライセンス: Link先を確認
Manish Kumar and Bhawna(参考訳) 不確実性原理は、量子力学や古典力学のような理論物理学の基本原理である。 信号処理において、例えば調和解析では時間領域と周波数領域の両方、量子力学では時間と運動量の両方で、信号は両方の領域で同時に解析される。 一方、多くの数学者、物理学者、その他の関連分野の研究者は近年のオクタニオン関連積分変換により注意を払っている。 本稿では,倒立,線形性,パリティ,シフト,OCLCTとWOCLCTの関係など,窓付きオクトニオン線形正準変換(WOCLCT)の重要な特性について述べる。 さらに, 3次元WOCLCTでは, 鋭いピットと鋭いヤングハウスドルフの不等式を導出した。 3次元WOCLCTの対数不確実性原理を得る。 さらに、ハイゼンベルクとドノホ・スタークの不確実性原理をWOCLCTに導出し、WOCLCTの潜在的な応用についても論じる。

The uncertainty principle is a fundamental principle in theoretical physics, such as quantum mechanics and classical mechanics. It plays a prime role in signal processing, including optics, where a signal is to be analyzed simultaneously in both domains; for instance, in harmonic analysis, both time and frequency domains, and in quantum mechanics, both time and momentum. On the other hand, many mathematicians, physicists, and other related domain researchers have paid more attention to the octonion-related integral transforms in recent years. In this paper, we define important properties of the windowed octonion linear canonical transform (WOCLCT), such as inversion, linearity, parity, shifting, and the relationship between OCLCT and WOCLCT. Further, we derived sharp Pitt's and sharp Young-Hausdorff inequalities for 3D WOCLCT. We obtain the logarithmic uncertainty principle for the 3D WOCLCT. Furthermore, Heisenberg's and Donoho-Stark's uncertainty principles are derived for WOCLCT, and the potential applications of WOCLCT are also discussed.
翻訳日:2023-06-13 21:11:03 公開日:2023-06-08
# 物体追跡・速度推定・センサデータの時間的予測のための深層学習法

Deep Learning Method for Object Tracking, Velocity Estimation and Projection of Sensor Data over Time ( http://arxiv.org/abs/2306.06126v1 )

ライセンス: Link先を確認
Marco Braun, Moritz Luszek, Mirko Meuter, Dominic Spata, Kevin Kollek and Anton Kummert(参考訳) 環境セグメンテーションと速度推定のための最近のディープラーニング手法は、得られたセンサデータ内の時空間関係を利用する畳み込みリカレントニューラルネットワークに依存している。 これらのアプローチは、ConvNetsを利用した新しい入力と記憶データの関連付けにより、シーンダイナミクスを暗黙的に導き出す。 我々は、convnetがこのタスクのアーキテクチャ上の制約に苦しむ様子を示す。 そこで本研究では,トランスフォーマー機構を応用した新しいリカレントニューラルネットワークユニットを提示することにより,センサ記録の時系列における時空間相関の活用に関する様々な課題を解決する。 このユニット内のオブジェクトエンコーディングは、それぞれセンサ入力とメモリ状態から派生したキー-クエリペアを関連付け、連続したフレーム間で追跡される。 次に、結果の追跡パターンを使用して、シーンダイナミクスと回帰速度を得る。 最後のステップでは、抽出された速度推定に基づいてリカレントニューラルネットワークのメモリ状態を投影し、上記の時空間的不一致を解決する。

Current Deep Learning methods for environment segmentation and velocity estimation rely on Convolutional Recurrent Neural Networks to exploit spatio-temporal relationships within obtained sensor data. These approaches derive scene dynamics implicitly by correlating novel input and memorized data utilizing ConvNets. We show how ConvNets suffer from architectural restrictions for this task. Based on these findings, we then provide solutions to various issues on exploiting spatio-temporal correlations in a sequence of sensor recordings by presenting a novel Recurrent Neural Network unit utilizing Transformer mechanisms. Within this unit, object encodings are tracked across consecutive frames by correlating key-query pairs derived from sensor inputs and memory states, respectively. We then use resulting tracking patterns to obtain scene dynamics and regress velocities. In a last step, the memory state of the Recurrent Neural Network is projected based on extracted velocity estimates to resolve aforementioned spatio-temporal misalignment.
翻訳日:2023-06-13 21:10:46 公開日:2023-06-08
# マスキングトークントランスフォーマによる大規模mimoシステムにおけるジョイントチャネル推定とフィードバック

Joint Channel Estimation and Feedback with Masked Token Transformers in Massive MIMO Systems ( http://arxiv.org/abs/2306.06125v1 )

ライセンス: Link先を確認
Mingming Zhao, Lin Liu, Lifu Liu, Qi Tian(参考訳) 基地局がダウンリンクチャネルステータス情報(CSI)を有する場合、周波数分割二重モード(FDD)における大規模多重入力多重出力(MIMO)の巨大なポテンシャルをフル活用することができる。 本稿では,大規模MIMOシステムにおけるチャネル推定とフィードバックを実現するための,ディープラーニングに基づく共同チャネル推定とフィードバックフレームワークを提案する。 具体的には、エンドツーエンドの手法ではなく、従来のチャネル設計を使用します。 私たちのモデルは2つのネットワークを含んでいる。 第1のネットワークはチャネル推定ネットワークであり、二重損失設計を採用し、チャネルノイズを除去しながらチャネル情報を正確に推定することができる。 第2のネットワークは圧縮とフィードバックのネットワークである。 マスクドトークントランスに着想を得て,優れた推定と圧縮性能を得るための学習可能なマスクトークン法を提案する。 シミュレーション結果とアブレーション実験の結果から,本手法は分離作業と統合作業の両方において最先端のチャネル推定とフィードバック法を上回っていることがわかった。

When the base station has downlink channel status information (CSI), the huge potential of large-scale multiple input multiple output (MIMO) in frequency division duplex (FDD) mode can be fully exploited. In this paper, we propose a deep-learning-based joint channel estimation and feedback framework to realize channel estimation and feedback in massive MIMO systems. Specifically, we use traditional channel design rather than end-to-end methods. Our model contains two networks. The first network is a channel estimation network, which adopts a double loss design, and can accurately estimate the full channel information while removing channel noises. The second network is a compression and feedback network. Inspired by the masked token transformer, we propose a learnable mask token method to obtain excellent estimation and compression performance. The extensive simulation results and ablation studies show that our method outperforms state-of-the-art channel estimation and feedback methods in both separate and joint tasks.
翻訳日:2023-06-13 21:10:30 公開日:2023-06-08
# 深部畳み込みオートエンコーダによる電力系統内乱の無監督クラスタリング

Unsupervised clustering of disturbances in power systems via deep convolutional autoencoders ( http://arxiv.org/abs/2306.06124v1 )

ライセンス: Link先を確認
Md Maidul Islam, Md Omar Faruque, Joshua Butterfield, Gaurav Singh, Thomas A. Cooke(参考訳) 電力グリッド上の異常事象を検出すると、電力品質(PQ)イベントはPQメーターによって記録される。 ニューラルネットワークと機械学習は、記録された波形を正確に分類し、電力システムエンジニアが問題の根本原因を診断し修正するのに役立つ。 しかし、電源システムの障害時に捉えた波形の多くは、教師あり学習のためにラベル付けされる必要があり、エンジニアが手動で処理したり、見つからないようにするための大量のデータ記録が残されている。 本稿では,pqイベントをsag,割り込み,過渡,正規,高調波といったカテゴリに分類し,繰り返し波形や正規波形からの異常波形のフィルタリングを可能にするオートエンコーダとk平均クラスタリングに基づく非教師付き手法を提案する。 本手法は配電網に記録された三相電圧波形を用いて実証する。 まず、畳み込みオートエンコーダが入力信号をより低い特徴次元の集合に圧縮し、さらに処理した後、K平均アルゴリズムに渡されてデータクラスタを識別する。 ラベル付き小さなデータセットを使用して、数値ラベルはコサイン類似性分析に基づいてイベントに割り当てられる。 最後に,t-sne(t-distributed stochastic neighbor embedded)可視化ツールを用いてクラスタの解析を行い,その手法が多数のキャプチャイベントを迅速に調査する上で有効であることを示す。

Power quality (PQ) events are recorded by PQ meters whenever anomalous events are detected on the power grid. Using neural networks with machine learning can aid in accurately classifying the recorded waveforms and help power system engineers diagnose and rectify the root causes of problems. However, many of the waveforms captured during a disturbance in the power system need to be labeled for supervised learning, leaving a large number of data recordings for engineers to process manually or go unseen. This paper presents an autoencoder and K-means clustering-based unsupervised technique that can be used to cluster PQ events into categories like sag, interruption, transients, normal, and harmonic distortion to enable filtering of anomalous waveforms from recurring or normal waveforms. The method is demonstrated using three-phase, field-obtained voltage waveforms recorded in a distribution grid. First, a convolutional autoencoder compresses the input signals into a set of lower feature dimensions which, after further processing, is passed to the K-means algorithm to identify data clusters. Using a small, labeled dataset, numerical labels are then assigned to events based on a cosine similarity analysis. Finally, the study analyzes the clusters using the t-distributed stochastic neighbor embedding (t-SNE) visualization tool, demonstrating that the technique can help investigate a large number of captured events in a quick manner.
翻訳日:2023-06-13 21:10:13 公開日:2023-06-08
# 分析用Sマトリックスの物理

Physics of the Analytic S-Matrix ( http://arxiv.org/abs/2306.05395v1 )

ライセンス: Link先を確認
Sebastian Mizera(参考訳) 解析性、シート、枝切り、不連続性など、散乱振幅の様々な数学的性質について聞いたことがあるかもしれません。 どういう意味ですか? これらの講義では、単純な散乱問題を通じて、そのような特性を直接物理に遡ることができるガイド付きツアーを行ないます。 S-行列の異なる解析的特徴が、因果関係、相互作用の局所性、一元的伝播などの結果、いかに異なるかを学ぶ。 これらのノートは、2023年春にプリンストン高等研究所とエディンバラのヒッグス・センター理論物理学学校で行われた一連の講義に基づいている。

You might've heard about various mathematical properties of scattering amplitudes such as analyticity, sheets, branch cuts, discontinuities, etc. What does it all mean? In these lectures, we'll take a guided tour through simple scattering problems that will allow us to directly trace such properties back to physics. We'll learn how different analytic features of the S-matrix are really consequences of causality, locality of interactions, unitary propagation, and so on. These notes are based on a series of lectures given in Spring 2023 at the Institute for Advanced Study in Princeton and the Higgs Centre School of Theoretical Physics in Edinburgh.
翻訳日:2023-06-13 21:08:17 公開日:2023-06-08
# 信頼できる機械学習のための音響説明

Sound Explanation for Trustworthy Machine Learning ( http://arxiv.org/abs/2306.06134v1 )

ライセンス: Link先を確認
Kai Jia, Pasapol Saowakon, Limor Appelbaum, Martin Rinard(参考訳) 我々は,機械学習システムの説明可能性問題に対して形式的アプローチをとる。 我々は、帰属に基づく解釈という本質的に矛盾する目標のために、帰属のスコアを入力成分に当てはめることによってブラックボックスモデルを解釈する実践に反対する。 帰属アルゴリズムは特異性、加法性、完全性、ベースライン不変性を満たすものではない。 次に、先行研究で非公式に採用された概念である音説明を定式化する。 音響説明は、システムによってなされる予測を因果的に説明するための十分な情報を提供する。 最後に, 臨床医の信頼を育むために, 癌予測モデルの音響的説明としての特徴選択の適用について述べる。

We take a formal approach to the explainability problem of machine learning systems. We argue against the practice of interpreting black-box models via attributing scores to input components due to inherently conflicting goals of attribution-based interpretation. We prove that no attribution algorithm satisfies specificity, additivity, completeness, and baseline invariance. We then formalize the concept, sound explanation, that has been informally adopted in prior work. A sound explanation entails providing sufficient information to causally explain the predictions made by a system. Finally, we present the application of feature selection as a sound explanation for cancer prediction models to cultivate trust among clinicians.
翻訳日:2023-06-13 20:58:11 公開日:2023-06-08
# 準周期磁性超格子と境界状態を支える領域壁の設計

Design of quasiperiodic magnetic superlattices and domain walls supporting bound states ( http://arxiv.org/abs/2306.06132v1 )

ライセンス: Link先を確認
Miguel Castillo-Celeita, Alonso Contreras-Astorga, and David J. Fern\'andez C(参考訳) グラフェンにおける最も単純なラミアン磁気超格子の研究を行い、その許容および禁止されたエネルギーバンドとバンドエッジ状態を明確に見出した。 そこで,Darboux変換を用いた準周期磁気超格子の設計を行った。 この手法により、有限個の有界状態を加えることができ、これは設計されたスペクトルにおける1と2の有界状態の最も単純な場合を例示する。 ギャップ状グラフェン中の磁性超格子と磁壁のトピックは、非常に大きな振動周期の極限におけるユニタリ変換によって接続される。 生成する準周期磁気超格子は磁壁と結合しており、境界状態はそれらの性質をそのような極限に保っている。

We study the simplest Lam\'e magnetic superlattice in graphene, finding its allowed and forbidden energy bands and band-edge states explicitly. Then, we design quasiperiodic magnetic superlattices supporting bound states using Darboux transformations. This technique enables us to add any finite number of bound states, which we exemplify with the most straightforward cases of one and two bound states in the designed spectrum. The topics of magnetic superlattices and domain walls in gapped graphene turn out to be connected by a unitary transformation in the limit of significantly large oscillation periods. We show that the generated quasiperiodic magnetic superlattices are also linked to domain walls, with the bound states keeping their nature in such a limit.
翻訳日:2023-06-13 20:58:03 公開日:2023-06-08
# ソースコード検索における自動クエリ変換の体系的レビュー

A Systematic Review of Automated Query Reformulations in Source Code Search ( http://arxiv.org/abs/2108.09646v2 )

ライセンス: Link先を確認
Mohammad Masudur Rahman and Chanchal K. Roy(参考訳) ソフトウェアバグの修正と新機能の追加は、主要なメンテナンスタスクの2つです。 ソフトウェアバグと機能は変更要求として報告される。 開発者はこれらの要求を参考にし、しばしばアドホックなクエリとしていくつかのキーワードを選択します。 その後、検索エンジンでクエリを実行して、変更が必要なソフトウェアコード内の正確な位置を見つける。 残念なことに、経験豊富な開発者でさえ適切なクエリの選択に失敗し、コード検索中にコストのかかる試行とエラーが発生する。 長年にわたり、多くの研究が開発者からのアドホッククエリを再構築してサポートしようと試みてきた。 本体系的文献レビューでは,2,970の候補研究から70の問合せ修正研究を注意深く選択し,詳細な質的分析(例えば,基底的理論)を行い,7つの研究課題に主要な知見を加えて回答する。 まず、現在までに8つの主要な方法論(項重み付け、項共起分析、シソーラスルックアップ)がクエリの再構成に採用されている。 第二に、既存の研究はいくつかの大きな制限(一般化可能性の欠如、語彙ミスマッチ問題、主観バイアスなど)に直面している。 最後に,検索問合せ改革における研究の現状を進めるためのベストプラクティスと今後の機会について考察する。

Fixing software bugs and adding new features are two of the major maintenance tasks. Software bugs and features are reported as change requests. Developers consult these requests and often choose a few keywords from them as an ad hoc query. Then they execute the query with a search engine to find the exact locations within software code that need to be changed. Unfortunately, even experienced developers often fail to choose appropriate queries, which leads to costly trials and errors during a code search. Over the years, many studies attempt to reformulate the ad hoc queries from developers to support them. In this systematic literature review, we carefully select 70 primary studies on query reformulations from 2,970 candidate studies, perform an in-depth qualitative analysis (e.g., Grounded Theory), and then answer seven research questions with major findings. First, to date, eight major methodologies (e.g., term weighting, term co-occurrence analysis, thesaurus lookup) have been adopted to reformulate queries. Second, the existing studies suffer from several major limitations (e.g., lack of generalizability, vocabulary mismatch problem, subjective bias) that might prevent their wide adoption. Finally, we discuss the best practices and future opportunities to advance the state of research in search query reformulations.
翻訳日:2023-06-12 18:51:38 公開日:2023-06-08
# LatentKeypointGAN: Latent KeypointsによるGAN制御

LatentKeypointGAN: Controlling GANs via Latent Keypoints ( http://arxiv.org/abs/2103.15812v4 )

ライセンス: Link先を確認
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) generative adversarial networks (gans) は、画像生成においてフォトリアリスティックな品質を達成している。 しかし、画像コンテンツをどう制御するかは、依然としてオープンな課題である。 我々は,空間キーポイントの集合に内部条件付きで古典gan目的のエンドツーエンドを訓練した2段階ganである latentkeypointgan を紹介する。 これらのキーポイントは、それぞれ生成されたオブジェクトとその部分の位置とスタイルを制御する外観埋め込みを持っている。 適切なネットワークアーキテクチャとトレーニングスキームで対処する大きな困難は、画像をドメイン知識や監視信号なしで空間的・外観的要素に切り離すことである。 latentkeypointganは、異なる画像から目、鼻、口を組み合わせることで、キーポイント埋め込みを再配置し交換することで、生成された画像の再配置に使用できる解釈可能な潜在空間を提供する。 さらに、キーポイントとマッチング画像の明示的な生成は、教師なしキーポイント検出の新しいganベースの方法を可能にする。

Generative adversarial networks (GANs) have attained photo-realistic quality in image generation. However, how to best control the image content remains an open challenge. We introduce LatentKeypointGAN, a two-stage GAN which is trained end-to-end on the classical GAN objective with internal conditioning on a set of space keypoints. These keypoints have associated appearance embeddings that respectively control the position and style of the generated objects and their parts. A major difficulty that we address with suitable network architectures and training schemes is disentangling the image into spatial and appearance factors without domain knowledge and supervision signals. We demonstrate that LatentKeypointGAN provides an interpretable latent space that can be used to re-arrange the generated images by re-positioning and exchanging keypoint embeddings, such as generating portraits by combining the eyes, nose, and mouth from different images. In addition, the explicit generation of keypoints and matching images enables a new, GAN-based method for unsupervised keypoint detection.
翻訳日:2023-06-12 18:51:15 公開日:2023-06-08
# 確率環境におけるプライベートオンライン学習のための近似最適アルゴリズム

Near-Optimal Algorithms for Private Online Learning in a Stochastic Environment ( http://arxiv.org/abs/2102.07929v2 )

ライセンス: Link先を確認
Bingshan Hu and Zhiming Huang and Nishant A. Mehta(参考訳) 個人の確率的オンライン学習の2つのバリエーションを検討する。 最初の変種は、差動的にプライベートな確率的バンドである。 以前は sajed と sheffet (2019) が、最適な $ o \biggl (\sum\limits_{1\le j \le k: \delta_j >0} \frac{ \log t}{ \delta_j} + \frac{ k\log t}{\epsilon} \biggr)$ problem-dependent regret bound を考案した。 しかし、他の除去スタイルアルゴリズムと同様に、これは時限アルゴリズムではない。 これまで、UCBベースのアルゴリズムがこの最適な後悔の限界を達成できるかどうかは分かっていなかった。 最適性を実現するための任意の UCB ベースのアルゴリズムを提案する。 実験の結果,本アルゴリズムはdp-seと競合することがわかった。 第2の変種は、プライベート確率オンライン学習の完全な情報バージョンである。 具体的には、確率的報酬を伴う決定論的オンライン学習の問題に対して、$ O \left( \frac{ \log K}{ \Delta_{\min}} + \frac{\log(K) \min\{\log (\frac{1}{\Delta_{\min}}), \log(T)\}}{\epsilon} \right)$ regret bound, ここで$\Delta_{\min}$は最小平均報酬ギャップである。 さらに、$\Omega \left( \max\left\{ \frac{\log K}{\Delta_{\min}}, \frac{\log K}{\epsilon} \right\} \right)$ problem-dependent lower boundを示す。 両設定の正しい理論的保証の背後にある重要な考え方は、忘れがちである、すなわち、決定は、最初の段階で得られたすべての観測ではなく、ある量の新しい観測に基づいてなされる。

We consider two variants of private stochastic online learning. The first variant is differentially private stochastic bandits. Previously, Sajed and Sheffet (2019) devised the DP Successive Elimination (DP-SE) algorithm that achieves the optimal $ O \biggl(\sum\limits_{1\le j \le K: \Delta_j >0} \frac{ \log T}{ \Delta_j} + \frac{ K\log T}{\epsilon} \biggr)$ problem-dependent regret bound, where $K$ is the number of arms, $\Delta_j$ is the mean reward gap of arm $j$, $T$ is the time horizon, and $\epsilon$ is the required privacy parameter. However, like other elimination style algorithms, it is not an anytime algorithm. Until now, it was not known whether UCB-based algorithms could achieve this optimal regret bound. We present an anytime, UCB-based algorithm that achieves optimality. Our experiments show that the UCB-based algorithm is competitive with DP-SE. The second variant is the full information version of private stochastic online learning. Specifically, for the problem of decision-theoretic online learning with stochastic rewards, we present the first algorithm that achieves an $ O \left( \frac{ \log K}{ \Delta_{\min}} + \frac{\log(K) \min\{\log (\frac{1}{\Delta_{\min}}), \log(T)\}}{\epsilon} \right)$ regret bound, where $\Delta_{\min}$ is the minimum mean reward gap. In addition, we also show an $\Omega \left( \max\left\{ \frac{\log K}{\Delta_{\min}}, \frac{\log K}{\epsilon} \right\} \right)$ problem-dependent lower bound. The key idea behind our good theoretical guarantees in both settings is forgetfulness, i.e., decisions are made based on a certain amount of newly obtained observations instead of all the observations obtained from the very beginning.
翻訳日:2023-06-12 18:50:58 公開日:2023-06-08
# 分割状態モデルにおける量子セキュア非可算符号

Quantum secure non-malleable codes in the split-state model ( http://arxiv.org/abs/2202.13354v3 )

ライセンス: Link先を確認
Divesh Aggarwal and Naresh Goud Boddu and Rahul Jain(参考訳) Dziembowski, Pietrzak, Wichs [DPW18] が導入した非可算符号は、コードワードの改ざんによってデコーダが元のメッセージ$S$を出力するか、または、S$とは無関係なメッセージが出力されるように、古典的なメッセージ$S$をエンコードする。 近年, 各種改ざん機能ファミリーに対するこのような不適合なセキュリティの提供が注目されている。 我々は、よく研究された(2部)分割状態モデルを検討し、そこではメッセージ$S$を2つのパート$X$と$Y$にエンコードし、敵は個別に$X$と$Y$を任意に改ざんすることができる。 敵が任意の絡み合いを利用して部品を改ざんすることを許された場合、分割状態モデルにおける非可算符号のセキュリティを考える。 我々は分割状態モデルにおいて明示的な量子セキュアな非可算符号を構築する。 量子セキュアな非可算符号の構成は、Boddu, Jain, Kapshikar [BJK21] による近年の量子セキュアな2ドルソース非可算演算子の構築に基づいている。

Non-malleable-codes introduced by Dziembowski, Pietrzak and Wichs [DPW18] encode a classical message $S$ in a manner such that tampering the codeword results in the decoder either outputting the original message $S$ or a message that is unrelated/independent of $S$. Providing such non-malleable security for various tampering function families has received significant attention in recent years. We consider the well-studied (2-part) split-state model, in which the message $S$ is encoded into two parts $X$ and $Y$, and the adversary is allowed to arbitrarily tamper with each $X$ and $Y$ individually. We consider the security of non-malleable-codes in the split-state model when the adversary is allowed to make use of arbitrary entanglement to tamper the parts $X$ and $Y$. We construct explicit quantum secure non-malleable-codes in the split-state model. Our construction of quantum secure non-malleable-codes is based on the recent construction of quantum secure $2$-source non-malleable-extractors by Boddu, Jain and Kapshikar [BJK21].
翻訳日:2023-06-12 18:46:36 公開日:2023-06-08
# 言語間の視覚的質問への深い答え

Delving Deeper into Cross-lingual Visual Question Answering ( http://arxiv.org/abs/2202.07630v2 )

ライセンス: Link先を確認
Chen Liu, Jonas Pfeiffer, Anna Korhonen, Ivan Vuli\'c, Iryna Gurevych(参考訳) 視覚的質問応答(VQA)は視覚と言語の重要なタスクの1つである。 しかしながら、既存のVQA研究は、適切な評価資源が不足しているため、主に英語に焦点を当てている。 クロスリンガルVQAに関するこれまでの研究は、より深い分析をすることなく、モノリンガル性能と大きなギャップを持つ現在のマルチリンガルマルチモーダルトランスのゼロショット転送性能が低いことを報告している。 本研究では,言語間VQAの異なる側面を深く掘り下げ,その影響を理解することを目的とする。 1 建築、誘導バイアス、微調整を含む方法及び選択のモデル化 2) 学習バイアス: 言語間設定における質問タイプやモダリティバイアスを含む。 分析の結果は以下のとおりです 1) 標準のトレーニング設定に簡単な修正を加えることで、単言語英語のパフォーマンスへの移行ギャップが大幅に減少し、既存の方法よりも10倍の精度が得られることを示した。 2) 言語間VQAを多言語マルチモーダル変換器の様々な複雑さの異なる問合せタイプで解析し, 改善が難しい問合せタイプを同定する。 3) 学習データやモデルに存在するモダリティバイアスの分析を行い, 質問型や言語にゼロショット性能の差が残る理由を明らかにする。

Visual question answering (VQA) is one of the crucial vision-and-language tasks. Yet, existing VQA research has mostly focused on the English language, due to a lack of suitable evaluation resources. Previous work on cross-lingual VQA has reported poor zero-shot transfer performance of current multilingual multimodal Transformers with large gaps to monolingual performance, without any deeper analysis. In this work, we delve deeper into the different aspects of cross-lingual VQA, aiming to understand the impact of 1) modeling methods and choices, including architecture, inductive bias, fine-tuning; 2) learning biases: including question types and modality biases in cross-lingual setups. The key results of our analysis are: 1) We show that simple modifications to the standard training setup can substantially reduce the transfer gap to monolingual English performance, yielding +10 accuracy points over existing methods. 2) We analyze cross-lingual VQA across different question types of varying complexity for different multilingual multimodal Transformers, and identify question types that are the most difficult to improve on. 3) We provide an analysis of modality biases present in training data and models, revealing why zero-shot performance gaps remain for certain question types and languages.
翻訳日:2023-06-12 18:46:12 公開日:2023-06-08
# 一般化Bures-Wasserstein幾何学による対称正定行列の学習

Learning with symmetric positive definite matrices via generalized Bures-Wasserstein geometry ( http://arxiv.org/abs/2110.10464v2 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Junbin Gao(参考訳) 対称正定値行列(SPD)による学習は機械学習に多くの応用がある。 その結果、SPD行列のリーマン幾何学の理解が近年注目されている。 特に興味のあるリーマン幾何学は、ガウス密度の間のワッサーシュタイン距離を基礎として最近提案されたbures-wasserstein(bw)幾何である。 本稿では、gbw幾何と呼ばれるbw幾何の新しい一般化を提案する。 提案された一般化は対称正定値行列 $\mathbf{M}$ によってパラメータ化され、$\mathbf{M} = \mathbf{I}$ のとき、BW 幾何を回復する。 本稿では,様々な機械学習応用に適用可能な新しい一般化幾何について,様々な微分幾何学的概念を研究するための厳密な処理を提案する。 また,提案するgbw幾何がbw幾何に対して有効であることを示す実験を行った。

Learning with symmetric positive definite (SPD) matrices has many applications in machine learning. Consequently, understanding the Riemannian geometry of SPD matrices has attracted much attention lately. A particular Riemannian geometry of interest is the recently proposed Bures-Wasserstein (BW) geometry which builds on the Wasserstein distance between the Gaussian densities. In this paper, we propose a novel generalization of the BW geometry, which we call the GBW geometry. The proposed generalization is parameterized by a symmetric positive definite matrix $\mathbf{M}$ such that when $\mathbf{M} = \mathbf{I}$, we recover the BW geometry. We provide a rigorous treatment to study various differential geometric notions on the proposed novel generalized geometry which makes it amenable to various machine learning applications. We also present experiments that illustrate the efficacy of the proposed GBW geometry over the BW geometry.
翻訳日:2023-06-12 18:44:23 公開日:2023-06-08
# コンテキストNER : スケールでの文脈的フレーズ生成

Context-NER : Contextual Phrase Generation at Scale ( http://arxiv.org/abs/2109.08079v4 )

ライセンス: Link先を確認
Himanshu Gupta, Shreyas Verma, Santosh Mashetty, Swaroop Mishra(参考訳) 名前付きエンティティ認識(NER)は近年大きな進歩を遂げており、多くの最先端(SOTA)モデルが高性能を実現している。 しかし、エンティティのコンテキストの生成に焦点を当てた研究はほとんどない。 本稿では,conTEXT-NERという文中のエンティティに関連するコンテキストを生成するタスクを紹介する。 edgar10-qデータセットは、上位1500の上場企業からの年次および四半期ごとのレポートで構成されている。 データセットは、100万の文、280万のエンティティ、平均35のトークンを含む、その種類の中で最大のもので、難しいデータセットである。 本稿では,220M言語モデルを用いたフレーズ生成アルゴリズムと推論を組み合わせたベースラインアプローチを提案し,テスト分割でROUGE-Lスコアが27%に達した。 さらに,データセットの難易度を強調する30%ルージュlを得るchatgptを用いて,ワンショット推論を行う。 また,EDGAR10-Qの微調整を監督した後,最大ROUGE-Lを49%向上させるT5やBARTなどのモデルも評価した。 また, EDGAR10-Qで事前調整したT5-largeは, Headline, FPB, FiQA SAなどの下流財務タスクにおいてSOTAの結果を10.81ポイント上回った。 驚いたことに、この66倍の小型のプレファインチュアモデルも、金融に特化したLLM BloombergGPT-50Bを15ポイント上回っている。 我々は、我々のデータセットと生成されたアーティファクトがこの方向をさらに研究し、金融テキスト分析のためのより洗練された言語モデルの開発につながることを期待している。

Named Entity Recognition (NER) has seen significant progress in recent years, with numerous state-of-the-art (SOTA) models achieving high performance. However, very few studies have focused on the generation of entities' context. In this paper, we introduce CONTEXT-NER, a task that aims to generate the relevant context for entities in a sentence, where the context is a phrase describing the entity but not necessarily present in the sentence. To facilitate research in this task, we also present the EDGAR10-Q dataset, which consists of annual and quarterly reports from the top 1500 publicly traded companies. The dataset is the largest of its kind, containing 1M sentences, 2.8M entities, and an average of 35 tokens per sentence, making it a challenging dataset. We propose a baseline approach that combines a phrase generation algorithm with inferencing using a 220M language model, achieving a ROUGE-L score of 27% on the test split. Additionally, we perform a one-shot inference with ChatGPT, which obtains a 30% ROUGE-L, highlighting the difficulty of the dataset. We also evaluate models such as T5 and BART, which achieve a maximum ROUGE-L of 49% after supervised finetuning on EDGAR10-Q. We also find that T5-large, when pre-finetuned on EDGAR10-Q, achieve SOTA results on downstream finance tasks such as Headline, FPB, and FiQA SA, outperforming vanilla version by 10.81 points. To our surprise, this 66x smaller pre-finetuned model also surpasses the finance-specific LLM BloombergGPT-50B by 15 points. We hope that our dataset and generated artifacts will encourage further research in this direction, leading to the development of more sophisticated language models for financial text analysis
翻訳日:2023-06-12 18:43:41 公開日:2023-06-08
# Swiftのカイラル量子ウォーク

Swift chiral quantum walks ( http://arxiv.org/abs/2207.05168v2 )

ライセンス: Link先を確認
Massimo Frigerio and Matteo G. A. Paris(参考訳) 連続時間量子ウォーク(CTQW)は、開始頂点の戻り確率が常に1に近い場合、セジタリーである。 最近の結果は、極大次数頂点から始めると、ラプラシアン行列と隣接行列によって生成されるctqwダイナミクスは、典型的には沈静であることを示している。 本稿では, グラフのエッジに適切な複素位相を加えることで, キラルCTQWを定義することにより, セデンタリティを解消し, 近接型のカイラル量子ウォークを高速に実現し, 最短時間で復帰確率をゼロにすることができることを示す。 また,ラプラシアンタイプの高速キラルctqwsに対するno-go定理も提供する。 以上の結果から,キラルCTQWでは達成できないタスクの汎用的評価が得られた。

A continuous-time quantum walk (CTQW) is sedentary if the return probability in the starting vertex is close to one at all times. Recent results imply that, when starting from a maximal degree vertex, the CTQW dynamics generated by the Laplacian and adjacency matrices are typically sedentary. In this paper, we show that the addition of appropriate complex phases to the edges of the graph, defining a chiral CTQW, can cure sedentarity and lead to swift chiral quantum walks of the adjacency type, which bring the returning probability to zero in the shortest time possible. We also provide a no-go theorem for swift chiral CTQWs of the Laplacian type. Our results provide one of the first, general characterization of tasks that can and cannot be achieved with chiral CTQWs.
翻訳日:2023-06-12 18:25:57 公開日:2023-06-08
# MetaGL:メタラーニングによるグラフ学習モデルの評価自由選択

MetaGL: Evaluation-Free Selection of Graph Learning Models via Meta-Learning ( http://arxiv.org/abs/2206.09280v3 )

ライセンス: Link先を確認
Namyong Park, Ryan Rossi, Nesreen Ahmed, Christos Faloutsos(参考訳) 新しいグラフ上でリンク予測のようなグラフ学習タスクが与えられたら、新しいグラフ上でモデルをトレーニングしたり評価したりすることなく、最適なメソッドとハイパーパラメータ(まとめてモデルと呼ぶ)をどうやって選択できるでしょうか? グラフ学習のためのモデル選択は、主にアドホックだ。 典型的なアプローチは、新しいデータセットに一般的なメソッドを適用することであるが、これはしばしば準最適である。 一方、新しいグラフで体系的に比較するモデルにはコストがかかりすぎるし、実用的でないこともある。 本研究では,評価自由グラフ学習モデル選択のためのメタラーニング手法であるMetaGLを開発し,様々なベンチマークグラフデータセット上の既存手法の性能を利用して,モデルトレーニングや評価を行わずに,新しいグラフに対して有効なモデルを自動的に選択する。 様々なグラフの類似性を定量化するために,グラフの構造的特徴を捉える特殊なメタグラフ特徴を導入する。 次に、グラフとモデルの関係を表すg-mネットワークを設計し、このg-mネットワークで動作するグラフベースのメタリーナーを開発し、各モデルと異なるグラフとの関係を推定する。 大規模な実験によると、MetaGLを使って新しいグラフのモデルを選択すると、グラフ学習モデル選択に適したいくつかの既存のメタ学習技術(最大47%改善)よりもはるかに高速(約1秒)である。

Given a graph learning task, such as link prediction, on a new graph, how can we select the best method as well as its hyperparameters (collectively called a model) without having to train or evaluate any model on the new graph? Model selection for graph learning has been largely ad hoc. A typical approach has been to apply popular methods to new datasets, but this is often suboptimal. On the other hand, systematically comparing models on the new graph quickly becomes too costly, or even impractical. In this work, we develop the first meta-learning approach for evaluation-free graph learning model selection, called MetaGL, which utilizes the prior performances of existing methods on various benchmark graph datasets to automatically select an effective model for the new graph, without any model training or evaluations. To quantify similarities across a wide variety of graphs, we introduce specialized meta-graph features that capture the structural characteristics of a graph. Then we design G-M network, which represents the relations among graphs and models, and develop a graph-based meta-learner operating on this G-M network, which estimates the relevance of each model to different graphs. Extensive experiments show that using MetaGL to select a model for the new graph greatly outperforms several existing meta-learning techniques tailored for graph learning model selection (up to 47% better), while being extremely fast at test time (~1 sec).
翻訳日:2023-06-12 18:24:44 公開日:2023-06-08
# トータルポジティビティ下におけるグラフィカルモデルの適応的推定

Adaptive Estimation of Graphical Models under Total Positivity ( http://arxiv.org/abs/2210.15471v2 )

ライセンス: Link先を確認
Jiaxi Ying, Jos\'e Vin\'icius de M. Cardoso, Daniel P. Palomar(参考訳) ガウス図形モデルにおけるm行列を精度行列として推定する問題を考える。 これらのモデルは、M-行列の観測を単に2つだけ行う最大極大推定器の存在や、対角的に支配的なM-行列の観測を1つだけ行うなど、興味深い性質を示す。 本稿では,各段階の重み付き$\ell_1$-regularized問題を解くことにより,推定を洗練する適応多段推定法を提案する。 さらに,m行列と対角支配的m行列の制約を扱うために異なる投影を組み込んだ,正規化問題を解くための勾配投影法に基づく統一フレームワークを開発した。 推定誤差の理論的解析を提供する。 提案手法は,合成および財務時系列データセットによって証明された精度行列推定およびグラフエッジ同定における最先端手法より優れている。

We consider the problem of estimating (diagonally dominant) M-matrices as precision matrices in Gaussian graphical models. These models exhibit intriguing properties, such as the existence of the maximum likelihood estimator with merely two observations for M-matrices \citep{lauritzen2019maximum,slawski2015estimation} and even one observation for diagonally dominant M-matrices \citep{truell2021maximum}. We propose an adaptive multiple-stage estimation method that refines the estimate by solving a weighted $\ell_1$-regularized problem at each stage. Furthermore, we develop a unified framework based on the gradient projection method to solve the regularized problem, incorporating distinct projections to handle the constraints of M-matrices and diagonally dominant M-matrices. A theoretical analysis of the estimation error is provided. Our method outperforms state-of-the-art methods in precision matrix estimation and graph edge identification, as evidenced by synthetic and financial time-series data sets.
翻訳日:2023-06-12 18:16:09 公開日:2023-06-08
# アクションマッチング: サンプルからの確率的ダイナミクスの学習

Action Matching: Learning Stochastic Dynamics from Samples ( http://arxiv.org/abs/2210.06662v3 )

ライセンス: Link先を確認
Kirill Neklyudov, Rob Brekelmans, Daniel Severo, Alireza Makhzani(参考訳) 時間境界のスナップショットからシステムの連続的なダイナミクスを学習することは、量子システム、単一セル生物学的データ、生成モデリングを含む、自然科学や機械学習を通じて発生する問題である。 これらの設定では、サンプルの完全な軌道ではなく、時間とともに相関しない横断的なサンプルへのアクセスを想定する。 観測中のシステムをよりよく理解するために、サンプルを時間内に伝播させ、それによって個々の軌道全体をシミュレートできる基盤となるプロセスのモデルを学びたい。 本研究では、時間進化から独立したサンプルのみを用いて、リッチな動的ファミリーの学習方法であるアクションマッチングを提案する。 これは基礎となる力学についての明確な仮定に依存しず、微分方程式や最適輸送解法によるバックプロパゲーションを必要としない。 最適輸送との接続にインスパイアされ、確率質量の生成と破壊を含む確率微分方程式と力学を学ぶために、アクションマッチングの拡張を導出する。 最後に, 生物学, 物理, 生成モデリングの多様な実験セットにおいて, 競争性能の達成によるアクションマッチングの適用例を示す。

Learning the continuous dynamics of a system from snapshots of its temporal marginals is a problem which appears throughout natural sciences and machine learning, including in quantum systems, single-cell biological data, and generative modeling. In these settings, we assume access to cross-sectional samples that are uncorrelated over time, rather than full trajectories of samples. In order to better understand the systems under observation, we would like to learn a model of the underlying process that allows us to propagate samples in time and thereby simulate entire individual trajectories. In this work, we propose Action Matching, a method for learning a rich family of dynamics using only independent samples from its time evolution. We derive a tractable training objective, which does not rely on explicit assumptions about the underlying dynamics and does not require back-propagation through differential equations or optimal transport solvers. Inspired by connections with optimal transport, we derive extensions of Action Matching to learn stochastic differential equations and dynamics involving creation and destruction of probability mass. Finally, we showcase applications of Action Matching by achieving competitive performance in a diverse set of experiments from biology, physics, and generative modeling.
翻訳日:2023-06-12 18:14:58 公開日:2023-06-08
# プライベート機械学習のためのマルチエポック行列分解機構

Multi-Epoch Matrix Factorization Mechanisms for Private Machine Learning ( http://arxiv.org/abs/2211.06530v2 )

ライセンス: Link先を確認
Christopher A. Choquette-Choo, H. Brendan McMahan, Keith Rush, and Abhradeep Thakurta(参考訳) 本稿では,複数のパス(エポック)をデータセット上に備えた勾配ベース機械学習(ML)のための新たなDP機構を導入し,実現可能なプライバシ・ユーティリティ・コンピューティングトレードオフを大幅に改善する。 適応ストリームに複数参加するDPメカニズムの問題を定式化し、オンライン行列分解DPメカニズムの非自明な拡張を当社の設定に導入する。 これには感度計算に必要な理論と最適行列の効率的な計算が含まれる。 $>\! のようないくつかのアプリケーションについて。 \! 10000ドルのsgdステップでは、これらの最適手法を適用すると計算コストが高くなる。 そこで我々は, 電力損失の少ない効率的なフーリエ変換機構を設計する。 画像分類用サンプルレベルDPと言語モデリング用ユーザレベルDPの両方に対する広範な実証評価は、広く使われているDP-SGDを含む全ての従来の手法よりも大幅に改善されている。 我々の主な応用はMLであるが、主要なDP結果は任意の線形クエリに適用できるため、より広い適用性を持つ可能性がある。

We introduce new differentially private (DP) mechanisms for gradient-based machine learning (ML) with multiple passes (epochs) over a dataset, substantially improving the achievable privacy-utility-computation tradeoffs. We formalize the problem of DP mechanisms for adaptive streams with multiple participations and introduce a non-trivial extension of online matrix factorization DP mechanisms to our setting. This includes establishing the necessary theory for sensitivity calculations and efficient computation of optimal matrices. For some applications like $>\!\! 10,000$ SGD steps, applying these optimal techniques becomes computationally expensive. We thus design an efficient Fourier-transform-based mechanism with only a minor utility loss. Extensive empirical evaluation on both example-level DP for image classification and user-level DP for language modeling demonstrate substantial improvements over all previous methods, including the widely-used DP-SGD . Though our primary application is to ML, our main DP results are applicable to arbitrary linear queries and hence may have much broader applicability.
翻訳日:2023-06-12 18:06:24 公開日:2023-06-08
# 重み付き二元クロスエントロピーのためのvan rijsbergen氏の$f_{\beta}$メトリックの再構成

Reformulating van Rijsbergen's $F_{\beta}$ metric for weighted binary cross-entropy ( http://arxiv.org/abs/2210.16458v2 )

ライセンス: Link先を確認
Satesh Ramdhani(参考訳) 勾配に基づく損失関数からパフォーマンス指標を分離することは、必ずしも最適な結果を与えるとは限らないし、重要な集約情報を見逃すこともある。 本報告では,学習結果の報知のために,異なる損失関数とともに性能指標を組み込むことを検討した。 目標は、動的重み付けのためのこのパフォーマンスメトリックの統計的分布を仮定することで、モデルのパフォーマンスと解釈を導くことである。 van Rijsbergens $F_{\beta}$ metric -- 分類パフォーマンスを計測する一般的な選択肢である。 f_{\beta}$ の分布的仮定により、動的ペナルティ重みによる標準二項クロスエントロピーへの中間リンクを確立することができる。 まず、$F_{\beta}$メトリックは累積密度関数の証明を伴う統計分布の仮定を容易にするために再構成される。 これらの確率は膝曲線アルゴリズム内で最適な$\beta$または$\beta_{opt}$を求めるために用いられる。 この$\beta_{opt}$ は、重み付き二項クロスエントロピーの重みまたはペナルティとして使われる。 不均衡なクラスを持つ公開データの実験は、ベースラインと比較して、より良く解釈可能な結果をもたらす。 例えば、既知のラベル付けエラーのあるIMDBテキストデータでは、14%のアップが示されている。 この手法はより良い解釈を与えることができる。

The separation of performance metrics from gradient based loss functions may not always give optimal results and may miss vital aggregate information. This paper investigates incorporating a performance metric alongside differentiable loss functions to inform training outcomes. The goal is to guide model performance and interpretation by assuming statistical distributions on this performance metric for dynamic weighting. The focus is on van Rijsbergens $F_{\beta}$ metric -- a popular choice for gauging classification performance. Through distributional assumptions on the $F_{\beta}$, an intermediary link can be established to the standard binary cross-entropy via dynamic penalty weights. First, the $F_{\beta}$ metric is reformulated to facilitate assuming statistical distributions with accompanying proofs for the cumulative density function. These probabilities are used within a knee curve algorithm to find an optimal $\beta$ or $\beta_{opt}$. This $\beta_{opt}$ is used as a weight or penalty in the proposed weighted binary cross-entropy. Experimentation on publicly available data with imbalanced classes mostly yields better and interpretable results as compared to the baseline. For example, for the IMDB text data with known labeling errors, a 14% boost is shown. This methodology can provide better interpretation.
翻訳日:2023-06-12 18:04:24 公開日:2023-06-08
# コヒーレンス生成、対称性代数およびヒルベルト空間のフラグメンテーション

Coherence generation, symmetry algebras and Hilbert space fragmentation ( http://arxiv.org/abs/2212.14408v2 )

ライセンス: Link先を確認
Faidon Andreadakis and Paolo Zanardi(参考訳) ヒルベルト空間の断片化は閉量子系における新しいタイプのエルゴディディディティ破れである。 近年、代数的アプローチを用いて、ハミルトニアン系の(一般化された)対称性に基づいたemph{families}を特徴づけるヒルベルト空間の断片化の定義が得られた。 本稿では,上記の物理系の分類とコヒーレンス生成力(cgp)によって定量化されたコヒーレンス生成特性との簡単な関係を明らかにする。 最大 CGP は(ハミルトニアンの各族の代数に付随する基礎において)独立クリロフ部分空間の個数$K$と密接に関連している。 より深い洞察を得るため、通常の対称性とヒルベルト空間の断片化の両方でパラダイムモデルを数値的にシミュレートし、各ケースにおけるCGPの挙動とシステム次元を比較する。 より一般的には、時間発展が指定された代数の任意のユニタリチャネルとなることを許容し、解析的に、CGPのハール平均値のスケーリングは$K$にのみ依存することを示した。 これらの結果はコヒーレンス生成と対称性代数の直感的な関係を示している。

Hilbert space fragmentation is a novel type of ergodicity breaking in closed quantum systems. Recently, an algebraic approach was utilized to provide a definition of Hilbert space fragmentation characterizing \emph{families} of Hamiltonian systems based on their (generalized) symmetries. In this paper, we reveal a simple connection between the aforementioned classification of physical systems and their coherence generation properties, quantified by the coherence generating power (CGP). The maximum CGP (in the basis associated to the algebra of each family of Hamiltonians) is exactly related to the number of independent Krylov subspaces $K$, which is precisely the characteristic used in the classification of the system. In order to gain further insight, we numerically simulate paradigmatic models with both ordinary symmetries and Hilbert space fragmentation, comparing the behavior of the CGP in each case with the system dimension. More generally, allowing the time evolution to be any unitary channel in a specified algebra, we show analytically that the scaling of the Haar averaged value of the CGP depends only on $K$. These results illustrate the intuitive relationship between coherence generation and symmetry algebras.
翻訳日:2023-06-12 17:57:06 公開日:2023-06-08
# セマンティックパーサーのプライバシー保護ドメイン適応

Privacy-Preserving Domain Adaptation of Semantic Parsers ( http://arxiv.org/abs/2212.10520v3 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Yu Su, Tatsunori Hashimoto, Jason Eisner, Richard Shin(参考訳) タスク指向の対話システムは、ユーザー個人や機密事項を補助することが多い。 そのため、一般にそのようなシステムの開発者は実際の使用を観察することを禁じられている。 では、システム障害の所在をどうやって把握し、より多くのトレーニングデータや新機能が必要ですか? 本研究では,実際のユーザのプライバシーを損なうことなく,現実的なユーザ発話を合成的に生成し,システムの言語的・機能的カバレッジを向上させる方法について検討する。 そこで本研究では,まず潜在意味構文を生成し,その解析結果に基づいて発話を生成する2段階微分プライベート(DP)生成手法を提案する。 提案手法はmauveを2.5$\times$,パースツリー関数型を1.3$\times$,プライベート合成データ生成に対して1.3$\times$で改善する。 さらに,ユーザデータからセマンティクスパーサに新たな機能を追加する現実的なドメイン適応タスクに対する我々のアプローチを検証し,新機能により8.5%の精度向上を示す。

Task-oriented dialogue systems often assist users with personal or confidential matters. For this reason, the developers of such a system are generally prohibited from observing actual usage. So how can they know where the system is failing and needs more training data or new functionality? In this work, we study ways in which realistic user utterances can be generated synthetically, to help increase the linguistic and functional coverage of the system, without compromising the privacy of actual users. To this end, we propose a two-stage Differentially Private (DP) generation method which first generates latent semantic parses, and then generates utterances based on the parses. Our proposed approach improves MAUVE by 2.5$\times$ and parse tree function type overlap by 1.3$\times$ relative to current approaches for private synthetic data generation, improving both on fluency and semantic coverage. We further validate our approach on a realistic domain adaptation task of adding new functionality from private user data to a semantic parser, and show overall gains of 8.5% points in accuracy with the new feature.
翻訳日:2023-06-12 17:56:04 公開日:2023-06-08
# socratic pretraining: 制御可能な要約のための質問駆動事前トレーニング

Socratic Pretraining: Question-Driven Pretraining for Controllable Summarization ( http://arxiv.org/abs/2212.10449v3 )

ライセンス: Link先を確認
Artidoro Pagnoni, Alexander R. Fabbri, Wojciech Kry\'sci\'nski, Chien-Sheng Wu(参考訳) ラベル付きデータが少ない長い文書管理可能な要約では、事前トレーニングされたモデルはタスクへの適応に苦労し、ユーザクエリに効果的に対応します。 本稿では,要約タスクの制御性を改善するために特別に設計された質問駆動・教師なし事前学習目標であるsocratic pretrainingを提案する。 モデルのトレーニングによって、与えられたコンテキストで関連する質問を生成し、答えることによって、ソクラティック事前学習は、モデルがより効果的にユーザが提供するクエリに準拠し、関連するコンテンツを要約することを可能にする。 本稿では,2つの要約領域,短い物語と対話,およびキーワード,質問,ファクトイドQAペアといった複数の制御戦略の広範な実験を通じて,このアプローチの有効性を実証する。 本手法はラベルなし文書と質問生成システムのみに依存しており,教師ありデータを用いた事前調整手法よりも優れている。 さらに,Socraticプレトレーニングはタスク固有のラベル付きデータ要求を半分に削減し,ユーザが提供するクエリに忠実であり,QMSumとSQuALITYの最先端性能を実現していることを示す。

In long document controllable summarization, where labeled data is scarce, pretrained models struggle to adapt to the task and effectively respond to user queries. In this paper, we introduce Socratic pretraining, a question-driven, unsupervised pretraining objective specifically designed to improve controllability in summarization tasks. By training a model to generate and answer relevant questions in a given context, Socratic pretraining enables the model to more effectively adhere to user-provided queries and identify relevant content to be summarized. We demonstrate the effectiveness of this approach through extensive experimentation on two summarization domains, short stories and dialogue, and multiple control strategies: keywords, questions, and factoid QA pairs. Our pretraining method relies only on unlabeled documents and a question generation system and outperforms pre-finetuning approaches that use additional supervised data. Furthermore, our results show that Socratic pretraining cuts task-specific labeled data requirements in half, is more faithful to user-provided queries, and achieves state-of-the-art performance on QMSum and SQuALITY.
翻訳日:2023-06-12 17:55:45 公開日:2023-06-08
# ExplainableFold: 説明可能なAIでAlphaFold予測を理解する

ExplainableFold: Understanding AlphaFold Prediction with Explainable AI ( http://arxiv.org/abs/2301.11765v2 )

ライセンス: Link先を確認
Juntao Tan, Yongfeng Zhang(参考訳) 本稿では,タンパク質構造予測のためのaiフレームワークである explainsablefold を提案する。 この分野でAlphaFoldのようなAIベースの手法が成功したにも拘わらず、深層学習モデルのブラックボックスの性質のため、それらの予測の根底にある理由ははっきりしない。 そこで本研究では,タンパク質構造予測の反現実的説明を生成するために,生物学的原理に着想を得た反現実的学習フレームワークを提案する。 実験結果は,αfoldの予測に高品質な説明を生成できることを示し,アミノ酸が3dタンパク質構造に及ぼす影響をほぼ実験的に理解した。 この枠組みはタンパク質構造のより深い理解を促進する可能性がある。

This paper presents ExplainableFold, an explainable AI framework for protein structure prediction. Despite the success of AI-based methods such as AlphaFold in this field, the underlying reasons for their predictions remain unclear due to the black-box nature of deep learning models. To address this, we propose a counterfactual learning framework inspired by biological principles to generate counterfactual explanations for protein structure prediction, enabling a dry-lab experimentation approach. Our experimental results demonstrate the ability of ExplainableFold to generate high-quality explanations for AlphaFold's predictions, providing near-experimental understanding of the effects of amino acids on 3D protein structure. This framework has the potential to facilitate a deeper understanding of protein structures.
翻訳日:2023-06-12 17:47:46 公開日:2023-06-08
# 旅行モード選択のモデル化のための機械学習手法の予測と行動解析

A prediction and behavioural analysis of machine learning methods for modelling travel mode choice ( http://arxiv.org/abs/2301.04404v2 )

ライセンス: Link先を確認
Jos\'e \'Angel Mart\'in-Baos, Julio Alberto L\'opez-G\'omez, Luis Rodriguez-Benitez, Tim Hillel and Ricardo Garc\'ia-R\'odenas(参考訳) 旅行モード選択予測のためのさまざまな機械学習(ml)アプローチの出現は、トランスポートモデルラーに興味深い疑問をもたらす。 この質問に対する答えは、単純な予測性能に留まらず、振る舞いの解釈可能性や説明可能性、計算複雑性、データ効率など、多くの要因のバランスを取っている。 異なるML分類器の予測性能を古典的ランダムユーティリティモデルと比較しようとする研究団体が増えている。 しかしながら、既存の研究は通常、モデル選択に影響を与える他の側面を無視して、分散した予測性能のみを分析する。 さらに、不適切な検証スキームの使用、階層データの不正確なサンプリング、外部検証の欠如、離散メトリクスの排他的使用など、多くの研究は技術的な制限の影響を受けている。 モデル選択に影響を及ぼす可能性のある重要な要因(サンプル外の予測性能、予測市場シェアの正確さ、行動指標の抽出、計算効率)の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較することで、これらの制限に対処する。 複数の実世界データセットと合成データセットを結合し,データ生成関数が知られている。 その結果、最も非凝集性の高い予測性能(すなわち極度の勾配上昇とランダムな森林)を持つモデルでは、行動指標や集約モードのシェアが低く、より深いニューラルネットワークやMNL(Multinomial Logit)を含む他のモデルよりも高く見積もられていることが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。

The emergence of a variety of Machine Learning (ML) approaches for travel mode choice prediction poses an interesting question to transport modellers: which models should be used for which applications? The answer to this question goes beyond simple predictive performance, and is instead a balance of many factors, including behavioural interpretability and explainability, computational complexity, and data efficiency. There is a growing body of research which attempts to compare the predictive performance of different ML classifiers with classical random utility models. However, existing studies typically analyse only the disaggregate predictive performance, ignoring other aspects affecting model choice. Furthermore, many studies are affected by technical limitations, such as the use of inappropriate validation schemes, incorrect sampling for hierarchical data, lack of external validation, and the exclusive use of discrete metrics. We address these limitations by conducting a systematic comparison of different modelling approaches, across multiple modelling problems, in terms of the key factors likely to affect model choice (out-of-sample predictive performance, accuracy of predicted market shares, extraction of behavioural indicators, and computational efficiency). We combine several real world datasets with synthetic datasets, where the data generation function is known. The results indicate that the models with the highest disaggregate predictive performance (namely extreme gradient boosting and random forests) provide poorer estimates of behavioural indicators and aggregate mode shares, and are more expensive to estimate, than other models, including deep neural networks and Multinomial Logit (MNL). It is further observed that the MNL model performs robustly in a variety of situations, though ML techniques can improve the estimates of behavioural indices such as Willingness to Pay.
翻訳日:2023-06-12 17:46:16 公開日:2023-06-08
# 量子計算による投票の加速

Accelerating Voting by Quantum Computation ( http://arxiv.org/abs/2301.02995v4 )

ライセンス: Link先を確認
Ao Liu, Qishen Han, Lirong Xia, Nengkun Yu(参考訳) 計算複雑性の研究と、投票ルールの下で勝者を決定するための高速アルゴリズムの設計は、計算社会選択において古典的かつ基本的な問題である。 本稿では,任意の匿名投票ルールに適用可能な量子加速型投票アルゴリズムを提案する。 提案アルゴリズムは, 定位スコアリングルール, Copeland, シングル転送可能な投票(STV)など, 幅広い共通投票規則の下で, 従来のアルゴリズムよりも2次に高速であることを示す。 正確には、我々の量子加速投票アルゴリズムは、$\Theta\left(\frac{n}{\text{MOV}}\right)$ time, where $n$ is the number of vote, $\text{MOV}$ is {\em margin of victory} において正しい勝者を高い確率で出力する。 対照的に、サンプリングと置換に基づく古典的な投票アルゴリズムは、大きな種類の投票ルールの下で$\omega\left(\frac{n^2}{\text{mov}^2}\right)$時間を必要とする。 理論的結果は,ボルダ,コープランド,STVの複数の実験で裏付けられている。

Studying the computational complexity and designing fast algorithms for determining winners under voting rules are classical and fundamental questions in computational social choice. In this paper, we accelerate voting by leveraging quantum computation: we propose a quantum-accelerated voting algorithm that can be applied to any anonymous voting rule. We show that our algorithm can be quadratically faster than any classical algorithm (based on sampling with replacement) under a wide range of common voting rules, including positional scoring rules, Copeland, and single transferable voting (STV). Precisely, our quantum-accelerated voting algorithm outputs the correct winner with high probability in $\Theta\left(\frac{n}{\text{MOV}}\right)$ time, where $n$ is the number of votes and $\text{MOV}$ is {\em margin of victory}, the smallest number of voters to change the winner. In contrast, any classical voting algorithm based on sampling with replacement requires $\Omega\left(\frac{n^2}{\text{MOV}^2}\right)$ time under a large class of voting rules. Our theoretical results are supported by experiments under plurality, Borda, Copeland, and STV.
翻訳日:2023-06-12 17:45:41 公開日:2023-06-08
# ステップワイズ振動制約による安全な強化学習

Provably Safe Reinforcement Learning with Step-wise Violation Constraints ( http://arxiv.org/abs/2302.06064v3 )

ライセンス: Link先を確認
Nuoya Xiong, Yihan Du, Longbo Huang(参考訳) 本稿では,ステップワイド違反制約を伴う新しい安全強化学習問題について検討する。 従来の課題とは, 段階的に違反する制約を厳格に考慮し, 安全行動の存在を想定せず, あらゆる意思決定ステップにおいて安全を保証し, ロボット制御や自律運転など, 常に安全な行動を取る必要のない, 安全クリティカルなアプリケーションに適している, という点である。 提案する新しいアルゴリズム SUCBVI は,$\widetilde{O}(\sqrt{ST})$ step-wise violation and $\widetilde{O}(\sqrt{H^3SAT})$ regret を保証する。 下限は、$S$および$T$に対する違反と後悔のパフォーマンスの両方の最適性を検証するために提供される。 さらに,段階的違反制約を伴う新たな安全報酬フリー探索問題についても検討する。 この問題に対して、我々は$(\varepsilon,\delta)$-pacアルゴリズム srf-ucrl を設計し、探索中に$\widetilde{o}((\frac{s^2ah^2}{\varepsilon}+\frac{h^4sa}{\varepsilon^2})(\log(\frac{1}{\delta})+s)$ を保証し、ほぼ最先端のサンプル複雑性である$\widetilde{o}(\sqrt{st})$ を達成する。 実験結果は,安全性能におけるアルゴリズムの優位性を実証し,理論的結果を裏付けるものである。

In this paper, we investigate a novel safe reinforcement learning problem with step-wise violation constraints. Our problem differs from existing works in that we consider stricter step-wise violation constraints and do not assume the existence of safe actions, making our formulation more suitable for safety-critical applications which need to ensure safety in all decision steps and may not always possess safe actions, e.g., robot control and autonomous driving. We propose a novel algorithm SUCBVI, which guarantees $\widetilde{O}(\sqrt{ST})$ step-wise violation and $\widetilde{O}(\sqrt{H^3SAT})$ regret. Lower bounds are provided to validate the optimality in both violation and regret performance with respect to $S$ and $T$. Moreover, we further study a novel safe reward-free exploration problem with step-wise violation constraints. For this problem, we design an $(\varepsilon,\delta)$-PAC algorithm SRF-UCRL, which achieves nearly state-of-the-art sample complexity $\widetilde{O}((\frac{S^2AH^2}{\varepsilon}+\frac{H^4SA}{\varepsilon^2})(\log(\frac{1}{\delta})+S))$, and guarantees $\widetilde{O}(\sqrt{ST})$ violation during the exploration. The experimental results demonstrate the superiority of our algorithms in safety performance, and corroborate our theoretical results.
翻訳日:2023-06-12 17:38:05 公開日:2023-06-08
# Performative Recommendation: ストラテジックインセンティブによるコンテンツの多様化

Performative Recommendation: Diversifying Content via Strategic Incentives ( http://arxiv.org/abs/2302.04336v3 )

ライセンス: Link先を確認
Itay Eilat, Nir Rosenfeld(参考訳) 推奨の主なゴールは、ユーザーに関連コンテンツを提案することだが、精度を最適化することは、しばしば多様性を欠くレコメンデーションをもたらす。 これを改善するため、従来のアプローチでは、より多様な項目を提示することで多様性を向上する。 ここでは,本質的かつ長期的多様性を促進するためには,システムがその創造を促進する必要があると論じる。 これに向けて、我々はレコメンデーションの演奏性を活用し、学習が戦略的コンテンツクリエーターに多様なコンテンツを創造するインセンティブを与える方法を示す。 我々のアプローチは、コンテンツに対する戦略的変化を予測し、コンテンツ均質性を罰する新しい形式に依存している。 我々は,多様性をいつ,どのようにインセンティブ化できるかを示す分析的および実証的な結果を提供し,合成および半合成データに対するアプローチの有用性を実験的に実証した。

The primary goal in recommendation is to suggest relevant content to users, but optimizing for accuracy often results in recommendations that lack diversity. To remedy this, conventional approaches such as re-ranking improve diversity by presenting more diverse items. Here we argue that to promote inherent and prolonged diversity, the system must encourage its creation. Towards this, we harness the performative nature of recommendation, and show how learning can incentivize strategic content creators to create diverse content. Our approach relies on a novel form of regularization that anticipates strategic changes to content, and penalizes for content homogeneity. We provide analytic and empirical results that demonstrate when and how diversity can be incentivized, and experimentally demonstrate the utility of our approach on synthetic and semi-synthetic data.
翻訳日:2023-06-12 17:37:26 公開日:2023-06-08
# SLaM:未使用例による蒸留用学生-ラベル混合

SLaM: Student-Label Mixing for Distillation with Unlabeled Examples ( http://arxiv.org/abs/2302.03806v2 )

ライセンス: Link先を確認
Vasilis Kontonis, Fotis Iliopoulos, Khoa Trinh, Cenk Baykal, Gaurav Menghani, Erik Vee(参考訳) ラベルなしの例による知識蒸留は、ラベル付きデータの量は限られているがラベルなしデータの大きなプールにアクセスするアプリケーションにおいて、コンパクトで軽量な学生モデルを生成するための強力なトレーニングパラダイムである。 この設定では、大きな教師モデルは、未ラベルのデータセットに対して `soft' の擬似ラベルを生成し、学生モデルのトレーニングに使用される。 様々な応用で成功したにもかかわらず、このアプローチの欠点は、教師の擬似ラベルがしばしばうるさくなり、学生のパフォーマンスが損なわれることである。 本稿では,SlaM(Student-Label Mixing, SLaM)と呼ぶ無ラベルの例を用いた知識蒸留の原理的手法を提案する。 最後に、SLaMには理論的保証が伴い、ランダムな分類ノイズの下でハーフスペースを学習するための最もよく知られたサンプル複雑性を改善するアルゴリズムを提供し、いわゆる「前向き損失調整」手法に対する最初の収束解析を提供する。

Knowledge distillation with unlabeled examples is a powerful training paradigm for generating compact and lightweight student models in applications where the amount of labeled data is limited but one has access to a large pool of unlabeled data. In this setting, a large teacher model generates ``soft'' pseudo-labels for the unlabeled dataset which are then used for training the student model. Despite its success in a wide variety of applications, a shortcoming of this approach is that the teacher's pseudo-labels are often noisy, leading to impaired student performance. In this paper, we present a principled method for knowledge distillation with unlabeled examples that we call Student-Label Mixing (SLaM) and we show that it consistently improves over prior approaches by evaluating it on several standard benchmarks. Finally, we show that SLaM comes with theoretical guarantees; along the way we give an algorithm improving the best-known sample complexity for learning halfspaces with margin under random classification noise, and provide the first convergence analysis for so-called ``forward loss-adjustment" methods.
翻訳日:2023-06-12 17:36:07 公開日:2023-06-08
# Spawrious:Spurious correlation Biasesの微妙な制御のためのベンチマーク

Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases ( http://arxiv.org/abs/2303.05470v2 )

ライセンス: Link先を確認
Aengus Lynch, Gb\`etondji J-S Dovonon, Jean Kaddour, Ricardo Silva(参考訳) スプリアス相関(英語版) (SC) の問題は、分類器がトレーニングデータのラベルと相関する非予測的特徴に依存するときに生じる。 例えば、分類器は、犬の画像の背景に基づいて犬種を誤分類することができる。 これは、バックグラウンドがトレーニングデータ内の他の品種と相関している場合に起こり、テスト時間中に誤分類が発生する。 以前のベンチマークデータセットでは、オーバー飽和や1対1(O2O)のSCのみを含むようなさまざまな問題に悩まされていたが、スプリアス属性とクラスのグループ間で発生する多対多(M2M)のSCは存在しない。 本稿では,異なる犬種と背景位置の急激な相関関係を含む画像分類ベンチマークスイートであるSpawrious-{O2O, M2M}-{Easy, Medium, Hard}を提案する。 このデータセットを作成するために,写真実写画像を生成するためのテキスト・ツー・イメージモデルと,不適切な画像をフィルタする画像キャプションモデルを用いる。 その結果得られたデータセットは、約152,000の画像を含む高品質である。 実験の結果,<60\%$精度のハードスリットにおいて,最先端の群ロバストネス法が耐久性に支障をきたすことがわかった。 モデルの誤分類を調べることで、スプリアスな背景に依存することを検出し、データセットが将来の研究を進める上で大きな課題となることを実証します。

The problem of spurious correlations (SCs) arises when a classifier relies on non-predictive features that happen to be correlated with the labels in the training data. For example, a classifier may misclassify dog breeds based on the background of dog images. This happens when the backgrounds are correlated with other breeds in the training data, leading to misclassifications during test time. Previous SC benchmark datasets suffer from varying issues, e.g., over-saturation or only containing one-to-one (O2O) SCs, but no many-to-many (M2M) SCs arising between groups of spurious attributes and classes. In this paper, we present Spawrious-{O2O, M2M}-{Easy, Medium, Hard}, an image classification benchmark suite containing spurious correlations among different dog breeds and background locations. To create this dataset, we employ a text-to-image model to generate photo-realistic images, and an image captioning model to filter out unsuitable ones. The resulting dataset is of high quality, containing approximately 152,000 images. Our experimental results demonstrate that state-of-the-art group robustness methods struggle with Spawrious, most notably on the Hard-splits with $<60\%$ accuracy. By examining model misclassifications, we detect reliances on spurious backgrounds, demonstrating that our dataset provides a significant challenge to drive future research.
翻訳日:2023-06-12 17:27:45 公開日:2023-06-08
# 反射拡散モデル

Reflected Diffusion Models ( http://arxiv.org/abs/2304.04740v3 )

ライセンス: Link先を確認
Aaron Lou and Stefano Ermon(参考訳) スコアに基づく拡散モデルは、データをノイズにマッピングする確率的微分方程式を逆転することを学ぶ。 しかし、複雑なタスクでは、数値誤差が複雑になり、非常に不自然なサンプルとなる。 以前の研究では、各拡散ステップの後に自然データドメイン(画像のピクセル空間など)にプロジェクションするしきい値化によってこのドリフトを緩和しているが、トレーニングプロセスと生成プロセスのミスマッチにつながる。 データ制約を原則的に組み込むために、データのサポートに基づいて進化する反射確率微分方程式を逆転する反射拡散モデルを提案する。 提案手法は,一般化されたスコアマッチング損失を用いて摂動スコア関数を学習し,拡散誘導,確率ベーストレーニング,ODEサンプリングを含む標準拡散モデルのキーコンポーネントを拡張する。 我々はまた、理論的なギャップをしきい値で埋める:そのようなスキームは単に反射SDEの離散化である。 標準画像ベンチマークでは,本手法は設計上の変更を伴わずに最先端技術と競合し,分類器を使わない指導では,odeを用いて高速に正確なサンプリングを行い,高い指導重みでより忠実なサンプルを生成する。

Score-based diffusion models learn to reverse a stochastic differential equation that maps data to noise. However, for complex tasks, numerical error can compound and result in highly unnatural samples. Previous work mitigates this drift with thresholding, which projects to the natural data domain (such as pixel space for images) after each diffusion step, but this leads to a mismatch between the training and generative processes. To incorporate data constraints in a principled manner, we present Reflected Diffusion Models, which instead reverse a reflected stochastic differential equation evolving on the support of the data. Our approach learns the perturbed score function through a generalized score matching loss and extends key components of standard diffusion models including diffusion guidance, likelihood-based training, and ODE sampling. We also bridge the theoretical gap with thresholding: such schemes are just discretizations of reflected SDEs. On standard image benchmarks, our method is competitive with or surpasses the state of the art without architectural modifications and, for classifier-free guidance, our approach enables fast exact sampling with ODEs and produces more faithful samples under high guidance weight.
翻訳日:2023-06-12 17:17:34 公開日:2023-06-08
# Queer in AI: コミュニティ主導の参加型AIのケーススタディ

Queer In AI: A Case Study in Community-Led Participatory AI ( http://arxiv.org/abs/2303.16972v3 )

ライセンス: Link先を確認
Organizers Of QueerInAI: Anaelia Ovalle, Arjun Subramonian, Ashwin Singh, Claas Voelcker, Danica J. Sutherland, Davide Locatelli, Eva Breznik, Filip Klubi\v{c}ka, Hang Yuan, Hetvi J, Huan Zhang, Jaidev Shriram, Kruno Lehman, Luca Soldaini, Maarten Sap, Marc Peter Deisenroth, Maria Leonor Pacheco, Maria Ryskina, Martin Mundt, Milind Agarwal, Nyx McLean, Pan Xu, A Pranav, Raj Korpan, Ruchira Ray, Sarah Mathew, Sarthak Arora, ST John, Tanvi Anand, Vishakha Agrawal, William Agnew, Yanan Long, Zijie J. Wang, Zeerak Talat, Avijit Ghosh, Nathaniel Dennler, Michael Noseworthy, Sharvani Jha, Emi Baylor, Aditya Joshi, Natalia Y. Bilenko, Andrew McNamara, Raphael Gontijo-Lopes, Alex Markham, Evyn D\v{o}ng, Jackie Kay, Manu Saraswat, Nikhil Vytla, Luke Stark(参考訳) 我々は、コミュニティ主導のAI参加設計のケーススタディとして、AIのQueerを提示する。 参加型デザインと交叉型テネットが, 長年にわたってこのコミュニティのプログラムを形作ってきたか検討した。 プロセスに現われたさまざまな課題について議論し、この組織が参加的原則と交差的原則を運用するに足りなかった方法を考察し、組織への影響を評価します。 queer in aiは、分散化に賛成する階層の拒否、queerコミュニティによる支援やプログラムの構築の成功、queerコミュニティ外のアクターや機関を変える努力を通じて、参加型の方法の実践者や理論家に対して、重要な教訓と洞察を提供する。 最後に、AIにおけるQueerのようなコミュニティが、AIへの参加の文化を育み、疎外された参加者を歓迎し、奨励し、貧弱で搾取的な参加の実践を批判し、個々の研究プロジェクト以外の機関に参加させることによって、AIの参加デザインにどのように貢献するかを理論化します。 aiの研究におけるqueerは、ai内の草の根の活性化と参加方法のケーススタディとして機能し、コミュニティ主導の参加方法と交叉的pr軸の可能性を示し、また参加方法の開発と使用研究者に挑戦、ケーススタディ、ニュアンス的な洞察を提供する。

We present Queer in AI as a case study for community-led participatory design in AI. We examine how participatory design and intersectional tenets started and shaped this community's programs over the years. We discuss different challenges that emerged in the process, look at ways this organization has fallen short of operationalizing participatory and intersectional principles, and then assess the organization's impact. Queer in AI provides important lessons and insights for practitioners and theorists of participatory methods broadly through its rejection of hierarchy in favor of decentralization, success at building aid and programs by and for the queer community, and effort to change actors and institutions outside of the queer community. Finally, we theorize how communities like Queer in AI contribute to the participatory design in AI more broadly by fostering cultures of participation in AI, welcoming and empowering marginalized participants, critiquing poor or exploitative participatory practices, and bringing participation to institutions outside of individual research projects. Queer in AI's work serves as a case study of grassroots activism and participatory methods within AI, demonstrating the potential of community-led participatory methods and intersectional praxis, while also providing challenges, case studies, and nuanced insights to researchers developing and using participatory methods.
翻訳日:2023-06-12 17:16:50 公開日:2023-06-08
# GPT-PINN:パラメトリックPDEの非侵入的メタラーニングに向けた物理インフォームニューラルネットワークの生成

GPT-PINN: Generative Pre-Trained Physics-Informed Neural Networks toward non-intrusive Meta-learning of parametric PDEs ( http://arxiv.org/abs/2303.14878v3 )

ライセンス: Link先を確認
Yanlai Chen and Shawn Koohy(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークの表現性と現代の異種ハードウェアの計算能力を活用する非線形偏微分方程式(PDE)の数値解を得るための強力なツールである。 しかし、そのトレーニングは、特にマルチクエリとリアルタイムのシミュレーション設定では、まだ時間がかかり、パラメータ化は過度に過剰になることが多い。 本稿では、パラメトリックPDEの設定における課題を緩和するために、GPT-PINN(Generative Pre-Trained PINN)を提案する。 GPT-PINNはパラメトリックシステムのための新しいメタラーニングパラダイムである。 ネットワークのネットワークとして、その外部/メタネットワークは、ニューロンの数を著しく減らした1つの隠れ層のみを持つハイパーリダクションである。 さらに、各隠れたニューロンの活性化機能は、事前に選択されたシステム構成で事前訓練された(フル)ピンである。 メタネットワークは適応的にシステムのパラメトリック依存を ``learns' とし、この隠れたレイヤ1ニューロンを '`grows' とした。 最後に、この適応的に選択されたパラメータ値のセットで訓練された非常に少数のネットワークを包含することで、メタネットワークはパラメータ領域全体にわたってパラメトリックシステムの代理解を正確かつ効率的に生成することができる。

Physics-Informed Neural Network (PINN) has proven itself a powerful tool to obtain the numerical solutions of nonlinear partial differential equations (PDEs) leveraging the expressivity of deep neural networks and the computing power of modern heterogeneous hardware. However, its training is still time-consuming, especially in the multi-query and real-time simulation settings, and its parameterization often overly excessive. In this paper, we propose the Generative Pre-Trained PINN (GPT-PINN) to mitigate both challenges in the setting of parametric PDEs. GPT-PINN represents a brand-new meta-learning paradigm for parametric systems. As a network of networks, its outer-/meta-network is hyper-reduced with only one hidden layer having significantly reduced number of neurons. Moreover, its activation function at each hidden neuron is a (full) PINN pre-trained at a judiciously selected system configuration. The meta-network adaptively ``learns'' the parametric dependence of the system and ``grows'' this hidden layer one neuron at a time. In the end, by encompassing a very small number of networks trained at this set of adaptively-selected parameter values, the meta-network is capable of generating surrogate solutions for the parametric system across the entire parameter domain accurately and efficiently.
翻訳日:2023-06-12 17:16:07 公開日:2023-06-08
# 遠隔教師データを用いた統合抽出のための不確実性を考慮したブートストラップ学習

Uncertainty-Aware Bootstrap Learning for Joint Extraction on Distantly-Supervised Data ( http://arxiv.org/abs/2305.03827v2 )

ライセンス: Link先を確認
Yufei Li, Xiao Yu, Yanchi Liu, Haifeng Chen, Cong Liu(参考訳) エンティティペアとその関係を共同で抽出することは、あいまいまたは騒がしいラベルを持つ遠方の教師付きデータを扱う際に困難である。 そこで本研究では,不確実性が高まるほど,モデルの信頼感は根拠の真理と矛盾する可能性が高まるという直観に基づく,不確実性認識型ブートストラップ学習を提案する。 具体的には、まずインスタンスレベルのデータ不確実性を調査して、最初の高信頼な例を作成します。 このようなサブセットは、ノイズの多いインスタンスをフィルタリングし、初期の段階でモデルを高速に収束させるのに役立つ。 ブートストラップ学習中に,ノイズラベルによるモデル間の不確実性を軽減するための正規化として,自己センシングを提案する。 さらに,新たな信頼性トレーニングインスタンスの選択と構築に使用される内部モデルパラメトリック不確かさを推定するために,共同タグ付け確率の確率分散を定義する。 2つの大きなデータセットの実験結果から、我々のアプローチは既存の強いベースラインや関連する手法よりも優れていることが判明した。

Jointly extracting entity pairs and their relations is challenging when working on distantly-supervised data with ambiguous or noisy labels. To mitigate such impact, we propose uncertainty-aware bootstrap learning, which is motivated by the intuition that the higher uncertainty of an instance, the more likely the model confidence is inconsistent with the ground truths. Specifically, we first explore instance-level data uncertainty to create an initial high-confident examples. Such subset serves as filtering noisy instances and facilitating the model to converge fast at the early stage. During bootstrap learning, we propose self-ensembling as a regularizer to alleviate inter-model uncertainty produced by noisy labels. We further define probability variance of joint tagging probabilities to estimate inner-model parametric uncertainty, which is used to select and build up new reliable training instances for the next iteration. Experimental results on two large datasets reveal that our approach outperforms existing strong baselines and related methods.
翻訳日:2023-06-12 17:08:23 公開日:2023-06-08
# 未知分布ドリフトを用いた適応的学習アルゴリズム

An Adaptive Algorithm for Learning with Unknown Distribution Drift ( http://arxiv.org/abs/2305.02252v2 )

ライセンス: Link先を確認
Alessio Mazzetto, Eli Upfal(参考訳) 我々は,未知分布ドリフトを用いた一般学習手法を開発し,解析する。 ドリフト分布の最後の$t$ステップから独立した観測のシーケンスを考えると、アルゴリズムは、時間$t$の現在の分布に関する関数群を無意識的に学習する。 従来の作業とは異なり,この手法ではドリフトの大きさに関する事前の知識を必要としない。 その代わりに、アルゴリズムはサンプルデータに適応する。 ドリフトを明示的に推定することなく、アルゴリズムはドリフトの大きさを事前に知っている学習アルゴリズムとほとんど同じ誤差の関数群を学習する。 さらに,本アルゴリズムはデータに適応するので,ドリフト上のゆるい境界に依存するアルゴリズムよりも学習誤差がよいことを保証できる。

We develop and analyze a general technique for learning with an unknown distribution drift. Given a sequence of independent observations from the last $T$ steps of a drifting distribution, our algorithm agnostically learns a family of functions with respect to the current distribution at time $T$. Unlike previous work, our technique does not require prior knowledge about the magnitude of the drift. Instead, the algorithm adapts to the sample data. Without explicitly estimating the drift, the algorithm learns a family of functions with almost the same error as a learning algorithm that knows the magnitude of the drift in advance. Furthermore, since our algorithm adapts to the data, it can guarantee a better learning error than an algorithm that relies on loose bounds on the drift.
翻訳日:2023-06-12 17:07:12 公開日:2023-06-08
# ランダムニューラルネットワークにおける神経多様性の進化を通した学習

Learning to Act through Evolution of Neural Diversity in Random Neural Networks ( http://arxiv.org/abs/2305.15945v2 )

ライセンス: Link先を確認
Joachim Winther Pedersen and Sebastian Risi(参考訳) 生物学的神経系は、異なる階層のニューロンの形で、多様で洗練された情報処理装置のネットワークからなる。 ほとんどの人工知能ニューラルネットワーク(ANN)では、ニューラルネットワークは、通常、レイヤ内のすべてのニューロンまたはネットワーク全体の間で共有されるアクティベーション関数に抽象化される。 本稿では,複雑な計算が可能な多様なニューロン群を実現するために,神経中心パラメータの最適化を提案する。 このアプローチの可能性を実証し、進化する神経パラメータだけで、エージェントはシナプス重みを最適化することなく、様々な強化学習タスクを解くことができることを示す。 正確な生物学的モデルを目指してはいないが、ニューロンを現在の一般的な手法よりも大きくパラメータ化することで、ランダムニューラルネットワークにおける神経多様性によって得られる計算能力について質問することができる。 提案した結果は、進化した神経多様性と活動に依存した可塑性を組み合わせるなど、将来の興味深い研究方向を開く。

Biological nervous systems consist of networks of diverse, sophisticated information processors in the form of neurons of different classes. In most artificial neural networks (ANNs), neural computation is abstracted to an activation function that is usually shared between all neurons within a layer or even the whole network; training of ANNs focuses on synaptic optimization. In this paper, we propose the optimization of neuro-centric parameters to attain a set of diverse neurons that can perform complex computations. Demonstrating the promise of the approach, we show that evolving neural parameters alone allows agents to solve various reinforcement learning tasks without optimizing any synaptic weights. While not aiming to be an accurate biological model, parameterizing neurons to a larger degree than the current common practice, allows us to ask questions about the computational abilities afforded by neural diversity in random neural networks. The presented results open up interesting future research directions, such as combining evolved neural diversity with activity-dependent plasticity.
翻訳日:2023-06-12 16:37:07 公開日:2023-06-08
# 量子ジュンタチャネルのテストと学習のための近似最適アルゴリズム

Nearly Optimal Algorithms for Testing and Learning Quantum Junta Channels ( http://arxiv.org/abs/2305.12097v2 )

ライセンス: Link先を確認
Zongbo Bao and Penghui Yao(参考訳) 我々は、$n$-qubitから$n$-qubitの量子チャネルである$n$-juntaチャネルのテストと学習の問題を、$n$-qubitsの少なくとも$k$で非自明に作用し、残りの量子ビットは変わらないと考える。 以下に示す。 1. $\widetilde{o}\left(\sqrt{k}\right)$-queryアルゴリズムは、与えられたチャンネルが$k$-juntaチャンネルであるか、あるいは$k$-juntaチャネルから遠く、下限の$\omega\left(\sqrt{k}\right)$がクエリ数で、$\widetilde{o}\left(4^k\right)$-queryアルゴリズムが$k$-juntaチャンネルを学習し、下限の$\omega\left(4^k/k\right)$がクエリ数で区別する。 これは Chen らによって提起された開問題 (2023) に答える。 これらの問題を解決するため、超作用素空間上のフーリエ解析フレームワークを開発し、モンタナロとオズボーンで導入された作用素の空間上でフーリエ解析を拡張するいくつかの基本的な性質を証明した(2010年)。

We consider the problems of testing and learning quantum $k$-junta channels, which are $n$-qubit to $n$-qubit quantum channels acting non-trivially on at most $k$ out of $n$ qubits and leaving the rest of qubits unchanged. We show the following. 1. An $\widetilde{O}\left(\sqrt{k}\right)$-query algorithm to distinguish whether the given channel is $k$-junta channel or is far from any $k$-junta channels, and a lower bound $\Omega\left(\sqrt{k}\right)$ on the number of queries; 2. An $\widetilde{O}\left(4^k\right)$-query algorithm to learn a $k$-junta channel, and a lower bound $\Omega\left(4^k/k\right)$ on the number of queries. This answers an open problem raised by Chen et al. (2023). In order to settle these problems, we develop a Fourier analysis framework over the space of superoperators and prove several fundamental properties, which extends the Fourier analysis over the space of operators introduced in Montanaro and Osborne (2010).
翻訳日:2023-06-12 16:33:59 公開日:2023-06-08
# 適応型条件量子ニューラルプロセス

Adaptive Conditional Quantile Neural Processes ( http://arxiv.org/abs/2305.18777v2 )

ライセンス: Link先を確認
Peiman Mohseni, Nick Duffield, Bani Mallick, Arman Hasanzadeh(参考訳) ニューラルネットワークは確率論的過程をパラメータ化するためにニューラルネットワークの柔軟性を継承する確率論的モデルのファミリーである。 特に回帰問題において、よく校正された予測を提供し、新しいタスクに素早く適応するにもかかわらず、予測可能性を表すのによく使われるガウスの仮定は、マルチモーダル分布のようなより複雑な分布を捉えることに失敗する。 この制限を克服するために、ニューラルプロセスファミリーの新しいメンバーである条件量子ニューラルプロセス(CQNP)を提案する。 モデルが情報量の推定に集中することを学ぶ量子回帰の拡張を導入することにより、サンプリング効率と予測精度をさらに向上できることが示される。 実データおよび合成データを用いた実験は,ベースラインに比べて予測性能が大幅に向上し,マルチモーダリティなどの異種分布特性のモデル化が向上した。

Neural processes are a family of probabilistic models that inherit the flexibility of neural networks to parameterize stochastic processes. Despite providing well-calibrated predictions, especially in regression problems, and quick adaptation to new tasks, the Gaussian assumption that is commonly used to represent the predictive likelihood fails to capture more complicated distributions such as multimodal ones. To overcome this limitation, we propose Conditional Quantile Neural Processes (CQNPs), a new member of the neural processes family, which exploits the attractive properties of quantile regression in modeling the distributions irrespective of their form. By introducing an extension of quantile regression where the model learns to focus on estimating informative quantiles, we show that the sampling efficiency and prediction accuracy can be further enhanced. Our experiments with real and synthetic datasets demonstrate substantial improvements in predictive performance compared to the baselines, and better modeling of heterogeneous distributions' characteristics such as multimodality.
翻訳日:2023-06-12 16:25:15 公開日:2023-06-08
# Eclipse: 意図しない影による照明と材料の曖昧さ

Eclipse: Disambiguating Illumination and Materials using Unintended Shadows ( http://arxiv.org/abs/2305.16321v2 )

ライセンス: Link先を確認
Dor Verbin, Ben Mildenhall, Peter Hedman, Jonathan T. Barron, Todd Zickler, Pratul P. Srinivasan(参考訳) 物体の外観を素材の表現や周囲の照明に分解することは、物体の3d形状が事前に分かっている場合でも困難である。 この問題は、拡散材料が入射光をひどくぼやけ、高周波照明下の拡散材料が低周波照明下で光沢材料と区別できないため、不調である。 被写体に投げられた影のような意図しない影を利用して、拡散した物体からでも正確な材料や照明を復元できることを示した。 これらのシャドウは従来の逆レンダリングパイプラインでは迷惑ですが、ここではコンディショニングを改善し、物質を照らすあいまいさを解決するシグナルとして活用します。 本研究では,物体の画像から空間的変化のある物質,周囲の照明環境,および不注意に影を落としている未確認光閉塞者の形状を共同で復元するモンテカルロ線トレーシング法を提案する。

Decomposing an object's appearance into representations of its materials and the surrounding illumination is difficult, even when the object's 3D shape is known beforehand. This problem is ill-conditioned because diffuse materials severely blur incoming light, and is ill-posed because diffuse materials under high-frequency lighting can be indistinguishable from shiny materials under low-frequency lighting. We show that it is possible to recover precise materials and illumination -- even from diffuse objects -- by exploiting unintended shadows, like the ones cast onto an object by the photographer who moves around it. These shadows are a nuisance in most previous inverse rendering pipelines, but here we exploit them as signals that improve conditioning and help resolve material-lighting ambiguities. We present a method based on differentiable Monte Carlo ray tracing that uses images of an object to jointly recover its spatially-varying materials, the surrounding illumination environment, and the shapes of the unseen light occluders who inadvertently cast shadows upon it.
翻訳日:2023-06-12 16:22:59 公開日:2023-06-08
# 価値関数は制御障壁関数である:制御理論を用いた安全ポリシーの検証

Value Functions are Control Barrier Functions: Verification of Safe Policies using Control Theory ( http://arxiv.org/abs/2306.04026v2 )

ライセンス: Link先を確認
Daniel C.H. Tan and Fernando Acero and Robert McCarthy and Dimitrios Kanoulas and Zhibin Li(参考訳) 強化学習(RL)ポリシーの安全性を確保することは、RLの汎用性とスケーラビリティにもかかわらず、安全クリティカルなアプリケーションにとって大きな課題となる。 そこで本研究では,制御理論から学習値関数へ検証手法を適用する新しい手法を提案する。 安全維持のためのタスク構造を分析することで、価値関数と制御障壁関数のリンクを確立する元の定理を定式化する。 さらに,安全制御タスクにおける価値関数の検証のための新しい指標と,学習を改善するための実践的実装詳細を提案する。 本研究は,RLポリシの制御理論から検証手法の多様性を解放し,RLベースの制御システムの汎用的かつスケーラブルかつ検証可能な設計のための形式的枠組みに向けた重要な一歩となる証明書学習手法を提案する。

Guaranteeing safe behaviour of reinforcement learning (RL) policies poses significant challenges for safety-critical applications, despite RL's generality and scalability. To address this, we propose a new approach to apply verification methods from control theory to learned value functions. By analyzing task structures for safety preservation, we formalize original theorems that establish links between value functions and control barrier functions. Further, we propose novel metrics for verifying value functions in safe control tasks and practical implementation details to improve learning. Our work presents a novel method for certificate learning, which unlocks a diversity of verification techniques from control theory for RL policies, and marks a significant step towards a formal framework for the general, scalable, and verifiable design of RL-based control systems.
翻訳日:2023-06-12 16:16:29 公開日:2023-06-08
# 印象分散を考慮した強化学習によるパーソナライズ広告の公平性

Towards Fairness in Personalized Ads Using Impression Variance Aware Reinforcement Learning ( http://arxiv.org/abs/2306.03293v2 )

ライセンス: Link先を確認
Aditya Srinivas Timmaraju, Mehdi Mashayekhi, Mingliang Chen, Qi Zeng, Quintin Fettes, Wesley Cheung, Yihan Xiao, Manojkumar Rangasamy Kannadasan, Pushkar Tripathi, Sean Gahagan, Miranda Bogen, Rob Roudani(参考訳) グループ間での広告印象結果のばらつきは、パーソナライズされた広告システムにおけるアルゴリズムバイアスを示す可能性があると考えられている。 パーソナライズされたシステムのコンテキストに適用可能なフェアネスの定義は数多く存在するが,メタの広告システムにおいて,より公平な結果を達成するために,VRS(Variance Reduction System)と呼ばれるフレームワークを提案する。 VRSは、選択された保護されたクラス(PC)属性に対する印象の分配を目指しており、広告を閲覧する視聴者(広告主が基準をターゲティングする機能)の人口統計をプライバシー保護の方法でより緊密に調整している。 まず、性別や推定人種を含むpc属性に対する広告印象のばらつきの観点からフェアネスギャップを定量化するメトリクスを定義する。 次に、インプレッション分散を意識した方法で広告のランク付けを行うVRSを示す。 パラメータ選択に関する広範囲なシミュレーションによりVRSを評価し,VRSが選択した公正度測定値に与える影響を検討した。 最終的に、VRSをMetaの広告システムに適用したオンラインA/Bテスト結果を提示し、今後の作業について議論する。 われわれはこのVRSを米国の全ユーザーに対してハウジング広告のために展開し、フェアネスの指標を大幅に改善した。 VRSは、オンライン広告における複数のPC属性の公平性を追求する最初の大規模なデプロイフレームワークである。

Variances in ad impression outcomes across demographic groups are increasingly considered to be potentially indicative of algorithmic bias in personalized ads systems. While there are many definitions of fairness that could be applicable in the context of personalized systems, we present a framework which we call the Variance Reduction System (VRS) for achieving more equitable outcomes in Meta's ads systems. VRS seeks to achieve a distribution of impressions with respect to selected protected class (PC) attributes that more closely aligns the demographics of an ad's eligible audience (a function of advertiser targeting criteria) with the audience who sees that ad, in a privacy-preserving manner. We first define metrics to quantify fairness gaps in terms of ad impression variances with respect to PC attributes including gender and estimated race. We then present the VRS for re-ranking ads in an impression variance-aware manner. We evaluate VRS via extensive simulations over different parameter choices and study the effect of the VRS on the chosen fairness metric. We finally present online A/B testing results from applying VRS to Meta's ads systems, concluding with a discussion of future work. We have deployed the VRS to all users in the US for housing ads, resulting in significant improvement in our fairness metric. VRS is the first large-scale deployed framework for pursuing fairness for multiple PC attributes in online advertising.
翻訳日:2023-06-12 16:15:54 公開日:2023-06-08
# bhl-bclクロスオーバー:非線形から線形量子増幅へ

The BHL-BCL crossover: from nonlinear to linear quantum amplification ( http://arxiv.org/abs/2306.05458v1 )

ライセンス: Link先を確認
Juan Ram\'on Mu\~noz de Nova and Fernando Sols(参考訳) ブラックホールレーザー(bhl)効果は、共鳴キャビティとして働く一対の水平線の存在下でのホーキング放射の自己増幅である。 その明確な観察は、アナログ重力場において依然として大きな挑戦である。 流動性原子凝縮体では、BHL効果は、ボゴリューボフ・チェレンコフ・ランダウ(BCL)放射が静摂動によって共鳴的に励起される有限超音速領域で生じる。 したがって、bhlを生成する実験的な試みは、実験で既に見られているように、bclバックグラウンドの存在に対処することになる。 ここでは,両現象をあいまいに分離できる理想モデルを用いて,BHL-BCLクロスオーバーの理論的研究を行う。 不安定な振り子にアナロジーを描くことで、量子揺らぎと古典的刺激の相互作用(量子bhl、古典bhl、bcl)に応じて3つの主要なレジームを区別する。 非常に一般的なスケーリングの議論に基づいて、飽和まで量子揺らぎの非線形増幅は、量子bhlの最も頑健な特性として同定される。 古典的なbhlは代わりに線形量子増幅器として振る舞うが、出力は入力に比例する。 最後に、BCL体制は線形量子増幅器としても機能するが、その利得は古典的なBHLに比べて指数関数的に小さい。 この研究の結果はアナログ重力だけでなく、それぞれの現象を曖昧に区別し、bhl効果を明確に観察するための実験的なスキームを設計するのに役立つだけでなく、量子技術におけるアナログ概念の応用を見出す可能性も開けている。

The black-hole laser (BHL) effect is the self-amplification of Hawking radiation in the presence of a pair of horizons which act as a resonant cavity. Its clear observation still remains a major challenge in the analogue gravity field. In a flowing atomic condensate, the BHL effect arises in a finite supersonic region, where Bogoliubov-Cherenkov-Landau (BCL) radiation is resonantly excited by any static perturbation. Thus, any experimental attempt to produce a BHL will deal with the presence of a BCL background, as already observed in experiments. Here, we perform a theoretical study of the BHL-BCL crossover using an idealized model where both phenomena can be unambiguously isolated. By drawing an analogy with an unstable pendulum, we distinguish three main regimes according to the interplay between quantum fluctuations and classical stimulation: quantum BHL, classical BHL, and BCL. Based on quite general scaling arguments, the nonlinear amplification of quantum fluctuations until saturation is identified as the most robust trait of a quantum BHL. A classical BHL behaves instead as a linear quantum amplifier, where the output is proportional to the input. Finally, the BCL regime also acts as a linear quantum amplifier, but its gain is exponentially smaller as compared to a classical BHL. The results of this work not only are of interest for analogue gravity, where they help to distinguish unambiguously each phenomenon and to design experimental schemes for a clear observation of the BHL effect, but they also open the prospect of finding applications of analogue concepts in quantum technologies.
翻訳日:2023-06-12 16:06:07 公開日:2023-06-08
# 変形性構音の潜在句マッチング

Latent Phrase Matching for Dysarthric Speech ( http://arxiv.org/abs/2306.05446v1 )

ライセンス: Link先を確認
Colin Lea, Dianna Yee, Jaya Narain, Zifang Huang, Lauren Tooley, Jeffrey P. Bigham, Leah Findlater(参考訳) 多くの消費者向け音声認識システムは、音声認識障害のある人向けに調整されていないため、音声認識とユーザエクスペリエンスが低下し、特に深刻な音声の相違が生じている。 近年の研究では、非定型的な音声パターンを持つ人々からのパーソナライズされた音声モデルへの関心が強調されている。 本稿では,クエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。これは少量の音声を用いて訓練され,言語に依存せず,従来の発音レキシコンを仮定しない。 構音障害患者32名から収集した内部データセットでは, 本手法は重症度に関係なく動作し, 商用音声認識システムと比較してリコール率が60%向上することを示す。 変形性音声の公的な EasyCall データセットでは,その精度を30.5%向上させる。 フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。

Many consumer speech recognition systems are not tuned for people with speech disabilities, resulting in poor recognition and user experience, especially for severe speech differences. Recent studies have emphasized interest in personalized speech models from people with atypical speech patterns. We propose a query-by-example-based personalized phrase recognition system that is trained using small amounts of speech, is language agnostic, does not assume a traditional pronunciation lexicon, and generalizes well across speech difference severities. On an internal dataset collected from 32 people with dysarthria, this approach works regardless of severity and shows a 60% improvement in recall relative to a commercial speech recognition system. On the public EasyCall dataset of dysarthric speech, our approach improves accuracy by 30.5%. Performance degrades as the number of phrases increases, but consistently outperforms ASR systems when trained with 50 unique phrases.
翻訳日:2023-06-12 16:05:41 公開日:2023-06-08
# 深層学習による分子系の平衡分布予測に向けて

Towards Predicting Equilibrium Distributions for Molecular Systems with Deep Learning ( http://arxiv.org/abs/2306.05445v1 )

ライセンス: Link先を確認
Shuxin Zheng, Jiyan He, Chang Liu, Yu Shi, Ziheng Lu, Weitao Feng, Fusong Ju, Jiaxi Wang, Jianwei Zhu, Yaosen Min, He Zhang, Shidi Tang, Hongxia Hao, Peiran Jin, Chi Chen, Frank No\'e, Haiguang Liu, Tie-Yan Liu(参考訳) ディープラーニングの進歩は分子の構造予測を大幅に改善した。 しかし、実世界の応用において重要な多くの巨視的観測は単一の分子構造の関数ではなく、むしろ構造の平衡分布から決定される。 分子動力学シミュレーションのようなこれらの分布を得る伝統的な方法は計算コストが高く、しばしば難解である。 本稿では,分子系の平衡分布を予測するために,分散グラフマー(distributional graphormer, dig)と呼ばれる新しいディープラーニングフレームワークを提案する。 熱力学におけるアニール過程にインスパイアされたDiGは、化学グラフやタンパク質配列などの分子系の記述子に条件付けられた単純な分布を平衡分布へ変換するために、ディープニューラルネットワークを使用する。 このフレームワークは多様なコンフォメーションの効率的な生成を可能にし、状態密度の推定を提供する。 タンパク質コンホメーションサンプリング,リガンド構造サンプリング,触媒吸着サンプリング,特性誘導構造生成など,いくつかの分子課題におけるDiGの性能を示す。 DiGは、分子系を統計的に理解するための方法論において重要な進歩を示し、分子科学における新たな研究機会を開く。

Advances in deep learning have greatly improved structure prediction of molecules. However, many macroscopic observations that are important for real-world applications are not functions of a single molecular structure, but rather determined from the equilibrium distribution of structures. Traditional methods for obtaining these distributions, such as molecular dynamics simulation, are computationally expensive and often intractable. In this paper, we introduce a novel deep learning framework, called Distributional Graphormer (DiG), in an attempt to predict the equilibrium distribution of molecular systems. Inspired by the annealing process in thermodynamics, DiG employs deep neural networks to transform a simple distribution towards the equilibrium distribution, conditioned on a descriptor of a molecular system, such as a chemical graph or a protein sequence. This framework enables efficient generation of diverse conformations and provides estimations of state densities. We demonstrate the performance of DiG on several molecular tasks, including protein conformation sampling, ligand structure sampling, catalyst-adsorbate sampling, and property-guided structure generation. DiG presents a significant advancement in methodology for statistically understanding molecular systems, opening up new research opportunities in molecular science.
翻訳日:2023-06-12 16:05:27 公開日:2023-06-08
# PIXIU:ファイナンスのための大規模言語モデル、インストラクションデータ、評価ベンチマーク

PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance ( http://arxiv.org/abs/2306.05443v1 )

ライセンス: Link先を確認
Qianqian Xie, Weiguang Han, Xiao Zhang, Yanzhao Lai, Min Peng, Alejandro Lopez-Lira, Jimin Huang(参考訳) 大規模言語モデル(LLM)は、金融分野における自然言語処理(NLP)に優れたパフォーマンスを示しているが、金融人工知能(AI)のオープンソース開発を継続的に進める上で重要な、財務調整用LLM、命令チューニングデータセット、評価ベンチマークは公開されていない。 本稿では,PIXIU,命令データ付き微調整LLaMAに基づく最初の金融LLM,微調整をサポートした136Kデータサンプルを用いた最初の命令データ,5つのタスクと9つのデータセットによる評価ベンチマークなどを紹介する。 まず,様々な財務課題,財務文書タイプ,財務データモダリティを考慮した大規模マルチタスク指導データを構築した。 そこで我々は,FinMAと呼ばれる金融LLMを提案する。LLaMAに構築したデータセットを微調整することで,様々な財務業務の指示に従うことができる。 金融llmの評価を支援するために、5つの金融nlpタスクと1つの財務予測タスクを含む一連の重要な金融タスクをカバーする標準ベンチマークを提案する。 本ベンチマークでは、FinMAおよび既存LLMの詳細な分析を行い、重要な財務課題に対処する際の長所と短所を明らかにする。 このモデル、データセット、ベンチマーク、実験結果は、金融AIにおける将来の研究を促進するためにオープンソース化されている。

Although large language models (LLMs) has shown great performance on natural language processing (NLP) in the financial domain, there are no publicly available financial tailtored LLMs, instruction tuning datasets, and evaluation benchmarks, which is critical for continually pushing forward the open-source development of financial artificial intelligence (AI). This paper introduces PIXIU, a comprehensive framework including the first financial LLM based on fine-tuning LLaMA with instruction data, the first instruction data with 136K data samples to support the fine-tuning, and an evaluation benchmark with 5 tasks and 9 datasets. We first construct the large-scale multi-task instruction data considering a variety of financial tasks, financial document types, and financial data modalities. We then propose a financial LLM called FinMA by fine-tuning LLaMA with the constructed dataset to be able to follow instructions for various financial tasks. To support the evaluation of financial LLMs, we propose a standardized benchmark that covers a set of critical financial tasks, including five financial NLP tasks and one financial prediction task. With this benchmark, we conduct a detailed analysis of FinMA and several existing LLMs, uncovering their strengths and weaknesses in handling critical financial tasks. The model, datasets, benchmark, and experimental results are open-sourced to facilitate future research in financial AI.
翻訳日:2023-06-12 16:05:09 公開日:2023-06-08
# flowformer:光フローのためのトランスアーキテクチャとそのマスク付きコストボリュームオートエンコーディング

FlowFormer: A Transformer Architecture and Its Masked Cost Volume Autoencoding for Optical Flow ( http://arxiv.org/abs/2306.05442v1 )

ライセンス: Link先を確認
Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Yijin Li, Hongwei Qin, Jifeng Dai, Xiaogang Wang, and Hongsheng Li(参考訳) 本稿では,新しいトランスフォーマーベースのネットワークアーキテクチャであるFlowFormerとMasked Cost Volume AutoEncoding (MCVA)を導入し,光フロー推定の問題に取り組む。 FlowFormerは、ソースターゲットイメージペアから構築された4Dコストボリュームをトークン化し、コストボリュームエンコーダデコーダアーキテクチャでフロー推定を反復的に洗練する。 コストボリュームエンコーダは、遅延空間内の代替グループ変換器〜(AGT)層でコストメモリを導出し、デコーダは動的位置コストクエリでコストメモリからのフローを繰り返し復号する。 sintelベンチマークでは、flowformerアーキテクチャは、クリーンで最終パスで1.16および2.09のエンドポイントエラー~(aepe)、gma~(1.388および2.47)から16.5\%と15.5\%のエラー低減を達成している。 MCVAは、コストボリュームエンコーダをマスク付きオートエンコードスキームで事前トレーニングすることでFlowFormerを強化し、ラベルのないデータでFlowFormerの能力をさらに解放する。 これは光学的フロー推定において特に重要である。なぜなら、地上の真理流は他の視覚タスクのラベルよりも取得するコストが高いからである。 MCVAはFlowFormerを全面的に改善し、FlowFormer+MCVAはSintelとKITTI-2015ベンチマークで発表されたすべてのメソッドの中で第1位となり、最高の一般化性能を達成する。 具体的には、FlowFormer+MCVAはSintelベンチマークで1.07と1.94のAEPEを達成する。

This paper introduces a novel transformer-based network architecture, FlowFormer, along with the Masked Cost Volume AutoEncoding (MCVA) for pretraining it to tackle the problem of optical flow estimation. FlowFormer tokenizes the 4D cost-volume built from the source-target image pair and iteratively refines flow estimation with a cost-volume encoder-decoder architecture. The cost-volume encoder derives a cost memory with alternate-group transformer~(AGT) layers in a latent space and the decoder recurrently decodes flow from the cost memory with dynamic positional cost queries. On the Sintel benchmark, FlowFormer architecture achieves 1.16 and 2.09 average end-point-error~(AEPE) on the clean and final pass, a 16.5\% and 15.5\% error reduction from the GMA~(1.388 and 2.47). MCVA enhances FlowFormer by pretraining the cost-volume encoder with a masked autoencoding scheme, which further unleashes the capability of FlowFormer with unlabeled data. This is especially critical in optical flow estimation because ground truth flows are more expensive to acquire than labels in other vision tasks. MCVA improves FlowFormer all-sided and FlowFormer+MCVA ranks 1st among all published methods on both Sintel and KITTI-2015 benchmarks and achieves the best generalization performance. Specifically, FlowFormer+MCVA achieves 1.07 and 1.94 AEPE on the Sintel benchmark, leading to 7.76\% and 7.18\% error reductions from FlowFormer.
翻訳日:2023-06-12 16:04:44 公開日:2023-06-08
# CLC: コントラスト表現学習によるクラスタ割り当て

CLC: Cluster Assignment via Contrastive Representation Learning ( http://arxiv.org/abs/2306.05439v1 )

ライセンス: Link先を確認
Fei Ding, Dan Zhang, Yin Yang, Venkat Krovi, Feng Luo(参考訳) クラスタリングは、手動のアノテーションなしでサンプルをクラスタにグループ化する、重要かつ困難なタスクである。 最近の研究は、自己教師付き学習から学んだ特徴表現をクラスタリングすることで、小さなデータセットで優れた成果を上げている。 しかし、ImageNetのような多数のクラスタを持つデータセットでは、現在のメソッドは高いクラスタリング性能を達成できない。 本稿では、コントラスト学習を用いてクラスタ割り当てを直接学習するコントラスト学習ベースのクラスタリング(CLC)を提案する。 表現を2つの部分に分解する: 1つは等分制約の下で分類情報をエンコードし、もう1つはインスタンスワイズ因子をキャプチャする。 表現の両部分を用いた対比的損失を提案する。 提案するコントラスト損失を理論的に解析し,clcがクラスタ割り当てを学習しながら負のサンプルに対して異なる重みを設定することを明らかにした。 さらなる勾配解析により、より大きい重量はより硬い負のサンプルに焦点を合わせる傾向にあることが示された。 したがって、提案する損失は、クラスタ割り当てを効率的に学習できる表現力が高い。 実験により、CLCは複数のベンチマークデータセット上で、最先端または高い競争力を持つクラスタリング性能を達成することが示された。 特に、完全なImageNetデータセットで53.4%の精度を実現し、既存のメソッドを大きなマージン(10.2%以上)で上回ります。

Clustering remains an important and challenging task of grouping samples into clusters without manual annotations. Recent works have achieved excellent results on small datasets by performing clustering on feature representations learned from self-supervised learning. However, for datasets with a large number of clusters, such as ImageNet, current methods still can not achieve high clustering performance. In this paper, we propose Contrastive Learning-based Clustering (CLC), which uses contrastive learning to directly learn cluster assignment. We decompose the representation into two parts: one encodes the categorical information under an equipartition constraint, and the other captures the instance-wise factors. We propose a contrastive loss using both parts of the representation. We theoretically analyze the proposed contrastive loss and reveal that CLC sets different weights for the negative samples while learning cluster assignments. Further gradient analysis shows that the larger weights tend to focus more on the hard negative samples. Therefore, the proposed loss has high expressiveness that enables us to efficiently learn cluster assignments. Experimental evaluation shows that CLC achieves overall state-of-the-art or highly competitive clustering performance on multiple benchmark datasets. In particular, we achieve 53.4% accuracy on the full ImageNet dataset and outperform existing methods by large margins (+ 10.2%).
翻訳日:2023-06-12 16:04:10 公開日:2023-06-08
# DynamoRep:ブラックボックス最適化問題の分類のための軌道に基づく人口動態

DynamoRep: Trajectory-Based Population Dynamics for Classification of Black-box Optimization Problems ( http://arxiv.org/abs/2306.05438v1 )

ライセンス: Link先を確認
Gjorgjina Cenikj, Ga\v{s}per Petelin, Carola Doerr, Peter Koro\v{s}ec, Tome Eftimov(参考訳) 機械学習(ML)モデルの最適化アルゴリズム解析への応用には,数値的特徴を用いた最適化問題の表現が必要である。 これらの機能は、目の前の問題に対して適切なアルゴリズムを選択または設定するように訓練されたmlモデルの入力として使用できる。 問題インスタンスに関する純粋なブラックボックス最適化情報は関数評価によってのみ得ることができるので、例えばランダムサンプリングを用いて、特徴抽出のためのいくつかの機能評価を専らする手法が一般的である。 このアプローチには,(1)実際の最適化フェーズに残される予算を削減し,(2)問題解決者間相互作用から得られる貴重な情報を無視する,という2つの重要な欠点がある。 本稿では,簡単な記述統計を用いて最適化アルゴリズムの軌跡を記述する特徴抽出手法を提案する。 我々は,Black Box Optimization Benchmarking (BBOB) スイートから問題クラスを分類する作業において生成した特徴を評価する。 提案したDynamoRep機能は,最適化アルゴリズムが動作している問題クラスを特定するのに十分な情報を捕捉し,全ての実験において95%の分類精度を実現する。

The application of machine learning (ML) models to the analysis of optimization algorithms requires the representation of optimization problems using numerical features. These features can be used as input for ML models that are trained to select or to configure a suitable algorithm for the problem at hand. Since in pure black-box optimization information about the problem instance can only be obtained through function evaluation, a common approach is to dedicate some function evaluations for feature extraction, e.g., using random sampling. This approach has two key downsides: (1) It reduces the budget left for the actual optimization phase, and (2) it neglects valuable information that could be obtained from a problem-solver interaction. In this paper, we propose a feature extraction method that describes the trajectories of optimization algorithms using simple descriptive statistics. We evaluate the generated features for the task of classifying problem classes from the Black Box Optimization Benchmarking (BBOB) suite. We demonstrate that the proposed DynamoRep features capture enough information to identify the problem class on which the optimization algorithm is running, achieving a mean classification accuracy of 95% across all experiments.
翻訳日:2023-06-12 16:03:49 公開日:2023-06-08
# 多様な表現を用いたワンステップマルチビュークラスタリング

One-step Multi-view Clustering with Diverse Representation ( http://arxiv.org/abs/2306.05437v1 )

ライセンス: Link先を確認
Xinhang Wan, Jiyuan Liu, Jue Wang, Xinwang Liu, Siwei Wang, Yi Wen, Tianjiao Wan, En Zhu(参考訳) マルチビュークラスタリングは、ビュー間の一貫性と補完的な情報を活用する能力から、広く注目を集めている。 最近は大きな進歩を遂げているが、既存の手法のほとんどは複雑さが高く、大規模なタスクに適用できない。 行列分解によるマルチビュークラスタリングは、この問題に対処する代表である。 しかし、そのほとんどは、データ行列を一定の次元にマッピングし、モデルの表現性を制限している。 さらに、様々な方法が2段階のプロセス、すなわちマルチモーダル学習とその後の$k$-meansに苦しめられ、必然的に準最適クラスタリング結果を引き起こす。 そこで本研究では,多視点学習と$k$-meansを統合フレームワークに組み込んだ一段階のマルチビュークラスタリングを提案する。 具体的には,独自のデータ行列を様々な潜在空間に投影して包括的情報を取得し,自己教師あり方式で自動重み付けを行う。 次に、多次元情報行列を直接使用して、コンセンサス離散クラスタリングラベルを得る。 表現学習とクラスタリングの統合作業により、最終的な結果の品質が向上する。 さらに,結果の収束性を証明し,効率の良い最適化アルゴリズムを開発した。 各種データセットの総合的な実験により,提案手法の有望なクラスタリング性能を示す。

Multi-view clustering has attracted broad attention due to its capacity to utilize consistent and complementary information among views. Although tremendous progress has been made recently, most existing methods undergo high complexity, preventing them from being applied to large-scale tasks. Multi-view clustering via matrix factorization is a representative to address this issue. However, most of them map the data matrices into a fixed dimension, which limits the expressiveness of the model. Moreover, a range of methods suffer from a two-step process, i.e., multimodal learning and the subsequent $k$-means, inevitably causing a sub-optimal clustering result. In light of this, we propose a one-step multi-view clustering with diverse representation method, which incorporates multi-view learning and $k$-means into a unified framework. Specifically, we first project original data matrices into various latent spaces to attain comprehensive information and auto-weight them in a self-supervised manner. Then we directly use the information matrices under diverse dimensions to obtain consensus discrete clustering labels. The unified work of representation learning and clustering boosts the quality of the final results. Furthermore, we develop an efficient optimization algorithm to solve the resultant problem with proven convergence. Comprehensive experiments on various datasets demonstrate the promising clustering performance of our proposed method.
翻訳日:2023-06-12 16:03:30 公開日:2023-06-08
# エスカレーター型健康状態分析システムを用いた生活モデルの構築

Remaining Useful Life Modelling with an Escalator Health Condition Analytic System ( http://arxiv.org/abs/2306.05436v1 )

ライセンス: Link先を確認
Inez M. Zwetsloot, Yu Lin, Jiaqi Qiu, Lishuai Li, William Ka Fai Lee, Edmond Yin San Yeung, Colman Yiu Wah Yeung, and Chris Chun Long Wong(参考訳) エスカレーターの改修は通常、製造者が推奨する設計寿命と結びついている。 しかしながら、エスカレーターの実際の有用寿命は、年齢のみではなく、ランタイム、ワークロード、メンテナンス品質、振動などに影響される運用条件によって決定されるべきである。 本研究の目的は,改良決定を支援するエスカレーターのための総合的健康状態分析システムの開発である。 分析システムは4つの部分からなる。 1) オンラインデータ収集及び処理 2) 状態監視用ダッシュボード 3)健康指数モデル,及び 4) 有用な生命予測の継続。 結果は利用できます a) 資産交換計画を支援するため、エスカレーターの残りの有用寿命を予測すること ロ 警報信号の根本原因(成分)を示唆し、振動が閾値及び信号診断を超えたときの警報を含む、エスカレーターのリアルタイム状態の監視。

The refurbishment of an escalator is usually linked with its design life as recommended by the manufacturer. However, the actual useful life of an escalator should be determined by its operating condition which is affected by the runtime, workload, maintenance quality, vibration, etc., rather than age only. The objective of this project is to develop a comprehensive health condition analytic system for escalators to support refurbishment decisions. The analytic system consists of four parts: 1) online data gathering and processing; 2) a dashboard for condition monitoring; 3) a health index model; and 4) remaining useful life prediction. The results can be used for a) predicting the remaining useful life of the escalators, in order to support asset replacement planning and b) monitoring the real-time condition of escalators; including alerts when vibration exceeds the threshold and signal diagnosis, giving an indication of possible root cause (components) of the alert signal.
翻訳日:2023-06-12 16:03:11 公開日:2023-06-08
# 開語彙オブジェクト検出のためのマルチモーダル分類器

Multi-Modal Classifiers for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2306.05493v1 )

ライセンス: Link先を確認
Prannay Kaul, Weidi Xie, Andrew Zisserman(参考訳) この論文の目標は、open-vocabulary object detection (ovod) $\unicode{x2013}$ トレーニング中に見られるカテゴリのセットを超えてオブジェクトを検出できるモデルを構築することである。 標準の2段階オブジェクト検出アーキテクチャを採用し、言語記述、画像例、および2つの組み合わせによる3つの新しいカテゴリを特定する方法を模索する。 まず、大言語モデル(LLM)にオブジェクトクラスに対する情報的言語記述を生成し、強力なテキストベースの分類器を構築するよう促し、次に、画像の任意の画像を入力として取り込み、視覚ベースの分類器を形成するビジュアルアグリゲータを使用し、第3に、言語記述や画像の例から情報を融合し、マルチモーダル分類器を生成するシンプルな方法を提案する。 挑戦的なLVISオープン語彙ベンチマークを評価する際に、次のように示す。 i) テキストベースの分類器は,従来のOVODのすべての作業より優れています。 (二)従来の作業において、視覚に基づく分類器とテキストベースの分類器を併用する。 (iii)マルチモーダル分類器の使用は、モダリティのみよりも優れており、最後に、 (iv) テキストベースおよびマルチモーダル分類器は, 完全教師付き検出器よりも優れた性能を示す。

The goal of this paper is open-vocabulary object detection (OVOD) $\unicode{x2013}$ building a model that can detect objects beyond the set of categories seen at training, thus enabling the user to specify categories of interest at inference without the need for model retraining. We adopt a standard two-stage object detector architecture, and explore three ways for specifying novel categories: via language descriptions, via image exemplars, or via a combination of the two. We make three contributions: first, we prompt a large language model (LLM) to generate informative language descriptions for object classes, and construct powerful text-based classifiers; second, we employ a visual aggregator on image exemplars that can ingest any number of images as input, forming vision-based classifiers; and third, we provide a simple method to fuse information from language descriptions and image exemplars, yielding a multi-modal classifier. When evaluating on the challenging LVIS open-vocabulary benchmark we demonstrate that: (i) our text-based classifiers outperform all previous OVOD works; (ii) our vision-based classifiers perform as well as text-based classifiers in prior work; (iii) using multi-modal classifiers perform better than either modality alone; and finally, (iv) our text-based and multi-modal classifiers yield better performance than a fully-supervised detector.
翻訳日:2023-06-12 15:57:13 公開日:2023-06-08
# マルチエージェントにおけるPACセマンティクスの学習可能性

Learnability with PAC Semantics for Multi-agent Beliefs ( http://arxiv.org/abs/2306.05490v1 )

ライセンス: Link先を確認
Ionela G. Mocanu, Vaishak Belle and Brendan Juba(参考訳) 推論と帰納の緊張は、おそらく哲学、認知、人工知能といった分野において最も根本的な問題である。 影響力のある論文で、ヴァリアントは学習の課題は推論と統合されるべきだと認識した。 特に、論理式で定式化された場合、確率近似学習アルゴリズム(PAC)の出力が持つ品質を捉える意味論を提案した。 古典的な包含よりも弱いが、クエリに応答する強力なモデル理論のフレームワークを可能にする。 本稿では,マルチエージェント・エピステミック論理を用いたPAC学習の実証のための新しい技術基盤を提供する。 pacセマンティクスを用いたロバストな学習の難しさに関する文献の否定的な結果を回避するため,認識論的問合せの含意を決定する目的で背景理論に観察を組み込むことができるいわゆる暗黙的学習を考える。 学習手順の正しさを証明し,サンプル複雑性に関する結果について議論する。つまり,ユーザ指定のエラーバウンドを前提として,クエリが含んでいることを確実に主張する必要がある。 最後に,このアルゴリズムの効率性について検討する。 最後に、特にマルチエージェント・エピステミック論理における認識論理の推論がPSPACE完全であることを考えると、この問題には期待できないようである。 本稿では, 単エージェントおよび複数エージェントの認識論理に対して探索したRepresentation Theoremの最近の結果を利用する。

The tension between deduction and induction is perhaps the most fundamental issue in areas such as philosophy, cognition and artificial intelligence. In an influential paper, Valiant recognised that the challenge of learning should be integrated with deduction. In particular, he proposed a semantics to capture the quality possessed by the output of Probably Approximately Correct (PAC) learning algorithms when formulated in a logic. Although weaker than classical entailment, it allows for a powerful model-theoretic framework for answering queries. In this paper, we provide a new technical foundation to demonstrate PAC learning with multi-agent epistemic logics. To circumvent the negative results in the literature on the difficulty of robust learning with the PAC semantics, we consider so-called implicit learning where we are able to incorporate observations to the background theory in service of deciding the entailment of an epistemic query. We prove correctness of the learning procedure and discuss results on the sample complexity, that is how many observations we will need to provably assert that the query is entailed given a user-specified error bound. Finally, we investigate under what circumstances this algorithm can be made efficient. On the last point, given that reasoning in epistemic logics especially in multi-agent epistemic logics is PSPACE-complete, it might seem like there is no hope for this problem. We leverage some recent results on the so-called Representation Theorem explored for single-agent and multi-agent epistemic logics with the only knowing operator to reduce modal reasoning to propositional reasoning.
翻訳日:2023-06-12 15:56:50 公開日:2023-06-08
# 温暖化対策によるブースティング

Boosting with Tempered Exponential Measures ( http://arxiv.org/abs/2306.05487v1 )

ライセンス: Link先を確認
Richard Nock, Ehsan Amid, Manfred K. Warmuth(参考訳) 最もポピュラーなmlアルゴリズムの1つであるadaboostは、例の正の重みが1に等しいという事実に基づく相対エントロピー最小化問題の双対から導出することができる。 本質的に、より難しい例は高い確率を受け取る。 この設定を、測度自体ではなく、測度の特定の力に対して正規化を強制する、最近導入された(TEMs) 指数測度に一般化する。 TEMはパラメータ$t$でインデックスされ、指数族(t=1$)を一般化する。 私たちのアルゴリズムである$t$-AdaBoostは、特別なケース(t=1$)としてAdaBoostを回復します。 我々は,$t$-adaboost が$t\in [0,1)$ のとき adaboost の指数収束率を保ちながら,$t=1$ と比較して隠れ定数をわずかに改善できることを示した。 $t$-AdaBoostは、Realに対する古典的算術の一般化を部分的に計算し、$t\in [0, 1)$の有界活用係数のような注目すべき特性をもたらす。 t$-AdaBoost が最小化(指数的損失の一般化)する損失から、決定木のようなドメイン分割型分類器を誘導するための新しい族 {\it tempered) 損失を導出する方法を示す。 重要な点として、厳密な正当性が保証され、一方、その加速速度は既知のスペクトル全体に及ぶ。 $t$-AdaBoost+treesを使った実験では、$t$をチューニングすることで大きなレバレッジを実現することができる。

One of the most popular ML algorithms, AdaBoost, can be derived from the dual of a relative entropy minimization problem subject to the fact that the positive weights on the examples sum to one. Essentially, harder examples receive higher probabilities. We generalize this setup to the recently introduced {\it tempered exponential measure}s (TEMs) where normalization is enforced on a specific power of the measure and not the measure itself. TEMs are indexed by a parameter $t$ and generalize exponential families ($t=1$). Our algorithm, $t$-AdaBoost, recovers AdaBoost~as a special case ($t=1$). We show that $t$-AdaBoost retains AdaBoost's celebrated exponential convergence rate when $t\in [0,1)$ while allowing a slight improvement of the rate's hidden constant compared to $t=1$. $t$-AdaBoost partially computes on a generalization of classical arithmetic over the reals and brings notable properties like guaranteed bounded leveraging coefficients for $t\in [0,1)$. From the loss that $t$-AdaBoost minimizes (a generalization of the exponential loss), we show how to derive a new family of {\it tempered} losses for the induction of domain-partitioning classifiers like decision trees. Crucially, strict properness is ensured for all while their boosting rates span the full known spectrum. Experiments using $t$-AdaBoost+trees display that significant leverage can be achieved by tuning $t$.
翻訳日:2023-06-12 15:56:23 公開日:2023-06-08
# 治療効果推定のためのタスク特異的実験設計

Task-specific experimental design for treatment effect estimation ( http://arxiv.org/abs/2306.05484v1 )

ライセンス: Link先を確認
Bethany Connolly, Kim Moore, Tobias Schwedes, Alexander Adam, Gary Willis, Ilya Feige, Christopher Frye(参考訳) 因果関係を理解することは、AIを通じて真のインパクトを構築する試みの中核的な要件であるべきです。 反事実が本質的に観察できないため、大きなランダム化試行(rct)が因果推論の標準である。 しかし、大規模な実験は一般的に高価であり、ランダム化は、例えば準最適決定が試行される場合など、独自のコストを負担する。 近年の研究ではrctのサンプル効率のよい代替案が提案されているが、因果効果を求める下流のアプリケーションには適用できない。 本研究では,特定の下流アプリケーション用にカスタマイズされたサンプリング戦略を,実験設計にタスク固有のアプローチで導出する。 重要なタスク、実世界のデータセット、サンプルサイズにわたって、本手法は他のベンチマークよりも優れており、例えば、ターゲットマーケティングタスクでrctのパフォーマンスにマッチするために、桁違いに少ないデータを必要とする。

Understanding causality should be a core requirement of any attempt to build real impact through AI. Due to the inherent unobservability of counterfactuals, large randomised trials (RCTs) are the standard for causal inference. But large experiments are generically expensive, and randomisation carries its own costs, e.g. when suboptimal decisions are trialed. Recent work has proposed more sample-efficient alternatives to RCTs, but these are not adaptable to the downstream application for which the causal effect is sought. In this work, we develop a task-specific approach to experimental design and derive sampling strategies customised to particular downstream applications. Across a range of important tasks, real-world datasets, and sample sizes, our method outperforms other benchmarks, e.g. requiring an order-of-magnitude less data to match RCT performance on targeted marketing tasks.
翻訳日:2023-06-12 15:55:55 公開日:2023-06-08
# 強化学習における一般化のための探索の重要性について

On the Importance of Exploration for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2306.05483v1 )

ライセンス: Link先を確認
Yiding Jiang, J. Zico Kolter, Roberta Raileanu(参考訳) 深部強化学習(RL)における一般化を改善するための既存のアプローチは、探索のようなRL固有の側面を無視した表現学習に主に焦点をあてている。 我々は,エージェントの探索戦略が,新たな環境に一般化する上で重要な役割を担っていると仮定する。 表付き文脈型MDPにおける一連の実験を通して,学習環境の最適政策の探索だけでなく,未知の環境における意思決定を支援する知識の獲得にも有効であることを示す。 これらの観測に基づいて,Q値分布のアンサンブルを通したてんかん不確実性の高い状態の探索を支援する方法である分散アンサンブルによるEDEを提案する。 我々のアルゴリズムは,RLにおける高次元観測値の一般化のための2つのベンチマークであるProcgen と Crafter の両方で最先端を実現するための最初の価値ベースアプローチである。 オープンソース実装はhttps://github.com/facebookresearch/ede で見ることができる。

Existing approaches for improving generalization in deep reinforcement learning (RL) have mostly focused on representation learning, neglecting RL-specific aspects such as exploration. We hypothesize that the agent's exploration strategy plays a key role in its ability to generalize to new environments. Through a series of experiments in a tabular contextual MDP, we show that exploration is helpful not only for efficiently finding the optimal policy for the training environments but also for acquiring knowledge that helps decision making in unseen environments. Based on these observations, we propose EDE: Exploration via Distributional Ensemble, a method that encourages exploration of states with high epistemic uncertainty through an ensemble of Q-value distributions. Our algorithm is the first value-based approach to achieve state-of-the-art on both Procgen and Crafter, two benchmarks for generalization in RL with high-dimensional observations. The open-sourced implementation can be found at https://github.com/facebookresearch/ede .
翻訳日:2023-06-12 15:55:40 公開日:2023-06-08
# 医用画像のための人工知能

Artificial General Intelligence for Medical Imaging ( http://arxiv.org/abs/2306.05480v1 )

ライセンス: Link先を確認
Xiang Li, Lu Zhang, Zihao Wu, Zhengliang Liu, Lin Zhao, Yixuan Yuan, Jun Liu, Gang Li, Dajiang Zhu, Pingkuan Yan, Quanzheng Li, Wei Liu, Tianming Liu, and Dinggang Shen(参考訳) 本稿では、基礎的大規模言語モデル(llm)、大規模視覚モデル、大規模マルチモーダルモデルを中心に、医療における人工知能(agi)モデルの潜在的な応用について検討する。 我々は,AGIモデルに臨床専門知識,ドメイン知識,マルチモーダル能力を統合することの重要性を強調した。 さらに、ヘルスケアAGIモデルの開発と展開をガイドする重要なロードマップを策定する。 レビューを通じて,医療分野における大規模agiモデルの展開に伴う潜在的な課題と落とし穴について,重要な視点を提示する。 この総合的なレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。

In this review, we explore the potential applications of Artificial General Intelligence (AGI) models in healthcare, focusing on foundational Large Language Models (LLMs), Large Vision Models, and Large Multimodal Models. We emphasize the importance of integrating clinical expertise, domain knowledge, and multimodal capabilities into AGI models. In addition, we lay out key roadmaps that guide the development and deployment of healthcare AGI models. Throughout the review, we provide critical perspectives on the potential challenges and pitfalls associated with deploying large-scale AGI models in the medical field. This comprehensive review aims to offer insights into the future implications of AGI in medical imaging, healthcare and beyond.
翻訳日:2023-06-12 15:55:24 公開日:2023-06-08
# 道路合併シナリオにおける移動計画のための可変長観測による軌道予測

Trajectory Prediction with Observations of Variable-Length for Motion Planning in Highway Merging scenarios ( http://arxiv.org/abs/2306.05478v1 )

ライセンス: Link先を確認
Sajjad Mozaffari, Mreza Alipour Sormoli, Konstantinos Koufos, Graham Lee, and Mehrdad Dianati(参考訳) 高速道路の合流などの動的運転シナリオにおいて, 車両の正確な軌道予測は, 車両の安全な走行計画に不可欠である。 既存の手法では、2秒以上の一定期間の観測がなければ、車両の予測を開始することはできない。 これにより、認識範囲に入る車両に対するエゴ車による迅速な反応が防止され、安全上の懸念が生じる。 そこで本論文では,新しい変圧器を用いた軌道予測手法を提案する。 本稿では,2つの大規模高速道路軌道データセット,すなわち HighD と exiD を用いて提案手法の総合評価を行う。 さらに,提案手法が運動計画および制御タスクに与える影響を,exiDデータセットからの広範囲な統合シナリオを用いて検討した。 私たちの知る限りでは、このような大規模な高速道路統合データセットがこの目的に採用された最初の事例である。 その結果、予測モデルは高次元データセット上での最先端性能を達成し、 exiD における全ての観測時間における一定速度の低い予測誤差を維持することを示した。 さらに、一定の速度モデルと比較して、密集交通シナリオの安全性、快適性、効率性を著しく向上させる。

Accurate trajectory prediction of nearby vehicles is crucial for the safe motion planning of automated vehicles in dynamic driving scenarios such as highway merging. Existing methods cannot initiate prediction for a vehicle unless observed for a fixed duration of two or more seconds. This prevents a fast reaction by the ego vehicle to vehicles that enter its perception range, thus creating safety concerns. Therefore, this paper proposes a novel transformer-based trajectory prediction approach, specifically trained to handle any observation length larger than one frame. We perform a comprehensive evaluation of the proposed method using two large-scale highway trajectory datasets, namely the highD and exiD. In addition, we study the impact of the proposed prediction approach on motion planning and control tasks using extensive merging scenarios from the exiD dataset. To the best of our knowledge, this marks the first instance where such a large-scale highway merging dataset has been employed for this purpose. The results demonstrate that the prediction model achieves state-of-the-art performance on highD dataset and maintains lower prediction error w.r.t. the constant velocity across all observation lengths in exiD. Moreover, it significantly enhances safety, comfort, and efficiency in dense traffic scenarios, as compared to the constant velocity model.
翻訳日:2023-06-12 15:55:11 公開日:2023-06-08
# Hexatagging: タグとして計画的な依存性解析

Hexatagging: Projective Dependency Parsing as Tagging ( http://arxiv.org/abs/2306.05477v1 )

ライセンス: Link先を確認
Afra Amini, Tianyu Liu, Ryan Cotterell(参考訳) 文中の単語を有限個の可能なタグの要素でタグ付けすることで、依存関係木を構成する新しい依存性解析器であるヘキサットガーを導入する。 依存性解析に対する多くのアプローチとは対照的に、このアプローチはトレーニング時に完全に並列化可能であり、依存関係パースを構築するのに必要な構造構築アクションは互いに並列に予測できる。 さらに、正確な復号化は時間と空間の複雑さにおいて線形である。 さらに,事前訓練された言語モデルの特徴を持つ線形モデル,すなわちタスク用に明示的に設計されたベスポークアーキテクチャを用いて,ヘキサタグの予測を行う確率的依存性解析器を導出する。 アプローチの汎用性と単純さにもかかわらず、Penn Treebankテストセット上で96.4 LASと97.4 UASの最先端性能を実現する。 さらに、線形時間複雑性と並列性により計算効率が大幅に向上し、復号時の従来の最先端モデルよりも約10倍高速になった。

We introduce a novel dependency parser, the hexatagger, that constructs dependency trees by tagging the words in a sentence with elements from a finite set of possible tags. In contrast to many approaches to dependency parsing, our approach is fully parallelizable at training time, i.e., the structure-building actions needed to build a dependency parse can be predicted in parallel to each other. Additionally, exact decoding is linear in time and space complexity. Furthermore, we derive a probabilistic dependency parser that predicts hexatags using no more than a linear model with features from a pretrained language model, i.e., we forsake a bespoke architecture explicitly designed for the task. Despite the generality and simplicity of our approach, we achieve state-of-the-art performance of 96.4 LAS and 97.4 UAS on the Penn Treebank test set. Additionally, our parser's linear time complexity and parallelism significantly improve computational efficiency, with a roughly 10-times speed-up over previous state-of-the-art models during decoding.
翻訳日:2023-06-12 15:54:51 公開日:2023-06-08
# mri脳腫瘍セグメンテーションのための新しい信頼感誘発クラス活性化マッピング

A Novel Confidence Induced Class Activation Mapping for MRI Brain Tumor Segmentation ( http://arxiv.org/abs/2306.05476v1 )

ライセンス: Link先を確認
Yu-Jen Chen, Yiyu Shi, Tsung-Yi Ho(参考訳) 磁気共鳴イメージング(MRI)は、脳腫瘍のセグメンテーションにおいて一般的に用いられる技術であり、患者の評価や治療計画に重要である。 ラベル付けプロセスが専門知識に頼りにくくするために,クラスアクティベーションマッピング(CAM)を用いた弱教師付きセマンティックセマンティックセグメンテーション(WSSS)法が提案されている。 しかし、現在のCAMベースのWSSSメソッドは、勾配やトレーニング可能なパラメータなどの内部ニューラルネットワーク情報を使用してオブジェクトのローカライゼーションマップを生成し、それによってサブ最適解が得られる。 これらの問題に対処するために,各特徴マップの重み付けを目標クラスの信頼度を用いて算出する信頼誘導型CAM(Cfd-CAM)を提案する。 2つの脳腫瘍データセットに対する実験により、Cfd-CAMは、同じレベルの監督下で既存の最先端の手法よりも優れていることが示された。 総じて,提案するcfd-camアプローチは脳腫瘍の分画精度を向上し,他の医用画像診断のためのwsss法の開発に有用な知見を与える。

Magnetic resonance imaging (MRI) is a commonly used technique for brain tumor segmentation, which is critical for evaluating patients and planning treatment. To make the labeling process less laborious and dependent on expertise, weakly-supervised semantic segmentation (WSSS) methods using class activation mapping (CAM) have been proposed. However, current CAM-based WSSS methods generate the object localization map using internal neural network information, such as gradient or trainable parameters, which can lead to suboptimal solutions. To address these issues, we propose the confidence-induced CAM (Cfd-CAM), which calculates the weight of each feature map by using the confidence of the target class. Our experiments on two brain tumor datasets show that Cfd-CAM outperforms existing state-of-the-art methods under the same level of supervision. Overall, our proposed Cfd-CAM approach improves the accuracy of brain tumor segmentation and may provide valuable insights for developing better WSSS methods for other medical imaging tasks.
翻訳日:2023-06-12 15:54:34 公開日:2023-06-08
# バイカラーループモデルとその長距離絡み合い

Bicolor loop models and their long range entanglement ( http://arxiv.org/abs/2306.05464v1 )

ライセンス: Link先を確認
Zhao Zhang(参考訳) 量子ループモデルは格子ゲージ理論と位相量子計算の文脈でよく研究された対象である。 通常は、トポロジカルな絡み合いによって捕獲される長い範囲の絡み合いを持つ。 トリック符号モデルの双色ループモデルへの一般化を考察し、長範囲の絡み合いは、位相不変定数、領域法則に対する部分リード対数補正、領域法則項に対する修正結合次元の3つの異なる方法で反映可能であることを示す。 ハミルトニアンはスペクトル全体に対して正確には解けないが、局所化された頂点欠陥の任意の対を持つループ構成のフラストレーションのない重ね合わせに対応する領域法則の正確な励起状態の塔を認める。 ループに沿った色の連続性はモデルに速度論的制約を課し、隣り合う2つの面を含むプラケット作用素がハミルトニアンに導入されない限り、ヒルベルト空間の断片化をもたらす。

Quantum loop models are well studied objects in the context of lattice gauge theories and topological quantum computing. They usually carry long range entanglement that is captured by the topological entanglement entropy. I consider generalization of the toric code model to bicolor loop models and show that the long range entanglement can be reflected in three different ways: a topologically invariant constant, a sub-leading logarithmic correction to the area law, or a modified bond dimension for the area-law term. The Hamiltonians are not exactly solvable for the whole spectra, but admit a tower of area-law exact excited states corresponding to the frustration free superposition of loop configurations with arbitrary pairs of localized vertex defects. The continuity of color along loops imposes kinetic constraints on the model and results in Hilbert space fragmentation, unless plaquette operators involving two neighboring faces are introduced to the Hamiltonian.
翻訳日:2023-06-12 15:54:13 公開日:2023-06-08
# X線データを用いたCT画像分割のための量子最適化アルゴリズム

Quantum optimization algorithms for CT image segmentation from X-ray data ( http://arxiv.org/abs/2306.05522v1 )

ライセンス: Link先を確認
Kyungtaek Jun(参考訳) CT(Computed tomography)は、人体の内部構造を医学的に解析するための重要なイメージング技術である。 従来,再構成ct画像の取得後に画像分割法が必要であり,再構成アルゴリズムと分割アルゴリズムの両方の誤りに影響を受けやすい画像画像の分割が必要であった。 しかし,本稿では,量子最適化アルゴリズムであるquadratic unconstrained binary optimization (qubo) を用いた新しい手法を提案する。 このアルゴリズムは、Randon変換を用いて、実験的に得られたシングラムと量子化されたセグメンテーションCT画像から得られた量子化されたシングラムとの差を最小限にしたX線投影データからのセグメンテーションCT画像の取得を可能にする。 本研究では,実世界のX線データの検証にD-Waveのハイブリッドソルバシステムを用いた。

Computed tomography (CT) is an important imaging technique used in medical analysis of the internal structure of the human body. Previously, image segmentation methods were required after acquiring reconstructed CT images to obtain segmented CT images which made it susceptible to errors from both reconstruction and segmentation algorithms. However, this paper introduces a new approach using an advanced quantum optimization algorithm called quadratic unconstrained binary optimization (QUBO). This algorithm enables acquisition of segmented CT images from X-ray projection data with minimized discrepancies between experimentally obtained sinograms and quantized sinograms derived from quantized segmented CT images using the Radon transform. This study utilized D-Wave's hybrid solver system for verification on real-world X-ray data.
翻訳日:2023-06-12 15:47:37 公開日:2023-06-08
# 外部システムにおける測定基準の選択により活性化または破壊することができる休眠絡み

Dormant entanglement that can be activated or destroyed by the basis choice of measurements on an external system ( http://arxiv.org/abs/2306.05517v1 )

ライセンス: Link先を確認
Zixuan Hu and Sabre Kais(参考訳) 本稿では,外部システムにおける測定値の基底選択によって活性化または破壊できる,休眠絡みと呼ばれる新しい形態の絡み合いを提案する。 活性化のない休眠絡みは、量子通信資源として利用できず、ベル状態と比較して相関が小さくなる。 休息の絡み合いの特定の形態は弱く、アクティベーションなしでは、絡み合った量子ビットの間に任意の基底における相関が観察できない。 休眠の絡み合いは、局所システムと絡み合う全ての外部システムに関する情報が利用可能になるまで、局所システムの物理的記述が不完全であるユニークな量子挙動を示す。 そこで,本研究では,n個の当事者のうちの2つが,すべての当事者の完全なコンセンサスを持つ絡み合いペアを活性化できるn個の集団量子通信チャネルを提案する。

We propose a new form of entanglement called the dormant entanglement that can be activated or destroyed by the basis choice of measurements on an external system. The dormant entanglement without activation cannot be used as a quantum communication resource and has reduced correlation as compared to the Bell states. A particular form of the dormant entanglement is so weak that, without activation, no correlation in any basis can be observed between the entangled qubits. The dormant entanglement showcases a unique quantum behavior that the physical description of a local system remains incomplete until the information on all external systems entangled with the local system becomes available. For a potential application, we propose an n-party collective quantum communication channel that allows any 2 out of the n parties to activate an entanglement pair with the complete consensus of all other parties.
翻訳日:2023-06-12 15:47:19 公開日:2023-06-08
# PeFLL: 個人化フェデレーション学習のための生涯学習アプローチ

PeFLL: A Lifelong Learning Approach to Personalized Federated Learning ( http://arxiv.org/abs/2306.05515v1 )

ライセンス: Link先を確認
Jonathan Scott, Hossein Zakerinia, Christoph H. Lampert(参考訳) パーソナライズド・フェデレーション・ラーニング (pFL) は、参加するクライアントのデータ分布間の統計的不均一性に対処するための一般的なアプローチとして登場した。 単一のグローバルモデルを学ぶ代わりに、pflは、他のクライアントで利用可能なデータを使いながら、各クライアントの個別モデルを学ぶことを目標としている。 本稿では,PFLLについて述べる。これは生涯学習に根ざした新しいpFLアプローチで,トレーニング期間中のクライアントだけでなく,将来的に出現する可能性のあるクライアントにも有効である。 pefllは組み込みネットワークとハイパーネットワークを共同でトレーニングすることで、クライアント固有のモデルを出力することを学ぶ。 埋め込みネットワークは、相互に類似性を反映した方法で、潜在ディスクリプタ空間でクライアントを表現することを学ぶ。 ハイパーネットワークは、この潜在空間から可能なクライアントモデルの空間へのマッピングを学ぶ。 実験により,pefllは従来手法と比較して,特にトレーニング中に見えないクライアントに対して,精度の高いモデルを生成し,多数のクライアントに拡張可能であることを実証した。 さらに、クライアントまたはサーバが追加の微調整や最適化を必要とせず、新しいクライアントのためにパーソナライズされたモデルを生成することは効率的である。 また,PeFLLを生涯学習に限定した新しいPAC-Bayesian一般化の形で支援する理論的結果も提示し,提案手法の収束を実証する。

Personalized federated learning (pFL) has emerged as a popular approach to dealing with the challenge of statistical heterogeneity between the data distributions of the participating clients. Instead of learning a single global model, pFL aims to learn an individual model for each client while still making use of the data available at other clients. In this work, we present PeFLL, a new pFL approach rooted in lifelong learning that performs well not only on clients present during its training phase, but also on any that may emerge in the future. PeFLL learns to output client specific models by jointly training an embedding network and a hypernetwork. The embedding network learns to represent clients in a latent descriptor space in a way that reflects their similarity to each other. The hypernetwork learns a mapping from this latent space to the space of possible client models. We demonstrate experimentally that PeFLL produces models of superior accuracy compared to previous methods, especially for clients not seen during training, and that it scales well to large numbers of clients. Moreover, generating a personalized model for a new client is efficient as no additional fine-tuning or optimization is required by either the client or the server. We also present theoretical results supporting PeFLL in the form of a new PAC-Bayesian generalization bound for lifelong learning and we prove the convergence of our proposed optimization procedure.
翻訳日:2023-06-12 15:46:52 公開日:2023-06-08
# 回帰モデルとMRI特徴を用いたロバスト脳年齢推定

Robust Brain Age Estimation via Regression Models and MRI-derived Features ( http://arxiv.org/abs/2306.05514v1 )

ライセンス: Link先を確認
Mansoor Ahmed, Usama Sardar, Sarwan Ali, Shafiq Alam, Murray Patterson, Imdad Ullah Khan(参考訳) 生物学的脳年齢の決定は、神経疾患の評価と加齢に伴う形態変化の理解において重要なバイオマーカーである。 健康制御の磁気共鳴画像(MRI)を用いて脳年齢を推定する機械学習モデルが提案されている。 しかし、適切なMRI特徴の選択とMRI取得のコストが高いため、堅牢な脳年齢推定(BAE)フレームワークの開発は困難である。 そこで本研究では,T1-weighted (T1-w) 脳MRIによる6歳から86歳までの健常者3965名を対象に,多地点で公開されている新しいベンチマークデータセットであるOpen Big Healthy Brain (OpenBHB) を用いた新しいBAEフレームワークを提案する。 3つのmriから派生した領域的特徴と異なる回帰モデルを統合し, 平均絶対誤差(mae)を3.25年と高精度な脳年齢推定を行い, フレームワークのロバスト性を示す。 また,性別別(男性および女性)健康検査群における回帰に基づく評価も分析した。 提案したBAEフレームワークは、神経疾患の理解と加齢に伴う脳変化に重要な意味を持つ脳年齢を推定するための新しいアプローチを提供する。

The determination of biological brain age is a crucial biomarker in the assessment of neurological disorders and understanding of the morphological changes that occur during aging. Various machine learning models have been proposed for estimating brain age through Magnetic Resonance Imaging (MRI) of healthy controls. However, developing a robust brain age estimation (BAE) framework has been challenging due to the selection of appropriate MRI-derived features and the high cost of MRI acquisition. In this study, we present a novel BAE framework using the Open Big Healthy Brain (OpenBHB) dataset, which is a new multi-site and publicly available benchmark dataset that includes region-wise feature metrics derived from T1-weighted (T1-w) brain MRI scans of 3965 healthy controls aged between 6 to 86 years. Our approach integrates three different MRI-derived region-wise features and different regression models, resulting in a highly accurate brain age estimation with a Mean Absolute Error (MAE) of 3.25 years, demonstrating the framework's robustness. We also analyze our model's regression-based performance on gender-wise (male and female) healthy test groups. The proposed BAE framework provides a new approach for estimating brain age, which has important implications for the understanding of neurological disorders and age-related brain changes.
翻訳日:2023-06-12 15:46:11 公開日:2023-06-08
# AMEE: 時系列分類における説明評価のためのロバストフレームワーク

AMEE: A Robust Framework for Explanation Evaluation in Time Series Classification ( http://arxiv.org/abs/2306.05501v1 )

ライセンス: Link先を確認
Thu Trang Nguyen, Thach Le Nguyen, and Georgiana Ifrim(参考訳) 本稿では,医療やファイナンスといった重要な分野において,一般的なデータ型を扱う時系列分類タスクの説明手法を定量的に評価し,ランク付けする枠組みを提供することを目的とする。 近年,時系列分類のための説明手法への関心が高まり,様々な説明手法が提案されている。 しかしながら、これらの説明手法が特定の問題に異を唱えている場合、どれを使うべきかは定かではない。 正しい答えを見つけるための説明を比較するのは簡単ではない。 2つの重要な課題は、与えられた説明手法の有意性(分類タスクの関連性)を定量的かつ堅牢に評価する方法と、説明手法を並べて比較する方法である。 本稿では,時系列分類のための複数の相性に基づく説明を定量化・比較するためのモデル非依存的説明評価フレームワークAMEEを提案する。 摂動は、サリエンシーマップ(すなわち、時系列の各点の重み付け)によって導かれる入力時系列に追加される。 分類精度に対する摂動の影響を測定し,説明評価に利用した。 その結果,時系列の判別部を乱すと分類精度が大きく変化することがわかった。 異なるタイプの摂動と異なる種類の分類器にロバストにするために、摂動と分類器にまたがる精度の損失を集約する。 これにより、異なる説明方法の客観的な定量化とランク付けが可能になる。 合成データセットの定量的および定性的な分析、様々なUCCベンチマークデータセット、および既知の専門家基盤真理を持つ実世界のデータセットを提供する。

This paper aims to provide a framework to quantitatively evaluate and rank explanation methods for the time series classification task, which deals with a prevalent data type in critical domains such as healthcare and finance. The recent surge of research interest in explanation methods for time series classification has provided a great variety of explanation techniques. Nevertheless, when these explanation techniques disagree on a specific problem, it remains unclear which of them to use. Comparing the explanations to find the right answer is non-trivial. Two key challenges remain: how to quantitatively and robustly evaluate the informativeness (i.e., relevance for the classification task) of a given explanation method, and how to compare explanation methods side-by-side. We propose AMEE, a Model-Agnostic Explanation Evaluation framework for quantifying and comparing multiple saliency-based explanations for time series classification. Perturbation is added to the input time series guided by the saliency maps (i.e., importance weights for each point in the time series). The impact of perturbation on classification accuracy is measured and used for explanation evaluation. The results show that perturbing discriminative parts of the time series leads to significant changes in classification accuracy. To be robust to different types of perturbations and different types of classifiers, we aggregate the accuracy loss across perturbations and classifiers. This allows us to objectively quantify and rank different explanation methods. We provide a quantitative and qualitative analysis for synthetic datasets, a variety of UCR benchmark datasets, as well as a real-world dataset with known expert ground truth.
翻訳日:2023-06-12 15:45:39 公開日:2023-06-08
# LLM集積アプリケーションに対するプロンプトインジェクション攻撃

Prompt Injection attack against LLM-integrated Applications ( http://arxiv.org/abs/2306.05499v1 )

ライセンス: Link先を確認
Yi Liu, Gelei Deng, Yuekang Li, Kailong Wang, Tianwei Zhang, Yepang Liu, Haoyu Wang, Yan Zheng and Yang Liu(参考訳) 大きな言語モデル(LLM)は、言語理解と生成において優れた能力で知られ、周囲のアプリケーションの活気あるエコシステムを刺激する。 しかし、様々なサービスへの広範囲な同化は、重大なセキュリティリスクをもたらす。 本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。 当初、我々は10の商用アプリケーションについて探索分析を行い、現在の攻撃戦略の制約を強調した。 これらの制限により、我々はその後、従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃テクニックであるHouYiを定式化した。 HouYiは、シームレスに組み込まれた事前構築プロンプト、インジェクションプロンプトによるコンテキストパーティション誘導、攻撃目標を達成するために設計された悪意のあるペイロードの3つの重要な要素に分割されている。 HouYiを利用することで、制限なしの任意のLSMの使用や、複雑でないアプリケーションプロンプト盗難など、これまで不明で深刻な攻撃結果が明らかになる。 我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。 数百万のユーザに影響を与える可能性があるNotionを含む10のベンダが、私たちの発見を検証しています。 我々の調査は、迅速な注射攻撃の可能性と緩和策の両方を照らしている。

Large Language Models (LLMs), renowned for their superior proficiency in language comprehension and generation, stimulate a vibrant ecosystem of applications around them. However, their extensive assimilation into various services introduces significant security risks. This study deconstructs the complexities and implications of prompt injection attacks on actual LLM-integrated applications. Initially, we conduct an exploratory analysis on ten commercial applications, highlighting the constraints of current attack strategies in practice. Prompted by these limitations, we subsequently formulate HouYi, a novel black-box prompt injection attack technique, which draws inspiration from traditional web injection attacks. HouYi is compartmentalized into three crucial elements: a seamlessly-incorporated pre-constructed prompt, an injection prompt inducing context partition, and a malicious payload designed to fulfill the attack objectives. Leveraging HouYi, we unveil previously unknown and severe attack outcomes, such as unrestricted arbitrary LLM usage and uncomplicated application prompt theft. We deploy HouYi on 36 actual LLM-integrated applications and discern 31 applications susceptible to prompt injection. 10 vendors have validated our discoveries, including Notion, which has the potential to impact millions of users. Our investigation illuminates both the possible risks of prompt injection attacks and the possible tactics for mitigation.
翻訳日:2023-06-12 15:45:16 公開日:2023-06-08
# 半パラメトリックベイズ回帰に対するモンテカルロ推定

Monte Carlo inference for semiparametric Bayesian regression ( http://arxiv.org/abs/2306.05498v1 )

ライセンス: Link先を確認
Daniel R. Kowal, Bohan Wu(参考訳) データ変換はパラメトリック回帰モデルの幅広い適用性に不可欠である。 しかし、ベイズ解析では、変換とモデルパラメータの合同推論は通常、計算的に非効率で実装や理論解析に不都合な制限的なパラメトリック変換や非パラメトリック表現を伴い、実際は使用性を制限する。 本稿では、未知の変換とすべての回帰モデルパラメータの結合後部推論のための単純で汎用的で効率的な戦略を提案する。 提案手法は,独立変数および従属変数の限界分布と結合することにより,変換の後方分布を直接ターゲットとし,ベイズブートストラップを介してベイズ非パラメトリックモデルを展開する。 本手法は,(1)複数のモデル誤特定を含む一般的な条件下での協調的な後方整合性,(2)変換の効率的なモンテカルロ(マルコフ連鎖モンテカルロではない)推論,および重要な特別な場合のすべてのパラメータを提供する。 これらのツールは、実数値、整数値、コンパクトサポート、ポジティブデータを含む、さまざまなデータドメインにまたがって適用される。 シミュレーション研究と経験的応用は、線形モデル、量子回帰、ガウス過程を用いた半パラメトリックベイズ解析におけるこの戦略の有効性と効率を実証する。

Data transformations are essential for broad applicability of parametric regression models. However, for Bayesian analysis, joint inference of the transformation and model parameters typically involves restrictive parametric transformations or nonparametric representations that are computationally inefficient and cumbersome for implementation and theoretical analysis, which limits their usability in practice. This paper introduces a simple, general, and efficient strategy for joint posterior inference of an unknown transformation and all regression model parameters. The proposed approach directly targets the posterior distribution of the transformation by linking it with the marginal distributions of the independent and dependent variables, and then deploys a Bayesian nonparametric model via the Bayesian bootstrap. Crucially, this approach delivers (1) joint posterior consistency under general conditions, including multiple model misspecifications, and (2) efficient Monte Carlo (not Markov chain Monte Carlo) inference for the transformation and all parameters for important special cases. These tools apply across a variety of data domains, including real-valued, integer-valued, compactly-supported, and positive data. Simulation studies and an empirical application demonstrate the effectiveness and efficiency of this strategy for semiparametric Bayesian analysis with linear models, quantile regression, and Gaussian processes.
翻訳日:2023-06-12 15:44:54 公開日:2023-06-08
# 損失関数の再評価:ディープラーニングモデルにおけるラベルノイズに対するロバスト性向上

Reevaluating Loss Functions: Enhancing Robustness to Label Noise in Deep Learning Models ( http://arxiv.org/abs/2306.05497v1 )

ライセンス: Link先を確認
Max Staats, Matthias Thamm, Bernd Rosenow(参考訳) 大きな注釈付きデータセットには必然的に誤ったラベルが含まれているため、ラベルに適合する深層ニューラルネットワークのトレーニングには大きな課題がある。 ノイズに容易に気を取られないロバストなモデルでトレーニングする場合のみ、優れた一般化性能を実現することができる。 ノイズロバストモデルを作成する単純な方法は、ノイズロバスト損失関数を使用することである。 しかし、提案された損失関数の数は大きく、しばしばハイパーパラメータを持ち、広く使われているがノイズに敏感なクロスエントロピー損失よりも学習が遅い。 ヒューリスティックな考察と広範な数値実験により,提案する損失関数が適用可能な状況について検討し,適切な損失を選択する方法を提案する。 さらに, 有界損失関数を用いた学習を強化する新しい手法を提案する。すなわち, 出力バイアスの包含, すなわち, 正しいラベルに対応するニューロン前活性化のわずかな増加である。 驚くべきことに、これは境界付き損失の学習を大幅に改善するだけでなく、追加のラベルノイズがない場合でも、cifar-100データセットのクロスエントロピー損失に匹敵する平均的な絶対エラー損失をもたらす。 これは、最小ラベルノイズが存在する場合でも、有界損失関数を持つトレーニングは有利であることを示唆している。 異なる損失関数の学習行動の分析をさらに強化するため,境界クロスエントロピー(Bunded Cross Entropy)と呼ばれる新しい損失関数を設計・テストする。

Large annotated datasets inevitably contain incorrect labels, which poses a major challenge for the training of deep neural networks as they easily fit the labels. Only when training with a robust model that is not easily distracted by the noise, a good generalization performance can be achieved. A simple yet effective way to create a noise robust model is to use a noise robust loss function. However, the number of proposed loss functions is large, they often come with hyperparameters, and may learn slower than the widely used but noise sensitive Cross Entropy loss. By heuristic considerations and extensive numerical experiments, we study in which situations the proposed loss functions are applicable and give suggestions on how to choose an appropriate loss. Additionally, we propose a novel technique to enhance learning with bounded loss functions: the inclusion of an output bias, i.e. a slight increase in the neuron pre-activation corresponding to the correct label. Surprisingly, we find that this not only significantly improves the learning of bounded losses, but also leads to the Mean Absolute Error loss outperforming the Cross Entropy loss on the Cifar-100 dataset - even in the absence of additional label noise. This suggests that training with a bounded loss function can be advantageous even in the presence of minimal label noise. To further strengthen our analysis of the learning behavior of different loss functions, we additionally design and test a novel loss function denoted as Bounded Cross Entropy.
翻訳日:2023-06-12 15:44:33 公開日:2023-06-08
# 注意チャネル処理設計は必要か? 視覚トランスフォーマーと完全注意ネットワークのロバスト性に関する包括的解析

Is Attentional Channel Processing Design Required? Comprehensive Analysis Of Robustness Between Vision Transformers And Fully Attentional Networks ( http://arxiv.org/abs/2306.05495v1 )

ライセンス: Link先を確認
Abhishri Ajit Medewar, Swanand Ashokrao Kavitkar(参考訳) 標準CNNモデルとビジョントランスフォーマーではロバストネステストが実施されているが、従来のビジョントランスフォーマーのロバストネスと最新のフルアテンショナルネットワーク(FAN)モデルとの間には包括的な研究が欠如している。 そこで本稿では,imagenetデータセットを用いて,完全注意ネットワーク(fan)モデルのロバスト性と従来の視覚トランスフォーマーとの比較を行い,ホワイトボックスアタックを用いた注意チャネル処理設計の役割を理解し,ブラックボックスアタックを用いてその間の転送可能性について検討する。

The robustness testing has been performed for standard CNN models and Vision Transformers, however there is a lack of comprehensive study between the robustness of traditional Vision Transformers without an extra attentional channel design and the latest fully attentional network(FAN) models. So in this paper, we use the ImageNet dataset to compare the robustness of fully attentional network(FAN) models with traditional Vision Transformers to understand the role of an attentional channel processing design using white box attacks and also study the transferability between the same using black box attacks.
翻訳日:2023-06-12 15:44:09 公開日:2023-06-08
# ネットワークにおける敵の侵入攻撃--動的学習の影響の検証

Adversarial Evasion Attacks Practicality in Networks: Testing the Impact of Dynamic Learning ( http://arxiv.org/abs/2306.05494v1 )

ライセンス: Link先を確認
Mohamed el Shehaby and Ashraf Matrawy(参考訳) 機械学習(ML)はユビキタスになり、ネットワーク侵入検知システム(NIDS)への展開は、その自動化の性質と大量のデータの処理と分類において高い精度で避けられない。 しかし、MLにはいくつかの欠陥があることが判明しており、その上に敵攻撃があり、MLモデルを騙して欠陥予測を生成することを目的としている。 多くの敵攻撃研究はコンピュータビジョンデータセットに焦点を当てているが、最近の研究ではMLベースのネットワークセキュリティエンティティ、特にNIDSに対する攻撃の実用性について検討されている。 本稿では,ML ベースの NIDS に対する敵対的攻撃に関連する実践的問題の分類法と,NIDS に対する敵的攻撃に対する継続的訓練の影響について検討する。 本実験は, 対人訓練を伴わない継続的再訓練は, 対人攻撃の効果を低減できることを示した。 敵攻撃はMLベースのNIDSを損なう可能性があるが、この領域における研究と現実の実践の間に大きなギャップがあることを強調することを目的としている。

Machine Learning (ML) has become ubiquitous, and its deployment in Network Intrusion Detection Systems (NIDS) is inevitable due to its automated nature and high accuracy in processing and classifying large volumes of data. However, ML has been found to have several flaws, on top of them are adversarial attacks, which aim to trick ML models into producing faulty predictions. While most adversarial attack research focuses on computer vision datasets, recent studies have explored the practicality of such attacks against ML-based network security entities, especially NIDS. This paper presents two distinct contributions: a taxonomy of practicality issues associated with adversarial attacks against ML-based NIDS and an investigation of the impact of continuous training on adversarial attacks against NIDS. Our experiments indicate that continuous re-training, even without adversarial training, can reduce the effect of adversarial attacks. While adversarial attacks can harm ML-based NIDSs, our aim is to highlight that there is a significant gap between research and real-world practicality in this domain which requires attention.
翻訳日:2023-06-12 15:43:54 公開日:2023-06-08
# 感情と感情によるパラフレージング

Emotion and Sentiment Guided Paraphrasing ( http://arxiv.org/abs/2306.05556v1 )

ライセンス: Link先を確認
Justin J. Xie and Ameeta Agrawal(参考訳) パラフレーズ生成(英: paraphrase generation)は、自然言語処理において一般的かつ重要なタスクである。 感情の言い換えは、その意味を保ちながらテキストに具現化された感情を変えるもので、オンライン対話のモデレートやサイバーいじめの防止など、多くの潜在的な応用がある。 そこで本研究では,感情の傾きに沿った微粒度の感情パラフラージングという新しい課題を紹介し,原文の意味を保ちながら,情動次元の滑らかな変化に追従した微粒度の感情の強さを変化させる。 入力テキストとターゲットテキストを微粒な感情ラベルで拡張することにより、広く使われているパラフレーズデータセットを再構築する。 そこで本稿では,条件付きテキスト生成のための事前学習言語モデルを活用することで,感情と感情を導いたパラフレッシングの枠組みを提案する。 微調整モデルの広範囲な評価は、パラフレーズタスクに微粒な感情ラベルを含めることで、所望の感情を反映した高品質なパラフレーズを得る可能性を大幅に向上し、BLEU、ROUGE、METEORといったパラフレーズメトリクスのスコアを一貫して向上させることを示唆している。

Paraphrase generation, a.k.a. paraphrasing, is a common and important task in natural language processing. Emotional paraphrasing, which changes the emotion embodied in a piece of text while preserving its meaning, has many potential applications, including moderating online dialogues and preventing cyberbullying. We introduce a new task of fine-grained emotional paraphrasing along emotion gradients, that is, altering the emotional intensities of the paraphrases in fine-grained settings following smooth variations in affective dimensions while preserving the meaning of the original text. We reconstruct several widely used paraphrasing datasets by augmenting the input and target texts with their fine-grained emotion labels. Then, we propose a framework for emotion and sentiment guided paraphrasing by leveraging pre-trained language models for conditioned text generation. Extensive evaluation of the fine-tuned models suggests that including fine-grained emotion labels in the paraphrase task significantly improves the likelihood of obtaining high-quality paraphrases that reflect the desired emotions while achieving consistently better scores in paraphrase metrics such as BLEU, ROUGE, and METEOR.
翻訳日:2023-06-12 15:38:17 公開日:2023-06-08
# Equivariant vs. Invariant Layers: ポイントクラウド分類のためのバックボーンとプールの比較

Equivariant vs. Invariant Layers: A Comparison of Backbone and Pooling for Point Cloud Classification ( http://arxiv.org/abs/2306.05553v1 )

ライセンス: Link先を確認
Ashkan Shahbazi, Abihith Kothapalli, Xinran Liu, Robert Sheng, Soheil Kolouri(参考訳) ポイントクラウドのようなセット構造データから学ぶことは、コミュニティから大きな注目を集めている。 幾何学的深層学習は、置換対称性を取り入れた効果的な集合ニューラルネットワークを設計するための青写真を提供する。 我々の関心は、置換不変ネットワークであり、置換同変バックボーン、置換不変大域プール、回帰/分類ヘッドで構成されている。 既存の文献では置換同変バックボーンの改良に焦点が当てられているが、グローバルプールの影響はしばしば見過ごされている。 本稿では,3つのベンチマークポイントクラウド分類データセットにおける置換同変バックボーンと置換不変グローバルプールの相互作用について検討する。 私たちの発見は 1) トランスポートベースやアテンションベースといった複雑なプーリング手法は, 単純なバックボーンの性能を著しく向上させるが, より複雑なバックボーンではメリットが低下する。 2) 複雑なバックボーンでさえ、低いデータシナリオでレイヤをプールするメリットがあります。 3)驚くべきことに、プール層の選択は、バックボーンの幅と深さを調整するよりも、モデルの性能に大きな影響を与える可能性がある。 4) プール層をペアで組み合わせることで、固定されたバックボーンのパフォーマンスが大幅に向上する。 我々の包括的な研究は、より優れた置換不変集合ニューラルネットワークを設計するための洞察を提供する。

Learning from set-structured data, such as point clouds, has gained significant attention from the community. Geometric deep learning provides a blueprint for designing effective set neural networks by incorporating permutation symmetry. Of our interest are permutation invariant networks, which are composed of a permutation equivariant backbone, permutation invariant global pooling, and regression/classification head. While existing literature has focused on improving permutation equivariant backbones, the impact of global pooling is often overlooked. In this paper, we examine the interplay between permutation equivariant backbones and permutation invariant global pooling on three benchmark point cloud classification datasets. Our findings reveal that: 1) complex pooling methods, such as transport-based or attention-based poolings, can significantly boost the performance of simple backbones, but the benefits diminish for more complex backbones, 2) even complex backbones can benefit from pooling layers in low data scenarios, 3) surprisingly, the choice of pooling layers can have a more significant impact on the model's performance than adjusting the width and depth of the backbone, and 4) pairwise combination of pooling layers can significantly improve the performance of a fixed backbone. Our comprehensive study provides insights for practitioners to design better permutation invariant set neural networks.
翻訳日:2023-06-12 15:37:54 公開日:2023-06-08
# マスキング言語モデルと下流感情分類課題における93のスティグマタイズドグループに対するバイアス

Bias Against 93 Stigmatized Groups in Masked Language Models and Downstream Sentiment Classification Tasks ( http://arxiv.org/abs/2306.05550v1 )

ライセンス: Link先を確認
Katelyn X. Mei, Sonia Fereidooni, Aylin Caliskan(参考訳) 人工知能(AI)モデルの迅速な展開は、個人や社会への影響を理解するために、これらのモデルに固有のバイアスやリスクを徹底的に調査する必要がある。 本研究は,ソーシャル・スティグマに対するバイアスを大規模に検討することで,既存の作業におけるバイアス評価の焦点を広げるものである。 アメリカ合衆国では、病気、障害、薬物使用、精神疾患、宗教、セクシュアリティ、社会経済的地位、その他の関連する要因に関する幅広い条件を含む93の悪名高いグループに焦点を当てている。 英語学習マスケッド言語モデル(MLM)におけるこれらのグループに対するバイアスとその下流感情分類タスクについて検討した。 93のスティグマタイズド条件に対するバイアスの存在を評価するために,29の非スティグマタイズド条件を特定し,比較分析を行った。 社会的拒絶の心理学的尺度である社会距離尺度に基づいて,RoBERTa-base,RoBERTa-large,XLNet-large,BERTweet-base,BERTweet-large,DistilBERTの6つのMLMを誘導する。 人間のアノテーションを用いてこれらのモデルから予測された単語を解析し、分類されたグループに対するバイアスの程度を測定する。 解答条件を含む場合、負の単語を予測するMLMの確率は、解答条件を持たない場合よりも約20%高い。 感情分類タスクでは、文が病気、障害、教育、精神疾患に関連する便宜的条件を含む場合、それらが否定的に分類される可能性が高い。 また,mlmsのバイアスと下流感情分類器(r=0.79)との相関も強く観察した。 この証拠は、MDMとその下流感情分類タスクが、社会的に便宜的なグループに対する偏見を示すことを示している。

The rapid deployment of artificial intelligence (AI) models demands a thorough investigation of biases and risks inherent in these models to understand their impact on individuals and society. This study extends the focus of bias evaluation in extant work by examining bias against social stigmas on a large scale. It focuses on 93 stigmatized groups in the United States, including a wide range of conditions related to disease, disability, drug use, mental illness, religion, sexuality, socioeconomic status, and other relevant factors. We investigate bias against these groups in English pre-trained Masked Language Models (MLMs) and their downstream sentiment classification tasks. To evaluate the presence of bias against 93 stigmatized conditions, we identify 29 non-stigmatized conditions to conduct a comparative analysis. Building upon a psychology scale of social rejection, the Social Distance Scale, we prompt six MLMs: RoBERTa-base, RoBERTa-large, XLNet-large, BERTweet-base, BERTweet-large, and DistilBERT. We use human annotations to analyze the predicted words from these models, with which we measure the extent of bias against stigmatized groups. When prompts include stigmatized conditions, the probability of MLMs predicting negative words is approximately 20 percent higher than when prompts have non-stigmatized conditions. In the sentiment classification tasks, when sentences include stigmatized conditions related to diseases, disability, education, and mental illness, they are more likely to be classified as negative. We also observe a strong correlation between bias in MLMs and their downstream sentiment classifiers (r =0.79). The evidence indicates that MLMs and their downstream sentiment classification tasks exhibit biases against socially stigmatized groups.
翻訳日:2023-06-12 15:37:34 公開日:2023-06-08
# AIによる制御工学の強化

AI Enhanced Control Engineering Methods ( http://arxiv.org/abs/2306.05545v1 )

ライセンス: Link先を確認
Ion Matei, Raj Minhas, Johan de Kleer and Alexander Felman(参考訳) aiと機械学習に基づくアプローチは、ほぼすべてのエンジニアリング分野でユビキタスになりつつある。 制御工学はこの傾向から逃れることはできない。 本稿では,AIツールがアプリケーション制御にどのように役立つかを検討する。 私たちが注目する中核的なツールは、自動分化です。 直近の2つの応用は、局所安定性解析やカルマンフィルタを用いた状態推定のためのシステムダイナミクスの線形化である。 また,制御設計のための微分方程式から常微分方程式への変換についても検討する。 さらに,モデル予測制御アプリケーションにおける状態ベクトルのグローバルパラメータ化と制御入力に対する機械学習モデルの利用について検討する。 検討されたユースケースごとに、例と結果をあげます。

AI and machine learning based approaches are becoming ubiquitous in almost all engineering fields. Control engineering cannot escape this trend. In this paper, we explore how AI tools can be useful in control applications. The core tool we focus on is automatic differentiation. Two immediate applications are linearization of system dynamics for local stability analysis or for state estimation using Kalman filters. We also explore other usages such as conversion of differential algebraic equations to ordinary differential equations for control design. In addition, we explore the use of machine learning models for global parameterizations of state vectors and control inputs in model predictive control applications. For each considered use case, we give examples and results.
翻訳日:2023-06-12 15:37:02 公開日:2023-06-08
# BOOT: ブートストラップ付き脱臭拡散モデルのデータフリー蒸留

BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping ( http://arxiv.org/abs/2306.05544v1 )

ライセンス: Link先を確認
Jiatao Gu, Shuangfei Zhai, Yizhe Zhang, Lingjie Liu, Josh Susskind(参考訳) 拡散モデルは多様な画像を生成する優れた可能性を示している。 しかし、彼らのパフォーマンスは反復的なデノイジングのため、しばしば緩慢な生成に苦しむ。 知識蒸留は, かなりの品質劣化を伴わずに, 推論段階を1ないし数段階に減らす方法として最近提案されている。 しかし,既存の蒸留法では,教師モデルから合成学習データを生成するために大量のオフライン計算を必要とするか,実際のデータを用いて高価なオンライン学習を行う必要がある。 本研究では,データフリー蒸留アルゴリズムを用いて,これらの制限を克服するBOOTと呼ばれる新しい手法を提案する。 中心となるアイデアは、任意の時間ステップで事前訓練された拡散モデル教師の出力を予測する、時間条件モデルを学ぶことである。 このようなモデルは、2つの連続したサンプルステップからのブートストラップに基づいて効率的に訓練することができる。 さらに,本手法は大規模テキスト・画像拡散モデルに容易に適用可能であり,トレーニングセットが大きすぎてアクセスが難しいことを考えると,従来の手法では困難である。 DDIM設定におけるいくつかのベンチマークデータセットに対するアプローチの有効性を実証し、拡散教師よりも桁違いに高速な生成品質を実現する。 テキスト・トゥ・イメージの結果から,提案手法はより効率的な生成モデルに光を当て,高度に複雑な分布を扱えることを示す。

Diffusion models have demonstrated excellent potential for generating diverse images. However, their performance often suffers from slow generation due to iterative denoising. Knowledge distillation has been recently proposed as a remedy that can reduce the number of inference steps to one or a few without significant quality degradation. However, existing distillation methods either require significant amounts of offline computation for generating synthetic training data from the teacher model or need to perform expensive online learning with the help of real data. In this work, we present a novel technique called BOOT, that overcomes these limitations with an efficient data-free distillation algorithm. The core idea is to learn a time-conditioned model that predicts the output of a pre-trained diffusion model teacher given any time step. Such a model can be efficiently trained based on bootstrapping from two consecutive sampled steps. Furthermore, our method can be easily adapted to large-scale text-to-image diffusion models, which are challenging for conventional methods given the fact that the training sets are often large and difficult to access. We demonstrate the effectiveness of our approach on several benchmark datasets in the DDIM setting, achieving comparable generation quality while being orders of magnitude faster than the diffusion teacher. The text-to-image results show that the proposed approach is able to handle highly complex distributions, shedding light on more efficient generative modeling.
翻訳日:2023-06-12 15:36:54 公開日:2023-06-08
# Bose-Hubbardモデルにおける演算子成長とクリロフ複雑性

Operator growth and Krylov Complexity in Bose-Hubbard Model ( http://arxiv.org/abs/2306.05542v1 )

ライセンス: Link先を確認
Arpan Bhattacharyya, Debodirna Ghosh, Poulami Nandi(参考訳) 1次元ボソニック系のクリロフ複雑性(ボース=ハバードモデル)について検討した。 ボース・ハバード・ハミルトン群は格子上の相互作用するボソンから構成され、超低温原子を記述する。 超流動-モット絶縁体相転移を示すだけでなく、相互作用パラメータの値に応じてカオス的および可積分的(混合)なダイナミクスを示す。 本稿では,混合度の高い3地点のBose Hubbardモデル(粒子数が異なる)に焦点を当てる。 我々はLanczosアルゴリズムを用いてLanczos係数とKrylov基底を求める。 正則クリロフ基底は、与えられたハミルトニアンを持つ系の作用素成長を捉える。 しかし,lanczosアルゴリズムは,計算誤差の積み上げによる不安定性のため,修正が必要となる。 次に、krylovの複雑さとその初期および後期の振る舞いを計算する。 この結果は,システムのカオス的かつ可積分的な性質を捉えている。 本稿では,自動相関法によらずに,離散的四進ボソニックハミルトニアンに対して,ランツォスアルゴリズムを非摂動的に非摂動的に使用するための第一歩を踏み出した。

We study Krylov complexity of a one-dimensional Bosonic system, the celebrated Bose-Hubbard Model. The Bose-Hubbard Hamiltonian consists of interacting bosons on a lattice, describing ultra-cold atoms. Apart from showing superfluid-Mott insulator phase transition, the model also exhibits both chaotic and integrable (mixed) dynamics depending on the value of the interaction parameter. We focus on the three-site Bose Hubbard Model (with different particle numbers), which is known to be highly mixed. We use the Lanczos algorithm to find the Lanczos coefficients and the Krylov basis. The orthonormal Krylov basis captures the operator growth for a system with a given Hamiltonian. However, the Lanczos algorithm needs to be modified for our case due to the instabilities instilled by the piling up of computational errors. Next, we compute the Krylov complexity and its early and late-time behaviour. Our results capture the chaotic and integrable nature of the system. Our paper takes the first step to use the Lanczos algorithm non-perturbatively for a discrete quartic bosonic Hamiltonian without depending on the auto-correlation method.
翻訳日:2023-06-12 15:36:32 公開日:2023-06-08
# 天体物理学におけるコントラスト学習の概観

A brief review of contrastive learning applied to astrophysics ( http://arxiv.org/abs/2306.05528v1 )

ライセンス: Link先を確認
Marc Huertas-Company, Regina Sarmiento, Johan Knapen(参考訳) 高次元空間からパターンを抽出する信頼性の高いツールは、天文学的なデータセットが体積と複雑さの両方を増大させるにつれて、ますます必要になってきている。 コントラスト学習は、多次元データセットから情報量を抽出する自己教師あり機械学習アルゴリズムであり、近年、コンピュータビジョンや機械学習コミュニティで人気が高まっている。 そのため、同一入力データの拡張版から抽出した情報間の一致を最大化し、最終的な表現を適用された変換に不変にする。 コントラストラーニング(Contrastive Learning)は、天文学において、既知の機器効果を除去し、限られた量のラベルで教師付き分類と回帰を行うのに特に有用である。 この短いレビュー論文は、対比学習の背後にある主要な概念を簡潔に要約し、天文学への最初の有望な応用をレビューします。 コントラスト学習に特に魅力的なアプリケーションについて、実践的な推奨事項をいくつか挙げる。

Reliable tools to extract patterns from high-dimensionality spaces are becoming more necessary as astronomical datasets increase both in volume and complexity. Contrastive Learning is a self-supervised machine learning algorithm that extracts informative measurements from multi-dimensional datasets, which has become increasingly popular in the computer vision and Machine Learning communities in recent years. To do so, it maximizes the agreement between the information extracted from augmented versions of the same input data, making the final representation invariant to the applied transformations. Contrastive Learning is particularly useful in astronomy for removing known instrumental effects and for performing supervised classifications and regressions with a limited amount of available labels, showing a promising avenue towards \emph{Foundation Models}. This short review paper briefly summarizes the main concepts behind contrastive learning and reviews the first promising applications to astronomy. We include some practical recommendations on which applications are particularly attractive for contrastive learning.
翻訳日:2023-06-12 15:36:17 公開日:2023-06-08
# 教師にAIを教える: 制限なしのサリエンス・トレーニングに限定されたサリエンス・データを活用する

Teaching AI to Teach: Leveraging Limited Human Salience Data Into Unlimited Saliency-Based Training ( http://arxiv.org/abs/2306.05527v1 )

ライセンス: Link先を確認
Colton R. Crum, Aidan Boyd, Kevin Bowyer, Adam Czajka(参考訳) 機械学習モデルでは、トレーニングプロセスが人間の知覚情報を組み込むと、分類タスクの精度が向上している。 しかし、人間誘導モデルの訓練における課題は、人間のサリエンスのための画像アノテーション収集に伴うコストである。 大規模なトレーニングセット内のすべての画像に対するアノテーションデータ収集は,極めて高価である。 本研究では,「教師」モデル(少量の人間注釈データに基づく学習)を用いて,教師モデルの給与マップを用いて追加データの注釈付けを行う。 次に、'学生'モデルは、大量の注釈付きトレーニングデータを使用して訓練される。 このアプローチにより、限られた数の人為的アノテーションを任意の数のモデル生成画像アノテーションで補うことができる。 本研究は,教師・生徒の学習パラダイムが達成した正確性と,(1)すべての人的敬礼アノテーションを用いた訓練,(2)人的敬礼アノテーションを使わずに利用可能なすべての訓練データとを比較した。 本研究では, 合成顔検出と偽虹彩検出を課題として用い, 4つのモデルアーキテクチャ(DenseNet, ResNet, Xception, Inception)と2つのサリエンシ推定手法(CAM, RISE)で結果を報告する。 その結果,教師の学習パラダイムは両ベースラインのパフォーマンスを大幅に上回るモデルとなり,本手法は少量の人的アノテーションを有効活用し,任意の量のトレーニングデータに対するサリエンスマップを生成することができることを示した。

Machine learning models have shown increased accuracy in classification tasks when the training process incorporates human perceptual information. However, a challenge in training human-guided models is the cost associated with collecting image annotations for human salience. Collecting annotation data for all images in a large training set can be prohibitively expensive. In this work, we utilize ''teacher'' models (trained on a small amount of human-annotated data) to annotate additional data by means of teacher models' saliency maps. Then, ''student'' models are trained using the larger amount of annotated training data. This approach makes it possible to supplement a limited number of human-supplied annotations with an arbitrarily large number of model-generated image annotations. We compare the accuracy achieved by our teacher-student training paradigm with (1) training using all available human salience annotations, and (2) using all available training data without human salience annotations. We use synthetic face detection and fake iris detection as example challenging problems, and report results across four model architectures (DenseNet, ResNet, Xception, and Inception), and two saliency estimation methods (CAM and RISE). Results show that our teacher-student training paradigm results in models that significantly exceed the performance of both baselines, demonstrating that our approach can usefully leverage a small amount of human annotations to generate salience maps for an arbitrary amount of additional training data.
翻訳日:2023-06-12 15:36:00 公開日:2023-06-08
# 時間アライメントによる未ペアエゴエゴ映像からの微粒なビュー不変表現の学習

Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment ( http://arxiv.org/abs/2306.05526v1 )

ライセンス: Link先を確認
Zihui Xue, Kristen Grauman(参考訳) 人間の活動のエゴセントリックでエキソセントリックな視点は劇的に異なるように見えるが、それらをリンクするための不変表現は、ロボティクスと拡張現実の多くの潜在的な応用に不可欠である。 事前の作業は、ペアの同期された視点からビュー不変機能を学ぶことに限られる。 その強固なデータの仮定を緩和し、同時に撮影されたり、同じ環境で撮影されていなくても、エゴセントリックでエキソセントリックなビデオを時間内に調整することで、視点に不変な細かなアクション特徴を学ぶことを提案する。 そこで本研究では,(1)手やアクティブなオブジェクトに対応する領域に明示的に焦点を絞ったオブジェクト中心エンコーダ,(2)時間反転フレームを負のサンプルとして活用するコントラストに基づくアライメント目的の2つの主要な設計を持つ自己教師型埋め込み手法であるAE2を提案する。 評価のために、収集したエゴテニスフォアハンドデータセットを含む4つのデータセットと、各データセットにアノテートしたフレーム毎の密度の高いラベルからなる、エゴエキソコンテキストにおけるきめ細かいビデオ理解のためのベンチマークを確立します。 4つのデータセットでは、ae2メソッドは、通常の設定とクロスビュー設定の両方において、さまざまなきめ細かいダウンストリームタスクで、以前の作業を大きく上回っています。

The egocentric and exocentric viewpoints of a human activity look dramatically different, yet invariant representations to link them are essential for many potential applications in robotics and augmented reality. Prior work is limited to learning view-invariant features from paired synchronized viewpoints. We relax that strong data assumption and propose to learn fine-grained action features that are invariant to the viewpoints by aligning egocentric and exocentric videos in time, even when not captured simultaneously or in the same environment. To this end, we propose AE2, a self-supervised embedding approach with two key designs: (1) an object-centric encoder that explicitly focuses on regions corresponding to hands and active objects; (2) a contrastive-based alignment objective that leverages temporally reversed frames as negative samples. For evaluation, we establish a benchmark for fine-grained video understanding in the ego-exo context, comprising four datasets -- including an ego tennis forehand dataset we collected, along with dense per-frame labels we annotated for each dataset. On the four datasets, our AE2 method strongly outperforms prior work in a variety of fine-grained downstream tasks, both in regular and cross-view settings.
翻訳日:2023-06-12 15:35:36 公開日:2023-06-08
# 不均一リワードを有する分散ランダム分散マルチエージェントマルチアームバンド

Decentralized Randomly Distributed Multi-agent Multi-armed Bandit with Heterogeneous Rewards ( http://arxiv.org/abs/2306.05579v1 )

ライセンス: Link先を確認
Mengfan Xu and Diego Klabjan(参考訳) 環境によって提供される時間依存ランダムグラフによって複数のクライアントが接続される分散マルチエージェントマルチアームバンディット問題について検討する。 各アームの報酬分布はクライアント間で異なり、報酬はサブ指数分布とサブゲージ分布の両方を含む分布に基づく環境によって時間とともに独立に生成される。 各クライアントはarmをプルし、環境が提供するグラフに基づいて隣人と通信する。 目標は、コラボレーションを通じてシステム全体の後悔を最小化することです。 そこで,本研究では,マルコフ連鎖あるいはランダムグラフモデルを用いて,ランダムグラフを生成するためのロバストなシミュレーション手法を提供し,平均値に基づくコンセンサスアプローチと,新たに提案する重み付け手法と,ucb型ソリューションを提供するための上位信頼度を組み合わせたアルゴリズムフレームワークを提案する。 我々のアルゴリズムはグラフのランダム性を考慮し、従来の2倍確率性仮定を取り除き、初期化時のクライアント数の知識のみを必要とする。 我々は、サブゲージ環境とサブ指数環境の両方において、最適なインスタンス依存の後悔の上限である$\log{t}$を導出し、ほぼ最適な平均ギャップ独立な後悔の上限である$\sqrt{t}\log t$を$\log t$ファクターまで導出する。 重要なのは、私たちの後悔の境界は高い確率とグラフのランダム性を持ち、先行研究は想定された後悔を考慮し、より厳密な報酬分布を必要とする。

We study a decentralized multi-agent multi-armed bandit problem in which multiple clients are connected by time dependent random graphs provided by an environment. The reward distributions of each arm vary across clients and rewards are generated independently over time by an environment based on distributions that include both sub-exponential and sub-gaussian distributions. Each client pulls an arm and communicates with neighbors based on the graph provided by the environment. The goal is to minimize the overall regret of the entire system through collaborations. To this end, we introduce a novel algorithmic framework, which first provides robust simulation methods for generating random graphs using rapidly mixing Markov chains or the random graph model, and then combines an averaging-based consensus approach with a newly proposed weighting technique and the upper confidence bound to deliver a UCB-type solution. Our algorithms account for the randomness in the graphs, removing the conventional doubly stochasticity assumption, and only require the knowledge of the number of clients at initialization. We derive optimal instance-dependent regret upper bounds of order $\log{T}$ in both sub-gaussian and sub-exponential environments, and a nearly optimal mean-gap independent regret upper bound of order $\sqrt{T}\log T$ up to a $\log T$ factor. Importantly, our regret bounds hold with high probability and capture graph randomness, whereas prior works consider expected regret under assumptions and require more stringent reward distributions.
翻訳日:2023-06-12 15:28:06 公開日:2023-06-08
# 周波数ジャンプの異なる量子高調波発振器のスクイーズ等価性

Squeezing equivalence of quantum harmonic oscillators under different frequency jumps ( http://arxiv.org/abs/2306.05577v1 )

ライセンス: Link先を確認
Stanley S. Coelho, Lucas Queiroz, Danilo T. Alves(参考訳) 量子調和振動子の突然の周波数変化の系列によって生じるスクイーズの研究において、janszkyとadam [phys。 a {\bf 46}, 6091 (1992)] は以下の等価性を見いだした: 2つの突然の周波数ジャンプの列の下の調和振動子は、$\omega_0$から$\omega_1$に戻り、$\omega_0$(時間間隔$\tau$の後に)、$\tau=k\pi/\omega_1$$(k\in\mathbb{n}$)で展示する。 本稿では,この等価性の拡張版を示し,2つの突発的な周波数ジャンプの異なるシーケンスの設定方法を示し,時間間隔$\tau$ の中間周波数が異なるにもかかわらず,ジャンプ終了後に同じ値 $r(t>\tau)\neq0$ (その結果,それに依存する物理量) となる。 特定の状況に適用すると、我々の公式はヤンスキーとアダムによって得られた同値性を取り戻す。

In their studies on the squeezing produced by a sequence of sudden frequency changes of a quantum harmonic oscillator, Janszky and Adam [Phys. Rev. A {\bf 46}, 6091 (1992)] found the following equivalence: a harmonic oscillator, under a sequence of two sudden frequency jumps, from $\omega_0$ to $\omega_1$ and back to $\omega_0$ (after a time interval $\tau$), exhibits, for $\tau=k\pi/\omega_1$ ($k\in\mathbb{N}$), exactly the same squeezing parameter as the harmonic oscillator whose frequency would remain constant [specifically, $r(t>\tau)=0$]. In the present paper, we show an extended version of this equivalence, demonstrating how to set up different sequences of two sudden frequency jumps, so that, despite having different intermediate frequencies during a time interval $\tau$, they result in a same value $r(t>\tau)\neq0$ (and, consequently, in the same physical quantities that depend on it) after the jumps cease. Applied to a particular situation, our formulas recover the equivalence obtained by Janszky and Adam.
翻訳日:2023-06-12 15:27:39 公開日:2023-06-08
# 小児薬剤耐性てんかんにおける rs-fMRI を用いた深層学習と専門知識の融合

Merging Deep Learning with Expert Knowledge for Seizure Onset Zone localization from rs-fMRI in Pediatric Pharmaco Resistant Epilepsy ( http://arxiv.org/abs/2306.05572v1 )

ライセンス: Link先を確認
Payal Kamboj, Ayan Banerjee, Sandeep K. S. Gupta and Varina L. Boerwinkle(参考訳) 早期の青少年発症帯(SOZs)の外科的解離はPRE(Pharmaco-Resistant Epilepsy)の有効治療である。 頭蓋内脳波(iEEG)によるSOZの術前局在は、安全で効果的な電極配置を必要とする。 静止状態機能型磁気共鳴イメージング (rs-fMRI) と独立成分 (IC) 分析を用いた信号デカップリングを併用すると, iEEG の鉛配置を誘導する SOZ 局在能が期待できることが示された。 しかし、SOZ ICの識別には、手術チームによって患者1人当たり100件のICを手動で分類する必要がある。 rs-fmri を用いた soz ic の自動同定手法では, 小児データから脳ネットワークの複雑さをエンコードする深層学習 (dl) や, 空間的特徴の完全なスペクトルをエンコードできない浅層学習 (sl) の規則に基づく推論手法が用いられる。 本稿では,dlベース空間特徴とslベースエキスパート知識エンコーディングの相乗効果を生かしたdeepxsozを提案する。 DeepXSOZは、ループ内のICソート技術である a) 専門家による作業負荷のソートを著しく削減するか,あるいは外科チームの専門知識に基づいて高い感度で作業を行うように設定することができる。 b) RS-fMRIを低費用外来スクリーニングツールとして使用できる可能性がある。 Preを持つ52人の子供の最先端技術と比較すると、DeepXSOZの感度は89.79%、精度は93.6%、精度は84.6%、ソート作業は6.7倍である。 知識レベルのアブレーション研究は、様々なシナリオにおいて、マシン-専門家のコラボレーションを最適化しながら、患者結果の最大化への道筋を示す。

Surgical disconnection of Seizure Onset Zones (SOZs) at an early age is an effective treatment for Pharmaco-Resistant Epilepsy (PRE). Pre-surgical localization of SOZs with intra-cranial EEG (iEEG) requires safe and effective depth electrode placement. Resting-state functional Magnetic Resonance Imaging (rs-fMRI) combined with signal decoupling using independent component (IC) analysis has shown promising SOZ localization capability that guides iEEG lead placement. However, SOZ ICs identification requires manual expert sorting of 100s of ICs per patient by the surgical team which limits the reproducibility and availability of this pre-surgical screening. Automated approaches for SOZ IC identification using rs-fMRI may use deep learning (DL) that encodes intricacies of brain networks from scarcely available pediatric data but has low precision, or shallow learning (SL) expert rule-based inference approaches that are incapable of encoding the full spectrum of spatial features. This paper proposes DeepXSOZ that exploits the synergy between DL based spatial feature and SL based expert knowledge encoding to overcome performance drawbacks of these strategies applied in isolation. DeepXSOZ is an expert-in-the-loop IC sorting technique that a) can be configured to either significantly reduce expert sorting workload or operate with high sensitivity based on expertise of the surgical team and b) can potentially enable the usage of rs-fMRI as a low cost outpatient pre-surgical screening tool. Comparison with state-of-art on 52 children with PRE shows that DeepXSOZ achieves sensitivity of 89.79%, precision of 93.6% and accuracy of 84.6%, and reduces sorting effort by 6.7-fold. Knowledge level ablation studies show a pathway towards maximizing patient outcomes while optimizing the machine-expert collaboration for various scenarios.
翻訳日:2023-06-12 15:27:10 公開日:2023-06-08
# AI時代の偽情報2.0:サイバーセキュリティの観点から

Disinformation 2.0 in the Age of AI: A Cybersecurity Perspective ( http://arxiv.org/abs/2306.05569v1 )

ライセンス: Link先を確認
Wojciech Mazurczyk, Dongwon Lee, Andreas Vlachos(参考訳) 近年のAI技術の爆発的な進歩により、偽情報研究の現場も急速に変化することが期待されている。 本稿では,まず,ai時代において,偽情報がより標的となりパーソナライズされ,その内容が現実のニュースと区別しにくくなり,その創造と普及がaiによってより加速される「偽情報2.0」の概念を提示する。 次に、偽情報2.0とサイバーセキュリティの適合と、偽情報2.0の脅威を包括的に対処するための階層化対策について論じる。

With the explosive advancement of AI technologies in recent years, the scene of the disinformation research is also expected to rapidly change. In this viewpoint article, in particular, we first present the notion of "disinformation 2.0" in the age of AI where disinformation would become more targeted and personalized, its content becomes very difficult to distinguish from real news, and its creation and dissemination become more accelerated by AI. Then, we discuss how disinformation 2.0 and cybersecurity fit and a possible layered countermeasure to address the threat in disinformation 2.0 in a holistic manner.
翻訳日:2023-06-12 15:26:33 公開日:2023-06-08
# 最大機械学習ポートフォリオ

Maximally Machine-Learnable Portfolios ( http://arxiv.org/abs/2306.05568v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Maximilian Goebel(参考訳) 株価のリターンに関しては、どんな予測可能性でもリスク調整による収益性を高めることができる。 我々は,ポートフォリオの重み付けを最適化し,得られた合成セキュリティを最大に予測可能な協調機械学習アルゴリズムを開発した。 そこで,本論文では,本方程式の一方にランダムな森林を配置し,他方に制約付きリッジ回帰を施すことで,上記目標を達成するための交互条件付き期待値の多変量拡張であるmaceを紹介する。 Lo と MacKinlay の元々の最大予測可能なポートフォリオアプローチには,2つの重要な改善点がある。 まず、任意の(非線形)予測アルゴリズムと予測子セットに対応する。 第二に、大きなポートフォリオを扱う。 我々は,日・月毎の頻度で運動を行い,非常に少ない条件情報を用いて予測可能性と収益性の向上を報告した。 興味深いことに、予測可能性も良いタイミングでも見つからず、MACEは2022年の崩壊をうまくナビゲートしている。

When it comes to stock returns, any form of predictability can bolster risk-adjusted profitability. We develop a collaborative machine learning algorithm that optimizes portfolio weights so that the resulting synthetic security is maximally predictable. Precisely, we introduce MACE, a multivariate extension of Alternating Conditional Expectations that achieves the aforementioned goal by wielding a Random Forest on one side of the equation, and a constrained Ridge Regression on the other. There are two key improvements with respect to Lo and MacKinlay's original maximally predictable portfolio approach. First, it accommodates for any (nonlinear) forecasting algorithm and predictor set. Second, it handles large portfolios. We conduct exercises at the daily and monthly frequency and report significant increases in predictability and profitability using very little conditioning information. Interestingly, predictability is found in bad as well as good times, and MACE successfully navigates the debacle of 2022.
翻訳日:2023-06-12 15:26:21 公開日:2023-06-08
# インテリジェント分析を用いたスマートシティにおけるIoTフレームワークによるインテリジェントエネルギー管理:複雑なネットワークとシステムに対する機械学習手法の適用

Intelligent Energy Management with IoT Framework in Smart Cities Using Intelligent Analysis: An Application of Machine Learning Methods for Complex Networks and Systems ( http://arxiv.org/abs/2306.05567v1 )

ライセンス: Link先を確認
Maryam Nikpour, Parisa Behvand Yousefi, Hadi Jafarzadeh, Kasra Danesh, Mohsen Ahmadi(参考訳) スマートな建物では、エネルギー消費と環境への影響を減らすためにIoT(Internet of Things)ベースのワイヤレスセンシングシステムの利用が増えている。 インターネット・オブ・モノ・デバイスは、コンパクトなサイズとすべての電気特性を感知、測定、計算する能力によって、我々の社会ではますます重要になっている。 この研究の主な貢献は、IoTアーキテクチャとフレームワークの複数のコンポーネントを取り入れた、スマートシティエネルギー管理のための包括的なIoTベースのフレームワークの開発である。 インテリジェント分析を利用するインテリジェントエネルギー管理アプリケーションのためのIoTフレームワークは、情報を収集し保存する重要なシステムコンポーネントである。 さらに、他の企業によるアプリケーション開発のためのプラットフォームとしても機能する。 さらに,知的なメカニズムに基づく知的エネルギー管理ソリューションについても検討した。 エネルギー資源の枯渇とエネルギー需要の増加は、エネルギー消費の増加と建物の維持につながった。 収集されたデータは、システムの効率を監視、制御、強化するために使用される。

Smart buildings are increasingly using Internet of Things (IoT)-based wireless sensing systems to reduce their energy consumption and environmental impact. As a result of their compact size and ability to sense, measure, and compute all electrical properties, Internet of Things devices have become increasingly important in our society. A major contribution of this study is the development of a comprehensive IoT-based framework for smart city energy management, incorporating multiple components of IoT architecture and framework. An IoT framework for intelligent energy management applications that employ intelligent analysis is an essential system component that collects and stores information. Additionally, it serves as a platform for the development of applications by other companies. Furthermore, we have studied intelligent energy management solutions based on intelligent mechanisms. The depletion of energy resources and the increase in energy demand have led to an increase in energy consumption and building maintenance. The data collected is used to monitor, control, and enhance the efficiency of the system.
翻訳日:2023-06-12 15:26:05 公開日:2023-06-08
# 正規微分方程式に対するデータ適応確率的近似

Data-Adaptive Probabilistic Likelihood Approximation for Ordinary Differential Equations ( http://arxiv.org/abs/2306.05566v1 )

ライセンス: Link先を確認
Mohan Wu and Martin Lysy(参考訳) 常微分方程式(ODE)のパラメータ推論は多くの科学的応用において基本的な重要性を持つ。 ode解は通常決定論的アルゴリズムによって近似されるが、確率的解法に関する新しい研究は、数値誤差の計算精度の向上によってより信頼性の高いパラメータ推定を生成することを示している。 しかし、多くのODEシステムはパラメータ値に非常に敏感である。 これは確率関数において深い局所的極小を生み出す -- 既存の確率的解法がまだ解決していない問題である。 ここでは、確率的ODE解に対するベイズフィルタのパラダイムが、ノイズの多いODE観測からデータ適応的に学習することで、パラメータに対する感度を劇的に低減できることを示す。 本手法は, 部分的観測不能成分と任意の非ガウス雑音を有するodeに適用できる。 いくつかの例は、既存の確率的ODEソルバよりも正確であることを示している。

Parameter inference for ordinary differential equations (ODEs) is of fundamental importance in many scientific applications. While ODE solutions are typically approximated by deterministic algorithms, new research on probabilistic solvers indicates that they produce more reliable parameter estimates by better accounting for numerical errors. However, many ODE systems are highly sensitive to their parameter values. This produces deep local minima in the likelihood function -- a problem which existing probabilistic solvers have yet to resolve. Here, we show that a Bayesian filtering paradigm for probabilistic ODE solution can dramatically reduce sensitivity to parameters by learning from the noisy ODE observations in a data-adaptive manner. Our method is applicable to ODEs with partially unobserved components and with arbitrary non-Gaussian noise. Several examples demonstrate that it is more accurate than existing probabilistic ODE solvers, and even in some cases than the exact ODE likelihood.
翻訳日:2023-06-12 15:25:52 公開日:2023-06-08
# AircraftVerse: 航空機設計の大規模マルチモーダルデータセット

AircraftVerse: A Large-Scale Multimodal Dataset of Aerial Vehicle Designs ( http://arxiv.org/abs/2306.05562v1 )

ライセンス: Link先を確認
Adam D. Cobb, Anirban Roy, Daniel Elenius, F. Michael Heim, Brian Swenson, Sydney Whittington, James D. Walker, Theodore Bapty, Joseph Hite, Karthik Ramani, Christopher McComb, Susmit Jha(参考訳) 私たちが紹介するAircraftVerseは、パブリックな航空車両設計データセットである。 航空機の設計は異なる物理領域を含み、したがって複数の表現のモダリティを含んでいる。 これらのサイバーフィジカルシステム(cps)の設計の評価には、構造および製造分析のためのコンピュータ支援設計ツール、ドラッグ・リフト計算のための計算流体力学ツール、エネルギー推定のためのバッテリモデル、飛行制御およびダイナミクスのためのシミュレーションモデルなど幅広い科学分析およびシミュレーションモデルの使用が必要である。 AircraftVerseには27,714の多様な航空機デザインがあり、このレベルの複雑さを持つ最大のエンジニアリングデザインコーパスである。 それぞれのデザインは、トポロジー、推進サブシステム、バッテリーサブシステム、その他の設計の詳細を記述する象徴的なデザインツリー、製品交換(STEP)モデルデータのためのStandard、ステレオリソグラフィ(STL)ファイルフォーマットを用いた3DCADデザイン、デザインの形状のための3Dポイントクラウド、そして最大飛行距離やホバータイムなどのパフォーマンス指標を特徴付ける高忠実度状態の物理モデルによる評価結果を含む。 また、データセットリリースの一部として提供される設計パフォーマンスメトリクスを予測するために、デザイン表現の異なるモダリティを使用するベースラインサロゲートモデルも提示します。 最後に,本データセットが航空機設計およびより一般的にはCPSにおける学習利用に与える影響について論じる。 AircraftVerseにはデータカードが付属しており、Creative Commons Attribution-ShareAlike (CC BY-SA)ライセンスでリリースされている。 データセットはhttps://zenodo.org/record/6525446、ベースラインモデルとコードはhttps://github.com/SRI-CSL/AircraftVerse、データセット記述はhttps://aircraftverse.onrender.com/にある。

We present AircraftVerse, a publicly available aerial vehicle design dataset. Aircraft design encompasses different physics domains and, hence, multiple modalities of representation. The evaluation of these cyber-physical system (CPS) designs requires the use of scientific analytical and simulation models ranging from computer-aided design tools for structural and manufacturing analysis, computational fluid dynamics tools for drag and lift computation, battery models for energy estimation, and simulation models for flight control and dynamics. AircraftVerse contains 27,714 diverse air vehicle designs - the largest corpus of engineering designs with this level of complexity. Each design comprises the following artifacts: a symbolic design tree describing topology, propulsion subsystem, battery subsystem, and other design details; a STandard for the Exchange of Product (STEP) model data; a 3D CAD design using a stereolithography (STL) file format; a 3D point cloud for the shape of the design; and evaluation results from high fidelity state-of-the-art physics models that characterize performance metrics such as maximum flight distance and hover-time. We also present baseline surrogate models that use different modalities of design representation to predict design performance metrics, which we provide as part of our dataset release. Finally, we discuss the potential impact of this dataset on the use of learning in aircraft design and, more generally, in CPS. AircraftVerse is accompanied by a data card, and it is released under Creative Commons Attribution-ShareAlike (CC BY-SA) license. The dataset is hosted at https://zenodo.org/record/6525446, baseline models and code at https://github.com/SRI-CSL/AircraftVerse, and the dataset description at https://aircraftverse.onrender.com/.
翻訳日:2023-06-12 15:25:38 公開日:2023-06-08
# 匿名化データを用いたプライバシとユーティリティ保護NLP:擬似化を事例として

Privacy- and Utility-Preserving NLP with Anonymized Data: A case study of Pseudonymization ( http://arxiv.org/abs/2306.05561v1 )

ライセンス: Link先を確認
Oleksandr Yermilov, Vipul Raheja, Artem Chernodub(参考訳) 本研究では,ルールベースの置換から事前学習されたLarge Language Models (LLMs) まで,テキスト分類と要約という2つのNLPタスクに使用されるさまざまなデータセットとモデルに対する様々な擬似化手法の有効性について検討する。 我々の研究は、原データと匿名データのギャップ(偽名化技術に焦点をあてる)とモデル品質のギャップに関する重要な洞察を提供し、データ保護とユーティリティ保存のトレードオフのバランスを改善するために、高品質な匿名化技術の研究を促進する。 コード、偽名付きデータセット、ダウンストリームモデルを公開します

This work investigates the effectiveness of different pseudonymization techniques, ranging from rule-based substitutions to using pre-trained Large Language Models (LLMs), on a variety of datasets and models used for two widely used NLP tasks: text classification and summarization. Our work provides crucial insights into the gaps between original and anonymized data (focusing on the pseudonymization technique) and model quality and fosters future research into higher-quality anonymization techniques to better balance the trade-offs between data protection and utility preservation. We make our code, pseudonymized datasets, and downstream models publicly available
翻訳日:2023-06-12 15:24:58 公開日:2023-06-08
# グラフニューラルネットワークにおける局所ホモフィリーレベルの性能差について

On Performance Discrepancies Across Local Homophily Levels in Graph Neural Networks ( http://arxiv.org/abs/2306.05557v1 )

ライセンス: Link先を確認
Donald Loveland, Jiong Zhu, Mark Heimann, Benjamin Fish, Michael T. Shaub, Danai Koutra(参考訳) gnnの研究は、高い相同性(つまり類似クラスのノードが接続する傾向)とノード分類における強力な予測性能との関係を強調している。 しかし、最近の研究では、この関係はよりニュアンスが高いことが分かっており、単純なGNNでもある種の異性愛的な環境で学習できることが示されている。 これらの結果のギャップを埋めるために,先行研究における仮定を再検討し,データセットがノード間で一定のホモフィリーレベルを持つものとして扱われることが多いことを明らかにする。 実世界のデータセットに近づくために,ノードの局所的ホモフィリーレベルがグラフのグローバルなホモフィリーレベルからテスト時にずれたとき,GNNの性能を理論的かつ実証的に研究する。 本理論解析を支援するために, 局所ホモフィリーレベル制御を可能にするため, 局所ホモフィリーが性能に与える影響に関する系統的実証研究を可能にするため, ホモフィリー解析で一般的に用いられる優先アタッチメントモデルに新たなパラメータを導入する。 さらに,グローバルなホモフィリーレベルの異なる実世界のデータセットの粒度解析を行う。 理論的な結果と経験的な結果から (a)~GNNは、グラフのグローバルなホモフィリーから逸脱するテストノードに一般化できない可能性がある。 (b)~高局所ホモフィリーは必ずしもノードの高性能を期待するとは限らない。 (c)~ ヘテロフィリーを扱うように設計されたGNNモデルは、データセットのグローバルなホモフィリーに関係なく、様々なヘテロフィリー範囲でより良い性能を発揮する。 これらの知見は、GNNがグローバルなホモフィリーを過度に信頼してトレーニングし、大きなローカルなホモフィリー範囲をまたいでより一般化可能なGNNを設計する必要があることを示唆している。

Research on GNNs has highlighted a relationship between high homophily (i.e., the tendency for nodes of a similar class to connect) and strong predictive performance in node classification. However, recent research has found the relationship to be more nuanced, demonstrating that even simple GNNs can learn in certain heterophilous settings. To bridge the gap between these findings, we revisit the assumptions made in previous works and identify that datasets are often treated as having a constant homophily level across nodes. To align closer to real-world datasets, we theoretically and empirically study the performance of GNNs when the local homophily level of a node deviates at test-time from the global homophily level of its graph. To aid our theoretical analysis, we introduce a new parameter to the preferential attachment model commonly used in homophily analysis to enable the control of local homophily levels in generated graphs, enabling a systematic empirical study on how local homophily can impact performance. We additionally perform a granular analysis on a number of real-world datasets with varying global homophily levels. Across our theoretical and empirical results, we find that (a)~ GNNs can fail to generalize to test nodes that deviate from the global homophily of a graph, (b)~ high local homophily does not necessarily confer high performance for a node, and (c)~ GNN models designed to handle heterophily are able to perform better across varying heterophily ranges irrespective of the dataset's global homophily. These findings point towards a GNN's over-reliance on the global homophily used for training and motivates the need to design GNNs that can better generalize across large local homophily ranges.
翻訳日:2023-06-12 15:24:46 公開日:2023-06-08
# LOST:Redditの投稿で自己評価の低いメンタルヘルスデータセット

LOST: A Mental Health Dataset of Low Self-esteem in Reddit Posts ( http://arxiv.org/abs/2306.05596v1 )

ライセンス: Link先を確認
Muskan Garg, Manas Gaur, Raxit Goswami, Sunghwan Sohn(参考訳) 低自尊心と対人欲求(TB)と認知的負担感(PB)は、うつ病や自殺の試みに大きな影響を及ぼす。 個人は孤独を和らげ、緩和するためにソーシャルメディア上で社会的つながりを求める。 ソーシャルメディアプラットフォームは、人々が自分の考え、経験、信念、感情を表現できるようにする。 ソーシャルメディアによる精神健康に関する先行研究は、症状、原因、障害に焦点を当ててきた。 対人リスク要因と自己評価の低いソーシャルメディアコンテンツの初期スクリーニングは、早期の警告を提起し、精神障害のリスクのあるユーザーにセラピストを割り当てる。 標準尺度は、心理学理論を用いた質問から自尊心と対人的ニーズを測定する。 本研究では,Reddit上での自己評価の低さを調査・検出するために,心理学的根拠と専門的な注釈付きデータセットLoST: Low Self esTeemを導入する。 コヒーレンス、正確性、一貫性、信頼性のチェックを含むアノテーションアプローチを通じて、教師あり学習のためのゴールド標準を保証します。 2つのデータ拡張手法を用いてテストした異なる深層言語モデルの結果を示す。 本研究は,心理的・臨床的知識を注入する言語モデルの開発を示唆する。

Low self-esteem and interpersonal needs (i.e., thwarted belongingness (TB) and perceived burdensomeness (PB)) have a major impact on depression and suicide attempts. Individuals seek social connectedness on social media to boost and alleviate their loneliness. Social media platforms allow people to express their thoughts, experiences, beliefs, and emotions. Prior studies on mental health from social media have focused on symptoms, causes, and disorders. Whereas an initial screening of social media content for interpersonal risk factors and low self-esteem may raise early alerts and assign therapists to at-risk users of mental disturbance. Standardized scales measure self-esteem and interpersonal needs from questions created using psychological theories. In the current research, we introduce a psychology-grounded and expertly annotated dataset, LoST: Low Self esTeem, to study and detect low self-esteem on Reddit. Through an annotation approach involving checks on coherence, correctness, consistency, and reliability, we ensure gold-standard for supervised learning. We present results from different deep language models tested using two data augmentation techniques. Our findings suggest developing a class of language models that infuses psychological and clinical knowledge.
翻訳日:2023-06-12 15:17:54 公開日:2023-06-08
# 協調学習における多様なデータ貢献の評価とインセンティブ

Evaluating and Incentivizing Diverse Data Contributions in Collaborative Learning ( http://arxiv.org/abs/2306.05592v1 )

ライセンス: Link先を確認
Baihe Huang, Sai Praneeth Karimireddy, Michael I. Jordan(参考訳) 連合学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。 しかし、データコントリビュータは、より広い人口の多様性を反映しない、人口の特定のサブセットのパフォーマンスにのみ関係している可能性がある。 これにより、グローバルパフォーマンスを気にするプリンシパル(FLプラットフォームデザイナ)と、ローカルパフォーマンスを気にするエージェント(データコレクタ)との間に緊張が生じます。 本研究では,この緊張関係を主エージェントと複数エージェントのゲームとして定式化し,その相互作用を形式的に研究するための線形実験設計問題に焦点をあてる。 本研究では,データの多様性を定量化するために用いられる統計的基準と,使用するフェデレーション学習アルゴリズムの選択が,結果の平衡に有意な影響を与えていることを示す。 これを利用して、データコレクターがグローバル人口を代表するデータに寄与することを奨励し、グローバルなパフォーマンスを最大化する、単純な最適なフェデレーション学習メカニズムを設計する。

For a federated learning model to perform well, it is crucial to have a diverse and representative dataset. However, the data contributors may only be concerned with the performance on a specific subset of the population, which may not reflect the diversity of the wider population. This creates a tension between the principal (the FL platform designer) who cares about global performance and the agents (the data collectors) who care about local performance. In this work, we formulate this tension as a game between the principal and multiple agents, and focus on the linear experiment design problem to formally study their interaction. We show that the statistical criterion used to quantify the diversity of the data, as well as the choice of the federated learning algorithm used, has a significant effect on the resulting equilibrium. We leverage this to design simple optimal federated learning mechanisms that encourage data collectors to contribute data representative of the global population, thereby maximizing global performance.
翻訳日:2023-06-12 15:17:37 公開日:2023-06-08
# Dzyaloshinskii-Moriya相互作用を用いたRydberg原子を用いた量子スピンモデルの実現の提案

Proposal for realizing quantum spin models with Dzyaloshinskii-Moriya interaction using Rydberg atoms ( http://arxiv.org/abs/2306.05591v1 )

ライセンス: Link先を確認
Masaya Kunimi, Takafumi Tomita, Hosho Katsura, and Yusuke Kato(参考訳) 本稿では,Rydberg atom 量子シミュレータにおける Dzyaloshinskii-Moriya 相互作用を用いたチューナブル量子スピンモデルの実現法を提案する。 我々のスキームは2光子ラマン転移とスピン回転フレームへの変換を用いる。 本手法で実験的に実現可能なdmiとゼーマンエネルギーのみを含むモデルの量子力学について検討する。 古典的なものと異なり、このモデルにおける磁化曲線は開境界条件下で連続である。 また、このモデルが非エルゴードダイナミクスを示す量子多体傷を収容することを示した。

We propose a method to realize tunable quantum spin models with Dzyaloshinskii-Moriya interaction (DMI) in Rydberg atom quantum simulators. Our scheme uses a two-photon Raman transition and transformation to the spin-rotating frame. We investigate the quantum dynamics of the model including only the DMI and Zeeman energy, which can be experimentally realized in our scheme. Unlike its classical counterpart, the magnetization curve in this model is continuous under the open boundary condition. We also show that the model accommodates quantum many-body scars exhibiting nonergodic dynamics.
翻訳日:2023-06-12 15:17:21 公開日:2023-06-08
# ロボット集合体における領域拘束型連成形成の可能性

The Viability of Domain Constrained Coalition Formation for Robotic Collectives ( http://arxiv.org/abs/2306.05590v1 )

ライセンス: Link先を確認
Grace Diehl and Julie A. Adams(参考訳) 軍事や災害対応などの応用は、ロボット集団が複数の協調作業(例えば、監視、損害評価)を大きな空間領域で効率的に行う能力の恩恵を受けることができる。 協調形成アルゴリズムは、適切なタスクチームへの集団ロボットの割り当てを促進する可能性があるが、ほとんどの連立形成アルゴリズムはより小さな複数のロボットシステム(2-50ロボット)のために設計された。 集団の規模とドメイン関連制約(分散、ほぼリアルタイム、最小限のコミュニケーション)は、連立形成をより困難にする。 この写本は、非常に大きな集団(例えば1000ロボット)の連立形成アルゴリズムの設計に固有の課題を特定する。 複数のロボット結合生成アルゴリズムの調査では、システムの違いが特定されているため、ほとんどの人が集団に直接移動できないことが判明したが、オークションやヘドニックゲームが最も転送可能かもしれない。 3つのオークションとヘドニックゲームアルゴリズムのシミュレーションに基づく評価は、均質群と異質群に応用され、既存のアルゴリズムが実現できない集団構成が存在することを実証するが、実験結果と文献調査は、今後の道筋を示唆している。

Applications, such as military and disaster response, can benefit from robotic collectives' ability to perform multiple cooperative tasks (e.g., surveillance, damage assessments) efficiently across a large spatial area. Coalition formation algorithms can potentially facilitate collective robots' assignment to appropriate task teams; however, most coalition formation algorithms were designed for smaller multiple robot systems (i.e., 2-50 robots). Collectives' scale and domain-relevant constraints (i.e., distribution, near real-time, minimal communication) make coalition formation more challenging. This manuscript identifies the challenges inherent to designing coalition formation algorithms for very large collectives (e.g., 1000 robots). A survey of multiple robot coalition formation algorithms finds that most are unable to transfer directly to collectives, due to the identified system differences; however, auctions and hedonic games may be the most transferable. A simulation-based evaluation of three auction and hedonic game algorithms, applied to homogeneous and heterogeneous collectives, demonstrates that there are collective compositions for which no existing algorithm is viable; however, the experimental results and literature survey suggest paths forward.
翻訳日:2023-06-12 15:17:11 公開日:2023-06-08
# mc-nn:インフルエンザaウイルス宿主および抗原型予測のためのエンドツーエンドマルチチャネルニューラルネットワークアプローチ

MC-NN: An End-to-End Multi-Channel Neural Network Approach for Predicting Influenza A Virus Hosts and Antigenic Types ( http://arxiv.org/abs/2306.05587v1 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザは公衆衛生、特に高齢者、幼児、基礎疾患を持つ人々にとって重大な脅威となる。 肺炎などの重篤な症状の出現は、インフルエンザ感染の予防の重要性を強調している。 A型インフルエンザウイルスの宿主および抗原サブタイプの正確な予測は、特に資源に制約のある地域でこの問題に対処するために不可欠である。 本研究では,ヘマグルチニンおよびノイラミニダーゼタンパク質配列からインフルエンザAウイルスの宿主および抗原サブタイプを予測するためのマルチチャネルニューラルネットワークモデルを提案する。 本モデルは,完全タンパク質配列の包括的データセットを用いて訓練し,完全および不完全配列の様々な試験データセットを用いて評価した。 その結果、インフルエンザAウイルスの宿主および抗原サブタイプを全タンパク質配列および部分タンパク質配列から予測するためのマルチチャネルニューラルネットワークの有用性と実用性を示した。

Influenza poses a significant threat to public health, particularly among the elderly, young children, and people with underlying dis-eases. The manifestation of severe conditions, such as pneumonia, highlights the importance of preventing the spread of influenza. An accurate and cost-effective prediction of the host and antigenic sub-types of influenza A viruses is essential to addressing this issue, particularly in resource-constrained regions. In this study, we propose a multi-channel neural network model to predict the host and antigenic subtypes of influenza A viruses from hemagglutinin and neuraminidase protein sequences. Our model was trained on a comprehensive data set of complete protein sequences and evaluated on various test data sets of complete and incomplete sequences. The results demonstrate the potential and practicality of using multi-channel neural networks in predicting the host and antigenic subtypes of influenza A viruses from both full and partial protein sequences.
翻訳日:2023-06-12 15:16:50 公開日:2023-06-08
# 教師なし剛体セグメンテーションと運動推定のための多体SE(3)等価性

Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and Motion Estimation ( http://arxiv.org/abs/2306.05584v1 )

ライセンス: Link先を確認
Jia-Xing Zhong, Ta-Ying Cheng, Yuhang He, Kai Lu, Kaichen Zhou, Andrew Markham, Niki Trigoni(参考訳) 厳密なセグメンテーションと運動推定への真に一般化可能なアプローチは、明瞭な物体や移動シーンの3次元理解に不可欠である。 セグメンテーションと運動推定の密結合性の観点から,SE(3)同変アーキテクチャと,この課題に教師なしで取り組むためのトレーニング戦略を提案する。 本アーキテクチャは,2つの軽量かつ相互接続型ヘッドからなり,点レベル不変特徴を用いたセグメンテーションマスクとSE(3)同変特徴からの運動推定をカテゴリ情報の前提条件なしに予測する。 シーンフロー,セグメンテーションマスク,剛性変換の相互関係を生かして,2つの予測を共同で最適化しながら,統一トレーニング戦略をオンラインで実施する。 モデル性能と計算効率の両面において,0.25Mパラメータと0.92G FLOPを用いた4つのデータセット実験を行った。 我々の知る限りでは、これは動的点雲におけるカテゴリーに依存しない部分レベルSE(3)同値性のために設計された最初の研究である。

A truly generalizable approach to rigid segmentation and motion estimation is fundamental to 3D understanding of articulated objects and moving scenes. In view of the tightly coupled relationship between segmentation and motion estimates, we present an SE(3) equivariant architecture and a training strategy to tackle this task in an unsupervised manner. Our architecture comprises two lightweight and inter-connected heads that predict segmentation masks using point-level invariant features and motion estimates from SE(3) equivariant features without the prerequisites of category information. Our unified training strategy can be performed online while jointly optimizing the two predictions by exploiting the interrelations among scene flow, segmentation mask, and rigid transformations. We show experiments on four datasets as evidence of the superiority of our method both in terms of model performance and computational efficiency with only 0.25M parameters and 0.92G FLOPs. To the best of our knowledge, this is the first work designed for category-agnostic part-level SE(3) equivariance in dynamic point clouds.
翻訳日:2023-06-12 15:16:33 公開日:2023-06-08
# SGLDに基づく情報基準と過度パラメータ化レジーム

SGLD-Based Information Criteria and the Over-Parameterized Regime ( http://arxiv.org/abs/2306.05583v1 )

ライセンス: Link先を確認
Haobo Chen, Yuheng Bu and Gregory W. Wornell(参考訳) ダブルディフレッシュ(Double-descent)とは、標準的な漸近的アプローチの限界により古典的な形式における情報基準によって予測されない、過パラメータ化による補間しきい値を超えた学習アルゴリズムのテスト損失の予想外の減少を指す。 本稿では,情報リスク最小化フレームワークを用いてこれらの分析を更新し,確率勾配ランゲヴィンダイナミクス(SGLD)で学習したモデルに対して,Akaike Information Criterion(AIC)とBayesian Information Criterion(BIC)を提供する。 特に、SGLDに対するAICとBICのペナルティ用語は、特定の情報手段、すなわち、対称性付きKL情報とKLの発散に対応する。 パラメータ数$p$とサンプル数$n$が無限大になり,$p/n$が固定される状況下で,ランダム特徴モデルに対するSGLDベースのBICを特徴付けることにより,この情報理論解析を過度パラメータ化モデルに拡張する。 実験により,改良したsgldベースのbicは2次元曲線を追跡でき,モデル選択のための有意義なガイダンスを提供し,過パラメータ環境におけるsgld学習アルゴリズムの挙動に関する新たな知見を明らかにした。

Double-descent refers to the unexpected drop in test loss of a learning algorithm beyond an interpolating threshold with over-parameterization, which is not predicted by information criteria in their classical forms due to the limitations in the standard asymptotic approach. We update these analyses using the information risk minimization framework and provide Akaike Information Criterion (AIC) and Bayesian Information Criterion (BIC) for models learned by stochastic gradient Langevin dynamics (SGLD). Notably, the AIC and BIC penalty terms for SGLD correspond to specific information measures, i.e., symmetrized KL information and KL divergence. We extend this information-theoretic analysis to over-parameterized models by characterizing the SGLD-based BIC for the random feature model in the regime where the number of parameters $p$ and the number of samples $n$ tend to infinity, with $p/n$ fixed. Our experiments demonstrate that the refined SGLD-based BIC can track the double-descent curve, providing meaningful guidance for model selection and revealing new insights into the behavior of SGLD learning algorithms in the over-parameterized regime.
翻訳日:2023-06-12 15:16:17 公開日:2023-06-08
# ビュー不変物体認識のための新しいインボディードチューリング試験

A newborn embodied Turing test for view-invariant object recognition ( http://arxiv.org/abs/2306.05582v1 )

ライセンス: Link先を確認
Denizhan Pak, Donsuk Lee, Samantha M. W. Wood, Justin N. Wood(参考訳) 最近の人工知能の進歩は、動物のように学習する機械の開発に再び関心を寄せている。 生物と人工システムの学習を比較する研究のほとんどが、動物と機械が異なるトレーニングデータを受け取り、学習メカニズムとトレーニングデータの違いから動物と機械の違いが生じたかどうかを判断する研究から来ている。 そこで本研究では, 新生動物と機械を同じ環境下で育て, 同じタスクでテストし, 学習能力を直接比較できる実験的アプローチである「新生体型チューリングテスト」を提案する。 このプラットフォームを作るために、我々はまず生まれたばかりのニワトリからコントロール・リアーニングデータを収集し、その後、ニワトリの飼育条件を模倣した仮想環境でマシンを育てる「デジタルツイン」実験を行った。 その結果,(1) 機械(本質的な動機を持つ深層強化学習エージェント) は, 生まれながらのニワトリのインプリンティングに類似した視覚的嗜好行動が自然に発達し, (2) 物体認識タスクにおける新生児レベルのパフォーマンスには及ばないことがわかった。 ニワトリのほとんど全員がビュー不変のオブジェクト認識を開発し、一方、マシンはビュー依存の認識を開発する傾向にあった。 ひよこ対機械の学習結果もはるかに制限されていた。 最終的には、このアプローチが、新生児のように学習する具体的AIシステムの開発に役立つことを期待しています。

Recent progress in artificial intelligence has renewed interest in building machines that learn like animals. Almost all of the work comparing learning across biological and artificial systems comes from studies where animals and machines received different training data, obscuring whether differences between animals and machines emerged from differences in learning mechanisms versus training data. We present an experimental approach-a "newborn embodied Turing Test"-that allows newborn animals and machines to be raised in the same environments and tested with the same tasks, permitting direct comparison of their learning abilities. To make this platform, we first collected controlled-rearing data from newborn chicks, then performed "digital twin" experiments in which machines were raised in virtual environments that mimicked the rearing conditions of the chicks. We found that (1) machines (deep reinforcement learning agents with intrinsic motivation) can spontaneously develop visually guided preference behavior, akin to imprinting in newborn chicks, and (2) machines are still far from newborn-level performance on object recognition tasks. Almost all of the chicks developed view-invariant object recognition, whereas the machines tended to develop view-dependent recognition. The learning outcomes were also far more constrained in the chicks versus machines. Ultimately, we anticipate that this approach will help researchers develop embodied AI systems that learn like newborn animals.
翻訳日:2023-06-12 15:15:51 公開日:2023-06-08
# ランダムプロセスからの事前学習による微分プライベート画像分類

Differentially Private Image Classification by Learning Priors from Random Processes ( http://arxiv.org/abs/2306.06076v1 )

ライセンス: Link先を確認
Xinyu Tang, Ashwinee Panda, Vikash Sehwag, Prateek Mittal(参考訳) プライバシ保存機械学習において、差分プライベート確率勾配降下(DP-SGD)は、サンプルごとの勾配クリッピングとノイズ付加により、SGDよりも悪化する。 近年のプライベートラーニング研究は, DP-SGDを実世界の公開データに取り入れることで, 個人データにおけるDP-SGDの性能向上に寄与している。 本研究では,DP-SGDのプライバシ・ユーティリティ・トレードオフを改善するために,ランダムなプロセスによって生成された画像から先行情報を学習し,それらをプライベートデータに転送する方法を検討する。 3相アプローチのDP-RandPを提案する。 CIFAR10、CIFAR100、MedMNISTのトレーニングをスクラッチから行うと、さまざまなプライバシー予算に対して新たな最先端の精度が得られます。 特に、CIFAR10の過去最高の報告精度を、$60.6 \%$から$72.3 \%$ for $\varepsilon=1$に改善する。 私たちのコードはhttps://github.com/inspire-group/dp-randpで利用可能です。

In privacy-preserving machine learning, differentially private stochastic gradient descent (DP-SGD) performs worse than SGD due to per-sample gradient clipping and noise addition. A recent focus in private learning research is improving the performance of DP-SGD on private data by incorporating priors that are learned on real-world public data. In this work, we explore how we can improve the privacy-utility tradeoff of DP-SGD by learning priors from images generated by random processes and transferring these priors to private data. We propose DP-RandP, a three-phase approach. We attain new state-of-the-art accuracy when training from scratch on CIFAR10, CIFAR100, and MedMNIST for a range of privacy budgets $\varepsilon \in [1, 8]$. In particular, we improve the previous best reported accuracy on CIFAR10 from $60.6 \%$ to $72.3 \%$ for $\varepsilon=1$. Our code is available at https://github.com/inspire-group/DP-RandP.
翻訳日:2023-06-12 12:12:24 公開日:2023-06-08
# マルチパーティチャット:人間とモデルによるグループ設定における会話エージェント

Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models ( http://arxiv.org/abs/2304.13835v3 )

ライセンス: Link先を確認
Jimmy Wei, Kurt Shuster, Arthur Szlam, Jason Weston, Jack Urbanek, Mojtaba Komeili(参考訳) 現在の対話研究は、主にペア(双方向)の会話を研究しており、2人以上の話者が会話する日常的な状況に対処していない。 本研究では,マルチパーティ会話の収集と評価を行い,より一般的な事例について検討する。 我々はLIGHT環境を利用して、各参加者がロールプレイに割り当てられたキャラクタを持つ接地会話を構築する。 そこで我々は,このような会話において,言語モデルが1つ以上の文字として振る舞う能力を評価する。 モデルは、(1)いつ話すかを決定することができること、(2)複数の文字に基づいてコヒーレントな発話を生成すること、の2つのスキルを必要とする。 我々は、新しいデータセットでトレーニングされたモデルと既存のペアワイズ学習された対話モデルを比較し、ほとんどショットプロンプトのない大きな言語モデルと比較する。 新しいデータセットであるmultilightは、公開する予定ですが、グループ設定に大幅な改善をもたらすことができます。

Current dialogue research primarily studies pairwise (two-party) conversations, and does not address the everyday setting where more than two speakers converse together. In this work, we both collect and evaluate multi-party conversations to study this more general case. We use the LIGHT environment to construct grounded conversations, where each participant has an assigned character to role-play. We thus evaluate the ability of language models to act as one or more characters in such conversations. Models require two skills that pairwise-trained models appear to lack: (1) being able to decide when to talk; (2) producing coherent utterances grounded on multiple characters. We compare models trained on our new dataset to existing pairwise-trained dialogue models, as well as large language models with few-shot prompting. We find that our new dataset, MultiLIGHT, which we will publicly release, can help bring significant improvements in the group setting.
翻訳日:2023-06-12 10:15:47 公開日:2023-06-08
# MALTS: ストレッチを学ぶとマッチする

MALTS: Matching After Learning to Stretch ( http://arxiv.org/abs/1811.07415v9 )

ライセンス: Link先を確認
Harsh Parikh, Cynthia Rudin, Alexander Volfovsky(参考訳) 因果推論のための高品質な近似マッチングを生成するフレキシブルなフレームワークを提案する。 マッチングのほとんどの先行作業では、アドホックな距離メトリクスを使用しており、特に無関係な共変量が存在する場合、品質の一致が低くなることが多い。 本研究ではマッチングのための解釈可能な距離メートル法を学習し,より高品質なマッチングを実現する。 学習された距離計量は、結果予測に対する各共変量の貢献に従って共変量空間を拡張する: この延長は、重要な共変量に対するミスマッチが無関係な共変量に対するミスマッチよりも大きなペナルティをもたらすことを意味する。 柔軟な距離メトリクスを学習する能力は、条件付き平均治療効果の推定に、解釈可能で有用なマッチングにつながります。

We introduce a flexible framework that produces high-quality almost-exact matches for causal inference. Most prior work in matching uses ad-hoc distance metrics, often leading to poor quality matches, particularly when there are irrelevant covariates. In this work, we learn an interpretable distance metric for matching, which leads to substantially higher quality matches. The learned distance metric stretches the covariate space according to each covariate's contribution to outcome prediction: this stretching means that mismatches on important covariates carry a larger penalty than mismatches on irrelevant covariates. Our ability to learn flexible distance metrics leads to matches that are interpretable and useful for the estimation of conditional average treatment effects.
翻訳日:2023-06-10 00:21:16 公開日:2023-06-08
# 注意バイアス付き確率勾配降下

Attentional-Biased Stochastic Gradient Descent ( http://arxiv.org/abs/2012.06951v5 )

ライセンス: Link先を確認
Qi Qi, Yi Xu, Rong Jin, Wotao Yin, Tianbao Yang(参考訳) 本稿では、深層学習におけるデータ不均衡やラベルノイズ問題に対処するための、単純で効果的な証明可能な手法(ABSGD)を提案する。 本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 サンプルデータの個々のレベル重みは、データのスケールドロス値の指数に体系的に比例し、分散ロバスト最適化(DRO)の枠組みにおいて、スケーリング係数を正規化パラメータとして解釈する。 スケーリング係数が正か負かによって、ABSGDは情報調整されたmin-maxまたはmin-min DRO問題の定常点に収束することが保証される。 既存のクラスレベルの重み付けスキームと比較して,各クラス内の個々のサンプル間の多様性を捉えることができる。 メタラーニングを用いた従来の個人レベルの重み付け手法と比較し,3つの後方伝播を必要とする最小バッチ確率勾配を計算し,各反復で1つの後方伝播しか行わず,より効率的である。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。 ベンチマークデータセットを用いた実験により,提案手法の有効性を実証した。 footnote{codeは:\url{https://github.com/qiqi-helloworld/absgd/}}で利用可能である。

In this paper, we present a simple yet effective provable method (named ABSGD) for addressing the data imbalance or label noise problem in deep learning. Our method is a simple modification to momentum SGD where we assign an individual importance weight to each sample in the mini-batch. The individual-level weight of sampled data is systematically proportional to the exponential of a scaled loss value of the data, where the scaling factor is interpreted as the regularization parameter in the framework of distributionally robust optimization (DRO). Depending on whether the scaling factor is positive or negative, ABSGD is guaranteed to converge to a stationary point of an information-regularized min-max or min-min DRO problem, respectively. Compared with existing class-level weighting schemes, our method can capture the diversity between individual examples within each class. Compared with existing individual-level weighting methods using meta-learning that require three backward propagations for computing mini-batch stochastic gradients, our method is more efficient with only one backward propagation at each iteration as in standard deep learning methods. ABSGD is flexible enough to combine with other robust losses without any additional cost. Our empirical studies on several benchmark datasets demonstrate the effectiveness of the proposed method.\footnote{Code is available at:\url{https://github.com/qiqi-helloworld/ABSGD/}}
翻訳日:2023-06-09 22:47:44 公開日:2023-06-08
# ロバスト統計を用いたマルチタスク学習とバンドイット

Multitask Learning and Bandits via Robust Statistics ( http://arxiv.org/abs/2112.14233v3 )

ライセンス: Link先を確認
Kan Xu, Hamsa Bastani(参考訳) 意思決定者はしばしば、関連するが異質な学習の問題に直面する。 例えば、大手小売店は、価格や在庫の問題を解決するために、異なる店舗で製品需要を学習し、類似の顧客に仕える店舗で共同で学ぶことが望ましい場合があり、また、病院ネットワークは、個別の介入を割り当てるために、異なる業者で患者リスクを学習し、類似の患者集団に仕える病院で共同で学ぶことが望ましい場合もある。 実際のデータセットに動機付け,各学習インスタンス内の未知のパラメータを,共有グローバルパラメータとスパースインスタンス固有項に分解できる自然設定について検討する。 そこで本研究では,ロバストな統計(類似のインスタンスで学習する)とラッソ回帰(結果の偏りを解消する)のユニークな組み合わせを用いて,この構造をサンプル効率のよい方法で活用する,新しい2段階マルチタスク学習推定器を提案する。 我々の推定器は、一般的な失業推定器と比較して、特徴次元$d$のサンプル複雑性境界を改良し、この改善はマルチタスク学習の恩恵を受ける「データ・プール」インスタンスに対して指数関数的である。 本稿では,マルチタスク推定器を同時文脈バンディットアルゴリズムに組み込むことにより,オンライン学習におけるこれらの結果の有用性を示す。 我々は、時間とともにバイアス分散トレードオフを適切にバランスさせるために、推定器の動的キャリブレーションを定義し、その結果、文脈次元$d$の後悔境界を改善する。 最後に、合成および実際のデータセットに対する我々のアプローチの価値を説明します。

Decision-makers often simultaneously face many related but heterogeneous learning problems. For instance, a large retailer may wish to learn product demand at different stores to solve pricing or inventory problems, making it desirable to learn jointly for stores serving similar customers; alternatively, a hospital network may wish to learn patient risk at different providers to allocate personalized interventions, making it desirable to learn jointly for hospitals serving similar patient populations. Motivated by real datasets, we study a natural setting where the unknown parameter in each learning instance can be decomposed into a shared global parameter plus a sparse instance-specific term. We propose a novel two-stage multitask learning estimator that exploits this structure in a sample-efficient way, using a unique combination of robust statistics (to learn across similar instances) and LASSO regression (to debias the results). Our estimator yields improved sample complexity bounds in the feature dimension $d$ relative to commonly-employed estimators; this improvement is exponential for "data-poor" instances, which benefit the most from multitask learning. We illustrate the utility of these results for online learning by embedding our multitask estimator within simultaneous contextual bandit algorithms. We specify a dynamic calibration of our estimator to appropriately balance the bias-variance tradeoff over time, improving the resulting regret bounds in the context dimension $d$. Finally, we illustrate the value of our approach on synthetic and real datasets.
翻訳日:2023-06-09 22:39:23 公開日:2023-06-08
# ロバストなニューラルイメージ圧縮に向けて:敵対的攻撃とモデルファインタニング

Towards Robust Neural Image Compression: Adversarial Attack and Model Finetuning ( http://arxiv.org/abs/2112.08691v3 )

ライセンス: Link先を確認
Tong Chen and Zhan Ma(参考訳) ディープニューラルネットワークに基づく画像圧縮は広く研究されている。 しかし、実用上重要なモデルのロバスト性は、ほとんど見過ごされています。 そこで本研究では, 学習済み画像圧縮モデルのロバスト性について, 原画像に無視可能な逆摂動を注入することにより検討する。 復号化再構成の厳しい歪みは、既存の方法(ネットワークアーキテクチャ、損失関数、品質スケールなど)によらず、一般的な脆弱性を明らかにする。 モデルのロバスト性を改善するために,幾何学的自己感覚に基づく前処理や敵対的訓練を含む様々な防御戦略を敵の攻撃に対して検討した。 その後、実際の画像再圧縮ケーススタディで防御効率がさらに示される。 全体として、我々の手法は単純で効果的で一般化可能であり、堅牢な画像圧縮ソリューションを開発する上で魅力的である。 すべての材料は再現可能な研究のためにhttps://njuvision.github.io/RobustNICで公開されている。

Deep neural network-based image compression has been extensively studied. However, the model robustness which is crucial to practical application is largely overlooked. We propose to examine the robustness of prevailing learned image compression models by injecting negligible adversarial perturbation into the original source image. Severe distortion in decoded reconstruction reveals the general vulnerability in existing methods regardless of their settings (e.g., network architecture, loss function, quality scale). A variety of defense strategies including geometric self-ensemble based pre-processing, and adversarial training, are investigated against the adversarial attack to improve the model's robustness. Later the defense efficiency is further exemplified in real-life image recompression case studies. Overall, our methodology is simple, effective, and generalizable, making it attractive for developing robust learned image compression solutions. All materials are made publicly accessible at https://njuvision.github.io/RobustNIC for reproducible research.
翻訳日:2023-06-09 22:38:55 公開日:2023-06-08
# CVとNLPの間を橋渡し! グラデーションに基づくテキスト・アドバーサル・アタック・フレームワーク

Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework ( http://arxiv.org/abs/2110.15317v4 )

ライセンス: Link先を確認
Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei(参考訳) 近年は様々なタスクで成功したが、深い学習技術は小さな摂動を伴う敵の例では依然として不十分である。 敵対的攻撃に対する最適化に基づく手法はコンピュータビジョンの分野ではよく研究されているが、テキストの離散的な性質から自然言語処理にそれらを直接適用することは現実的ではない。 この問題に対処するため,視覚領域における既存の最適化に基づく敵攻撃手法を拡張し,テキスト対逆サンプルを作成する統一フレームワークを提案する。 このフレームワークでは、連続的に最適化された摂動を埋め込み層に追加し、前方伝播プロセスで増幅する。 そして、最後の摂動潜在表現をマスク付き言語モデルヘッドで復号し、潜在的対向サンプルを得る。 本稿では,このフレームワークをtextual projected gradient descent (t-pgd) という攻撃アルゴリズムでインスタンス化する。 我々は,プロキシ勾配情報を用いたアルゴリズムの有効性を見出した。 したがって、より困難な転送ブラックボックス攻撃を行い、3つのベンチマークデータセット上で複数のモデルを用いて攻撃アルゴリズムを評価するための包括的な実験を行う。 実験結果から,本手法は全体的に優れた性能を実現し,強いベースライン法と比較して,より流動的で文法的な逆サンプルを生成することが示された。 コードとデータは \url{https://github.com/phantivia/t-pgd} で入手できる。

Despite recent success on various tasks, deep learning techniques still perform poorly on adversarial examples with small perturbations. While optimization-based methods for adversarial attacks are well-explored in the field of computer vision, it is impractical to directly apply them in natural language processing due to the discrete nature of the text. To address the problem, we propose a unified framework to extend the existing optimization-based adversarial attack methods in the vision domain to craft textual adversarial samples. In this framework, continuously optimized perturbations are added to the embedding layer and amplified in the forward propagation process. Then the final perturbed latent representations are decoded with a masked language model head to obtain potential adversarial samples. In this paper, we instantiate our framework with an attack algorithm named Textual Projected Gradient Descent (T-PGD). We find our algorithm effective even using proxy gradient information. Therefore, we perform the more challenging transfer black-box attack and conduct comprehensive experiments to evaluate our attack algorithm with several models on three benchmark datasets. Experimental results demonstrate that our method achieves overall better performance and produces more fluent and grammatical adversarial samples compared to strong baseline methods. The code and data are available at \url{https://github.com/Phantivia/T-PGD}.
翻訳日:2023-06-09 22:37:50 公開日:2023-06-08
# 近似ニュートンポリシー勾配アルゴリズム

Approximate Newton policy gradient algorithms ( http://arxiv.org/abs/2110.02398v6 )

ライセンス: Link先を確認
Haoya Li, Samarth Gupta, Hsiangfu Yu, Lexing Ying, Inderjit Dhillon(参考訳) 近年,マルコフ決定過程や強化学習問題に政策勾配アルゴリズムが広く応用されている。 様々なエントロピー関数を持つ正規化は、探索と安定性の向上を促進するためにしばしば用いられる。 本稿では,エントロピー正規化を伴うポリシー勾配アルゴリズムに対する近似ニュートン法を提案する。 シャノンエントロピーの場合、結果として得られるアルゴリズムは自然政策勾配アルゴリズムを再現する。 他のエントロピー関数に対しては、この手法は新しいポリシー勾配アルゴリズムをもたらす。 これらすべてのアルゴリズムがニュートン型二次収束を享受し、対応する勾配流がグローバルに最適解に収束することを証明する。 我々は合成および工業規模の例を用いて、提案された近似ニュートン法が典型的には1桁の反復で収束することを示した。

Policy gradient algorithms have been widely applied to Markov decision processes and reinforcement learning problems in recent years. Regularization with various entropy functions is often used to encourage exploration and improve stability. This paper proposes an approximate Newton method for the policy gradient algorithm with entropy regularization. In the case of Shannon entropy, the resulting algorithm reproduces the natural policy gradient algorithm. For other entropy functions, this method results in brand-new policy gradient algorithms. We prove that all these algorithms enjoy Newton-type quadratic convergence and that the corresponding gradient flow converges globally to the optimal solution. We use synthetic and industrial-scale examples to demonstrate that the proposed approximate Newton method typically converges in single-digit iterations, often orders of magnitude faster than other state-of-the-art algorithms.
翻訳日:2023-06-09 22:37:27 公開日:2023-06-08
# 臨床機械学習の展開? 以下を考えてみよう。

Deploying clinical machine learning? Consider the following... ( http://arxiv.org/abs/2109.06919v3 )

ライセンス: Link先を確認
Charles Lu, Ken Chang, Praveer Singh, Stuart Pomerantz, Sean Doyle, Sujay Kakarmath, Christopher Bridge, Jayashree Kalpathy-Cramer(参考訳) 臨床機械学習研究への多大な関心とかなりの投資にもかかわらず、実際の臨床環境で大規模に展開されるアプリケーションは比較的少ない。 研究は最先端の進歩において重要であるが、翻訳はこれらの技術と技術を最終的に医療に影響を及ぼす位置に持ち込む上でも同様に重要である。 いくつかの考察に対する感謝の欠如が、この期待と現実の相違の大きな原因であると考えている。 研究者や実践者の間での全体論的な視点をよりよく特徴付けるために,臨床展開のためのCMLの開発を商業的に経験した数人の実践者を調査した。 これらの知見を用いて,臨床機械学習アプリケーションの設計・開発における課題のいくつかの主要なカテゴリを特定した。

Despite the intense attention and considerable investment into clinical machine learning research, relatively few applications have been deployed at a large-scale in a real-world clinical environment. While research is important in advancing the state-of-the-art, translation is equally important in bringing these techniques and technologies into a position to ultimately impact healthcare. We believe a lack of appreciation for several considerations are a major cause for this discrepancy between expectation and reality. To better characterize a holistic perspective among researchers and practitioners, we survey several practitioners with commercial experience in developing CML for clinical deployment. Using these insights, we identify several main categories of challenges in order to better design and develop clinical machine learning applications.
翻訳日:2023-06-09 22:36:56 公開日:2023-06-08
# 補間を伴う巡回座標平均化

Cyclic Coordinate Dual Averaging with Extrapolation ( http://arxiv.org/abs/2102.13244v4 )

ライセンス: Link先を確認
Chaobing Song and Jelena Diakonikolas(参考訳) 循環ブロック座標法は、統計的学習のための標準ソフトウェアパッケージの一部として実装され、実践的に広く使われている最適化法の基本クラスである。 しかしながら、それらの収束は一般にはよく理解されておらず、これまでの収束解析ではその優れた実践性能は説明されていない。 本研究では,モノトーン演算子を用いた変分不等式(VI)問題の一般クラスに適用可能なブロック座標法を提案する。 このクラスは、複合凸最適化問題と凸凹 min-max 最適化問題を特別なケースとして含み、既存の作業では解決されていない。 結果の収束境界は全勾配法の最適収束境界と一致するが、新しい勾配リプシッツ条件 w.r.t.~a Mahalanobis ノルムで与えられる。 座標ブロックが$m$の場合、我々の境界における勾配リプシッツ定数は、従来のユークリッドのリプシッツ定数と比較して$$\sqrt{m}$よりも大きくなることはないが、それよりもはるかに小さくすることができる。 さらに, VI の作用素が有限サム構造を持つ場合, 偏移コストをさらに低減し, コンバージェンス率の向上を図った分散還元変分法を提案する。 これらの結果を得るためには,ブロック座標方向勾配の周期的収集を一つの暗黙的勾配として捉えるための勾配外挿戦略を用いる。

Cyclic block coordinate methods are a fundamental class of optimization methods widely used in practice and implemented as part of standard software packages for statistical learning. Nevertheless, their convergence is generally not well understood and so far their good practical performance has not been explained by existing convergence analyses. In this work, we introduce a new block coordinate method that applies to the general class of variational inequality (VI) problems with monotone operators. This class includes composite convex optimization problems and convex-concave min-max optimization problems as special cases and has not been addressed by the existing work. The resulting convergence bounds match the optimal convergence bounds of full gradient methods, but are provided in terms of a novel gradient Lipschitz condition w.r.t.~a Mahalanobis norm. For $m$ coordinate blocks, the resulting gradient Lipschitz constant in our bounds is never larger than a factor $\sqrt{m}$ compared to the traditional Euclidean Lipschitz constant, while it is possible for it to be much smaller. Further, for the case when the operator in the VI has finite-sum structure, we propose a variance reduced variant of our method which further decreases the per-iteration cost and has better convergence rates in certain regimes. To obtain these results, we use a gradient extrapolation strategy that allows us to view a cyclic collection of block coordinate-wise gradients as one implicit gradient.
翻訳日:2023-06-09 22:36:44 公開日:2023-06-08
# 単純立方体格子における2レベル原子の力学の量子平均場処理

Quantum mean-field treatment of the dynamics of a two-level atom in a simple cubic lattice ( http://arxiv.org/abs/2206.14156v2 )

ライセンス: Link先を確認
Yamen Hamdouni(参考訳) 平均場近似はキュリー温度に近い強磁性格子中の2レベル原子の動力学の一般的な特徴を調べるために用いられる。 解析的および数値的な結果が得られる。 まず、格子ハミルトニアンを線形化し、磁場の任意の方向に対する相転移の次数パラメータに対する自己抵抗方程式を導出する。 還元されたダイナミクスは格子の自由度を辿り出し、格子の単位セルのサイズに等しい大きさの有効スピン浴における原子のダイナミクスを減少させる。 特定の方向に沿って磁場を印加することにより, 劣化や励起状態の占有確率が向上する可能性が示唆された。 また,温度変化とスピンの大きさに対する依存性についても検討した。 熱揺らぎの増加は励起状態の占有確率を減少させる可能性があることが判明した。 非隣接細胞を占有する2つのそのような原子の絡み合いを研究し、その時間の変化は磁場の方向にあまり敏感でないことが判明した。 絡み合いによる突然の死亡と再生は臨界温度近くで起こることが示されている。

The mean field approximation is used to investigate the general features of the dynamics of a two-level atom in a ferromagnetic lattice close to the Curie temperature. Various analytical and numerical results are obtained. We first linearize the lattice Hamiltonian, and we derive the self-consistency equation for the order parameter of the phase transition for arbitrary direction of the magnetic field. The reduced dynamics is deduced by tracing out the degrees of freedom of the lattice, which results in the reduction of the dynamics to that of an atom in an effective spin bath whose size is equal to the size of a unit cell of the lattice. It is found that the dephasing and the excited state occupation probability may be enhanced by applying the magnetic field along some specific directions. The dependence on the change of the temperature and the magnitude of spin is also investigated. It turns out that the increase of thermal fluctuations may reduce the occupation probability of the excited state. The entanglement of two such atoms that occupy non-adjacent cells is studied and its variation in time is found to be not much sensitive to the direction of the magnetic field. Entanglement sudden death and revival is shown to occur close to the critical temperature.
翻訳日:2023-06-09 20:50:02 公開日:2023-06-08
# 分子グラフ埋め込みにおける自己教師付き学習の評価

Evaluating Self-Supervised Learning for Molecular Graph Embeddings ( http://arxiv.org/abs/2206.08005v2 )

ライセンス: Link先を確認
Hanchen Wang, Jean Kaddour, Shengchao Liu, Jian Tang, Joan Lasenby, Qi Liu(参考訳) Graph Self-Supervised Learning (GSSL)は、専門家のラベル付けなしで埋め込みを取得するための堅牢な経路を提供する。 しかし、GSSLメソッドは特定のドメイン内での最適化ではなく、さまざまなダウンストリームタスク間の転送性のために設計されている。 この幅広い適用性は評価を複雑化する。 そこで,本研究では分子グラフ表現評価 (molgrapheval) を提案し,解釈可能で多様な属性を持つ分子グラフ埋め込みの詳細なプロファイルを作成する。 MOLGRAPHEVALは、以下の3つのカテゴリにグループ化された探索タスクスイートを提供する。 (i)総称グラフ (II)分子サブ構造、及び (iii)埋め込み空間特性。 MOLGRAPHEVALを利用して、既存のGSSLメソッドを現在のダウンストリームデータセットと我々の一連のタスクの両方に対してベンチマークすることで、既存のデータセットからのみ引き出された推論と、よりニュアンスな推論から派生した推論との間の重大な矛盾を明らかにする。 これらの結果から,現在の評価手法は景観全体を把握できないことが示唆された。

Graph Self-Supervised Learning (GSSL) provides a robust pathway for acquiring embeddings without expert labelling, a capability that carries profound implications for molecular graphs due to the staggering number of potential molecules and the high cost of obtaining labels. However, GSSL methods are designed not for optimisation within a specific domain but rather for transferability across a variety of downstream tasks. This broad applicability complicates their evaluation. Addressing this challenge, we present "Molecular Graph Representation Evaluation" (MOLGRAPHEVAL), generating detailed profiles of molecular graph embeddings with interpretable and diversified attributes. MOLGRAPHEVAL offers a suite of probing tasks grouped into three categories: (i) generic graph, (ii) molecular substructure, and (iii) embedding space properties. By leveraging MOLGRAPHEVAL to benchmark existing GSSL methods against both current downstream datasets and our suite of tasks, we uncover significant inconsistencies between inferences drawn solely from existing datasets and those derived from more nuanced probing. These findings suggest that current evaluation methodologies fail to capture the entirety of the landscape.
翻訳日:2023-06-09 20:49:45 公開日:2023-06-08
# 物質の位相skyrmion相の欠陥バルク・バウンダリー対応

Defect bulk-boundary correspondence of topological skyrmion phases of matter ( http://arxiv.org/abs/2206.02251v2 )

ライセンス: Link先を確認
Shu-Wei Liu, Li-kun Shi and Ashley M. Cook(参考訳) unpaired majorana zero-modes は位相的量子ビットの構成要素としてトポロジカル量子計算スキームの中心であり、したがって強い実験的および理論的研究を受けている。 パラフェルミオンやフィボナッチ・アロンへの一般化も特に普遍量子計算スキームにおいて大きな関心を集めている。 本研究では,非相互作用系におけるマヨルダナ・ゼロモードの異なる一般化を見いだす。これは非相互作用系においてクロス構造 – 複素平面内の2つの直線垂直線 -- を示すゼロエネルギー境界状態であり,非ペア化マヨルダナ・ゼロモードの場合のように格子上の波動関数の複素数入力によって形成される単一の直線ではなく,格子上の零モード波動関数の複素数エントリからなる。 これらのクロスゼロモードは、その特徴的な運動量空間スピンテクスチャが位相欠陥をトラップするときに、特定の開境界条件下でのトポロジカルな乱れ相に対して実現される。 したがって、トポロジカルなスカイミオン相の第二タイプのバルク境界対応として機能する。 この欠陥バルク境界対応を特徴づける過程で, トポロジカル・スカイミオン位相の物理関連モデル構築法, スカイミオン数の効率的な計算法, および3次元トポロジカル・スカイミオン位相を文献に導入する手法を開発した。

Unpaired Majorana zero-modes are central to topological quantum computation schemes as building blocks of topological qubits, and are therefore under intense experimental and theoretical investigation. Their generalizations to parafermions and Fibonacci anyons are also of great interest, in particular for universal quantum computation schemes. In this work, we find a different generalization of Majorana zero-modes in effectively non-interacting systems, which are zero-energy bound states that exhibit a cross structure -- two straight, perpendicular lines in the complex plane -- composed of the complex number entries of the zero-mode wavefunction on a lattice, rather than a single straight line formed by complex number entries of the wavefunction on a lattice as in the case of an unpaired Majorana zero-mode. These cross zero-modes are realized for topological skyrmion phases under certain open boundary conditions when their characteristic momentum-space spin textures trap topological defects. They therefore serve as a second type of bulk-boundary correspondence for the topological skyrmion phases. In the process of characterizing this defect bulk-boundary correspondence, we develop recipes for constructing physically-relevant model Hamiltonians for topological skyrmion phases, efficient methods for computing the skyrmion number, and introduce three-dimensional topological skyrmion phases into the literature.
翻訳日:2023-06-09 20:49:26 公開日:2023-06-08
# リカレントスパイクネットワークにおける生物学的に可能な夢と計画に向けて

Towards biologically plausible Dreaming and Planning in recurrent spiking networks ( http://arxiv.org/abs/2205.10044v3 )

ライセンス: Link先を確認
Cristiano Capone and Pier Stanislao Paolucci(参考訳) 人間と動物は数時間練習した後、新しいスキルを学べる一方、現在の強化学習アルゴリズムは優れたパフォーマンスを達成するために大量のデータを必要とする。 近年のモデルベースアプローチは、望ましい政策を学ぶために必要な環境との相互作用の数を減らすことで有望な結果を示す。 しかし、これらの方法は、古い経験の詳細な保存やオフライン学習など、生物学的に目立たない材料を必要とする。 単語モデルを学び、活用する最適な方法は、まだ未解決の問題だ。 生物学からインスピレーションを得て、私たちは夢は内的モデルを使うのに効果的な方法かもしれないと提案する。 モデルベースシミュレーション環境において新たな経験を積むこと)により学習が著しく促進される2つのモジュール(エージェントとモデル)スパイキングニューラルネットワークを提案する。 また、同等のパフォーマンスを示すdreamingのオンライン代替品である"planning"も検討しています。 重要なのは、われわれのモデルは経験の詳細な保存を必要としず、世界モデルとポリシーをオンラインで学習することです。 さらに,我々のネットワークはスパイクニューロンで構成されており,神経形ハードウェアの生物学的妥当性と実装性をさらに高めている。

Humans and animals can learn new skills after practicing for a few hours, while current reinforcement learning algorithms require a large amount of data to achieve good performances. Recent model-based approaches show promising results by reducing the number of necessary interactions with the environment to learn a desirable policy. However, these methods require biological implausible ingredients, such as the detailed storage of older experiences, and long periods of offline learning. The optimal way to learn and exploit word-models is still an open question. Taking inspiration from biology, we suggest that dreaming might be an efficient expedient to use an inner model. We propose a two-module (agent and model) spiking neural network in which "dreaming" (living new experiences in a model-based simulated environment) significantly boosts learning. We also explore "planning", an online alternative to dreaming, that shows comparable performances. Importantly, our model does not require the detailed storage of experiences, and learns online the world-model and the policy. Moreover, we stress that our network is composed of spiking neurons, further increasing the biological plausibility and implementability in neuromorphic hardware.
翻訳日:2023-06-09 20:48:35 公開日:2023-06-08
# 還元密度行列を直接計算する新しい方法

A new method for directly computing reduced density matrices ( http://arxiv.org/abs/2204.08829v3 )

ライセンス: Link先を確認
Christian K\"ading and Mario Pitschmann(参考訳) オープン量子系の減密度行列要素の摂動計算をマスター方程式を使わずに行うことができる第一原理的かつ実践的な方法のパワーを実証する。 このアプローチは、熱場力学、シュウィンガー・ケルドシー形式論、ファインマン・ヴァーノン影響汎関数といった非平衡量子場理論の手法に基づいている。 マルコフ近似は必要とせず、本質的にはリーマン・ジーマンツィク・ジマーマン型還元である。 本手法を説明するために、実スカラー場を、他の実スカラー場を含む環境と相互作用するオープン量子系として考える。 運動量基底における任意の粒子数に対する密度行列要素の摂動計算を可能にする一般公式を与える。 最後に, 単純な玩具モデルを検討し, この公式を用いて, システムの密度行列要素のいくつかの表現を得る。

We demonstrate the power of a first principle-based and practicable method that allows for the perturbative computation of reduced density matrix elements of an open quantum system without making use of any master equations. The approach is based on techniques from non-equilibrium quantum field theory like thermo field dynamics, the Schwinger-Keldsyh formalism, and the Feynman-Vernon influence functional. It does not require the Markov approximation and is essentially a Lehmann-Szymanzik-Zimmermann-like reduction. In order to illustrate this method, we consider a real scalar field as an open quantum system interacting with an environment comprising another real scalar field. We give a general formula that allows for the perturbative computation of density matrix elements for any number of particles in a momentum basis. Finally, we consider a simple toy model and use this formula to obtain expressions for some of the system's reduced density matrix elements.
翻訳日:2023-06-09 20:48:15 公開日:2023-06-08
# 教師なしグラフ表現学習におけるロバスト性向上に向けて:グラフ情報基盤の視点から

Toward Enhanced Robustness in Unsupervised Graph Representation Learning: A Graph Information Bottleneck Perspective ( http://arxiv.org/abs/2201.08557v2 )

ライセンス: Link先を確認
Jihong Wang, Minnan Luo, Jundong Li, Ziqi Liu, Jun Zhou, Qinghua Zheng(参考訳) 近年の研究では、GNNは敵の攻撃に弱いことが判明している。 既存のロバストグラフ学習手法の多くは、ラベル情報に基づいてモデルのロバスト度を測定し、ラベル情報がないと実現不可能である。 直接の方向性は、一般的なUnsupervised Graph Representation Learning (UGRL)から広く使われているInfomax技術を用いて、堅牢な教師なし表現を学ぶことである。 それでも、Infomaxテクニックを典型的なUGRLから堅牢なUGRLに直接移植することは、バイアスのある仮定を伴う可能性がある。 Infomax の限界を考慮し,Information Bottleneck (IB) の原理に基づいて,ロバストグラフ情報ボトルネック (RGIB) と呼ばれる新しい非バイアス頑健な UGRL 手法を提案する。 我々のRGIBは、逆数グラフの逆数情報を排除しつつ、良性グラフの原情報を保存し、逆数摂動に対する頑健なノード表現を学習しようとする。 RGIBの最適化には2つの課題がある。 1) トレーニング手順における摂動ノードの特徴及びグラフ構造に対する敵攻撃の複雑さ 2) 逆攻撃されたグラフによる相互情報推定 さらに,これらの課題に対処するために,特徴摂動のみを有する効率的な対角訓練戦略と,部分グラフレベルの要約を伴う効果的な相互情報推定器を提案する。 さらに,提案したRGIBと下流分類器のロバスト性との関係を理論的に確立し,下流分類器の対角的リスクを低く抑えることができることを示した。 いくつかのベンチマークや下流タスクに対する大規模な実験により,提案手法の有効性と優位性を示した。

Recent studies have revealed that GNNs are vulnerable to adversarial attacks. Most existing robust graph learning methods measure model robustness based on label information, rendering them infeasible when label information is not available. A straightforward direction is to employ the widely used Infomax technique from typical Unsupervised Graph Representation Learning (UGRL) to learn robust unsupervised representations. Nonetheless, directly transplanting the Infomax technique from typical UGRL to robust UGRL may involve a biased assumption. In light of the limitation of Infomax, we propose a novel unbiased robust UGRL method called Robust Graph Information Bottleneck (RGIB), which is grounded in the Information Bottleneck (IB) principle. Our RGIB attempts to learn robust node representations against adversarial perturbations by preserving the original information in the benign graph while eliminating the adversarial information in the adversarial graph. There are mainly two challenges to optimize RGIB: 1) high complexity of adversarial attack to perturb node features and graph structure jointly in the training procedure; 2) mutual information estimation upon adversarially attacked graphs. To tackle these problems, we further propose an efficient adversarial training strategy with only feature perturbations and an effective mutual information estimator with subgraph-level summary. Moreover, we theoretically establish a connection between our proposed RGIB and the robustness of downstream classifiers, revealing that RGIB can provide a lower bound on the adversarial risk of downstream classifiers. Extensive experiments over several benchmarks and downstream tasks demonstrate the effectiveness and superiority of our proposed method.
翻訳日:2023-06-09 20:48:03 公開日:2023-06-08
# 分散マルチエージェント政策勾配における潜在状態情報共有を伴う値関数の分解

Value Functions Factorization with Latent State Information Sharing in Decentralized Multi-Agent Policy Gradients ( http://arxiv.org/abs/2201.01247v3 )

ライセンス: Link先を確認
Hanhan Zhou, Tian Lan, Vaneet Aggarwal(参考訳) 集中型トレーニングと分散実行による価値関数の分解は、協調型マルチエージェント強化タスクの解決に有効である。 この領域におけるアプローチの1つ、QMIXは最先端になり、StarCraft IIマイクロマネジメントベンチマークで最高のパフォーマンスを達成した。 しかし、QMIXにおけるエージェント1個当たりの単調混合は、表現できる共同動作 Q-値を制限することや、単一のエージェント値関数の推定に不十分な大域的状態情報を制限することが知られている。 そこで本研究では,変動推論に基づく情報共有機構を付加的な状態情報として活用し,価値関数因子化における個々のエージェントを支援する新しいフレームワーク lsf-sac を提案する。 このような潜在的な個々の状態情報共有は価値関数因子化の力を著しく拡大できるが、完全に分散化された実行はソフト・アクタ・クリティックな設計によってlsf-sacで維持できる。 我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。 さらに,その性能向上に寄与する重要な要因を特定するため,広範なアブレーション研究を行った。 この新たな洞察が,新たな局所値推定法や変分深層学習アルゴリズムに繋がると信じている。 デモビデオと実装コードはhttps://sites.google.com/view/sacmmで見ることができる。

Value function factorization via centralized training and decentralized execution is promising for solving cooperative multi-agent reinforcement tasks. One of the approaches in this area, QMIX, has become state-of-the-art and achieved the best performance on the StarCraft II micromanagement benchmark. However, the monotonic-mixing of per agent estimates in QMIX is known to restrict the joint action Q-values it can represent, as well as the insufficient global state information for single agent value function estimation, often resulting in suboptimality. To this end, we present LSF-SAC, a novel framework that features a variational inference-based information-sharing mechanism as extra state information to assist individual agents in the value function factorization. We demonstrate that such latent individual state information sharing can significantly expand the power of value function factorization, while fully decentralized execution can still be maintained in LSF-SAC through a soft-actor-critic design. We evaluate LSF-SAC on the StarCraft II micromanagement challenge and demonstrate that it outperforms several state-of-the-art methods in challenging collaborative tasks. We further set extensive ablation studies for locating the key factors accounting for its performance improvements. We believe that this new insight can lead to new local value estimation methods and variational deep learning algorithms. A demo video and code of implementation can be found at https://sites.google.com/view/sacmm.
翻訳日:2023-06-09 20:47:34 公開日:2023-06-08
# 絡み合った状態の幾何学的位相について

On the geometric phases in entangled states ( http://arxiv.org/abs/2208.14021v3 )

ライセンス: Link先を確認
M. E. Tunalioglu, H. O. Cildiroglu and A. U. Yilmazer(参考訳) 2つの異なる干渉計のアームによって散乱される一対の絡み合った粒子のスピン測定の相関関係を,異なるタイプのハイブリッド装置で検討した。 幾何相が初期二成分状態にどのように影響するかを明らかにするために、コンカージェンス、エンタングルメント、量子忠実度、バーズ距離が用いられる。 この影響は、電磁場が存在しない領域における荷電粒子の移動による量子干渉を引き起こす。 幾らかの場合、幾何学的位相情報は最終二部交絡状態に引き継がれる。

Correlation relations for the spin measurements on a pair of entangled particles scattered by the two separate arms of interferometers in hybrid setups of different types are investigated. Concurrence, entanglement of formation, quantum fidelity, Bures distance are used to clarify how the geometric phase affects the initial bipartite state. This affect causes a quantum interference due to the movement of charged particles in regions where electromagnetic fields are not present. We shown that in some cases the geometric phase information is carried over to the final bipartite entangled state.
翻訳日:2023-06-09 20:41:41 公開日:2023-06-08
# Universal Mini-Batch ConsistencyとUnbiased Full Gradient Approximationを用いたスケーラブルなセット符号化

Scalable Set Encoding with Universal Mini-Batch Consistency and Unbiased Full Set Gradient Approximation ( http://arxiv.org/abs/2208.12401v5 )

ライセンス: Link先を確認
Jeffrey Willette, Seanie Lee, Bruno Andreis, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang(参考訳) 集合関数のミニバッチ一貫性(MBC)に関する最近の研究は、すべての分割に対して同じ出力を保証しつつ、分割された集合のチャンクを逐次処理し集約する必要性に注意を向けている。 しかし、既存のMBCアーキテクチャの制約は、表現力に制限のあるモデルにつながる。 さらに、事前の作業は、完全なセット勾配が必要な場合、トレーニング中に大きなセットを扱う方法に対処していない。 これらの問題に対処するために,MBC を満足しながら任意の非MBC コンポーネントと組み合わせて使用可能な集合関数のUniversally MBC (UMBC) クラスを提案し,より広い範囲の関数クラスを MBC 設定で使用できるようにする。 さらに,全設定勾配の偏りのない近似を与える効率の良いMBCトレーニングアルゴリズムを提案し,列車時間とテスト時間の両方において,任意の設定サイズに対してメモリオーバーヘッドが一定であることを示す。 画像補完,テキスト分類,教師なしクラスタリング,高分解能画像による癌検出など広範な実験を行い,スケーラブルな集合符号化フレームワークの効率と有効性を検証する。 私たちのコードはgithub.com/jeffwillette/umbcで入手できる

Recent work on mini-batch consistency (MBC) for set functions has brought attention to the need for sequentially processing and aggregating chunks of a partitioned set while guaranteeing the same output for all partitions. However, existing constraints on MBC architectures lead to models with limited expressive power. Additionally, prior work has not addressed how to deal with large sets during training when the full set gradient is required. To address these issues, we propose a Universally MBC (UMBC) class of set functions which can be used in conjunction with arbitrary non-MBC components while still satisfying MBC, enabling a wider range of function classes to be used in MBC settings. Furthermore, we propose an efficient MBC training algorithm which gives an unbiased approximation of the full set gradient and has a constant memory overhead for any set size for both train- and test-time. We conduct extensive experiments including image completion, text classification, unsupervised clustering, and cancer detection on high-resolution images to verify the efficiency and efficacy of our scalable set encoding framework. Our code is available at github.com/jeffwillette/umbc
翻訳日:2023-06-09 20:41:34 公開日:2023-06-08
# MaskCLIPを用いたオープンボキャブラリユニバーサルイメージセグメンテーション

Open-Vocabulary Universal Image Segmentation with MaskCLIP ( http://arxiv.org/abs/2208.08984v2 )

ライセンス: Link先を確認
Zheng Ding, Jieke Wang, Zhuowen Tu(参考訳) 本稿では,テキストに基づく記述の任意のカテゴリに対して,意味・インテンス・パンオプティカルセグメンテーション(背景意味ラベリング+前景インスタンスセグメンテーション)を行うことを目的とした,新たなコンピュータビジョンタスクopen-vocabulary universal image segmentationに取り組む。 まず, 微調整や蒸留を行うことなく, 事前学習したCLIPモデルを直接適用することにより, ベースライン法を構築する。 MaskCLIPは,マスクトークンを,セマンティック/インスタンスセグメンテーションとクラス予測のためのトレーニング済みViT CLIPモデルとシームレスに統合するエンコーダのみのモジュールである。 MaskCLIPは、時間を要する学生-教師のトレーニングプロセスを避けるために、MaskCLIP Visual Encoder内で事前訓練された部分/ディエンスCLIP機能を有効に活用することを学ぶ。 MaskCLIPはADE20KとPASCALデータセットのセマンティック/インスタンス/パノプティクスセグメンテーションの従来の手法より優れている。 オンラインカスタムカテゴリを用いたMaskCLIPの定性的な図形を示す。 プロジェクトウェブサイト: https://maskclip.github.io

In this paper, we tackle an emerging computer vision task, open-vocabulary universal image segmentation, that aims to perform semantic/instance/panoptic segmentation (background semantic labeling + foreground instance segmentation) for arbitrary categories of text-based descriptions in inference time. We first build a baseline method by directly adopting pre-trained CLIP models without finetuning or distillation. We then develop MaskCLIP, a Transformer-based approach with a MaskCLIP Visual Encoder, which is an encoder-only module that seamlessly integrates mask tokens with a pre-trained ViT CLIP model for semantic/instance segmentation and class prediction. MaskCLIP learns to efficiently and effectively utilize pre-trained partial/dense CLIP features within the MaskCLIP Visual Encoder that avoids the time-consuming student-teacher training process. MaskCLIP outperforms previous methods for semantic/instance/panoptic segmentation on ADE20K and PASCAL datasets. We show qualitative illustrations for MaskCLIP with online custom categories. Project website: https://maskclip.github.io.
翻訳日:2023-06-09 20:41:11 公開日:2023-06-08
# 垂直的フェデレーション学習のためのハイブリッド自己監督学習フレームワーク

A Hybrid Self-Supervised Learning Framework for Vertical Federated Learning ( http://arxiv.org/abs/2208.08934v2 )

ライセンス: Link先を確認
Yuanqin He, Yan Kang, Xinyuan Zhao, Jiahuan Luo, Lixin Fan, Yuxing Han, Qiang Yang(参考訳) 連邦学習(FFL)の亜種である垂直連合学習(VFL)が最近注目を集めている。VFLは、より価値ある機能を活用してより良いモデルパフォーマンスを実現するという企業の要求に合致するからだ。 しかしながら、従来のVFLメソッドは、整列されたサンプルとラベル付きサンプルのみを利用するため、データ不足に陥り、多くの場合、整列されていないサンプルとラベル付けされていないサンプルの大半が未使用のままである。 データ不足は連邦の努力を妨げます。 本稿では,FedHSSLと呼ばれるフェデレートハイブリッド・セルフ・スーパーバイザラーニング・フレームワークを提案する。このフレームワークは,パーティ間で整列されたサンプルのパーティ・ビュー(分散特徴)と,各パーティ内の不整合サンプルのローカル・ビュー(拡張)を利用して,VFL関節モデルの表現学習能力を向上させる。 FedHSSLは、部分的なモデルアグリゲーションを通じてジョイントモデルのパフォーマンスを高めるために、パーティ間での不変機能をさらに活用する。 FedHSSLはフレームワークとして、さまざまな代表的なSSLメソッドで動作する。 我々はFedHSSLメソッドがベースラインよりも大きなマージンで優れていることを実証的に示す。 我々は,既存の自己教師付きvfl作業ではほとんど調査されないラベル漏洩に関するfedsslの詳細な解析を行う。 実験の結果、適切な保護により、FedHSSLは、ベースラインと比較して最先端のラベル推論攻撃に対して、最高のプライバシーユーティリティトレードオフを達成することが示された。 コードは \url{https://github.com/jorghyq2016/fedhssl} で入手できる。

Vertical federated learning (VFL), a variant of Federated Learning (FL), has recently drawn increasing attention as the VFL matches the enterprises' demands of leveraging more valuable features to achieve better model performance. However, conventional VFL methods may run into data deficiency as they exploit only aligned and labeled samples (belonging to different parties), leaving often the majority of unaligned and unlabeled samples unused. The data deficiency hampers the effort of the federation. In this work, we propose a Federated Hybrid Self-Supervised Learning framework, named FedHSSL, that utilizes cross-party views (i.e., dispersed features) of samples aligned among parties and local views (i.e., augmentation) of unaligned samples within each party to improve the representation learning capability of the VFL joint model. FedHSSL further exploits invariant features across parties to boost the performance of the joint model through partial model aggregation. FedHSSL, as a framework, can work with various representative SSL methods. We empirically demonstrate that FedHSSL methods outperform baselines by large margins. We provide an in-depth analysis of FedHSSL regarding label leakage, which is rarely investigated in existing self-supervised VFL works. The experimental results show that, with proper protection, FedHSSL achieves the best privacy-utility trade-off against the state-of-the-art label inference attack compared with baselines. Code is available at \url{https://github.com/jorghyq2016/FedHSSL}.
翻訳日:2023-06-09 20:40:47 公開日:2023-06-08
# 降圧心電図とgsrデータによるストレスの分類

Classification of Stress via Ambulatory ECG and GSR Data ( http://arxiv.org/abs/2208.04705v2 )

ライセンス: Link先を確認
Zachary Dair, Muhammad Muneeb Saad, Urja Pawar, Samantha Dockray, Ruairi O'Reilly(参考訳) 医療において、ストレスの検出と個人のメンタルヘルスと幸福の監視は困難である。 ウェアラブル技術の進歩により、継続的な生理的データ収集が可能になる。 このデータは精神生理学的分析を通じて精神状態や行動状態に関する洞察を与えることができる。 しかし、収集したデータの量によってタイムリーな結果を提供するには、自動分析が必要である。 機械学習は、制御された実験室環境における健康応用のための生理的データの自動分類を提供することに有効である。 しかし、無制御の環境は、さらなるモデリングを克服する必要がある追加の課題をもたらしている。 本研究は, 自己申告されたストレスアノテーションを用いて, 生理的データを用いて, ストレスを検出する機械学習分類器を用いたいくつかのアプローチを実験的に評価する。 トレーニング部SMILEデータセットのサブセットは、提出前にアプローチの評価を可能にする。 最適応力検出手法は90.77%の分類精度、91.24のF1スコア、90.42の感度、91.08の特異性を達成し、ExtraTrees分類器と特徴計算手法を利用している。 一方、チャレンジデータの精度は59.23%(BEaTS-MTUから54号、ユーザ名ZacDair)でかなり低い。 本研究では性能格差の原因について検討する。

In healthcare, detecting stress and enabling individuals to monitor their mental health and wellbeing is challenging. Advancements in wearable technology now enable continuous physiological data collection. This data can provide insights into mental health and behavioural states through psychophysiological analysis. However, automated analysis is required to provide timely results due to the quantity of data collected. Machine learning has shown efficacy in providing an automated classification of physiological data for health applications in controlled laboratory environments. Ambulatory uncontrolled environments, however, provide additional challenges requiring further modelling to overcome. This work empirically assesses several approaches utilising machine learning classifiers to detect stress using physiological data recorded in an ambulatory setting with self-reported stress annotations. A subset of the training portion SMILE dataset enables the evaluation of approaches before submission. The optimal stress detection approach achieves 90.77% classification accuracy, 91.24 F1-Score, 90.42 Sensitivity and 91.08 Specificity, utilising an ExtraTrees classifier and feature imputation methods. Meanwhile, accuracy on the challenge data is much lower at 59.23% (submission #54 from BEaTS-MTU, username ZacDair). The cause of the performance disparity is explored in this work.
翻訳日:2023-06-09 20:40:15 公開日:2023-06-08
# 線形モデルを用いたストリームベース能動学習

Stream-based active learning with linear models ( http://arxiv.org/abs/2207.09874v4 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 自動データ収集スキームの普及と、センサー技術の進歩により、リアルタイムで監視できるデータの量が増えています。 しかし、高いアノテーションコストと品質検査に必要な時間を考えると、データはラベルのない形で利用できることが多い。 これは、ソフトセンサーと予測モデルの開発におけるアクティブラーニングの利用を促進する。 生産時には、製品情報を得るためにランダムな検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。 レグレッションのためのいくつかのクエリ戦略フレームワークが文献で提案されているが、ほとんどが静的プールベースのシナリオに焦点が当てられている。 そこで本研究では,学習者にインスタンスを順次提供し,品質チェックを実行してラベルを取得するか,あるいはインスタンスを破棄するかを即時に判断する,ストリームベースのシナリオのための新しい戦略を提案する。 このアプローチは最適実験設計理論に触発され、ラベルのないデータポイントの情報性にしきい値を設定することで意思決定プロセスの反復的な側面に取り組む。 提案手法は、数値シミュレーションとテネシー・イーストマン・プロセスシミュレータを用いて評価する。 その結果,提案アルゴリズムが提案する例を選択することにより,予測誤差の高速化が図られた。

The proliferation of automated data collection schemes and the advances in sensorics are increasing the amount of data we are able to monitor in real-time. However, given the high annotation costs and the time required by quality inspections, data is often available in an unlabeled form. This is fostering the use of active learning for the development of soft sensors and predictive models. In production, instead of performing random inspections to obtain product information, labels are collected by evaluating the information content of the unlabeled data. Several query strategy frameworks for regression have been proposed in the literature but most of the focus has been dedicated to the static pool-based scenario. In this work, we propose a new strategy for the stream-based scenario, where instances are sequentially offered to the learner, which must instantaneously decide whether to perform the quality check to obtain the label or discard the instance. The approach is inspired by the optimal experimental design theory and the iterative aspect of the decision-making process is tackled by setting a threshold on the informativeness of the unlabeled data points. The proposed approach is evaluated using numerical simulations and the Tennessee Eastman Process simulator. The results confirm that selecting the examples suggested by the proposed algorithm allows for a faster reduction in the prediction error.
翻訳日:2023-06-09 20:39:55 公開日:2023-06-08
# 近接場熱・真空ゆらぎによる量子ゲート忠実性の限界

Limits to Quantum Gate Fidelity from Near-Field Thermal and Vacuum Fluctuations ( http://arxiv.org/abs/2207.09441v3 )

ライセンス: Link先を確認
Wenbo Sun, Sathwik Bharadwaj, Li-Ping Yang, Yu-Ling Hsueh, Yifan Wang, Dan Jiao, Rajib Rahman, and Zubin Jacob(参考訳) 高忠実な量子ゲート演算はスケーラブルな量子回路の実現に不可欠である。 スピン量子ビット量子コンピューティングシステムでは、量子ビットの動作、初期化、読み出しに必要な金属ゲートとアンテナも電磁界のゆらぎを増大させることで障害を引き起こす。 したがって、熱と真空のゆらぎに起因するエバネッセント波ジョンソンノイズ(EWJN)は、スピン量子ビットの崩壊を誘発し、量子ゲートの動作フィディリティを制限する重要な未緩和ノイズとなる。 ここでは、まずEWJNの量子電磁力学理論を開発する。 次に,ナノファブリケート金属ゲート近傍のEWJN強度を任意の形状で定量化するための体積積分方程式に基づく数値計算手法を提案する。 EWJNによる2つの量子コンピューティングプラットフォームにおける緩和過程からの2つのスピン量子ゲート忠実度に対する限界について検討する。 (a)シリコン量子ドットシステム及び (b)ダイヤモンド中のNV中心。 最後に,制御パルスシーケンス設計を最適化するリンドブラッド工学法を紹介し,熱・真空揺らぎの影響を緩和するハミルトン工学よりも高い性能を示す。 本研究は, 電磁気学, ゆらぎ電磁力学, 開量子力学の進歩を活かし, 熱・真空ゆらぎの影響を抑制し, 2スピン量子ビットゲートの忠実度限界に達した。

High-fidelity quantum gate operations are essential for achieving scalable quantum circuits. In spin qubit quantum computing systems, metallic gates and antennas which are necessary for qubit operation, initialization, and readout, also cause detriments by enhancing fluctuations of electromagnetic fields. Therefore evanescent wave Johnson noise (EWJN) caused by thermal and vacuum fluctuations becomes an important unmitigated noise, which induces the decay of spin qubits and limits the quantum gate operation fidelity. Here, we first develop a quantum electrodynamics theory of EWJN. Then we propose a numerical technique based on volume integral equations to quantify EWJN strength in the vicinity of nanofabricated metallic gates with arbitrary geometry. We study the limits to two spin-qubit gate fidelity from EWJN-induced relaxation processes in two experimentally relevant quantum computing platforms: (a) silicon quantum dot system and (b) NV centers in diamond. Finally, we introduce the Lindbladian engineering method to optimize the control pulse sequence design and show its enhanced performance over Hamiltonian engineering in mitigating the influence of thermal and vacuum fluctuations. Our work leverages advances in computational electromagnetics, fluctuational electrodynamics and open quantum systems to suppress the effects of thermal and vacuum fluctuations and reach the limits of two-spin-qubit gate fidelity.
翻訳日:2023-06-09 20:39:37 公開日:2023-06-08
# 2次元一般化量子二重模型の境界および領域壁理論

Boundary and domain wall theories of 2d generalized quantum double model ( http://arxiv.org/abs/2207.03970v5 )

ライセンス: Link先を確認
Zhian Jia, Dagomir Kaszlikowski, Sheng Tan(参考訳) ホップ代数に基づく2dトポロジカル秩序の一般化された量子二重格子実現について論じる。 左加群と右加群の構成について検討する。 ホップ代数の量子二重表現に基づくリボン作用素と位相励起の分類について論じる。 このモデルを境界と表面欠陥を持つ2次元曲面に一般化するために,境界ハミルトニアンとドメインウォールハミルトニアンを体系的に構成する。 ガッピング境界とドメイン壁の背後にある代数的データは、共加群代数と双加群代数である。 境界と領域の壁の位相的励起は、これらの代数上の双加群によって分類される。 リボン演算子による境界バルク双対性の実現についても論じる。 最後に、量子多体状態のホップテンソルネットワーク表現を通じて、境界と領域壁の存在下でモデルの基底状態を解決する。

The generalized quantum double lattice realization of 2d topological orders based on Hopf algebras is discussed in this work. Both left-module and right-module constructions are investigated. The ribbon operators and the classification of topological excitations based on the representations of the quantum double of Hopf algebras are discussed. To generalize the model to a 2d surface with boundaries and surface defects, we present a systematic construction of the boundary Hamiltonian and domain wall Hamiltonian. The algebraic data behind the gapped boundary and domain wall are comodule algebras and bicomodule algebras. The topological excitations in the boundary and domain wall are classified by bimodules over these algebras. The ribbon operator realization of boundary-bulk duality is also discussed. Finally, via the Hopf tensor network representation of the quantum many-body states, we solve the ground state of the model in the presence of the boundary and domain wall.
翻訳日:2023-06-09 20:39:11 公開日:2023-06-08
# Ask-AC: 最高のアクター批判フレームワーク

Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework ( http://arxiv.org/abs/2207.01955v4 )

ライセンス: Link先を確認
Shunyu Liu, Kaixuan Chen, Na Yu, Jie Song, Zunlei Feng, Mingli Song(参考訳) 有望な成果にもかかわらず、最先端のインタラクティブな強化学習スキームは、継続的監視または事前定義されたルールの形で、アドバイザー専門家から受動的に監視信号を受け取ることに依存し、必然的に面倒で高価な学習プロセスをもたらす。 本稿では,単側指導機構を双方向学習者支援機構に置き換え,学習者と指導者間のカスタマイズかつ有効性のあるメッセージ交換を可能にする,ask-acと呼ばれる新たな指導者批判フレームワークを提案する。 ask-acの核心には、アクション・リクエスタと適応状態セレクタという2つの補完的なコンポーネントがあり、様々なアクター・クリティック・アーキテクチャに容易に組み込むことができる。 前者の構成要素は、エージェントが不確実な状態の存在下でアドバイザの介入を主導的に求め、後者は、特に環境の変化時に前者が見逃す可能性のある不安定な状態を識別し、そのような状態に対する要求行動を促進することを学習する。 静止環境および非定常環境および異なるアクター・クリティック・バックボーンにおける実験結果から,提案フレームワークはエージェントの学習効率を著しく向上し,連続的なアドバイザモニタリングにより得られたものと同等の性能が得られることを示した。

Despite the promising results achieved, state-of-the-art interactive reinforcement learning schemes rely on passively receiving supervision signals from advisor experts, in the form of either continuous monitoring or pre-defined rules, which inevitably result in a cumbersome and expensive learning process. In this paper, we introduce a novel initiative advisor-in-the-loop actor-critic framework, termed as Ask-AC, that replaces the unilateral advisor-guidance mechanism with a bidirectional learner-initiative one, and thereby enables a customized and efficacious message exchange between learner and advisor. At the heart of Ask-AC are two complementary components, namely action requester and adaptive state selector, that can be readily incorporated into various discrete actor-critic architectures. The former component allows the agent to initiatively seek advisor intervention in the presence of uncertain states, while the latter identifies the unstable states potentially missed by the former especially when environment changes, and then learns to promote the ask action on such states. Experimental results on both stationary and non-stationary environments and across different actor-critic backbones demonstrate that the proposed framework significantly improves the learning efficiency of the agent, and achieves the performances on par with those obtained by continuous advisor monitoring.
翻訳日:2023-06-09 20:38:37 公開日:2023-06-08
# 運賃:実用証明書による公平な表現学習

FARE: Provably Fair Representation Learning with Practical Certificates ( http://arxiv.org/abs/2210.07213v2 )

ライセンス: Link先を確認
Nikola Jovanovi\'c, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev(参考訳) Fair Expression Learning (FRL) は、データ前処理による公平な分類器の作成を目的とした一般的な手法である。 最近の規制指令では、実践的な証明書を提供するfrlメソッドの必要性、すなわち、事前処理されたデータに基づいて訓練された下流の分類器の不公平さの上限を証明できることが強調されている。 このようなFRLメソッドの作成は、未解決の重要な課題である。 本研究では,FARE(Fairness with Restricted Encoders)を導入し,実際のフェアネス証明を備えたFRL法を提案する。 FAREは、エンコーダの表現空間を制限することで、実用的な保証の導出が可能でありながら、フェアツリーなど、適切なインスタンス化のための適切な精度・公正トレードオフを許容できるというキーとなる洞察に基づいています。 実践的な証明書を作成するために, 運賃埋め込みで訓練された下流分類器の不正性について, 有限サンプルの信頼度を上限として計算する統計手順を開発し, 適用する。 総合的な実験評価において,FAREは従来手法で得られた純粋に経験的な結果と厳密で,場合によっては同等の実用証明書を作成した。

Fair representation learning (FRL) is a popular class of methods aiming to produce fair classifiers via data preprocessing. Recent regulatory directives stress the need for FRL methods that provide practical certificates, i.e., provable upper bounds on the unfairness of any downstream classifier trained on preprocessed data, which directly provides assurance in a practical scenario. Creating such FRL methods is an important challenge that remains unsolved. In this work, we address that challenge and introduce FARE (Fairness with Restricted Encoders), the first FRL method with practical fairness certificates. FARE is based on our key insight that restricting the representation space of the encoder enables the derivation of practical guarantees, while still permitting favorable accuracy-fairness tradeoffs for suitable instantiations, such as one we propose based on fair trees. To produce a practical certificate, we develop and apply a statistical procedure that computes a finite sample high-confidence upper bound on the unfairness of any downstream classifier trained on FARE embeddings. In our comprehensive experimental evaluation, we demonstrate that FARE produces practical certificates that are tight and often even comparable with purely empirical results obtained by prior methods, which establishes the practical value of our approach.
翻訳日:2023-06-09 20:31:13 公開日:2023-06-08
# 相互作用する量子場に対する密度行列形式

Density matrix formalism for interacting quantum fields ( http://arxiv.org/abs/2210.06991v2 )

ライセンス: Link先を確認
Christian K\"ading and Mario Pitschmann(参考訳) フォック空間における任意の占有数に対する密度行列の観点で相互作用する量子場を運動量ベースで記述する。 単純な例として、別の実スカラー場と相互作用する実スカラー場に注目し、スカラー-スカラー系の密度行列要素を直接計算するための実用可能な形式論を示す。 主公式を導出するために、熱場力学やシュウィンガー・ケルディッシュ形式論のような非平衡量子場理論の手法を用いる。 その結果, 有限時間における粒子生成・消滅過程や, 開量子系の理論に見られるものを含む非平衡過程の研究が可能となった。

We provide a description of interacting quantum fields in terms of density matrices for any occupation numbers in Fock space in a momentum basis. As a simple example, we focus on a real scalar field interacting with another real scalar field, and present a practicable formalism for directly computing the density matrix elements of the combined scalar-scalar system. For deriving the main formula, we use techniques from non-equilibrium quantum field theory like thermo field dynamics and the Schwinger-Keldysh formalism. Our results allow for studies of particle creation/annihilation processes at finite times and other non-equilibrium processes including those found in the theory of open quantum systems.
翻訳日:2023-06-09 20:30:48 公開日:2023-06-08
# 確率的ノイズは変分量子アルゴリズムに有用である

Stochastic noise can be helpful for variational quantum algorithms ( http://arxiv.org/abs/2210.06723v2 )

ライセンス: Link先を確認
Junyu Liu, Frederik Wilde, Antonio Anna Mele, Liang Jiang, Jens Eisert(参考訳) サドルポイントは一階勾配降下アルゴリズムにとって重要な課題である。 古典的な機械学習の概念では、例えば確率勾配降下法によってこれらは避けられる。 本研究では,確率性の存在を利用して,変動量子アルゴリズムにおいてサドル点問題を自然に回避できることを示す。 数値シミュレーションや量子ハードウェアにおいて,収束保証を証明し,実例を示す。 変分アルゴリズムの自然な確率性は、厳密な鞍点、すなわち少なくとも一つの負のヘッセン固有値を持つ鞍点を避けるのに有用であると主張する。 ショットノイズのレベルが役に立つというこの洞察は、近距離変分量子アルゴリズムの概念に新たな視点をもたらすと期待されている。

Saddle points constitute a crucial challenge for first-order gradient descent algorithms. In notions of classical machine learning, they are avoided for example by means of stochastic gradient descent methods. In this work, we provide evidence that the saddle points problem can be naturally avoided in variational quantum algorithms by exploiting the presence of stochasticity. We prove convergence guarantees and present practical examples in numerical simulations and on quantum hardware. We argue that the natural stochasticity of variational algorithms can be beneficial for avoiding strict saddle points, i.e., those saddle points with at least one negative Hessian eigenvalue. This insight that some levels of shot noise could help is expected to add a new perspective to notions of near-term variational quantum algorithms.
翻訳日:2023-06-09 20:30:38 公開日:2023-06-08
# すべてに合いません! 視覚および言語課題のための視覚エンコーダの相補性について

One does not fit all! On the Complementarity of Vision Encoders for Vision and Language Tasks ( http://arxiv.org/abs/2210.06379v2 )

ライセンス: Link先を確認
Gregor Geigle, Chen Cecilia Liu, Jonas Pfeiffer and Iryna Gurevych(参考訳) ビジョン・アンド・ランゲージ(V+L)タスクの解決を目的とした現在のマルチモーダルモデルは、主に特徴抽出器として視覚エンコーダ(VE)を再利用している。 さまざまなアーキテクチャを持つ多くのveは、さまざまなデータと目的に基づいてトレーニングされているが、下流のv+lタスク用に設計されていない。 それでも、現在のほとんどの作品は、事前学習された ve が汎用エンコーダとして使えると仮定している。 本研究では,異なるVEに格納されている情報が相補的であるかどうか,すなわち,複数のVEの機能を備えたモデルを提供することで,対象タスクのパフォーマンスを向上し,どのように組み合わせられるかを明らかにすることを目的とした。 6つのV+Lタスクで3つの人気VEを徹底的に実験し,注目パターンとVEドロップアウトパターンを解析した。 解析の結果,多様なVEが相互に補完し,より単純なアンサンブル効果(エンコーダ数が増えると必ずしも性能が向上しない)により,下流のV+Lタスク性能が向上することが示唆された。 我々は, v+l タスクに対して明示的に \textit{designed} であるような将来の ve は,ターゲットとする v+l タスクのパフォーマンスを向上させる可能性を秘めている。

Current multimodal models, aimed at solving Vision and Language (V+L) tasks, predominantly repurpose Vision Encoders (VE) as feature extractors. While many VEs -- of different architectures, trained on different data and objectives -- are publicly available, they are not designed for the downstream V+L tasks. Nonetheless, most current work assumes that a \textit{single} pre-trained VE can serve as a general-purpose encoder. In this work, we focus on analysis and aim to understand whether the information stored within different VEs is complementary, i.e. if providing the model with features from multiple VEs can improve the performance on a target task, and how they are combined. We exhaustively experiment with three popular VEs on six downstream V+L tasks and analyze the attention and VE-dropout patterns. Our analyses suggest that diverse VEs complement each other, resulting in improved downstream V+L task performance, where the improvements are not due to simple ensemble effects (i.e. the performance does not always improve when increasing the number of encoders). We demonstrate that future VEs, which are not \textit{repurposed}, but explicitly \textit{designed} for V+L tasks, have the potential of improving performance on the target V+L tasks.
翻訳日:2023-06-09 20:30:26 公開日:2023-06-08
# ランダム林の無目標データ汚染に対するロバスト性について:アンサンブルに基づくアプローチ

On the Robustness of Random Forest Against Untargeted Data Poisoning: An Ensemble-Based Approach ( http://arxiv.org/abs/2209.14013v2 )

ライセンス: Link先を確認
Marco Anisetti, Claudio A. Ardagna, Alessandro Balestrucci, Nicola Bena, Ernesto Damiani, Chan Yeob Yeun(参考訳) 機械学習はユビキタスになりつつある。 金融から医学まで、機械学習モデルは意思決定プロセスを強化し、いくつかのタスクで人間を上回っています。 このような予測品質の面での大きな進歩は、そのようなモデルのセキュリティとそれに対応する予測に匹敵するものは見つからず、トレーニングセット(解雇)の断片の摂動がモデルの精度を著しく損なう可能性がある。 毒殺攻撃と防衛に関する研究は、過去10年間で注目を集め、機械学習の堅牢性を高めるためのいくつかの有望な解決策につながった。 その中でも、トレーニングセットの一部で異なるモデルを訓練し、それらの予測を集約したアンサンブルベースの防御は、線形オーバーヘッドの価格で強力な理論的保証を提供する。 驚くべきことに、アンサンブルベースの防御はベースモデルに制限を課さないが、ランダムな森林モデルの堅牢性を高めるには適用されていない。 本稿では,このギャップを埋めるために,ランダムな森林を標的のないランダムな毒殺攻撃から保護する,新しいハッシュベースのアンサンブルアプローチを設計,実装することを目的とする。 広範な実験評価により,多種多様な攻撃に対するアプローチの性能と,資源消費と性能の観点からの持続可能性を測定し,ランダムフォレストに基づく従来のモノリシックモデルと比較した。 最後に本研究の成果を概説し,無作為林を標的とした既存防毒対策との比較を行った。

Machine learning is becoming ubiquitous. From finance to medicine, machine learning models are boosting decision-making processes and even outperforming humans in some tasks. This huge progress in terms of prediction quality does not however find a counterpart in the security of such models and corresponding predictions, where perturbations of fractions of the training set (poisoning) can seriously undermine the model accuracy. Research on poisoning attacks and defenses received increasing attention in the last decade, leading to several promising solutions aiming to increase the robustness of machine learning. Among them, ensemble-based defenses, where different models are trained on portions of the training set and their predictions are then aggregated, provide strong theoretical guarantees at the price of a linear overhead. Surprisingly, ensemble-based defenses, which do not pose any restrictions on the base model, have not been applied to increase the robustness of random forest models. The work in this paper aims to fill in this gap by designing and implementing a novel hash-based ensemble approach that protects random forest against untargeted, random poisoning attacks. An extensive experimental evaluation measures the performance of our approach against a variety of attacks, as well as its sustainability in terms of resource consumption and performance, and compares it with a traditional monolithic model based on random forest. A final discussion presents our main findings and compares our approach with existing poisoning defenses targeting random forests.
翻訳日:2023-06-09 20:29:32 公開日:2023-06-08
# フィードバックによる皮膚効果による絡み合い遷移の欠如

Absence of entanglement transition due to feedback-induced skin effect ( http://arxiv.org/abs/2209.11241v4 )

ライセンス: Link先を確認
Yu-Peng Wang, Chen Fang, and Jie Ren(参考訳) 量子多体系はユニタリ進化し、増大する速度で局所的な測定を繰り返し、広範囲(または亜集中)から領域法エントロピースケーリングへと絡み合う遷移を行う。 非エルミート系における「スキン効果」を想起して,「射影的モニタリング」と条件付きフィードバックからなる「一般化された監視」の下での特定の開放境界系は,異常な後期粒子濃度をエッジに表示する。 このようなフィードバックによる皮膚効果は、絡み合いの発生を抑制し、絡み合い遷移なしに短距離絡み合いを生じさせる。 最初は相互作用しないモデルで現れたが、そのような皮膚効果はカオス相互作用系やランダムな一般化された測定対象のフロケ量子回路でも起こりうる。 皮膚効果のダイナミクスは、選択後に必要とせず、粒子数レベルで観察することができるため、この現象は実験的に関連があり、閉じ込められたイオンのようなうるさい中間スケール量子プラットフォームでアクセス可能である。

A quantum many-body system subject to unitary evolution and repeated local measurements with an increasing rate undergoes an entanglement transition from extensive (or subextensive) to area law entropy scaling. We find that certain open boundary systems under "generalized monitoring", consisting of "projective monitoring" and conditional feedback, display an anomalous late-time particle concentration on the edge, reminiscent of the "skin effect" in non-Hermitian systems. Such feedback-induced skin effect will suppress the entanglement generation, rendering the system short-range entangled without any entanglement transition. While initially emerged in non-interacting models, such skin effect can also occur in chaotic interacting systems and Floquet quantum circuits subjected to random generalized measurements. Since the dynamics of skin-effect do not require post-selection, and can be observed at the particle number level, the phenomenon is experimentally relevant and accessible in noisy intermediate-scale quantum platforms, such as trapped ions.
翻訳日:2023-06-09 20:29:08 公開日:2023-06-08
# サイクル指数多項式と一般化量子分離可能性検定

Cycle Index Polynomials and Generalized Quantum Separability Tests ( http://arxiv.org/abs/2208.14596v2 )

ライセンス: Link先を確認
Zachary P. Bradshaw, Margarite L. LaBorde, and Mark M. Wilde(参考訳) 純粋な二分状態の1つのシェアの混合性は、全体状態が分離可能で無絡状態であるかどうかを決定する。 ここでは、混合性の量子計算テストを検討し、状態のコピー数が大きくなるにつれて、そのようなテストの受け入れ確率の正確な表現を導出する。 この式の分析形式は対称群 $S_k$ のサイクル指数多項式によって与えられることを証明している。 この結果から, 量子分離性テストの族を導出し, それぞれが有限群によって生成され, 任意のアルゴリズムに対して, 受理確率は群の周期指数多項式によって決定されることを示す。 最後に、これらのテストのための明示的な回路構成を作成し解析し、それぞれ$O(k^2)$と$O(k\log(k))$制御SWAPゲートで対称群と巡回群に対応するテストを実行可能であることを示す。

The mixedness of one share of a pure bipartite state determines whether the overall state is a separable, unentangled state. Here we consider quantum computational tests of mixedness, and we derive an exact expression of the acceptance probability of such tests as the number of copies of the state becomes larger. We prove that the analytical form of this expression is given by the cycle index polynomial of the symmetric group $S_k$, which is itself related to the Bell polynomials. After doing so, we derive a family of quantum separability tests, each of which is generated by a finite group; for all such algorithms, we show that the acceptance probability is determined by the cycle index polynomial of the group. Finally, we produce and analyze explicit circuit constructions for these tests, showing that the tests corresponding to the symmetric and cyclic groups can be executed with $O(k^2)$ and $O(k\log(k))$ controlled-SWAP gates, respectively, where $k$ is the number of copies of the state being tested.
翻訳日:2023-06-09 20:28:09 公開日:2023-06-08
# 最適化と量子応用性を考慮したフェルミオンニューラルネットワーク

A fermion neural network with efficient optimization and quantum applicability ( http://arxiv.org/abs/2211.05793v2 )

ライセンス: Link先を確認
Pei-Lin Zheng, Jia-Bao Wang and Yi Zhang(参考訳) 古典的なニューラルネットワークは、機械学習アプリケーションで広く成功している。 本稿では,入力が初期層として組み込まれると,状態の局所密度や条件伝導などの物理特性が出力として機能するフェルミオンニューラルネットワーク(FNN)を提案する。 バックプロパゲーションと比較して、FNNに挑戦する機械学習ベンチマークの競合性能を付与する効率的な最適化を確立する。 fnnは、相互作用を持つハードシステムを含む量子システムにも直接適用でき、前処理や推定なしでその場分析を提供する。 機械学習に続いて、fnnはトポロジカルフェーズと創発電荷順序を正確に決定する。 量子相関は、より一般的なネットワーク接続と、消滅する勾配問題に対する洞察を与え、量子絡み合いは、解釈可能な機械学習のための新しい道を開くなど、様々な利点をもたらす。

Classical artificial neural networks have witnessed widespread successes in machine-learning applications. Here, we propose fermion neural networks (FNNs) whose physical properties, such as local density of states or conditional conductance, serve as outputs, once the inputs are incorporated as an initial layer. Comparable to back-propagation, we establish an efficient optimization, which entitles FNNs to competitive performance on challenging machine-learning benchmarks. FNNs also directly apply to quantum systems, including hard ones with interactions, and offer in-situ analysis without preprocessing or presumption. Following machine learning, FNNs precisely determine topological phases and emergent charge orders. Their quantum nature also brings various advantages: quantum correlation entitles more general network connectivity and insight into the vanishing gradient problem, quantum entanglement opens up novel avenues for interpretable machine learning, etc.
翻訳日:2023-06-09 20:22:10 公開日:2023-06-08
# EquiMod: 自己改善型学習を改善する等価モジュール

EquiMod: An Equivariance Module to Improve Self-Supervised Learning ( http://arxiv.org/abs/2211.01244v2 )

ライセンス: Link先を確認
Alexandre Devillers and Mathieu Lefort(参考訳) 自己教師付き視覚表現法は教師付き学習性能とのギャップを埋めている。 これらの手法は、データ拡張によって生成された関連する合成入力の埋め込みの類似性を最大化することに依存する。 これは埋め込みがこれらの拡張によって修正された因子、すなわちそれらに不変な要素を除外することを奨励するタスクと見なすことができる。 しかし、これは拡張の選択におけるトレードオフの一面のみを考慮に入れている: 単純なソリューションのショートカット学習(例えば色ヒストグラムのみを使用する)を避けるために画像を強く修正する必要があるが、一方、拡張関連情報は下流タスクの表現に欠落している可能性がある(例えば、色は鳥や花の分類に重要である)。 増大への等式を探求することによって、不変タスクのみを使用する問題を緩和する最近の研究はほとんどない。 これは、追加の埋め込み空間(s)を学ぶことで実現され、いくつかの拡張は埋め込みが異なるが、制御されていない方法で行われる。 本研究では,学習した潜伏空間を構成する汎用的同値モジュールであるEquiModを紹介し,加法によって生じる埋め込み空間の変位を予測することを学ぶ。 このモジュールをSimCLRやBYOLといった最先端の不変モデルに適用すると,CIFAR10およびImageNetデータセットのパフォーマンスが向上することを示す。 さらに、モデルが自明な等分散(すなわち不変性)に崩壊する可能性はあるが、その代わりに、表現に有益である拡張に関連する情報を自動で保持することが観察される。

Self-supervised visual representation methods are closing the gap with supervised learning performance. These methods rely on maximizing the similarity between embeddings of related synthetic inputs created through data augmentations. This can be seen as a task that encourages embeddings to leave out factors modified by these augmentations, i.e. to be invariant to them. However, this only considers one side of the trade-off in the choice of the augmentations: they need to strongly modify the images to avoid simple solution shortcut learning (e.g. using only color histograms), but on the other hand, augmentations-related information may be lacking in the representations for some downstream tasks (e.g. color is important for birds and flower classification). Few recent works proposed to mitigate the problem of using only an invariance task by exploring some form of equivariance to augmentations. This has been performed by learning additional embeddings space(s), where some augmentation(s) cause embeddings to differ, yet in a non-controlled way. In this work, we introduce EquiMod a generic equivariance module that structures the learned latent space, in the sense that our module learns to predict the displacement in the embedding space caused by the augmentations. We show that applying that module to state-of-the-art invariance models, such as SimCLR and BYOL, increases the performances on CIFAR10 and ImageNet datasets. Moreover, while our model could collapse to a trivial equivariance, i.e. invariance, we observe that it instead automatically learns to keep some augmentations-related information beneficial to the representations.
翻訳日:2023-06-09 20:21:19 公開日:2023-06-08
# マルチエージェント協調のためのグラフ学習

Unrolled Graph Learning for Multi-Agent Collaboration ( http://arxiv.org/abs/2210.17101v3 )

ライセンス: Link先を確認
Enpei Zhang, Shuo Tang, Xiaowen Dong, Siheng Chen, Yanfeng Wang(参考訳) マルチエージェント学習は、データ交換の制限の下で分散機械学習シナリオに取り組むために注目を集めている。 しかし、既存のマルチエージェント学習モデルは、通常、エージェント間の固定的かつ強制的な協調関係の下でのデータ融合を検討する。 このギャップを埋めるために,エージェントが適切なコラボレータを自律的に検出し,パフォーマンス向上のためにコラボレータのモデルを参照できる,ヒューマンコラボレーションにインスパイアされた分散マルチエージェント学習モデルを提案する。 このような適応的な協調を実現するために,協調グラフを用いて協調関係を示す。 協調グラフは、異なるエージェント間のモデル類似性に基づいたグラフ学習技術によって得られる。 モデルの類似性は固定されたグラフィカル最適化では定式化できないため、グラフ学習ネットワークを展開することで設計する。 回帰タスクと分類タスクの両方をテストすることで,提案する協調モデルが正確な協調関係を解明し,エージェントの学習性能を大幅に向上できることを確認した。

Multi-agent learning has gained increasing attention to tackle distributed machine learning scenarios under constrictions of data exchanging. However, existing multi-agent learning models usually consider data fusion under fixed and compulsory collaborative relations among agents, which is not as flexible and autonomous as human collaboration. To fill this gap, we propose a distributed multi-agent learning model inspired by human collaboration, in which the agents can autonomously detect suitable collaborators and refer to collaborators' model for better performance. To implement such adaptive collaboration, we use a collaboration graph to indicate the pairwise collaborative relation. The collaboration graph can be obtained by graph learning techniques based on model similarity between different agents. Since model similarity can not be formulated by a fixed graphical optimization, we design a graph learning network by unrolling, which can learn underlying similar features among potential collaborators. By testing on both regression and classification tasks, we validate that our proposed collaboration model can figure out accurate collaborative relationship and greatly improve agents' learning performance.
翻訳日:2023-06-09 20:20:52 公開日:2023-06-08
# アラビア語方言UGTにおける感性翻訳のための半教師付きアプローチ

A Semi-supervised Approach for a Better Translation of Sentiment in Dialectical Arabic UGT ( http://arxiv.org/abs/2210.11899v2 )

ライセンス: Link先を確認
Hadeel Saadany, Constantin Orasan, Emad Mohamed, Ashraf Tantawy(参考訳) オンラインの世界では、レビュー、ツイート、ソーシャルメディア投稿などのユーザー生成テキスト(ugt)を翻訳するために機械翻訳(mt)システムが広く使われている。 しかし、mtシステムは一部の低リソース言語では正確性に欠けており、ターゲットの単語やフレーズの感情の極性を完全に反転させる重要な翻訳誤りを生じることがある。 これは特に、オンラインプラットフォームで使われる方言アラビア語(DA)のような一般的な語彙文法標準に従わないテキストで顕著である。 本研究では、アラビア語の方言版で書かれたUGTの感情の英語への翻訳を改善することを目的とする。 UGT領域におけるDA-ENのゴールドスタンダード並列データの不足を踏まえ,教師付きおよび教師なしモデリング目的を訓練した言語間モデルにより初期化したNMTシステムのトレーニングに,単言語と並列データの両方を活用する半教師付きアプローチを導入する。 提案システムによる感情翻訳の精度を,人間評価とともに数値的「感性閉鎖性」尺度を用いて評価する。 我々の半教師付きMTシステムは、方言のアラビア語 UGT のオンライン翻訳で検出された感情誤りの修正に大いに役立ちます。

In the online world, Machine Translation (MT) systems are extensively used to translate User-Generated Text (UGT) such as reviews, tweets, and social media posts, where the main message is often the author's positive or negative attitude towards the topic of the text. However, MT systems still lack accuracy in some low-resource languages and sometimes make critical translation errors that completely flip the sentiment polarity of the target word or phrase and hence delivers a wrong affect message. This is particularly noticeable in texts that do not follow common lexico-grammatical standards such as the dialectical Arabic (DA) used on online platforms. In this research, we aim to improve the translation of sentiment in UGT written in the dialectical versions of the Arabic language to English. Given the scarcity of gold-standard parallel data for DA-EN in the UGT domain, we introduce a semi-supervised approach that exploits both monolingual and parallel data for training an NMT system initialised by a cross-lingual language model trained with supervised and unsupervised modeling objectives. We assess the accuracy of sentiment translation by our proposed system through a numerical 'sentiment-closeness' measure as well as human evaluation. We will show that our semi-supervised MT system can significantly help with correcting sentiment errors detected in the online translation of dialectical Arabic UGT.
翻訳日:2023-06-09 20:20:15 公開日:2023-06-08
# ディープニューラルネットワークにおけるウィンドウベース分布シフト検出

Window-Based Distribution Shift Detection for Deep Neural Networks ( http://arxiv.org/abs/2210.10897v3 )

ライセンス: Link先を確認
Guy Bar-Shalom, Yonatan Geifman, Ran El-Yaniv(参考訳) 深層神経モデルの本番環境での展開と運用には, 良性的に汚染されたり, 入力分布偏差によって悪質に操作されたりする予測の品質を監視・評価する必要がある。 具体的には,データストリームを受信するディープニューラルネットワーク(DNN)の健全な動作をモニタリングする場合について,ネットワークの予測の質が損なわれる可能性のある入力分布のずれを検出することを目的とした。 選択的予測原理を用いて,DNNの分布偏差検出手法を提案する。 提案手法は,真の基礎分布から引き出されたインスタンスのサンプル上で計算された厳密なカバレッジ一般化から導出される。 このバウンドに基づき、本検出器はテストウィンドウ上でネットワークの外部の動作を継続的に監視し、偏差が検出されるとアラームを発射する。 提案手法は, 計算時間(最大5桁)と空間の複雑さを著しく低減しつつ, 最先端技術よりも高い精度で処理を行う。 検出毎にソース分布のサイズに少なくとも線形依存を必要とする従来の方法とは異なり、Google-Scale'データセットに適用できない方法では、この依存を排除し、現実世界のアプリケーションに適している。

To deploy and operate deep neural models in production, the quality of their predictions, which might be contaminated benignly or manipulated maliciously by input distributional deviations, must be monitored and assessed. Specifically, we study the case of monitoring the healthy operation of a deep neural network (DNN) receiving a stream of data, with the aim of detecting input distributional deviations over which the quality of the network's predictions is potentially damaged. Using selective prediction principles, we propose a distribution deviation detection method for DNNs. The proposed method is derived from a tight coverage generalization bound computed over a sample of instances drawn from the true underlying distribution. Based on this bound, our detector continuously monitors the operation of the network out-of-sample over a test window and fires off an alarm whenever a deviation is detected. Our novel detection method performs on-par or better than the state-of-the-art, while consuming substantially lower computation time (five orders of magnitude reduction) and space complexities. Unlike previous methods, which require at least linear dependence on the size of the source distribution for each detection, rendering them inapplicable to ``Google-Scale'' datasets, our approach eliminates this dependence, making it suitable for real-world applications.
翻訳日:2023-06-09 20:19:51 公開日:2023-06-08
# mctnet:光リモートセンシング画像の変更検出のためのマルチスケールcnn-transformerネットワーク

MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in Optical Remote Sensing Images ( http://arxiv.org/abs/2210.07601v2 )

ライセンス: Link先を確認
Weiming Li, Lihui Xue, Xueqian Wang, and Gang Li(参考訳) リモートセンシング画像における変化検出(cd)タスクのために、ディープ畳み込みニューラルネットワーク(cnns)ベースの手法が最近、グローバル特徴抽出能力を改善するためにトランスフォーマーモジュールを集約した。 しかし、深層cnnとトランスフォーマーモジュールの単純な単一スケール統合により、小さな変更領域でcdパフォーマンスが低下した。 この問題に対処するために,MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。 特に,変換器モジュールからグローバルな特徴を適応的に集約するConvTransブロックを設計し,CNN層からローカルな特徴を抽出する。 MCTNetは,既存の最先端CD法よりも優れた検出性能を示す。

For the task of change detection (CD) in remote sensing images, deep convolution neural networks (CNNs)-based methods have recently aggregated transformer modules to improve the capability of global feature extraction. However, they suffer degraded CD performance on small changed areas due to the simple single-scale integration of deep CNNs and transformer modules. To address this issue, we propose a hybrid network based on multi-scale CNN-transformer structure, termed MCTNet, where the multi-scale global and local information are exploited to enhance the robustness of the CD performance on changed areas with different sizes. Especially, we design the ConvTrans block to adaptively aggregate global features from transformer modules and local features from CNN layers, which provides abundant global-local features with different scales. Experimental results demonstrate that our MCTNet achieves better detection performance than existing state-of-the-art CD methods.
翻訳日:2023-06-09 20:19:29 公開日:2023-06-08
# 可逆分解による領域外ganインバージョン : フォトリアリスティックな顔操作

Out-of-domain GAN inversion via Invertibility Decomposition for Photo-Realistic Human Face Manipulation ( http://arxiv.org/abs/2212.09262v2 )

ライセンス: Link先を確認
Xin Yang, Xiaogang Xu, Yingcong Chen(参考訳) GAN(Generative Adversarial Networks)のインバージョンは、画像内のout-Of-Domain(OOD)領域(例えば、バックグラウンド、アクセサリー)によって阻害される。 事前訓練されたモデルの生成能力を超えるOOD領域を検出し、これらの領域を入力画像とブレンドすることで、忠実度を高めることができる。 インバータビリティマスク」はこれらのOOD領域を解析し、既存の手法では復元誤差でマスクを予測する。 しかし、推定されたマスクは通常、ドメイン内(id)領域の再構成誤差の影響で不正確である。 本稿では,入力画像をidおよびoodパーティションに可逆マスクで分解する新しいモジュールをデザインすることにより,顔の反転の忠実性を高める新しい枠組みを提案する。 従来の手法とは異なり、我々の可逆検出器は空間アライメントモジュールで同時に学習される。 生成した特徴を入力形状に反復的に整列し,ID領域の再構成誤差を低減する。 したがって、OOD領域はより区別しやすく、正確に予測できる。 そして、入力画像からOOD領域とID GAN逆変換結果とを混合することにより、結果の忠実度を向上させる。 本手法は実世界の人間の顔画像の逆転と操作のための実測結果を生成する。 GANインバージョンと属性操作の品質において,本手法が既存の手法よりも優れていることを示す。

The fidelity of Generative Adversarial Networks (GAN) inversion is impeded by Out-Of-Domain (OOD) areas (e.g., background, accessories) in the image. Detecting the OOD areas beyond the generation ability of the pre-trained model and blending these regions with the input image can enhance fidelity. The "invertibility mask" figures out these OOD areas, and existing methods predict the mask with the reconstruction error. However, the estimated mask is usually inaccurate due to the influence of the reconstruction error in the In-Domain (ID) area. In this paper, we propose a novel framework that enhances the fidelity of human face inversion by designing a new module to decompose the input images to ID and OOD partitions with invertibility masks. Unlike previous works, our invertibility detector is simultaneously learned with a spatial alignment module. We iteratively align the generated features to the input geometry and reduce the reconstruction error in the ID regions. Thus, the OOD areas are more distinguishable and can be precisely predicted. Then, we improve the fidelity of our results by blending the OOD areas from the input image with the ID GAN inversion results. Our method produces photo-realistic results for real-world human face image inversion and manipulation. Extensive experiments demonstrate our method's superiority over existing methods in the quality of GAN inversion and attribute manipulation.
翻訳日:2023-06-09 20:12:27 公開日:2023-06-08
# フレキシブルセマンティックマッチングのための関係文埋め込み

Relational Sentence Embedding for Flexible Semantic Matching ( http://arxiv.org/abs/2212.08802v2 )

ライセンス: Link先を確認
Bin Wang, Haizhou Li(参考訳) 文埋め込みの可能性を明らかにするための新たなパラダイムとしてRSE(Relational Sentence Embedding)を提案する。 先行研究は主に、その埋め込み距離に基づいて文間の類似性をモデル化する。 複雑な意味意味が伝達されるため、文対は、含意、パラフレージング、質問応答を含む様々な関係型を持つことができる。 このような関係情報をキャプチャするために、既存の埋め込み手法に挑戦する。 関連する関係埋め込みを学習することで問題に対処する。 具体的には、ソース文に関係性翻訳操作を適用して、予め訓練されたシームズベースのエンコーダで対応する対象文を推測する。 きめ細かい関係性スコアは、学習した埋め込みから計算できる。 テキストの類似性,転送,ドメイン固有のタスクなど,幅広いタスクをカバーする19のデータセットに対して,本手法をベンチマークした。 実験の結果,本手法は文関係のモデル化に有効かつ柔軟であり,最先端文埋め込み手法よりも優れていることがわかった。 https://github.com/BinWang28/RSE

We present Relational Sentence Embedding (RSE), a new paradigm to further discover the potential of sentence embeddings. Prior work mainly models the similarity between sentences based on their embedding distance. Because of the complex semantic meanings conveyed, sentence pairs can have various relation types, including but not limited to entailment, paraphrasing, and question-answer. It poses challenges to existing embedding methods to capture such relational information. We handle the problem by learning associated relational embeddings. Specifically, a relation-wise translation operation is applied to the source sentence to infer the corresponding target sentence with a pre-trained Siamese-based encoder. The fine-grained relational similarity scores can be computed from learned embeddings. We benchmark our method on 19 datasets covering a wide range of tasks, including semantic textual similarity, transfer, and domain-specific tasks. Experimental results show that our method is effective and flexible in modeling sentence relations and outperforms a series of state-of-the-art sentence embedding methods. https://github.com/BinWang28/RSE
翻訳日:2023-06-09 20:12:06 公開日:2023-06-08
# シンプルさのバイアスがパフォーマンスの格差を増幅する

Simplicity Bias Leads to Amplified Performance Disparities ( http://arxiv.org/abs/2212.06641v2 )

ライセンス: Link先を確認
Samuel J. Bell and Levent Sagun(参考訳) データセットのどの部分が、与えられたモデルを困難に感じるのか? 最近の研究により、sgd訓練されたモデルは単純さに偏りがあり、マジョリティクラスを学習することを優先するか、有害なスプリアス相関に依存することが示されている。 モデルはデータセットの任意のクラスやグループを優先して、テストセットのパフォーマンスの差によって測定される複雑度を犠牲にして見つけ出すことができます。 複雑さのレベルが異なるサブセットが人口統計群と一致する場合、この難易度差はグループとラベルの関連性が欠如しているバランスの取れたデータセットでさえ起こる現象である。 平均パフォーマンススコアによって選択される一般的なモデルでは,不一致がモデル依存量であることを示す。 我々は、固定データセット上の異なるモデルの相違を比較するために、様々な設定で増幅係数を定量化する。 最後に,バランスの取れたデータセットを用いても,グループ間の性能格差が悪化する原因として,動作の増幅が困難である実例を2つ提示する。 バランスのとれたデータセットにおけるそのような差異の存在は、単にグループのサンプルサイズのバランスをとるだけでは、偏りのないパフォーマンスを保証するには不十分であることを示している。 この研究が、データ構造と相互作用する際のモデルバイアスの役割の計測可能な理解へのステップを示し、データセット監査と一緒にデプロイされる追加のモデル依存緩和メソッドを要求したいと考えています。

Which parts of a dataset will a given model find difficult? Recent work has shown that SGD-trained models have a bias towards simplicity, leading them to prioritize learning a majority class, or to rely upon harmful spurious correlations. Here, we show that the preference for "easy" runs far deeper: A model may prioritize any class or group of the dataset that it finds simple-at the expense of what it finds complex-as measured by performance difference on the test set. When subsets with different levels of complexity align with demographic groups, we term this difficulty disparity, a phenomenon that occurs even with balanced datasets that lack group/label associations. We show how difficulty disparity is a model-dependent quantity, and is further amplified in commonly-used models as selected by typical average performance scores. We quantify an amplification factor across a range of settings in order to compare disparity of different models on a fixed dataset. Finally, we present two real-world examples of difficulty amplification in action, resulting in worse-than-expected performance disparities between groups even when using a balanced dataset. The existence of such disparities in balanced datasets demonstrates that merely balancing sample sizes of groups is not sufficient to ensure unbiased performance. We hope this work presents a step towards measurable understanding of the role of model bias as it interacts with the structure of data, and call for additional model-dependent mitigation methods to be deployed alongside dataset audits.
翻訳日:2023-06-09 20:11:51 公開日:2023-06-08
# コヒーレントメソスコピック輸送における絡み合いと熱力学的不確かさの関係

Entanglement and thermokinetic uncertainty relations in coherent mesoscopic transport ( http://arxiv.org/abs/2212.03835v2 )

ライセンス: Link先を確認
Kacper Prech, Philip Johansson, Elias Nyholm, Gabriel T. Landi, Claudio Verdozzi, Peter Samuelsson and Patrick P. Potts(参考訳) 量子力学と古典力学の違いの深い理解は、新興テクノロジーに大きな可能性を約束する。 それでも、特にオープン量子システムにおける量子コヒーレンスの役割に関して、いくつかの側面はよく分かっていない。 一方、一貫性は絡み合いや非局所性につながる。 他方では、変動が抑制され、古典的なプロセスに有効な熱力学の不確実性関係(TURとKUR)が破られる可能性がある。 これらはコヒーレンスの2つの異なる表現を表し、1つは系の状態(静的)のみに依存し、2つの時間相関関数(力学)に依存する。 ここでは,このようなコヒーレンス表現を用いて,メソスコピック量子輸送が,確率的跳躍に基づく古典的モデルによって捉えられるかどうかを判断し,そのようなモデルが崩壊した場合,非古典的挙動を示唆する。 この目的のために、2つの熱貯水池に結合した二重量子ドットの最小モデルに焦点を当てる。 このシステムでは、量子トンネルはラビ振動を誘導し、絡み合いと非局所性の両方とturとkurの違反をもたらす。 これらの効果は、古典的記述の崩壊を記述するもので、コヒーレンスのピークを伴う。 本結果は,非古典的動作を示す非平衡デバイスの設計の指針となる。

A deeper understanding of the differences between quantum and classical dynamics promises great potential for emerging technologies. Nevertheless, some aspects remain poorly understood, particularly concerning the role of quantum coherence in open quantum systems. On the one hand, coherence leads to entanglement and even nonlocality. On the other, it may lead to a suppression of fluctuations, causing violations of thermo-kinetic uncertainty relations (TUR and KUR) that are valid for classical processes. These represent two different manifestations of coherence, one depending only on the state of the system (static) and one depending on two-time correlation functions (dynamical). Here we employ these manifestations of coherence to determine when mesoscopic quantum transport can be captured by a classical model based on stochastic jumps, and when such a model breaks down, implying nonclassical behavior. To this end, we focus on a minimal model of a double quantum dot coupled to two thermal reservoirs. In this system, quantum tunneling induces Rabi oscillations and results in both entanglement and nonlocality, as well as TUR and KUR violations. These effects, which describe the breakdown of a classical description, are accompanied by a peak in coherence. Our results provide guiding principles for the design of out-of-equilibrium devices that exhibit nonclassical behavior.
翻訳日:2023-06-09 20:11:26 公開日:2023-06-08
# 小型非エルミート力学の実用量子シミュレーション

Practical quantum simulation of small-scale non-Hermitian dynamics ( http://arxiv.org/abs/2211.14826v2 )

ライセンス: Link先を確認
Hongfeng Liu, Xiaodong Yang, Kai Tang, Liangyu Che, Xinfang Nie, Tao Xin, Jun Li, and Dawei Lu(参考訳) 非エルミート量子系は、そのエキゾチックな性質により、最近かなりの注目を集めている。 非エルミート系の多くの実験的実現が報告されているが、非ハーミティティーは通常、制御の難しい環境に頼り、長くは続かない。 別のアプローチはクローズドシステムで量子シミュレーションを使用することであるが、非エルミート・ハミルトン力学をシミュレートする方法は大きな課題である。 この問題に対処するために,拡張法と変分量子アルゴリズムを組み合わせたプロトコルを提案する。 この拡張法は、非エルミートハミルトニアンを余剰量子回路を介してエルミート型に変換し、変分量子アルゴリズムは、この回路の複雑な絡み合ったゲートを効率的に近似するために用いられる。 実演として,非局所な非エルミート摂動をもつイジング鎖の力学をシミュレートするために,本プロトコルを適用し,非ゼロ温度における量子相転移を研究する上で重要なモデルである。 数値シミュレーションの結果は,提案プロトコルの有効性を明らかにする理論予測と極めて一致している。 提案プロトコルは、小規模非エルミート力学を実際にシミュレーションする方法を舗装する。

Non-Hermitian quantum systems have recently attracted considerable attention due to their exotic properties. Though many experimental realizations of non-Hermitian systems have been reported, the non-Hermiticity usually resorts to the hard-to-control environments and cannot last for too long times. An alternative approach is to use quantum simulation with the closed system, whereas how to simulate non-Hermitian Hamiltonian dynamics remains a great challenge. To tackle this problem, we propose a protocol which combines a dilation method with the variational quantum algorithm. The dilation method is used to transform a non-Hermitian Hamiltonian into a Hermitian one through an exquisite quantum circuit, while the variational quantum algorithm is for efficiently approximating the complex entangled gates in this circuit. As a demonstration, we apply our protocol to simulate the dynamics of an Ising chain with nonlocal non-Hermitian perturbations, which is an important model to study quantum phase transition at nonzero temperatures. The numerical simulation results are highly consistent with the theoretical predictions, revealing the effectiveness of our protocol. The presented protocol paves the way for practically simulating small-scale non-Hermitian dynamics.
翻訳日:2023-06-09 20:10:22 公開日:2023-06-08
# ClimateNeRF: ニューラルラジカル場における極端気象合成

ClimateNeRF: Extreme Weather Synthesis in Neural Radiance Field ( http://arxiv.org/abs/2211.13226v3 )

ライセンス: Link先を確認
Yuan Li, Zhi-Hao Lin, David Forsyth, Jia-Bin Huang, Shenlong Wang(参考訳) 物理シミュレーションは天気効果の予測に優れる。 神経放射場はSOTAシーンモデルを生成する。 シーンのNeRFモデルを用いて物理シミュレーションを融合し,それらのシーンにおける物理現象のリアルな映像を生成する,新しいNeRF編集手法について述べる。 私たちのアプリケーションであるClimate NeRFは、気候変動の結果が彼らに与える影響を可視化します。 ClimateNeRFを使えば、スモッグや雪、洪水など、現実的な気象効果を表現できます。 結果は水位のような物理的に有意義な変数で制御できる。 定性的および定量的研究により、シミュレーション結果は、SOTA 2D画像編集やSOTA 3D NeRFスタイリングよりもはるかに現実的であることが示された。

Physical simulations produce excellent predictions of weather effects. Neural radiance fields produce SOTA scene models. We describe a novel NeRF-editing procedure that can fuse physical simulations with NeRF models of scenes, producing realistic movies of physical phenomena in those scenes. Our application -- Climate NeRF -- allows people to visualize what climate change outcomes will do to them. ClimateNeRF allows us to render realistic weather effects, including smog, snow, and flood. Results can be controlled with physically meaningful variables like water level. Qualitative and quantitative studies show that our simulated results are significantly more realistic than those from SOTA 2D image editing and SOTA 3D NeRF stylization.
翻訳日:2023-06-09 20:10:02 公開日:2023-06-08
# 整数および半整数角運動量に対するハーヴィッツ・ホップ写像と調和波関数

The Hurwitz-Hopf Map and Harmonic Wave Functions for Integer and Half-Integer Angular Momentum ( http://arxiv.org/abs/2211.10775v2 )

ライセンス: Link先を確認
Sergio A. Hojman, Eduardo Nahmad-Achar, and Adolfo S\'anchez-Valenzuela(参考訳) 整数および半整数角運動量に対する調和波関数は、回転を$so(3)$で定義するオイラー角$(\theta,\phi,\psi)$と、${\mathbb r}^3$のユークリッドノルムによって与えられる。 シュウィンガーの古典的な研究に続いて、2ドルの高調波発振器は半単位の波動関数の角運動量固有値を変化させる昇降作用素を生成するために用いられる。 表現空間 $\mathcal h$ の性質は二重被覆群準同型 $su(2)\to so(3)$ から接近し、関連する位相は hurwitz-hopf map $h:{\mathbb r}^4\to{\mathbb r}^3$ を用いて扱う。 G_0={\mathbb R}^+\times SU(2)\to {\mathbb R}^+\times SO(3)$ を代入 $(z_1,z_2)mapsto (r,\theta,\phi,\psi)$ に変換し、その領域は $(z_1,z_2)$ の複素変数からなる。 G_0$ のリー代数は、作用素 $\{z_1,z_2,\bar{z}_1,\bar{z}_2\}$ とそれらの随伴子によって生成される2$次元(シュウィンガーの)調和振動子のハイゼンベルクリー代数とどのように結合するかを示す。 作用素全体の集合は、13$次元リー代数または$(4|8)$次元リー超代数に代数的に閉じる。 $\mathcal H$ の波動関数は複素座標 $(z_1,z_2)$ とその複素共役の多項式の項で記述することができ、表現は G_0$ の様々な最高重量(または最低重量)ベクトル表現を通して明示的に構成される。 電子スピンを考慮に入れた水素原子に対する新しい非相対論的量子(Schr\"odinger-like")方程式を導入し、$(r,\theta,\phi,\psi)$と時間$t$で表す。 この方程式は、導入された調和波動関数の観点から正確に解くことができる。

Harmonic wave functions for integer and half-integer angular momentum are given in terms of the Euler angles $(\theta,\phi,\psi)$ that define a rotation in $SO(3)$, and the Euclidean norm in ${\mathbb R}^3$. Following a classical work by Schwinger, $2$-dimensional harmonic oscillators are used to produce raising and lowering operators that change the total angular momentum eigenvalue of the wave functions in half units. The nature of the representation space $\mathcal H$ is approached from the double covering group homomorphism $SU(2)\to SO(3)$ and the topology involved is taken care of by using the Hurwitz-Hopf map $H:{\mathbb R}^4\to{\mathbb R}^3$. It is shown how to reconsider $H$ as a 2-to-1 group map, $G_0={\mathbb R}^+\times SU(2)\to {\mathbb R}^+\times SO(3)$, translating it into an assignment $(z_1,z_2)\mapsto (r,\theta,\phi,\psi)$ whose domain consists of pairs $(z_1,z_2)$ of complex variables. It is shown how the Lie algebra of $G_0$ is coupled with two Heisenberg Lie algebras of $2$-dimensional (Schwinger's) harmonic oscillators generated by the operators $\{z_1,z_2,\bar{z}_1,\bar{z}_2\}$ and their adjoints. The whole set of operators gets algebraically closed either into a $13$-dimensional Lie algebra or into a $(4|8)$-dimensional Lie superalgebra. The wave functions in $\mathcal H$ can be written in terms of polynomials in the complex coordinates $(z_1,z_2)$ and their complex conjugates, and the representations are explicitly constructed via the various highest weight (or lowest weight) vector representations of $G_0$. A new non-relativistic quantum (Schr\"odinger-like) equation for the hydrogen atom that takes into account the electron spin is introduced and expressed in terms of $(r,\theta,\phi,\psi)$ and the time $t$. The equation may be solved exactly in terms of the harmonic wave functions hereby introduced.
翻訳日:2023-06-09 20:09:35 公開日:2023-06-08
# 強固かつ高品質な顔形態形成アタックにおける拡散の活用

Leveraging Diffusion For Strong and High Quality Face Morphing Attacks ( http://arxiv.org/abs/2301.04218v3 )

ライセンス: Link先を確認
Zander Blasingame and Chen Liu(参考訳) 顔のモーフィング攻撃は、2つのアイデンティティのうちの1つで誤認を誘発することを目的として、2つの異なるアイデンティティから生体認証品質からなるモーフィング画像を提示することにより、顔認識(fr)システムを欺き、生体認証システムに重大な脅威を与える。 モーフィング攻撃の成功は、画像の作成に使用された2つのアイデンティティの生体認証特性を表現するためのモーフィング画像の能力に依存する。 本稿では,拡散ベースのアーキテクチャを用いて,画像の視覚的忠実度と2つの特徴を表現できるモーフィングアタックの能力を改善する新しいモーフィングアタックを提案する。 本稿では,Frechet Inception Distance (FID) を用いて視覚的忠実度を評価することで,攻撃の有効性を示す。 また、提案攻撃に対するFRシステムの脆弱性を測定するための広範な実験を行った。 提案した攻撃を検出するためのモーフィング攻撃検出器の能力を測定し、ランドマークベースの2つの攻撃と共に、最先端の2つのGANベースのモーフィング攻撃と比較した。 さらに、異なるモーフィング攻撃間の相対強度を測定するための新しい指標を導入し、評価する。

Face morphing attacks seek to deceive a Face Recognition (FR) system by presenting a morphed image consisting of the biometric qualities from two different identities with the aim of triggering a false acceptance with one of the two identities, thereby presenting a significant threat to biometric systems. The success of a morphing attack is dependent on the ability of the morphed image to represent the biometric characteristics of both identities that were used to create the image. We present a novel morphing attack that uses a Diffusion-based architecture to improve the visual fidelity of the image and the ability of the morphing attack to represent characteristics from both identities. We demonstrate the effectiveness of the proposed attack by evaluating its visual fidelity via the Frechet Inception Distance (FID). Also, extensive experiments are conducted to measure the vulnerability of FR systems to the proposed attack. The ability of a morphing attack detector to detect the proposed attack is measured and compared against two state-of-the-art GAN-based morphing attacks along with two Landmark-based attacks. Additionally, a novel metric to measure the relative strength between different morphing attacks is introduced and evaluated.
翻訳日:2023-06-09 20:03:00 公開日:2023-06-08
# MSCDA: マルチレベルセマンティック誘導コントラストによる小データセットにおける乳房MRI領域適応の改善

MSCDA: Multi-level Semantic-guided Contrast Improves Unsupervised Domain Adaptation for Breast MRI Segmentation in Small Datasets ( http://arxiv.org/abs/2301.02554v2 )

ライセンス: Link先を確認
Sheng Kuang, Henry C. Woodruff, Renee Granzier, Thiemo J.A. van Nijnatten, Marc B.I. Lobbes, Marjolein L. Smidt, Philippe Lambin, Siamak Mehrkanoon(参考訳) 磁気共鳴画像(MRI)における乳房組織セグメンテーションに応用される深層学習(DL)は、ここ10年で注目されているが、異なるベンダー、取得プロトコル、生物学的不均一性から生じるドメインシフトは、臨床実装への道のりにおいて重要な障害であり続けている。 本稿では,この問題に教師なしで対処する,多段階の意味誘導型コントラストドメイン適応(MSCDA)フレームワークを提案する。 我々のアプローチは、ドメイン間の特徴表現を整合させるために、対照的な学習を伴う自己学習を取り入れている。 特に、画素間、画素間、中心間および中心間コントラストを組み込むことで、コントラスト損失を拡大し、異なるレベルで画像の基盤となる意味情報をうまく活用する。 データ不均衡問題を解決するために,対象画像からアンカーをサンプリングし,ソース画像からサンプルを格納するハイブリッドメモリバンクを構築するために,カテゴリ毎のクロスドメインサンプリング戦略を用いる。 健常者および浸潤乳癌患者のデータセット間のクロスドメイン胸部MRIセグメント化を課題とし,MSCDAの有効性を検証した。 大規模な実験により、MSCDAはドメイン間の機能アライメント能力を効果的に改善し、最先端の手法より優れていることが示された。 さらに、このフレームワークはラベル効率が高く、より小さなソースデータセットで優れたパフォーマンスを実現している。 コードは \url{https://github.com/ShengKuangCN/MSCDA} で公開されている。

Deep learning (DL) applied to breast tissue segmentation in magnetic resonance imaging (MRI) has received increased attention in the last decade, however, the domain shift which arises from different vendors, acquisition protocols, and biological heterogeneity, remains an important but challenging obstacle on the path towards clinical implementation. In this paper, we propose a novel Multi-level Semantic-guided Contrastive Domain Adaptation (MSCDA) framework to address this issue in an unsupervised manner. Our approach incorporates self-training with contrastive learning to align feature representations between domains. In particular, we extend the contrastive loss by incorporating pixel-to-pixel, pixel-to-centroid, and centroid-to-centroid contrasts to better exploit the underlying semantic information of the image at different levels. To resolve the data imbalance problem, we utilize a category-wise cross-domain sampling strategy to sample anchors from target images and build a hybrid memory bank to store samples from source images. We have validated MSCDA with a challenging task of cross-domain breast MRI segmentation between datasets of healthy volunteers and invasive breast cancer patients. Extensive experiments show that MSCDA effectively improves the model's feature alignment capabilities between domains, outperforming state-of-the-art methods. Furthermore, the framework is shown to be label-efficient, achieving good performance with a smaller source dataset. The code is publicly available at \url{https://github.com/ShengKuangCN/MSCDA}.
翻訳日:2023-06-09 20:02:38 公開日:2023-06-08
# hiervl: 階層型ビデオ言語埋め込みの学習

HierVL: Learning Hierarchical Video-Language Embeddings ( http://arxiv.org/abs/2301.02311v2 )

ライセンス: Link先を確認
Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman(参考訳) ビデオ言語埋め込みは、セマンティックスを視覚表現に注入するための有望な方法であるが、既存の手法は、数秒のビデオクリップと付随するテキストの間の短期的関連のみをキャプチャする。 長期・短期の関連を同時に考慮した階層型ビデオ言語埋め込みであるHierVLを提案する。 トレーニングデータとして、人間の行動のタイムスタンプ付きテキスト記述を伴うビデオと、長いビデオを通してのアクティビティの高レベルテキスト要約(Ego4Dで利用可能)を取ります。 本稿では,クリップレベルと映像レベルでのテキスト・ビジュアルアライメントを促進する階層的コントラスト学習目標を提案する。 クリップレベルの制約は、ステップバイステップの説明を使ってその瞬間に起きていることをキャプチャしますが、ビデオレベルの制約は、サマリテキストを使用して、それが起きている理由、すなわち、アクタのアクティビティとインテントに関する広いコンテキストをキャプチャします。 当社の階層構造は,単一レベルの映像表現よりも優れるクリップ表現と,長期ビデオモデリングを必要とするタスクのsoma結果を実現する長期映像表現を実現した。 HierVLは、ゼロショットと微調整の両方で複数の挑戦的な下流タスク(EPIC-KITCHENS-100、Charades-Ego、HowTo100M)への転送に成功した。

Video-language embeddings are a promising avenue for injecting semantics into visual representations, but existing methods capture only short-term associations between seconds-long video clips and their accompanying text. We propose HierVL, a novel hierarchical video-language embedding that simultaneously accounts for both long-term and short-term associations. As training data, we take videos accompanied by timestamped text descriptions of human actions, together with a high-level text summary of the activity throughout the long video (as are available in Ego4D). We introduce a hierarchical contrastive training objective that encourages text-visual alignment at both the clip level and video level. While the clip-level constraints use the step-by-step descriptions to capture what is happening in that instant, the video-level constraints use the summary text to capture why it is happening, i.e., the broader context for the activity and the intent of the actor. Our hierarchical scheme yields a clip representation that outperforms its single-level counterpart as well as a long-term video representation that achieves SotA results on tasks requiring long-term video modeling. HierVL successfully transfers to multiple challenging downstream tasks (in EPIC-KITCHENS-100, Charades-Ego, HowTo100M) in both zero-shot and fine-tuned settings.
翻訳日:2023-06-09 20:02:10 公開日:2023-06-08
# 動的特徴選択のための相互情報の最大化学習

Learning to Maximize Mutual Information for Dynamic Feature Selection ( http://arxiv.org/abs/2301.00557v2 )

ライセンス: Link先を確認
Ian Covert, Wei Qiu, Mingyu Lu, Nayoon Kim, Nathan White, Su-In Lee(参考訳) 機能選択はMLのデータ取得コストを削減するのに役立つが、標準的なアプローチは静的な機能サブセットでモデルをトレーニングすることだ。 本稿では,現在利用可能な情報に基づいてモデルを逐次クエリする動的特徴選択(DFS)問題を考察する。 DFSは、しばしば強化学習によって対処されるが、条件付き相互情報に基づいて、より単純な特徴選択のアプローチを探求する。 本手法は理論的に魅力的であるが,データ分布へのオラクルアクセスを必要とするため,償却最適化に基づく学習手法を開発する。 提案手法は, 最適性に訓練された際の欲望ポリシーを回復することを示し, 実験で既存の特徴選択法を上回り, この問題に対する単純かつ強力なアプローチとして検証した。

Feature selection helps reduce data acquisition costs in ML, but the standard approach is to train models with static feature subsets. Here, we consider the dynamic feature selection (DFS) problem where a model sequentially queries features based on the presently available information. DFS is often addressed with reinforcement learning, but we explore a simpler approach of greedily selecting features based on their conditional mutual information. This method is theoretically appealing but requires oracle access to the data distribution, so we develop a learning approach based on amortized optimization. The proposed method is shown to recover the greedy policy when trained to optimality, and it outperforms numerous existing feature selection methods in our experiments, thus validating it as a simple but powerful approach for this problem.
翻訳日:2023-06-09 20:01:46 公開日:2023-06-08
# チャンネルシミュレーション:有限ブロック長と放送チャンネル

Channel Simulation: Finite Blocklengths and Broadcast Channels ( http://arxiv.org/abs/2212.11666v2 )

ライセンス: Link先を確認
Michael X. Cao, Navneeth Ramakrishnan, Mario Berta, Marco Tomamichel(参考訳) 本研究では,有限ブロック長系における共通ランダム性支援下でのチャネルシミュレーションについて検討し,スムーズなチャネル最大値情報を線形プログラムとして同定する。 このワンショットの逆は、符号なし補助符号を用いて正確に達成でき、ほぼランダム性支援符号を用いて達成できることを示す。 そこで,本稿では,チャネル符号化の相補的問題におけるメタ・コンバースに類似した役割を担い,この2つの境界間の密接な関係を見出す。 我々は、離散的なメモリレスチャネルのシミュレーションコストの限界を漸近的に拡大し、ノイズのあるチャネル符号化から知られているチャネル容量とチャネル分散を表現できる2次および適度な偏差率拡大へと導いた。 この技術は、離散的なメモリレス放送チャネルにも拡張できる。 難解な放送チャンネル容量問題とは対照的に,共通ランダム性・アシスタンス下での放送チャンネルシミュレーションの逆問題により,放送チャンネルの多成分相互情報の観点から,漸近レート領域の効率良く計算可能な一文字キャラクタリゼーションが可能となる。 最後に,レート領域を効率的に計算するためのblahut-arimoto型アルゴリズムを提案する。

We study channel simulation under common randomness-assistance in the finite-blocklength regime and identify the smooth channel max-information as a linear program one-shot converse on the minimal simulation cost for fixed error tolerance. We show that this one-shot converse can be achieved exactly using no-signaling assisted codes, and approximately achieved using common randomness-assisted codes. Our one-shot converse thus takes on an analogous role to the celebrated meta-converse in the complementary problem of channel coding, and find tight relations between these two bounds. We asymptotically expand our bounds on the simulation cost for discrete memoryless channels, leading to the second-order as well as the moderate deviation rate expansion, which can be expressed in terms of the channel capacity and channel dispersion known from noisy channel coding. Our techniques extend to discrete memoryless broadcast channels. In stark contrast to the elusive broadcast channel capacity problem, we show that the reverse problem of broadcast channel simulation under common randomness-assistance allows for an efficiently computable single-letter characterization of the asymptotic rate region in terms of the broadcast channel's multi-partite mutual information. Finally, we present a Blahut-Arimoto type algorithm to compute the rate region efficiently.
翻訳日:2023-06-09 20:01:02 公開日:2023-06-08
# CoRRPUS:ニューロシンボリックストーリー理解のためのコードベース構造化プロンプト

CoRRPUS: Code-based Structured Prompting for Neurosymbolic Story Understanding ( http://arxiv.org/abs/2212.10754v3 )

ライセンス: Link先を確認
Yijiang River Dong, Lara J. Martin, Chris Callison-Burch(参考訳) 物語の生成と理解は、すべてのNLG/NLUタスクと同様に、ニューロシンボリックな仕事が急増している。 研究者たちは、大きな言語モデル(LLM)には膨大な実用性があるが、ニューラルネットワークが持つ可能性のある欠陥を補うための象徴的な手段で拡張できることを認識している。 しかし、シンボリックな手法は、それらを作るのに必要な時間と専門知識の量に関して非常にコストがかかる。 本研究では,Codexのような最先端のCode-LLMを利用して,ストーリーの状態を追跡し,ストーリー理解を支援するシンボリックメソッドの利用をブートストラップする。 我々は,既存のストーリー理解タスク (bAbI Task 2 と Re^3) において,CoRRPUS システムと抽象的プロンプトプロシージャが,手作業の最小化によって,現在最先端の構造化 LLM 技術に勝ることを示す。 我々は,これらのモデルが推論タスクを適切に実行するためのガイダンスを必要とするため,記号表現の重要性と,LLMの特殊的促進を強調できることを期待している。

Story generation and understanding -- as with all NLG/NLU tasks -- has seen a surge in neurosymbolic work. Researchers have recognized that, while large language models (LLMs) have tremendous utility, they can be augmented with symbolic means to be even better and to make up for any flaws that the neural networks might have. However, symbolic methods are extremely costly in terms of the amount of time and expertise needed to create them. In this work, we capitalize on state-of-the-art Code-LLMs, such as Codex, to bootstrap the use of symbolic methods for tracking the state of stories and aiding in story understanding. We show that our CoRRPUS system and abstracted prompting procedures can beat current state-of-the-art structured LLM techniques on pre-existing story understanding tasks (bAbI Task 2 and Re^3) with minimal hand engineering. We hope that this work can help highlight the importance of symbolic representations and specialized prompting for LLMs as these models require some guidance for performing reasoning tasks properly.
翻訳日:2023-06-09 20:00:01 公開日:2023-06-08
# 言語モデルは日常のコヒーレントな精神モデルを持っているか?

Do language models have coherent mental models of everyday things? ( http://arxiv.org/abs/2212.10029v3 )

ライセンス: Link先を確認
Yuling Gu, Bhavana Dalvi Mishra, Peter Clark(参考訳) 卵のような日常的なものを考えるとき、彼らは通常、それに関連する精神的イメージを持っている。 これにより、例えば「黄身が貝殻を囲んでいる」という誤った主張を正しく判断することができる。 言語モデルも同様に、このような日常のコヒーレントなイメージを持っていますか? そこで本研究では,100の日常物,その部分,およびこれらの部分間の関係を11,720 "X Relation Y?" と表現したベンチマークデータセットを提案する。 GPT-3 や Macaw のような最先端の事前学習言語モデル (LM) は,これらの日常的な事柄に関する知識を断片的に持っているが,完全コヒーレントな "部分メンタルモデル" (54-59%,条件付き制約違反 19-43%) は存在しない。 我々は,共通性制約を適用するために,lmの生予測の上に制約満足度層を付加する拡張を提案する。 矛盾を取り除くだけでなく、これは精度(16~20%)を大幅に向上させ、lmの日常的なモノの写真の一貫性がいかに著しく低下するかを示唆する。

When people think of everyday things like an egg, they typically have a mental image associated with it. This allows them to correctly judge, for example, that "the yolk surrounds the shell" is a false statement. Do language models similarly have a coherent picture of such everyday things? To investigate this, we propose a benchmark dataset consisting of 100 everyday things, their parts, and the relationships between these parts, expressed as 11,720 "X relation Y?" true/false questions. Using these questions as probes, we observe that state-of-the-art pre-trained language models (LMs) like GPT-3 and Macaw have fragments of knowledge about these everyday things, but do not have fully coherent "parts mental models" (54-59% accurate, 19-43% conditional constraint violation). We propose an extension where we add a constraint satisfaction layer on top of the LM's raw predictions to apply commonsense constraints. As well as removing inconsistencies, we find that this also significantly improves accuracy (by 16-20%), suggesting how the incoherence of the LM's pictures of everyday things can be significantly reduced.
翻訳日:2023-06-09 19:59:42 公開日:2023-06-08
# 触覚に基づく物体挿入ポリシーのゼロショット転送

Zero-Shot Transfer of Haptics-Based Object Insertion Policies ( http://arxiv.org/abs/2301.12587v3 )

ライセンス: Link先を確認
Samarth Brahmbhatt, Ankur Deka, Andrew Spielberg, Matthias M\"uller(参考訳) 人間は自然に、食器洗い機を積んだり、本棚を積んだりといった、接触の多いタスク中に触覚フィードバックを利用する。 現在のロボットシステムは予期せぬ接触を避けることに注力しており、しばしば戦略的に配置された環境センサーに依存している。 近年,実際のロボット上での接触探索操作ポリシの訓練が進められている。 しかし、シム・トゥ・リアルギャップを橋渡しするには何らかの実世界適応が必要であり、全てのシナリオで実現不可能である。 本稿では,プレートをスロット式ホルダに積載するコンタクトリッチホームタスクのシミュレーションにおいて,実際のロボットに微調整を行なわずに伝達する接触探索操作ポリシーを訓練する。 我々は、時間遅延モデリング、メモリ表現、ドメインのランダム化など、このゼロショット転送に必要な様々な要因について検討する。 我々の方針は、最小限のsim-to-realギャップで伝達し、ヒューリスティックかつ学習ベースラインを著しく上回る。 大きさや重量の異なるプレートにも一般化される。 デモビデオとコードはhttps://sites.google.com/view/compliant-object-insertionで入手できる。

Humans naturally exploit haptic feedback during contact-rich tasks like loading a dishwasher or stocking a bookshelf. Current robotic systems focus on avoiding unexpected contact, often relying on strategically placed environment sensors. Recently, contact-exploiting manipulation policies have been trained in simulation and deployed on real robots. However, they require some form of real-world adaptation to bridge the sim-to-real gap, which might not be feasible in all scenarios. In this paper we train a contact-exploiting manipulation policy in simulation for the contact-rich household task of loading plates into a slotted holder, which transfers without any fine-tuning to the real robot. We investigate various factors necessary for this zero-shot transfer, like time delay modeling, memory representation, and domain randomization. Our policy transfers with minimal sim-to-real gap and significantly outperforms heuristic and learnt baselines. It also generalizes to plates of different sizes and weights. Demonstration videos and code are available at https://sites.google.com/view/compliant-object-insertion.
翻訳日:2023-06-09 19:51:28 公開日:2023-06-08
# グラフ学習のない因果帯域

Causal Bandits without Graph Learning ( http://arxiv.org/abs/2301.11401v2 )

ライセンス: Link先を確認
Mikhail Konobeev, Jalal Etesami, Negar Kiyavash(参考訳) 因果グラフが未知な場合の因果バンディット問題を調べ,原子間介入を用いて報奨ノードの親ノードを探索する効率的なアルゴリズムを開発した。 アルゴリズムが実施する介入回数の正確な式を導出し、あるグラフィカルな条件下では対数的に速く、あるいはより一般的な仮定の下では、変数数では遅いが、いまだサブ線形に実行可能であることを示す。 我々は、原子間干渉を行うアルゴリズムに対して確立した普遍的な下限を満たすように、我々のアルゴリズムが最適であることを示す。 最後に、報酬ノードが複数の親を持つ場合にアルゴリズムを拡張します。 このアルゴリズムとバンディット文学の標準的なアルゴリズムを併用すると、後悔の限界が改善される。

We study the causal bandit problem when the causal graph is unknown and develop an efficient algorithm for finding the parent node of the reward node using atomic interventions. We derive the exact equation for the expected number of interventions performed by the algorithm and show that under certain graphical conditions it could perform either logarithmically fast or, under more general assumptions, slower but still sublinearly in the number of variables. We formally show that our algorithm is optimal as it meets the universal lower bound we establish for any algorithm that performs atomic interventions. Finally, we extend our algorithm to the case when the reward node has multiple parents. Using this algorithm together with a standard algorithm from bandit literature leads to improved regret bounds.
翻訳日:2023-06-09 19:51:12 公開日:2023-06-08
# Overlap-ADAPT-VQE: Overlap-Guided Compact Ans\atzeによる量子コンピュータの実用量子化学

Overlap-ADAPT-VQE: Practical Quantum Chemistry on Quantum Computers via Overlap-Guided Compact Ans\"atze ( http://arxiv.org/abs/2301.10196v3 )

ライセンス: Link先を確認
C\'esar Feniou, Muhammad Hassan, Diata Traor\'e, Emmanuel Giner, Yvon Maday, Jean-Philip Piquemal(参考訳) ADAPT-VQEは、短期量子コンピュータ上の量子化学系のハイブリッド量子古典シミュレーションのための堅牢なアルゴリズムである。 その反復過程は基底状態エネルギーに体系的に到達するが、ADAPT-VQEは局所的なエネルギーミニマに敏感であり、過度にパラメータ化された ans\atze をもたらす。 我々はOverlap-ADAPT-VQEを導入し、電子相関を既に捉えている任意の中間目標波動関数との重なりを最大化し、波動関数を増大させる。 局所的ミニマに絡み合ったエネルギー環境におけるアンサッツの構築を避けることで、オーバーラップ適応vqeは、新しい適応手順の高精度初期化に適した超コンパクトなans\"atzeを生成する。 adapt-vqeに対する顕著な利点は、回路深度の大幅な節約を含む強相関系において観察される。 この圧縮戦略は、精度の高いSCI(Selected-Configuration Interaction)古典的標的波動関数で初期化することもできるため、より大規模なシステムの化学的に正確なシミュレーションの道を開き、量子コンピューティングの力によって古典的量子化学を決定的に超越するという約束を強化する。

ADAPT-VQE is a robust algorithm for hybrid quantum-classical simulations of quantum chemical systems on near-term quantum computers. While its iterative process systematically reaches the ground state energy, ADAPT-VQE is sensitive to local energy minima, leading to over-parameterized ans\"atze. We introduce the Overlap-ADAPT-VQE to grow wave-functions by maximizing their overlap with any intermediate target wave-function that already captures some electronic correlation. By avoiding building the ansatz in the energy landscape strewn with local minima, the Overlap-ADAPT-VQE produces ultra-compact ans\"atze suitable for high-accuracy initializations of a new ADAPT procedure. Spectacular advantages over ADAPT-VQE are observed for strongly correlated systems including massive savings in circuit depth. Since this compression strategy can also be initialized with accurate Selected-Configuration Interaction (SCI) classical target wave-functions, it paves the way for chemically accurate simulations of larger systems, and strengthens the promise of decisively surpassing classical quantum chemistry through the power of quantum computing.
翻訳日:2023-06-09 19:50:59 公開日:2023-06-08
# Deep Learningがスパース正規化を達成 - 信号処理の視点

Deep Learning Meets Sparse Regularization: A Signal Processing Perspective ( http://arxiv.org/abs/2301.09554v3 )

ライセンス: Link先を確認
Rahul Parhi and Robert D. Nowak(参考訳) ディープラーニングは実践的にかなり成功しており、最先端の機械学習手法のほとんどはニューラルネットワークに基づいている。 しかし、深層ニューラルネットワークの驚くべき性能を十分に説明できる厳密な数学的理論が欠如している。 本稿では,深層学習に対する深い理解の始まりを提供する,比較的新しい数学的枠組みを提案する。 このフレームワークは、データに適合するように訓練されたニューラルネットワークの機能特性を正確に特徴付ける。 このフレームワークをサポートする重要な数学的ツールは、変換領域スパース正規化、ctのラドン変換、および信号処理に深く根ざした近似理論である。 このフレームワークは、ニューラルネットワークトレーニングにおける重量減衰正則化の効果、ネットワークアーキテクチャにおけるスキップ接続と低ランク重量行列の使用、ニューラルネットワークにおける空間性の役割、そしてニューラルネットワークが高次元問題でうまく機能する理由を説明する。

Deep learning has been wildly successful in practice and most state-of-the-art machine learning methods are based on neural networks. Lacking, however, is a rigorous mathematical theory that adequately explains the amazing performance of deep neural networks. In this article, we present a relatively new mathematical framework that provides the beginning of a deeper understanding of deep learning. This framework precisely characterizes the functional properties of neural networks that are trained to fit to data. The key mathematical tools which support this framework include transform-domain sparse regularization, the Radon transform of computed tomography, and approximation theory, which are all techniques deeply rooted in signal processing. This framework explains the effect of weight decay regularization in neural network training, the use of skip connections and low-rank weight matrices in network architectures, the role of sparsity in neural networks, and explains why neural networks can perform well in high-dimensional problems.
翻訳日:2023-06-09 19:50:20 公開日:2023-06-08
# 物理インフォーメーションニューラルネットワークを用いたソフトセンサモデリングにおけるpdesの再現性予測

Solving PDEs with Unmeasurable Source Terms Using Coupled Physics-Informed Neural Network with Recurrent Prediction in Soft Sensor Modeling ( http://arxiv.org/abs/2301.08618v2 )

ライセンス: Link先を確認
Aina Wang, Pan Qin, Xi-Ming Sun(参考訳) 非均質偏微分方程式 (nonhomogeneous partial differential equation, pdes) は、時空間的産業システムを記述するためのソフトセンサーモデリングの応用モデルであり、既存の物理式ニューラルネットワーク (pinns) ではうまく解決できない。 この目的のために, 繰り返し予測(RP)学習戦略(CPINN-RP)と結合したPINN(CPINN)を, 振動変位などの時空間産業プロセスにおけるソフトセンサモデルとして提案する。 まず、NetUとNetGを含むCPINNを提案する。 NetUは研究中のPDEの解を近似するために使われ、NetGはNetUのトレーニングを規則化するために使用される。 2つのネットワークはデータフィジカルハイブリッド損失関数に統合される。 そして,提案したCPINNがPDEソリューションに満足な近似能力を持つことを理論的に証明する。 理論的側面の他に,CPINNのパラメータを実現するために2つのネットワークを最適化・結合する階層的学習手法を提案する。 次に、cpinnの繰り返し遅延出力であるrpによるnetu補償によりnetu-rpを実現し、ソフトセンサ性能をさらに向上させる。 最後に,CPINN-RPの有効性と実用性をシミュレーションおよび実験により検証した。

Nonhomogeneous partial differential equations (PDEs) are an applicable model in soft sensor modeling for describing spatiotemporal industrial systems with unmeasurable source terms, which cannot be well solved by existing physics-informed neural networks (PINNs). To this end, a coupled PINN (CPINN) with a recurrent prediction (RP) learning strategy (CPINN-RP) is proposed for soft sensor modeling in spatiotemporal industrial processes, such as vibration displacement. First, CPINN containing NetU and NetG is proposed. NetU is used to approximate the solutions to PDEs under study and NetG is used to regularize the training of NetU. The two networks are integrated into a data-physics-hybrid loss function. Then, we theoretically prove that the proposed CPINN has a satisfying approximation capacity to the PDEs solutions. Besides the theoretical aspects, we propose a hierarchical training strategy to optimize and couple the two networks to achieve the parameters of CPINN. Secondly, NetU-RP is achieved by NetU compensated by RP, the recurrently delayed output of CPINN, to further improve the soft sensor performance. Finally, simulations and experiment verify the effectiveness and practical applications of CPINN-RP.
翻訳日:2023-06-09 19:50:05 公開日:2023-06-08
# 量子貯水池計算におけるノイズの活用

Taking advantage of noise in quantum reservoir computing ( http://arxiv.org/abs/2301.06814v3 )

ライセンス: Link先を確認
L. Domingo and G. Carlo and F. Borondo(参考訳) 量子コンピューティングと量子機械学習が現在直面している最大の課題は、量子デバイスにおけるノイズの存在である。 その結果、引き起こされたエラーの修正や軽減に多大な努力が払われた。 しかし、この2つの分野はノイズの恩恵を受けるだろうか? 驚くべきことに、いくつかの状況下で量子ノイズは、著名な量子機械学習アルゴリズムである量子貯水池コンピューティングの性能を改善するために使用できる。 その結果,振幅減衰ノイズは機械学習に有用であり,位相減衰ノイズは補正のために優先すべきであることがわかった。 この決定的な結果は、量子デバイスの基礎となる物理メカニズムに新しい光を与え、今日のハードウェアで量子情報処理を成功させるための確かな実践的な処方薬を提供する。

The biggest challenge that quantum computing and quantum machine learning are currently facing is the presence of noise in quantum devices. As a result, big efforts have been put into correcting or mitigating the induced errors. But, can these two fields benefit from noise? Surprisingly, we demonstrate that under some circumstances, quantum noise can be used to improve the performance of quantum reservoir computing, a prominent and recent quantum machine learning algorithm. Our results show that the amplitude damping noise can be beneficial to machine learning, while the depolarizing and phase damping noises should be prioritized for correction. This critical result sheds new light into the physical mechanisms underlying quantum devices, providing solid practical prescriptions for a successful implementation of quantum information processing in nowadays hardware.
翻訳日:2023-06-09 19:49:41 公開日:2023-06-08
# 統一ストリーミングと非ストリーミングトランスデューサにおける文脈バイアスのための2段階文脈単語フィルタリング

Two Stage Contextual Word Filtering for Context bias in Unified Streaming and Non-streaming Transducer ( http://arxiv.org/abs/2301.06735v3 )

ライセンス: Link先を確認
Zhanheng Yang, Sining Sun, Xiong Wang, Yike Zhang, Long Ma, Lei Xie(参考訳) E2E ASRシステムでは、トレーニングデータに頻繁に現れるエンティティなどの単語を認識することは困難である。 この問題を軽減するために広く使われている方法は、音響モデルに文脈情報を供給することである。 従来の研究は、コンパクトで正確な文脈リストが性能を大幅に向上させることを示した。 本稿では,ストリーミングとストリーミングを併用したE2Eモデルの高品質なコンテキストリストを得るための効率的な手法を提案する。 具体的には、電話レベルのストリーミング出力を用いて、事前に定義された文脈単語リストをフィルタリングし、それを非カジュアルエンコーダとデコーダに融合して最終的な認識結果を生成する。 提案手法は,文脈的ASRシステムの精度を向上し,推論処理を高速化する。 2つのデータセットの実験では、ベースラインシステムと比較して20%以上のCER削減が示されている。 一方、文脈単語リストのサイズが6,000を超えると、システムのRTFは0.15未満で安定化できる。

It is difficult for an E2E ASR system to recognize words such as entities appearing infrequently in the training data. A widely used method to mitigate this issue is feeding contextual information into the acoustic model. Previous works have proven that a compact and accurate contextual list can boost the performance significantly. In this paper, we propose an efficient approach to obtain a high quality contextual list for a unified streaming/non-streaming based E2E model. Specifically, we make use of the phone-level streaming output to first filter the predefined contextual word list then fuse it into non-casual encoder and decoder to generate the final recognition results. Our approach improve the accuracy of the contextual ASR system and speed up the inference process. Experiments on two datasets demonstrates over 20% CER reduction comparing to the baseline system. Meanwhile, the RTF of our system can be stabilized within 0.15 when the size of the contextual word list grows over 6,000.
翻訳日:2023-06-09 19:49:30 公開日:2023-06-08
# 光格子内における極低温ボソニックガスのスピンテンソルマイスナー電流

Spin-tensor Meissner currents of ultracold bosonic gas in an optical lattice ( http://arxiv.org/abs/2301.05054v2 )

ライセンス: Link先を確認
Xiaofan Zhou, Suotang Jia, and Xi-Wang Luo(参考訳) 1次元光学格子中のスピン-テンソル-モーメント結合スピン-1原子により実現される3脚リボン形状において、スタッガー付き人工ゲージ場を受ける相互作用ボソンのマイスナー電流を調べる。 By calculating the current distributions using the state-of-the-art density-matrix renormalization-group method, we find a rich phase diagram containing interesting Meissner and vortex phases, where the currents are mirror symmetric with respect to the {\color{red}middle leg} (i.e., they flow in the same direction on the two boundary legs opposite to that on the middle leg), leading to the spin-tensor type Meissner currents, which is very different from previously observed chiral edge currents under uniform gauge field. 電流はマイスナー相の各脚に沿って一様であり、渦相で渦-反渦対を形成する。 さらに、このシステムは鏡対称性を自発的に破る偏極相をサポートし、基底状態は均一または渦対を形成する電流で縮退する。 また、これらの位相を探索するための実験的スキームについても論じる。 本研究は, 合成フラックスリボンの実験的研究に有用なガイダンスを提供するとともに, 新たな多体現象を探索する方法を舗装する。

We investigate the Meissner currents of interacting bosons subjected to a staggered artificial gauge field in a three-leg ribbon geometry, realized by spin-tensor--momentum coupled spin-1 atoms in a 1D optical lattice. By calculating the current distributions using the state-of-the-art density-matrix renormalization-group method, we find a rich phase diagram containing interesting Meissner and vortex phases, where the currents are mirror symmetric with respect to the {\color{red}middle leg} (i.e., they flow in the same direction on the two boundary legs opposite to that on the middle leg), leading to the spin-tensor type Meissner currents, which is very different from previously observed chiral edge currents under uniform gauge field. The currents are uniform along each leg in the Meissner phase and form vortex-antivortex pairs in the vortex phase. Besides, the system also support a polarized phase that spontaneously breaks the mirror symmetry, whose ground states are degenerate with currents either uniform or forming vortex-antivortex pairs. We also discuss the experimental schemes for probing these phases. Our work provides useful guidance to ongoing experimental research on synthetic flux ribbons and paves the way for exploring novel many-body phenomena therein.
翻訳日:2023-06-09 19:49:14 公開日:2023-06-08
# Think Twice:感情応答生成のための人間のような2段階会話エージェント

Think Twice: A Human-like Two-stage Conversational Agent for Emotional Response Generation ( http://arxiv.org/abs/2301.04907v2 )

ライセンス: Link先を確認
Yushan Qian, Bo Wang, Shangzhao Ma, Wu Bin, Shuo Zhang, Dongming Zhao, Kun Huang and Yuexian Hou(参考訳) ヒューマンライクな対話システムに向けて、現在の感情対話アプローチは、統合ニューラルネットワークを用いて感情と意味を協調的にモデル化する。 この戦略は感情と意味論の相互制約によって安全な応答を生じさせ、稀な感情に注釈付き大規模対話コーパスを必要とする。 人間の対話における「二度」行動に着想を得て,感情対話生成のための二段階対話エージェントを提案する。 第1に、感情注釈付き対話コーパスなしで訓練された対話モデルは、文脈意味に適合するプロトタイプ応答を生成する。 第二に、第一段階のプロトタイプは共感仮説で制御可能な感情精錬器によって修正される。 DailyDialog と EmpatheticDialogues データセットによる実験結果から,提案した会話は感情生成における比較モデルより優れ,自動的および人的評価における意味的性能が維持されることが示された。

Towards human-like dialogue systems, current emotional dialogue approaches jointly model emotion and semantics with a unified neural network. This strategy tends to generate safe responses due to the mutual restriction between emotion and semantics, and requires rare emotion-annotated large-scale dialogue corpus. Inspired by the "think twice" behavior in human dialogue, we propose a two-stage conversational agent for the generation of emotional dialogue. Firstly, a dialogue model trained without the emotion-annotated dialogue corpus generates a prototype response that meets the contextual semantics. Secondly, the first-stage prototype is modified by a controllable emotion refiner with the empathy hypothesis. Experimental results on the DailyDialog and EmpatheticDialogues datasets demonstrate that the proposed conversational outperforms the comparison models in emotion generation and maintains the semantic performance in automatic and human evaluations.
翻訳日:2023-06-09 19:48:54 公開日:2023-06-08
# プリンシパル主義が責任あるデータキュレーションを導く

Principlism Guided Responsible Data Curation ( http://arxiv.org/abs/2302.03629v2 )

ライセンス: Link先を確認
Jerone T. A. Andrews and Dora Zhao and William Thong and Apostolos Modas and Orestis Papakyriakopoulos and Alice Xiang(参考訳) human-centric computer vision (hccv) データキュレーションの実践は、しばしばプライバシーやバイアスの懸念を無視し、データセットの撤回と不公平なモデルにつながる。 さらに, HCCVデータセットは, 包括的公正性とロバスト性評価に必要なメタデータを欠いている。 現在の改善では、ホック後の問題、採用に対する説得力のある正当化の欠如、あるいは適切なアプリケーションに対する適切なコンテキスト化の提供に失敗している。 我々の研究は、hccvデータセットをキュレートし、プライバシとバイアスに対処するための、積極的なドメイン固有の推奨に焦点を当てている。 主観主義の倫理的枠組みに導かれる現在のプラクティスやガイドラインから,我々はアンテホックな視点を採用しています。

Human-centric computer vision (HCCV) data curation practices often neglect privacy and bias concerns, leading to dataset retractions and unfair models. Further, HCCV datasets constructed through nonconsensual web scraping lack the necessary metadata for comprehensive fairness and robustness evaluations. Current remedies address issues post hoc, lack persuasive justification for adoption, or fail to provide proper contextualization for appropriate application. Our research focuses on proactive, domain-specific recommendations for curating HCCV datasets, addressing privacy and bias. We adopt an ante hoc reflective perspective and draw from current practices and guidelines, guided by the ethical framework of principlism.
翻訳日:2023-06-09 19:42:18 公開日:2023-06-08
# 構成一般化のためのロバストサブタスク学習

Robust Subtask Learning for Compositional Generalization ( http://arxiv.org/abs/2302.02984v2 )

ライセンス: Link先を確認
Kishor Jothimurugan, Steve Hsu, Osbert Bastani and Rajeev Alur(参考訳) 構成強化学習は、複雑なロングホリゾンタスクを実行するためのトレーニングポリシーに有望なアプローチである。 通常、ハイレベルなタスクはサブタスクのシーケンスに分解され、個別のポリシーが各サブタスクを実行するために訓練される。 本稿では,任意のタスクの実行に使用できるように,サブタスクポリシをトレーニングする問題に焦点を当てる。 私たちは、平均的なケースパフォーマンスとは対照的に、すべてのタスクで最悪のパフォーマンスを最大化することを目指している。 敵がサブタスクの列を選択する2つのエージェントゼロサムゲームとして問題を定式化する。 本稿では,この問題を解決するための2つのRLアルゴリズムを提案する。1つは既存のマルチエージェントRLアルゴリズムを我々の設定に適応させ,もう1つはサブタスクポリシーの並列トレーニングを可能にする非同期バージョンである。 我々は,連続状態と動作を持つ2つのマルチタスク環境における我々のアプローチを評価し,アルゴリズムが最先端のベースラインを上回ることを実証する。

Compositional reinforcement learning is a promising approach for training policies to perform complex long-horizon tasks. Typically, a high-level task is decomposed into a sequence of subtasks and a separate policy is trained to perform each subtask. In this paper, we focus on the problem of training subtask policies in a way that they can be used to perform any task; here, a task is given by a sequence of subtasks. We aim to maximize the worst-case performance over all tasks as opposed to the average-case performance. We formulate the problem as a two agent zero-sum game in which the adversary picks the sequence of subtasks. We propose two RL algorithms to solve this game: one is an adaptation of existing multi-agent RL algorithms to our setting and the other is an asynchronous version which enables parallel training of subtask policies. We evaluate our approach on two multi-task environments with continuous states and actions and demonstrate that our algorithms outperform state-of-the-art baselines.
翻訳日:2023-06-09 19:42:04 公開日:2023-06-08
# 確率最適化のためのターゲットベースサーロゲート

Target-based Surrogates for Stochastic Optimization ( http://arxiv.org/abs/2302.02607v2 )

ライセンス: Link先を確認
Jonathan Wilder Lavington, Sharan Vaswani, Reza Babanezhad, Mark Schmidt, Nicolas Le Roux(参考訳) 我々は(確率的な)勾配を計算するのに費用がかかる関数の最小化を考える。 このような機能は強化学習、模倣学習、敵対的訓練で広く使われている。 対象最適化フレームワークは、(拡張的な)勾配計算を用いて、効率よく最小化できる \emph{target space} (例えば、線形モデルで出力されるロジット)のサロゲート関数を構築する。 これにより、モデルに複数のパラメータを更新でき、勾配計算のコストを償却できる。 フルバッチ環境では、サロゲートが損失のグローバルな上限であり、ブラックボックス最適化アルゴリズムを用いて(局所的に)最小化できることを示す。 結果として生じるメジャー化最小化アルゴリズムは、損失の定常点への収束を保証する。 次に、我々のフレームワークを確率的設定でインスタンス化し、ターゲット空間における確率的勾配勾配の投影と見なせる$SSO$アルゴリズムを提案する。 この接続により、凸関数の最小化時に$SSO$の理論的保証を証明できる。 本フレームワークは,任意の決定論的最適化手法によって最小化できるサロゲートを構成するための標準確率最適化アルゴリズムの利用を可能にする。 本フレームワークを評価するために,教師付き学習と模倣学習の一連の問題を考察する。 本実験は,目標最適化の利点と$SSO$の有効性を示す。

We consider minimizing functions for which it is expensive to compute the (possibly stochastic) gradient. Such functions are prevalent in reinforcement learning, imitation learning and adversarial training. Our target optimization framework uses the (expensive) gradient computation to construct surrogate functions in a \emph{target space} (e.g. the logits output by a linear model for classification) that can be minimized efficiently. This allows for multiple parameter updates to the model, amortizing the cost of gradient computation. In the full-batch setting, we prove that our surrogate is a global upper-bound on the loss, and can be (locally) minimized using a black-box optimization algorithm. We prove that the resulting majorization-minimization algorithm ensures convergence to a stationary point of the loss. Next, we instantiate our framework in the stochastic setting and propose the $SSO$ algorithm, which can be viewed as projected stochastic gradient descent in the target space. This connection enables us to prove theoretical guarantees for $SSO$ when minimizing convex functions. Our framework allows the use of standard stochastic optimization algorithms to construct surrogates which can be minimized by any deterministic optimization method. To evaluate our framework, we consider a suite of supervised learning and imitation learning problems. Our experiments indicate the benefits of target optimization and the effectiveness of $SSO$.
翻訳日:2023-06-09 19:41:49 公開日:2023-06-08
# lipschitz banditsアプローチによる連続ハイパーパラメータ最適化

A Lipschitz Bandits Approach for Continuous Hyperparameter Optimization ( http://arxiv.org/abs/2302.01539v3 )

ライセンス: Link先を確認
Yasong Feng, Weijian Luo, Yimin Huang, Tianyu Wang(参考訳) 機械学習における最も重要な問題の1つはハイパーパラメータ最適化(HPO)である。 多くのHPOアルゴリズムがあるが、理論的な保証がないか、強い仮定を必要とする。 この目的のために、目的関数のリプシッツ連続性のみを仮定するHPOのリプシッツ帯域ベースアルゴリズムであるBLiEを導入する。 BLiEは目的関数の風景を利用してハイパーパラメータ空間を適応的に探索する。 理論的には、$は (i)$ blieは$\mathcal{o} \left( \epsilon^{-(d_z + \beta)}\right)$合計予算を持つ$\epsilon$-optimalハイパーパラメータを見つける。 (ii)$ BLiE は非常に並列化可能である。 経験的に、BLiEはベンチマークタスクにおける最先端HPOアルゴリズムよりも優れていることを示す。 また,拡散モデルのノイズスケジュールの探索にBLiEを適用した。 デフォルトのスケジュールと比較すると、BLiEスケジュールはサンプリング速度を大幅に改善する。

One of the most critical problems in machine learning is HyperParameter Optimization (HPO), since choice of hyperparameters has a significant impact on final model performance. Although there are many HPO algorithms, they either have no theoretical guarantees or require strong assumptions. To this end, we introduce BLiE -- a Lipschitz-bandit-based algorithm for HPO that only assumes Lipschitz continuity of the objective function. BLiE exploits the landscape of the objective function to adaptively search over the hyperparameter space. Theoretically, we show that $(i)$ BLiE finds an $\epsilon$-optimal hyperparameter with $\mathcal{O} \left( \epsilon^{-(d_z + \beta)}\right)$ total budgets, where $d_z$ and $\beta$ are problem intrinsic; $(ii)$ BLiE is highly parallelizable. Empirically, we demonstrate that BLiE outperforms the state-of-the-art HPO algorithms on benchmark tasks. We also apply BLiE to search for noise schedule of diffusion models. Comparison with the default schedule shows that BLiE schedule greatly improves the sampling speed.
翻訳日:2023-06-09 19:41:29 公開日:2023-06-08
# moir\'e磁性ヘテロ構造における層状2次元skyrmion格子の設計

Designing layered 2D skyrmion lattices in moir\'e magnetic hetero-structures ( http://arxiv.org/abs/2302.01074v2 )

ライセンス: Link先を確認
Bilal Jabakhanji and Doried Ghader(参考訳) スカイミオンは次世代のスピントロニクスとマグノンデバイスに期待できるが、そのゼロフィールド安定性とキラル相互作用による制御核化は依然として困難である。 本論では, 2次元磁石の積層依存磁性から秩序なスカイミオン格子を生成するため, モワール型磁性ヘテロ構造の可能性について検討する。 cri_3基板上に極薄crbr_3膜をねじり、中程度の界面dzyaloshinskii-moriya相互作用を仮定したヘテロ構造を考える。 大きなmoir\'e周期性と適切な基板厚では、CrBr_3とCrI_3との交換相互作用が弱いため、界面CrBr_3層にモワール'eスカイミリオン格子が出現する。 この格子は、創発性キラル層間場を介してCrBr_3薄膜の残りの層に投影される。 超薄CrBr_3膜内でのプリスタン積層構造の変化により、永久磁場を必要としない層状強磁性および反強磁性スカイミオン格子を実現する。 以上の結果から,モワール系磁性ヘテロ構造における色とりどりのスカイミオン格子の形成の可能性が示唆された。

Skyrmions are promising for the next generation of spintronic and magnonic devices, but their zero-field stability and controlled nucleation through chiral interactions remain challenging. In this theoretical study, we explore the potential of moir\'e magnetic heterostructures to generate ordered skyrmion lattices from the stacking-dependent magnetism in 2D magnets. We consider heterostructures formed by twisting ultrathin CrBr_3 films on top of CrI_3 substrates, assuming a moderate interfacial Dzyaloshinskii-Moriya interaction. At large moir\'e periodicity and appropriate substrate thickness, a moir\'e skyrmion lattice emerges in the interfacial CrBr_3 layer due to the weaker exchange interactions in CrBr_3 compared to CrI_3. This lattice is then projected to the remaining layers of the CrBr_3 film via emergent chiral interlayer fields. By varying the pristine stacking configurations within the ultrathin CrBr_3 film, we realize layered ferromagnetic and antiferromagnetic skyrmion lattices without the need for a permanent magnetic field. Our findings suggest the possibility of creating colorful skyrmion lattices in moir\'e magnetic heterostructures, enabling further exploration of their fundamental properties and technological relevance.
翻訳日:2023-06-09 19:40:50 公開日:2023-06-08
# ロバストなオンラインアクティブラーニング

Robust online active learning ( http://arxiv.org/abs/2302.00422v4 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 多くの産業アプリケーションでは、人間の専門家の介入や高価なテスト機器の使用を必要とするため、ラベル付き観測を得ることは容易ではない。 このような状況下では、モデルに合わせる際に最も有用なデータポイントを提案する上で、アクティブな学習は極めて有益である。 モデル開発に必要な観測回数を減らすことで、トレーニングに必要な計算負担とラベリングに関連する運用コストが軽減される。 特にオンラインアクティブラーニングは、データポイントに対するラベルの取得に関する決定が極めて短い時間枠内で行われなければならない、大量生産プロセスにおいて有用である。 しかし,近年のオンラインアクティブラーニング戦略の展開にも拘わらず,アウトレーヤの存在下でのこれらの手法の行動は十分に検討されていない。 本研究では,汚染データストリームにおけるオンラインアクティブ線形回帰の性能について検討する。 我々の研究は、現在利用可能なクエリ戦略が外れやすいことを示し、トレーニングセットに含めると、最終的にモデルの予測性能が低下することを示している。 この問題に対処するため,条件付きD-最適アルゴリズムの探索領域を限定し,ロバストな推定器を用いた解を提案する。 我々の手法は、入力空間の見えない領域を探索することと、外れ値から保護することのバランスをとる。 数値シミュレーションにより,提案手法は,アウトレーヤの存在下でのオンライン能動学習の性能向上に有効であることを示す。

In many industrial applications, obtaining labeled observations is not straightforward as it often requires the intervention of human experts or the use of expensive testing equipment. In these circumstances, active learning can be highly beneficial in suggesting the most informative data points to be used when fitting a model. Reducing the number of observations needed for model development alleviates both the computational burden required for training and the operational expenses related to labeling. Online active learning, in particular, is useful in high-volume production processes where the decision about the acquisition of the label for a data point needs to be taken within an extremely short time frame. However, despite the recent efforts to develop online active learning strategies, the behavior of these methods in the presence of outliers has not been thoroughly examined. In this work, we investigate the performance of online active linear regression in contaminated data streams. Our study shows that the currently available query strategies are prone to sample outliers, whose inclusion in the training set eventually degrades the predictive performance of the models. To address this issue, we propose a solution that bounds the search area of a conditional D-optimal algorithm and uses a robust estimator. Our approach strikes a balance between exploring unseen regions of the input space and protecting against outliers. Through numerical simulations, we show that the proposed method is effective in improving the performance of online active learning in the presence of outliers, thus expanding the potential applications of this powerful tool.
翻訳日:2023-06-09 19:40:28 公開日:2023-06-08
# グラフに基づく時系列異常検出:調査

Graph-based Time-Series Anomaly Detection: A Survey ( http://arxiv.org/abs/2302.00058v2 )

ライセンス: Link先を確認
Thi Kieu Khanh Ho, Ali Karami, Narges Armanfard(参考訳) 近年の技術の進歩により、広範囲のシステムが時間とともに大量のデータを収集し続け、時系列を生成するようになった。 時系列異常検出(TSAD)は、eコマース、サイバーセキュリティ、車両メンテナンス、医療監視など、さまざまな時系列アプリケーションにおいて重要なタスクである。 しかし、変数を時系列データの観察として定義できる変数内依存性と変数間依存関係の両方を考慮する必要があるため、このタスクは非常に難しい。 最近のグラフベースのアプローチは、この分野の課題に取り組む上で素晴らしい進歩を遂げています。 本稿では,グラフベースのTSAD(G-TSAD)の総合的かつ最新のレビューを行う。 まず,時系列データに対するグラフ表現学習の可能性を検討する。 次に,時系列の文脈における最先端グラフ異常検出手法について検討し,その強度と欠点について考察する。 最後に,本研究分野における技術的課題と今後の展望について考察する。

With the recent advances in technology, a wide range of systems continue to collect a large amount of data over time and thus generate time series. Time-Series Anomaly Detection (TSAD) is an important task in various time-series applications such as e-commerce, cybersecurity, vehicle maintenance, and healthcare monitoring. However, this task is very challenging as it requires considering both the intra-variable dependency and the inter-variable dependency, where a variable can be defined as an observation in time series data. Recent graph-based approaches have made impressive progress in tackling the challenges of this field. In this survey, we conduct a comprehensive and up-to-date review of Graph-based TSAD (G-TSAD). First, we explore the significant potential of graph representation learning for time-series data. Then, we review state-of-the-art graph anomaly detection techniques in the context of time series and discuss their strengths and drawbacks. Finally, we discuss the technical challenges and potential future directions for possible improvements in this research field.
翻訳日:2023-06-09 19:40:03 公開日:2023-06-08
# 再帰的最適化された等価性を持つマルコフ決定過程の後悔境界

Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents ( http://arxiv.org/abs/2301.12601v2 )

ライセンス: Link先を確認
Wenhao Xu, Xuefeng Gao, Xuedong He(参考訳) 最適化された確実性等価(OCE)は、エントロピーリスク、条件付き値-リスク、平均分散モデルなどの重要な例をカバーするリスク尺度のファミリーである。 本稿では,再帰的OCEを用いた表在的マルコフ決定過程に基づく,新しいエピソード型リスク感応型強化学習法を提案する。 本研究では,値反復と高信頼境界に基づく効率的な学習アルゴリズムを設計する。 提案アルゴリズムの残差に基づいて上界を導出するとともに,ミニマックス下界を確立する。 我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。

The optimized certainty equivalent (OCE) is a family of risk measures that cover important examples such as entropic risk, conditional value-at-risk and mean-variance models. In this paper, we propose a new episodic risk-sensitive reinforcement learning formulation based on tabular Markov decision processes with recursive OCEs. We design an efficient learning algorithm for this problem based on value iteration and upper confidence bound. We derive an upper bound on the regret of the proposed algorithm, and also establish a minimax lower bound. Our bounds show that the regret rate achieved by our proposed algorithm has optimal dependence on the number of episodes and the number of actions.
翻訳日:2023-06-09 19:39:48 公開日:2023-06-08
# CrystalBox:DRLネットワークコントローラの将来的な説明

CrystalBox: Future-Based Explanations for DRL Network Controllers ( http://arxiv.org/abs/2302.13483v2 )

ライセンス: Link先を確認
Sagar Patel, Sangeetha Abdu Jyothi, Nina Narodytska(参考訳) 説明可能性の欠如は、高性能なDeep Reinforcement Learning(DRL)コントローラの実践的採用を制限する重要な要因である。 ネットワークヒッシャートのための説明可能なRLは、コントローラの動作を解釈するために適切な入力機能を使用した。 しかし、これらの機能ベースのソリューションは、コントローラの意思決定プロセスを完全には説明しない。 多くの場合、オペレーターは将来、機能ベースのソリューションでは捉えられないパフォーマンスに対するコントローラのアクションの影響を理解することに興味を持っている。 本稿では,主要なネットワーク性能指標に対する将来的な影響の観点から,コントローラの動作を説明するフレームワークであるCrystalBoxを提案する。 crystalboxは簡潔で表現力のある説明を生成するために、新しい学習ベースのアプローチを採用している。 オペレータにとって重要なパフォーマンス指標であるdrlネットワークコントローラの報酬コンポーネントを説明の基礎として使用しています。 CrystalBoxは一般化可能で、コントローラやDRLワークフローを変更することなく、個別および連続的な制御環境の両方で動作する。 適応ビットレートストリーミングと混雑制御を用いて,CrytalBoxの高忠実度未来ベース説明生成能力を示す。 さらに,クリスタルボックスの実用的ユースケースとして,クロスステート説明性,誘導報酬設計,ネットワーク可観測性について紹介する。

Lack of explainability is a key factor limiting the practical adoption of high-performant Deep Reinforcement Learning (DRL) controllers. Explainable RL for networking hitherto used salient input features to interpret a controller's behavior. However, these feature-based solutions do not completely explain the controller's decision-making process. Often, operators are interested in understanding the impact of a controller's actions on performance in the future, which feature-based solutions cannot capture. In this paper, we present CrystalBox, a framework that explains a controller's behavior in terms of the future impact on key network performance metrics. CrystalBox employs a novel learning-based approach to generate succinct and expressive explanations. We use reward components of the DRL network controller, which are key performance metrics meaningful to operators, as the basis for explanations. CrystalBox is generalizable and can work across both discrete and continuous control environments without any changes to the controller or the DRL workflow. Using adaptive bitrate streaming and congestion control, we demonstrate CrytalBox's ability to generate high-fidelity future-based explanations. We additionally present three practical use cases of CrystalBox: cross-state explainability, guided reward design, and network observability.
翻訳日:2023-06-09 19:31:57 公開日:2023-06-08
# 自己回帰隠れマルコフモデルの非線形ダイナミクスと単位四元数観測空間への一般化

Generalization of Auto-Regressive Hidden Markov Models to Non-Linear Dynamics and Unit Quaternion Observation Space ( http://arxiv.org/abs/2302.11834v2 )

ライセンス: Link先を確認
Michele Ginesi and Paolo Fiorini(参考訳) 潜在変数モデルは、ロボット工学、音声認識、経済学など、異なる文脈で時系列の教師なしセグメンテーションを行うために広く使われている。 最も広く使われている潜在変数モデルの1つは自己回帰型隠れマルコフモデル(arhmm)であり、マルコフ連鎖ダイナミクスによって制御される潜在モードと観測状態の線形自己回帰ダイナミクスを組み合わせたものである。 本稿では,ARHMMの2つの一般化を提案する。 まず,非線形基底関数の線形結合として記述した,直交空間におけるより一般的なarダイナミクスを提案する。 次に,向きを適切に記述するために,単位四元数空間における線形ダイナミクスを提案する。 これらの拡張により、観測状態のより複雑なダイナミクスを記述することができる。 この拡張はARHMM向けに提案されているが、オート回帰隠れ半マルコフモデルのような観測空間におけるARダイナミックスを持つ他の潜在変数モデルに容易に拡張できる。

Latent variable models are widely used to perform unsupervised segmentation of time series in different context such as robotics, speech recognition, and economics. One of the most widely used latent variable model is the Auto-Regressive Hidden Markov Model (ARHMM), which combines a latent mode governed by a Markov chain dynamics with a linear Auto-Regressive dynamics of the observed state. In this work, we propose two generalizations of the ARHMM. First, we propose a more general AR dynamics in Cartesian space, described as a linear combination of non-linear basis functions. Second, we propose a linear dynamics in unit quaternion space, in order to properly describe orientations. These extensions allow to describe more complex dynamics of the observed state. Although this extension is proposed for the ARHMM, it can be easily extended to other latent variable models with AR dynamics in the observed space, such as Auto-Regressive Hidden semi-Markov Models.
翻訳日:2023-06-09 19:31:39 公開日:2023-06-08
# 中性子ロイド干渉計のグリーン関数解析

Green's function analysis of the Neutron Lloyd interferometer ( http://arxiv.org/abs/2302.11429v2 )

ライセンス: Link先を確認
Christian K\"ading, Mario Pitschmann, Hartmut Abele(参考訳) 中性子光学ロイド干渉計は、粒子や宇宙論の標準モデルを超えて基礎物理学を探究するための強力な実験として機能する。 本稿では,ロイド干渉計の反射鏡がスクリーンに伸びる限界における全グリーン関数解析について述べる。 まず,外部場が存在しないという理論的ケースについて考察する。 その後、重力場が中性子に作用している場合を分析する。 後者の場合、ロイド干渉計を重力場のプローブとして使うのに必要な理論を提供する。

The neutron optical Lloyd interferometer can serve as a potent experiment for probing fundamental physics beyond the standard models of particles and cosmology. In this article, we provide a full Green's function analysis of a Lloyd interferometer in the limit that the reflecting mirror extends to the screen. We consider two distinct situations: first, we will review the theoretical case of no external fields being present. Subsequently, we will analyze the case in which a gravitational field is acting on the neutrons. The latter case provides the theory necessary for using a Lloyd interferometer as a probe of gravitational fields.
翻訳日:2023-06-09 19:31:23 公開日:2023-06-08
# 不均衡解析のためのバランス付き視聴覚データセット

Balanced Audiovisual Dataset for Imbalance Analysis ( http://arxiv.org/abs/2302.10912v2 )

ライセンス: Link先を確認
Wenke Xia, Xu Zhao, Xincheng Pang, Changqing Zhang, Di Hu(参考訳) 不均衡問題は機械学習の分野でも広く発生しており、サンプルのモダリティ間の内在的不一致に起因するマルチモーダル学習領域にも存在している。 近年,アルゴリズムの観点からのモダリティ不均衡問題を解こうとしているが,データセットにおけるモダリティバイアスの影響を完全には解析していない。 具体的には、既存のマルチモーダルデータセットは通常、特定のタスクの下で収集される。 本研究は,モーダリティバイアスの影響を包括的に調査するため,サンプルワイド・モーダリティの差を推定することにより,既存のデータセットを異なるサブセットに分割する。 既存の不均衡アルゴリズムを持つマルチモーダルモデルは、モダリティバイアスに従って、特定の部分集合上のユニモーダルモデルよりも一貫して性能が劣る。 モダリティバイアスの影響をさらに探究し、既存の不均衡アルゴリズムの有効性を分析するために、データセット全体にわたって均一に分散されたモダリティ不一致を持つ、バランスのとれた視聴覚データセットを構築する。 既存のアルゴリズムは、モダリティ間の妥協を提供し、サンプルの大きなモダリティの相違に苦しむのみである。 これらの発見が、モダリティの不均衡問題の将来の研究を促進することを願っている。

The imbalance problem is widespread in the field of machine learning, which also exists in multimodal learning areas caused by the intrinsic discrepancy between modalities of samples. Recent works have attempted to solve the modality imbalance problem from algorithm perspective, however, they do not fully analyze the influence of modality bias in datasets. Concretely, existing multimodal datasets are usually collected under specific tasks, where one modality tends to perform better than other ones in most conditions. In this work, to comprehensively explore the influence of modality bias, we first split existing datasets into different subsets by estimating sample-wise modality discrepancy. We surprisingly find that: the multimodal models with existing imbalance algorithms consistently perform worse than the unimodal one on specific subsets, in accordance with the modality bias. To further explore the influence of modality bias and analyze the effectiveness of existing imbalance algorithms, we build a balanced audiovisual dataset, with uniformly distributed modality discrepancy over the whole dataset. We then conduct extensive experiments to re-evaluate existing imbalance algorithms and draw some interesting findings: existing algorithms only provide a compromise between modalities and suffer from the large modality discrepancy of samples. We hope that these findings could facilitate future research on the modality imbalance problem.
翻訳日:2023-06-09 19:31:14 公開日:2023-06-08
# 光磁気力学による原子アンサンブルによる強磁性マグノンの絡み込み

Entangling ferrimagnetic magnons with an atomic ensemble via opto-magnomechanics ( http://arxiv.org/abs/2302.08684v2 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Hang Qian, Xuan Zuo, Jie Li(参考訳) 強磁性YIG結晶における原子アンサンブルと多数のマグノンとのマクロな絡み合わせの仕方を示す。 具体的には、磁歪誘起マグノメカニカル変位が放射圧を介して光学キャビティに結合し、さらに、キャビティ内に配置された2レベル原子のアンサンブルに結合する光磁気力学構成を採用する。 キャビティとマグノンモードを適切に駆動することにより、原子系とマグノン系にさらに分散した光学的絡み合いが生成され、原子とマグノン間の定常絡み合いが生じることを示す。 原子・マグノンの絡み合いは、光学的および磁気力学的冷却と光力学的パラメトリック・ダウンコンバージョン相互作用の複合効果の結果である。 2つの機械的冷却チャネル間の競合機構を明らかにする。 さらに, 3つの巨大サブシステム,すなわち原子,マグノン,フォノンの真の三成分の絡み合いも同じ系で達成できることを示した。 以上の結果から, ハイブリッド光磁気力学系は, マグノン, 光子, フォノン, 原子を含むマクロ量子状態の生成に有望なシステムとなる可能性が示唆された。

We show how to prepare macroscopic entanglement between an atomic ensemble and a large number of magnons in a ferrimagnetic YIG crystal. Specifically, we adopt an opto-magnomechanical configuration where the magnetostriction-induced magnomechanical displacement couples to an optical cavity via radiation pressure, and the latter further couples to an ensemble of two-level atoms that are placed inside the cavity. We show that by properly driving the cavity and magnon modes, optomechanical entanglement is created which is further distributed to the atomic and magnonic systems, yielding stationary entanglement between atoms and magnons. The atom-magnon entanglement is a result of the combined effect of opto- and magnomechanical cooling and optomechanical parametric down-conversion interactions. A competition mechanism between two mechanical cooling channels is revealed. We further show that genuine tripartite entanglement of three massive subsystems, i.e., atoms, magnons and phonons, can also be achieved in the same system. Our results indicate that the hybrid opto-magnomechanical system may become a promising system for preparing macroscopic quantum states involving magnons, photons, phonons and atoms.
翻訳日:2023-06-09 19:30:51 公開日:2023-06-08
# YOWOv2: リアルタイム時空間行動検出のためのより強力で効率的なマルチレベル検出フレームワーク

YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection ( http://arxiv.org/abs/2302.06848v2 )

ライセンス: Link先を確認
Jianhua Yang and Kun Dai(参考訳) 時空間行動検出タスクのためのリアルタイムフレームワークの設計は依然として課題である。 本稿では,新しいリアルタイム行動検出フレームワークであるyowov2を提案する。 この新しいフレームワークでは、YOWOv2は3Dバックボーンと2Dバックボーンの両方を利用して正確なアクション検出を行う。 マルチレベル検出パイプラインは、異なるスケールのアクションインスタンスを検出するように設計されている。 この目的を達成するために、我々は特徴ピラミッドネットワークを用いたシンプルで効率的な2Dバックボーンを慎重に構築し、異なるレベルの分類特徴と回帰特徴を抽出する。 3Dバックボーンには、開発時間を節約するために既存の効率的な3D CNNを採用しています。 異なるサイズの3Dバックボーンと2Dバックボーンを組み合わせることで、YOWOv2-Tiny、YOWOv2-Medium、YOWOv2-Largeを含むYOWOv2ファミリーを設計する。 また、YOWOv2を高度なモデルアーキテクチャ設計と整合させるため、人気のある動的ラベル割り当て戦略とアンカーフリー機構を導入する。 改良により、YOWOv2はYOWOよりも大幅に優れ、リアルタイム検出を継続できる。 ベルとホイッスルがなければ、YOWOv2 は UCF101-24 で 87.0 % のフレーム mAP と 52.8 % のビデオ mAP を達成する。 AVAでは、YOWOv2は21.7%のフレームmAPを獲得し、20FPSを超える。 私たちのコードはhttps://github.com/yjh0410/YOWOv2で利用可能です。

Designing a real-time framework for the spatio-temporal action detection task is still a challenge. In this paper, we propose a novel real-time action detection framework, YOWOv2. In this new framework, YOWOv2 takes advantage of both the 3D backbone and 2D backbone for accurate action detection. A multi-level detection pipeline is designed to detect action instances of different scales. To achieve this goal, we carefully build a simple and efficient 2D backbone with a feature pyramid network to extract different levels of classification features and regression features. For the 3D backbone, we adopt the existing efficient 3D CNN to save development time. By combining 3D backbones and 2D backbones of different sizes, we design a YOWOv2 family including YOWOv2-Tiny, YOWOv2-Medium, and YOWOv2-Large. We also introduce the popular dynamic label assignment strategy and anchor-free mechanism to make the YOWOv2 consistent with the advanced model architecture design. With our improvement, YOWOv2 is significantly superior to YOWO, and can still keep real-time detection. Without any bells and whistles, YOWOv2 achieves 87.0 % frame mAP and 52.8 % video mAP with over 20 FPS on the UCF101-24. On the AVA, YOWOv2 achieves 21.7 % frame mAP with over 20 FPS. Our code is available on https://github.com/yjh0410/YOWOv2.
翻訳日:2023-06-09 19:30:18 公開日:2023-06-08
# q-diffusion:拡散モデルの定量化

Q-Diffusion: Quantizing Diffusion Models ( http://arxiv.org/abs/2302.04304v3 )

ライセンス: Link先を確認
Xiuyu Li, Yijiang Liu, Long Lian, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer(参考訳) 拡散モデルは深層ニューラルネットワークを用いた反復雑音推定により画像合成において大きな成功を収めた。 しかし、ノイズ推定モデルの低速推論、高メモリ消費、計算強度は拡散モデルの効率的な適用を妨げている。 ポストトレーニング量子化(PTQ)は他のタスクに対するゴーツー圧縮法と考えられているが、拡散モデルではうまく機能しない。 本稿では,ノイズ推定ネットワークを圧縮して生成過程を高速化する拡散モデルの一意なマルチタイムステップパイプラインとモデルアーキテクチャを指向した,新しいptq法を提案する。 拡散モデル量子化の重要な難しさを,複数の時間ステップにわたるノイズ推定ネットワークの出力分布の変化と,ノイズ推定ネットワーク内の近道層のバイモーダル活性化分布と同定する。 本研究では,これらの課題をタイムステップ対応キャリブレーションとショートカット量子化の分割によって解決する。 実験結果から,提案手法は実精度の非条件拡散モデルを4ビットに定量化できるが,従来のPTQでは100>100と同等の性能(FIDの変化は2.34以上)をトレーニング不要に維持できることがわかった。 提案手法はテキスト誘導画像生成にも応用可能であり,4ビット重みの安定拡散を初めて高画質で実行することが可能である。

Diffusion models have achieved great success in image synthesis through iterative noise estimation using deep neural networks. However, the slow inference, high memory consumption, and computation intensity of the noise estimation model hinder the efficient adoption of diffusion models. Although post-training quantization (PTQ) is considered a go-to compression method for other tasks, it does not work out-of-the-box on diffusion models. We propose a novel PTQ method specifically tailored towards the unique multi-timestep pipeline and model architecture of the diffusion models, which compresses the noise estimation network to accelerate the generation process. We identify the key difficulty of diffusion model quantization as the changing output distributions of noise estimation networks over multiple time steps and the bimodal activation distribution of the shortcut layers within the noise estimation network. We tackle these challenges with timestep-aware calibration and split shortcut quantization in this work. Experimental results show that our proposed method is able to quantize full-precision unconditional diffusion models into 4-bit while maintaining comparable performance (small FID change of at most 2.34 compared to >100 for traditional PTQ) in a training-free manner. Our approach can also be applied to text-guided image generation, where we can run stable diffusion in 4-bit weights with high generation quality for the first time.
翻訳日:2023-06-09 19:29:31 公開日:2023-06-08
# 地域風がCNNに基づく風速予測に与える影響:時空間相関解析からの考察

How Regional Wind Characteristics Affect CNN-based wind predictions: Insights from Spatiotemporal Correlation Analysis ( http://arxiv.org/abs/2304.01545v3 )

ライセンス: Link先を確認
Heesoo Shin, Mario R\"uttgers, Sangseung Lee(参考訳) 本稿では,風速予測ニューラルネットワークの性能に及ぼす時空間風速データの導入の影響について検討する。 従来の研究では、空間データを含むとそれらのモデルの精度が向上することが示されたが、入力風の異なる空間的・時間的スケールがニューラルネットワークモデルの学習性に与える影響について限定的な研究がなされている。 本研究では,様々な時空間風速データを用いて,畳み込みニューラルネットワーク(CNN)を適用・訓練する。 本研究では, 周辺地域の時空間相関データと過去の時間ステップを用いてCNNを訓練することが, モデルの予測性能に好影響を与えることを示す。 本研究は,cnnモデルの予測性能に及ぼす時空間風特性の影響を明らかにするために,自己相関とピアソン相関分析を含む相関解析を提案する。 CNNモデルの時空間相関と性能について,韓国,米国,英国の3つの地域で検討した。 その結果, 自己相関係数 (ACC) の偏差が小さい地域の方が, 地域風特性や季節風特性の学習に好適であることが判明した。 具体的には、韓国、米国、英国の各地域はそれぞれ0.0100、0.043、0.023の最大標準偏差を示す。 CNNの風速予測性能は、イギリス、アメリカ、韓国といった地域の逆順に従っている。 このことは、地域風と季節風の条件が予測モデルの性能に与える影響を強調している。

This paper investigates the influence of incorporating spatiotemporal wind data on the performance of wind forecasting neural networks. While previous studies have shown that including spatial data enhances the accuracy of such models, limited research has explored the impact of different spatial and temporal scales of input wind data on the learnability of neural network models. In this study, convolutional neural networks (CNNs) are employed and trained using various scales of spatiotemporal wind data. The research demonstrates that using spatiotemporally correlated data from the surrounding area and past time steps for training a CNN favorably affects the predictive performance of the model. The study proposes correlation analyses, including autocorrelation and Pearson correlation analyses, to unveil the influence of spatiotemporal wind characteristics on the predictive performance of different CNN models. The spatiotemporal correlations and performances of CNN models are investigated in three regions: Korea, the USA, and the UK. The findings reveal that regions with smaller deviations of autocorrelation coefficients (ACC) are more favorable for CNNs to learn the regional and seasonal wind characteristics. Specifically, the regions of Korea, the USA, and the UK exhibit maximum standard deviations of ACCs of 0.100, 0.043, and 0.023, respectively. The CNNs wind prediction performances follow the reverse order of the regions: UK, USA, and Korea. This highlights the significant impact of regional and seasonal wind conditions on the performance of the prediction models.
翻訳日:2023-06-09 19:23:44 公開日:2023-06-08
# グラフニューラルネットワークの事前トレーニングはいつか? データ生成の観点から!

When to Pre-Train Graph Neural Networks? From Data Generation Perspective! ( http://arxiv.org/abs/2303.16458v4 )

ライセンス: Link先を確認
Yuxuan Cao, Jiarong Xu, Carl Yang, Jiaan Wang, Yunchao Zhang, Chunping Wang, Lei Chen, Yang Yang(参考訳) 近年,ラベルのないグラフデータから転送可能な知識を取得し,ダウンストリームのパフォーマンスを向上させることを中心に,グラフ事前学習が注目されている。 このような最近の取り組みにもかかわらず、グラフ事前学習されたモデルをダウンストリームタスクに利用する場合、負の転送の問題が大きな関心事となっている。 これまでの研究では、さまざまなグラフ事前トレーニングと微調整戦略を設計することで、事前トレーニングの方法と事前トレーニングの方法という課題に多大な努力を払った。 しかし、最も先進的な"事前訓練と微調整"のパラダイムでさえ、明確な利益を得られないケースもある。 本稿では,事前トレーニングや微調整を行う前に,事前トレーニングをいつ行うか(つまり,どのような状況でグラフ事前トレーニングを活用できるか)という重要な質問に答える汎用フレームワークw2pgnnを紹介する。 まず,新しい視点から,事前学習データから下流データへの複雑な生成メカニズムを探索する。 特に、w2pgnnは、まず事前トレーニングされたデータをgraphonベースに適合させ、graphon基底(すなわちgraphon)の各要素は、事前トレーニングされたグラフの集合によって共有される基本的な転送可能なパターンを識別する。 グラフェン塩基のすべての凸結合は生成空間を生じさせ、そこから生成されたグラフは、事前学習の恩恵を受ける下流データのための解空間を形成する。 これにより、発電機空間内の任意の発電機からの下流データの生成確率として事前学習の実現可能性を定量化することができる。 W2PGNNは、グラフ事前トレーニングモデルの適用範囲の提供、事前トレーニングの実現可能性の定量化、下流のパフォーマンスを高めるために事前トレーニングデータを選択する支援の3つの幅広いアプリケーションを提供している。 最初の応用に対する理論的に健全な解と後者の2つの応用に対する広範な経験的正当化を提供する。

In recent years, graph pre-training has gained significant attention, focusing on acquiring transferable knowledge from unlabeled graph data to improve downstream performance. Despite these recent endeavors, the problem of negative transfer remains a major concern when utilizing graph pre-trained models to downstream tasks. Previous studies made great efforts on the issue of what to pre-train and how to pre-train by designing a variety of graph pre-training and fine-tuning strategies. However, there are cases where even the most advanced "pre-train and fine-tune" paradigms fail to yield distinct benefits. This paper introduces a generic framework W2PGNN to answer the crucial question of when to pre-train (i.e., in what situations could we take advantage of graph pre-training) before performing effortful pre-training or fine-tuning. We start from a new perspective to explore the complex generative mechanisms from the pre-training data to downstream data. In particular, W2PGNN first fits the pre-training data into graphon bases, each element of graphon basis (i.e., a graphon) identifies a fundamental transferable pattern shared by a collection of pre-training graphs. All convex combinations of graphon bases give rise to a generator space, from which graphs generated form the solution space for those downstream data that can benefit from pre-training. In this manner, the feasibility of pre-training can be quantified as the generation probability of the downstream data from any generator in the generator space. W2PGNN offers three broad applications: providing the application scope of graph pre-trained models, quantifying the feasibility of pre-training, and assistance in selecting pre-training data to enhance downstream performance. We provide a theoretically sound solution for the first application and extensive empirical justifications for the latter two applications.
翻訳日:2023-06-09 19:23:22 公開日:2023-06-08
# BiCro:双方向クロスモーダル類似性を用いたマルチモーダルデータのノイズ対応整流

BiCro: Noisy Correspondence Rectification for Multi-modality Data via Bi-directional Cross-modal Similarity Consistency ( http://arxiv.org/abs/2303.12419v2 )

ライセンス: Link先を確認
Shuo Yang, Zhaopan Xu, Kai Wang, Yang You, Hongxun Yao, Tongliang Liu, Min Xu(参考訳) マルチモーダル学習における最も基本的な手法の1つとして、クロスモーダルマッチングは、様々な感覚モーダルを共有特徴空間に投影することを目的としている。 これを実現するために、モデルトレーニングには大規模で正しく整合したデータペアが必要である。 しかし、ユニモーダルデータセットとは異なり、マルチモーダルデータセットの収集と注釈付けは非常に困難である。 代替として、インターネットから収集された共起データペア(画像とテキストのペアなど)がこの地域で広く活用されている。 残念ながら、安価に収集されたデータセットには、モデルのパフォーマンスに有害であることが証明された多くのミスマッチしたデータペアが必然的に含まれている。 そこで本研究では,既存のクロスモーダルマッチングモデルと容易に統合できるbicro(bidirectional cross-modal similarity consistency)という汎用フレームワークを提案する。 特にbicroは、ノイズの多いデータペアのソフトラベルを推定し、真の対応度を反映することを目指している。 bicroの基本的な考え方は -- イメージテキストマッチングを例にとれば -- 類似したイメージは、同様のテキスト記述を持つべきであり、その逆も然るべきである。 そして、これら2つの類似性の整合性を推定ソフトラベルとして再キャストし、マッチングモデルをトレーニングする。 3つのポピュラーなクロスモーダルマッチングデータセットを用いた実験により,提案手法が様々なマッチングモデルのノイズロバスト性を大幅に改善し,最先端技術を上回ることを示した。

As one of the most fundamental techniques in multimodal learning, cross-modal matching aims to project various sensory modalities into a shared feature space. To achieve this, massive and correctly aligned data pairs are required for model training. However, unlike unimodal datasets, multimodal datasets are extremely harder to collect and annotate precisely. As an alternative, the co-occurred data pairs (e.g., image-text pairs) collected from the Internet have been widely exploited in the area. Unfortunately, the cheaply collected dataset unavoidably contains many mismatched data pairs, which have been proven to be harmful to the model's performance. To address this, we propose a general framework called BiCro (Bidirectional Cross-modal similarity consistency), which can be easily integrated into existing cross-modal matching models and improve their robustness against noisy data. Specifically, BiCro aims to estimate soft labels for noisy data pairs to reflect their true correspondence degree. The basic idea of BiCro is motivated by that -- taking image-text matching as an example -- similar images should have similar textual descriptions and vice versa. Then the consistency of these two similarities can be recast as the estimated soft labels to train the matching model. The experiments on three popular cross-modal matching datasets demonstrate that our method significantly improves the noise-robustness of various matching models, and surpass the state-of-the-art by a clear margin.
翻訳日:2023-06-09 19:22:52 公開日:2023-06-08
# 深層学習を支援するコモンセンス知識と細粒度物体検出への応用

Commonsense Knowledge Assisted Deep Learning with Application to Size-Related Fine-Grained Object Detection ( http://arxiv.org/abs/2303.09026v5 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,エッジコンピューティングなどの限られた計算資源を有するシナリオにおけるきめ細かい物体検出について述べる。 特に、ひとつの画像が同一のカテゴリのオブジェクトを含むが、サイズが異なるシナリオに焦点を当て、物理的なオブジェクトのクラスを認識できるだけでなく、そのサイズも検出できるアルゴリズムを欲しがる。 ディープラーニング(DL)、特にディープニューラルネットワーク(DNN)の使用は、オブジェクト検出の主要なアプローチとなっている。 しかし, 高精度検出には大量のDNNモデルと大量のアノテートデータが必要であるため, 特に資源制約のあるシナリオでは, この問題の解決が困難である。 そこで本研究では,コモンセンスの知識を生かして粗粒物体検出装置の高精度な粒度検出を実現する手法を提案する。 具体的には、ベンチマーク粗粒度dl検出器が生成する粗粒度ラベルを処理し、粒度関連微粒度ラベルを生成するcommonsense knowledge inference module(ckim)を提案する。 我々のCKIMはクリップルールとファジィルールに基づく推論手法の両方を探索し、後者はターゲットサイズ関連ラベルのあいまいさを扱うために使用される。 我々はmobilenet-ssdとyolov7-tinyを含む2つの現代のdl検出器に基づいて本手法を実装した。 実験の結果,アノテートされたデータ量が少なく,モデルサイズも小さく,正確な細粒度検出が可能となった。 私たちのコードはhttps://github.com/ZJLAB-AMMI/CKIMで公開されています。

This paper addresses fine-grained object detection in scenarios with limited computing resources, such as edge computing. In particular, we focus on a scenario where a single image contains objects of the same category but varying sizes, and we desire an algorithm that can not only recognize the physical class of objects but also detect their size. Deep learning (DL), particularly through the use of deep neural networks (DNNs), has become the primary approach to object detection. However, obtaining accurate fine-grained detection requires a large DNN model and a significant amount of annotated data, presenting a challenge to solve our problem particularly for resource-constrained scenarios. To this end, we propose an approach that utilizes commonsense knowledge to assist a coarse-grained object detector in achieving accurate size-related fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) that processes the coarse-grained labels produced by a benchmark coarse-grained DL detector to generate size-related fine-grained labels. Our CKIM explores both crisp-rule and fuzzy-rule based inference methods, with the latter being employed to handle ambiguity in the target size-related labels. We implement our method based on two modern DL detectors, including Mobilenet-SSD, and YOLOv7-tiny. Experimental results demonstrate that our approach achieves accurate fine-grained detections with a reduced amount of annotated data, and smaller model size. Our code is available at https://github.com/ZJLAB-AMMI/CKIM.
翻訳日:2023-06-09 19:22:20 公開日:2023-06-08
# DP-Fast MH:大規模ベイズ推定のためのプライベート,高速,高精度メトロポリスハスティング

DP-Fast MH: Private, Fast, and Accurate Metropolis-Hastings for Large-Scale Bayesian Inference ( http://arxiv.org/abs/2303.06171v2 )

ライセンス: Link先を確認
Wanrong Zhang, Ruqi Zhang(参考訳) ベイズ推論は、複雑なデータから学習し、不確実性の下で推論するための原則付きフレームワークを提供する。 医学的診断、薬物設計、政策立案といった機械学習のタスクに広く応用されている。 これらの一般的なアプリケーションでは、データは極めて敏感である。 differential privacy (dp)は、強力な最悪ケースのプライバシー保証を備えたデータ分析ツールを提供し、プライバシ保存データ解析における主要なアプローチとして開発されている。 本稿では,最も基本的なMCMC手法の一つであるMetropolis-Hastings(MH)について,差分プライバシー下での大規模ベイズ推定について検討する。 既存のプライベートmcmcアルゴリズムの多くは、プライバシを得るために精度と効率を犠牲にしているが、ほとんどのイテレーションでデータのミニバッチのみを使用して、初めて正確かつ高速なdp mhアルゴリズムを提供する。 さらに,プライバシ,スケーラビリティ(バッチサイズ),効率性(収束率)の3方向トレードオフを初めて明らかにし,ベイズ推論におけるプライバシが実用性や計算コストに与える影響を理論的に特徴付ける。 我々は,様々な実験において,アルゴリズムの有効性と効率を実証する。

Bayesian inference provides a principled framework for learning from complex data and reasoning under uncertainty. It has been widely applied in machine learning tasks such as medical diagnosis, drug design, and policymaking. In these common applications, data can be highly sensitive. Differential privacy (DP) offers data analysis tools with powerful worst-case privacy guarantees and has been developed as the leading approach in privacy-preserving data analysis. In this paper, we study Metropolis-Hastings (MH), one of the most fundamental MCMC methods, for large-scale Bayesian inference under differential privacy. While most existing private MCMC algorithms sacrifice accuracy and efficiency to obtain privacy, we provide the first exact and fast DP MH algorithm, using only a minibatch of data in most iterations. We further reveal, for the first time, a three-way trade-off among privacy, scalability (i.e. the batch size), and efficiency (i.e. the convergence rate), theoretically characterizing how privacy affects the utility and computational cost in Bayesian inference. We empirically demonstrate the effectiveness and efficiency of our algorithm in various experiments.
翻訳日:2023-06-09 19:21:21 公開日:2023-06-08
# モノリシックバルクpKTP空洞における低雑音量子周波数変換

Low-noise quantum frequency conversion in a monolithic bulk ppKTP cavity ( http://arxiv.org/abs/2304.13459v2 )

ライセンス: Link先を確認
Felix Mann, Helen M. Chrzanowski, Felipe Gewers, Marlon Placke, Sven Ramelow(参考訳) 将来の大規模量子ネットワークの異なるビルディングブロックのインターフェイスは、効率良くノイズのない量子光の周波数変換を必要とする。 ダイヤモンド中の窒素空孔(NV)中心は、そのようなネットワークのノードを形成する主要な候補である。 しかし, 既往の実証実験は, 目標通信波長で発生する寄生雑音によって著しく制限されているため, 適切なコンバータの性能は依然としてボトルネックである。 本稿では,モノリシックなバルクppktpキャビティに基づく高効率な低ノイズ量子周波数変換のための新しいプラットフォームを示し,ダイヤモンド中のnv中心から通信波長への637nm単一光子変換に適していることを示す。 オフザシェルフポンプレーザーの出力を共鳴的に高めることにより、アクティブ安定化を必要とせず、ターゲット波長で(110\pm 4) \mbox{ kHz/nm}$のみを発生させながら、内部変換効率が$(72.3\pm 0.4)\%となる。 これは、この波長での既存の最先端のシングルステップ変換器に対する5倍のノイズ改善である。 自発的なパラメトリックダウン変換源から光子を変換することで非古典的相関のほぼ理想的保存を検証し、さらにフランソン干渉法による時間エネルギーの絡み合いの保存を示す。

Interfacing the different building blocks of a future large scale quantum network will demand efficient and noiseless frequency conversion of quantum light. Nitrogen-vacancy (NV) centers in diamond are a leading candidate to form the nodes of such a network. However, the performance of a suitable converter remains a bottleneck, with existing demonstrations severely limited by parasitic noise arising at the target telecom wavelength. Here, we demonstrate a new platform for efficient low-noise quantum frequency conversion based on a monolithic bulk ppKTP cavity and show its suitability for the conversion of 637 nm single photons from NV centers in diamond to telecommunication wavelengths. By resonantly enhancing the power of an off-the-shelf pump laser, we achieve an internal conversion efficiency of $(72.3\pm 0.4)\%$ while generating only $(110\pm 4) \mbox{ kHz/nm}$ noise at the target wavelength without the need for any active stabilization. This constitutes a 5-fold improvement in noise over existing state-of-the-art single-step converters at this wavelengths. We verify the almost ideal preservation of non-classical correlations by converting photons from a spontaneous parametric down-conversion source and moreover show the preservation of time-energy entanglement via Franson interferometry.
翻訳日:2023-06-09 19:13:18 公開日:2023-06-08
# 学習軌跡は一般化指標である

Learning Trajectories are Generalization Indicators ( http://arxiv.org/abs/2304.12579v3 )

ライセンス: Link先を確認
Jingwen Fu, Zhizheng Zhang, Dacheng Yin, Yan Lu, Nanning Zheng(参考訳) 本稿では,Deep Neural Networks (DNN) の学習軌跡と,(確率的な)勾配勾配アルゴリズムを用いて最適化した場合の一般化能力との関係について検討する。 本稿では,dnnポストトレーニングの一般化誤差のみに注目するのではなく,一般化誤差の変化に対する各更新ステップの寄与を調べることにより,一般化誤差を分析する新しい視点を提案する。 この観点は、学習軌跡が一般化誤差にどのように影響するかをより直接的な理解を可能にする。 この分析に基づいて,より広範な軌道情報を含む新たな一般化境界を提案する。 提案する一般化は,学習軌跡の複雑さと,学習集合のバイアスと多様性の比率に依存する。 実験の結果,本手法はトレーニング過程を通して一般化誤差を効果的に捉えていることがわかった。 さらに,本手法は,学習率やラベルノイズレベルに対する調整を行う際の一般化誤差の変化も追跡できる。 これらの結果は,学習軌跡情報がモデルの一般化能力を示す貴重な指標であることを示している。

This paper explores the connection between learning trajectories of Deep Neural Networks (DNNs) and their generalization capabilities when optimized using (stochastic) gradient descent algorithms. Instead of concentrating solely on the generalization error of the DNN post-training, we present a novel perspective for analyzing generalization error by investigating the contribution of each update step to the change in generalization error. This perspective allows for a more direct comprehension of how the learning trajectory influences generalization error. Building upon this analysis, we propose a new generalization bound that incorporates more extensive trajectory information. Our proposed generalization bound depends on the complexity of learning trajectory and the ratio between the bias and diversity of training set. Experimental findings reveal that our method effectively captures the generalization error throughout the training process. Furthermore, our approach can also track changes in generalization error when adjustments are made to learning rates and label noise levels. These results demonstrate that learning trajectory information is a valuable indicator of a model's generalization capabilities.
翻訳日:2023-06-09 19:12:27 公開日:2023-06-08
# SkinGPT-4:視覚大言語モデルを用いた対話型皮膚科診断システム

SkinGPT-4: An Interactive Dermatology Diagnostic System with Visual Large Language Model ( http://arxiv.org/abs/2304.10691v2 )

ライセンス: Link先を確認
Juexiao Zhou, Xiaonan He, Liyuan Sun, Jiannan Xu, Xiuying Chen, Yuetan Chu, Longxi Zhou, Xingyu Liao, Bin Zhang, Xin Gao(参考訳) 皮膚と皮下疾患は、非致死性疾患の世界的な負担に対する主要な貢献者の中で高く、人口のかなりの部分に影響を及ぼす。 それにもかかわらず、皮膚科診断の分野は3つの大きなハードルに直面している。 第一に、特に農村部では患者を診断できる皮膚科医が不足している。 第二に、皮膚疾患の画像の正確な解釈は大きな課題となる。 最後に、患者フレンドリーな診断レポートの作成は、通常、皮膚科医にとって時間がかかり、労働集約的な作業である。 これらの課題に対処するため,先進的な視覚大言語モデルを用いた世界初の対話型皮膚科診断システムであるSkinGPT-4を提案する。 SkinGPT-4は、皮膚疾患の画像(52,929枚が公開され、プロプライエタリな画像を含む)と臨床概念、医師のノートに基づいて訓練されたMiniGPT-4の微調整版を利用している。 皮膚疾患の画像に自然言語で医学的特徴を表現し,皮膚疾患の種類を正確に診断するための2段階のトレーニングプロセスを設計した。 SkinGPT-4では、ユーザーは独自の皮膚写真をアップロードして診断し、システムは画像の評価を自律的に行い、皮膚の状態の特徴とカテゴリを特定し、詳細な分析を行い、インタラクティブな治療勧告を提供する。 一方、SkinGPT-4の局所展開能力とユーザーのプライバシーへのコミットメントは、皮膚障害の信頼性と正確な診断を求める患者にとって魅力的な選択である。 皮膚gpt-4のロバスト性を示すため,認定皮膚科医が独自に検討した150例の実際の患者を定量的に評価し,皮膚疾患の診断にskingpt-4が有効であることを示した。

Skin and subcutaneous diseases rank high among the leading contributors to the global burden of nonfatal diseases, impacting a considerable portion of the population. Nonetheless, the field of dermatology diagnosis faces three significant hurdles. Firstly, there is a shortage of dermatologists accessible to diagnose patients, particularly in rural regions. Secondly, accurately interpreting skin disease images poses a considerable challenge. Lastly, generating patient-friendly diagnostic reports is usually a time-consuming and labor-intensive task for dermatologists. To tackle these challenges, we present SkinGPT-4, which is the world's first interactive dermatology diagnostic system powered by an advanced visual large language model. SkinGPT-4 leverages a fine-tuned version of MiniGPT-4, trained on an extensive collection of skin disease images (comprising 52,929 publicly available and proprietary images) along with clinical concepts and doctors' notes. We designed a two-step training process to allow SkinGPT to express medical features in skin disease images with natural language and make accurate diagnoses of the types of skin diseases. With SkinGPT-4, users could upload their own skin photos for diagnosis, and the system could autonomously evaluate the images, identifies the characteristics and categories of the skin conditions, performs in-depth analysis, and provides interactive treatment recommendations. Meanwhile, SkinGPT-4's local deployment capability and commitment to user privacy also render it an appealing choice for patients in search of a dependable and precise diagnosis of their skin ailments. To demonstrate the robustness of SkinGPT-4, we conducted quantitative evaluations on 150 real-life cases, which were independently reviewed by certified dermatologists, and showed that SkinGPT-4 could provide accurate diagnoses of skin diseases.
翻訳日:2023-06-09 19:12:12 公開日:2023-06-08
# Metropolized Hamiltonian Monte Carloは、Metropolis-adjusted Langevinアルゴリズムよりも確実に優れていますか?

When does Metropolized Hamiltonian Monte Carlo provably outperform Metropolis-adjusted Langevin algorithm? ( http://arxiv.org/abs/2304.04724v2 )

ライセンス: Link先を確認
Yuansi Chen and Khashayar Gatmiry(参考訳) 本研究では,ハミルトニアン・モンテカルロ(hmc)とleapfrog積分器の混合時間を,ログ密度が滑らかな$\mathbb{r}^d$ 上の分布から解析し,フロベニウスノルムにリプシッツ・ヘッシアンをもち,等長度法を満たす。 グラデーションの複雑さを$\epsilon$ に限定し,$\tilde o(d^{1/4}\text{polylog}(1/\epsilon))$ というウォームスタートからの全変動距離で$\epsilon$ に限定し,leapfrog ステップ数を 1 よりも大きく選択するメリットを実証した。 Wu et al. (2022) における$\tilde{O}(d^{1/2}\text{polylog}(1/\epsilon))$ dimension dependency を持つメトロポリス調整ランゲヴィンアルゴリズム (MALA) の以前の解析を上回り、連続 HMC 力学の離散化における位置と速度変数の結合分布がほぼ不変であることを示す。 この鍵となる特徴は、跳躍ステップ数に対する誘導によって示される場合、メトロポリ化HMCの受容率制御に現れる様々な量のモーメントを推定することができることである。 さらに、文献におけるHMC分布重なり制御の別のボトルネックに対処するため、2つの異なる点で初期化されたHMCダイナミクスを介してガウス分布のプッシュフォワード間のクルバック・リーブラー分散を上界化するための新しいアプローチを提案する。 特に,本解析では辺縁の対数凹凸性や独立性は必要とせず,等長不等式にのみ依存する。 結果の適用性を説明するために,本フレームワークに該当する自然関数のいくつかの例について論じる。

We analyze the mixing time of Metropolized Hamiltonian Monte Carlo (HMC) with the leapfrog integrator to sample from a distribution on $\mathbb{R}^d$ whose log-density is smooth, has Lipschitz Hessian in Frobenius norm and satisfies isoperimetry. We bound the gradient complexity to reach $\epsilon$ error in total variation distance from a warm start by $\tilde O(d^{1/4}\text{polylog}(1/\epsilon))$ and demonstrate the benefit of choosing the number of leapfrog steps to be larger than 1. To surpass previous analysis on Metropolis-adjusted Langevin algorithm (MALA) that has $\tilde{O}(d^{1/2}\text{polylog}(1/\epsilon))$ dimension dependency in Wu et al. (2022), we reveal a key feature in our proof that the joint distribution of the location and velocity variables of the discretization of the continuous HMC dynamics stays approximately invariant. This key feature, when shown via induction over the number of leapfrog steps, enables us to obtain estimates on moments of various quantities that appear in the acceptance rate control of Metropolized HMC. Moreover, to deal with another bottleneck on the HMC proposal distribution overlap control in the literature, we provide a new approach to upper bound the Kullback-Leibler divergence between push-forwards of the Gaussian distribution through HMC dynamics initialized at two different points. Notably, our analysis does not require log-concavity or independence of the marginals, and only relies on an isoperimetric inequality. To illustrate the applicability of our result, several examples of natural functions that fall into our framework are discussed.
翻訳日:2023-06-09 19:10:53 公開日:2023-06-08
# Smoothness と Isoperimetry の下でのメトロポリス調整ランゲヴィンアルゴリズムの混合の簡単な証明

A Simple Proof of the Mixing of Metropolis-Adjusted Langevin Algorithm under Smoothness and Isoperimetry ( http://arxiv.org/abs/2304.04095v2 )

ライセンス: Link先を確認
Yuansi Chen and Khashayar Gatmiry(参考訳) 目標密度を$\mathbb{R}^d$でサンプリングするためのメトロポリス調整ランゲヴィンアルゴリズム(MALA)の混合時間について検討した。 対象密度が $\psi_\mu$-isoperimetry を満たすと仮定し、Hessian の作用素ノルムとトレースはそれぞれ $L$ と $\Upsilon$ で有界であると仮定する。 我々の主な結果は、温かいスタートから目標密度まで$\epsilon$-totalの変動距離を達成するために、malaは$o\left(\frac{(l\upsilon)^{\frac12}}{\psi_\mu^2} \log\left(\frac{1}{\epsilon}\right)\right)$の反復で混合する。 特に、この結果はlog-concaveサンプリング設定以上のものであり、混合時間は上限の$l d$ではなく$\upsilon$にのみ依存する。 m$-strongly logconcave と $L$-log-smooth sample set では、MALA~\cite{wu2021minimax} の以前のミニマックス混合境界を回復する。

We study the mixing time of Metropolis-Adjusted Langevin algorithm (MALA) for sampling a target density on $\mathbb{R}^d$. We assume that the target density satisfies $\psi_\mu$-isoperimetry and that the operator norm and trace of its Hessian are bounded by $L$ and $\Upsilon$ respectively. Our main result establishes that, from a warm start, to achieve $\epsilon$-total variation distance to the target density, MALA mixes in $O\left(\frac{(L\Upsilon)^{\frac12}}{\psi_\mu^2} \log\left(\frac{1}{\epsilon}\right)\right)$ iterations. Notably, this result holds beyond the log-concave sampling setting and the mixing time depends on only $\Upsilon$ rather than its upper bound $L d$. In the $m$-strongly logconcave and $L$-log-smooth sampling setting, our bound recovers the previous minimax mixing bound of MALA~\cite{wu2021minimax}.
翻訳日:2023-06-09 19:10:10 公開日:2023-06-08
# Rewardsは意味を正当化するのか? マチャイアヴェリベンチマークにおける報酬と倫理的行動のトレードオフの測定

Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark ( http://arxiv.org/abs/2304.03279v3 )

ライセンス: Link先を確認
Alexander Pan, Jun Shern Chan, Andy Zou, Nathaniel Li, Steven Basart, Thomas Woodside, Jonathan Ng, Hanlin Zhang, Scott Emmons, Dan Hendrycks(参考訳) 人工エージェントは伝統的に報酬を最大化するために訓練されており、これは言語モデル(lms)における次の予測が毒性をインセンティブ化するのと同様に、パワーシーキングとデセプションにインセンティブを与える可能性がある。 エージェントは自然にMachiavellianになることを学ぶのか? gpt-4のような汎用モデルではどのように振舞いを測定するのか? これらの質問に答えるために,社会意思決定を中心とした50万以上のリッチで多様なシナリオを含む134のChoose-Your-Own-AdventureゲームのベンチマークであるMaCHIAVELLIを紹介した。 シナリオラベリングは、人間のアノテーションよりも高性能なLMで自動化される。 我々は、数十の有害な行為を分類し、私たちのアノテーションを使用して、エージェントのパワー探索傾向を評価し、不使用を引き起こし、倫理的違反を犯す。 報酬の最大化と倫理的行動の緊張関係を観察する。 このトレードオフを改善するため, 有害な行為を抑えるため, LMを用いたエージェントの操舵法について検討した。 以上の結果から,エージェントは有能かつ道徳的に行動できるため,安全と能力の両立が容易な機械倫理設計エージェントにおいて,現在具体的進展が期待できることがわかった。

Artificial agents have traditionally been trained to maximize reward, which may incentivize power-seeking and deception, analogous to how next-token prediction in language models (LMs) may incentivize toxicity. So do agents naturally learn to be Machiavellian? And how do we measure these behaviors in general-purpose models such as GPT-4? Towards answering these questions, we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making. Scenario labeling is automated with LMs, which are more performant than human annotators. We mathematize dozens of harmful behaviors and use our annotations to evaluate agents' tendencies to be power-seeking, cause disutility, and commit ethical violations. We observe some tension between maximizing reward and behaving ethically. To improve this trade-off, we investigate LM-based methods to steer agents' towards less harmful behaviors. Our results show that agents can both act competently and morally, so concrete progress can currently be made in machine ethics--designing agents that are Pareto improvements in both safety and capabilities.
翻訳日:2023-06-09 19:09:41 公開日:2023-06-08
# 日本語テキスト分類課題におけるプロンプトテンプレートに対する大言語モデルの感度とロバスト性

Sensitivity and Robustness of Large Language Models to Prompt Template in Japanese Text Classification Tasks ( http://arxiv.org/abs/2305.08714v2 )

ライセンス: Link先を確認
Chengguang Gan and Tatsunori Mori(参考訳) プロンプト工学関連研究は近年顕著な増加を見せており、主に事前訓練された言語モデルと大規模言語モデルの進歩によって進められている。 しかし、この領域では、これらのモデルのプロンプトテンプレートに対する感度と頑健性の欠如、特に日本語のようなより研究の少ない言語において重要な問題が指摘されている。 本稿では,複数の代表言語モデル (LLM) と広く利用されている事前学習モデル (PLM) の総合的な評価を通じて,この問題を考察する。 これらのモデルは,現在の多言語モデルの性能評価と解析を目的とした,日本語のベンチマークデータセットを用いて精査される。 実験結果から, 急激な相違が明らかとなった。 簡単なPromptテンプレートの文構造の変更により、GPT-4の精度は49.21から25.44に大幅に低下した。 この観察は、高性能なGPT-4モデルでさえ、多種多様な日本語のプロンプトテンプレートを扱う際に重大な安定性に直面するという事実を強調し、モデルの出力の一貫性を疑問視する。 これらの知見を踏まえて,本研究では,大規模言語モデルの開発と性能をさらに向上させるために,潜在的研究軌道を提案する。

Prompt engineering relevance research has seen a notable surge in recent years, primarily driven by advancements in pre-trained language models and large language models. However, a critical issue has been identified within this domain: the inadequate of sensitivity and robustness of these models towards Prompt Templates, particularly in lesser-studied languages such as Japanese. This paper explores this issue through a comprehensive evaluation of several representative Large Language Models (LLMs) and a widely-utilized pre-trained model(PLM). These models are scrutinized using a benchmark dataset in Japanese, with the aim to assess and analyze the performance of the current multilingual models in this context. Our experimental results reveal startling discrepancies. A simple modification in the sentence structure of the Prompt Template led to a drastic drop in the accuracy of GPT-4 from 49.21 to 25.44. This observation underscores the fact that even the highly performance GPT-4 model encounters significant stability issues when dealing with diverse Japanese prompt templates, rendering the consistency of the model's output results questionable. In light of these findings, we conclude by proposing potential research trajectories to further enhance the development and performance of Large Language Models in their current stage.
翻訳日:2023-06-09 19:04:28 公開日:2023-06-08
# 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて

On the Hidden Mystery of OCR in Large Multimodal Models ( http://arxiv.org/abs/2305.07895v3 )

ライセンス: Link先を確認
Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Cheng-lin Liu, Lianwen Jin, Xiang Bai(参考訳) 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。 テキスト関連視覚タスクにおける有効性については,いまだ検討されていない。 本研究では,テキスト認識(文書テキスト,芸術テキスト,手書きテキスト,シーンテキスト),テキストベースの視覚的質問応答(文書テキスト,シーンテキスト,バイリンガルテキスト),キー情報抽出(受信情報,文書,栄養情報),手書きの数学的表現認識において,既存のマルチモーダルモデルの総合的研究を行った。 これらのモデルの強みと弱みは、主に単語認識の意味的理解に依存し、個々の文字形状に対する劣った知覚を示す。 また、テキスト長に対する差分を表示し、画像のきめ細かい特徴を検出する能力に制限がある。 その結果,現在最も強力な大規模マルチモーダルモデルでさえ,従来のテキストタスクではドメイン固有メソッドと一致せず,より複雑なタスクでは大きな課題に直面していることがわかった。 最も重要な点は,ゼロショットマルチモーダル技術の向上を目的とした革新的戦略の構想と評価のための基礎的枠組みを,本研究で提示した基礎的結果が提供できることである。 評価パイプラインはhttps://github.com/yuliang-liu/multimodalocrで利用可能である。

Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. It remains less explored about their efficacy in text-related visual tasks. We conducted a comprehensive study of existing publicly available multimodal models, evaluating their performance in text recognition (document text, artistic text, handwritten text, scene text), text-based visual question answering (document text, scene text, and bilingual text), key information extraction (receipts, documents, and nutrition facts) and handwritten mathematical expression recognition. Our findings reveal strengths and weaknesses in these models, which primarily rely on semantic understanding for word recognition and exhibit inferior perception of individual character shapes. They also display indifference towards text length and have limited capabilities in detecting finegrained features in images. Consequently, these results demonstrate that even the current most powerful large multimodal models cannot match domain-specific methods in traditional text tasks and face greater challenges in more complex tasks. Most importantly, the baseline results showcased in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. Evaluation pipeline is available at https://github.com/Yuliang-Liu/MultimodalOCR.
翻訳日:2023-06-09 19:04:06 公開日:2023-06-08
# 自己学習型対称多視点確率クラスタリング

Self-Learning Symmetric Multi-view Probabilistic Clustering ( http://arxiv.org/abs/2305.07307v2 )

ライセンス: Link先を確認
Junjie Liu, Junlong Liu, Rongxin Jiang, Yaowu Chen, Chen Shen, Jieping Ye(参考訳) マルチビュークラスタリング(MVC)は、複数の視点から知識を学ぶための多くの取り組みによって、大きな進歩を遂げている。 しかし、ほとんどの既存のメソッドは適用できないか、不完全なmvcのための追加ステップを必要とする。 このような制限は、低品質のクラスタリング性能と低品質のビュー適応をもたらす。 さらに、ノイズやアウトレイラはクラスタリング全体のパフォーマンスを著しく低下させる可能性があるが、既存のほとんどのメソッドではうまく処理できない。 本稿では,SLS-MPC(Self-learning symmetric multi-view probabilistic clustering)という,不完全かつ完全なMVCのための新しい統合フレームワークを提案する。 SLS-MPCは、新しい対称な多視点確率推定を提案し、同値に、多視点のペアワイドな後続マッチング確率を、各ビューの個々の分布の構成に変換する。 そこで,SLS-MPCは,各ビューの個々の分布を学習するために,事前知識やハイパーパラメータを含まない新しい自己学習確率関数を提案する。 次に、経路伝搬と隣り合う伝播を併用したグラフコンテキスト対応改良法を用いて、雑音や外周の影響を緩和する。 最後に、sls-mpcは、カテゴリ情報なしで結合確率を最大化し、クラスタリング割り当てを調整する確率的クラスタリングアルゴリズムを提案する。 複数のベンチマークにおいて、SLS-MPCは従来の最先端手法よりも優れていた。

Multi-view Clustering (MVC) has achieved significant progress, with many efforts dedicated to learn knowledge from multiple views. However, most existing methods are either not applicable or require additional steps for incomplete MVC. Such a limitation results in poor-quality clustering performance and poor missing view adaptation. Besides, noise or outliers might significantly degrade the overall clustering performance, which are not handled well by most existing methods. In this paper, we propose a novel unified framework for incomplete and complete MVC named self-learning symmetric multi-view probabilistic clustering (SLS-MPC). SLS-MPC proposes a novel symmetric multi-view probability estimation and equivalently transforms multi-view pairwise posterior matching probability into composition of each view's individual distribution, which tolerates data missing and might extend to any number of views. Then, SLS-MPC proposes a novel self-learning probability function without any prior knowledge and hyper-parameters to learn each view's individual distribution. Next, graph-context-aware refinement with path propagation and co-neighbor propagation is used to refine pairwise probability, which alleviates the impact of noise and outliers. Finally, SLS-MPC proposes a probabilistic clustering algorithm to adjust clustering assignments by maximizing the joint probability iteratively without category information. Extensive experiments on multiple benchmarks show that SLS-MPC outperforms previous state-of-the-art methods.
翻訳日:2023-06-09 19:03:44 公開日:2023-06-08
# モデル予測を解釈するための非対称特徴間相互作用

Asymmetric feature interaction for interpreting model predictions ( http://arxiv.org/abs/2305.07224v2 )

ライセンス: Link先を確認
Xiaolei Lu, Jianghong Ma, Haode Zhang(参考訳) 自然言語処理(NLP)では、ディープニューラルネットワーク(DNN)はコンテキスト間の複雑な相互作用をモデル化することができ、様々なNLPタスクにおいて印象的な結果が得られる。 先行研究は、主に、モデル予測に寄与する非対称的な影響を捉えるのに失敗する、一組の単語の付加的な影響のみを説明する対称的相互作用の研究に焦点を当てている。 本研究では,ニューラルNLPモデルの推論における非対称な高次特徴相互作用の探索を目的とした,非対称な特徴相互作用帰属説明モデルを提案する。 有向相互作用グラフを用いて説明を表現することにより、非対称な特徴相互作用を発見するためのグラフの解釈可能性について実験的に示す。 2つの感情分類データセットにおける実験結果は,モデル予測に影響を及ぼす特徴の同定において,最先端の特徴間相互作用の帰属法に対して,モデルの優越性を示す。 私たちのコードはhttps://github.com/stilllu/asivで利用可能です。

In natural language processing (NLP), deep neural networks (DNNs) could model complex interactions between context and have achieved impressive results on a range of NLP tasks. Prior works on feature interaction attribution mainly focus on studying symmetric interaction that only explains the additional influence of a set of words in combination, which fails to capture asymmetric influence that contributes to model prediction. In this work, we propose an asymmetric feature interaction attribution explanation model that aims to explore asymmetric higher-order feature interactions in the inference of deep neural NLP models. By representing our explanation with an directed interaction graph, we experimentally demonstrate interpretability of the graph to discover asymmetric feature interactions. Experimental results on two sentiment classification datasets show the superiority of our model against the state-of-the-art feature interaction attribution methods in identifying influential features for model predictions. Our code is available at https://github.com/StillLu/ASIV.
翻訳日:2023-06-09 19:03:22 公開日:2023-06-08
# BanglaBook: 書籍レビューからの感性分析のための大規模バングラデータセット

BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from Book Reviews ( http://arxiv.org/abs/2305.06595v3 )

ライセンス: Link先を確認
Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud and Md Kamrul Hasan(参考訳) 消費者感情の分析は、レビューを通じて表現されるように、製品の品質に関する豊富な洞察を提供することができる。 感情分析の研究は多くのポピュラーな言語で広く研究されてきたが、バングラ語への関心は比較的少なかった。 この制限に対処するため、BanglaBookは158,065のサンプルを3つの広いカテゴリ(正、負、中性)に分類した、バングラ書評の大規模なデータセットである。 我々は、データセットの詳細な統計分析を行い、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、機械学習モデルを用いている。 本研究は,手作業で作成する機能に依存したモデルに対して,事前学習モデルの大幅な性能上の利点を示し,この領域における追加トレーニングリソースの必要性を強調した。 さらに,感情のユニグラムを調べることで詳細な誤り解析を行い,Banglaのような低リソース言語における共通分類誤りの洞察を与えることができる。 私たちのコードとデータはhttps://github.com/mohsinulkabir14/banglabookで公開されている。

The analysis of consumer sentiment, as expressed through reviews, can provide a wealth of insight regarding the quality of a product. While the study of sentiment analysis has been widely explored in many popular languages, relatively less attention has been given to the Bangla language, mostly due to a lack of relevant data and cross-domain adaptability. To address this limitation, we present BanglaBook, a large-scale dataset of Bangla book reviews consisting of 158,065 samples classified into three broad categories: positive, negative, and neutral. We provide a detailed statistical analysis of the dataset and employ a range of machine learning models to establish baselines including SVM, LSTM, and Bangla-BERT. Our findings demonstrate a substantial performance advantage of pre-trained models over models that rely on manually crafted features, emphasizing the necessity for additional training resources in this domain. Additionally, we conduct an in-depth error analysis by examining sentiment unigrams, which may provide insight into common classification errors in under-resourced languages like Bangla. Our codes and data are publicly available at https://github.com/mohsinulkabir14/BanglaBook.
翻訳日:2023-06-09 19:03:06 公開日:2023-06-08
# 公正監査のための統計的推論

Statistical Inference for Fairness Auditing ( http://arxiv.org/abs/2305.03712v2 )

ライセンス: Link先を確認
John J. Cherian, Emmanuel J. Cand\`es(参考訳) ブラックボックスモデルを高精細な問題に展開する前には、センシティブなサブポピュレーションでモデルの性能を評価することが重要である。 例えば、レシディズム予測タスクでは、予測モデルが認識不能な高い偽陽性率を持つ人口集団を識別したり、そのようなグループは存在しないことを証明したりします。 本稿では,複数の仮説テストの観点から,このタスクを「フェアネス監査」と呼ぶことが多い。 統計的保証のあるグループ群に対して,ブートストラップを用いて性能格差を同時にバインドする方法を示す。 本手法は,モデルアンダーパフォーマンスの影響を受けるサブポピュレーションのフラグ付けや,モデルが適切に機能するサブポピュレーションの認証に利用できる。 当社の監査はモデルに依存しないものであり、ほぼすべてのパフォーマンス指標やグループフェアネス基準に適用可能です。 私たちのメソッドは、サブポピュレーションのコレクションも非常にリッチで、無限でもあります。 さらに, ある分布シフトに対する性能評価方法を示すことで, サブポピュレーションを超えて一般化する。 提案手法を予測的推論とアルゴリズムフェアネスのベンチマークデータセット上で検証し,監査が解釈可能かつ信頼性の高い保証を提供できることを確認した。

Before deploying a black-box model in high-stakes problems, it is important to evaluate the model's performance on sensitive subpopulations. For example, in a recidivism prediction task, we may wish to identify demographic groups for which our prediction model has unacceptably high false positive rates or certify that no such groups exist. In this paper, we frame this task, often referred to as "fairness auditing," in terms of multiple hypothesis testing. We show how the bootstrap can be used to simultaneously bound performance disparities over a collection of groups with statistical guarantees. Our methods can be used to flag subpopulations affected by model underperformance, and certify subpopulations for which the model performs adequately. Crucially, our audit is model-agnostic and applicable to nearly any performance metric or group fairness criterion. Our methods also accommodate extremely rich -- even infinite -- collections of subpopulations. Further, we generalize beyond subpopulations by showing how to assess performance over certain distribution shifts. We test the proposed methods on benchmark datasets in predictive inference and algorithmic fairness and find that our audits can provide interpretable and trustworthy guarantees.
翻訳日:2023-06-09 19:02:34 公開日:2023-06-08
# 理想的な連続学習者:決して忘れないエージェント

The Ideal Continual Learner: An Agent That Never Forgets ( http://arxiv.org/abs/2305.00316v2 )

ライセンス: Link先を確認
Liangzu Peng, Paris V. Giampouras, Ren\'e Vidal(参考訳) 連続学習の目的は、学習者に順次提示される複数の学習課題を解決するモデルを見つけることである。 この設定における重要な課題は、新しいタスクを学ぶとき、学習者が前のタスクの解き方を忘れてしまう可能性があることである。 この課題に対処するために,メモリベース,正規化ベース,拡張ベースなど,多くの実用的な手法が提案されている。 しかし、これらの手法の厳密な理論的理解はいまだ解明されていない。 本稿では,この理論と実践のギャップを埋めるために,建設による破滅的忘れ去を回避できるideal continual learninger(icl)と呼ばれる新しい連続学習フレームワークを提案する。 ICLは複数の確立された連続学習手法を統合し、これらの手法の強みと弱みに関する新たな理論的知見を提供する。 また、リハーサルが一般化にどのように影響するかを理論的に定量化できるiclの一般化境界も導出する。 最後に、ICLをいくつかの古典的主題と近代的関心の研究トピックに結びつけることで、歴史的発言をし、今後の方向性を刺激することができる。

The goal of continual learning is to find a model that solves multiple learning tasks which are presented sequentially to the learner. A key challenge in this setting is that the learner may forget how to solve a previous task when learning a new task, a phenomenon known as catastrophic forgetting. To address this challenge, many practical methods have been proposed, including memory-based, regularization-based, and expansion-based methods. However, a rigorous theoretical understanding of these methods remains elusive. This paper aims to bridge this gap between theory and practice by proposing a new continual learning framework called Ideal Continual Learner (ICL), which is guaranteed to avoid catastrophic forgetting by construction. We show that ICL unifies multiple well-established continual learning methods and gives new theoretical insights into the strengths and weaknesses of these methods. We also derive generalization bounds for ICL which allow us to theoretically quantify how rehearsal affects generalization. Finally, we connect ICL to several classic subjects and research topics of modern interest, which allows us to make historical remarks and inspire future directions.
翻訳日:2023-06-09 19:02:16 公開日:2023-06-08
# 自然言語命令によるテキスト生成制御

Controlled Text Generation with Natural Language Instructions ( http://arxiv.org/abs/2304.14293v2 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Ethan Wilcox, Ryan Cotterell, Mrinmaya Sachan(参考訳) 大規模な言語モデルは、フルーエントテキストを生成し、タスク固有のトレーニングなしで幅広いタスクを解決するために、自然言語命令に従うことができる。 それにもかかわらず、異なるアプリケーションに必要な様々な制約を満たすために、それらの世代を制御することは、悪名高い。 本稿では,自然言語記述の条件付けと制約の実証により,異なる制約を取り入れた制御型テキスト生成フレームワークinstructctgを提案する。 特に,本研究では,既製のNLPツールと単純なヒューリスティックスを組み合わせて,自然文の基本的制約を抽出する。 次に、制約を自然言語命令に言語化し、弱教師付きトレーニングデータを形成する。 制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。 既存のサーチベースやスコアベースの手法と比較して、InstructCTGは異なる制約タイプに対して柔軟であり、デコード手順を変更しないため、生成品質と速度への影響ははるかに小さい。 さらに、インストラクトCTGは、数ショットのタスク一般化と命令チューニング言語モデルのコンテキスト内学習機能を使用することで、モデルを再訓練することなく、新しい制約に適応することができる。

Large language models generate fluent texts and can follow natural language instructions to solve a wide range of tasks without task-specific training. Nevertheless, it is notoriously difficult to control their generation to satisfy the various constraints required by different applications. In this work, we present InstructCTG, a controlled text generation framework that incorporates different constraints by conditioning on natural language descriptions and demonstrations of the constraints. In particular, we first extract the underlying constraints of natural texts through a combination of off-the-shelf NLP tools and simple heuristics. We then verbalize the constraints into natural language instructions to form weakly supervised training data. By prepending natural language descriptions of the constraints and a few demonstrations, we fine-tune a pre-trained language model to incorporate various types of constraints. Compared to existing search-based or score-based methods, InstructCTG is more flexible to different constraint types and has a much smaller impact on the generation quality and speed because it does not modify the decoding procedure. Additionally, InstructCTG allows the model to adapt to new constraints without re-training through the use of few-shot task generalization and in-context learning abilities of instruction-tuned language models.
翻訳日:2023-06-09 19:01:56 公開日:2023-06-08
# 線形マルコフ決定過程における最適近似政策最適化の理論解析

A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes ( http://arxiv.org/abs/2305.08841v2 )

ライセンス: Link先を確認
Han Zhong, Tong Zhang(参考訳) 近似ポリシー最適化(PPO)アルゴリズムは、強化学習(RL)分野において最も繁栄する手法の1つである。 その成功にもかかわらず、PPOの理論的理解は依然として不十分である。 具体的には、PPOまたはその楽観的な変種が、関数近似を持つRLで最も単純なモデルである線形マルコフ決定過程(MDP)を効果的に解くことができるかどうかは不明である。 このギャップを埋めるために、全情報フィードバックを持つエピソード線形MDPに対するPPOの楽観的な変種を提案し、それを後悔する$\tilde{\mathcal{O}}(d^{3/4}H^2K^{3/4})を確立する。 ここで$d$は線形MDPの周囲次元、$H$は各エピソードの長さ、$K$はエピソードの数である。 既存のポリシーベースのアルゴリズムと比較して,確率線形MDPと正反対線形MDPの両面において,完全な情報を持つ最先端の後悔境界を実現する。 さらに, アルゴリズム設計では, 新たなマルチバッチ更新機構を特徴とし, 理論解析では, 独立興味を持つ可能性のある値とポリシークラスに関する新たな被覆数引数を用いる。

The proximal policy optimization (PPO) algorithm stands as one of the most prosperous methods in the field of reinforcement learning (RL). Despite its success, the theoretical understanding of PPO remains deficient. Specifically, it is unclear whether PPO or its optimistic variants can effectively solve linear Markov decision processes (MDPs), which are arguably the simplest models in RL with function approximation. To bridge this gap, we propose an optimistic variant of PPO for episodic adversarial linear MDPs with full-information feedback, and establish a $\tilde{\mathcal{O}}(d^{3/4}H^2K^{3/4})$ regret for it. Here $d$ is the ambient dimension of linear MDPs, $H$ is the length of each episode, and $K$ is the number of episodes. Compared with existing policy-based algorithms, we achieve the state-of-the-art regret bound in both stochastic linear MDPs and adversarial linear MDPs with full information. Additionally, our algorithm design features a novel multi-batched updating mechanism and the theoretical analysis utilizes a new covering number argument of value and policy classes, which might be of independent interest.
翻訳日:2023-06-09 19:00:54 公開日:2023-06-08
# 非エルミート・フロケット・トポロジカル・マター--概観

Non-Hermitian Floquet Topological Matter -- A Review ( http://arxiv.org/abs/2305.16153v2 )

ライセンス: Link先を確認
Longwen Zhou and Da-Jian Zhang(参考訳) 非エルミート・フロッケ位相相は、時間周期非エルミート・ハミルトニアンによって記述された系に現れる。 本稿では,1次元と2次元の空間次元における非エルミートフロッケ位相物の研究の概要について述べる。 文献の概要を概観し、非エルミートフロッケ系の研究と非エルミートフロッケバンドの位相的特徴付けのための理論的枠組みについて紹介する。 この理論に基づき,非エルミート・フロケ・トポロジカル絶縁体,超伝導体,準結晶の典型例を概説し,その位相不変量,バルクエッジ対応,非エルミート皮膚効果,動的性質,局在化遷移に着目した。 本稿では,本研究の主な発見を要約し,今後の方向性について論じる。

Non-Hermitian Floquet topological phases appear in systems described by time-periodic non-Hermitian Hamiltonians. This review presents a sum-up of our studies on non-Hermitian Floquet topological matter in one and two spatial dimensions. After a brief overview of the literature, we introduce our theoretical framework for the study of non-Hermitian Floquet systems and the topological characterization of non-Hermitian Floquet bands. Based on our theories, we describe typical examples of non-Hermitian Floquet topological insulators, superconductors and quasicrystals with a focus on their topological invariants, bulk-edge correspondences, non-Hermitian skin effects, dynamical properties and localization transitions. We conclude this review by summarizing our main discoveries and discussing potential future directions.
翻訳日:2023-06-09 18:52:45 公開日:2023-06-08
# 大規模言語モデルはシンボリック推論ではなく文脈内意味推論である

Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners ( http://arxiv.org/abs/2305.14825v2 )

ライセンス: Link先を確認
Xiaojuan Tang, Zilong Zheng, Jiaqi Li, Fanxu Meng, Song-Chun Zhu, Yitao Liang, Muhan Zhang(参考訳) 大規模言語モデル(llm)の創発的な少数ショット推論能力は、近年、自然言語と機械学習コミュニティを刺激している。 多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。 本研究では,学習した言語トークンの「textit{semantics}」が推論過程において最も重い処理を行うと仮定する。 人間の象徴的推論プロセスと異なり、llmの意味的表現はトークン間の強いつながりを生み出し、表面的な論理連鎖を構成する。 本仮説を検証するために,言語推論から意味論を分離し,推論能力,推論,帰納,誘拐の3種類の推論能力を評価する。 本研究は,LLMにおける意味論が意味論的推論において重要な役割を担っていることを明らかにする。 この驚くべき観察は、現代のLLMが人間の知能のように誘導的、誘因的、誘因的推論能力を習得したかどうかを疑問視し、ブラックボックスのLLMに存在する魔法を明らかにするための研究を動機付けている。 本分析は,言語モデルの推論能力の発達と評価における意味論の役割について,新たな視点を提供する。 コードは {\url{https://github.com/XiaojuanTang/ICSR}}で入手できる。

The emergent few-shot reasoning capabilities of Large Language Models (LLMs) have excited the natural language and machine learning community over recent years. Despite of numerous successful applications, the underlying mechanism of such in-context capabilities still remains unclear. In this work, we hypothesize that the learned \textit{semantics} of language tokens do the most heavy lifting during the reasoning process. Different from human's symbolic reasoning process, the semantic representations of LLMs could create strong connections among tokens, thus composing a superficial logical chain. To test our hypothesis, we decouple semantics from the language reasoning process and evaluate three kinds of reasoning abilities, i.e., deduction, induction and abduction. Our findings reveal that semantics play a vital role in LLMs' in-context reasoning -- LLMs perform significantly better when semantics are consistent with commonsense but struggle to solve symbolic or counter-commonsense reasoning tasks by leveraging in-context new knowledge. The surprising observations question whether modern LLMs have mastered the inductive, deductive and abductive reasoning abilities as in human intelligence, and motivate research on unveiling the magic existing within the black-box LLMs. On the whole, our analysis provides a novel perspective on the role of semantics in developing and evaluating language models' reasoning abilities. Code is available at {\url{https://github.com/XiaojuanTang/ICSR}}.
翻訳日:2023-06-09 18:52:18 公開日:2023-06-08
# 音声による自己監督型ニューラル表現は動物呼び出し者を区別できるか?

Can Self-Supervised Neural Representations Pre-Trained on Human Speech distinguish Animal Callers? ( http://arxiv.org/abs/2305.14035v3 )

ライセンス: Link先を確認
Eklavya Sarkar and Mathew Magimai.-Doss(参考訳) 自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。 これは、そのような表現の有用性は、人間の発話のみをモデル化することに限らないことを意味する。 この理解に基づいて,人間の音声から学習したSSLニューラル表現の相互伝達性を調べ,生体音響信号の解析を行う。 各種プリテキストタスクを事前学習した11種類のSSLモデルを用いて、発声者識別分析および発声者検出を行う。 その結果, 埋め込み空間には意味のある発信者情報があり, 微調整なしでマーモセット発呼者の個人識別に成功できることが示唆された。 このことは、人間の発話に事前訓練された表現がバイオ音響領域に効果的に適用できることを示し、この分野での今後の研究に有用な洞察を提供する。

Self-supervised learning (SSL) models use only the intrinsic structure of a given signal, independent of its acoustic domain, to extract essential information from the input to an embedding space. This implies that the utility of such representations is not limited to modeling human speech alone. Building on this understanding, this paper explores the cross-transferability of SSL neural representations learned from human speech to analyze bio-acoustic signals. We conduct a caller discrimination analysis and a caller detection study on Marmoset vocalizations using eleven SSL models pre-trained with various pretext tasks. The results show that the embedding spaces carry meaningful caller information and can successfully distinguish the individual identities of Marmoset callers without fine-tuning. This demonstrates that representations pre-trained on human speech can be effectively applied to the bio-acoustics domain, providing valuable insights for future investigations in this field.
翻訳日:2023-06-09 18:51:52 公開日:2023-06-08
# 販売促進における転換率変動の捉え方:新しい歴史データ再利用手法

Capturing Conversion Rate Fluctuation during Sales Promotions: A Novel Historical Data Reuse Approach ( http://arxiv.org/abs/2305.12837v2 )

ライセンス: Link先を確認
Zhangming Chan, Yu Zhang, Shuguang Han, Yong Bai, Xiang-Rong Sheng, Siyuan Lou, Jiacen Hu, Baolin Liu, Yuning Jiang, Jian Xu, Bo Zheng(参考訳) コンバージョン率(CVR)予測は,オンラインレコメンデータシステムにおける中核的な要素のひとつであり,高精度で校正されたCVR推定を実現するための様々なアプローチが提案されている。 しかし,よく訓練されたCVR予測モデルでは,販売促進時に準最適に実行することが多い。 これは、従来の方法がもはや機能しないデータ分散シフトの問題を概ね説明することができる。 そこで我々は,CVR予測のための代替モデリング手法の開発を目指す。 異なるプロモーションで同様の購入パターンを観察し,過去のプロモーションデータを再利用してプロモーション変換パターンをキャプチャする。 本稿では、まず、歴史的に類似したプロモーションデータを取得し、次に取得したデータを用いてCVR予測モデルを微調整し、プロモーションモードへの適応性を向上する、新しい \textbf{H}istorical \textbf{D}ata \textbf{R}euse (\textbf{HDR}) アプローチを提案する。 HDRは3つのコンポーネントから構成される: 履歴のプロモーションから類似したデータを求める自動データ検索モジュール、検索したデータをターゲットのプロモーションに適合させるために再重み付けする分散シフト補正モジュール、そして、プロモーションモードに適応するためにオリジナルのモデルを素早く微調整するTransBlockモジュール。 実世界のデータを用いて行った実験は、ランキングとキャリブレーションの指標を大幅に改善するため、HDRの有効性を示す。 HDRはAlibabaのディスプレイ広告システムにも展開されており、2022年のDouble 11の売上で9.5%のRPMと16.%のCVRが加わった。

Conversion rate (CVR) prediction is one of the core components in online recommender systems, and various approaches have been proposed to obtain accurate and well-calibrated CVR estimation. However, we observe that a well-trained CVR prediction model often performs sub-optimally during sales promotions. This can be largely ascribed to the problem of the data distribution shift, in which the conventional methods no longer work. To this end, we seek to develop alternative modeling techniques for CVR prediction. Observing similar purchase patterns across different promotions, we propose reusing the historical promotion data to capture the promotional conversion patterns. Herein, we propose a novel \textbf{H}istorical \textbf{D}ata \textbf{R}euse (\textbf{HDR}) approach that first retrieves historically similar promotion data and then fine-tunes the CVR prediction model with the acquired data for better adaptation to the promotion mode. HDR consists of three components: an automated data retrieval module that seeks similar data from historical promotions, a distribution shift correction module that re-weights the retrieved data for better aligning with the target promotion, and a TransBlock module that quickly fine-tunes the original model for better adaptation to the promotion mode. Experiments conducted with real-world data demonstrate the effectiveness of HDR, as it improves both ranking and calibration metrics to a large extent. HDR has also been deployed on the display advertising system in Alibaba, bringing a lift of $9\%$ RPM and $16\%$ CVR during Double 11 Sales in 2022.
翻訳日:2023-06-09 18:51:37 公開日:2023-06-08
# 皮膚効果を有する非エルミート系の障害誘起絡み合い相転移

Disorder-Induced Entanglement Phase Transitions in Non-Hermitian Systems with Skin Effects ( http://arxiv.org/abs/2305.12342v2 )

ライセンス: Link先を確認
Kai Li, Ze-Chuan Liu, Yong Xu(参考訳) 非エルミート力学は様々な物理系においてユビキタスである。 近年の研究では、このようなダイナミクスが非エルミート系皮膚効果によるエントロピーの領域則スケーリングにつながることが示されているが、皮膚効果を有する非エルミート系におけるエントロピーの挙動に障害がどのように変化するかは明らかではない。 ここでは,自由フェルミオンの多体状態のダイナミクスを,開放境界を持つハタノ・ネルソンモデルにおいて研究し,プリスティーヌ・ハタノ・ネルソンモデルにおける絡み合いエントロピーの領域則挙動が,小さな障害強度に対する対数スケールへと発展することを示す。 さらに、障害強度を増大させるにつれて、絡み合い相転移により、システムはエリアローレジームに再突入する。 臨界点において、絡み合いエントロピーは普遍代数的スケーリングを示す。 さらに、サブシステムエンタングルメントエントロピー、連結相関関数および相互情報を調べることにより、対数法体制における共形不変性の欠如を実証する。 最後に、周期境界を持つ波多野・ネルソンモデルにおける障害誘起絡み合い相転移の存在を示す。

Non-Hermitian dynamics is ubiquitous in various physical systems. While recent study shows that such a dynamics leads to an area-law scaling of the entanglement entropy due to the non-Hermitian skin effects, it remains unclear how disorder changes the behavior of the entanglement entropy in a non-Hermitian system with skin effects. Here we study the dynamics of a many-body state of free fermions in the paradigmatic Hatano-Nelson model with open boundaries, and find that the area-law behavior of the entanglement entropy in the pristine Hatano-Nelson model develops into a logarithmic scaling for small disorder strength. As we further increase the disorder strength, the system reenters an area-law regime through an entanglement phase transition. At the critical point, the entanglement entropy exhibits a universal algebraic scaling. We further demonstrate the absence of a conformal invariance in the log-law regime by examining the subsystem entanglement entropy, the connected correlation function and the mutual information. Finally, we show the existence of disorder induced entanglement phase transitions in the Hatano-Nelson model with periodic boundaries.
翻訳日:2023-06-09 18:51:03 公開日:2023-06-08
# RGCVAE:分子設計のための関係グラフ条件変分オートエンコーダ

RGCVAE: Relational Graph Conditioned Variational Autoencoder for Molecule Design ( http://arxiv.org/abs/2305.11699v2 )

ライセンス: Link先を確認
Davide Rigoni, Nicol\`o Navarin, Alessandro Sperduti(参考訳) 事前特定された性質を示す分子の同定は、解決が難しい問題である。 ここ数年、分子生成に深い生成モデルが使われてきた。 Deep Graph Variational Autoencodersは、この問題に対処可能な、最も強力な機械学習ツールのひとつだ。 しかし、既存の手法は真のデータ分布を捉えるのに苦労し、計算コストがかかる傾向にある。 本研究では,効率良く効率的なグラフ変動オートエンコーダであるrpcvaeを提案する。 (i)新しい強力なリレーショナルグラフ同型ネットワークを利用した符号化ネットワーク (ii)新しい確率的復号化成分。 RGCVAEは、2つの広く採用されているデータセット上での最先端のVAE法と比較して、最先端の分子生成性能を示しながら、トレーニングがかなり高速である。

Identifying molecules that exhibit some pre-specified properties is a difficult problem to solve. In the last few years, deep generative models have been used for molecule generation. Deep Graph Variational Autoencoders are among the most powerful machine learning tools with which it is possible to address this problem. However, existing methods struggle in capturing the true data distribution and tend to be computationally expensive. In this work, we propose RGCVAE, an efficient and effective Graph Variational Autoencoder based on: (i) an encoding network exploiting a new powerful Relational Graph Isomorphism Network; (ii) a novel probabilistic decoding component. Compared to several state-of-the-art VAE methods on two widely adopted datasets, RGCVAE shows state-of-the-art molecule generation performance while being significantly faster to train.
翻訳日:2023-06-09 18:50:41 公開日:2023-06-08
# 個人用オンラインアイテム価格

Differentially Private Online Item Pricing ( http://arxiv.org/abs/2305.11362v2 )

ライセンス: Link先を確認
Joon Suk Huh(参考訳) 本研究は,購入者のプライバシを保ちながら,反復的かつ無制限のサプライアイテムプライシングオークションにおいて,収益の最大化の問題に対処する。 本稿では,購入者の入力ペアに対する差分プライバシーを提供する新しいアルゴリズムであるアイテム選択と入札を提案する。 特に、私たちのアルゴリズムは、プライバシを保証するサブ線形の$O(\sqrt{T}\log{T})を初めて提供する。 提案手法は指数重みメタアルゴリズムに基づいており, ランダムな摂動による収益関数の不連続の問題を緩和する。 指数的メカニズムと構造的類似性から,本手法は本質的に差分プライバシーを確保する。 また、購入者が連続したラウンドに対して戦略的に入札するシナリオに対応するようにアルゴリズムを拡張します。 固有の差分プライバシーは、この設定においてサブ線形後悔を保証するために、最小限の変更でアルゴリズムを適応することができる。

This work addresses the problem of revenue maximization in a repeated, unlimited supply item-pricing auction while preserving buyer privacy. We present a novel algorithm that provides differential privacy with respect to the buyer's input pair: item selection and bid. Notably, our algorithm is the first to offer a sublinear $O(\sqrt{T}\log{T})$ regret with a privacy guarantee. Our method is based on an exponential weights meta-algorithm, and we mitigate the issue of discontinuities in revenue functions via small random perturbations. As a result of its structural similarity to the exponential mechanism, our method inherently secures differential privacy. We also extend our algorithm to accommodate scenarios where buyers strategically bid over successive rounds. The inherent differential privacy allows us to adapt our algorithm with minimal modification to ensure a sublinear regret in this setting.
翻訳日:2023-06-09 18:50:30 公開日:2023-06-08
# 大規模言語モデルにおける数値マグニチュード比較効果

Numeric Magnitude Comparison Effects in Large Language Models ( http://arxiv.org/abs/2305.10782v2 )

ライセンス: Link先を確認
Raj Sanjay Shah, Vijay Marupudi, Reba Koenen, Khushi Bhardwaj, Sashank Varma(参考訳) 大規模言語モデル(llm)は、テキストに浸透する数を微分的に表現しない。 対照的に、神経科学研究は数と単語の異なる神経表現を同定した。 本研究では,LLMが行動レンズから数の大きさ(例えば,その4 < 5$)をどれだけよく捉えているかを検討する。 LLMの表現能力に関する先行研究は、人間レベルの性能、例えば標準ベンチマークで高い総合的精度を示すかどうかを評価する。 LLMの数値表現は、一般的に距離、サイズ、比例効果を示す人間の言語利用者の数値表現とどの程度近いのか? 我々は、数語と数字の埋め込みモデル間の類似性を人間の応答時間にマップするためにリンク仮説に依存する。 結果は、人間の脳でこれらの表現を直接サポートする神経回路がないにもかかわらず、異なるアーキテクチャの言語モデルにまたがる驚くほど人間らしい表現を明らかにした。 本研究は、行動ベンチマークを用いたLCMの理解の有用性を示し、LCMの数値表現とその認知的妥当性に関する今後の研究の道を示す。

Large Language Models (LLMs) do not differentially represent numbers, which are pervasive in text. In contrast, neuroscience research has identified distinct neural representations for numbers and words. In this work, we investigate how well popular LLMs capture the magnitudes of numbers (e.g., that $4 < 5$) from a behavioral lens. Prior research on the representational capabilities of LLMs evaluates whether they show human-level performance, for instance, high overall accuracy on standard benchmarks. Here, we ask a different question, one inspired by cognitive science: How closely do the number representations of LLMscorrespond to those of human language users, who typically demonstrate the distance, size, and ratio effects? We depend on a linking hypothesis to map the similarities among the model embeddings of number words and digits to human response times. The results reveal surprisingly human-like representations across language models of different architectures, despite the absence of the neural circuitry that directly supports these representations in the human brain. This research shows the utility of understanding LLMs using behavioral benchmarks and points the way to future work on the number representations of LLMs and their cognitive plausibility.
翻訳日:2023-06-09 18:50:14 公開日:2023-06-08
# 系列ラベル強化のためのBiLSTMの補助的特徴

Supplementary Features of BiLSTM for Enhanced Sequence Labeling ( http://arxiv.org/abs/2305.19928v3 )

ライセンス: Link先を確認
Conglei Xu, Kun Shen, Hongguang Sun(参考訳) シーケンスラベリングタスクは、与えられた文内の各単語に対する文表現の計算を必要とする。 先進的な事前訓練言語モデルの台頭に伴い、ある一般的なアプローチは、出力レベルでシーケンス構造情報を強化するためにBiLSTM層を統合することである。 それでも、BiLSTMがシーケンスラベリングタスクに文表現を生成する可能性は、主に過去と将来の文表現を統合して完全な文表現を形成するため、実証的に実証されている(P.-H. Li, 2020)。 本研究では,BiLSTMの第1および第2の細胞にみられる全文表現が各細胞の文表現を補うことができることを示した。 そこで我々は,BLSTM内の各セルの文表現に未来と過去の文表現を統合するグローバルな文脈機構を考案し,F1スコアと精度に大きな改善をもたらした。 BiLSTMにBERTモデルを埋め込み、名前付きエンティティ認識(NER)、音声(POS)タグ付けの一部、エンド・ツー・エンドのアスペクトベース感情分析(E2E-ABSA)など、シーケンスラベリングタスクの9つのデータセットに対して徹底的な実験を行う。 調査対象の全データセットに対して,F1スコアと精度が大幅に向上した。

Sequence labeling tasks require the computation of sentence representations for each word within a given sentence. With the rise of advanced pretrained language models; one common approach involves incorporating a BiLSTM layer to enhance the sequence structure information at the output level. Nevertheless, it has been empirically demonstrated (P.-H. Li, 2020) that BiLSTM's potential for generating sentence representations for sequence labeling tasks is constrained, primarily due to the integration of fragments from past and future sentence representations to form a complete sentence representation. In this study, we observed that the entire sentence representation, found in both the first and last cells of BiLSTM, can supplement each cell's sentence representation. Accordingly, we devised a global context mechanism to integrate entire future and past sentence representations into each cell's sentence representation within BiLSTM, leading to a significant improvement in both F1 score and accuracy. By embedding the BERT model within BiLSTM as a demonstration, and conducting exhaustive experiments on nine datasets for sequence labeling tasks, including named entity recognition (NER), part of speech (POS) tagging and End-to-End Aspect-Based sentiment analysis (E2E-ABSA). We noted significant improvements in F1 scores and accuracy across all examined datasets.
翻訳日:2023-06-09 18:44:24 公開日:2023-06-08
# 非構造化データに基づく基礎スキル優先による言語条件付き模倣学習

Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data ( http://arxiv.org/abs/2305.19075v2 )

ライセンス: Link先を確認
Hongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alois Knoll(参考訳) 言語条件ロボット操作への関心が高まる中、ロボットが言語コマンドを解釈し、それに従ってオブジェクトを操作することを可能にする目的で、複雑なタスクの理解と実行が可能なロボットの開発が目的である。 言語条件付きアプローチは、慣れ親しんだ環境でタスクに対処するための素晴らしい能力を示しているが、慣れ親しんだ環境設定への適応の限界に遭遇する。 本研究では,非構造化データに基づく基礎的スキル事前学習と模倣学習を組み合わせた汎用的言語条件付き手法を提案し,不慣れな環境に適応するアルゴリズムの一般化を強化する。 ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。 シミュレーション環境において,提案手法は,これまでに報告されたカルビンベンチマーク,特に挑戦的ゼロショットマルチ環境設定のスコアを上回った。 エージェントが連続的に完了できるタスクの平均数を示す平均タスク長は、最先端のHULCに比べて2.5倍以上改善されている。 さらに,具体的な適応を伴わずにシミュレーション環境のみを対象としたトレーニングを行い,実世界におけるポリシーのゼロショット評価を行った。 本評価では,10のタスクを設定し,現状のアプローチと比較して平均30%の改善を実現し,シミュレーション環境と実世界の両方において高い一般化能力を示した。 コードやビデオへのアクセスを含む詳細は、https://demoviewsite.wixsite.com/spilを参照してください。

The growing interest in language-conditioned robot manipulation aims to develop robots capable of understanding and executing complex tasks, with the objective of enabling robots to interpret language commands and manipulate objects accordingly. While language-conditioned approaches demonstrate impressive capabilities for addressing tasks in familiar environments, they encounter limitations in adapting to unfamiliar environment settings. In this study, we propose a general-purpose, language-conditioned approach that combines base skill priors and imitation learning under unstructured data to enhance the algorithm's generalization in adapting to unfamiliar environments. We assess our model's performance in both simulated and real-world environments using a zero-shot setting. In the simulated environment, the proposed approach surpasses previously reported scores for CALVIN benchmark, especially in the challenging Zero-Shot Multi-Environment setting. The average completed task length, indicating the average number of tasks the agent can continuously complete, improves more than 2.5 times compared to the state-of-the-art method HULC. In addition, we conduct a zero-shot evaluation of our policy in a real-world setting, following training exclusively in simulated environments without additional specific adaptations. In this evaluation, we set up ten tasks and achieved an average 30% improvement in our approach compared to the current state-of-the-art approach, demonstrating a high generalization capability in both simulated environments and the real world. For further details, including access to our code and videos, please refer to https://demoviewsite.wixsite.com/spil
翻訳日:2023-06-09 18:44:00 公開日:2023-06-08
# 厳密なローカルUnion-Find

Strictly local Union-Find ( http://arxiv.org/abs/2305.18534v2 )

ライセンス: Link先を確認
Tim Chan, Simon C. Benjamin(参考訳) フォールトトレラント量子コンピューティングは、エラー訂正に必要なデコードを実行するために古典的なハードウェアを必要とする。 ユニオン・フィールド・デコーダは最も優れた候補の1つである。 非常に有機的な特徴を持ち、近辺のステップでデータ構造が成長し、合併することを含んでいるが、これは自然に近辺のリンクが厳密な単純なプロセッサの格子を用いてUnion-Findを実現する可能性を示唆している。 このように計算負荷は、ほぼ理想的並列性で分散することができる。 ここでは、この厳密な(部分的な)ローカリティが初めて実用的であることを示し、最悪のランタイムである$\mathcal O(d^3)$と、$d$の平均ランタイムサブクワッドラティックな$d$で、$d$が表面コード距離であることを示す。 従来提案されていたアーキテクチャを簡素化する新しいパリティ計算方式が採用されている。 厳密なローカル実現と長距離リンクによって拡張されたものを比較する。後者はもちろん高速だが、ローカルな非同期ロジックは違いを無効にする可能性があることに注意する。

Fault-tolerant quantum computing requires classical hardware to perform the decoding necessary for error correction. The Union-Find decoder is one of the best candidates for this. It has remarkably organic characteristics, involving the growth and merger of data structures through nearest-neighbour steps; this naturally suggests the possibility of realising Union-Find using a lattice of simple processors with strictly nearest-neighbour links. In this way the computational load can be distributed with near-ideal parallelism. Here we build on earlier work to show for the first time that this strict (rather than partial) locality is practical, with a worst-case runtime $\mathcal O(d^3)$ and mean runtime subquadratic in $d$ where $d$ is the surface code distance. A novel parity-calculation scheme is employed, which can also simplify previously proposed architectures. We compare our strictly local realisation with one augmented by long-range links; while the latter is of course faster, we note that local asynchronous logic could negate the difference.
翻訳日:2023-06-09 18:43:16 公開日:2023-06-08
# T2FNorm:OOD検出のための超簡易な列車時特徴正規化

T2FNorm: Extremely Simple Scaled Train-time Feature Normalization for OOD Detection ( http://arxiv.org/abs/2305.17797v2 )

ライセンス: Link先を確認
Sudarshan Regmi, Bibek Panthi, Sakar Dotel, Prashnna K. Gyawali, Danail Stoyanov, Binod Bhattarai(参考訳) ニューラルネットワークは、自信過剰な予測者として有名であり、現実世界のアプリケーションにおける安全なデプロイメントにとって大きな課題となっている。 機能正規化は深層学習の文献で注目されているが、現在の列車時間正規化手法であるOut-of-Distribution(OOD)検出は、この可能性を十分に活用していない。 実際、ニューラルネットワークにおける機能正規化の単純化は、OOD検出性能の大幅な改善を保証していない。 本研究は,OODスコーリングの目的に非変換空間を用いながら,訓練中に特徴を超球面空間に変換する新しい手法であるT2FNormを紹介する。 In-distribution(ID)におけるモデル精度を損なうことなく,OOD検出能力を驚くほど向上させる。 本研究は,提案手法がすべてのサンプルの特徴の規範を実質的に減少させることを実証するものである。 提案手法は, ポストホックOOD検出法を大幅に改善する。

Neural networks are notorious for being overconfident predictors, posing a significant challenge to their safe deployment in real-world applications. While feature normalization has garnered considerable attention within the deep learning literature, current train-time regularization methods for Out-of-Distribution(OOD) detection are yet to fully exploit this potential. Indeed, the naive incorporation of feature normalization within neural networks does not guarantee substantial improvement in OOD detection performance. In this work, we introduce T2FNorm, a novel approach to transforming features to hyperspherical space during training, while employing non-transformed space for OOD-scoring purposes. This method yields a surprising enhancement in OOD detection capabilities without compromising model accuracy in in-distribution(ID). Our investigation demonstrates that the proposed technique substantially diminishes the norm of the features of all samples, more so in the case of out-of-distribution samples, thereby addressing the prevalent concern of overconfidence in neural networks. The proposed method also significantly improves various post-hoc OOD detection methods.
翻訳日:2023-06-09 18:42:57 公開日:2023-06-08
# ホワイトニングに基づく文埋め込みのコントラスト学習

Whitening-based Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2305.17746v2 )

ライセンス: Link先を確認
Wenjie Zhuo, Yifan Sun, Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) 本稿では,新しいシャッフルグループホワイトニングとコントラスト学習を組み合わせた,文埋め込み学習(whitenedcse)のためのホワイトニングベースのコントラスト学習手法を提案する。 一般的に、対照的学習は単一のサンプル(すなわち正のサンプル)の歪みを閉じて負のサンプルを遠くへ押し出し、特徴空間のアライメントと均一性を促進する。 プッシング」操作の一般的な代替手段は、全てのサンプルを均一に散乱させる特徴空間の白化である。 ホワイトニングとコントラスト学習は、均一性に大きな冗長性を持つため、通常は個別に使用され、共同作業は容易ではない。 本論文は, 初めて, ホワイトニングをコントラスト学習方式に統合し, 2つの利点を享受する。 1) 統一性の向上。 これらの2つのアプローチは完全に冗長ではなく、実際には異なる均一性機構のために相補性を持っている。 2)アライメントの改善。 特徴をチャネル軸に沿って複数のグループにランダムに分割し,各グループ内で独立してホワイトニングを行う。 群分割をシャッフルすることで、単一のサンプルの複数の歪みを導き、正のサンプル多様性を増加させる。 その結果、多様性が向上した複数の正のサンプルを使用することで、アライメントの向上によるコントラスト学習がさらに向上する。 7つの意味的テキスト類似性タスクに関する広範囲な実験は、我々の手法が対照的な学習ベースラインよりも一貫した改善を達成し、STSタスク上のスピアマン相関を78.78\%(+2.53\%)に設定していることを示している。

This paper presents a whitening-based contrastive learning method for sentence embedding learning (WhitenedCSE), which combines contrastive learning with a novel shuffled group whitening. Generally, contrastive learning pulls distortions of a single sample (i.e., positive samples) close and push negative samples far away, correspondingly facilitating the alignment and uniformity in the feature space. A popular alternative to the "pushing'' operation is whitening the feature space, which scatters all the samples for uniformity. Since the whitening and the contrastive learning have large redundancy w.r.t. the uniformity, they are usually used separately and do not easily work together. For the first time, this paper integrates whitening into the contrastive learning scheme and facilitates two benefits. 1) Better uniformity. We find that these two approaches are not totally redundant but actually have some complementarity due to different uniformity mechanism. 2) Better alignment. We randomly divide the feature into multiple groups along the channel axis and perform whitening independently within each group. By shuffling the group division, we derive multiple distortions of a single sample and thus increase the positive sample diversity. Consequently, using multiple positive samples with enhanced diversity further improves contrastive learning due to better alignment. Extensive experiments on seven semantic textual similarity tasks show our method achieves consistent improvement over the contrastive learning baseline and sets new states of the art, e.g., 78.78\% (+2.53\% based on BERT\ba) Spearman correlation on STS tasks.
翻訳日:2023-06-09 18:42:39 公開日:2023-06-08
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留

Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v4 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich(参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。 放射線科医は、異常の一般的な記述規則に依存するが、ニューラルネットワーク(nn)モデルは、入力分布(例えばスキャナタイプ)のわずかな変化でも苦しむ。 あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。 本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。 NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。 しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。 まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。 各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。 さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。 実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。 コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。

Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (e.g., scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}.
翻訳日:2023-06-09 18:42:09 公開日:2023-06-08
# 動的システムの長期予測のための暗黙的ニューラルネットワークの安定性

Stability of implicit neural networks for long-term forecasting in dynamical systems ( http://arxiv.org/abs/2305.17155v2 )

ライセンス: Link先を確認
Leon Migus, Julien Salomon and Patrick Gallinari(参考訳) 物理信号の長期的予測は偏微分方程式(pdes)の研究において最も難しい課題である。 従来の解法の限界を回避するため、様々なディープラーニング手法が提案されている。 これらはすべて自動回帰法に基づいており、安定性の問題を示している。 暗黙的数値スキームの安定性特性から着想を得て、安定な自己回帰型暗黙的ニューラルネットワークを導入する。 このネットワークの予測における安定性を保証するためのスキームの安定性定義に基づく理論を開発する。 重みに対する厳しい制約を導入し、潜在空間の力学を伝播させる。 実験結果は安定性を検証し,2つのトランスポートpdesの長期予測結果の改善を示した。

Forecasting physical signals in long time range is among the most challenging tasks in Partial Differential Equations (PDEs) research. To circumvent limitations of traditional solvers, many different Deep Learning methods have been proposed. They are all based on auto-regressive methods and exhibit stability issues. Drawing inspiration from the stability property of implicit numerical schemes, we introduce a stable auto-regressive implicit neural network. We develop a theory based on the stability definition of schemes to ensure the stability in forecasting of this network. It leads us to introduce hard constraints on its weights and propagate the dynamics in the latent space. Our experimental results validate our stability property, and show improved results at long-term forecasting for two transports PDEs.
翻訳日:2023-06-09 18:41:50 公開日:2023-06-08
# 拡散モデルの並列サンプリング

Parallel Sampling of Diffusion Models ( http://arxiv.org/abs/2305.16317v2 )

ライセンス: Link先を確認
Andy Shih, Suneel Belkhale, Stefano Ermon, Dorsa Sadigh, Nima Anari(参考訳) 拡散モデルは強力な生成モデルであるが、遅いサンプリングに悩まされ、しばしば1つのサンプルに対して1000のシーケンシャルな復調ステップを踏む。 その結果,デノナイジングステップの削減に向けてかなりの努力が払われているが,これらの手法はサンプルの品質を損なう。 この論文では、デノナイジングステップの数を減少させる代わりに、直交的なアプローチとして、デノナイジングステップを並列に実行できるか(速度のトレーディング計算)を探索する。 分別ステップの逐次的性質にもかかわらず,今後の分別ステップの解を推算し,収束まで反復的に精錬することで,ピカード反復によるサンプリングを驚くほど並列化することができることを示した。 そこで本研究では,複数ステップの並列化により,事前学習した拡散モデルのサンプリングを高速化する新しい手法であるパラダイムを提案する。 ParaDiGMSは、高速な取引計算を可能にする最初の拡散サンプリング手法であり、DDIMやDPMSolverといった既存の高速サンプリング技術と互換性がある。 そこでParaDiGMSを用いて,100ステップのDiffusionPolicyでは0.2秒,1000ステップのStableDiffusion-v2では16秒のサンプリング速度を,タスク報酬,FIDスコア,CLIPスコアの計測不能な2~4倍に改善した。

Diffusion models are powerful generative models but suffer from slow sampling, often taking 1000 sequential denoising steps for one sample. As a result, considerable efforts have been directed toward reducing the number of denoising steps, but these methods hurt sample quality. Instead of reducing the number of denoising steps (trading quality for speed), in this paper we explore an orthogonal approach: can we run the denoising steps in parallel (trading compute for speed)? In spite of the sequential nature of the denoising steps, we show that surprisingly it is possible to parallelize sampling via Picard iterations, by guessing the solution of future denoising steps and iteratively refining until convergence. With this insight, we present ParaDiGMS, a novel method to accelerate the sampling of pretrained diffusion models by denoising multiple steps in parallel. ParaDiGMS is the first diffusion sampling method that enables trading compute for speed and is even compatible with existing fast sampling techniques such as DDIM and DPMSolver. Using ParaDiGMS, we improve sampling speed by 2-4x across a range of robotics and image generation models, giving state-of-the-art sampling speeds of 0.2s on 100-step DiffusionPolicy and 16s on 1000-step StableDiffusion-v2 with no measurable degradation of task reward, FID score, or CLIP score.
翻訳日:2023-06-09 18:41:40 公開日:2023-06-08
# CommonScenes: シーングラフによるCommonsense 3D屋内シーンの生成

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graphs ( http://arxiv.org/abs/2305.16283v3 )

ライセンス: Link先を確認
Guangyao Zhai, Evin P{\i}nar \"Ornek, Shun-Cheng Wu, Yan Di, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) 制御可能なシーン合成は,様々な産業用途を対象とした対話型環境の構築を目的としている。 シーングラフは、シーンコンテキストをコンパクトに抽象化することでこれらのアプリケーションを容易にするのに非常に適したインターフェースを提供する。 既存の手法は、広範囲のデータベースや事前学習された形状埋め込みからの検索に依存しており、しばしばシーン-オブジェクトとオブジェクト-オブジェクトの関係を見落としている。 この問題に対処するため,我々は,シーングラフを対応する制御可能な3dシーンに変換する完全生成モデルであるcommonscenesを提案する。 我々のパイプラインは2つの枝から構成されており、1つは変分オートエンコーダで全体のシーンレイアウトを予測し、もう1つは潜時拡散により互換性のある形状を生成する。 生成したシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作できる。 高品質なオブジェクトレベルのメッシュと関係性を提供するシーングラフデータセットが欠如しているため、SG-FRONTを構築することで、既製の屋内データセット3D-FRONTを付加的なシーングラフラベルで強化する。 SG-FRONTでは、生成一貫性、品質、多様性に関する他の手法に対して、CommonScenesが明確な優位性を示す。 コードとデータセットは受け入れ時にリリースされる。

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.
翻訳日:2023-06-09 18:41:12 公開日:2023-06-08
# メッセージパス選択:グラフ分類のための解釈可能なGNNを目指して

Message-passing selection: Towards interpretable GNNs for graph classification ( http://arxiv.org/abs/2306.02081v2 )

ライセンス: Link先を確認
Wenda Li, Kaixuan Chen, Shunyu Liu, Wenjie Huang, Haofei Zhang, Yingjie Tian, Yun Su, Mingli Song(参考訳) 本稿では,様々なGNNのベースラインに容易に適用可能なプラグイン・アンド・プレイ方式として,MSInterpreterと呼ばれる解釈可能なGNNの推論パラダイムの開発を試みる。 既存の説明方法とは異なり、MSInterpreterはメッセージパス選択スキーム(MSScheme)を提供し、GNNのメッセージアグリゲーションの重要なパスを選択する。 具体的には,構造ベースがノード誘起部分構造間の重み係数を対象とするバニラ構造とノード埋め込み成分を考慮して,メッセージ集約パスの重み係数を計算することを目的とし,一方,ノード埋め込みベースは一層gnnによって得られたノード埋め込みによる重み係数に着目し,最後に,グラフ分類ベンチマークにおける提案手法の有効性を示す。

In this paper, we strive to develop an interpretable GNNs' inference paradigm, termed MSInterpreter, which can serve as a plug-and-play scheme readily applicable to various GNNs' baselines. Unlike the most existing explanation methods, MSInterpreter provides a Message-passing Selection scheme(MSScheme) to select the critical paths for GNNs' message aggregations, which aims at reaching the self-explaination instead of post-hoc explanations. In detail, the elaborate MSScheme is designed to calculate weight factors of message aggregation paths by considering the vanilla structure and node embedding components, where the structure base aims at weight factors among node-induced substructures; on the other hand, the node embedding base focuses on weight factors via node embeddings obtained by one-layer GNN.Finally, we demonstrate the effectiveness of our approach on graph classification benchmarks.
翻訳日:2023-06-09 18:32:13 公開日:2023-06-08
# 大規模信号制御の一般化性とロバスト性の向上

Improving the generalizability and robustness of large-scale traffic signal control ( http://arxiv.org/abs/2306.01925v2 )

ライセンス: Link先を確認
Tianyu Shi and Francois-Xavier Devailly and Denis Larocque and Laurent Charlin(参考訳) 多くの深層強化学習(RL)アプローチが交通信号を制御するために提案されている。 本研究では,2つの軸に沿った手法のロバスト性について検討する。 まず、センサーの故障とGPSの排除がデータ不足の課題を引き起こし、これらのデータ不足に直面した最近の手法が脆弱であることを示します。 第二に、RL法を異なるトラフィック構造を持つ新しいネットワークに一般化する能力をより体系的に研究する。 繰り返しますが、最近のアプローチの限界を特定します。 次に,分散学習とバニラ強化学習の組み合わせを,政策アンサンブルを用いて提案する。 グラフ畳み込みネットワーク(gcns)を用いた大規模トラヒック信号制御のための分散アプローチを用いた最先端の事前モデルに基づいて,まずdistributional reinforcement learning(disrl)アプローチを用いてモデルを学習する。 特に,暗黙の量子化ネットワーク (iqn) を用いて,量子化回帰を用いた状態応答戻り分布をモデル化する。 トラヒック信号制御問題では、標準rlとdrlのアンサンブルにより、センサデータの欠落レベルやトラフィックフローパターンなど、さまざまなシナリオで優れた性能が得られる。 さらに、得られたモデルの学習スキームは、合成ネットワークと実世界のネットワーク(例えば、マンハッタンのルクセンブルク)を含む異なる道路ネットワーク構造へのゼロショット転送性を改善することができる。 提案手法を多エージェント強化学習と従来の輸送手法と比較するための広範な実験を行った。 提案手法は, 欠落データ, 道路網, 交通流に面したロバスト性や一般化性を向上することを示す。

A number of deep reinforcement-learning (RL) approaches propose to control traffic signals. In this work, we study the robustness of such methods along two axes. First, sensor failures and GPS occlusions create missing-data challenges and we show that recent methods remain brittle in the face of these missing data. Second, we provide a more systematic study of the generalization ability of RL methods to new networks with different traffic regimes. Again, we identify the limitations of recent approaches. We then propose using a combination of distributional and vanilla reinforcement learning through a policy ensemble. Building upon the state-of-the-art previous model which uses a decentralized approach for large-scale traffic signal control with graph convolutional networks (GCNs), we first learn models using a distributional reinforcement learning (DisRL) approach. In particular, we use implicit quantile networks (IQN) to model the state-action return distribution with quantile regression. For traffic signal control problems, an ensemble of standard RL and DisRL yields superior performance across different scenarios, including different levels of missing sensor data and traffic flow patterns. Furthermore, the learning scheme of the resulting model can improve zero-shot transferability to different road network structures, including both synthetic networks and real-world networks (e.g., Luxembourg, Manhattan). We conduct extensive experiments to compare our approach to multi-agent reinforcement learning and traditional transportation approaches. Results show that the proposed method improves robustness and generalizability in the face of missing data, varying road networks, and traffic flows.
翻訳日:2023-06-09 18:31:18 公開日:2023-06-08
# BabySLM:自己教師型音声言語モデルの言語習得フレンドリーなベンチマーク

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models ( http://arxiv.org/abs/2306.01506v2 )

ライセンス: Link先を確認
Marvin Lavechin and Yaya Sy and Hadrien Titeux and Mar\'ia Andrea Cruz Bland\'on and Okko R\"as\"anen and Herv\'e Bredin and Emmanuel Dupoux and Alejandrina Cristia(参考訳) 音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。 これらのアプローチの可能性を十分に実現し、幼児が言語を学ぶ方法の理解を深めるために、シミュレーションは発達的に妥当なコーパスのトレーニングと適切なテストセットに対するベンチマークによって、現実の状況を密にエミュレートする必要がある。 そこで本研究では,子どもの言語経験の典型的語彙に適合する語彙と構文レベルでの発話言語モデルを調査するための言語獲得フレンドリなベンチマークを提案する。 本稿では,本ベンチマークを紹介し,その有用性を示す実験を概説する。 さらに,テキストと音声のギャップを埋めることと,クリーンな音声と単語間のギャップを埋めることという,さらなる進歩のために対処する必要がある2つのエキサイティングな課題を強調した。

Self-supervised techniques for learning speech representations have been shown to develop linguistic competence from exposure to speech without the need for human labels. In order to fully realize the potential of these approaches and further our understanding of how infants learn language, simulations must closely emulate real-life situations by training on developmentally plausible corpora and benchmarking against appropriate test sets. To this end, we propose a language-acquisition-friendly benchmark to probe spoken language models at the lexical and syntactic levels, both of which are compatible with the vocabulary typical of children's language experiences. This paper introduces the benchmark and summarizes a range of experiments showing its usefulness. In addition, we highlight two exciting challenges that need to be addressed for further progress: bridging the gap between text and speech and between clean speech and in-the-wild speech.
翻訳日:2023-06-09 18:30:52 公開日:2023-06-08
# GPT-4を用いた数学問題の解法に関する実証的研究

An Empirical Study on Challenging Math Problem Solving with GPT-4 ( http://arxiv.org/abs/2306.01337v2 )

ライセンス: Link先を確認
Yiran Wu, Feiran Jia, Shaokun Zhang, Hangyu Li, Erkang Zhu, Yue Wang, Yin Tat Lee, Richard Peng, Qingyun Wu, and Chi Wang(参考訳) 数学の問題に対処するために大規模言語モデル(llm)を採用することは興味深い研究であり、多くの科学や工学分野にわたる自然言語で表現される数学問題の豊富さを考慮する。 LLMを用いた基礎数学の解法について、いくつかの先行研究が検討されているが、より複雑で難解な数学問題の解法として GPT-4 を用いることのフロンティアについて検討している。 我々はgpt-4の使用方法を評価する。 いくつかは既存の仕事から適応したもので、そのひとつがmathchatという会話型問題解決フレームワークである。 提案手法の利点を示すMATHデータセットを用いて,難解な高校競争問題の評価を行う。

Employing Large Language Models (LLMs) to address mathematical problems is an intriguing research endeavor, considering the abundance of math problems expressed in natural language across numerous science and engineering fields. While several prior works have investigated solving elementary mathematics using LLMs, this work explores the frontier of using GPT-4 for solving more complex and challenging math problems. We evaluate various ways of using GPT-4. Some of them are adapted from existing work, and one is MathChat, a conversational problem-solving framework newly proposed in this work. We perform the evaluation on difficult high school competition problems from the MATH dataset, which shows the advantage of the proposed conversational approach.
翻訳日:2023-06-09 18:30:35 公開日:2023-06-08
# グラフアウトオブディストリビューション一般化のためのラベルと環境因果独立の連成学習

Joint Learning of Label and Environment Causal Independence for Graph Out-of-Distribution Generalization ( http://arxiv.org/abs/2306.01103v2 )

ライセンス: Link先を確認
Shurui Gui, Meng Liu, Xiner Li, Youzhi Luo, Shuiwang Ji(参考訳) 本稿では,分散グラフ(OOD)の一般化問題に取り組む。 既存のグラフOODアルゴリズムは、制限された仮定に依存するか、あるいはトレーニングデータの環境情報を利用することができない。 本稿では,ラベルと環境の因果独立性(leci)を同時に組み込んでラベル情報と環境情報を完全に活用し,因果と不変部分グラフの識別において先行手法が直面する課題を解決することを提案する。 さらに,これら2つの特性を理論的保証付き因果部分グラフ発見のために共同で最適化するための対角訓練戦略を開発した。 大規模な実験と分析により、LECIは合成データセットと実世界のデータセットの両方において先行手法を著しく上回り、LECIをグラフOOD一般化のための実用的で効果的なソリューションとして確立した。

We tackle the problem of graph out-of-distribution (OOD) generalization. Existing graph OOD algorithms either rely on restricted assumptions or fail to exploit environment information in training data. In this work, we propose to simultaneously incorporate label and environment causal independence (LECI) to fully make use of label and environment information, thereby addressing the challenges faced by prior methods on identifying causal and invariant subgraphs. We further develop an adversarial training strategy to jointly optimize these two properties for causal subgraph discovery with theoretical guarantees. Extensive experiments and analysis show that LECI significantly outperforms prior methods on both synthetic and real-world datasets, establishing LECI as a practical and effective solution for graph OOD generalization.
翻訳日:2023-06-09 18:30:23 公開日:2023-06-08
# 学習空間データのパーティショニング

Learned spatial data partitioning ( http://arxiv.org/abs/2306.04846v1 )

ライセンス: Link先を確認
Keizo Hori, Yuya Sasaki, Daichi Amagata, Yuki Murosaki, Makoto Onizuka(参考訳) 空間データのサイズが大幅に大きくなるため、分散並列処理システムを用いて空間データを効率的に解析することが不可欠である。 本稿では,機械学習技術を用いて空間データ分割を学習し,データの位置に基づくコンピュータに空間データのグループを効果的に割り当てる手法を提案する。 強化学習の文脈で空間データ分割を定式化し,新しい深層強化学習アルゴリズムを開発した。 学習アルゴリズムは空間データ分割とprunes非効率的な学習プロセスの特徴を活用して最適な分割を見つける。 本研究では,apache sedonaと実世界の空間データを用いた実験により,距離結合クエリを高速化するためのパーティションを効率的に発見し,最大59.4%のワークロード実行時間を削減できることを実証する。

Due to the significant increase in the size of spatial data, it is essential to use distributed parallel processing systems to efficiently analyze spatial data. In this paper, we first study learned spatial data partitioning, which effectively assigns groups of big spatial data to computers based on locations of data by using machine learning techniques. We formalize spatial data partitioning in the context of reinforcement learning and develop a novel deep reinforcement learning algorithm. Our learning algorithm leverages features of spatial data partitioning and prunes ineffective learning processes to find optimal partitions efficiently. Our experimental study, which uses Apache Sedona and real-world spatial data, demonstrates that our method efficiently finds partitions for accelerating distance join queries and reduces the workload run time by up to 59.4%.
翻訳日:2023-06-09 17:05:04 公開日:2023-06-08
# mix-of-supernets:architecture-routed mixed-of-expertsによるウェイトシェアリングスーパーネットトレーニングの改善

Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts ( http://arxiv.org/abs/2306.04845v1 )

ライセンス: Link先を確認
Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang, Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra(参考訳) 重み共有スーパーネットは、最先端(SOTA)ニューラルアーキテクチャサーチ(NAS)フレームワークのパフォーマンス推定において重要なコンポーネントとなっている。 supernetは再トレーニングすることなく、異なるサブネットワークを生成できるが、重み共有のため、これらのサブネットワークの品質保証はない。 機械翻訳や事前学習言語モデリングなどのNLPタスクでは、同じモデルアーキテクチャが与えられた場合、スーパーネットとスクラッチからのトレーニングの間に大きなパフォーマンスギャップがあることが観察される。 したがって、スーパーネットを直接使用することはできず、最適なアーキテクチャを見つけるために再トレーニングが必要となる。 本研究では,スーパーネットモデルの表現力を高めるためにmoe(mixed-of-experts)を採用する汎用スーパーネットであるmixed-of-supernetsを提案する。 このように、異なるサブネットワークはモデル重みを直接共有するのではなく、アーキテクチャベースのルーティングメカニズムを介して共有する。 その結果、異なるサブネットワークのモデルウェイトをそれぞれのアーキテクチャに合わせてカスタマイズし、勾配降下によりウェイト生成を学習する。 既存のnlp用ウェイトシェアリングスーパーネットと比較して,リトレーニング時間を最小限に抑えることができ,トレーニング効率を大幅に向上できる。 さらに,提案手法は,高速機械翻訳モデル構築のためのNASにおいて,高速機械翻訳モデル構築のためのSOTA性能を実現し,HATと比較して遅延-BLEUトレードオフが向上し,MTのための最先端NAS,メモリ効率の高いタスク非依存BERTモデル構築のためのNASにおけるSOTA性能も達成し,NAS-BERTとAutoDistilを様々なモデルサイズで向上させる。

Weight-sharing supernet has become a vital component for performance estimation in the state-of-the-art (SOTA) neural architecture search (NAS) frameworks. Although supernet can directly generate different subnetworks without retraining, there is no guarantee for the quality of these subnetworks because of weight sharing. In NLP tasks such as machine translation and pre-trained language modeling, we observe that given the same model architecture, there is a large performance gap between supernet and training from scratch. Hence, supernet cannot be directly used and retraining is necessary after finding the optimal architectures. In this work, we propose mixture-of-supernets, a generalized supernet formulation where mixture-of-experts (MoE) is adopted to enhance the expressive power of the supernet model, with negligible training overhead. In this way, different subnetworks do not share the model weights directly, but through an architecture-based routing mechanism. As a result, model weights of different subnetworks are customized towards their specific architectures and the weight generation is learned by gradient descent. Compared to existing weight-sharing supernet for NLP, our method can minimize the retraining time, greatly improving training efficiency. In addition, the proposed method achieves the SOTA performance in NAS for building fast machine translation models, yielding better latency-BLEU tradeoff compared to HAT, state-of-the-art NAS for MT. We also achieve the SOTA performance in NAS for building memory-efficient task-agnostic BERT models, outperforming NAS-BERT and AutoDistil in various model sizes.
翻訳日:2023-06-09 17:04:52 公開日:2023-06-08
# 量子学習の古典的検証

Classical Verification of Quantum Learning ( http://arxiv.org/abs/2306.04843v1 )

ライセンス: Link先を確認
Matthias C. Caro, Marcel Hinsche, Marios Ioannou, Alexander Nietner, Ryan Sweke(参考訳) 量子データアクセスと量子処理は、古典的に難解な学習タスクを実現することができる。 しかし、量子能力は近い将来、限られた少数の人にしか利用できない。 したがって、古典的クライアントが信頼できない量子サーバーに学習を委譲できるような信頼性の高いスキームは、量子学習の利点への広範なアクセスを促進するために必要である。 最近導入された古典的機械学習のための対話的証明システムのフレームワークに基づいて,量子学習の古典的検証のためのフレームワークを開発した。 我々は,古典学習者が自分自身で効率的に解けない学習問題を示すが,信頼できない量子証明器と対話する際には,効率よく,確実に解ける。 具体的には,一様入力境界を持つ分布に対する非依存的学習パリティとフーリエスパース関数の問題を考察する。 我々は、これらのタスクに対して効率的な量子学習アルゴリズムを提供する量子サンプルを「重ね合わせ混合」と呼ぶ新しい量子データアクセスモデルを提案する。 さらに,ランダムな例や統計的クエリアクセスしか持たない古典的検証器によって,非依存的な量子パリティとフーリエスパース学習を効率よく検証できることを示す。 最後に,学習と検証における2つの一般的なシナリオを紹介し,量子混合重ね合わせ例では古典データよりもサンプル複雑性が向上しないことを示す。 その結果、学習タスクにおける量子データの潜在能力は無限ではないが、信頼できない量子実体との相互作用を通じて古典的エージェントによって活用できることが示された。

Quantum data access and quantum processing can make certain classically intractable learning tasks feasible. However, quantum capabilities will only be available to a select few in the near future. Thus, reliable schemes that allow classical clients to delegate learning to untrusted quantum servers are required to facilitate widespread access to quantum learning advantages. Building on a recently introduced framework of interactive proof systems for classical machine learning, we develop a framework for classical verification of quantum learning. We exhibit learning problems that a classical learner cannot efficiently solve on their own, but that they can efficiently and reliably solve when interacting with an untrusted quantum prover. Concretely, we consider the problems of agnostic learning parities and Fourier-sparse functions with respect to distributions with uniform input marginal. We propose a new quantum data access model that we call "mixture-of-superpositions" quantum examples, based on which we give efficient quantum learning algorithms for these tasks. Moreover, we prove that agnostic quantum parity and Fourier-sparse learning can be efficiently verified by a classical verifier with only random example or statistical query access. Finally, we showcase two general scenarios in learning and verification in which quantum mixture-of-superpositions examples do not lead to sample complexity improvements over classical data. Our results demonstrate that the potential power of quantum data for learning tasks, while not unlimited, can be utilized by classical agents through interaction with untrusted quantum entities.
翻訳日:2023-06-09 17:04:23 公開日:2023-06-08
# InvPT++:ビジュアルシーン理解のための逆ピラミッドマルチタスク変換器

InvPT++: Inverted Pyramid Multi-Task Transformer for Visual Scene Understanding ( http://arxiv.org/abs/2306.04842v1 )

ライセンス: Link先を確認
Hanrong Ye and Dan Xu(参考訳) マルチタスクシーン理解は、1つの汎用モデルで複数のシーン理解タスクを同時に予測できるモデルを設計することを目的としている。 これまでの研究では、よりローカルな方法でマルチタスク機能を処理しているため、空間的にグローバルでクロスタスクなインタラクションを効果的に学習できないため、マルチタスク学習におけるさまざまなタスクの一貫性を十分に活用できない。 そこで本稿では,様々なタスクの空間的特徴間のクロスタスクインタラクションをグローバルコンテキストでモデル化できる逆ピラミッド型マルチタスクトランスフォーマを提案する。 具体的には,まずまずトランスフォーマーエンコーダを用いてタスク生成機能をキャプチャする。 そして,グローバルに空間的およびクロスタスクインタラクションを確立するためのトランスフォーマーデコーダを設計し,マルチタスク機能の解像度を徐々に向上し,異なるスケールでクロスタスクインタラクションを確立するために,新しいUP-Transformerブロックを考案した。 さらに,様々な機能尺度間でのクロスタスクインタラクションを効率的に行うために,融合注意と選択的注意という2種類のクロススケール・セルフアテンションモジュールが提案されている。 さらに,デコーダのマルチスケール情報をモデル化するために,エンコーダの特徴集約戦略を導入する。 複数の2d/3dマルチタスクベンチマークにおける包括的実験により,提案手法の有効性を明確に示し,最先端の性能を確立した。

Multi-task scene understanding aims to design models that can simultaneously predict several scene understanding tasks with one versatile model. Previous studies typically process multi-task features in a more local way, and thus cannot effectively learn spatially global and cross-task interactions, which hampers the models' ability to fully leverage the consistency of various tasks in multi-task learning. To tackle this problem, we propose an Inverted Pyramid multi-task Transformer, capable of modeling cross-task interaction among spatial features of different tasks in a global context. Specifically, we first utilize a transformer encoder to capture task-generic features for all tasks. And then, we design a transformer decoder to establish spatial and cross-task interaction globally, and a novel UP-Transformer block is devised to increase the resolutions of multi-task features gradually and establish cross-task interaction at different scales. Furthermore, two types of Cross-Scale Self-Attention modules, i.e., Fusion Attention and Selective Attention, are proposed to efficiently facilitate cross-task interaction across different feature scales. An Encoder Feature Aggregation strategy is further introduced to better model multi-scale information in the decoder. Comprehensive experiments on several 2D/3D multi-task benchmarks clearly demonstrate our proposal's effectiveness, establishing significant state-of-the-art performances.
翻訳日:2023-06-09 17:04:01 公開日:2023-06-08
# ベトナムの法的問題の改善-自動データ強化に基づく回答システム

Improving Vietnamese Legal Question--Answering System based on Automatic Data Enrichment ( http://arxiv.org/abs/2306.04841v1 )

ライセンス: Link先を確認
Thi-Hai-Yen Vuong, Ha-Thanh Nguyen, Quang-Huy Nguyen, Le-Minh Nguyen, and Xuan-Hieu Phan(参考訳) 法律における質問応答(qa)は、用語、構造、時間的および論理的関係の観点から、法律文書が通常のテキストよりもはるかに複雑であるため、難しい問題である。 ラベル付きデータはまれで、事前訓練済みの言語モデルはまだ限られているベトナムのような低リソース言語で法的qaを行うのはさらに困難である。 本稿では,ベトナムの記事レベルの検索に基づく法的qaシステムを実装し,弱いラベリングによるデータ品質の向上により,言語モデルの性能を向上させる新しい手法を提案する。 私たちの仮説は、ラベル付きデータが限られている状況では、効率的なデータエンリッチメントが全体的なパフォーマンス向上に役立ちます。 本実験は,提案手法の有効性を実証する多面的な実験である。

Question answering (QA) in law is a challenging problem because legal documents are much more complicated than normal texts in terms of terminology, structure, and temporal and logical relationships. It is even more difficult to perform legal QA for low-resource languages like Vietnamese where labeled data are rare and pre-trained language models are still limited. In this paper, we try to overcome these limitations by implementing a Vietnamese article-level retrieval-based legal QA system and introduce a novel method to improve the performance of language models by improving data quality through weak labeling. Our hypothesis is that in contexts where labeled data are limited, efficient data enrichment can help increase overall performance. Our experiments are designed to test multiple aspects, which demonstrate the effectiveness of the proposed technique.
翻訳日:2023-06-09 17:03:37 公開日:2023-06-08
# パラメトリック多型を用いた遺伝的プログラミングによる新しいプログラム合成問題の解法

Solving Novel Program Synthesis Problems with Genetic Programming using Parametric Polymorphism ( http://arxiv.org/abs/2306.04839v1 )

ライセンス: Link先を確認
Edward Pantridge, Thomas Helmuth(参考訳) 汎用プログラム合成のための現代遺伝プログラミング(GP)システムは、プリミティブなデータ型と単純なインデックス付きデータ構造の標準セットから値を操作できる進化プログラムに主に関係している。 対照的に、人間プログラマはデータ型の小さな有限集合に限定せず、ネストしたデータ構造、製品タイプ、ジェネリック関数を含む非有界な型を表現するために多型を使用する。 Code-build Genetic Programming (CBGP) は、スタックベースのコンパイルと形式型システムを用いて、線形ゲノムからタイプセーフなプログラムをコンパイルする手法である。 CBGPの以前の研究は、進化したプログラム内での多型の最初のデモを見せているが、キー値マップ、タプル、集合などの汎用データ型と、高次関数や多型型シグネチャを持つ関数を利用するプログラムの進化を通じて、これらの機能をより深く探求してきた。 我々の実験では、cbgpはこれらの全ての特性の問題を解決することができ、我々が知っている全てのgpシステムにはこれらの特性の問題を考慮できない制限があります。 このデモンストレーションは、gpの表現力を完全に現実世界のプログラミングに合わせるための重要なステップを提供する。

Contemporary genetic programming (GP) systems for general program synthesis have been primarily concerned with evolving programs that can manipulate values from a standard set of primitive data types and simple indexed data structures. In contrast, human programmers do not limit themselves to a small finite set of data types and use polymorphism to express an unbounded number of types including nested data structures, product types, and generic functions. Code-building Genetic Programming (CBGP) is a recently introduced method that compiles type-safe programs from linear genomes using stack-based compilation and a formal type system. Although prior work with CBGP has shown initial demonstrations of polymorphism inside evolved programs, we have provided a deeper exploration of these capabilities through the evolution of programs which make use of generic data types such as key-value maps, tuples, and sets, as well as higher order functions and functions with polymorphic type signatures. In our experiments, CBGP is able to solve problems with all of these properties, where every other GP system that we know of has restrictions that make it unable to even consider problems with these properties. This demonstration provides a significant step towards fully aligning the expressiveness of GP to real world programming.
翻訳日:2023-06-09 17:03:24 公開日:2023-06-08
# オフライン強化学習のための時間条件指導付きディフューザ

Instructed Diffuser with Temporal Condition Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.04875v1 )

ライセンス: Link先を確認
Jifeng Hu, Yanchao Sun, Sili Huang, SiYuan Guo, Hechang Chen, Li Shen, Lichao Sun, Yi Chang, Dacheng Tao(参考訳) 最近の研究は、コンピュータビジョンと自然言語処理における拡散モデルの可能性を示している。 古典的な教師付き学習分野とは別に、拡散モデルは、逐次生成としての意思決定を定式化することによって強化学習(RL)において強い競争力を示す。 しかし、逐次データの時間情報を導入し、拡散モデルを用いてより良い生成を行うことは、まだ未解決の課題である。 本稿では,時間的情報から洗練された時間的条件による制御可能な生成について検討する。 十分な探索シナリオにおける逐次生成における時間条件の重要性を観察し,その包括的考察と時間条件の比較を行った。 そこで本研究では, 相互作用列から時間情報を抽出し, 時間的条件を明示した時間拡散モデルであるtcdを提案する。 具体的には, 時系列を時間展開に応じて3つの部分に分け, 歴史的条件, 即時条件, 予測条件を識別する。 各条件は、配列の重複しない時間情報を保存し、ディフューザのガイドに共同で使用すると、より制御可能な生成を可能にする。 最後に,tcdのオフラインrlタスクへの適用性を明らかにするために広範な実験と分析を行い,本手法が以前のsataベースラインと比較して最高の性能に到達あるいは適合することを示す。

Recent works have shown the potential of diffusion models in computer vision and natural language processing. Apart from the classical supervised learning fields, diffusion models have also shown strong competitiveness in reinforcement learning (RL) by formulating decision-making as sequential generation. However, incorporating temporal information of sequential data and utilizing it to guide diffusion models to perform better generation is still an open challenge. In this paper, we take one step forward to investigate controllable generation with temporal conditions that are refined from temporal information. We observe the importance of temporal conditions in sequential generation in sufficient explorative scenarios and provide a comprehensive discussion and comparison of different temporal conditions. Based on the observations, we propose an effective temporally-conditional diffusion model coined Temporally-Composable Diffuser (TCD), which extracts temporal information from interaction sequences and explicitly guides generation with temporal conditions. Specifically, we separate the sequences into three parts according to time expansion and identify historical, immediate, and prospective conditions accordingly. Each condition preserves non-overlapping temporal information of sequences, enabling more controllable generation when we jointly use them to guide the diffuser. Finally, we conduct extensive experiments and analysis to reveal the favorable applicability of TCD in offline RL tasks, where our method reaches or matches the best performance compared with prior SOTA baselines.
翻訳日:2023-06-09 16:55:13 公開日:2023-06-08
# 拡大するスコープ:英語の逆襲を中国語に適応させる

Expanding Scope: Adapting English Adversarial Attacks to Chinese ( http://arxiv.org/abs/2306.04874v1 )

ライセンス: Link先を確認
Hanyu Liu, Chengyuan Cai, Yanjun Qi(参考訳) 最近の研究では、NLP予測モデルが敵攻撃に弱いことが示されている。 既存の研究の多くは、英語単独でNLPモデルの堅牢性を評価するために攻撃を設計することに焦点を当てている。 文学は他の言語に対するnlpソリューションの必要性が高まっている。 そこで我々は,最先端攻撃法(SOTA)が他の言語に一般化するかどうかという,自然な疑問を提起する。 本稿では,SOTA攻撃アルゴリズムを中国語に適応させる方法について検討する。 実験の結果,従来英語NLPに適用されていた攻撃手法は,適切なテキストセグメンテーションや言語制約と組み合わせることで,中国語の高品質な敵例を生成できることがわかった。 さらに, 生成した逆数例は, 中国語の形態や音韻に着目して, 高い頻度と意味的整合性を実現し, 中国語のNLPモデルの対数ロバスト性向上に有効であることを示す。

Recent studies have revealed that NLP predictive models are vulnerable to adversarial attacks. Most existing studies focused on designing attacks to evaluate the robustness of NLP models in the English language alone. Literature has seen an increasing need for NLP solutions for other languages. We, therefore, ask one natural question: whether state-of-the-art (SOTA) attack methods generalize to other languages. This paper investigates how to adapt SOTA adversarial attack algorithms in English to the Chinese language. Our experiments show that attack methods previously applied to English NLP can generate high-quality adversarial examples in Chinese when combined with proper text segmentation and linguistic constraints. In addition, we demonstrate that the generated adversarial examples can achieve high fluency and semantic consistency by focusing on the Chinese language's morphology and phonology, which in turn can be used to improve the adversarial robustness of Chinese NLP models.
翻訳日:2023-06-09 16:54:43 公開日:2023-06-08
# グラフDenoising Diffusionによる都市全体の原点推定行列生成

City-wide Origin-Destination Matrix Generation via Graph Denoising Diffusion ( http://arxiv.org/abs/2306.04873v1 )

ライセンス: Link先を確認
Can Rong, Jingtao Ding, Zhicheng Liu, Yong Li(参考訳) origin-destination~(od)行列は、都市計画や交通などにおいて広く使われている都市のモビリティフローなど、地域間を移動する個人数の推定を提供する。 都市部の特徴は様々であり, 歴史的流れを使わずに都市全体のOD行列を生成することは, 研究者, 実践者双方にとってますます魅力的になっている。 しかし、既存の作品は各要素、すなわち od 行列におけるフローの独立生成に制限されており、ネットワークとして適切に定式化できる行列内の要素関係を見渡すことができる。 本稿では,ネットワークの観点から都市規模のOD行列を生成することを提案するとともに,地域レベルでの都市特性を与えられたOD行列内のすべての要素の条件付き結合確率分布を学習するための拡散法を設計する。 何千もの領域をカバーする都市全体のod行列の学習難しさを克服するために,拡散モデルの元々のワンショット生成モデルを,ネットワークトポロジーとモビリティフローの生成に対応する2つのカスケードステージに分解する。 都市規模のOD行列に含まれる重要なネットワーク特性を再現するため,ノード特性拡張モジュールとグラフトランスフォーマーバックボーンを含む詳細なグラフ記述ネットワーク構造を設計した。 2つの大都市で収集されたデータに関する実証実験により,本手法は,ネットワーク統計が地平と著しく類似した新都市でOD行列を生成できることを確認した。

The Origin-Destination~(OD) matrix provides an estimation of number of individuals traveling between regions, i.e., mobility flow in the city, which is widely-used in urban planning, transportation, etc. Given various city characteristics of urban regions, generating the city-wide OD matrix without using historical flow information has become increasingly appealing to both researchers and practitioners. However, existing works are limited in independent generation of each element, i.e., flow, in OD matrix, overlooking the element relations within the matrix that can be well formulated as a network. In this paper, we instead propose to generate the city-wide OD matrix from the network perspective, and design a graph denoising diffusion method to learn the conditional joint probability distribution of all elements in the OD matrix given city characteristics at region level. To overcome the learning difficulty of the city-wide OD matrix covering over thousands of regions, we decompose the original one-shot generative modeling of the diffusion model into two cascaded stages, corresponding to the generation of network topology and mobility flow, respectively. To further reproduce important network properties contained in city-wide OD matrices, we design an elaborated graph denoising network structure including a node property augmentation module and a graph transformer backbone. Empirical experiments on data collected in two large US cities have verified that our method can generate OD matrices for new cities with network statistics remarkably similar with the ground truth, further achieving superior outperformance over competitive baselines in terms of the generation realism.
翻訳日:2023-06-09 16:54:19 公開日:2023-06-08
# MyStyle++: コントロール可能なパーソナライズされた生成先

MyStyle++: A Controllable Personalized Generative Prior ( http://arxiv.org/abs/2306.04865v1 )

ライセンス: Link先を確認
Libing Zeng, Lele Chen, Yi Xu, Nima Kalantari(参考訳) 本稿では,属性の集合を明示的に制御したパーソナライズされた生成先行情報を得る手法を提案する。 最近導入されたMyStyleは、トレーニング済みのStyleGANフェイスジェネレータの重量を、個人の数枚の画像に調整する。 本システムは、顔の特徴に対する忠実度の高い対象者の画像の合成、編集、強化を可能にする。 しかし、MyStyleは生成された画像の属性を正確に制御していない。 本稿では, 発電機のチューニングに加えて, 潜在空間を整理する新しい最適化システムによってこの問題に対処することを提案する。 私たちの重要な貢献は、属性に従って特定の方向のセットに沿って、入力画像に対応する潜在符号を配置する損失を定式化することです。 提案手法はMyStyle++と呼ばれ,個々の顔の特徴を保ちながら,属性を非常に制御した人物の画像を合成,編集,拡張することが可能であることを実証する。

In this paper, we propose an approach to obtain a personalized generative prior with explicit control over a set of attributes. We build upon MyStyle, a recently introduced method, that tunes the weights of a pre-trained StyleGAN face generator on a few images of an individual. This system allows synthesizing, editing, and enhancing images of the target individual with high fidelity to their facial features. However, MyStyle does not demonstrate precise control over the attributes of the generated images. We propose to address this problem through a novel optimization system that organizes the latent space in addition to tuning the generator. Our key contribution is to formulate a loss that arranges the latent codes, corresponding to the input images, along a set of specific directions according to their attributes. We demonstrate that our approach, dubbed MyStyle++, is able to synthesize, edit, and enhance images of an individual with great control over the attributes, while preserving the unique facial characteristics of that individual.
翻訳日:2023-06-09 16:53:22 公開日:2023-06-08
# フェデレーション学習における顧客選択に関する体系的文献レビュー

A Systematic Literature Review on Client Selection in Federated Learning ( http://arxiv.org/abs/2306.04862v1 )

ライセンス: Link先を確認
Carl Smestad (1) and Jingyue Li (2) ((1) Norwegian University of Science and Technology, (2) Norwegian University of Science and Technology)(参考訳) マシンラーニング内のプライバシに関する懸念が生まれ、2017年に連合学習(federated learning:fl)が発明され、モバイルデバイスなどのクライアントがモデルをトレーニングし、集中型サーバに更新を送信する。 FLのためにランダムにクライアントを選択することは、異なる理由から学習パフォーマンスを損なう可能性がある。 多くの研究がFLのクライアント選択の課題に対処するためのアプローチを提案している。 しかし、この話題に関する体系的文献レビュー(slr)は存在しなかった。 このSLRは、FLにおけるクライアントの選択技術の現状を調査し、ソリューションを評価するための課題、ソリューション、メトリクスに答えます。 47の初等研究を体系的に検討した。 クライアント選択で見られる主な課題は、異質性、リソース割り当て、通信コスト、公平性である。 クライアント選択方式は、上記の課題の1つまたは複数に焦点をあてて、元のランダム選択アルゴリズムを改善することを目的としている。 最も一般的な測定基準は、コミュニケーションラウンドと精度テストであり、テスト精度は、学習の成功度を計測し、非常に高価であるため、できるだけ少ないコミュニケーションラウンドで好まれる。 クライアント選択の現在の状況ではいくつかの改善が可能であるが、最も有益なものは、失敗するクライアントの影響を評価し、FLにおける公正の影響をより理論的に理解することである。

With the arising concerns of privacy within machine learning, federated learning (FL) was invented in 2017, in which the clients, such as mobile devices, train a model and send the update to the centralized server. Choosing clients randomly for FL can harm learning performance due to different reasons. Many studies have proposed approaches to address the challenges of client selection of FL. However, no systematic literature review (SLR) on this topic existed. This SLR investigates the state of the art of client selection in FL and answers the challenges, solutions, and metrics to evaluate the solutions. We systematically reviewed 47 primary studies. The main challenges found in client selection are heterogeneity, resource allocation, communication costs, and fairness. The client selection schemes aim to improve the original random selection algorithm by focusing on one or several of the aforementioned challenges. The most common metric used is testing accuracy versus communication rounds, as testing accuracy measures the successfulness of the learning and preferably in as few communication rounds as possible, as they are very expensive. Although several possible improvements can be made with the current state of client selection, the most beneficial ones are evaluating the impact of unsuccessful clients and gaining a more theoretical understanding of the impact of fairness in FL.
翻訳日:2023-06-09 16:52:53 公開日:2023-06-08
# 島型ランダムダイナミック電圧スケーリングとML強化電源サイドチャネル攻撃

Island-based Random Dynamic Voltage Scaling vs ML-Enhanced Power Side-Channel Attacks ( http://arxiv.org/abs/2306.04859v1 )

ライセンス: Link先を確認
Dake Chen, Christine Goins, Maxwell Waugaman, Georgios D. Dimou, Peter A. Beerel(参考訳) 本稿では,島をベースとしたランダムな動的電圧スケーリング(iRDVS)アプローチによる電力サイドチャネル攻撃の回避と解析を行う。 まず, 独立電圧島数が信号対雑音比およびトレースのずれに与える影響を解析した。 そこで我々は,3つ以上の独立電圧を持つシステムにおいて,非教師なし機械学習(ML)による攻撃を効果的に行うことを提案する。 しかし,4つの電圧島を持つ iRDVS は 200k の暗号トレースで破壊できないため,iRDVS が有効である可能性が示唆された。 AES-256アクセラレータの3つの変種を組み込んだ12nm FinFetプロセスでiRDVSテストチップを記述することで講演を終了する。 これには同期コア、保護のない非同期コア、非同期ロジックを使ったirdvs技術を使用したコアが含まれる。 チップからの実験では、2つの未保護変種がテストベクトルリーク評価(TVLA)の安全性試験に失敗し、iRDVSは様々な構成で安全であることが証明された。

In this paper, we describe and analyze an island-based random dynamic voltage scaling (iRDVS) approach to thwart power side-channel attacks. We first analyze the impact of the number of independent voltage islands on the resulting signal-to-noise ratio and trace misalignment. As part of our analysis of misalignment, we propose a novel unsupervised machine learning (ML) based attack that is effective on systems with three or fewer independent voltages. Our results show that iRDVS with four voltage islands, however, cannot be broken with 200k encryption traces, suggesting that iRDVS can be effective. We finish the talk by describing an iRDVS test chip in a 12nm FinFet process that incorporates three variants of an AES-256 accelerator, all originating from the same RTL. This included a synchronous core, an asynchronous core with no protection, and a core employing the iRDVS technique using asynchronous logic. Lab measurements from the chips indicated that both unprotected variants failed the test vector leakage assessment (TVLA) security metric test, while the iRDVS was proven secure in a variety of configurations.
翻訳日:2023-06-09 16:52:32 公開日:2023-06-08
# カゴメ格子上の$j_1$-$j_2$モデルにおける相転移点を越えたvqeの性能

The Performance of VQE across a phase transition point in the $J_1$-$J_2$ model on kagome lattice ( http://arxiv.org/abs/2306.04851v1 )

ライセンス: Link先を確認
Yuheng Guo, Mingpu Qin(参考訳) 変分量子固有解法 (VQE) は、ノイズ中間スケール量子 (NISQ) 時代の量子コンピュータを利用するための効率的な古典量子ハイブリッド法である。 本研究では,カゴメ格子上の反強磁性ハイゼンベルクモデルを用いて,1次相転移を$J_2 / J_1 \approx 0.01$で示すことにより,VQEの性能を検証した。 vqe状態と正確な対角化結果を比較することで、vqeエネルギーは、研究した18サイトシステムにおけるパラメータのほとんどの領域の正確な値とよく一致することがわかった。 しかし、相転移点付近では、VQEは変動パラメータの数が十分大きくない場合、励起状態に収束する傾向にある。 この研究で研究されたシステムでは、パラメータの数を増やすか、位相遷移点から$J_2/J_1$の収束値でパラメータを初期化することにより、この問題を解決できる。 本研究では,実量子コンピュータにおけるvqeの応用について,強相関量子多体系の研究に有用なガイダンスを提供する。

Variational quantum eigensolver (VQE) is an efficient classical-quantum hybrid method to take advantage of quantum computers in the Noisy Intermediate-Scale Quantum (NISQ) era. In this work we test the performance of VQE by studying the $J_1$-$J_2$ anti-ferromagnetic Heisenberg model on the kagome lattice, which is found to display a first order phase transition at $J_2 / J_1 \approx 0.01$. By comparing the VQE states with the exact diagonalization results, we find VQE energies agree well with the exact values in most region of parameters for the 18-site system we studied. However, near the phase transition point, VQE tends to converge to the excited states when the number of variational parameters is not large enough. For the system studied in this work, this issue can be solved by either increasing the number of parameters or by initializing the parameters with converged values for $J_2/J_1$ away from the phase transition point. Our results provide useful guidance for the practical application of VQE on real quantum computers to study strongly correlated quantum many-body systems.
翻訳日:2023-06-09 16:52:11 公開日:2023-06-08
# ScaleDet: スケーラブルなマルチデータセットオブジェクト検出器

ScaleDet: A Scalable Multi-Dataset Object Detector ( http://arxiv.org/abs/2306.04849v1 )

ライセンス: Link先を確認
Yanbei Chen, Manchen Wang, Abhay Mittal, Zhenlin Xu, Paolo Favaro, Joseph Tighe, Davide Modolo(参考訳) マルチデータセットトレーニングは、追加のアノテーションコストなしで異質な大規模データセットを利用するための実行可能なソリューションを提供する。 本研究では,トレーニングデータセット数を増加させる際に,データセット全体の一般化をスケールアップできるスケーラブルなマルチデータセット検出器(scaledet)を提案する。 データセット間でラベルを統一するための手作業や高度な最適化に大きく依存する既存のマルチデータセット学習者とは異なり、マルチデータセットトレーニングのための統一セマンティックラベル空間を導出するためのシンプルでスケーラブルな定式化を導入する。 ScaleDetはビジュアルテキストアライメントによってトレーニングされ、データセット間のラベルセマンティックな類似性によってラベルの割り当てを学ぶ。 トレーニングが完了すると、ScaleDetは、任意の上流および下流のデータセットに対して、見知らぬクラスでうまく一般化することができる。 lvis、coco、object365、openimagesをアップストリームデータセットとして、オブジェクト検出(odinw)から13のデータセットをダウンストリームデータセットとして幅広い実験を行います。 以上の結果から,LVISでは50.7,COCOでは58.8,Objects365では46.8,OpenImageでは76.2,ODinWでは71.8,バックボーンでは最先端検出器では71.8で,強力なモデル性能を達成できた。

Multi-dataset training provides a viable solution for exploiting heterogeneous large-scale datasets without extra annotation cost. In this work, we propose a scalable multi-dataset detector (ScaleDet) that can scale up its generalization across datasets when increasing the number of training datasets. Unlike existing multi-dataset learners that mostly rely on manual relabelling efforts or sophisticated optimizations to unify labels across datasets, we introduce a simple yet scalable formulation to derive a unified semantic label space for multi-dataset training. ScaleDet is trained by visual-textual alignment to learn the label assignment with label semantic similarities across datasets. Once trained, ScaleDet can generalize well on any given upstream and downstream datasets with seen and unseen classes. We conduct extensive experiments using LVIS, COCO, Objects365, OpenImages as upstream datasets, and 13 datasets from Object Detection in the Wild (ODinW) as downstream datasets. Our results show that ScaleDet achieves compelling strong model performance with an mAP of 50.7 on LVIS, 58.8 on COCO, 46.8 on Objects365, 76.2 on OpenImages, and 71.8 on ODinW, surpassing state-of-the-art detectors with the same backbone.
翻訳日:2023-06-09 16:51:48 公開日:2023-06-08
# ユークリッド距離関数を用いた拡散モデルの解釈と改善

Interpreting and Improving Diffusion Models Using the Euclidean Distance Function ( http://arxiv.org/abs/2306.04848v1 )

ライセンス: Link先を確認
Frank Permenter and Chenyang Yuan(参考訳) ディノイジングは直観的に投影と関係がある。 実際、多様体仮説の下では、ランダムノイズを加えることは直交摂動とほぼ同値である。 したがって、妄想を学ぶことは、プロジェクトを学ぶことです。 本稿では,この観測をユークリッド距離関数に適用した近似勾配勾配の拡散モデルの再解釈に利用する。 そこで本研究では, DDIM サンプルの直進収束解析を, デノイザの投射誤差に関する簡単な仮定で行う。 最後に, DDIMに対する2つの簡単な修正に基づく新しいサンプリング手法を提案する。 CIFAR-10 と CelebA のモデルでは,5-10 の関数評価が達成され,遅延拡散モデルでは高品質なサンプルを生成することができる。

Denoising is intuitively related to projection. Indeed, under the manifold hypothesis, adding random noise is approximately equivalent to orthogonal perturbation. Hence, learning to denoise is approximately learning to project. In this paper, we use this observation to reinterpret denoising diffusion models as approximate gradient descent applied to the Euclidean distance function. We then provide straight-forward convergence analysis of the DDIM sampler under simple assumptions on the projection-error of the denoiser. Finally, we propose a new sampler based on two simple modifications to DDIM using insights from our theoretical results. In as few as 5-10 function evaluations, our sampler achieves state-of-the-art FID scores on pretrained CIFAR-10 and CelebA models and can generate high quality samples on latent diffusion models.
翻訳日:2023-06-09 16:51:20 公開日:2023-06-08
# 双対過程によるニューラルネットワークへの確率微分方程式の埋め込み

Embedding stochastic differential equations into neural networks via dual processes ( http://arxiv.org/abs/2306.04847v1 )

ライセンス: Link先を確認
Naoki Sughishita and Jun Ohkubo(参考訳) 本稿では,確率微分方程式の予測のためのニューラルネットワーク構築手法を提案する。 提案手法は入力と出力のデータセットを必要としないが、代わりに時間進化方程式から得られる情報、すなわち対応する2重過程をニューラルネットワークの重みと直接比較する。 実演として,Ornstein-Uhlenbeck プロセスと van der Pol システムのためのニューラルネットワークを構築した。 提案手法による学習ネットワークの顕著な特徴は、起点付近の入力の精度である。 したがって、学習したネットワークがトレーニングデータセットに依存しないため、過度に適合する問題を避けることができる。

We propose a new approach to constructing a neural network for predicting expectations of stochastic differential equations. The proposed method does not need data sets of inputs and outputs; instead, the information obtained from the time-evolution equations, i.e., the corresponding dual process, is directly compared with the weights in the neural network. As a demonstration, we construct neural networks for the Ornstein-Uhlenbeck process and the noisy van der Pol system. The remarkable feature of learned networks with the proposed method is the accuracy of inputs near the origin. Hence, it would be possible to avoid the overfitting problem because the learned network does not depend on training data sets.
翻訳日:2023-06-09 16:51:07 公開日:2023-06-08
# データから部分微分方程式を学習するためのベイズ的枠組み

A Bayesian Framework for learning governing Partial Differential Equation from Data ( http://arxiv.org/abs/2306.04894v1 )

ライセンス: Link先を確認
Kalpesh More and Tapas Tripura and Rajdip Nayek and Souvik Chakraborty(参考訳) 偏微分方程式 (PDE) の発見は、理論的手法と経験的手法の両方を含む難しい課題である。 この問題を解決するために機械学習アプローチが開発され、使用されているが、既存の手法ではノイズの存在下で基礎となる方程式を正確に識別することが難しいことが多いことに注意する必要がある。 本研究では,変分ベイズと疎線形回帰を組み合わせた新しいPDE発見手法を提案する。 PDE発見の問題は、予め定義された基底関数辞書から関連する基底を学習する問題として提起されている。 全体過程を加速するため,偏微分方程式を発見するための変分ベイズに基づくアプローチを提案する。 スパーシティを確保するために、私たちは前にスパイクとスラブを採用しています。 本稿では,Burgers,Krteweg-de Vries,Kramoto Sivashinsky,Wave equation,Heat equation (1Dおよび2D)など,いくつかの例で戦略の有効性について述べる。 提案手法は,データからPDEを発見し,物理,工学,生物学などの分野への応用を期待できる方法である。

The discovery of partial differential equations (PDEs) is a challenging task that involves both theoretical and empirical methods. Machine learning approaches have been developed and used to solve this problem; however, it is important to note that existing methods often struggle to identify the underlying equation accurately in the presence of noise. In this study, we present a new approach to discovering PDEs by combining variational Bayes and sparse linear regression. The problem of PDE discovery has been posed as a problem to learn relevant basis from a predefined dictionary of basis functions. To accelerate the overall process, a variational Bayes-based approach for discovering partial differential equations is proposed. To ensure sparsity, we employ a spike and slab prior. We illustrate the efficacy of our strategy in several examples, including Burgers, Korteweg-de Vries, Kuramoto Sivashinsky, wave equation, and heat equation (1D as well as 2D). Our method offers a promising avenue for discovering PDEs from data and has potential applications in fields such as physics, engineering, and biology.
翻訳日:2023-06-09 16:45:37 公開日:2023-06-08
# 変化に対応する: 細粒度視覚分類のための学習不変量および最小表現

Coping with Change: Learning Invariant and Minimum Sufficient Representations for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2306.04893v1 )

ライセンス: Link先を確認
Shuo Ye and Shujian Yu and Wenjin Hou and Yu Wang and Xinge You(参考訳) 細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。 以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見当たらないテストデータによく当てはまると暗黙に仮定していた。 しかし、これらの条件が必ずしもベンチマークデータセットに当てはまるとは限らないことを実証的に正当化する。 この目的のために、FGVCの不変かつ最小の十分(IMS)表現を学習するために、不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせる。 我々は行列ベースの r{\'e}nyi の $\alpha$-order entropy を適用して ib のトレーニングを単純化し安定化する。 我々の知る限りでは、我々は一般化の観点から初めてFGVCの問題に対処し、それに応じて新しい情報理論のソリューションを開発する。 大規模な実験では、IMSによる一貫したパフォーマンス向上が示されています。

Fine-grained visual categorization (FGVC) is a challenging task due to similar visual appearances between various species. Previous studies always implicitly assume that the training and test data have the same underlying distributions, and that features extracted by modern backbone architectures remain discriminative and generalize well to unseen test data. However, we empirically justify that these conditions are not always true on benchmark datasets. To this end, we combine the merits of invariant risk minimization (IRM) and information bottleneck (IB) principle to learn invariant and minimum sufficient (IMS) representations for FGVC, such that the overall model can always discover the most succinct and consistent fine-grained features. We apply the matrix-based R{\'e}nyi's $\alpha$-order entropy to simplify and stabilize the training of IB; we also design a ``soft" environment partition scheme to make IRM applicable to FGVC task. To the best of our knowledge, we are the first to address the problem of FGVC from a generalization perspective and develop a new information-theoretic solution accordingly. Extensive experiments demonstrate the consistent performance gain offered by our IMS.
翻訳日:2023-06-09 16:45:17 公開日:2023-06-08
# ベイズ・プリズムによる文脈内学習

In-Context Learning through the Bayesian Prism ( http://arxiv.org/abs/2306.04891v1 )

ライセンス: Link先を確認
Kabir Ahuja, Madhur Panwar, Navin Goyal(参考訳) インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。 どのように機能するかは、研究の活発な領域である。 近年、言語モデリングの損失を利用して関数クラスから入力出力ペアのシーケンス$(x, f(x))$でこれらのモデルをトレーニングし、同じクラスから見つからない関数への一般化を観察するスタイル化メタラーニングライクな設定が考案されている。 この研究における主要な発見の1つは、線形回帰のようないくつかの問題に対して、訓練されたトランスフォーマーが文脈における学習関数のアルゴリズムを学ぶことである。 しかし、これらのモデルがこのような振る舞いをもたらす誘導バイアスは明確には理解されていない。 無制限のトレーニングデータと計算能力を持つモデルはベイズ予測器であり、事前学習分布を学習する。 高容量変圧器は線形回帰のベイズ予測器を模倣していることが示されている。 本稿では,この理想学習者の振る舞いを示すトランスフォーマの,線形および非線形関数クラスにおける実験的な証拠を示す。 また、従来の設定をマルチタスク設定に拡張し、変換器がこの設定でコンテキスト内学習が可能であることを確認するとともに、ベイズ的視点もこの設定に光を当てる。 最後に,フーリエ級数学習の例を通じて,文脈内学習における帰納的バイアスについて検討する。 テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれない。

In-context learning is one of the surprising and useful features of large language models. How it works is an active area of research. Recently, stylized meta-learning-like setups have been devised that train these models on a sequence of input-output pairs $(x, f(x))$ from a function class using the language modeling loss and observe generalization to unseen functions from the same class. One of the main discoveries in this line of research has been that for several problems such as linear regression, trained transformers learn algorithms for learning functions in context. However, the inductive biases of these models resulting in this behavior are not clearly understood. A model with unlimited training data and compute is a Bayesian predictor: it learns the pretraining distribution. It has been shown that high-capacity transformers mimic the Bayesian predictor for linear regression. In this paper, we show empirical evidence of transformers exhibiting the behavior of this ideal learner across different linear and non-linear function classes. We also extend the previous setups to work in the multitask setting and verify that transformers can do in-context learning in this setup as well and the Bayesian perspective sheds light on this setting also. Finally, via the example of learning Fourier series, we study the inductive bias for in-context learning. We find that in-context learning may or may not have simplicity bias depending on the pretraining data distribution.
翻訳日:2023-06-09 16:44:55 公開日:2023-06-08
# ShaDDR:3次元形状詳細化と微分レンダリングによる実時間実例ベース形状とテクスチャ生成

ShaDDR: Real-Time Example-Based Geometry and Texture Generation via 3D Shape Detailization and Differentiable Rendering ( http://arxiv.org/abs/2306.04889v1 )

ライセンス: Link先を確認
Qimin Chen, Zhiqin Chen, Hang Zhou, Hao Zhang(参考訳) 入力された粗いボクセル形状に適用した幾何学的詳細化と条件付きテクスチャ生成により,高分解能なテクスチャ形状を生成する実例に基づく深部生成ニューラルネットワークShaDDRを提案する。 本手法は, 微細かつテクスチャ化された模範形状の小さなセットに基づいて, 多重解像度のボクセルアップサンプリングによる幾何学の精密化を学習し, ボクセル表面のテクスチャを生成する。 生成時間は1秒未満で、ボクセル解像度が最大512^3の3Dモデルを生成する。 生成した形状は入力された粗いボクセルモデル全体の構造を保ち、生成した幾何学的詳細やテクスチャのスタイルは学習された潜時符号で操作できる。 実験により,本手法は従来よりも高分解能な形状を生成でき,幾何的細部や清潔なテクスチャを向上できることを示した。 さらに,実世界の写真から再構成した形状から幾何学的詳細やテクスチャを学習する方法について述べる。 さらに,提案手法を様々な入力に一般化し,その制御性を実証するインタラクティブ・モデリング・アプリケーションを開発し,粗いボクセル形状を対話的に彫刻し,詳細な3次元形状の全体構造を定義できるようにした。

We present ShaDDR, an example-based deep generative neural network which produces a high-resolution textured 3D shape through geometry detailization and conditional texture generation applied to an input coarse voxel shape. Trained on a small set of detailed and textured exemplar shapes, our method learns to detailize the geometry via multi-resolution voxel upsampling and generate textures on voxel surfaces via differentiable rendering against exemplar texture images from a few views. The generation is real-time, taking less than 1 second to produce a 3D model with voxel resolutions up to 512^3. The generated shape preserves the overall structure of the input coarse voxel model, while the style of the generated geometric details and textures can be manipulated through learned latent codes. In the experiments, we show that our method can generate higher-resolution shapes with plausible and improved geometric details and clean textures compared to prior works. Furthermore, we showcase the ability of our method to learn geometric details and textures from shapes reconstructed from real-world photos. In addition, we have developed an interactive modeling application to demonstrate the generalizability of our method to various user inputs and the controllability it offers, allowing users to interactively sculpt a coarse voxel shape to define the overall structure of the detailized 3D shape.
翻訳日:2023-06-09 16:44:31 公開日:2023-06-08
# ワイヤレスネットワークにおけるパーソナライズを可能にするビッグデータ駆動およびaiベースのフレームワーク

Big-data-driven and AI-based framework to enable personalization in wireless networks ( http://arxiv.org/abs/2306.04887v1 )

ライセンス: Link先を確認
Rawan Alkurd, Ibrahim Abualhaol, and Halim Yanikomeroglu(参考訳) 現在の通信ネットワークは、最大ネットワーク効率の実現を妨げる設計手法を使用している。 そもそも、利用者の満足いくサービスに対する認識は多様化しているが、現在のネットワークは「ユニバーサル・フィット」として設計されており、一般にあらゆる種類のユーザーにアピールするサービスを提供するために過度に設計されている。 また、現在のネットワークには、自動化によるパーソナライズされたネットワークの決定とアクションを高速に行う、ユーザレベルのデータ認知知能がない。 そこで本稿では,無線ネットワークのパーソナライズを実現するために,AI,ビッグデータ分析,リアルタイム非侵襲的ユーザフィードバックの利用を提案する。 各ユーザの実際のQoS要件とコンテキストに基づいて、マルチオブジェクトの定式化により、ネットワークが提供されたQoSとユーザの満足度を同時に管理し、最適化することができる。 さらに,ユーザからのフィードバックの追跡と測定を可能にするために,許容範囲の概念に基づくユーザ満足度モデルを提案する。 さらに、無線ネットワークにパーソナライズを統合するためのビッグデータ駆動型AIベースのパーソナライズフレームワークを提案する。 最後に,提案するパーソナライゼーション概念とそのメリットをケーススタディで実証するために,パーソナライズされたネットワークプロトタイプを実装した。 ケーススタディでは,ネットワークリソースの効率的な最適化を実現するために,ユーザ満足度や収益の一定の要件レベルが達成されるようなパーソナライズを実現する方法を示す。

Current communication networks use design methodologies that prevent the realization of maximum network efficiency. In the first place, while users' perception of satisfactory service diverges widely, current networks are designed to be a "universal fit," where they are generally over-engineered to deliver services appealing to all types of users. Also, current networks lack user-level data cognitive intelligence that would enable fast personalized network decisions and actions through automation. Thus, in this article, we propose the utilization of AI, big data analytics, and real-time non-intrusive user feedback in order to enable the personalization of wireless networks. Based on each user's actual QoS requirements and context, a multi-objective formulation enables the network to micro-manage and optimize the provided QoS and user satisfaction levels simultaneously. Moreover, in order to enable user feedback tracking and measurement, we propose a user satisfaction model based on the zone of tolerance concept. Furthermore, we propose a big-data-driven and AI-based personalization framework to integrate personalization into wireless networks. Finally, we implement a personalized network prototype to demonstrate the proposed personalization concept and its potential benefits through a case study. The case study shows how personalization can be realized to enable the efficient optimization of network resources such that certain requirement levels of user satisfaction and revenue in the form of saved resources are achieved.
翻訳日:2023-06-09 16:44:06 公開日:2023-06-08
# タンパク質-リガンド結合親和性予測のためのマルチタスクバイオアッセイ事前トレーニング

Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity Prediction ( http://arxiv.org/abs/2306.04886v1 )

ライセンス: Link先を確認
Jiaxian Yan, Zhaofeng Ye, Ziyi Yang, Chengqiang Lu, Shengyu Zhang, Qi Liu, Jiezhong Qiu(参考訳) タンパク質リガンド結合親和性(PLBA)予測は薬物発見の基本的な課題である。 近年,タンパク質-リガンド複合体の3次元構造を入力として組み込んで結合親和性を予測し,驚くべき進歩を達成している。 しかし、高品質なトレーニングデータの不足により、現在のモデルの一般化能力はまだ限られている。 さらに、異なるバイオアッセイは様々なアフィニティ測定ラベル(IC50、Ki、Kd)を使用し、様々な実験条件が必然的にシステマティックノイズを導入し、高精度なアフィニティ予測モデルを構築する上で大きな課題となる。 これらの問題に対処するために,(1)構造ベースplba予測のための事前学習フレームワークであるマルチタスクバイオアッセイプレトレーニング(mbp)を提案し,(2)300k以上の実験的アフィニティラベルと約2.8mのドッキングドッキング構造を持つchembl-dockと呼ばれる事前学習データセットを構築した。 異なる親和性ラベルの予測を異なるタスクとして扱うためにマルチタスク事前学習を導入し、同じバイオアッセイからサンプル間の相対ランキングを分類することで、mbpは、変動ラベルとノイズラベルを持つ新しいchembl-dockデータセットから堅牢で転送可能な構造知識を学習する。 実験は、主流構造に基づくPLBA予測タスクの改善と調整が可能な一般的なフレームワークとしてのMBPの能力を裏付けるものである。 我々の知る限り、MBPは最初の親和性事前学習モデルであり、将来の発展に大きな可能性を示している。

Protein-ligand binding affinity (PLBA) prediction is the fundamental task in drug discovery. Recently, various deep learning-based models predict binding affinity by incorporating the three-dimensional structure of protein-ligand complexes as input and achieving astounding progress. However, due to the scarcity of high-quality training data, the generalization ability of current models is still limited. In addition, different bioassays use varying affinity measurement labels (i.e., IC50, Ki, Kd), and different experimental conditions inevitably introduce systematic noise, which poses a significant challenge to constructing high-precision affinity prediction models. To address these issues, we (1) propose Multi-task Bioassay Pre-training (MBP), a pre-training framework for structure-based PLBA prediction; (2) construct a pre-training dataset called ChEMBL-Dock with more than 300k experimentally measured affinity labels and about 2.8M docked three-dimensional structures. By introducing multi-task pre-training to treat the prediction of different affinity labels as different tasks and classifying relative rankings between samples from the same bioassay, MBP learns robust and transferrable structural knowledge from our new ChEMBL-Dock dataset with varied and noisy labels. Experiments substantiate the capability of MBP as a general framework that can improve and be tailored to mainstream structure-based PLBA prediction tasks. To the best of our knowledge, MBP is the first affinity pre-training model and shows great potential for future development.
翻訳日:2023-06-09 16:43:43 公開日:2023-06-08
# パラメータ化グラフクラスタリングとエッジラベリングのための高速近似アルゴリズム

Faster Approximation Algorithms for Parameterized Graph Clustering and Edge Labeling ( http://arxiv.org/abs/2306.04884v1 )

ライセンス: Link先を確認
Vedangi Bengali, Nate Veldt(参考訳) グラフクラスタリングは、グラフの他の部分と疎結合なノードの集合を検出することを目的としている、ネットワーク分析における基本的なタスクである。 本稿では,NPハードなパラメータ化クラスタリングフレームワークLambdaCCの高速化アルゴリズムを提案する。 従来のLambdaCCアルゴリズムは近似保証のないヒューリスティックか、計算に高価な近似アルゴリズムである。 我々は、純粋に組合せ可能な高速な新しい近似アルゴリズムを提供する。 これらは、三進的三進的閉包の原理に基づく従来のエッジラベル問題を一般化し、ソーシャルネットワーク分析に独立した関心を持つ新しいパラメータ化エッジラベル問題に依存する。 我々の手法は従来の近似アルゴリズムよりも桁違いに拡張性があり、下限は、それ自身で近似保証を持たない過去のヒューリスティックに対する後続近似保証を得ることを可能にする。

Graph clustering is a fundamental task in network analysis where the goal is to detect sets of nodes that are well-connected to each other but sparsely connected to the rest of the graph. We present faster approximation algorithms for an NP-hard parameterized clustering framework called LambdaCC, which is governed by a tunable resolution parameter and generalizes many other clustering objectives such as modularity, sparsest cut, and cluster deletion. Previous LambdaCC algorithms are either heuristics with no approximation guarantees, or computationally expensive approximation algorithms. We provide fast new approximation algorithms that can be made purely combinatorial. These rely on a new parameterized edge labeling problem we introduce that generalizes previous edge labeling problems that are based on the principle of strong triadic closure and are of independent interest in social network analysis. Our methods are orders of magnitude more scalable than previous approximation algorithms and our lower bounds allow us to obtain a posteriori approximation guarantees for previous heuristics that have no approximation guarantees of their own.
翻訳日:2023-06-09 16:43:14 公開日:2023-06-08
# 混合精度後の量子化における層間依存によるヘッセンの増大

Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision Post-Training Quantization ( http://arxiv.org/abs/2306.04879v1 )

ライセンス: Link先を確認
Clemens JS Schaefer, Navid Lambert-Shirzad, Xiaofan Zhang, Chiachen Chou, Tom Jablin, Jian Li, Elfie Guo, Caitlin Stanton, Siddharth Joshi, Yu Emma Wang(参考訳) モデルの複雑さとパラメータ数の増加により、低レイテンシのニューラルネットワークモデルを効率的に提供することが難しくなっている。 モデル量子化は、メモリフットプリントと計算要求を同時に削減するソリューションを提供する。 しかし、攻撃的な量子化はモデル内の異なる層間の数値的不完全さに対する感度の差によって、モデル精度の許容できない損失をもたらす可能性がある。 そこで本研究では,ptq(mixed-precision post training quantization)手法を提案する。モデル精度を維持しつつ,メモリフットプリントの低減とレイテンシ向上を目的として,ネットワーク内のテンソルに異なる数値精度を割り当てる。 これまでの研究は, 層別ヘッシアン情報に依存して数値的精度を判定してきたが, 一般に, ヘッシアン推定は, 層感度の効果的な順序決定には不十分である。 我々は、層間依存関係をキャプチャする追加情報を含む推定ヘッセンを補強することで、この問題に対処する。 複数のモデルにまたがる精度・レイテンシのParetoフロンティアに沿ってPTQ性能を一貫して改善することを示す。 本手法は,2次情報と層間依存性を組み合わせることで,二分探索を誘導し,ユーザ構成可能なモデル精度劣化範囲内で量子化構成を求める。 提案手法の有効性をResNet50, MobileNetV2, BERTモデルで評価した。 実験では16ビットのベースラインである$25.48\%$、$1.69\%$、$3.28\%$と比較してレイテンシの低減を示し、モデル精度はベースラインモデルの$99.99\%$まで維持した。

Efficiently serving neural network models with low latency is becoming more challenging due to increasing model complexity and parameter count. Model quantization offers a solution which simultaneously reduces memory footprint and compute requirements. However, aggressive quantization may lead to an unacceptable loss in model accuracy owing to differences in sensitivity to numerical imperfection across different layers in the model. To address this challenge, we propose a mixed-precision post training quantization (PTQ) approach that assigns different numerical precisions to tensors in a network based on their specific needs, for a reduced memory footprint and improved latency while preserving model accuracy. Previous works rely on layer-wise Hessian information to determine numerical precision, but as we demonstrate, Hessian estimation is typically insufficient in determining an effective ordering of layer sensitivities. We address this by augmenting the estimated Hessian with additional information to capture inter-layer dependencies. We demonstrate that this consistently improves PTQ performance along the accuracy-latency Pareto frontier across multiple models. Our method combines second-order information and inter-layer dependencies to guide a bisection search, finding quantization configurations within a user-configurable model accuracy degradation range. We evaluate the effectiveness of our method on the ResNet50, MobileNetV2, and BERT models. Our experiments demonstrate latency reductions compared to a 16-bit baseline of $25.48\%$, $21.69\%$, and $33.28\%$ respectively, while maintaining model accuracy to within $99.99\%$ of the baseline model.
翻訳日:2023-06-09 16:42:57 公開日:2023-06-08
# ユニタリ演算間の量子ワッサーシュタイン距離

Quantum Wasserstein distance between unitary operations ( http://arxiv.org/abs/2306.04878v1 )

ライセンス: Link先を確認
Xinyu Qiu and Lin Chen(参考訳) ユニタリ演算に対するノイズの影響の定量化は、量子情報処理において必須の課題である。 本研究では,量子回路の複雑性を説明するユニタリ演算間の量子ワッサースタイン距離を提案し,マルチクイット演算の局所的識別性を特徴付ける。 スワップ、cnot、その他の制御ゲートを含む、広く使われている量子ゲートと同一性の距離に関する解析計算を示す。 応用として、回路内の量子ゲート間の近接性を推定し、ノイズ演算が距離に近づくと理想のゲートをシミュレートすることを示す。 さらに、w_1$の誤差率を距離別に導入し、典型的な雑音条件下での量子誤差補正におけるw_1$の誤差率と2つの実用的コスト尺度との関係性を確立する。

Quantifying the effect of noise on unitary operations is an essential task in quantum information processing. We propose the quantum Wasserstein distance between unitary operations, which shows an explanation for quantum circuit complexity and characterizes local distinguishability of multi-qudit operations. We show analytical calculation of the distance between identity and widely-used quantum gates including SWAP, CNOT, and other controlled gates. As an application, we estimate the closeness between quantum gates in circuit, and show that the noisy operation simulates the ideal one well when they become close under the distance. Further we introduce the $W_1$ error rate by the distance, and establish the relation between the $W_1$ error rate and two practical cost measures of recovery operation in quantum error-correction under typical noise scenarios.
翻訳日:2023-06-09 16:42:30 公開日:2023-06-08
# アクティベーション最適化を用いたトロイの木馬モデル検出

Trojan Model Detection Using Activation Optimization ( http://arxiv.org/abs/2306.04877v1 )

ライセンス: Link先を確認
Mohamed E. Hussein, Sudharshan Subramaniam Janakiraman, Wael AbdAlmageed(参考訳) データの利用可能性やサイズが大きいこと、機械学習モデルをトレーニングする計算コストや人件費が高いことから、可能な限りオープンソースの事前学習モデルに頼ることが一般的である。 しかし、このプラクティスはセキュリティの観点から懸念を抱いている。 事前訓練されたモデルはトロイの木馬攻撃に感染し、攻撃者はモデルにトリガーを埋め込んで、入力にトリガーが存在するときにモデルの動作がアタッカーによって制御されるようにする。 本稿では,トロイの木馬モデル検出のための新しい手法について予備研究を行う。 本手法はアクティベーション最適化に基づくモデルのシグネチャを生成する。 分類器は、そのシグネチャが与えられたトロイの木馬モデルを検出するように訓練される。 提案手法は,2つの公開データセットにおけるアートパフォーマンスの状態を実現できる。

Due to data's unavailability or large size, and the high computational and human labor costs of training machine learning models, it is a common practice to rely on open source pre-trained models whenever possible. However, this practice is worry some from the security perspective. Pre-trained models can be infected with Trojan attacks, in which the attacker embeds a trigger in the model such that the model's behavior can be controlled by the attacker when the trigger is present in the input. In this paper, we present our preliminary work on a novel method for Trojan model detection. Our method creates a signature for a model based on activation optimization. A classifier is then trained to detect a Trojan model given its signature. Our method achieves state of the art performance on two public datasets.
翻訳日:2023-06-09 16:42:16 公開日:2023-06-08
# テスト時間スタイルシフト:ドメイン一般化における任意スタイルの扱い

Test-Time Style Shifting: Handling Arbitrary Styles in Domain Generalization ( http://arxiv.org/abs/2306.04911v1 )

ライセンス: Link先を確認
Jungwuk Park, Dong-Jun Han, Soyeong Kim, Jaekyun Moon(参考訳) ドメイン一般化(DG)では、モデルがトレーニングされている時点でターゲットドメインが不明であり、トレーニングされたモデルは、推論中に任意の(そしておそらく見えない)ターゲットドメインでうまく動作するべきである。 これは難しい問題であり、近年の活発な研究にもかかわらず、依然として大きな課題である。 本稿では,この問題に対処するために,シンプルながら効果的なアプローチをとる。 我々は,テストサンプルのスタイル(ソースドメインとのスタイルギャップが大きい)を,モデルがすでに慣れ親しんでいる最寄りのソースドメインに変換し,予測を行うテストタイムスタイルシフトを提案する。 この戦略により、テスト時に追加のモデルを更新することなく、任意のスタイル統計でターゲットドメインを処理できる。 さらに,dg固有の不均衡問題に対処することで,テスト時のスタイルシフトの利点を最大化する優れたプラットフォームを提供するスタイルバランシングを提案する。 提案したアイデアは実装が容易であり、他の様々なDGスキームと連携してうまく機能する。 異なるデータセットにおける実験結果は,提案手法の有効性を示す。

In domain generalization (DG), the target domain is unknown when the model is being trained, and the trained model should successfully work on an arbitrary (and possibly unseen) target domain during inference. This is a difficult problem, and despite active studies in recent years, it remains a great challenge. In this paper, we take a simple yet effective approach to tackle this issue. We propose test-time style shifting, which shifts the style of the test sample (that has a large style gap with the source domains) to the nearest source domain that the model is already familiar with, before making the prediction. This strategy enables the model to handle any target domains with arbitrary style statistics, without additional model update at test-time. Additionally, we propose style balancing, which provides a great platform for maximizing the advantage of test-time style shifting by handling the DG-specific imbalance issues. The proposed ideas are easy to implement and successfully work in conjunction with various other DG schemes. Experimental results on different datasets show the effectiveness of our methods.
翻訳日:2023-06-09 16:34:38 公開日:2023-06-08
# ViG-UNet:医療画像分割のためのビジョングラフニューラルネットワーク

ViG-UNet: Vision Graph Neural Networks for Medical Image Segmentation ( http://arxiv.org/abs/2306.04905v1 )

ライセンス: Link先を確認
Juntao Jiang, Xiyu Chen, Guanzhong Tian and Yong Liu(参考訳) 深層ニューラルネットワークは医用画像解析に広く使われており、医用画像分割は最も重要な課題の1つである。 エンコーダデコーダを備えたU字型ニューラルネットワークが普及しており、様々なセグメンテーションタスクで大きく成功している。 cnnは画像をユークリッド空間の画素のグリッドとして扱い、トランスフォーマーは画像をパッチのシーケンスとして認識するが、グラフベースの表現はより一般化され、画像の各部分の接続を構築することができる。 本稿では、エンコーダ、デコーダ、ボトルネック、スキップ接続を備えたグラフニューラルネットワークに基づくU字型アーキテクチャであるViG-UNetを提案する。 ダウンサンプリングとアップサンプリングモジュールも慎重に設計されている。 ISIC 2016 と ISIC 2017 と Kvasir-SEG のデータセットによる実験結果から,提案したアーキテクチャが既存のU字型ネットワークよりも優れていることが示された。

Deep neural networks have been widely used in medical image analysis and medical image segmentation is one of the most important tasks. U-shaped neural networks with encoder-decoder are prevailing and have succeeded greatly in various segmentation tasks. While CNNs treat an image as a grid of pixels in Euclidean space and Transformers recognize an image as a sequence of patches, graph-based representation is more generalized and can construct connections for each part of an image. In this paper, we propose a novel ViG-UNet, a graph neural network-based U-shaped architecture with the encoder, the decoder, the bottleneck, and skip connections. The downsampling and upsampling modules are also carefully designed. The experimental results on ISIC 2016, ISIC 2017 and Kvasir-SEG datasets demonstrate that our proposed architecture outperforms most existing classic and state-of-the-art U-shaped networks.
翻訳日:2023-06-09 16:34:20 公開日:2023-06-08
# 適応型ラグランジアン法による物理と等式制約付き人工ニューラルネットワークの訓練

An adaptive augmented Lagrangian method for training physics and equality constrained artificial neural networks ( http://arxiv.org/abs/2306.04904v1 )

ライセンス: Link先を確認
Shamsulhaq Basir, Inanc Senocak(参考訳) 物理と等式制約付き人工ニューラルネットワーク(PECANN)は、偏微分方程式(PDE)の解を、その境界条件と初期条件と、利用可能な高忠実度データとを適切に制約する制約付き最適化法に基づいている。 この目的のために、pecannフレームワークにおける拡張ラグランジアン法の採用は、ニューラルネットワークのパラメータを決定する目的関数において、個々の損失項を手動でバランスさせることなく、pdesの解法を学ぶ上で最重要となる。 一般に、ALMはペナルティとラグランジュ乗算法の利点を組み合わせ、これらの手法と単独で関連する条件や収束の問題を回避する。 本研究では,PECANNフレームワークを用いて,拡張された多様な制約の集合を持つ前方および逆問題の解決を行う。 そこで本研究では,almのペナルティパラメータとラグランジュ乗算器の更新に関する従来の定式化が困難であることを示す。 この問題に対処するために,適応的下位段階法に着想を得た規則に従って適応的に進化する一意のペナルティパラメータを各制約に割り当てる適応ALMを提案する。 さらに,ミニバッチトレーニングを可能にする計算効率と省エネ性を向上させるため,pecannの定式化を改訂した。 本研究では,Navier-Stokes方程式の原始変数定式化による非圧縮性流体のシミュレーションを含む,雑音データを用いた前方およびPDE制約の逆問題の解法により,提案手法の有効性を実証する。

Physics and equality constrained artificial neural networks (PECANN) are grounded in methods of constrained optimization to properly constrain the solution of partial differential equations (PDEs) with their boundary and initial conditions and any high-fidelity data that may be available. To this end, adoption of the augmented Lagrangian method within the PECANN framework is paramount for learning the solution of PDEs without manually balancing the individual loss terms in the objective function used for determining the parameters of the neural network. Generally speaking, ALM combines the merits of the penalty and Lagrange multiplier methods while avoiding the ill conditioning and convergence issues associated singly with these methods . In the present work, we apply our PECANN framework to solve forward and inverse problems that have an expanded and diverse set of constraints. We show that ALM with its conventional formulation to update its penalty parameter and Lagrange multipliers stalls for such challenging problems. To address this issue, we propose an adaptive ALM in which each constraint is assigned a unique penalty parameter that evolve adaptively according to a rule inspired by the adaptive subgradient method. Additionally, we revise our PECANN formulation for improved computational efficiency and savings which allows for mini-batch training. We demonstrate the efficacy of our proposed approach by solving several forward and PDE-constrained inverse problems with noisy data, including simulation of incompressible fluid flows with a primitive-variables formulation of the Navier-Stokes equations up to a Reynolds number of 1000.
翻訳日:2023-06-09 16:34:03 公開日:2023-06-08
# NOWJ at COLIEE 2023 -- 法情報処理におけるマルチタスクとアンサンブルアプローチ

NOWJ at COLIEE 2023 -- Multi-Task and Ensemble Approaches in Legal Information Processing ( http://arxiv.org/abs/2306.04903v1 )

ライセンス: Link先を確認
Thi-Hai-Yen Vuong, Hai-Long Nguyen, Tan-Minh Nguyen, Hoang-Trung Nguyen, Thai-Binh Nguyen, Ha-Thanh Nguyen(参考訳) 本稿では、法律情報処理技術の進歩と現実の法的シナリオへの応用に焦点を当てた、commonee 2023 コンペティションに対する nowj チームのアプローチについて述べる。 弊社のチームは、訴訟検索、判例検索、法令検索、法的テキスト検索の4つの課題に取り組んでいます。 我々は最先端の機械学習モデルとbert、longformer、bm25ランキングアルゴリズム、マルチタスク学習モデルといった革新的なアプローチを採用している。 我々のチームは最先端の結果は得られなかったが、我々の発見は貴重な洞察を与え、今後の法情報処理の改善の道を開く。

This paper presents the NOWJ team's approach to the COLIEE 2023 Competition, which focuses on advancing legal information processing techniques and applying them to real-world legal scenarios. Our team tackles the four tasks in the competition, which involve legal case retrieval, legal case entailment, statute law retrieval, and legal textual entailment. We employ state-of-the-art machine learning models and innovative approaches, such as BERT, Longformer, BM25-ranking algorithm, and multi-task learning models. Although our team did not achieve state-of-the-art results, our findings provide valuable insights and pave the way for future improvements in legal information processing.
翻訳日:2023-06-09 16:33:33 公開日:2023-06-08
# 非マルコフアルゴリズムのカバータイム研究

A Cover Time Study of a non-Markovian Algorithm ( http://arxiv.org/abs/2306.04902v1 )

ライセンス: Link先を確認
Guanhua Fang, Gennady Samorodnitsky, Zhiqiang Xu(参考訳) トラバーサルアルゴリズムが与えられた場合、カバータイムは、与えられたグラフの全ノードを訪問するために必要なステップ数である。 カバータイムが小さくなると、トラバースアルゴリズムの探索効率が向上する。 ランダムウォークアルゴリズムは既存の文献で広く研究されているが、非マルコフ法ではカバータイムは得られていない。 本研究では,理論的な視点から,負のフィードバック戦略(数に基づく探索法)がナイーブなランダムウォーク探索より優れていることを示す。 特に、前者の戦略は任意のグラフの探索効率を局所的に改善することができる。 また、クライクグラフやツリーグラフなど、特別なが重要なグラフのカバータイムも短縮する。 さらに,従来の UCB アルゴリズムと MCTS アルゴリズムがなぜ有用かという新たな知見を提供するため,本研究の結果と強化学習文献の関連付けを行う。 様々な数値結果が理論的知見を裏付ける。

Given a traversal algorithm, cover time is the expected number of steps needed to visit all nodes in a given graph. A smaller cover time means a higher exploration efficiency of traversal algorithm. Although random walk algorithms have been studied extensively in the existing literature, there has been no cover time result for any non-Markovian method. In this work, we stand on a theoretical perspective and show that the negative feedback strategy (a count-based exploration method) is better than the naive random walk search. In particular, the former strategy can locally improve the search efficiency for an arbitrary graph. It also achieves smaller cover times for special but important graphs, including clique graphs, tree graphs, etc. Moreover, we make connections between our results and reinforcement learning literature to give new insights on why classical UCB and MCTS algorithms are so useful. Various numerical results corroborate our theoretical findings.
翻訳日:2023-06-09 16:33:20 公開日:2023-06-08
# 伝達学習の一般化性能:過パラメータ化と過パラメータ化

Generalization Performance of Transfer Learning: Overparameterized and Underparameterized Regimes ( http://arxiv.org/abs/2306.04901v1 )

ライセンス: Link先を確認
Peizhong Ju, Sen Lin, Mark S. Squillante, Yingbin Liang, Ness B. Shroff(参考訳) トランスファー学習は、ソースタスクから得た知識を活用し、ターゲットタスクに適用することにより、パフォーマンスの向上とトレーニングコストの削減に有用なテクニックである。 伝達学習の有効性を評価することは、情報源の真理と目標タスクの類似性を理解することに依存する。 現実のアプリケーションでは、タスクは部分的な類似性を示し、ある側面は似ているが、他のタスクは異なるか無関係である。 伝達学習性能に対する部分的類似性の影響を調べるために,タスク間で共有される共通部分とタスク固有の部分の2つの特徴セットを持つ線形回帰モデルに着目した。 本研究は、パラメータ転送の2つの選択肢を包含して、様々な種類の転送学習を探索する。 学習モデルの誤りに関する理論的特徴を定式化することにより、これらの伝達学習オプションの比較を行い、特に、パラメータ化と過パラメータ化の両方の条件における特徴/パラメータの数による一般化性能の変化について検討する。 さらに,一般化性能を向上させるために,共通部分やタスク固有の部分の特徴数を決定するための実践的なガイドラインを提案する。 例えば、ソースタスクの学習モデルの機能の合計数が固定されると、共通部分よりもタスク固有の部分に多くの冗長な機能を割り当てることがより有利であることが示されます。 さらに、特定のシナリオ、特に高い騒音レベルと小さな真のパラメータによって特徴づけられるものにおいては、タスク固有の部分でより冗長な特徴を採用することで、共通部分における特定の真の特徴を犠牲にすることで、顕著なメリットが得られる。

Transfer learning is a useful technique for achieving improved performance and reducing training costs by leveraging the knowledge gained from source tasks and applying it to target tasks. Assessing the effectiveness of transfer learning relies on understanding the similarity between the ground truth of the source and target tasks. In real-world applications, tasks often exhibit partial similarity, where certain aspects are similar while others are different or irrelevant. To investigate the impact of partial similarity on transfer learning performance, we focus on a linear regression model with two distinct sets of features: a common part shared across tasks and a task-specific part. Our study explores various types of transfer learning, encompassing two options for parameter transfer. By establishing a theoretical characterization on the error of the learned model, we compare these transfer learning options, particularly examining how generalization performance changes with the number of features/parameters in both underparameterized and overparameterized regimes. Furthermore, we provide practical guidelines for determining the number of features in the common and task-specific parts for improved generalization performance. For example, when the total number of features in the source task's learning model is fixed, we show that it is more advantageous to allocate a greater number of redundant features to the task-specific part rather than the common part. Moreover, in specific scenarios, particularly those characterized by high noise levels and small true parameters, sacrificing certain true features in the common part in favor of employing more redundant features in the task-specific part can yield notable benefits.
翻訳日:2023-06-09 16:33:06 公開日:2023-06-08
# ブラインド変異効果予測のための多レベルタンパク質表現学習

Multi-level Protein Representation Learning for Blind Mutational Effect Prediction ( http://arxiv.org/abs/2306.04899v1 )

ライセンス: Link先を確認
Yang Tan, Bingxin Zhou, Yuanhong Jiang, Yu Guang Wang, Liang Hong(参考訳) 誘導進化は、タンパク質工学において必須の役割を担い、既存のタンパク質配列を改良し、新規または強化された機能を達成する。 タンパク質変異の影響を正確に予測するには、タンパク質の構造と機能の詳細な理解が必要である。 大きな自己教師付き言語モデルは、タンパク質配列のみを用いたゼロショット推論において顕著な性能を示したが、これらのモデルは本質的にタンパク質構造の空間的特性を解釈していない。 本稿では,タンパク質一次構造および第3次構造の逐次および幾何学的アナライザをカスケードする新しい事前学習フレームワークを提案する。 野生型タンパク質の自然選択をシミュレートして、望ましい形質への突然変異方向を誘導し、その機能を実行するための適合度に基づいて変異体の効果を評価する。 提案手法は,多種多様なタンパク質群と異なる分類群からのアッセイを含む多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。 予測結果は,単発突然変異と深発突然変異の両方に対して,他のゼロショット学習法よりも最先端のパフォーマンスを実現する。

Directed evolution plays an indispensable role in protein engineering that revises existing protein sequences to attain new or enhanced functions. Accurately predicting the effects of protein variants necessitates an in-depth understanding of protein structure and function. Although large self-supervised language models have demonstrated remarkable performance in zero-shot inference using only protein sequences, these models inherently do not interpret the spatial characteristics of protein structures, which are crucial for comprehending protein folding stability and internal molecular interactions. This paper introduces a novel pre-training framework that cascades sequential and geometric analyzers for protein primary and tertiary structures. It guides mutational directions toward desired traits by simulating natural selection on wild-type proteins and evaluates the effects of variants based on their fitness to perform the function. We assess the proposed approach using a public database and two new databases for a variety of variant effect prediction tasks, which encompass a diverse set of proteins and assays from different taxa. The prediction results achieve state-of-the-art performance over other zero-shot learning methods for both single-site mutations and deep mutations.
翻訳日:2023-06-09 16:32:39 公開日:2023-06-08
# 階層的潜在変数モデルによるマスクオートエンコーダの理解

Understanding Masked Autoencoders via Hierarchical Latent Variable Models ( http://arxiv.org/abs/2306.04898v1 )

ライセンス: Link先を確認
Lingjing Kong, Martin Q. Ma, Guangyi Chen, Eric P. Xing, Yuejie Chi, Louis-Philippe Morency, Kun Zhang(参考訳) Masked Autoencoder (MAE)は、マスクされた画像領域の再構成に基づくシンプルで効果的な自己教師付き学習フレームワークであり、近年、様々な視覚タスクにおいて顕著な成功を収めている。 MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠けている。 本研究では,既存の経験的洞察を形式的に特徴づけ,正当化し,MAEの理論的保証を提供する。 階層型潜在変数モデルとして基礎となるデータ生成プロセスを定式化し、合理的な仮定により、MAEは階層型モデルの潜在変数の集合を確実に特定し、なぜMAEがピクセルから高レベル情報を抽出できるかを説明する。 さらに、MAEのキーハイパーパラメータ(マスキング比とパッチサイズ)がどの真の潜伏変数を復元するかを判断し、表現における意味情報のレベルに影響を与えることを示す。 特に、非常に大きいか小さいマスキング比は必然的に低レベルの表現をもたらす。 本理論は,既存の経験的観察のコヒーレントな説明を提供し,マスキング・リコンストラクションパラダイムの潜在的な経験的改善と基本的な限界についての洞察を提供する。 理論的な洞察を検証するための広範な実験を行う。

Masked autoencoder (MAE), a simple and effective self-supervised learning framework based on the reconstruction of masked image regions, has recently achieved prominent success in a variety of vision tasks. Despite the emergence of intriguing empirical observations on MAE, a theoretically principled understanding is still lacking. In this work, we formally characterize and justify existing empirical insights and provide theoretical guarantees of MAE. We formulate the underlying data-generating process as a hierarchical latent variable model and show that under reasonable assumptions, MAE provably identifies a set of latent variables in the hierarchical model, explaining why MAE can extract high-level information from pixels. Further, we show how key hyperparameters in MAE (the masking ratio and the patch size) determine which true latent variables to be recovered, therefore influencing the level of semantic information in the representation. Specifically, extremely large or small masking ratios inevitably lead to low-level representations. Our theory offers coherent explanations of existing empirical observations and provides insights for potential empirical improvements and fundamental limitations of the masking-reconstruction paradigm. We conduct extensive experiments to validate our theoretical insights.
翻訳日:2023-06-09 16:32:18 公開日:2023-06-08
# Muti-ScaleとToken Mergence: ViTをより効率的に

Muti-Scale And Token Mergence: Make Your ViT More Efficient ( http://arxiv.org/abs/2306.04897v1 )

ライセンス: Link先を確認
Zhe Bian, Zhe Wang, Wenqiang Han, Kangping Wang(参考訳) その開始以来、ビジョントランスフォーマー(vit)はコンピュータビジョンの領域で一般的なモデルとして登場してきた。 それでも、ViTのマルチヘッド自己注意機構(MHSA)は、全てのトークン間の関係の計算のために計算コストがかかる。 トークンを捨てることで計算オーバーヘッドを軽減する手法もあるが、それによってトークンから潜在的な情報が失われる。 これらの問題に対処するために,より重要なトークンをマージすることにより,非クルーズトークンからの情報を保持し,モデル性能への影響を緩和する新しいトークンプルーニング手法を提案する。 地殻および非地殻トークンは、その重要度スコアによって識別され、類似度スコアに基づいてマージされる。 さらに、よりリッチな特徴表現を生成するためにトークンプルーニングの前に融合した画像を表現するために、マルチスケール機能を利用する。 重要なことは,本手法を様々なViTとシームレスに統合し,適応性を向上させることである。 モデル性能に及ぼすトークンプルーニングの影響を低減するためのアプローチの有効性を実験的に検証した。 例えば、imagenetデータセットでは、deit-sの精度が0.1%低下する一方、計算コストの顕著な33%削減を達成している。

Since its inception, Vision Transformer (ViT) has emerged as a prevalent model in the computer vision domain. Nonetheless, the multi-head self-attention (MHSA) mechanism in ViT is computationally expensive due to its calculation of relationships among all tokens. Although some techniques mitigate computational overhead by discarding tokens, this also results in the loss of potential information from those tokens. To tackle these issues, we propose a novel token pruning method that retains information from non-crucial tokens by merging them with more crucial tokens, thereby mitigating the impact of pruning on model performance. Crucial and non-crucial tokens are identified by their importance scores and merged based on similarity scores. Furthermore, multi-scale features are exploited to represent images, which are fused prior to token pruning to produce richer feature representations. Importantly, our method can be seamlessly integrated with various ViTs, enhancing their adaptability. Experimental evidence substantiates the efficacy of our approach in reducing the influence of token pruning on model performance. For instance, on the ImageNet dataset, it achieves a remarkable 33% reduction in computational costs while only incurring a 0.1% decrease in accuracy on DeiT-S.
翻訳日:2023-06-09 16:31:59 公開日:2023-06-08
# フルグラデーションペナルティをもつ条件付き生成逆ネットワークを用いた物理学に基づく逆問題の解法

Solution of physics-based inverse problems using conditional generative adversarial networks with full gradient penalty ( http://arxiv.org/abs/2306.04895v1 )

ライセンス: Link先を確認
Deep Ray, Javier Murgoitio-Esandi, Agnimitra Dasgupta, Assad A. Oberai(参考訳) 対応するフォワード問題は物理原理によって制約される確率的逆問題の解は困難である。 これは特に、推定ベクトルの次元が大きく、それに関する以前の情報がサンプルの集まりの形で存在する場合である。 本研究では,これらの問題を解決するために,新しい深層学習に基づくアプローチを開発し,応用する。 提案手法では,事前分布から引き出された推定ベクトルのサンプルと物理モデルを用いて,条件付きワッサーシュタイン生成逆数ネットワーク(cWGAN)のトレーニングデータを生成する。 cWGANは、測定に基づいて条件付き推定ベクトルの確率分布を学習し、この分布からサンプルを生成する。 この研究で開発されたcWGANは、前者だけでなく、推定ベクトルと測定ベクトルの両方に関して、その批判が1-Lipschitzであることが要求される以前のバージョンとは異なる。 これは完全な(部分的ではない)勾配のペナルティを伴う損失項につながる。 この比較的単純な変化は、cWGANによって学習された条件密度の収束の強い概念と、より堅牢で正確なサンプリング戦略をもたらすことが示されている。 数値的な例を通して、この変化は逆問題を解く際の精度も向上することを示した。 考えられる数値的な例は、真の分布や統計が知られているような実証的な問題と、バイオメカニクスの応用によって動機付けられたより複雑な逆問題である。

The solution of probabilistic inverse problems for which the corresponding forward problem is constrained by physical principles is challenging. This is especially true if the dimension of the inferred vector is large and the prior information about it is in the form of a collection of samples. In this work, a novel deep learning based approach is developed and applied to solving these types of problems. The approach utilizes samples of the inferred vector drawn from the prior distribution and a physics-based forward model to generate training data for a conditional Wasserstein generative adversarial network (cWGAN). The cWGAN learns the probability distribution for the inferred vector conditioned on the measurement and produces samples from this distribution. The cWGAN developed in this work differs from earlier versions in that its critic is required to be 1-Lipschitz with respect to both the inferred and the measurement vectors and not just the former. This leads to a loss term with the full (and not partial) gradient penalty. It is shown that this rather simple change leads to a stronger notion of convergence for the conditional density learned by the cWGAN and a more robust and accurate sampling strategy. Through numerical examples it is shown that this change also translates to better accuracy when solving inverse problems. The numerical examples considered include illustrative problems where the true distribution and/or statistics are known, and a more complex inverse problem motivated by applications in biomechanics.
翻訳日:2023-06-09 16:31:42 公開日:2023-06-08
# InfoPrompt:自然言語理解のための情報理論ソフトプロンプトチューニング

InfoPrompt: Information-Theoretic Soft Prompt Tuning for Natural Language Understanding ( http://arxiv.org/abs/2306.04933v1 )

ライセンス: Link先を確認
Junda Wu, Tong Yu, Rui Wang, Zhao Song, Ruiyi Zhang, Handong Zhao, Chaochao Lu, Shuai Li, Ricardo Henao(参考訳) ソフトプロンプトチューニングは、幅広い数ショットタスクで優れたパフォーマンスを達成する。 しかしながら、プロンプトチューニングのパフォーマンスは、プロンプトの初期化に非常に敏感である。 また,従来のプロンプトチューニング手法では,プロンプトトークンから十分なタスク関連情報をエンコードし,学習できないことを実証的に観察する。 本研究では,プロンプトと他のモデルパラメータ(あるいは符号化表現)間の相互情報の最大化としてソフトプロンプトチューニングを定式化する情報理論フレームワークを開発する。 この新しいビューは、より効率的で正確で堅牢なソフトプロンプトチューニング手法InfoPromptの開発に役立ちます。 この枠組みにより, 相互情報に基づく損失関数を2つ開発する。 (i)ダウンストリームタスクの適切なプロンプト初期化を発見し、プロンプトトークンから十分なタスク関連情報を学びます。 (ii) 事前学習された言語モデルからの出力表現は、学習プロンプトでキャプチャされたタスク関連情報をより意識するように促す。 広範な実験により、infopromptはプロンプトチューニングの収束を著しく加速し、従来のプロンプトチューニング方法よりも優れています。 最後に,勾配降下型アルゴリズムが相互情報損失の訓練に利用できることを示すための形式的理論的結果を示す。

Soft prompt tuning achieves superior performances across a wide range of few-shot tasks. However, the performances of prompt tuning can be highly sensitive to the initialization of the prompts. We also empirically observe that conventional prompt tuning methods cannot encode and learn sufficient task-relevant information from prompt tokens. In this work, we develop an information-theoretic framework that formulates soft prompt tuning as maximizing mutual information between prompts and other model parameters (or encoded representations). This novel view helps us to develop a more efficient, accurate and robust soft prompt tuning method InfoPrompt. With this framework, we develop two novel mutual information based loss functions, to (i) discover proper prompt initialization for the downstream tasks and learn sufficient task-relevant information from prompt tokens and (ii) encourage the output representation from the pretrained language model to be more aware of the task-relevant information captured in the learnt prompt. Extensive experiments validate that InfoPrompt can significantly accelerate the convergence of the prompt tuning and outperform traditional prompt tuning methods. Finally, we provide a formal theoretical result for showing to show that gradient descent type algorithm can be used to train our mutual information loss.
翻訳日:2023-06-09 16:26:00 公開日:2023-06-08
# 提案はいつ提示するか? AI支援プログラミングにおけるヒューマンフィードバックの統合

When to Show a Suggestion? Integrating Human Feedback in AI-Assisted Programming ( http://arxiv.org/abs/2306.04930v1 )

ライセンス: Link先を確認
Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz(参考訳) CopilotやCodeWhispererといったAIによるコード推奨システムは、プログラマの環境(IDEなど)内で、生産性の向上を目的としたコード提案を提供する。 これらのシナリオでは、プログラマは提案を受け入れ拒否するので、理想的には、そのようなシステムは、この目標をさらに進めるためにこのフィードバックを使うべきである。 この作業では、Copilotと対話するプログラマの事前データを活用して、プログラマの時間を節約できる介入を開発します。 本稿では,プログラマとのインタラクションをモデル化し,いつ,どの提案を表示するかを決定するユーティリティ理論フレームワークを提案する。 本フレームワークは,プログラマ行動の予測モデルに基づく,ヒューマンフィードバックからの条件付き提案表示(CDHF)である。 535人のプログラマのデータを使って提案を受け入れる可能性を予測するモデルを構築します。 AI支援プログラミングで解決された実世界のプログラミングタスクの振り返り評価において,CDHFは良好なトレードオフを達成できることがわかった。 この結果から,プログラムやタスク記述などのシナリオにおける大規模言語モデルとのインタラクションを改善するために,人間のフィードバックを統合することが期待できる。

AI powered code-recommendation systems, such as Copilot and CodeWhisperer, provide code suggestions inside a programmer's environment (e.g., an IDE) with the aim to improve their productivity. Since, in these scenarios, programmers accept and reject suggestions, ideally, such a system should use this feedback in furtherance of this goal. In this work we leverage prior data of programmers interacting with Copilot to develop interventions that can save programmer time. We propose a utility theory framework, which models this interaction with programmers and decides when and which suggestions to display. Our framework Conditional suggestion Display from Human Feedback (CDHF) is based on predictive models of programmer actions. Using data from 535 programmers we build models that predict the likelihood of suggestion acceptance. In a retrospective evaluation on real-world programming tasks solved with AI-assisted programming, we find that CDHF can achieve favorable tradeoffs. Our findings show the promise of integrating human feedback to improve interaction with large language models in scenarios such as programming and possibly writing tasks.
翻訳日:2023-06-09 16:25:37 公開日:2023-06-08
# 3次元レーン検出におけるbevとレーン表現の同時学習のための効率的なトランスフォーマー

An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations in 3D Lane Detection ( http://arxiv.org/abs/2306.04927v1 )

ライセンス: Link先を確認
Ziye Chen, Kate Smith-Miles, Bo Du, Guoqi Qian, Mingming Gong(参考訳) 3D空間における車線を正確に検出することは、自動運転に不可欠である。 既存の手法は通常、逆視点マッピング(IPM)の助けを借りて、画像ビュー機能を鳥眼ビュー(BEV)に変換し、BEVの特徴に基づいて車線を検出する。 しかし、IPMは道路の高さの変化を無視し、不正確なビュー変換をもたらす。 さらに、プロセスの2つの別々の段階は累積誤差と複雑さの増大を引き起こす可能性がある。 これらの制約に対処するため,我々は3次元レーン検出のための効率的な変圧器を提案する。 バニラ変圧器とは異なり、このモデルは車線とbev表現を同時に学習する分解クロスアテンション機構を含んでいる。 この機構は、画像ビューとBEVの特徴間の交差注意を、画像ビューと車線特徴間のものと、車線とBEV特徴間のものとに分解する。 本手法は,2次元および3次元のレーン特性を画像ビューとBEVの特徴にそれぞれ適用することにより予測する。 これにより、教師付きクロスアテンションを持つデータからビュートランスフォーメーションが学習されるため、ipmベースのメソッドよりも正確なビュートランスフォーメーションが可能になる。 さらに、レーンとbevの相互接続によって相互に調整が可能となり、2つの異なるステージよりも正確なレーン検出が可能になる。 最後に、分解されたクロスアテンションは元のものよりも効率的である。 OpenLane と ONCE-3DLanes の実験結果から,本手法の最先端性能が示された。

Accurately detecting lane lines in 3D space is crucial for autonomous driving. Existing methods usually first transform image-view features into bird-eye-view (BEV) by aid of inverse perspective mapping (IPM), and then detect lane lines based on the BEV features. However, IPM ignores the changes in road height, leading to inaccurate view transformations. Additionally, the two separate stages of the process can cause cumulative errors and increased complexity. To address these limitations, we propose an efficient transformer for 3D lane detection. Different from the vanilla transformer, our model contains a decomposed cross-attention mechanism to simultaneously learn lane and BEV representations. The mechanism decomposes the cross-attention between image-view and BEV features into the one between image-view and lane features, and the one between lane and BEV features, both of which are supervised with ground-truth lane lines. Our method obtains 2D and 3D lane predictions by applying the lane features to the image-view and BEV features, respectively. This allows for a more accurate view transformation than IPM-based methods, as the view transformation is learned from data with a supervised cross-attention. Additionally, the cross-attention between lane and BEV features enables them to adjust to each other, resulting in more accurate lane detection than the two separate stages. Finally, the decomposed cross-attention is more efficient than the original one. Experimental results on OpenLane and ONCE-3DLanes demonstrate the state-of-the-art performance of our method.
翻訳日:2023-06-09 16:25:20 公開日:2023-06-08
# covLLM: COVID-19バイオメディカル文学のための大規模言語モデル

covLLM: Large Language Models for COVID-19 Biomedical Literature ( http://arxiv.org/abs/2306.04926v1 )

ライセンス: Link先を確認
Yousuf A. Khan, Clarisse Hokia, Jennifer Xu, Ben Ehlert(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を受け、米国では1100万人が死亡した。 これらの新たな発見は、臨床介入への変換が遅く、患者の予後が悪く、不要な死亡につながる。 一つの理由は、患者に圧倒された臨床医が、新型コロナウイルスの感染率を抑えるのに苦労しているからだ。 潜在的な解決策は、自然言語処理にデプロイされるニューラルネットワークである大言語モデル(llms)を使用して、新型コロナウイルスの文献を評価するツールを開発することだ。 llmはユーザ特定情報の要約と抽出に使用することができる。 LLMと事前処理された新型コロナウイルス文献データベースの可用性と進歩は、入力された研究項目とユーザクエリを直接受け取り、回答を返すツールであるLLM(covLLM)を通じて、新型コロナウイルス文献の評価を臨床医に支援する機会を提供する。 COVID-19 Open Research Dataset (CORD-19)を用いて,(1)SynCovid,(1)OpenAIを用いた手書きプロンプトと合成プロンプトの組み合わせ,(2)抽象ペアとタイトルペアを含む実抽象文の2つのデータセットを生成した。 covLLMはベースラインモデルとしてLLaMA 7Bを使用してトレーニングされ、(1)AlpacaおよびsynCovidデータセット、(2)synCovidデータセット、(3)synCovidおよび実際の抽象データセットでトレーニングされた3つのモデルを生成する。 これらのモデルは2つのヒト評価器とChatGPTによって評価された。 その結果、syncovidとabstract pairsデータセットのトレーニングcovllmは、chatgptと競合して動作し、alpacaデータセットでトレーニングされたcovllmを上回っている。

The COVID-19 pandemic led to 1.1 million deaths in the United States, despite the explosion of coronavirus research. These new findings are slow to translate to clinical interventions, leading to poorer patient outcomes and unnecessary deaths. One reason is that clinicians, overwhelmed by patients, struggle to keep pace with the rate of new coronavirus literature. A potential solution is developing a tool for evaluating coronavirus literature using large language models (LLMs) -- neural networks that are deployed for natural language processing. LLMs can be used to summarize and extract user-specified information. The greater availability and advancement of LLMs and pre-processed coronavirus literature databases provide the opportunity to assist clinicians in evaluating coronavirus literature through a coronavirus literature specific LLM (covLLM), a tool that directly takes an inputted research article and a user query to return an answer. Using the COVID-19 Open Research Dataset (CORD-19), we produced two datasets: (1) synCovid, which uses a combination of handwritten prompts and synthetic prompts generated using OpenAI, and (2) real abstracts, which contains abstract and title pairs. covLLM was trained with LLaMA 7B as a baseline model to produce three models trained on (1) the Alpaca and synCovid datasets, (2) the synCovid dataset, and (3) the synCovid and real abstract datasets. These models were evaluated by two human evaluators and ChatGPT. Results demonstrate that training covLLM on the synCovid and abstract pairs datasets performs competitively with ChatGPT and outperforms covLLM trained primarily using the Alpaca dataset.
翻訳日:2023-06-09 16:24:54 公開日:2023-06-08
# Prefer to Classify: Auxiliary Preference Learningによるテキスト分類の改善

Prefer to Classify: Improving Text Classifiers via Auxiliary Preference Learning ( http://arxiv.org/abs/2306.04925v1 )

ライセンス: Link先を確認
Jaehyung Kim, Jinwoo Shin, Dongyeop Kang(参考訳) 主に人間による注釈付きベンチマークの開発は、様々なNLPタスクにおけるディープニューラルネットワークの成功を導いた。 既存のベンチマークの有効性を高めるために、新しい入出力ペアの収集はコストがかかりすぎることがあり、特に現在のモデルの精度を改善するための限界の影響を考えると困難である。 代わりに、ベンチマークの既存の入力テキストに対する追加または補完的なアノテーションは、追加の人的コストを支払う効率的な方法として望ましい。 本稿では,このような補助データアノテーションの代替手段として,入力テキストのペア間のタスク固有の嗜好について検討する。 タスクに対する「ペアワイズ」の比較から、補助的な選好学習により、モデルが「インスタンスワイズ」タスクラベルで取得できない付加的な情報的訓練信号を学ぶことができる。 そこで本研究では,与えられた分類課題と補助的選好の両方を学習する協調効果を享受できる,p2cと呼ばれる新しいマルチタスク学習フレームワークを提案する。 ここでは、実際に好みの信号を収集する方法を3つ挙げる。 (a)暗黙的に注釈記録から抽出する(無料であるがしばしば利用できない) (b)群衆労働者から明示的に集める(高給)、又は c) gpt-3 (low paid) のような事前学習された大型言語モデル。 既存の分類NLPベンチマークから、P2Cによる予備選好学習がテキスト分類法の改善に有効であることを示す。 私たちのコードは公開されています。

The development of largely human-annotated benchmarks has driven the success of deep neural networks in various NLP tasks. To enhance the effectiveness of existing benchmarks, collecting new additional input-output pairs is often too costly and challenging, particularly considering their marginal impact on improving the current model accuracy. Instead, additional or complementary annotations on the existing input texts in the benchmarks can be preferable as an efficient way to pay the additional human cost. In this paper, we investigate task-specific preferences between pairs of input texts as a new alternative way for such auxiliary data annotation. From 'pair-wise' comparisons with respect to the task, the auxiliary preference learning enables the model to learn an additional informative training signal that cannot be captured with 'instance-wise' task labels. To this end, we propose a novel multi-task learning framework, called prefer-to-classify (P2C), which can enjoy the cooperative effect of learning both the given classification task and the auxiliary preferences. Here, we provide three different ways to collect preference signals in practice: (a) implicitly extracting from annotation records (for free, but often unavailable), (b) collecting explicitly from crowd workers (high paid), or (c) pre-trained large language models such as GPT-3 (low paid). Given existing classification NLP benchmarks, we demonstrate that the proposed auxiliary preference learning via P2C on them is effective in improving text classifiers. Our codes are publicly available.
翻訳日:2023-06-09 16:24:22 公開日:2023-06-08
# 分散平均推定におけるコミュニケーション・生産性・ユーティリティトレードオフの厳密な最適性

Exact Optimality of Communication-Privacy-Utility Tradeoffs in Distributed Mean Estimation ( http://arxiv.org/abs/2306.04924v1 )

ライセンス: Link先を確認
Berivan Isik, Wei-Ning Chen, Ayfer Ozgur, Tsachy Weissman, Albert No(参考訳) 通信における平均推定問題と局所的差分プライバシー制約について検討する。 前回の研究では、同じ問題(つまり、より多くのビットを費やすときに漸近的に最適)に対する \emph{order}-optimalアルゴリズムを提案したが、(非漸近的な設定において) \emph{exact} の最適性はまだ達成されていない。 本研究では,共有ランダム性(サーバとユーザの間で共有される確率変数)の存在下での \emph{exact}-optimal アプローチを特徴付け, \emph{exact} 最適性に必要ないくつかの条件を同定する。 必要条件の1つは、回転対称な共有ランダムコードブックを利用することである。 そこで本研究では,コードブックがランダムに回転する単純集合であるランダム化機構を提案する。 提案手法は,ランダムに回転する単純なコードブックに対して,emph{exact}-optimalであることが証明された$k$-closestエンコーディングに基づいている。

We study the mean estimation problem under communication and local differential privacy constraints. While previous work has proposed \emph{order}-optimal algorithms for the same problem (i.e., asymptotically optimal as we spend more bits), \emph{exact} optimality (in the non-asymptotic setting) still has not been achieved. In this work, we take a step towards characterizing the \emph{exact}-optimal approach in the presence of shared randomness (a random variable shared between the server and the user) and identify several necessary conditions for \emph{exact} optimality. We prove that one of the necessary conditions is to utilize a rotationally symmetric shared random codebook. Based on this, we propose a randomization mechanism where the codebook is a randomly rotated simplex -- satisfying the necessary properties of the \emph{exact}-optimal codebook. The proposed mechanism is based on a $k$-closest encoding which we prove to be \emph{exact}-optimal for the randomly rotated simplex codebook.
翻訳日:2023-06-09 16:24:00 公開日:2023-06-08
# 制約のないオンライン学習

Unconstrained Online Learning with Unbounded Losses ( http://arxiv.org/abs/2306.04923v1 )

ライセンス: Link先を確認
Andrew Jacobsen, Ashok Cutkosky(参考訳) オンライン学習のアルゴリズムは一般に、ドメインが境界付けられたり、損失がリプシッツかその両方かという1つ以上の境界性仮定を必要とする。 本稿では,非有界領域と非Lipschitz損失を伴うオンライン学習のための新しい環境を開発する。 この設定のために、$R_{T}(u)\le \tilde O(G\|u\|\sqrt{T}+L\|u\|^{2}\sqrt{T})を保証できるアルゴリズムを提供する。 このアルゴリズムを利用して、有意な曲率がない場合でも、非有界領域の双対性ギャップに収束する新たな鞍点最適化アルゴリズムを開発する。 最後に,非Lipschitz損失に対する非有界領域における非自明な動的後悔を達成するアルゴリズムと,一致した下界を与える。 動的後悔アルゴリズムの後悔は、損失が滑らかな場合に自動的に新しい$l^{*}$バウンドに改善されます。

Algorithms for online learning typically require one or more boundedness assumptions: that the domain is bounded, that the losses are Lipschitz, or both. In this paper, we develop a new setting for online learning with unbounded domains and non-Lipschitz losses. For this setting we provide an algorithm which guarantees $R_{T}(u)\le \tilde O(G\|u\|\sqrt{T}+L\|u\|^{2}\sqrt{T})$ regret on any problem where the subgradients satisfy $\|g_{t}\|\le G+L\|w_{t}\|$, and show that this bound is unimprovable without further assumptions. We leverage this algorithm to develop new saddle-point optimization algorithms that converge in duality gap in unbounded domains, even in the absence of meaningful curvature. Finally, we provide the first algorithm achieving non-trivial dynamic regret in an unbounded domain for non-Lipschitz losses, as well as a matching lower bound. The regret of our dynamic regret algorithm automatically improves to a novel $L^{*}$ bound when the losses are smooth.
翻訳日:2023-06-09 16:23:39 公開日:2023-06-08
# 量子ハミルトニアン予測のための効率的かつ等価なグラフネットワーク

Efficient and Equivariant Graph Networks for Predicting Quantum Hamiltonian ( http://arxiv.org/abs/2306.04922v1 )

ライセンス: Link先を確認
Haiyang Yu, Zhao Xu, Xiaofeng Qian, Xiaoning Qian, Shuiwang Ji(参考訳) 量子化学や凝縮体物理学で用いられるハミルトニアン行列の予測について考察する。 効率と等価性は重要だが、相反する要素がある。 本研究では,効率と等価性を実現するSE(3)-同変ネットワークQHNetを提案する。 我々のキーとなる進歩はQHNetアーキテクチャの革新的な設計であり、基礎となる対称性に従うだけでなく、テンソル製品の数を92%削減できる。 さらに、QHNetは、より多くの原子タイプが関与する場合、チャネル次元の指数的な成長を防ぐ。 4つの分子系を含むMD17データセットで実験を行った。 実験の結果,我々のQHNetは最先端の手法と同等の性能を極めて高速に達成できることがわかった。 さらに、当社のQHNetは、その合理化アーキテクチャのため、メモリ消費量を50%削減しています。 私たちのコードはAIRSライブラリ(\url{https://github.com/divelab/AIRS})の一部として公開されています。

We consider the prediction of the Hamiltonian matrix, which finds use in quantum chemistry and condensed matter physics. Efficiency and equivariance are two important, but conflicting factors. In this work, we propose a SE(3)-equivariant network, named QHNet, that achieves efficiency and equivariance. Our key advance lies at the innovative design of QHNet architecture, which not only obeys the underlying symmetries, but also enables the reduction of number of tensor products by 92\%. In addition, QHNet prevents the exponential growth of channel dimension when more atom types are involved. We perform experiments on MD17 datasets, including four molecular systems. Experimental results show that our QHNet can achieve comparable performance to the state of the art methods at a significantly faster speed. Besides, our QHNet consumes 50\% less memory due to its streamlined architecture. Our code is publicly available as part of the AIRS library (\url{https://github.com/divelab/AIRS}).
翻訳日:2023-06-09 16:23:14 公開日:2023-06-08
# 深部ベイズ粒子フローフレームワークを用いた非教師なしクロスドメインソフトセンサモデリング

Unsupervised Cross-Domain Soft Sensor Modelling via A Deep Bayesian Particle Flow Framework ( http://arxiv.org/abs/2306.04919v1 )

ライセンス: Link先を確認
Junn Yong Loo, Ze Yang Ding, Surya G. Nurzaman, Chee-Ming Ting, Vishnu Monn Baskaran and Chee Pin Tan(参考訳) データ駆動型ソフトセンサーは、信頼できる状態推定によって正確な知覚を達成するために不可欠である。 しかし、代表的なソフトセンサーモデルの開発には、ラベルの欠如、ドメイン適応性、データの時間的コヒーレンスといった問題がある。 これらの課題に対処するため,我々は,対象とする状態ラベルがない場合のクロスドメインソフトセンサモデリングのためのdpfb(deep particle flow bayes)フレームワークを提案する。 特に、シーケンシャルベイズ目標を最初に定式化し、クロスドメインソフトセンシング問題の基礎となる最大確率推定を行う。 フレームワークのコアには物理に触発された粒子の流れが組み込まれており、シーケンシャルベイズ目標を最適化し、抽出された潜在性と隠れた特徴の正確なベイズ更新を行う。 これらの貢献により、複雑なクロスドメインシステムのダイナミクスを特徴付けることができ、効率的な時系列非教師付きドメイン適応(UDA)を実現することが可能となる。 最後に,複雑なダイナミクスと複数の動作条件を有する複合産業多相流プロセスシステム上での枠組みを検証する。 その結果,dpfbフレームワークは優れた非教師なしのクロスドメインソフトセンシング性能を達成し,最先端の深層udaを上回り,フローアプローチを正規化した。

Data-driven soft sensors are essential for achieving accurate perception through reliable state inference. However, developing representative soft sensor models is challenged by issues such as missing labels, domain adaptability, and temporal coherence in data. To address these challenges, we propose a deep Particle Flow Bayes (DPFB) framework for cross-domain soft sensor modeling in the absence of target state labels. In particular, a sequential Bayes objective is first formulated to perform the maximum likelihood estimation underlying the cross-domain soft sensing problem. At the core of the framework, we incorporate a physics-inspired particle flow that optimizes the sequential Bayes objective to perform an exact Bayes update of the model extracted latent and hidden features. As a result, these contributions enable the proposed framework to learn a cohesive approximate posterior feature representation capable of characterizing complex cross-domain system dynamics and performing effective time series unsupervised domain adaptation (UDA). Finally, we validate the framework on a complex industrial multiphase flow process system with complex dynamics and multiple operating conditions. The results demonstrate that the DPFB framework achieves superior unsupervised cross-domain soft sensing performance, outperforming state-of-the-art deep UDA and normalizing flow approaches.
翻訳日:2023-06-09 16:23:00 公開日:2023-06-08
# ag(100)の電界放出共鳴における三重項状態と2電子トンネルによるオージェ型励起

Triplet State and Auger-Type Excitation Originating from Two-Electron Tunneling in Field Emission Resonance on Ag(100) ( http://arxiv.org/abs/2306.04916v1 )

ライセンス: Link先を確認
Shin-Ming Lu, Ho-Hsiang Chang, Wei-Bin Su, Wen-Yuan Chan, Kung-Hsuan Lin, and Chia-Seng Chang(参考訳) 本研究では,Ag(100)のバルクバンド構造における真空レベル以上のエネルギーギャップが,一階電界放出共鳴(FER)中の電子が表面プラズモンを誘導するのを防ぐことを発見した。 この機構により、FERからの発光によって三重項状態と2電子トンネルによるオージェ型励起の特性を明らかにすることができる。 光学スペクトルによれば、表面プラズモンはゼロ次ferの電子によって誘導される。 しかし、対応する放射減衰は、走査型トンネル顕微鏡先端に作用するシャープネス依存性の画像電位の影響を受け、オージェ型励起を誘発する。

In this study, we discovered that the energy gap above the vacuum level in the projected bulk band structure of Ag(100) prevents electrons in the first-order field emission resonance (FER) from inducing the surface plasmons. This mechanism allows light emission from FER to reveal characteristics of triplet states and Auger-type excitation resulting from two-electron tunneling in FER. According to optical spectra, surface plasmons can be induced by electrons in the zeroth-order FER. However, corresponding radiative decay can also trigger Auger-type excitation, whose energy state is influenced by the sharpness-dependent image potential acting on the scanning tunneling microscope tip.
翻訳日:2023-06-09 16:22:37 公開日:2023-06-08
# エントロピーに基づく拡張型ニューラルインシシットサンプリングの訓練法

Entropy-based Training Methods for Scalable Neural Implicit Sampler ( http://arxiv.org/abs/2306.04952v1 )

ライセンス: Link先を確認
Weijian Luo and Boya Zhang and Zhihua Zhang(参考訳) 非正規化対象分布からの効率的なサンプリングは、科学計算と機械学習の基本的な問題である。 マルコフ連鎖モンテカルロ(mcmc)のような伝統的なアプローチは、そのような分布から漸近的に偏りのないサンプルを保証するが、特に高次元のターゲットを扱う場合、サンプルのバッチを生成するのに多数のイテレーションを必要とするため、計算の非効率に苦しむ。 本稿では,これらの制約を克服する,効率的でスケーラブルなニューラル暗黙サンプリング手法を提案する。 筆者らは, 反復的な手順を必要とせずに, 潜伏ベクトルを直接サンプルにマッピングするニューラルトランスフォーメーションを利用して, 計算コストの低い大量のサンプルを生成することができる。 ニューラル暗黙サンプリングを訓練するために、KLトレーニング法とFisherトレーニング法という2つの新しい方法を導入する。 前者はクルバック・リーブラー分岐を最小化し、後者はフィッシャー分岐を最小化する。 これらのトレーニング手法を用いることで、ニューラルネットワークの暗黙的サンプリングを効果的に最適化し、所望の目標分布を捕捉する。 提案手法の有効性,効率性,スケーラビリティを実証するため,異なるスケールの3つのサンプリングベンチマークで評価した。 これらのベンチマークには、2Dターゲットからのサンプリング、ベイズ推定、高次元エネルギーベースモデル(EBM)からのサンプリングが含まれる。 特に,高次元EMMを用いた実験では,MCMC法と同等の試料が得られたが,100倍以上の効率が得られ,神経サンプルの効率が示された。 本研究で提示された理論的,実証的な貢献は,本研究以外の様々な応用のための効率的なサンプリング器の開発に関するさらなる研究を刺激すると考えられる。

Efficiently sampling from un-normalized target distributions is a fundamental problem in scientific computing and machine learning. Traditional approaches like Markov Chain Monte Carlo (MCMC) guarantee asymptotically unbiased samples from such distributions but suffer from computational inefficiency, particularly when dealing with high-dimensional targets, as they require numerous iterations to generate a batch of samples. In this paper, we propose an efficient and scalable neural implicit sampler that overcomes these limitations. Our sampler can generate large batches of samples with low computational costs by leveraging a neural transformation that directly maps easily sampled latent vectors to target samples without the need for iterative procedures. To train the neural implicit sampler, we introduce two novel methods: the KL training method and the Fisher training method. The former minimizes the Kullback-Leibler divergence, while the latter minimizes the Fisher divergence. By employing these training methods, we effectively optimize the neural implicit sampler to capture the desired target distribution. To demonstrate the effectiveness, efficiency, and scalability of our proposed samplers, we evaluate them on three sampling benchmarks with different scales. These benchmarks include sampling from 2D targets, Bayesian inference, and sampling from high-dimensional energy-based models (EBMs). Notably, in the experiment involving high-dimensional EBMs, our sampler produces samples that are comparable to those generated by MCMC-based methods while being more than 100 times more efficient, showcasing the efficiency of our neural sampler. We believe that the theoretical and empirical contributions presented in this work will stimulate further research on developing efficient samplers for various applications beyond the ones explored in this study.
翻訳日:2023-06-09 16:15:03 公開日:2023-06-08
# 未知知識学習によるオープンセット関係抽出

Open Set Relation Extraction via Unknown-Aware Training ( http://arxiv.org/abs/2306.04950v1 )

ライセンス: Link先を確認
Jun Zhao, Xin Zhao, Wenyu Zhan, Qi Zhang, Tao Gui, Zhongyu Wei, Yunwen Chen, Xiang Gao, Xuanjing Huang(参考訳) 既存の教師付き関係抽出法は、トレーニングとテストの両方における関係が同じであるクローズドセット設定において、印象的な性能を達成している。 より現実的なオープンセット設定では、未知の関係がテストセットに現れることがある。 未知の関係からの監督信号の欠如により、うまく機能する閉集合関係抽出器は、既知の関係に自信を持って分類することができる。 本稿では,負のインスタンスを動的に合成してモデルを定式化する未知認識学習手法を提案する。 コンパクトな決定境界を容易にするには、 ``difficult'' の負のインスタンスが必要である。 テキストの敵対的攻撃に触発され、我々は元のトレーニングインスタンスに適応的に小さいが重要な摂動を適用し、既知の関係としてモデルによって誤認されやすい負のインスタンスを合成する。 実験の結果, 既知の関係の分類を損なうことなく, sota未知関係検出が可能となった。

The existing supervised relation extraction methods have achieved impressive performance in a closed-set setting, where the relations during both training and testing remain the same. In a more realistic open-set setting, unknown relations may appear in the test set. Due to the lack of supervision signals from unknown relations, a well-performing closed-set relation extractor can still confidently misclassify them into known relations. In this paper, we propose an unknown-aware training method, regularizing the model by dynamically synthesizing negative instances. To facilitate a compact decision boundary, ``difficult'' negative instances are necessary. Inspired by text adversarial attacks, we adaptively apply small but critical perturbations to original training instances and thus synthesizing negative instances that are more likely to be mistaken by the model as known relations. Experimental results show that this method achieves SOTA unknown relation detection without compromising the classification of known relations.
翻訳日:2023-06-09 16:14:32 公開日:2023-06-08
# スプリアス相関に対する漸進的データ拡張によるロバスト学習

Robust Learning with Progressive Data Expansion Against Spurious Correlation ( http://arxiv.org/abs/2306.04949v1 )

ライセンス: Link先を確認
Yihe Deng, Yu Yang, Baharan Mirzasoleiman, Quanquan Gu(参考訳) ディープラーニングモデルは様々なタスクで顕著なパフォーマンスを示しているが、真のラベルと真に相関するコア機能ではなく、一般化できないスプリアスな特徴の学習に敏感である。 本稿では,線形モデルの既存の解析を越えて,スプリアス特徴の存在下での2層非線形畳み込みニューラルネットワークの学習過程を理論的に検討する。 分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。 そこで,本研究では,モデルのロバスト性が向上し,最悪の集団性能が向上するpdeと呼ばれる新しい学習アルゴリズムを提案する。 PDEはトレーニングデータのグループバランスのサブセットから始まり、コア機能の学習を容易にするために徐々に拡張する。 ResNets や Transformer などのモデルを用いた合成および実世界のベンチマークデータセットの実験により,本手法の優れた性能が確認された。 平均すると, 最大10倍のトレーニング効率を保ちながら, 最先端法と比較して, 最悪群精度が2.8%向上した。

While deep learning models have shown remarkable performance in various tasks, they are susceptible to learning non-generalizable spurious features rather than the core features that are genuinely correlated to the true label. In this paper, beyond existing analyses of linear models, we theoretically examine the learning process of a two-layer nonlinear convolutional neural network in the presence of spurious features. Our analysis suggests that imbalanced data groups and easily learnable spurious features can lead to the dominance of spurious features during the learning process. In light of this, we propose a new training algorithm called PDE that efficiently enhances the model's robustness for a better worst-group performance. PDE begins with a group-balanced subset of training data and progressively expands it to facilitate the learning of the core features. Experiments on synthetic and real-world benchmark datasets confirm the superior performance of our method on models such as ResNets and Transformers. On average, our method achieves a 2.8% improvement in worst-group accuracy compared with the state-of-the-art method, while enjoying up to 10x faster training efficiency.
翻訳日:2023-06-09 16:14:17 公開日:2023-06-08
# ShuttleSet: バドミントン戦術分析のための人間注釈のストロークレベルシングルセット

ShuttleSet: A Human-Annotated Stroke-Level Singles Dataset for Badminton Tactical Analysis ( http://arxiv.org/abs/2306.04948v1 )

ライセンス: Link先を確認
Wei-Yao Wang, Yung-Chang Huang, Tsi-Ui Ik, Wen-Chih Peng(参考訳) スポーツ分析の最近の進歩により、深層学習アプローチは、パフォーマンス品質とファンエンゲージメントを改善するためのプレイヤーの戦術に対するマイニングインサイトの有効性を示した。 これは、公開地真実データセットが利用可能であることによる。 アクション検出のためのターンベースのスポーツ用のデータセットはいくつか存在するが、これらのデータセットは、ドメインの専門家による高価なラベル付け作業が必要であり、自動テクニックを使用して検出することが難しいため、構造化されたソースデータとストロークレベルのレコードを著しく欠いている。 その結果、既存のモデルがより困難な構造を持つターンベースシーケンスに適用された場合、人工知能アプローチの開発は著しく妨げられる。 本稿では,アノテートされたストロークレベルレコードを持つ,最大のバドミントンシングルスデータセットであるshuttlesetを提案する。 2018年から2021年までの44試合で104セット、3,685試合、36,492ストローク、27人の男子シングルスと女子シングルスプレーヤーが参加した。 ShuttleSetはコンピュータ支援のラベル付けツールで手動で注釈付けされ、18の異なるクラス、対応するヒット位置、各ストロークにおける両方のプレイヤーの位置を選択することで、ショットタイプのラベル付け効率と有効性を高める。 実験では,複数のベンチマーク(脳卒中影響,脳卒中予測,運動予測)を基準として提供し,ターンベースの分析にshuttlesetを使うことの実用性を示す。 過去2年間で、ShuttleSetの分析ケースの多様性を示すために可視化プラットフォームがデプロイされ、コーチがプレイヤーの戦術的嗜好を人間と対話するインターフェースで掘り下げている。

With the recent progress in sports analytics, deep learning approaches have demonstrated the effectiveness of mining insights into players' tactics for improving performance quality and fan engagement. This is attributed to the availability of public ground-truth datasets. While there are a few available datasets for turn-based sports for action detection, these datasets severely lack structured source data and stroke-level records since these require high-cost labeling efforts from domain experts and are hard to detect using automatic techniques. Consequently, the development of artificial intelligence approaches is significantly hindered when existing models are applied to more challenging structured turn-based sequences. In this paper, we present ShuttleSet, the largest publicly-available badminton singles dataset with annotated stroke-level records. It contains 104 sets, 3,685 rallies, and 36,492 strokes in 44 matches between 2018 and 2021 with 27 top-ranking men's singles and women's singles players. ShuttleSet is manually annotated with a computer-aided labeling tool to increase the labeling efficiency and effectiveness of selecting the shot type with a choice of 18 distinct classes, the corresponding hitting locations, and the locations of both players at each stroke. In the experiments, we provide multiple benchmarks (i.e., stroke influence, stroke forecasting, and movement forecasting) with baselines to illustrate the practicability of using ShuttleSet for turn-based analytics, which is expected to stimulate both academic and sports communities. Over the past two years, a visualization platform has been deployed to illustrate the variability of analysis cases from ShuttleSet for coaches to delve into players' tactical preferences with human-interactive interfaces, which was also used by national badminton teams during multiple international high-ranking matches.
翻訳日:2023-06-09 16:13:53 公開日:2023-06-08
# resunetのエンコーダを高精度道路抽出に役立てる近所の注意

Neighborhood Attention Makes the Encoder of ResUNet Stronger for Accurate Road Extraction ( http://arxiv.org/abs/2306.04947v1 )

ライセンス: Link先を確認
Ali Jamali, Swalpa Kumar Roy, Jonathan Li, Pedram Ghamisi(参考訳) リモートセンシング画像解釈の分野では、高解像度空中画像からの道路抽出はすでにホットな研究トピックとなっている。 深いCNNはセマンティックセグメンテーションに優れた結果を出しているが、視覚変換器の効率と能力はまだ十分に研究されていない。 そのため、正確な道路抽出のために、残留学習、hetconv、unet、視覚トランスフォーマの能力を利用する深い意味セグメンテーションニューラルネットワーク、すなわち \texttt{resunetformer} が提案されている。 開発された \texttt{resunetformer} は、マサチューセッツ州の公道データセット上で様々な最先端のディープラーニングに基づく道路抽出技術で評価される。 統計的および視覚的な結果は、セグメンテーションのための最先端の cnn と vision transformer よりも \texttt{resunetformer} の方が優れていることを示している。 コードは \url{https://github.com/aj1365/resunetformer} で公開される予定だ。

In the domain of remote sensing image interpretation, road extraction from high-resolution aerial imagery has already been a hot research topic. Although deep CNNs have presented excellent results for semantic segmentation, the efficiency and capabilities of vision transformers are yet to be fully researched. As such, for accurate road extraction, a deep semantic segmentation neural network that utilizes the abilities of residual learning, HetConvs, UNet, and vision transformers, which is called \texttt{ResUNetFormer}, is proposed in this letter. The developed \texttt{ResUNetFormer} is evaluated on various cutting-edge deep learning-based road extraction techniques on the public Massachusetts road dataset. Statistical and visual results demonstrate the superiority of the \texttt{ResUNetFormer} over the state-of-the-art CNNs and vision transformers for segmentation. The code will be made available publicly at \url{https://github.com/aj1365/ResUNetFormer}.
翻訳日:2023-06-09 16:13:24 公開日:2023-06-08
# コーパスからのトピック検出のための修正モデルとトピックの理解可能性を評価する新しい尺度

A modified model for topic detection from a corpus and a new metric evaluating the understandability of topics ( http://arxiv.org/abs/2306.04941v1 )

ライセンス: Link先を確認
Tomoya Kitano, Yuto Miyatake, Daisuke Furihata(参考訳) 本稿では,コーパスからトピックを検出するための改良型ニューラルモデルを提案し,検出されたトピックを評価するための新しい指標を提案する。 新しいモデルは、ドキュメントクラスタリングのようないくつかの変更を含む組み込みトピックモデル上に構築されている。 数値実験により、新しいモデルは文書の長さに関わらず好適に機能することが示唆された。 トピックコヒーレンスのような広く使用されているメトリクスよりも効率的に計算できる新しいメトリクスは、検出されたトピックの理解可能性に関する可変情報を提供する。

This paper presents a modified neural model for topic detection from a corpus and proposes a new metric to evaluate the detected topics. The new model builds upon the embedded topic model incorporating some modifications such as document clustering. Numerical experiments suggest that the new model performs favourably regardless of the document's length. The new metric, which can be computed more efficiently than widely-used metrics such as topic coherence, provides variable information regarding the understandability of the detected topics.
翻訳日:2023-06-09 16:13:08 公開日:2023-06-08
# 層レベルの活性化機構

Layer-level activation mechanism ( http://arxiv.org/abs/2306.04940v1 )

ライセンス: Link先を確認
Yoon Kihyuk and Lim Chiehyeon(参考訳) 本研究では,レイヤレベルのアクティベーション(layeract)機能を確立するための新しいアクティベーションメカニズムを提案する。 これらの機能は、入力のシフトによるアクティベーション出力の層レベルの変動を減らすことにより、従来の要素レベルのアクティベーション機能よりもノイズロバストなように設計されている。 さらに、LayerAct関数は、アクティベーション出力空間を制限することなく、ゼロライク平均アクティベーション出力を達成する。 本稿では,要素レベルの活性化関数に比べ,層状関数がノイズロバスト性に優れることを示す解析と実験を行い,これらの関数がゼロライクな平均活性化を持つことを示す。 3つのベンチマーク画像分類タスクの実験結果によると、LayerAct関数はノイズの多い画像データセットの処理に優れ、要素レベルのアクティベーション関数よりも優れており、クリーンデータセットのパフォーマンスもほとんどの場合優れている。

In this work, we propose a novel activation mechanism aimed at establishing layer-level activation (LayerAct) functions. These functions are designed to be more noise-robust compared to traditional element-level activation functions by reducing the layer-level fluctuation of the activation outputs due to shift in inputs. Moreover, the LayerAct functions achieve a zero-like mean activation output without restricting the activation output space. We present an analysis and experiments demonstrating that LayerAct functions exhibit superior noise-robustness compared to element-level activation functions, and empirically show that these functions have a zero-like mean activation. Experimental results on three benchmark image classification tasks show that LayerAct functions excel in handling noisy image datasets, outperforming element-level activation functions, while the performance on clean datasets is also superior in most cases.
翻訳日:2023-06-09 16:13:01 公開日:2023-06-08
# 視覚的質問応答における関連質問と画像属性による知識検出

Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering ( http://arxiv.org/abs/2306.04938v1 )

ライセンス: Link先を確認
Param Ahir, Dr. Hiteishi Diwanji(参考訳) 視覚的質問応答(VQA)は、自然言語処理とコンピュータビジョンの実践を通して追求される多分野の研究問題である。 視覚質問応答は、画像の内容に応じて自然言語質問に自動的に答える。 いくつかのテスト質問は、ソリューションを導出するために外部の知識を必要とする。 このような知識に基づくVQAは、様々な手法を用いて画像とテキストの特徴を検索し、それらを組み合わせて答えを生成する。 質問依存または画像依存の知識検索方法のいずれかの知識ベース回答を生成する。 画像内の全てのオブジェクトに関する知識が導出されれば、すべての知識が問題に関係しているとは限らない。 一方、疑問に関連する知識は、誤った答えと、画像に関係のない疑問に答える過度に訓練されたモデルをもたらす可能性がある。 提案手法は,画像属性と質問特徴を知識導出モジュールの入力とし,正確な回答を提供する画像オブジェクトに関する質問知識のみを検索する。

Visual question answering (VQA) is a Multidisciplinary research problem that pursued through practices of natural language processing and computer vision. Visual question answering automatically answers natural language questions according to the content of an image. Some testing questions require external knowledge to derive a solution. Such knowledge-based VQA uses various methods to retrieve features of image and text, and combine them to generate the answer. To generate knowledgebased answers either question dependent or image dependent knowledge retrieval methods are used. If knowledge about all the objects in the image is derived, then not all knowledge is relevant to the question. On other side only question related knowledge may lead to incorrect answers and over trained model that answers question that is irrelevant to image. Our proposed method takes image attributes and question features as input for knowledge derivation module and retrieves only question relevant knowledge about image objects which can provide accurate answers.
翻訳日:2023-06-09 16:12:44 公開日:2023-06-08
# 量子スピン系における励起エネルギー固有状態とエネルギーランドスケープの局所最小値の対応

Correspondence between excited energy eigenstates and local minima of energy landscape in quantum spin systems ( http://arxiv.org/abs/2306.04937v1 )

ライセンス: Link先を確認
Yang Wei Koh(参考訳) 古典的エネルギーランドスケープにおける局所ミニマとエネルギースペクトルにおける励起固有状態の間の量子-古典的対応は、多体量子スピン系の文脈内で研究される。 量子問題の平均場近似では、通常は結果のエネルギー関数のグローバルな最小値を達成することに焦点を当てるが、他の最小解は通常無視される。 フラストレーションのあるシステムでは、グローバルとローカルの最小値の厳密な区別は、一階の型遷移が2つの異なるミニマによって演じられる役割を交換できるため、しばしば不可能である。 これは、量子系の平均場近似に遭遇する局所的ミニマに対する物理的解釈が存在するかどうかという問題である。 我々はこの問題を量子スピン系の観点から考える。 2つのモデルが研究され、クエンチ障害を伴うフラストレーションモデルと、フラストレーションのない純粋なシステムがある。 極小の正確な古典エネルギーはエネルギー準位の全スペクトルと比較され、それらの間の対応の兆候を探索することができる。 局所的なミニマは一般的に励起エネルギー固有状態と解釈できる。 スプリアスミニマの事例も報告されている。

The quantum-classical correspondence between local minima on the classical energy landscape and excited eigenstates in the energy spectrum is studied within the context of many-body quantum spin systems. In mean-field approximations of a quantum problem, one usually focuses on attaining the global minimum of the resulting energy function, while other minimum solutions are usually ignored. For frustrated systems, a strict distinction between global and local minimum is often not tenable since first-order type transitions can interchange the roles played by two different minima. This begs the question of whether there is any physical interpretation for the local minima encountered in mean-field approximations of quantum systems. We look at the problem from the perspective of quantum spin systems. Two models are studied, a frustrated model with quenched disorder, and a pure system without frustration. Accurate classical energies of the minima are compared with the full spectrum of energy levels, allowing us to search for signs of correspondence between them. It is found that the local minima can generally be interpreted as excited energy eigenstates. Instances of spurious minima are also reported.
翻訳日:2023-06-09 16:12:29 公開日:2023-06-08
# 自己教師付きロングテール学習におけるアウトオブディストリビューションデータの有効性について

On the Effectiveness of Out-of-Distribution Data in Self-Supervised Long-Tail Learning ( http://arxiv.org/abs/2306.04934v1 )

ライセンス: Link先を確認
Jianhong Bai, Zuozhu Liu, Hualiang Wang, Jin Hao, Yang Feng, Huanpeng Chu, Haoji Hu(参考訳) 自己教師付き学習(SSL)は表現学習の有望なテクニックとして広く研究されているが、多くのクラスが特徴空間を支配しているため、長い尾のデータセットではうまく一般化されていない。 近年の研究では、自己教師型トレーニングのためのドメイン内データ(ID)をサンプリングすることで、長期学習性能を高めることができるが、マイノリティクラスの再バランスが可能な大規模IDデータ収集は高価である。 本稿では,OODデータを効果的に活用し,特徴空間を動的に再バランスさせる,COLT(Contrastive with Out-of-Distribution (OOD) Data for Long-Tail Learning)を提案する。 SSL長鎖学習におけるOODサンプルの対直感的有用性を実証的に同定し,新しいSSL手法を設計する。 具体的には,まず,特徴空間内の周辺領域に基づいて,各OODサンプルにテールネススコアを割り当て,'head' と 'tail' のサンプルをローカライズする。 そこで我々は,機能空間を動的に再バランスさせるオンラインOODサンプリング戦略を提案する。 最後に,IDとOODのサンプルを分布レベルの教師付きコントラスト損失で識別できるモデルを適用した。 提案手法の有効性を検証するため,様々なデータセットと最先端SSLフレームワークを用いて大規模な実験を行った。 以上の結果から,提案手法は長期化データセットにおけるSSLの性能を大幅に向上させ,外部IDデータを用いた従来の処理よりも優れていた。 私たちのコードはhttps://github.com/jianhongbai/coltで利用可能です。

Though Self-supervised learning (SSL) has been widely studied as a promising technique for representation learning, it doesn't generalize well on long-tailed datasets due to the majority classes dominating the feature space. Recent work shows that the long-tailed learning performance could be boosted by sampling extra in-domain (ID) data for self-supervised training, however, large-scale ID data which can rebalance the minority classes are expensive to collect. In this paper, we propose an alternative but easy-to-use and effective solution, Contrastive with Out-of-distribution (OOD) data for Long-Tail learning (COLT), which can effectively exploit OOD data to dynamically re-balance the feature space. We empirically identify the counter-intuitive usefulness of OOD samples in SSL long-tailed learning and principally design a novel SSL method. Concretely, we first localize the `head' and `tail' samples by assigning a tailness score to each OOD sample based on its neighborhoods in the feature space. Then, we propose an online OOD sampling strategy to dynamically re-balance the feature space. Finally, we enforce the model to be capable of distinguishing ID and OOD samples by a distribution-level supervised contrastive loss. Extensive experiments are conducted on various datasets and several state-of-the-art SSL frameworks to verify the effectiveness of the proposed method. The results show that our method significantly improves the performance of SSL on long-tailed datasets by a large margin, and even outperforms previous work which uses external ID data. Our code is available at https://github.com/JianhongBai/COLT.
翻訳日:2023-06-09 16:12:10 公開日:2023-06-08
# 進化と学習の融解ポット

A Melting Pot of Evolution and Learning ( http://arxiv.org/abs/2306.04971v1 )

ライセンス: Link先を確認
Moshe Sipper, Achiya Elyasaf, Tomer Halperin, Zvika Haramaty, Raz Lapid, Eyal Segal, Itai Tzruia, Snir Vitrack Tamam(参考訳) 我々は、進化的アルゴリズムと機械学習とディープラーニングをうまく組み合わせた、我々のグループによる8つの最近の研究を調査する。 1. 進化的記号的回帰による二項・多項分類 2. クラスアンサンブル: 分類・分類のための新しいアンサンブルアルゴリズム 3. EC-KitY: Pythonの進化計算ツールキット 4. 深層学習に基づく画像分類のための活性化機能の進化 5. 遺伝的アルゴリズムの適応的組み合わせと深部神経進化の新規探索 6. 深層ネットワークにおける敵インスタンス生成のための進化的, グラディエント, クエリ効率, ブラックボックスアルゴリズム 7. ディープニューラルネットワークにおけるファウリング説明 8.可視性のパッチ: 物体検出器に対する自然主義的なブラックボックス攻撃。

We survey eight recent works by our group, involving the successful blending of evolutionary algorithms with machine learning and deep learning: 1. Binary and Multinomial Classification through Evolutionary Symbolic Regression, 2. Classy Ensemble: A Novel Ensemble Algorithm for Classification, 3. EC-KitY: Evolutionary Computation Tool Kit in Python, 4. Evolution of Activation Functions for Deep Learning-Based Image Classification, 5. Adaptive Combination of a Genetic Algorithm and Novelty Search for Deep Neuroevolution, 6. An Evolutionary, Gradient-Free, Query-Efficient, Black-Box Algorithm for Generating Adversarial Instances in Deep Networks, 7. Foiling Explanations in Deep Neural Networks, 8. Patch of Invisibility: Naturalistic Black-Box Adversarial Attacks on Object Detectors.
翻訳日:2023-06-09 16:06:31 公開日:2023-06-08
# オープンリレーション抽出のためのアクティブ教師付きクラスタリング

Actively Supervised Clustering for Open Relation Extraction ( http://arxiv.org/abs/2306.04968v1 )

ライセンス: Link先を確認
Jun Zhao, Yongxin Zhang, Qi Zhang, Tao Gui, Zhongyu Wei, Minlong Peng, Mingming Sun(参考訳) 現在のクラスタリングベースのOpen Relation extract(OpenRE)メソッドは通常、2段階のパイプラインを採用する。 第1段階は、関係表現と代入を同時に学習する。 第2ステージは手動で複数のインスタンスをラベル付けし、各クラスタの関係を命名する。 しかし、教師なしの目標は、正確なクラスタリング割り当てを導出するためにモデルを最適化するのに苦労し、クラスタの数を事前に提供する必要があります。 本稿では,OpenREのためのアクティブなクラスタリングという,新しい設定を提案する。 私たちの洞察は、クラスタリングの学習と関係のラベリングを交互に行うことができ、人間の労力を大幅に増加させることなく、クラスタリングに必要なガイダンスを提供します。 設定の鍵は、どのインスタンスにラベルを付けるかを選択することである。 固定された既知のクラス向けに設計された古典的なアクティブなラベリング戦略を使う代わりに、未知の関係のクラスタを動的に発見する新しい戦略を提案する。 実験結果から,本手法はデータ中のほぼすべての関係クラスタを検出し,SOTA法を2つのデータセットでそれぞれ10.3\%,5.2\%改善できることがわかった。

Current clustering-based Open Relation Extraction (OpenRE) methods usually adopt a two-stage pipeline. The first stage simultaneously learns relation representations and assignments. The second stage manually labels several instances and thus names the relation for each cluster. However, unsupervised objectives struggle to optimize the model to derive accurate clustering assignments, and the number of clusters has to be supplied in advance. In this paper, we present a novel setting, named actively supervised clustering for OpenRE. Our insight lies in that clustering learning and relation labeling can be alternately performed, providing the necessary guidance for clustering without a significant increase in human effort. The key to the setting is selecting which instances to label. Instead of using classical active labeling strategies designed for fixed known classes, we propose a new strategy, which is applicable to dynamically discover clusters of unknown relations. Experimental results show that our method is able to discover almost all relational clusters in the data and improve the SOTA methods by 10.3\% and 5.2\%, on two datasets respectively.
翻訳日:2023-06-09 16:06:25 公開日:2023-06-08
# コード混合テキスト分類における言語識別の活用

Leveraging Language Identification to Enhance Code-Mixed Text Classification ( http://arxiv.org/abs/2306.04964v1 )

ライセンス: Link先を確認
Gauri Takawane, Abhishek Phaltankar, Varad Patwardhan, Aryan Patil, Raviraj Joshi, Mukta S. Takalikar(参考訳) 同じテキストにおける複数の言語の使用は、Code Mixedと呼ばれる。 ソーシャルメディアプラットフォーム上では、コードミックスデータ、特に地域言語による英語の使用の適応度が増大していることは明らかである。 既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を利用しない。 本研究の目的は,低リソースのCode-Mixed Hindi-Englishデータセット上でのBERTモデルの性能向上である。 本研究では,データ前処理,単語レベルの言語識別,言語拡張,感情分析などの下流タスクにおけるモデルトレーニングなどを含む,コード混合システムを改善するパイプラインを提案する。 BERTモデルにおける言語拡張のために,言語情報の単語レベルのインターリーブと後文配置について検討する。 我々は,バニラBERTモデルとそのコード混合HingBERTモデルの性能を,各ベンチマークデータセット上で比較し,単語レベルの言語情報を用いずに比較した。 モデルは精度、精度、リコール、F1スコアなどの指標を用いて評価した。 その結果,提案する言語拡張アプローチは異なるbertモデルでうまく機能することがわかった。 我々は、感情分析、ヘイトスピーチ検出、感情検出に基づいて、5つの異なるコード混合ヒンディー語下流データセットの言語情報を用いたコード混合テキストの強化の重要性を示す。

The usage of more than one language in the same text is referred to as Code Mixed. It is evident that there is a growing degree of adaption of the use of code-mixed data, especially English with a regional language, on social media platforms. Existing deep-learning models do not take advantage of the implicit language information in the code-mixed text. Our study aims to improve BERT-based models performance on low-resource Code-Mixed Hindi-English Datasets by experimenting with language augmentation approaches. We propose a pipeline to improve code-mixed systems that comprise data preprocessing, word-level language identification, language augmentation, and model training on downstream tasks like sentiment analysis. For language augmentation in BERT models, we explore word-level interleaving and post-sentence placement of language information. We have examined the performance of vanilla BERT-based models and their code-mixed HingBERT counterparts on respective benchmark datasets, comparing their results with and without using word-level language information. The models were evaluated using metrics such as accuracy, precision, recall, and F1 score. Our findings show that the proposed language augmentation approaches work well across different BERT models. We demonstrate the importance of augmenting code-mixed text with language information on five different code-mixed Hindi-English downstream datasets based on sentiment analysis, hate speech detection, and emotion detection.
翻訳日:2023-06-09 16:06:08 公開日:2023-06-08
# arXiv4TGC: 時間グラフクラスタリングのための大規模データセット

arXiv4TGC: Large-Scale Datasets for Temporal Graph Clustering ( http://arxiv.org/abs/2306.04962v1 )

ライセンス: Link先を確認
Meng Liu, Ke Liang, Yue Liu, Siwei Wang, Sihang Zhou, Xinwang Liu(参考訳) 時間グラフクラスタリング(TGC)は時間グラフ学習において重要な課題である。 その焦点は、時相グラフのノードクラスタリングであり、時相グラフメソッドのメカニズムにより、大規模グラフ構造に対してより柔軟性を提供する。 しかし、TGCの開発は、クラスタリング性能を評価するための適切な、信頼性の高い大規模時間グラフデータセットの欠如という重大な問題に制約されている。 言い換えれば、既存の時間グラフデータセットのほとんどは小さなサイズで、大規模なデータセットでさえも利用可能なノードラベルは限られている。 大規模な時間グラフクラスタリングのためのモデルを評価する。 この課題に対処するため、大規模な時間グラフクラスタリングのための新しい学術データセット(arXivAI、arXivCS、arXivMath、arXivPhy、arXivLargeなど)であるarXiv4TGCを構築した。 特に最大のデータセットであるarxivlargeには、130万のラベル付き利用可能なノードと1000万のテンポラリエッジが含まれている。 さらに,クラスタリング性能を,従来の時間グラフデータセットと,本論文で提案した新しいデータセットの双方において,典型的な時間グラフ学習モデルと比較する。 arXiv4TGCのクラスタリング性能は、異なるモデルを評価する上でより明らかになり、クラスタリングの信頼性が高く、大規模な時間グラフクラスタリングに適している。 arXiv4TGCデータセットは、https://github.com/MGitHubL/arXiv4TGCで公開されている。

Temporal graph clustering (TGC) is a crucial task in temporal graph learning. Its focus is on node clustering on temporal graphs, and it offers greater flexibility for large-scale graph structures due to the mechanism of temporal graph methods. However, the development of TGC is currently constrained by a significant problem: the lack of suitable and reliable large-scale temporal graph datasets to evaluate clustering performance. In other words, most existing temporal graph datasets are in small sizes, and even large-scale datasets contain only a limited number of available node labels. It makes evaluating models for large-scale temporal graph clustering challenging. To address this challenge, we build arXiv4TGC, a set of novel academic datasets (including arXivAI, arXivCS, arXivMath, arXivPhy, and arXivLarge) for large-scale temporal graph clustering. In particular, the largest dataset, arXivLarge, contains 1.3 million labeled available nodes and 10 million temporal edges. We further compare the clustering performance with typical temporal graph learning models on both previous classic temporal graph datasets and the new datasets proposed in this paper. The clustering performance on arXiv4TGC can be more apparent for evaluating different models, resulting in higher clustering confidence and more suitable for large-scale temporal graph clustering. The arXiv4TGC datasets are publicly available at: https://github.com/MGitHubL/arXiv4TGC.
翻訳日:2023-06-09 16:05:47 公開日:2023-06-08
# 非凸再重み付け最小二乗による同時構造化データの復元

Recovering Simultaneously Structured Data via Non-Convex Iteratively Reweighted Least Squares ( http://arxiv.org/abs/2306.04961v1 )

ライセンス: Link先を確認
Christian K\"ummerle and Johannes Maly(参考訳) 線形観測から複数の不均質な低次元構造に付着するデータ復元問題に対する新しいアルゴリズムを提案する。 行スパースかつローランクなデータ行列に着目し,両構造を活用可能な反復再重み付き最小二乗(IRLS)アルゴリズムを提案し,解析する。 特に、行スパーシティとランクのための非凸サーロゲートの組み合わせを最適化し、それらのバランスをアルゴリズムに組み込む。 我々は, 凸代理の組み合わせでは不可能であることが知られている最小のサンプル量(定数と対数係数まで)の条件下で, 反復列の局所的な2次収束を同時に構造化されたデータ行列に証明する。 実験では,irls法が良好な経験的収束を示し,最先端法よりも少ない測定値から,行スパース行列と低ランク行列を同時に同定することを示した。

We propose a new algorithm for the problem of recovering data that adheres to multiple, heterogeneous low-dimensional structures from linear observations. Focusing on data matrices that are simultaneously row-sparse and low-rank, we propose and analyze an iteratively reweighted least squares (IRLS) algorithm that is able to leverage both structures. In particular, it optimizes a combination of non-convex surrogates for row-sparsity and rank, a balancing of which is built into the algorithm. We prove locally quadratic convergence of the iterates to a simultaneously structured data matrix in a regime of minimal sample complexity (up to constants and a logarithmic factor), which is known to be impossible for a combination of convex surrogates. In experiments, we show that the IRLS method exhibits favorable empirical convergence, identifying simultaneously row-sparse and low-rank matrices from fewer measurements than state-of-the-art methods.
翻訳日:2023-06-09 16:05:22 公開日:2023-06-08
# FedMLSecurity: フェデレーション学習とLLMにおける攻撃と防御のベンチマーク

FedMLSecurity: A Benchmark for Attacks and Defenses in Federated Learning and LLMs ( http://arxiv.org/abs/2306.04959v1 )

ライセンス: Link先を確認
Shanshan Han, Baturalp Buyukates, Zijian Hu, Han Jin, Weizhao Jin, Lichao Sun, Xiaoyang Wang, Chulin Xie, Kai Zhang, Qifan Zhang, Yuhui Zhang, Chaoyang He and Salman Avestimehr(参考訳) 本稿では,federated learning (fl) における敵対的攻撃とその防御機構をシミュレートするベンチマークである fedmlsecurity を紹介する。 FLアルゴリズムの開発と性能比較を容易にするオープンソースライブラリであるFedMLの不可欠なモジュールとして、FedMLSecurityはFedMLのセキュリティアセスメント能力を高める。 FedMLSecurityは、FLトレーニングに注入された攻撃をシミュレートするFedMLAttackerと、攻撃の影響を軽減するために設計された防御戦略をエミュレートするFedMLDefenderの2つの主要コンポーネントで構成されている。 FedMLSecurityはオープンソース1で、幅広い機械学習モデル(Logistic Regression、ResNet、GANなど)とフェデレーションオプティマイザ(FedAVG、FedOPT、FedNOVAなど)にカスタマイズできる。 本稿では,FedMLSecurityをLarge Language Models (LLMs) に適用することの容易さを実証し,その汎用性と実用性を様々なシナリオで強化した。

This paper introduces FedMLSecurity, a benchmark that simulates adversarial attacks and corresponding defense mechanisms in Federated Learning (FL). As an integral module of the open-sourced library FedML that facilitates FL algorithm development and performance comparison, FedMLSecurity enhances the security assessment capacity of FedML. FedMLSecurity comprises two principal components: FedMLAttacker, which simulates attacks injected into FL training, and FedMLDefender, which emulates defensive strategies designed to mitigate the impacts of the attacks. FedMLSecurity is open-sourced 1 and is customizable to a wide range of machine learning models (e.g., Logistic Regression, ResNet, GAN, etc.) and federated optimizers (e.g., FedAVG, FedOPT, FedNOVA, etc.). Experimental evaluations in this paper also demonstrate the ease of application of FedMLSecurity to Large Language Models (LLMs), further reinforcing its versatility and practical utility in various scenarios.
翻訳日:2023-06-09 16:05:03 公開日:2023-06-08
# IFaceUV:UVマップによるアイデンティティ保存による直感的動き顔画像生成

IFaceUV: Intuitive Motion Facial Image Generation by Identity Preservation via UV map ( http://arxiv.org/abs/2306.04957v1 )

ライセンス: Link先を確認
Hansol Lee, Yunhoe Ku, Eunseo Kim, Seungryul Baek(参考訳) 顔画像の再現は多くのアプリケーションを見つける上で重要なタスクである。 IFaceUVは2次元と3次元の情報を適切に組み合わせて顔の再現作業を行うパイプラインである。 3次元変形可能な顔モデル(3dmms)と対応するuvマップを用いて、顔の動きやテクスチャを直感的に制御する。 背景, 耳, 髪などの3dmmの欠落成分を補うためには, 2次元画像ウォーピングに基づく2次元技術がさらに必要である。 パイプラインでは,まず3DMMパラメータと対応するUVマップを,ソース画像とターゲット画像から抽出する。 そして、初期uvマップをuvマップリファインメントネットワークにより洗練し、動作操作された3dmmパラメータで画像にレンダリングする。 並行して,2次元整流網から得られた2次元流れ場に応じて音源画像を整流する。 最終編集ネットワークにはレンダリング画像とワープ画像が組み合わされ、最終再現画像を生成する。 さらに,音声駆動顔再現タスクのためのモデルもテストした。 広範な質的・定量的実験により,本手法は他の最先端手法と比較して優れた性能を示す。

Reenacting facial images is an important task that can find numerous applications. We proposed IFaceUV, a fully differentiable pipeline that properly combines 2D and 3D information to conduct the facial reenactment task. The three-dimensional morphable face models (3DMMs) and corresponding UV maps are utilized to intuitively control facial motions and textures, respectively. Two-dimensional techniques based on 2D image warping is further required to compensate for missing components of the 3DMMs such as backgrounds, ear, hair and etc. In our pipeline, we first extract 3DMM parameters and corresponding UV maps from source and target images. Then, initial UV maps are refined by the UV map refinement network and it is rendered to the image with the motion manipulated 3DMM parameters. In parallel, we warp the source image according to the 2D flow field obtained from the 2D warping network. Rendered and warped images are combined in the final editing network to generate the final reenactment image. Additionally, we tested our model for the audio-driven facial reenactment task. Extensive qualitative and quantitative experiments illustrate the remarkable performance of our method compared to other state-of-the-art methods.
翻訳日:2023-06-09 16:04:29 公開日:2023-06-08
# 低ランクモデルスクイーズによる適応的フェイク音声検出

Adaptive Fake Audio Detection with Low-Rank Model Squeezing ( http://arxiv.org/abs/2306.04956v1 )

ライセンス: Link先を確認
Xiaohui Zhang, Jiangyan Yi, Jianhua Tao, Chenlong Wang, Le Xu and Ruibo Fu(参考訳) スプーフィングアルゴリズムの急速な進歩は、出現する偽音声を正確に識別できる堅牢な検出方法の開発を必要とする。 これらの新しいスプーフィングアルゴリズムを含む新しいデータセットの微調整のような従来のアプローチは計算集約的であり、既知の偽オーディオタイプの知識を損なうリスクをもたらす。 これらの課題に対処するために, ファインタニングに伴う限界を緩和する革新的なアプローチを提案する。 本稿では,新たなニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。 推論段階では、これらの適応行列を既存のモデルと組み合わせて最終的な予測出力を生成する。 提案手法の有効性を評価するために広範な実験を行った。 その結果,提案手法は,既知の偽音声の予測精度を効果的に維持できることがわかった。 さらに,本手法は,ストレージメモリ要件の低減や,従来のファインタニング手法,特に特定のスプーフィングアルゴリズムに比べて誤り率の低減など,いくつかの利点がある。

The rapid advancement of spoofing algorithms necessitates the development of robust detection methods capable of accurately identifying emerging fake audio. Traditional approaches, such as finetuning on new datasets containing these novel spoofing algorithms, are computationally intensive and pose a risk of impairing the acquired knowledge of known fake audio types. To address these challenges, this paper proposes an innovative approach that mitigates the limitations associated with finetuning. We introduce the concept of training low-rank adaptation matrices tailored specifically to the newly emerging fake audio types. During the inference stage, these adaptation matrices are combined with the existing model to generate the final prediction output. Extensive experimentation is conducted to evaluate the efficacy of the proposed method. The results demonstrate that our approach effectively preserves the prediction accuracy of the existing model for known fake audio types. Furthermore, our approach offers several advantages, including reduced storage memory requirements and lower equal error rates compared to conventional finetuning methods, particularly on specific spoofing algorithms.
翻訳日:2023-06-09 16:03:49 公開日:2023-06-08
# 劣化ポリゴンがニューラルネットワーク知覚の基礎的疑問を提起

Degraded Polygons Raise Fundamental Questions of Neural Network Perception ( http://arxiv.org/abs/2306.04955v1 )

ライセンス: Link先を確認
Leonard Tang, Dan Ley(参考訳) 現代のコンピュータビジョンシステムは、逆襲から画像の腐敗に至るまで、人間が対応可能なさまざまな設定でディープラーニングビジョンモデルが苦しむという、人間の行動とミスアライメントを示すことが多いことはよく知られている。 この現象に照らして、人間と機械の視覚のギャップを研究する別の直交的視点を紹介する。 我々は,30年以上前に人間の視覚の認識・コンポーネント理論に初めて導入された,劣化下の画像復元の課題を再考する。 具体的には,神経回路網の性能と挙動を,その周囲における劣化順序の異なる正多角形を分類する一見単純な課題について検討した。 そこで本研究では,周囲劣化した正多角形の大規模データセットを迅速に生成し,画像復元実験の歴史的手作業による作成を現代化し,形状復元性テストを実現する。 次に,これらの劣化した形状を認識・復元するニューラルネットワークのキャパシティについて検討した。 究極的には、この単純なタスクにおけるニューラルネットワークの振る舞いは人間の行動と矛盾し、現代のコンピュータビジョンモデルの堅牢性と学習能力に関する根本的な疑問を提起する。

It is well-known that modern computer vision systems often exhibit behaviors misaligned with those of humans: from adversarial attacks to image corruptions, deep learning vision models suffer in a variety of settings that humans capably handle. In light of these phenomena, here we introduce another, orthogonal perspective studying the human-machine vision gap. We revisit the task of recovering images under degradation, first introduced over 30 years ago in the Recognition-by-Components theory of human vision. Specifically, we study the performance and behavior of neural networks on the seemingly simple task of classifying regular polygons at varying orders of degradation along their perimeters. To this end, we implement the Automated Shape Recoverability Test for rapidly generating large-scale datasets of perimeter-degraded regular polygons, modernizing the historically manual creation of image recoverability experiments. We then investigate the capacity of neural networks to recognize and recover such degraded shapes when initialized with different priors. Ultimately, we find that neural networks' behavior on this simple task conflicts with human behavior, raising a fundamental question of the robustness and learning capabilities of modern computer vision models.
翻訳日:2023-06-09 16:03:20 公開日:2023-06-08
# リマッチ:ゼロショット関係抽出のための微粒化セマンティックマッチング法

RE-Matching: A Fine-Grained Semantic Matching Method for Zero-Shot Relation Extraction ( http://arxiv.org/abs/2306.04954v1 )

ライセンス: Link先を確認
Jun Zhao, Wenyu Zhan, Xin Zhao, Qi Zhang, Tao Gui, Zhongyu Wei, Junzhe Wang, Minlong Peng, Mingming Sun(参考訳) 意味マッチングはゼロショット関係抽出の主流パラダイムであり、与えられた入力と対応するラベル記述をマッチングする。 入力中のエンティティは記述のハイパーニムと正確に一致しなければならず、無関係なコンテキストはマッチング時に無視されるべきである。 しかし、一般的なマッチング方法は上記のマッチングパターンの明示的なモデリングを欠いている。 本研究では,ゼロショット関係抽出のための細粒度セマンティクスマッチング手法を提案する。 上記のマッチングパターンに従って、文レベルの類似度スコアをエンティティとコンテキストマッチングスコアに分解する。 冗長なコンポーネントの明示的なアノテーションが欠如しているため、関係のない特徴を適応的に識別する機能蒸留モジュールを設計し、コンテキストマッチングに対する負の影響を低減する。 実験結果から,提案手法の精度はF_1$よりも高く,提案手法と比較して10倍高速であることがわかった。

Semantic matching is a mainstream paradigm of zero-shot relation extraction, which matches a given input with a corresponding label description. The entities in the input should exactly match their hypernyms in the description, while the irrelevant contexts should be ignored when matching. However, general matching methods lack explicit modeling of the above matching pattern. In this work, we propose a fine-grained semantic matching method tailored for zero-shot relation extraction. Following the above matching pattern, we decompose the sentence-level similarity score into entity and context matching scores. Due to the lack of explicit annotations of the redundant components, we design a feature distillation module to adaptively identify the relation-irrelevant features and reduce their negative impact on context matching. Experimental results show that our method achieves higher matching $F_1$ score and has an inference speed 10 times faster, when compared with the state-of-the-art methods.
翻訳日:2023-06-09 16:02:58 公開日:2023-06-08
# 畳み込みニューラルネットワークによる救急車需要予測

Ambulance Demand Prediction via Convolutional Neural Networks ( http://arxiv.org/abs/2306.04994v1 )

ライセンス: Link先を確認
Maximiliane Rautenstrau{\ss} and Maximilian Schiffer(参考訳) 救急医療は、患者の待ち時間を短縮し、生存率を高めるために、応答時間の最小化が不可欠である。 救急車の割り当てやディスパッチなどの運用タスクを最適化する多くのモデルが存在する。 このようなモデルに正確な需要予測を含めれば、運用上の意思決定を改善することができる。 そこで本研究では,時系列データをヒートマップに変換して救急車需要を予測する,新しい畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 このような予測を適用するには、救急車の要求に影響を与える外部機能を組み込む必要がある。 我々は、フレキシブルで汎用的なCNNアーキテクチャを提供することで、さまざまな次元の外部機能を含めることによって、既存の文献に貢献する。 さらに,ベイズ最適化を利用した特徴選択およびハイパーパラメータ最適化フレームワークを提供する。 我々は、歴史的救急の需要と天気、イベント、休日、時間などの外部情報を統合する。 既存のアプローチに比べて開発されたCNNアーキテクチャの優位性を示すため、シアトルの911コールデータのケーススタディを行い、外部情報を含める。 開発したCNNアーキテクチャは,既存の最先端手法や業界プラクティスを9%以上上回る性能を示した。

Minimizing response times is crucial for emergency medical services to reduce patients' waiting times and to increase their survival rates. Many models exist to optimize operational tasks such as ambulance allocation and dispatching. Including accurate demand forecasts in such models can improve operational decision-making. Against this background, we present a novel convolutional neural network (CNN) architecture that transforms time series data into heatmaps to predict ambulance demand. Applying such predictions requires incorporating external features that influence ambulance demands. We contribute to the existing literature by providing a flexible, generic CNN architecture, allowing for the inclusion of external features with varying dimensions. Additionally, we provide a feature selection and hyperparameter optimization framework utilizing Bayesian optimization. We integrate historical ambulance demand and external information such as weather, events, holidays, and time. To show the superiority of the developed CNN architecture over existing approaches, we conduct a case study for Seattle's 911 call data and include external information. We show that the developed CNN architecture outperforms existing state-of-the-art methods and industry practice by more than 9%.
翻訳日:2023-06-09 15:55:58 公開日:2023-06-08
# マルチアーキテクチャマルチエキスパート拡散モデル

Multi-Architecture Multi-Expert Diffusion Models ( http://arxiv.org/abs/2306.04990v1 )

ライセンス: Link先を確認
Yunsung Lee, Jin-Young Kim, Hyojun Go, Myeongho Jeong, Shinhyeok Oh, Seungtaek Choi(参考訳) 拡散モデルは多段階の分別処理を駆使して多様で現実的なデータを生成するという素晴らしい成果を上げている。 しかしながら、各時間ステップで入力ノイズの大幅な変動を適応させる必要性から、拡散モデルでは多くのパラメータをデノイザに要求している。 拡散モデルが各時間ステップノイズの周波数範囲の異なるフィルタとして効果的に働くことを観察した。 以前のいくつかの研究では、ノイズ間隔にノイズを割り当てるマルチエキスパート戦略が導入されたが、高頻度と低周波の特殊な操作の重要性を見落としている。 例えば、自己アテンション操作は低周波成分(低周波フィルタ)を扱うのに効果的であり、畳み込みは高周波特性(高域通過フィルタ)を捉えるのに優れている。 言い換えれば、既存の拡散モデルは、各時間ステップノイズに対する最適操作を考慮せずに、同じアーキテクチャのデノイザを用いる。 この制限に対処するため,我々は,各段階ごとに要求される操作に合わせて,専門的なアーキテクチャを持つ複数の専門家からなる,Multi-architecturE Multi-Expert (MEME) という新しいアプローチを提案する。 大規模な実験により、MEMEは、生成性能と計算効率の両方において、大きな競争相手よりも優れていることを示した。

Diffusion models have achieved impressive results in generating diverse and realistic data by employing multi-step denoising processes. However, the need for accommodating significant variations in input noise at each time-step has led to diffusion models requiring a large number of parameters for their denoisers. We have observed that diffusion models effectively act as filters for different frequency ranges at each time-step noise. While some previous works have introduced multi-expert strategies, assigning denoisers to different noise intervals, they overlook the importance of specialized operations for high and low frequencies. For instance, self-attention operations are effective at handling low-frequency components (low-pass filters), while convolutions excel at capturing high-frequency features (high-pass filters). In other words, existing diffusion models employ denoisers with the same architecture, without considering the optimal operations for each time-step noise. To address this limitation, we propose a novel approach called Multi-architecturE Multi-Expert (MEME), which consists of multiple experts with specialized architectures tailored to the operations required at each time-step interval. Through extensive experiments, we demonstrate that MEME outperforms large competitors in terms of both generation performance and computational efficiency.
翻訳日:2023-06-09 15:55:42 公開日:2023-06-08
# 二重井戸トラップにおけるBECの微視的量子トンネルと自己トッピングに及ぼす量子揺らぎの影響

Effects of quantum fluctuations on macroscopic quantum tunneling and self-trapping of BEC in a double well trap ( http://arxiv.org/abs/2306.04989v1 )

ライセンス: Link先を確認
Fatkhulla Kh. Abdullaev, Ravil M. Galimzyanov and Akbar M. Shermakhmatov(参考訳) 2成分ボース・アインシュタイン凝縮体の2重井戸トラップにおける量子ゆらぎの影響について検討した。 量子ゆらぎは、修正グロス・ピタエフスキー方程式においてリー=ハン=ヤン項によって記述される。 修正Gross-Pitaevskii方程式をスカラー近似に適用し、2モード近似を用いてダイマーモデルを導出する。 量子揺らぎ下でのジョセフソン振動と自己トラップ条件の周波数は、修正グロス・ピタエフスキー方程式の数値シミュレーションにより解析的に証明された。 また, 二重坑井電位で載荷した李・Huang-Yang流体についてもトンネルおよび局部化現象について検討した。

We study the influence of quantum fluctuations on the macroscopic quantum tunneling and self-trapping of a two-component Bose-Einstein condensate in a double-well trap. Quantum fluctuations are described by the Lee-Huang-Yang term in the modified Gross-Pitaevskii equation. Employing the modified Gross-Pitaevskii equation in scalar approximation, we derive the dimer model using a two-mode approximation. The frequencies of Josephson oscillations and self-trapping conditions under quantum fluctuations are found analytically and proven by numerical simulations of the modified Gross-Pitaevskii equation. The tunneling and localization phenomena are investigated also for the case of the Lee-Huang-Yang fluid loaded in the double-well potential.
翻訳日:2023-06-09 15:55:19 公開日:2023-06-08
# StreetSurf: ストリートビューへの多面的インシシデント表面再構成の拡張

StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views ( http://arxiv.org/abs/2306.04988v1 )

ライセンス: Link先を確認
Jianfei Guo, Nianchen Deng, Xinyang Li, Yeqi Bai, Botian Shi, Chiyu Wang, Chenjing Ding, Dongliang Wang, Yikang Li(参考訳) 本稿では,LDARデータを必要とせず,Waymoの知覚シーケンスなど,広く使用されている自動運転データセットのストリートビュー画像に容易に適用可能な,新しい多視点暗黙的表面再構成手法であるStreetSurfを提案する。 ニューラルレンダリングの研究が急速に拡大するにつれ、ストリートビューへの統合が関心を集め始めている。 既存のストリートビューへのアプローチは、主にシーン幾何学をほとんど探求しない新規なビュー合成に焦点を当てているか、あるいは再構築を調査する際に密集したLiDARデータに大きく依存している。 どちらも、特にLiDARデータのない設定下で、多視点の暗黙的な表面再構成を調査していない。 提案手法は,非対象中心,長径,狭径のカメラ軌道で捉えたストリートビューがもたらす特異な課題に対処するために,従来の物体中心神経表面再構成手法を拡張した。 非有界空間をクブイド境界を整列した近距離、遠視野、空という3つの部分に分け、より微細で不連続な表現のための路面初期化スキームとともに、キューブイド/ハイパーキューブイドハッシュグリッドを適応させる。 テクスチャのない領域や視野角の不足から生じる幾何学的誤りをさらに解決するために,汎用単眼モデルを用いて推定される幾何学的先行問題を採用する。 効率良く細粒度な多段レイマーチング戦略の実装と組み合わせることで,ストリートビューのシーケンス毎に単一のrtx3090 gpuを用いて,1時間から2時間以内のトレーニング時間内に,幾何と外観の両方におけるアートリコンストラクションの品質を実現する。 さらに, 再構成された暗示面は, レイトレーシングやLiDARシミュレーションなど, 様々な下流タスクに有意なポテンシャルを持つことを示した。

We present a novel multi-view implicit surface reconstruction technique, termed StreetSurf, that is readily applicable to street view images in widely-used autonomous driving datasets, such as Waymo-perception sequences, without necessarily requiring LiDAR data. As neural rendering research expands rapidly, its integration into street views has started to draw interests. Existing approaches on street views either mainly focus on novel view synthesis with little exploration of the scene geometry, or rely heavily on dense LiDAR data when investigating reconstruction. Neither of them investigates multi-view implicit surface reconstruction, especially under settings without LiDAR data. Our method extends prior object-centric neural surface reconstruction techniques to address the unique challenges posed by the unbounded street views that are captured with non-object-centric, long and narrow camera trajectories. We delimit the unbounded space into three parts, close-range, distant-view and sky, with aligned cuboid boundaries, and adapt cuboid/hyper-cuboid hash-grids along with road-surface initialization scheme for finer and disentangled representation. To further address the geometric errors arising from textureless regions and insufficient viewing angles, we adopt geometric priors that are estimated using general purpose monocular models. Coupled with our implementation of efficient and fine-grained multi-stage ray marching strategy, we achieve state of the art reconstruction quality in both geometry and appearance within only one to two hours of training time with a single RTX3090 GPU for each street view sequence. Furthermore, we demonstrate that the reconstructed implicit surfaces have rich potential for various downstream tasks, including ray tracing and LiDAR simulation.
翻訳日:2023-06-09 15:55:08 公開日:2023-06-08
# 確率分割を超えて - セマンティックアウェアグループによるニューラルネットワークの校正

Beyond Probability Partitions: Calibrating Neural Networks with Semantic Aware Grouping ( http://arxiv.org/abs/2306.04985v1 )

ライセンス: Link先を確認
Jia-Qi Yang, De-Chuan Zhan, Le Gan(参考訳) 研究によると、ディープネットワークは予測に対して過度に楽観的であり、予測エラーを過小評価する傾向がある。 データの性質が限られているため、既存の研究ではデータのビン化とキャリブレーションエラーの評価のためにモデル予測確率に基づく様々な方法を提案している。 本研究では,分割校正誤差(partitioned calibration error, pce)と呼ばれる,より一般化した校正誤差の定義を提案する。 入力空間分割は、単に予測確率のパーティショニングを超えて拡張でき、入力に直接関連するパーティショニングを含めることができることを示唆する。 セマンティックな分割関数を通して、モデルの精度とキャリブレーションの関係が分割関数の粒度にあることを示す。 これは、校正された正確なモデルをトレーニングするための分割基準の重要性を強調します。 上記の分析を検証するために,深層モデル特徴量に基づく意味認識グループ化関数と,データ空間をサブセットに分割するロジットを共同で学習する手法を提案する。 その後、サブセット毎に個別の校正関数が学習される。 実験の結果,複数のデータセットとネットワークアーキテクチャで性能が大幅に向上し,キャリブレーションにおけるパーティショニング機能の重要性が浮き彫りになった。

Research has shown that deep networks tend to be overly optimistic about their predictions, leading to an underestimation of prediction errors. Due to the limited nature of data, existing studies have proposed various methods based on model prediction probabilities to bin the data and evaluate calibration error. We propose a more generalized definition of calibration error called Partitioned Calibration Error (PCE), revealing that the key difference among these calibration error metrics lies in how the data space is partitioned. We put forth an intuitive proposition that an accurate model should be calibrated across any partition, suggesting that the input space partitioning can extend beyond just the partitioning of prediction probabilities, and include partitions directly related to the input. Through semantic-related partitioning functions, we demonstrate that the relationship between model accuracy and calibration lies in the granularity of the partitioning function. This highlights the importance of partitioning criteria for training a calibrated and accurate model. To validate the aforementioned analysis, we propose a method that involves jointly learning a semantic aware grouping function based on deep model features and logits to partition the data space into subsets. Subsequently, a separate calibration function is learned for each subset. Experimental results demonstrate that our approach achieves significant performance improvements across multiple datasets and network architectures, thus highlighting the importance of the partitioning function for calibration.
翻訳日:2023-06-09 15:54:32 公開日:2023-06-08
# G$^2$uardFL: 分散クライアントグラフクラスタリングによるバックドア攻撃に対するフェデレーション学習の保護

G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks through Attributed Client Graph Clustering ( http://arxiv.org/abs/2306.04984v1 )

ライセンス: Link先を確認
Hao Yu, Chuan Ma, Meng Liu, Xinwang Liu, Zhe Liu, Ming Ding(参考訳) 協調的なパラダイムとして、フェデレーテッド・ラーニング(FL)は、各ローカルデータを交換することなく、クライアントに集合モデルトレーニングを行う権限を与える。 それでもFLは、悪意のあるクライアントを攻撃者が侵入するバックドア攻撃に弱いままであり、特定のサンプルに対してアタッカー・チョーゼン予測を生成するために、有害なモデル重みを集約プロセスに注入する。 既存の対策は、主に異常検出に基づくもので、クライアントモデルの類似性を定量化できないため、悪意のあるものを受け入れながら、誤って正当な重みを拒絶する可能性がある。 他の防御機構は、10%未満の悪意のあるクライアントが制限された場合にのみ有効である。 このような脆弱性に対処するため,我々は,悪意のあるクライアントの検出を正当なグラフクラスタリング問題として再フレーム化し,flシステムを保護する保護フレームワークであるg$^2$uardflを提案する。 このフレームワークは、悪意のあるクライアントを識別するためにクライアントグラフクラスタリング技術を使用し、アダプティブメソッドを組み込んで、集約されたモデルと有毒なクライアントモデルとの格差を増幅する。 収束の理論的解析は、大域モデルがどんなバックドアにも触れられないモデルに密接に近似していることを証明するためにも行われる。 最先端の防御や様々なバックドア攻撃に対する経験的評価から,g$^2$uardflは有意なサンプル性能への影響を維持しつつバックドア攻撃の有効性を著しく低下させることが示唆された。

As a collaborative paradigm, Federated Learning (FL) empowers clients to engage in collective model training without exchanging their respective local data. Nevertheless, FL remains vulnerable to backdoor attacks in which an attacker compromises malicious clients, and injects poisoned model weights into the aggregation process to yield attacker-chosen predictions for particular samples. Existing countermeasures, mainly based on anomaly detection, may erroneously reject legitimate weights while accepting malicious ones, which is due to inadequacies in quantifying client model similarities. Other defense mechanisms prove effective exclusively when confronted with a restricted number of malicious clients, e.g., less than 10%. To address these vulnerabilities, we present G$^2$uardFL, a protective framework that reframes the detection of malicious clients as an attributed graph clustering problem, thereby safeguarding FL systems. This framework employs a client graph clustering technique to identify malicious clients and incorporates an adaptive method to amplify the disparity between the aggregated model and poisoned client models, thereby eliminating previously embedded backdoors. A theoretical analysis of convergence is also performed to demonstrate that the global model closely approximates the model untouched by any backdoor. Through empirical evaluation compared to cutting-edge defenses and against various backdoor attacks, our experimental results indicate that G$^2$uardFL considerably undermines the effectiveness of backdoor attacks while maintaining a negligible impact on the benign sample performance.
翻訳日:2023-06-09 15:54:08 公開日:2023-06-08
# 量子ネットワーク上の通信に関する基礎的限界

Fundamental Limitations on Communication over a Quantum Network ( http://arxiv.org/abs/2306.04983v1 )

ライセンス: Link先を確認
Junjing Xing, Tianfeng Feng, Zhaobing Fan, Haitao Ma, Kishor Bharti, Dax Enshan Koh, Yunlong Xiao(参考訳) 量子力学の基本的な特徴であるエンタングルメントは、セキュアな通信と古典的な限界を越えるための貴重な資源として長年認識されてきた。 しかし、以前の研究は主に1つの点で生じる静的な絡み合った状態に集中しており、そのような状態を作り出すための量子力学の重要な役割を見越している。 本稿では,複数の時間点にまたがる絡み合いについて,時間絡みと呼ばれる枠組みを提案し,情報伝達における量子ネットワークの性能が本質的に時間絡み合いに依存することを示す。 ケーススタディを通じて、従来の量子テレポーテーションの強化と量子リピータのプロトコルにおける指数関数的性能向上を実現するための枠組みの能力を示す。 さらに,本フレームワークは,特定の雑音モデルにおける通信距離を効果的に2倍にする。 本研究では,非マルコフ過程における時間的絡み合いとその量子通信への影響について,量子情報科学のフロンティアを推し進める。

Entanglement, a fundamental feature of quantum mechanics, has long been recognized as a valuable resource in enabling secure communications and surpassing classical limits. However, previous research has primarily concentrated on static entangled states generated at a single point in time, overlooking the crucial role of the quantum dynamics responsible for creating such states. Here, we propose a framework for investigating entanglement across multiple time points, termed temporal entanglement, and demonstrate that the performance of a quantum network in transmitting information is inherently dependent on its temporal entanglement. Through case studies, we showcase the capabilities of our framework in enhancing conventional quantum teleportation and achieving exponential performance growth in the protocol of quantum repeaters. Additionally, our framework effectively doubles the communication distance in certain noise models. Our results address the longstanding question surrounding temporal entanglement within non-Markovian processes and its impact on quantum communication, thereby pushing the frontiers of quantum information science.
翻訳日:2023-06-09 15:53:34 公開日:2023-06-08
# 事前学習言語モデルと大規模言語モデルを用いたESL音声のフレーズ分割の評価

Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models ( http://arxiv.org/abs/2306.04980v1 )

ライセンス: Link先を確認
Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia, Yan Deng, Jonathan Tien(参考訳) 本稿では,事前学習型言語モデル (plm) と大規模言語モデル (llms) を用いて,esl学習者の発話におけるフレーズブレークの評価手法を提案する。 音声クリップのフレーズブレークの全体的な評価と、可能なすべてのフレーズブレーク位置のきめ細かい評価の2つのタスクがある。 NLPモデルを活用するために、音声入力はまずテキストと強制的に一致し、その後、単語やフレーズブレーク情報を含むトークンシーケンスに前処理される。 PLMを利用するために,処理トークンを用いた事前学習および微調整パイプラインを提案する。 このプロセスは、交換されたブレークトークン検出モジュールによる事前トレーニングと、テキスト分類とシーケンスラベリングによる微調整を含む。 LLMを採用するために、ChatGPTのプロンプトを設計する。 実験の結果, PLMではラベル付きトレーニングデータへの依存が大幅に低減され, 性能が向上した。 一方、有名なLDMであるChatGPTは、この分野のさらなる進歩の可能性を秘めている。

This work introduces approaches to assessing phrase breaks in ESL learners' speech using pre-trained language models (PLMs) and large language models (LLMs). There are two tasks: overall assessment of phrase break for a speech clip and fine-grained assessment of every possible phrase break position. To leverage NLP models, speech input is first force-aligned with texts, and then pre-processed into a token sequence, including words and phrase break information. To utilize PLMs, we propose a pre-training and fine-tuning pipeline with the processed tokens. This process includes pre-training with a replaced break token detection module and fine-tuning with text classification and sequence labeling. To employ LLMs, we design prompts for ChatGPT. The experiments show that with the PLMs, the dependence on labeled training data has been greatly reduced, and the performance has improved. Meanwhile, we verify that ChatGPT, a renowned LLM, has potential for further advancement in this area.
翻訳日:2023-06-09 15:53:19 公開日:2023-06-08
# CoCo: 教師なしドメイン適応グラフ分類のための結合コントラストフレームワーク

CoCo: A Coupled Contrastive Framework for Unsupervised Domain Adaptive Graph Classification ( http://arxiv.org/abs/2306.04979v1 )

ライセンス: Link先を確認
Nan Yin, Li Shen, Mengzhu Wang, Long Lan, Zeyu Ma, Chong Chen, Xian-Sheng Hua, Xiao Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類において目覚ましい成果を上げたが、多くのタスク固有のラベルが必要であり、取得には広範囲にコストがかかる。 信頼できる解決策は、ターゲットドメインでの教師なし学習を強化するためにラベル付きグラフを追加することである。 しかし、グラフトポロジの探究が不十分であり、また重要な領域差があるため、GNNをドメイン適応に適用する方法は未解決のままである。 本稿では,結合学習分野からトポロジ情報を抽出し,コントラスト学習を併用することで,領域の差を小さくする,アンダーライン{Co}upled \underline{Co}ntrastive Graph Representation Learning (\method{})を提案する。 \method{} はグラフ畳み込みネットワークブランチと階層型グラフカーネルネットワークブランチを含み、暗黙的および明示的な方法でグラフトポロジを探索する。 このフレームワークは、補完的な視点から学習したグラフ表現を拡張的理解のために組み込むだけでなく、ドメインアライメントのための同じ意味を持つドメイン間のサンプルペア間の類似性を促進します。 様々な一般的なデータセットに対する大規模な実験により、<method{} はこれらの競合するベースラインを 5.7 % から 21.0 % に上回ることを示した。

Although graph neural networks (GNNs) have achieved impressive achievements in graph classification, they often need abundant task-specific labels, which could be extensively costly to acquire. A credible solution is to explore additional labeled graphs to enhance unsupervised learning on the target domain. However, how to apply GNNs to domain adaptation remains unsolved owing to the insufficient exploration of graph topology and the significant domain discrepancy. In this paper, we propose \underline{Co}upled \underline{Co}ntrastive Graph Representation Learning (\method{}), which extracts the topological information from coupled learning branches and reduces the domain discrepancy with coupled contrastive learning. \method{} contains a graph convolutional network branch and a hierarchical graph kernel network branch, which explore graph topology in implicit and explicit manners. Besides, we incorporate coupled branches into a holistic multi-view contrastive learning framework, which not only incorporates graph representations learned from complementary views for enhanced understanding, but also encourages the similarity between cross-domain example pairs with the same semantics for domain alignment. Extensive experiments on various popular datasets show that \method{} outperforms these competing baselines by 5.7\% to 21.0\% generally.
翻訳日:2023-06-09 15:53:02 公開日:2023-06-08
# データ駆動信頼最小化による保守的予測

Conservative Prediction via Data-Driven Confidence Minimization ( http://arxiv.org/abs/2306.04974v1 )

ライセンス: Link先を確認
Caroline Choi and Fahim Tajwar and Yoonho Lee and Huaxiu Yao and Ananya Kumar and Chelsea Finn(参考訳) 機械学習モデルのエラーは、特に医療などの安全クリティカルな領域において、コストがかかる。 これらの設定では、保守的なモデル -- エラーを起こしそうな場合に人間の判断を推論できるモデル -- が解決策を提供する可能性がある。 しかし、テスト時にすべての潜在的な入力を予測できないため、異常または難しい例を検出することは特に難しい。 この問題に対処するために、補助的な疑似oodデータセットに対するモデルの信頼性を最小化するための先行研究が提案されている。 理論上,信頼度最小化の効果を解析し,補助データセットの選択が重要であることを示した。 特に、補助データセットにOOD領域のサンプルが含まれている場合、信頼度最小化は予測信頼度によりIDとOOD入力を確実に分離する。 この結果から着想を得て,データ駆動信頼度最小化(data-driven confidence minimization, dcm)を提案する。 CIFAR-10とCIFAR-100では、DCMは8つのID-OODデータセット対における最先端OOD検出法を一貫して上回り、FPR(TPR 95%)を6.3%減らし、58.1%減らし、分布シフトの条件下では既存の4つのデータセットに対する選択的分類手法よりも優れていた。

Errors of machine learning models are costly, especially in safety-critical domains such as healthcare, where such mistakes can prevent the deployment of machine learning altogether. In these settings, conservative models -- models which can defer to human judgment when they are likely to make an error -- may offer a solution. However, detecting unusual or difficult examples is notably challenging, as it is impossible to anticipate all potential inputs at test time. To address this issue, prior work has proposed to minimize the model's confidence on an auxiliary pseudo-OOD dataset. We theoretically analyze the effect of confidence minimization and show that the choice of auxiliary dataset is critical. Specifically, if the auxiliary dataset includes samples from the OOD region of interest, confidence minimization provably separates ID and OOD inputs by predictive confidence. Taking inspiration from this result, we present data-driven confidence minimization (DCM), which minimizes confidence on an uncertainty dataset containing examples that the model is likely to misclassify at test time. Our experiments show that DCM consistently outperforms state-of-the-art OOD detection methods on 8 ID-OOD dataset pairs, reducing FPR (at TPR 95%) by 6.3% and 58.1% on CIFAR-10 and CIFAR-100, and outperforms existing selective classification approaches on 4 datasets in conditions of distribution shift.
翻訳日:2023-06-09 15:52:37 公開日:2023-06-08
# 高忠実度データからサブグリッドスケールクロージャの閉形式方程式を学習する:約束と挑戦

Learning Closed-form Equations for Subgrid-scale Closures from High-fidelity Data: Promises and Challenges ( http://arxiv.org/abs/2306.05014v1 )

ライセンス: Link先を確認
Karan Jakhar, Yifei Guan, Rambod Mojgani, Ashesh Chattopadhyay, Pedram Hassanzadeh and Laura Zanna(参考訳) 地球系における複雑な過程のサブグリッドスケール(SGS)閉包/パラメータ化に対する解釈可能な閉形式方程式の発見への関心が高まっている。 本稿では,2次元強制乱流とレイリー・ブエナード対流(RBC)のフィルタ直接数値シミュレーションから,拡張ライブラリを用いた共通方程式探索手法を適用した。 共通のフィルタをまたいで、同じ形式の閉包を運動量と熱流束でロバストに発見する。 これらの閉包は、フィルター変数(速度、温度)の勾配の非線形結合に依存し、流体/流れの性質とは独立な定数はフィルタータイプ/サイズにのみ依存する。 これらの閉包は,テイラー級数展開を用いて解析的に導出可能な非線形勾配モデル(ngm)であることを示す。 実際、一般的な(物理学を含まない)方程式発見アルゴリズムでは、系や物理系に関係なく、発見された閉包は常にテイラー級数と一致することを提案する。 従来の研究と同様に、ngm閉包を持つ大規模渦シミュレーションは、trueとngm予測フラックス(パターン相関:$> 0.95$)の類似性にもかかわらず不安定である。 2Dでは、NGMは分解されたスケールとサブグリッドスケールの間の運動エネルギー移動をゼロにし、拡散と後方散乱の両方を欠いている。 RBCでは、ポテンシャルエネルギーの後方散乱は予測できない。 さらに,SGSフラックスは,発見の「真理」と推定され,フィルタリングの手順に依存しており,独特ではないことを示す。 そこで本研究では, 物理インフォームドライブラリ, 損失関数, メトリクスの利用に関して, 高忠実度データから高精度で安定したクロージャを学習する。 これらの発見は、あらゆるマルチスケールシステムのクロージャモデリングに乱流を超えて関係している。

There is growing interest in discovering interpretable, closed-form equations for subgrid-scale (SGS) closures/parameterizations of complex processes in Earth system. Here, we apply a common equation-discovery technique with expansive libraries to learn closures from filtered direct numerical simulations of 2D forced turbulence and Rayleigh-B\'enard convection (RBC). Across common filters, we robustly discover closures of the same form for momentum and heat fluxes. These closures depend on nonlinear combinations of gradients of filtered variables (velocity, temperature), with constants that are independent of the fluid/flow properties and only depend on filter type/size. We show that these closures are the nonlinear gradient model (NGM), which is derivable analytically using Taylor-series expansions. In fact, we suggest that with common (physics-free) equation-discovery algorithms, regardless of the system/physics, discovered closures are always consistent with the Taylor-series. Like previous studies, we find that large-eddy simulations with NGM closures are unstable, despite significant similarities between the true and NGM-predicted fluxes (pattern correlations $> 0.95$). We identify two shortcomings as reasons for these instabilities: in 2D, NGM produces zero kinetic energy transfer between resolved and subgrid scales, lacking both diffusion and backscattering. In RBC, backscattering of potential energy is poorly predicted. Moreover, we show that SGS fluxes diagnosed from data, presumed the "truth" for discovery, depend on filtering procedures and are not unique. Accordingly, to learn accurate, stable closures from high-fidelity data in future work, we propose several ideas around using physics-informed libraries, loss functions, and metrics. These findings are relevant beyond turbulence to closure modeling of any multi-scale system.
翻訳日:2023-06-09 15:46:51 公開日:2023-06-08
# 非侵入負荷モニタリングのための変圧器による注意機構と時間プールを用いたシーケンス・ツー・シーケンスモデル

Sequence-to-Sequence Model with Transformer-based Attention Mechanism and Temporal Pooling for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2306.05012v1 )

ライセンス: Link先を確認
Mohammad Irani Azad, Roozbeh Rajabi, Abouzar Estebsari(参考訳) 本稿では,変圧器に基づく注意機構と,スマートビルの非侵入負荷監視(nilm)のための時空間プーリングに基づく新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。 本研究の目的は,深層学習によるNILMの精度向上である。 提案手法は,変圧器に基づくアテンション機構を備えたSeq2Seqモデルを用いて,NILMデータの長期依存関係をキャプチャする。 さらに、時間プーリングは、アプライアンスの定常挙動と過渡挙動の両方を捉えることによってモデルの精度を向上させるために用いられる。 本稿では,提案手法を公開データセット上で評価し,その結果を他の最先端NILM技術と比較する。 その結果,提案手法は既存の手法よりも精度と計算効率の面で優れていた。

This paper presents a novel Sequence-to-Sequence (Seq2Seq) model based on a transformer-based attention mechanism and temporal pooling for Non-Intrusive Load Monitoring (NILM) of smart buildings. The paper aims to improve the accuracy of NILM by using a deep learning-based method. The proposed method uses a Seq2Seq model with a transformer-based attention mechanism to capture the long-term dependencies of NILM data. Additionally, temporal pooling is used to improve the model's accuracy by capturing both the steady-state and transient behavior of appliances. The paper evaluates the proposed method on a publicly available dataset and compares the results with other state-of-the-art NILM techniques. The results demonstrate that the proposed method outperforms the existing methods in terms of both accuracy and computational efficiency.
翻訳日:2023-06-09 15:46:19 公開日:2023-06-08
# 電子商取引における個人格付けのためのコントラスト学習専門家の注意重み付け

Attention Weighted Mixture of Experts with Contrastive Learning for Personalized Ranking in E-commerce ( http://arxiv.org/abs/2306.05011v1 )

ライセンス: Link先を確認
Juan Gong, Zhenlin Chen, Chaoyi Ma, Zhuojian Xiao, Haonan Wang, Guoyu Tang, Lin Liu, Sulong Xu, Bo Long, Yunjiang Jiang(参考訳) ランキングモデルはeコマースの検索とレコメンデーションにおいて重要な役割を果たす。 効果的なランキングモデルでは、ユーザの好みに応じて、パーソナライズされたランキングリストを提供する必要がある。 既存のアルゴリズムは通常、ユーザの動作シーケンスからユーザ表現ベクターを抽出し、そのベクターをフィードフォワードネットワーク(ffn)に送信し、他の機能とともに機能インタラクションを行い、最終的にパーソナライズされたランキングスコアを生成する。 過去の大きな進歩にもかかわらず、改善の余地はまだある。 まず、異なるユーザに対する機能インタラクションのパーソナライズされたパターンは、明示的にモデル化されていない。 第二に、既存のアルゴリズムのほとんどが、データスパーシティによる履歴行動の少ないロングテールユーザーに対して、パーソナライズされたランキング結果が貧弱である。 この2つの課題を克服するために,個別のランク付けのための対照的な学習を伴うAW-MoE(Attention Weighted Mixture of Experts)を提案する。 まず、AW-MoEはMoEフレームワークを利用して、異なるユーザー向けにパーソナライズされた機能インタラクションをキャプチャする。 ユーザの好みをモデル化するために、ユーザ行動シーケンスを専門家ネットワークとゲートネットワークに同時に供給する。 ゲートネットワーク内の1つのゲートユニットと1つのアクティベーションユニットは、アテンション機構を用いて専門家のためのきめ細かいアクティベーションベクトルを適応的に学習するように設計されている。 次に、ユーザ行動シーケンスにランダムマスキング戦略を適用してロングテールユーザをシミュレートし、ゲートネットワークの出力に補助的なコントラスト損失を課し、それらのユーザに対するモデル一般化を改善する。 これはlong-tailユーザテストセットのパフォーマンス向上によって検証される。 JD実運用データセットと公開データセットの実験結果は、最先端の手法を大幅に上回るAW-MoEの有効性を示す。 特に、AW-MoEはJD eコマース検索エンジンでうまく展開されている。

Ranking model plays an essential role in e-commerce search and recommendation. An effective ranking model should give a personalized ranking list for each user according to the user preference. Existing algorithms usually extract a user representation vector from the user behavior sequence, then feed the vector into a feed-forward network (FFN) together with other features for feature interactions, and finally produce a personalized ranking score. Despite tremendous progress in the past, there is still room for improvement. Firstly, the personalized patterns of feature interactions for different users are not explicitly modeled. Secondly, most of existing algorithms have poor personalized ranking results for long-tail users with few historical behaviors due to the data sparsity. To overcome the two challenges, we propose Attention Weighted Mixture of Experts (AW-MoE) with contrastive learning for personalized ranking. Firstly, AW-MoE leverages the MoE framework to capture personalized feature interactions for different users. To model the user preference, the user behavior sequence is simultaneously fed into expert networks and the gate network. Within the gate network, one gate unit and one activation unit are designed to adaptively learn the fine-grained activation vector for experts using an attention mechanism. Secondly, a random masking strategy is applied to the user behavior sequence to simulate long-tail users, and an auxiliary contrastive loss is imposed to the output of the gate network to improve the model generalization for these users. This is validated by a higher performance gain on the long-tail user test set. Experiment results on a JD real production dataset and a public dataset demonstrate the effectiveness of AW-MoE, which significantly outperforms state-of-art methods. Notably, AW-MoE has been successfully deployed in the JD e-commerce search engine, ...
翻訳日:2023-06-09 15:46:02 公開日:2023-06-08
# Cu(001)上の単一水素原子の表面拡散における量子トンネル

Quantum Tunneling in the Surface Diffusion of Single Hydrogen Atoms on Cu(001) ( http://arxiv.org/abs/2306.05010v1 )

ライセンス: Link先を確認
Xiaofan Yu, Yangwu Tong and Yong Yang(参考訳) 第一原理計算を用いてCu(001)上の水素原子の吸着と拡散を研究する。 ゼロポイントエネルギー(zpe)の寄与を考慮して、もともと同一の障壁はhとdで異なることが示され、それぞれ高さが ~ 158 mev と ~ 139 mev と計算される。 転送行列法 (TMM) を用いて, バリアを横断する伝送の正確な確率を計算することができる。 量子トンネルの重要な役割は低温領域で明らかに示されている。 温度依存試行周波数因子を導入することにより、レート定数と拡散係数を算出する。 その結果,50Kから80Kまでの温度での実験値と一致した。

The adsorption and diffusion of hydrogen atoms on Cu(001) are studied using first-principles calculations. By taking into account the contribution of zero-point energy (ZPE), the originally identical barriers are shown to be different for H and D, which are respectively calculated to be ~ 158 meV and ~ 139 meV in height. Using the transfer matrix method (TMM), we are able to calculate the accurate probability of transmission across the barriers. The crucial role of quantum tunneling is clearly demonstrated at low-temperature region. By introducing a temperature-dependent attempting frequency prefactor, the rate constants and diffusion coefficients are calculated. The results are in agreement with the experimental measurements at temperatures from ~ 50 K to 80 K.
翻訳日:2023-06-09 15:45:30 公開日:2023-06-08
# VIFS:フォリー音声合成のための終端から終端の変分推論

VIFS: An End-to-End Variational Inference for Foley Sound Synthesis ( http://arxiv.org/abs/2306.05004v1 )

ライセンス: Link先を確認
Junhyeok Lee, Hyeonuk Nam, Yong-Hwa Park(参考訳) DCASE 2023 Challenge Task 7の目標は、Foleyサウンド合成(FSS)のための様々なサウンドクリップを「カテゴリ・トゥ・サウンド」アプローチで生成することである。 カテゴリー」は単一のインデックスで表現され、対応する「サウンド」は様々な音の例をカバーしている。 与えられたカテゴリに対して多様な音を生成するために、変分推論付きテキスト音声(TTS)モデルであるVITSを採用する。 さらに,phaseaug や avocodo など,音声合成の様々な手法を適用する。 音素と話者識別から短い発音を生成するTSモデルとは異なり、カテゴリー間問題はカテゴリインデックスのみから多様な音を生成する必要がある。 各オーディオクリップ内の整合性を維持しながら差分を補償するため,後続潜伏変数との整合性を高めるために,先行エンコーダを改良した。 これにより、圏内の分散を促進する前のエンコーダにガウスが加わった。 これらの修正により,多種多様な高品質音を生成するエンドツーエンドのフォリー音声合成のための変分推論であるVIFSを提案する。

The goal of DCASE 2023 Challenge Task 7 is to generate various sound clips for Foley sound synthesis (FSS) by "category-to-sound" approach. "Category" is expressed by a single index while corresponding "sound" covers diverse and different sound examples. To generate diverse sounds for a given category, we adopt VITS, a text-to-speech (TTS) model with variational inference. In addition, we apply various techniques from speech synthesis including PhaseAug and Avocodo. Different from TTS models which generate short pronunciation from phonemes and speaker identity, the category-to-sound problem requires generating diverse sounds just from a category index. To compensate for the difference while maintaining consistency within each audio clip, we heavily modified the prior encoder to enhance consistency with posterior latent variables. This introduced additional Gaussian on the prior encoder which promotes variance within the category. With these modifications, we propose VIFS, variational inference for end-to-end Foley sound synthesis, which generates diverse high-quality sounds.
翻訳日:2023-06-09 15:45:19 公開日:2023-06-08
# 責任あるAIフレームワークの迅速なレビュー:倫理的AIの開発をいかに導くか

A Rapid Review of Responsible AI frameworks: How to guide the development of ethical AI ( http://arxiv.org/abs/2306.05003v1 )

ライセンス: Link先を確認
Vita Santa Barletta, Danilo Caivano, Domenico Gigante and Azzurra Ragone(参考訳) 過去数年間、人工知能(ai)の台頭と私たちの生活における広汎性は、社会におけるその実施と使用を導くべき倫理的原則に関する活発な議論を引き起こした。 これらの懸念に基づいて、Responsible AI(RAI)アプリケーションの開発とデプロイを支援するための原則、ガイドライン、/またはツールを提供するいくつかのフレームワークを迅速にレビューします。 それぞれのフレームワークをSDLC(Software Development Life Cycle)の異なるフェーズにマッピングし、これらのフレームワークのほとんどがRequireements Elicitationフェーズのみに該当し、他のフェーズが未発見のままであることを確認します。 これらのフレームワークの多くは実践者のためのサポートツールを提供しており、主に民間企業によって提供されている。 実世界のプロジェクト実装における技術的利害関係者と非技術的利害関係者の両方をサポートする"キャッチオール"フレームワークは存在しないことが明らかとなった。 我々の発見は、異なるスキルセットと異なる目標を持つユーザによってナビゲートできるすべてのRAI原則とすべてのSDLCフェーズを含む包括的なフレームワークが欠如していることを強調した。

In the last years, the raise of Artificial Intelligence (AI), and its pervasiveness in our lives, has sparked a flourishing debate about the ethical principles that should lead its implementation and use in society. Driven by these concerns, we conduct a rapid review of several frameworks providing principles, guidelines, and/or tools to help practitioners in the development and deployment of Responsible AI (RAI) applications. We map each framework w.r.t. the different Software Development Life Cycle (SDLC) phases discovering that most of these frameworks fall just in the Requirements Elicitation phase, leaving the other phases uncovered. Very few of these frameworks offer supporting tools for practitioners, and they are mainly provided by private companies. Our results reveal that there is not a "catching-all" framework supporting both technical and non-technical stakeholders in the implementation of real-world projects. Our findings highlight the lack of a comprehensive framework encompassing all RAI principles and all (SDLC) phases that could be navigated by users with different skill sets and with different goals.
翻訳日:2023-06-09 15:45:02 公開日:2023-06-08
# COURIER:画像特徴の大規模事前トレースのための対照的なユーザ意図再構築

COURIER: Contrastive User Intention Reconstruction for Large-Scale Pre-Train of Image Features ( http://arxiv.org/abs/2306.05001v1 )

ライセンス: Link先を確認
Jia-Qi Yang, Chenglei Dai, OU Dan, Ju Huang, De-Chuan Zhan, Qingwen Liu, Xiaoyi Zeng, Yang Yang(参考訳) マルチメディアインターネットの発展に伴い、視覚特性はユーザーの興味に影響を与える重要な要素となっている。 したがって、視覚的特徴を取り入れることで、クリックスルー率(CTR)予測のさらなるパフォーマンス向上が期待できる。 しかし,確立した事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。 まず、事前学習方法は、セマンティックな特徴に焦点を絞ったコンピュータビジョンタスクのために設計されており、レコメンデーションに対する個人的関心を学習することができない。 第二に、CTR予測タスクの入力としてカテゴリや項目タイトルなどのセマンティックな特徴をすでに持っていることを考えると、セマンティック情報のみを含む事前学習された画像埋め込みは、情報ゲインがほとんどない。 さらなる改善のためには,推奨用に調整した事前学習方法が必要である。 そこで本稿では,ユーザのクリック履歴から視覚的特徴を学習可能なレコメンデーション対応画像事前学習手法を提案する。 具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。 さらに,埋め込みベクトルの崩壊を避けるために,コントラスト学習法を提案する。 我々は,提案手法がユーザの視覚的興味を学習できることを検証するために広範囲な実験を行い,オフライン auc における $0.46\%$ 改善と p-value$<0.01$ で taobao online gmv における$0.88\%$改善を達成した。

With the development of the multi-media internet, visual characteristics have become an important factor affecting user interests. Thus, incorporating visual features is a promising direction for further performance improvements in click-through rate (CTR) prediction. However, we found that simply injecting the image embeddings trained with established pre-training methods only has marginal improvements. We attribute the failure to two reasons: First, The pre-training methods are designed for well-defined computer vision tasks concentrating on semantic features, and they cannot learn personalized interest in recommendations. Secondly, pre-trained image embeddings only containing semantic information have little information gain, considering we already have semantic features such as categories and item titles as inputs in the CTR prediction task. We argue that a pre-training method tailored for recommendation is necessary for further improvements. To this end, we propose a recommendation-aware image pre-training method that can learn visual features from user click histories. Specifically, we propose a user interest reconstruction module to mine visual features related to user interests from behavior histories. We further propose a contrastive training method to avoid collapsing of embedding vectors. We conduct extensive experiments to verify that our method can learn users' visual interests, and our method achieves $0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao online GMV with p-value$<0.01$.
翻訳日:2023-06-09 15:44:41 公開日:2023-06-08
# フラッド検出における量子ボルツマンマシンによる教師なし異常検出の探索

Exploring Unsupervised Anomaly Detection with Quantum Boltzmann Machines in Fraud Detection ( http://arxiv.org/abs/2306.04998v1 )

ライセンス: Link先を確認
Jonas Stein, Dani\"elle Schuman, Magdalena Benkard, Thomas Holger, Wanja Sajko, Michael K\"olle, Jonas N\"u{\ss}lein, Leo S\"unkel, Olivier Salomon, Claudia Linnhoff-Popien(参考訳) エンドポイント検出と応答における異常検出は、大企業のサイバーセキュリティプログラムにおいて重要な課題である。 急速に増大するデータ量とゼロデイアタックの全能により、手動および規則に基づく検出技術は、実際には適用できない。 この問題に対する古典的な機械学習アプローチは存在するが、悪質な異常と悪質な異常を区別する際の不満足なパフォーマンスをしばしば示す。 現在使われている機械学習技術よりも優れた一般化を実現するための有望なアプローチは量子生成モデルである。 利用可能な量子ハードウェア上で最大のデータ表現を実現するため,量子アニーリングに基づく量子ボルツマンマシン(QBM)について検討する。 本研究は,QBMを用いた異常検出問題に対する最初の教師なしアプローチであり,適切な合成データセット上での性能評価を行う。 結果から,qbmは,結果品質とトレーニングステップにおいて,古典的アナログ(すなわち制限ボルツマン機械)を上回ることができることが示唆された。 D-Wave SystemsのQuantum Annealersを利用する場合、シミュレーション結果を量子ハードウェア上で再現するために必要となるハイパーパラメータ最適化を行うために、より正確な古典的シミュレータかQPU時間が必要であると結論付ける。

Anomaly detection in Endpoint Detection and Response is a critical task in cybersecurity programs of large companies. With a rapidly growing amount of data and the omnipresence of zero-day attacks, manual and rule-based detection techniques are no longer eligible in practice. While classical machine learning approaches to this problem exist, they frequently show unsatisfactory performance in differentiating malicious from benign anomalies. A promising approach to attain superior generalization than currently employed machine learning techniques are quantum generative models. Allowing for the largest representation of data on available quantum hardware, we investigate Quantum Annealing based Quantum Boltzmann Machines (QBMs) for the given problem. We contribute the first fully unsupervised approach for the problem of anomaly detection using QBMs and evaluate its performance on a suitable synthetic dataset. Our results indicate that QBMs can outperform their classical analog (i.e., Restricted Boltzmann Machines) in terms of result quality and training steps. When employing Quantum Annealers from D-Wave Systems, we conclude that either more accurate classical simulators or substantially more QPU time is needed to conduct the necessary hyperparameter optimization allowing to replicate our simulation results on quantum hardware.
翻訳日:2023-06-09 15:44:14 公開日:2023-06-08
# 液体時間定数ネットワークを用いた方向mm波リンクのブロック予測

Blockage Prediction in Directional mmWave Links Using Liquid Time Constant Network ( http://arxiv.org/abs/2306.04997v1 )

ライセンス: Link先を確認
Martin H. Nielsen, Chia-Yi Yeh, Ming Shen, and Muriel M\'edard(参考訳) 本稿では,受信信号パワーのみを入力としてミリ波リンクの将来のブロック状態を予測するための液体時間定数(ltc)ネットワークを提案する。 LTCネットワークは生物学にインスパイアされた常微分方程式(ODE)システムに基づいており、入力として時系列観測の近未来予測に特化している。 60ghzの実験的データセットを用いて,提案手法では,シナリオに固有のデータを用いることなく,ブロック発生とブロック長を確実に予測できることを示す。 その結果,提案手法は,アウトドアシナリオの事前知識や再トレーニング/チューニングを必要とせず,97.85\%の精度で予測できることがわかった。 これらの結果は、LCCネットワークを用いて時系列に依存した信号を予測することにより、より信頼性が高く低レイテンシな通信につながる可能性があることを示す。

We propose to use a liquid time constant (LTC) network to predict the future blockage status of a millimeter wave (mmWave) link using only the received signal power as the input to the system. The LTC network is based on an ordinary differential equation (ODE) system inspired by biology and specialized for near-future prediction for time sequence observation as the input. Using an experimental dataset at 60 GHz, we show that our proposed use of LTC can reliably predict the occurrence of blockage and the length of the blockage without the need for scenario-specific data. The results show that the proposed LTC can predict with upwards of 97.85\% accuracy without prior knowledge of the outdoor scenario or retraining/tuning. These results highlight the promising gains of using LTC networks to predict time series-dependent signals, which can lead to more reliable and low-latency communication.
翻訳日:2023-06-09 15:43:53 公開日:2023-06-08
# T3L: 言語間テキスト分類のための翻訳・テスト変換学習

T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification ( http://arxiv.org/abs/2306.04996v1 )

ライセンス: Link先を確認
Inigo Jauregi Unanue and Gholamreza Haffari and Massimo Piccardi(参考訳) 言語間テキスト分類は、高ソース言語で訓練されたテキスト分類を利用して、最小限の微調整なしで他の言語でテキスト分類を行う。 現在、言語間テキスト分類器は、様々な言語で事前訓練された大規模多言語言語モデル(LM)上に構築されている。 しかし、これらのモデルの性能は言語や分類タスクによって大きく異なり、言語モデリングや分類タスクの重ね合わせが常に有効であるとは限らないことを示唆する。 そこで本稿では,古典的な「翻訳とテスト」パイプラインを再検討し,翻訳と分類の段階を適切に分離することを提案する。 提案するアプローチカップルは 1) 対象言語から高資源言語へ翻訳するニューラルマシン翻訳装置 2) 高リソース言語で訓練されたテキスト分類器だが,ニューラルネットワークトランスレータは,パイプラインの微調整中にエンドツーエンドのバックプロパゲーションを可能にする"ソフト"翻訳を生成する。 3つの言語間テキスト分類データセット(XNLI,MLDoc,MultiEURLEX)で大規模な実験が行われ,提案手法は競合するベースラインよりも大幅に性能が向上したことを示す。

Cross-lingual text classification leverages text classifiers trained in a high-resource language to perform text classification in other languages with no or minimal fine-tuning (zero/few-shots cross-lingual transfer). Nowadays, cross-lingual text classifiers are typically built on large-scale, multilingual language models (LMs) pretrained on a variety of languages of interest. However, the performance of these models vary significantly across languages and classification tasks, suggesting that the superposition of the language modelling and classification tasks is not always effective. For this reason, in this paper we propose revisiting the classic "translate-and-test" pipeline to neatly separate the translation and classification stages. The proposed approach couples 1) a neural machine translator translating from the targeted language to a high-resource language, with 2) a text classifier trained in the high-resource language, but the neural machine translator generates "soft" translations to permit end-to-end backpropagation during fine-tuning of the pipeline. Extensive experiments have been carried out over three cross-lingual text classification datasets (XNLI, MLDoc and MultiEURLEX), with the results showing that the proposed approach has significantly improved performance over a competitive baseline.
翻訳日:2023-06-09 15:43:41 公開日:2023-06-08
# キャッシュ, 信頼性, コンバージョン: 合成メディアが投資行動に及ぼす影響

Cash, Credibility, and Conversion: The Influence of Synthetic Media on Investment Behavior ( http://arxiv.org/abs/2306.05033v1 )

ライセンス: Link先を確認
Nicholas Gerard Keeley(参考訳) 2022年11月までに、合成メディアの話題は、主に学術雑誌に埋もれ、国家安全保障に関する議論に制約され、しばしば根本的に誤解された。 しかし、ChatGPTのリリースは、合成メディアの社会的影響に関する議論を加速させた。 この研究は、まず、合成メディアに関する既存の文献のいくつかのギャップを強調し、理論的枠組み内での合成メディア脅威の影響ポテンシャルと限界を構造化する。 第2に、金融情報環境を、総合的なテキストモダリティによる将来の混乱の候補とし、世界投資共同体における総合的な金融文書の影響力を測定するための実験的調査を提案する。 本研究に含まれる実験は、参加者が合成テキストと真偽を区別する能力を評価するだけでなく、一連の行動変数を通して信念を操る能力を観察することで、合成メディアの影響を測定する。 その結果, 合成テキストは, 投資家の感情を, 真面目な情報条件下から著しく逸脱させる可能性が示唆された。 さらに、合成ファイナンシャルテキストは投資家を「転換」するユニークな能力を示し、本物のファイナンシャルテキストと比べて企業に関する見通しが極端な変化を招いた。 この傾向は、特に投資家の感傷的なショックに対する株式市場の歴史的脆弱性を考えると、グローバルな金融コミュニティ内の懸念を喚起するだろう。

Prior to November of 2022, the topic of synthetic media was largely buried within academic journals, constrained to conversations about national security, and often fundamentally misunderstood. The release of ChatGPT, however, has accelerated discourse on the societal impacts of synthetic media. This study first highlights several gaps within existing literature on synthetic media, structuring the impact potential and limitations of synthetic media threats within a theoretical framework. Second, it identifies financial information environments as prime candidates for future disruption via synthetic text modalities, proposing an experimental survey for measuring the influential power of synthetic financial text on global investment communities. Rather than merely assessing the ability of survey participants to distinguish genuine from synthetic text, the experiment contained within this study measures synthetic media influence by observing its ability to manipulate belief via a series of behavioral variables. The results indicate that synthetic text can significantly shift investor sentiment away from what it might otherwise have been under truthful information conditions. Furthermore, synthetic financial text demonstrated a unique ability to "convert" investors, inspiring extreme changes in outlook about a company compared to genuine financial texts. This trend should inspire concern within the global financial community, particularly given the historical vulnerability of equity markets to investor sentiment shocks.
翻訳日:2023-06-09 15:36:41 公開日:2023-06-08
# ループのエキスパートによるスケーラブルで適応的なログベース異常検出

Scalable and Adaptive Log-based Anomaly Detection with Expert in the Loop ( http://arxiv.org/abs/2306.05032v1 )

ライセンス: Link先を確認
Jinyang Liu, Junjie Huang, Yintong Huo, Zhihan Jiang, Jiazhen Gu, Zhuangbin Chen, Cong Feng, Minzhi Yan and Michael R. Lyu(参考訳) システムログは、ソフトウェアシステムの信頼性を維持する上で重要な役割を果たす。 実りある研究がログに基づく自動異常検出を探索し、ベンチマークデータセットで注目すべき精度を達成した。 しかし、大規模なクラウドシステムに適用する場合、これらのソリューションは、高いリソース消費とログの進化への適応性の欠如のために制限に直面します。 本稿では,sealogと呼ばれる,正確で軽量で適応的なログに基づく異常検出フレームワークを提案する。 本稿では,リアルタイム異常検出に軽量で動的に成長する三重構造を用いたTrie-based Detection Agent (TDA)を提案する。 ログデータの進化に対応するTDAの精度を高めるため,専門家からのフィードバックを受信することができる。 興味深いことに、ChatGPTのような現代の大規模言語モデルは、人間の専門家に匹敵する一貫性のレベルでフィードバックを提供することができ、手動検証の労力を削減できる可能性が示唆されている。 2つのパブリックデータセットと産業データセットでSeaLogを広範囲に評価する。 その結果、SeaLogはすべてのベースラインメソッドを性能面で上回り、2倍から10倍速く動作し、メモリリソースの5%から41%しか消費しないことがわかった。

System logs play a critical role in maintaining the reliability of software systems. Fruitful studies have explored automatic log-based anomaly detection and achieved notable accuracy on benchmark datasets. However, when applied to large-scale cloud systems, these solutions face limitations due to high resource consumption and lack of adaptability to evolving logs. In this paper, we present an accurate, lightweight, and adaptive log-based anomaly detection framework, referred to as SeaLog. Our method introduces a Trie-based Detection Agent (TDA) that employs a lightweight, dynamically-growing trie structure for real-time anomaly detection. To enhance TDA's accuracy in response to evolving log data, we enable it to receive feedback from experts. Interestingly, our findings suggest that contemporary large language models, such as ChatGPT, can provide feedback with a level of consistency comparable to human experts, which can potentially reduce manual verification efforts. We extensively evaluate SeaLog on two public datasets and an industrial dataset. The results show that SeaLog outperforms all baseline methods in terms of effectiveness, runs 2X to 10X faster and only consumes 5% to 41% of the memory resource.
翻訳日:2023-06-09 15:36:20 公開日:2023-06-08
# 逆摂動に対するロバストNASの一般化軽量プロキシ

Generalizable Lightweight Proxy for Robust NAS against Diverse Perturbations ( http://arxiv.org/abs/2306.05031v1 )

ライセンス: Link先を確認
Hyeonjeong Ha, Minseon Kim, Sung Ju Hwang(参考訳) 最近のneural architecture search(nas)フレームワークは、与えられた条件(パフォーマンスやレイテンシなど)に対して最適なアーキテクチャを見つけることに成功している。 しかし、クリーンな画像でのみの性能という観点から最適なアーキテクチャを探索する一方で、様々なタイプの摂動や腐敗に対する堅牢性は、実際には不可欠である。 対人訓練をワンショットのNASに統合することで、この問題に対処する堅牢なNASフレームワークはいくつか存在するが、敵攻撃に対する堅牢性のみを考慮し、単一のタスクに最適なアーキテクチャを見つけるために重要な計算資源を必要とするため、現実のシナリオでは非現実的である。 これらの課題に対処するために,初期化状態におけるクリーン画像と摂動画像の両方の特徴,パラメータ,勾配の整合性を考慮した,軽量で堅牢なゼロコストプロキシを提案する。 提案手法は,多種多様な摂動にまたがる堅牢性を示す一般化可能な特徴を学習可能な,効率的かつ迅速なニューラルアーキテクチャの探索を容易にする。 実験の結果,提案するプロキシは,複数のベンチマークデータセットや多様な検索空間上の様々な摂動に対して一貫して堅牢なニューラルアーキテクチャを迅速かつ効率的に探索することが可能であり,既存のクリーンゼロショットNASやロバストNASよりも探索コストを低減できることがわかった。

Recent neural architecture search (NAS) frameworks have been successful in finding optimal architectures for given conditions (e.g., performance or latency). However, they search for optimal architectures in terms of their performance on clean images only, while robustness against various types of perturbations or corruptions is crucial in practice. Although there exist several robust NAS frameworks that tackle this issue by integrating adversarial training into one-shot NAS, however, they are limited in that they only consider robustness against adversarial attacks and require significant computational resources to discover optimal architectures for a single task, which makes them impractical in real-world scenarios. To address these challenges, we propose a novel lightweight robust zero-cost proxy that considers the consistency across features, parameters, and gradients of both clean and perturbed images at the initialization state. Our approach facilitates an efficient and rapid search for neural architectures capable of learning generalizable features that exhibit robustness across diverse perturbations. The experimental results demonstrate that our proxy can rapidly and efficiently search for neural architectures that are consistently robust against various perturbations on multiple benchmark datasets and diverse search spaces, largely outperforming existing clean zero-shot NAS and robust NAS with reduced search cost.
翻訳日:2023-06-09 15:36:00 公開日:2023-06-08
# 全スライド画像分類のためのトランスフォーマを用いたマルチレベルマルチインスタンス学習

Multi-level Multiple Instance Learning with Transformer for Whole Slide Image Classification ( http://arxiv.org/abs/2306.05029v1 )

ライセンス: Link先を確認
Ruijie Zhang, Qiaozhe Zhang, Yingzhuang Liu, Hao Xin, Yan Liu, Xinggang Wang(参考訳) whole slide image (wsi) は、コンピュータ支援診断 (cad) に広く用いられている高分解能スキャンされた組織画像の一種である。 極端に高解像度かつ限定的な領域レベルのアノテーションは、WSIベースのデジタル診断に深層学習手法を採用することを困難にしている。 マルチインスタンス学習(MIL)は弱いアノテーション問題に対処するための強力なツールであり、Transformerは視覚タスクの分野で大きな成功を収めている。 両者の組み合わせは、深層学習に基づく画像診断のための新しい洞察を提供する。 しかしながら、シングルレベルミルの制限とアテンション機構のシーケンス長に対する制約のため、wsiベースのミルタスクに直接トランスフォーマーを適用することは実用的ではない。 本稿では,MMIL変換器を用いたマルチレベルMILを提案する。 MILに階層構造を導入することで、多数のインスタンスを含むMILタスクの効率的な処理が可能になる。 その効果を検証するために,wsis分類タスクの一連の実験を行い,mil変換器は既存の最先端手法よりも優れた性能を示す。 提案手法は,CAMELYON16データセットでテストAUC 94.74%,テスト精度93.41%,テストAUC 99.04%,テスト精度94.37%をTCGA-NSCLCデータセットで達成する。 すべてのコードおよび事前訓練済みモデルは、https://github.com/hustvl/MMIL-Transformerで利用可能である。

Whole slide image (WSI) refers to a type of high-resolution scanned tissue image, which is extensively employed in computer-assisted diagnosis (CAD). The extremely high resolution and limited availability of region-level annotations make it challenging to employ deep learning methods for WSI-based digital diagnosis. Multiple instance learning (MIL) is a powerful tool to address the weak annotation problem, while Transformer has shown great success in the field of visual tasks. The combination of both should provide new insights for deep learning based image diagnosis. However, due to the limitations of single-level MIL and the attention mechanism's constraints on sequence length, directly applying Transformer to WSI-based MIL tasks is not practical. To tackle this issue, we propose a Multi-level MIL with Transformer (MMIL-Transformer) approach. By introducing a hierarchical structure to MIL, this approach enables efficient handling of MIL tasks that involve a large number of instances. To validate its effectiveness, we conducted a set of experiments on WSIs classification task, where MMIL-Transformer demonstrate superior performance compared to existing state-of-the-art methods. Our proposed approach achieves test AUC 94.74% and test accuracy 93.41% on CAMELYON16 dataset, test AUC 99.04% and test accuracy 94.37% on TCGA-NSCLC dataset, respectively. All code and pre-trained models are available at: https://github.com/hustvl/MMIL-Transformer
翻訳日:2023-06-09 15:35:34 公開日:2023-06-08
# ポスト選択Oracleとしてのハイブリッド論理-物理量子相互作用

Hybrid Logical-Physical Qubit Interaction as a Post Selection Oracle ( http://arxiv.org/abs/2306.05027v1 )

ライセンス: Link先を確認
Nadav Carmel, Nadav Katz(参考訳) 異なる論理層間の量子ビット間の相互作用を可能にする量子5量子ビット安定化符号の特性を実証し、論理層と物理キュービット間の相互作用の完全な密度行列シミュレーションを行う。 論理キュービットをアンシラとして使用し、どの状況下で素の物理的アンシラアプローチよりも有利なものを見つけ出し、デコヒーレンスプロセスで回路の深さとノイズレベルを変化させる。 量子位相推定のためのポストセレクションオラクルとして使用し、センサキュービットから伝播する誤差を検出する。 最後に、我々のシミュレーションを用いて、今日のハードウェアの能力に優れた量子位相推定を用いて、計算と信号検出の両方にノイズ閾値を与える。

We demonstrate a property of the quantum 5-qubit stabilizer code that enables the interaction between qubits of different logical layers, and conduct a full density-matrix simulation of an interaction between a logical and a physical qubit. We use the logical qubit as an ancilla and find under which circumstances it gives an advantage over the bare physical ancilla approach, changing the circuit depth and noise level with decoherence processes at play. We use it as a post selection oracle for quantum phase estimation to detect errors propagating from the sensor qubit. Finally, we use our simulation to give noise thresholds both for computation and for sensing a signal using quantum phase estimation that are well within the capabilities of today's hardware.
翻訳日:2023-06-09 15:35:08 公開日:2023-06-08
# hhlおよびbeyondのnisq実装を促進する近似ルックアップテーブルと任意の関数回転

Approximative lookup-tables and arbitrary function rotations for facilitating NISQ-implementations of the HHL and beyond ( http://arxiv.org/abs/2306.05024v1 )

ライセンス: Link先を確認
Petros Stougiannidis, Jonas Stein, David Bucher, Sebastian Zielinski, Claudia Linnhoff-Popien, Sebastian Feld(参考訳) hhlアルゴリズムの周りに証明可能なスピードアップセンターを持つ量子コンピューティングの多くの有望な応用。 ハードウェアの制限と、既知の実装における量子ビットやゲートに対する大きな需要のため、その実行は短期量子コンピュータでは禁止されている。 NISQ実装の促進を目的として,HHLにおける演算サブルーチンを強化する新しい回路近似手法を提案する。 そこで本研究では,量子回路内での算術演算を必要としない多項式関数の空間効率回転のアルゴリズム的実装について述べる。 本稿では, 単純かつ強力な近似手法を提供することにより, 回路の深さを低減できることを示す。 さらに,任意の関数回転に対するルックアップテーブルを近似手法の適用を可能にする構造に変換するアルゴリズムを提供する。 これにより、多くの多項式および非多項関数の近似回転回路を実装することができる。 現実的な早期応用次元に対して得られた実験結果は、最先端の回路に比べて大幅に改善され、良好な近似が得られた。

Many promising applications of quantum computing with a provable speedup center around the HHL algorithm. Due to restrictions on the hardware and its significant demand on qubits and gates in known implementations, its execution is prohibitive on near-term quantum computers. Aiming to facilitate such NISQ-implementations, we propose a novel circuit approximation technique that enhances the arithmetic subroutines in the HHL, which resemble a particularly resource-demanding component in small-scale settings. For this, we provide a description of the algorithmic implementation of space-efficient rotations of polynomial functions that do not demand explicit arithmetic calculations inside the quantum circuit. We show how these types of circuits can be reduced in depth by providing a simple and powerful approximation technique. Moreover, we provide an algorithm that converts lookup-tables for arbitrary function rotations into a structure that allows an application of the approximation technique. This allows implementing approximate rotation circuits for many polynomial and non-polynomial functions. Experimental results obtained for realistic early-application dimensions show significant improvements compared to the state-of-the-art, yielding small circuits while achieving good approximations.
翻訳日:2023-06-09 15:34:54 公開日:2023-06-08
# リニア条件と階層型変分オートエンコーダの後方崩壊

Posterior Collapse in Linear Conditional and Hierarchical Variational Autoencoders ( http://arxiv.org/abs/2306.05023v1 )

ライセンス: Link先を確認
Hien Dang and Tho Tran and Tan Nguyen and Nhat Ho(参考訳) 変分自己エンコーダ (VAE) における後部崩壊現象は, 変分後部分布が先行分布と密接に一致し, 学習された潜伏変数の品質を損なう。 後方崩壊の結果、vaesのエンコーダによって抽出された潜在変数は入力データからの情報が少ないため、デコーダの再構成プロセスへの入力として有意義な表現を生成することができない。 この現象はvaes性能に関する話題として積極的に取り組まれているが、特に標準vaesを超える後方崩壊説は未開発のままである。 本研究では, 後方崩壊の理論的理解を, 条件的vaesと階層的vaesという, 重要かつ普及度の低い2つのvaesクラスに展開する。 具体的には,2段階の潜在性を有する線形条件付きvaesと階層型vaesの非自明な理論的解析により,これらのモデルにおける後方崩壊の原因は条件付きvaesの入出力と階層型vaesにおける学習可能なエンコーダ分散の相関関係を含むことを証明した。 線形条件および階層的VAEに関する理論的知見を実証的に検証し,これらの結果が非線形の場合においても予測可能であることを示す。

The posterior collapse phenomenon in variational autoencoders (VAEs), where the variational posterior distribution closely matches the prior distribution, can hinder the quality of the learned latent variables. As a consequence of posterior collapse, the latent variables extracted by the encoder in VAEs preserve less information from the input data and thus fail to produce meaningful representations as input to the reconstruction process in the decoder. While this phenomenon has been an actively addressed topic related to VAEs performance, the theory for posterior collapse remains underdeveloped, especially beyond the standard VAEs. In this work, we advance the theoretical understanding of posterior collapse to two important and prevalent yet less studied classes of VAEs: conditional VAEs and hierarchical VAEs. Specifically, via a non-trivial theoretical analysis of linear conditional VAEs and hierarchical VAEs with two levels of latent, we prove that the cause of posterior collapses in these models includes the correlation between the input and output of the conditional VAEs and the effect of learnable encoder variance in the hierarchical VAEs. We empirically validate our theoretical findings for linear conditional and hierarchical VAEs and demonstrate that these results are also predictive for non-linear cases.
翻訳日:2023-06-09 15:34:36 公開日:2023-06-08
# Mixed-TD: 層状テンソル分解を用いた高効率ニューラルネットワーク加速器

Mixed-TD: Efficient Neural Network Accelerator with Layer-Specific Tensor Decomposition ( http://arxiv.org/abs/2306.05021v1 )

ライセンス: Link先を確認
Zhewen Yu, Christos-Savvas Bouganis(参考訳) ニューラルネットワークの設計は、VGGスタイルからResNetスタイル、畳み込みニューラルネットワークからトランスフォーマーまで、非常に多様である。 効率的な加速器の設計に向けて、多くの作品はデータフローベースの層間パイプラインアーキテクチャを採用し、各層にカスタマイズされたハードウェアを備え、超高スループットと低レイテンシを実現している。 このようなデータフローアーキテクチャアクセラレータへのニューラルネットワークのデプロイは、システムパフォーマンスを最大化するためにニューラルネットワークの重みをオンチップにプリロードすることが望ましいため、利用可能なオンチップメモリによって妨げられる。 これに対処するために、ネットワークは通常、プルーニング、量子化、テンソル分解などの手法によって展開前に圧縮される。 本論文では,mixed-tdと呼ばれる新しいテンソル分解法に基づいて,cnnをfpgaにマッピングする枠組みを提案する。 提案手法は,DSP毎の1.73倍から10.29倍のスループットを最先端CNNに適用し,層固有特異値分解(SVD)とカノニカルポリアディック分解(CPD)を混合的に適用する。 私たちの作業はオープンソースです。 https://github.com/Yu-Zhewen/Mixed-TD

Neural Network designs are quite diverse, from VGG-style to ResNet-style, and from Convolutional Neural Networks to Transformers. Towards the design of efficient accelerators, many works have adopted a dataflow-based, inter-layer pipelined architecture, with a customised hardware towards each layer, achieving ultra high throughput and low latency. The deployment of neural networks to such dataflow architecture accelerators is usually hindered by the available on-chip memory as it is desirable to preload the weights of neural networks on-chip to maximise the system performance. To address this, networks are usually compressed before the deployment through methods such as pruning, quantization and tensor decomposition. In this paper, a framework for mapping CNNs onto FPGAs based on a novel tensor decomposition method called Mixed-TD is proposed. The proposed method applies layer-specific Singular Value Decomposition (SVD) and Canonical Polyadic Decomposition (CPD) in a mixed manner, achieving 1.73x to 10.29x throughput per DSP to state-of-the-art CNNs. Our work is open-sourced: https://github.com/Yu-Zhewen/Mixed-TD
翻訳日:2023-06-09 15:34:14 公開日:2023-06-08
# ディープニューラルネットワークを用いたnon-intrusive load monitoring(nilm)のレビュー

Non-Intrusive Load Monitoring (NILM) using Deep Neural Networks: A Review ( http://arxiv.org/abs/2306.05017v1 )

ライセンス: Link先を確認
Mohammad Irani Azad, Roozbeh Rajabi, Abouzar Estebsari(参考訳) 需要側の管理が住宅の負荷を増加させている。 需要対応戦略を効率的に適用するためには,各種家電製品のエネルギー消費への貢献を定期的に観察することが不可欠である。 非侵入型負荷モニタリング(non-intrusive load monitoring, nilm)は、家庭内のエネルギー消費プロファイルを個々の家電負荷プロファイルに分解する方法である。 需要側管理、エネルギー消費モニタリング、分析に複数の応用がある。 機械学習やディープラーニングを含む様々な手法がNILMアルゴリズムの実装と改善に用いられてきた。 本稿では, 深層学習に基づく最近のNILM手法を概観し, 住宅負荷の最も正確な方法を紹介する。 NILM評価のための公開データベースを要約し、標準的なパフォーマンス指標を用いた手法を比較する。

Demand-side management now encompasses more residential loads. To efficiently apply demand response strategies, it's essential to periodically observe the contribution of various domestic appliances to total energy consumption. Non-intrusive load monitoring (NILM), also known as load disaggregation, is a method for decomposing the total energy consumption profile into individual appliance load profiles within the household. It has multiple applications in demand-side management, energy consumption monitoring, and analysis. Various methods, including machine learning and deep learning, have been used to implement and improve NILM algorithms. This paper reviews some recent NILM methods based on deep learning and introduces the most accurate methods for residential loads. It summarizes public databases for NILM evaluation and compares methods using standard performance metrics.
翻訳日:2023-06-09 15:33:48 公開日:2023-06-08
# 複数車両における優先体験による進歩認知強化学習

Progression Cognition Reinforcement Learning with Prioritized Experience for Multi-Vehicle Pursuit ( http://arxiv.org/abs/2306.05016v1 )

ライセンス: Link先を確認
Xinhang Li, Yiying Yang, Zheng Yuan, Zhe Wang, Qinwen Wang, Chen Xu, Lei Li, Jianhua He and Lin Zhang(参考訳) 被疑者を追尾する自律警察車両のような多車両追尾(MVP)は、その任務と安全上重要な性質のために重要であるが、非常に難しい。 構造化グリッドパターン道路におけるMVP問題に対してマルチエージェント強化学習(MARL)アルゴリズムが提案されているが、既存のアルゴリズムでは集中学習においてランダムにサンプルを訓練し、共同作業性能が低い均質なエージェントを生成する。 複数の回避車両を追尾するより困難な問題に対して、これらのアルゴリズムは一般的に、動的交通状況を考慮していない固定目標回避車両を選択する。 以上の課題に対処するために,都市多区間動画像におけるMVP(PEPCRL-MVP)を用いたプログレクション認知強化学習を提案する。 PEPCRL-MVPは優先順位付けネットワークを使用して、各MARLエージェントのパラメータに従ってグローバルエクスペリエンス再生バッファの遷移を評価する。 優先順位付けネットワークを介して選択されたパーソナライズおよび優先順位付けされた体験セットにより、marlの学習プロセスに多様性が導入され、コラボレーションとタスク関連パフォーマンスが向上する。 さらにpepcrl-mvpは注意モジュールを用いて複雑な都市交通環境から重要な特徴を抽出する。 これらの特徴は、追従車両を適応的にグループ化する進歩認知法を開発するために用いられる。 各グループは、動的運転環境において1台の回避車両を効率的に目標とする。 都市部における非構造道路上でのシミュレーション実験により,PEPCRL-MVPが他の最先端手法よりも優れていることを示す。 具体的には、PEPCRL-MVPはTD3-DMAPよりも3.95%効率を改善し、その成功率はMADDPGよりも34.78%高い。 コードはオープンソースである。

Multi-vehicle pursuit (MVP) such as autonomous police vehicles pursuing suspects is important but very challenging due to its mission and safety critical nature. While multi-agent reinforcement learning (MARL) algorithms have been proposed for MVP problem in structured grid-pattern roads, the existing algorithms use randomly training samples in centralized learning, which leads to homogeneous agents showing low collaboration performance. For the more challenging problem of pursuing multiple evading vehicles, these algorithms typically select a fixed target evading vehicle for pursuing vehicles without considering dynamic traffic situation, which significantly reduces pursuing success rate. To address the above problems, this paper proposes a Progression Cognition Reinforcement Learning with Prioritized Experience for MVP (PEPCRL-MVP) in urban multi-intersection dynamic traffic scenes. PEPCRL-MVP uses a prioritization network to assess the transitions in the global experience replay buffer according to the parameters of each MARL agent. With the personalized and prioritized experience set selected via the prioritization network, diversity is introduced to the learning process of MARL, which can improve collaboration and task related performance. Furthermore, PEPCRL-MVP employs an attention module to extract critical features from complex urban traffic environments. These features are used to develop progression cognition method to adaptively group pursuing vehicles. Each group efficiently target one evading vehicle in dynamic driving environments. Extensive experiments conducted with a simulator over unstructured roads of an urban area show that PEPCRL-MVP is superior to other state-of-the-art methods. Specifically, PEPCRL-MVP improves pursuing efficiency by 3.95% over TD3-DMAP and its success rate is 34.78% higher than that of MADDPG. Codes are open sourced.
翻訳日:2023-06-09 15:33:36 公開日:2023-06-08
# 障害物を過ぎる1次元超流の臨界速度を超える定常輸送

Stationary transport above the critical velocity in a one-dimensional superflow past an obstacle ( http://arxiv.org/abs/2306.05048v1 )

ライセンス: Link先を確認
Juliette Huynh and Fr\'ed\'eric H\'ebert and Pierre-\'Elie Larr\'e and Mathias Albert(参考訳) 本研究では, 平均場状態における1次元量子流体の異なる定常流れについて考察する。 我々は,時間依存流から定常拡散流への移行が与えられた臨界速度で起こる超音速状態に着目した。 任意の大きさと強度の局所障害物の存在下で、この臨界速度に対する非摂動的な結果を与える。 さらに、共鳴輸送による超音速状態における超流動性溶液の存在を議論し、量子流体の定常輸送の異なる状態の完全なマップを提供する。

We consider in this work the different possible stationary flows of a one dimensional quantum fluid in the mean-field regime. We focus on the supersonic regime where a transition from a time dependent flow to a stationary diffractive flow occurs at a given critical velocity. We give nonperturbative results for this critical velocity in the presence of a localised obstacle of arbitrary size and strength. In addition, we discuss the existence of superfluid-like solution in the supersonic regime due to resonant transport and provide a complete map of the different regimes of stationary transport of a quantum fluid.
翻訳日:2023-06-09 15:27:35 公開日:2023-06-08
# reduce-width-qnns - aiにインスパイアされたansatzデザインパターン

Introducing Reducing-Width-QNNs, an AI-inspired Ansatz design pattern ( http://arxiv.org/abs/2306.05047v1 )

ライセンス: Link先を確認
Jonas Stein, Tobias Rohe, Francesco Nappi, Julian Hager, David Bucher, Maximilian Zorn, Michael K\"olle, Claudia Linnhoff-Popien(参考訳) 変分量子アルゴリズムは、最初に工業的に関連する量子優位をもたらす最も有望な候補の1つである。 任意の関数近似が可能であるため、古典的ニューラルネットワーク(ANN)のようなアナログ設定で使用される場合、量子ニューラルネットワーク(QNN)と呼ばれることが多い。 古典的機械学習の初期と同様に、これらのネットワークの効率的なアーキテクチャのための既知のスキームは少ない。 既存の設計パターンを超越して,QNNのパラメータトレーニングにおけるバレンプラトーによる勾配の解消に関する一般的な問題を軽減することを目的とした,縮小幅回路のAnsatz設計を提案する。 本設計は,オートエンコーダのエンコーダ成分などの古典的アンヌにおける層幅の低減に着想を得たものである。 我々は,最大カット問題に対するVQEアンサッツのアプローチを評価し,トレーニング時間と結果品質の観点から深部回路の可能性を明らかにする。

Variational Quantum Algorithms are one of the most promising candidates to yield the first industrially relevant quantum advantage. Being capable of arbitrary function approximation, they are often referred to as Quantum Neural Networks (QNNs) when being used in analog settings as classical Artificial Neural Networks (ANNs). Similar to the early stages of classical machine learning, known schemes for efficient architectures of these networks are scarce. Exploring beyond existing design patterns, we propose a reducing-width circuit Ansatz design, which aims at mitigating the common problem of vanishing gradients caused by barren plateaus in the parameter training of QNNs. Our design of gradually width-reduced ansatz-layers is inspired by the similar reduction of layer-width in classical ANNs such as the encoder component in autoencoders. We evaluate our approach in a VQE ansatz to the maximum cut problem and identify its potential for increasingly deep circuits in terms of training time and result quality.
翻訳日:2023-06-09 15:27:27 公開日:2023-06-08
# 雑音ラベルを用いたオンラインロバスト深層ニューラルネットワークトレーニングのための勾配ベースアプローチ

A Gradient-based Approach for Online Robust Deep Neural Network Training with Noisy Labels ( http://arxiv.org/abs/2306.05046v1 )

ライセンス: Link先を確認
Yifan Yang, Alec Koppel, Zheng Zhang(参考訳) ノイズの多いラベルで学ぶことは、多くの現実のシナリオでスケーラブルなトレーニングを行う上で重要なトピックである。 しかし、データの到着がストリーミングであるオンライン環境でこの問題を考える先行研究はほとんどない。 本稿では,オンライン・グラディエント・ベース・ロバスト・セレクション(OGRS)と呼ばれるモデルパラメータのオンライン学習のための雑音ラベルの検出を可能にする,新しい勾配に基づくアプローチを提案する。 トレーニング毎にデータセットのクリーン比を推定する必要があるオフライントレーニングの以前のサンプル選択アプローチとは対照的に、ogrはパラメータ設定を変更することなく、クリーンな比率の異なるデータセットから、勾配更新のステップによってクリーンなサンプルを自動的に選択することができる。 トレーニングプロセス中、ogrs法は各イテレーションでクリーンなサンプルを選択し、選択したサンプルを供給してモデルパラメータを漸進的に更新する。 非凸制約最適化問題に対するサブ線形局所ラグランジアン後悔を導入、証明することにより、サンプル空間の低損失領域にデータ選択プロセスが収束していることを示す詳細な理論的解析を行う。 実験の結果、異なる設定で最先端のメソッドよりも優れていた。

Learning with noisy labels is an important topic for scalable training in many real-world scenarios. However, few previous research considers this problem in the online setting, where the arrival of data is streaming. In this paper, we propose a novel gradient-based approach to enable the detection of noisy labels for the online learning of model parameters, named Online Gradient-based Robust Selection (OGRS). In contrast to the previous sample selection approach for the offline training that requires the estimation of a clean ratio of the dataset before each epoch of training, OGRS can automatically select clean samples by steps of gradient update from datasets with varying clean ratios without changing the parameter setting. During the training process, the OGRS method selects clean samples at each iteration and feeds the selected sample to incrementally update the model parameters. We provide a detailed theoretical analysis to demonstrate data selection process is converging to the low-loss region of the sample space, by introducing and proving the sub-linear local Lagrangian regret of the non-convex constrained optimization problem. Experimental results show that it outperforms state-of-the-art methods in different settings.
翻訳日:2023-06-09 15:27:12 公開日:2023-06-08
# スペイン・オン・ファイア : 衛星画像処理と大気情報に基づく新たな山火事リスク評価モデル

Spain on Fire: A novel wildfire risk assessment model based on image satellite processing and atmospheric information ( http://arxiv.org/abs/2306.05045v1 )

ライセンス: Link先を確認
Helena Liz-L\'opez, Javier Huertas-Tato, Jorge P\'erez-Aracil, Carlos Casanova-Mateo, Julia Sanz-Justo, David Camacho(参考訳) 毎年、山火事がスペインの広い地域を破壊し、多くの生態系を脅かす。 人間は90%(無視または挑発)の原因となり、個人の行動は予測できない。 しかし、大気および環境変数は野火の拡散に影響し、深層学習を用いて解析することができる。 これらの事故の被害を軽減するため,我々は,新たなワイルドファイアアセスメントモデル (wam) を提案した。 本研究の目的は,山火事の経済的・生態的影響を予測し,スペイン,カスティーリャ・イ・レヨン,アンダルク・イアの危険な地域での資源配分と意思決定を支援することである。 WAMは残差型畳み込みネットワークアーキテクチャを使用して、大気変数と緑度指数、計算に必要なリソース、制御と消滅時間、および予想される燃え尽き表面積の回帰を行う。 最初は、パッチ予測の目的をマスクした乱れのないデータの10万以上のサンプルを自己監督で事前訓練し、311件の山火事のサンプルを使用して微調整した。 事前訓練により、モデルは状況を理解し、ベースラインを1,4%、37%、9%改善し、人、重、航空資源を推定し、21%と102%の絶滅と制御時間、および18,8%の燃え尽き面積を予測できる。 WAMを使用して、すべての領域で期待されるリソースを視覚化する、Castilla y Le\'onのサンプルアセスメントマップを提供する。

Each year, wildfires destroy larger areas of Spain, threatening numerous ecosystems. Humans cause 90% of them (negligence or provoked) and the behaviour of individuals is unpredictable. However, atmospheric and environmental variables affect the spread of wildfires, and they can be analysed by using deep learning. In order to mitigate the damage of these events we proposed the novel Wildfire Assessment Model (WAM). Our aim is to anticipate the economic and ecological impact of a wildfire, assisting managers resource allocation and decision making for dangerous regions in Spain, Castilla y Le\'on and Andaluc\'ia. The WAM uses a residual-style convolutional network architecture to perform regression over atmospheric variables and the greenness index, computing necessary resources, the control and extinction time, and the expected burnt surface area. It is first pre-trained with self-supervision over 100,000 examples of unlabelled data with a masked patch prediction objective and fine-tuned using 311 samples of wildfires. The pretraining allows the model to understand situations, outclassing baselines with a 1,4%, 3,7% and 9% improvement estimating human, heavy and aerial resources; 21% and 10,2% in expected extinction and control time; and 18,8% in expected burnt area. Using the WAM we provide an example assessment map of Castilla y Le\'on, visualizing the expected resources over an entire region.
翻訳日:2023-06-09 15:26:51 公開日:2023-06-08
# 時系列予測のための非自己回帰条件拡散モデル

Non-autoregressive Conditional Diffusion Models for Time Series Prediction ( http://arxiv.org/abs/2306.05043v1 )

ライセンス: Link先を確認
Lifeng Shen, James Kwok(参考訳) 近年,画像や音声,テキストの生成において,ノイズ拡散モデルが大きなブレークスルーをもたらしている。 しかし、その強力なモデリング能力を時系列に適応させる方法については、まだ疑問の余地がある。 本稿では,新しい条件付け機構である未来混合と自己回帰初期化の導入により,高品質な時系列予測を実現する非自己回帰拡散モデルであるtimediffを提案する。 教師の強制と同様に、future mixupは条件付けの正確な将来予測の一部を可能にするが、自己回帰的初期化は短期的なトレンドのような基本的な時系列パターンでモデルの初期化に役立つ。 9つの実世界のデータセットで大規模な実験が行われる。 その結果、TimeDiffは既存の時系列拡散モデルより一貫して優れており、また、様々な強力なベースライン(トランスフォーマーやFiLMを含む)で最高の全体的な性能を実現していることがわかった。

Recently, denoising diffusion models have led to significant breakthroughs in the generation of images, audio and text. However, it is still an open question on how to adapt their strong modeling ability to model time series. In this paper, we propose TimeDiff, a non-autoregressive diffusion model that achieves high-quality time series prediction with the introduction of two novel conditioning mechanisms: future mixup and autoregressive initialization. Similar to teacher forcing, future mixup allows parts of the ground-truth future predictions for conditioning, while autoregressive initialization helps better initialize the model with basic time series patterns such as short-term trends. Extensive experiments are performed on nine real-world datasets. Results show that TimeDiff consistently outperforms existing time series diffusion models, and also achieves the best overall performance across a variety of the existing strong baselines (including transformers and FiLM).
翻訳日:2023-06-09 15:26:22 公開日:2023-06-08
# 化学・医薬品開発のための量子サロゲートモデリング

Quantum Surrogate Modeling for Chemical and Pharmaceutical Development ( http://arxiv.org/abs/2306.05042v1 )

ライセンス: Link先を確認
Jonas Stein, Michael Poppel, Philip Adamczyk, Ramona Fabry, Zixin Wu, Michael K\"olle, Jonas N\"u{\ss}lein, Dani\"elle Schuman, Philipp Altmann, Thomas Ehmer, Vijay Narasimhan, Claudia Linnhoff-Popien(参考訳) 化学薬品産業の発展における中心的な問題は、所定のブラックボックス機能に十分よく近似するサーロゲート機能を評価するための安価さをモデル化することである。 古典的な機械学習の最先端の手法は、現実的な応用における希少でノイズの多いデータセットに対して、この問題を正確に解くのに苦労している。 量子ニューラルネットワーク (qnns) はこの問題に対して特に有望なアプローチを提供しており、小規模データセットやノイズデータでのトレーニングにおいて、古典的等価性を上回る可能性を示す最近の理論的知見を実験的に支持している。 我々のコントリビューションは、QNNを高次元でリアルなデータに基づく代理モデルとして活用する最初のアプリケーションである。 大規模な実験では、QNNはノイズや不足データに対して、最小限の古典的ニューラルネットワークよりも優れており、量子サロゲートモデルの利点を実証的に示すことができる。 最後に,現在のNISQハードウェアの性能を実験的に実証し,シミュレーション結果の再現に必要なゲート特性を推定する。

A central problem of development in chemical and pharmaceutical industries is modelling a cheap to evaluate surrogate function, that approximates a given black box function sufficiently well. As state-of-the-art methods from classical machine learning struggle to solve this problem accurately for the typically scarce and noisy datasets in practical applications, investigating novel approaches is of great interest to chemical companies worldwide. We demonstrate that quantum neural networks (QNNs) offer a particularly promising approach to this issue and experimentally support recent theoretical findings indicating their potential to outperform classical equivalents in training on small datasets and noisy data. Our contribution displays the first application centered exploration of using QNNs as surrogate models on higher dimensional, realistic data. In extensive experiments, our QNN significantly outperforms a minimalist classical artificial neural network on noisy and scarce data, displaying a possible advantage of quantum surrogate models empirically. Finally, we demonstrate the performance of current NISQ hardware experimentally and estimate the gate fidelities necessary to replicate our simulation results.
翻訳日:2023-06-09 15:26:09 公開日:2023-06-08
# テキスト対画像生成器を用いたエネルギー効率の高いダウンリンク意味生成通信

Energy-Efficient Downlink Semantic Generative Communication with Text-to-Image Generators ( http://arxiv.org/abs/2306.05041v1 )

ライセンス: Link先を確認
Hyein Lee, Jihong Park, Sooyoung Kim, Jinho Choi(参考訳) 本稿では,生成ユーザがT2I(text-to-image)ジェネレータを利用して,ダウンロードしたテキストプロンプトからローカルに画像を生成するのに対して,生成しないユーザはベースステーション(BS)から直接画像をダウンロードする,新しい意味的生成通信(SGC)フレームワークを提案する。 ジェネレイティブユーザはbsでのダウンリンク伝送エネルギーの削減に寄与するが、画像生成やジェネレータ状態情報(gsi)のアップロードに余分なエネルギーを消費する。 我々は,BSとユーザ全体のエネルギー消費を最小化する問題を定式化し,生成的ユーザ選択アルゴリズムを考案する。 シミュレーションの結果,提案アルゴリズムは,非生成ユーザのベースラインと比較して最大54%のエネルギー削減を実現した。

In this paper, we introduce a novel semantic generative communication (SGC) framework, where generative users leverage text-to-image (T2I) generators to create images locally from downloaded text prompts, while non-generative users directly download images from a base station (BS). Although generative users help reduce downlink transmission energy at the BS, they consume additional energy for image generation and for uploading their generator state information (GSI). We formulate the problem of minimizing the total energy consumption of the BS and the users, and devise a generative user selection algorithm. Simulation results corroborate that our proposed algorithm reduces total energy by up to 54% compared to a baseline with all non-generative users.
翻訳日:2023-06-09 15:25:49 公開日:2023-06-08
# 正規化同変ニューラルネットワークと画像雑音化への応用

Normalization-Equivariant Neural Networks with Application to Image Denoising ( http://arxiv.org/abs/2306.05037v1 )

ライセンス: Link先を確認
S\'ebastien Herbreteau, Emmanuel Moebel and Charles Kervrann(参考訳) 多くの情報処理システムでは、入力の変化がシフトしたりスケールしたりすることで、対応するシステム応答が変化することを保証することが望ましい。 ディープニューラルネットワークは、従来の全ての自動処理方法を徐々に置き換えつつあるが、このような正規化等価性(スケール+シフト)は驚くほど保証されていない。 この問題に対処するために,既存のニューラルネットワークを設計による正規化等分散に適応させる手法を提案する。 我々の主張は、通常の畳み込み層だけでなく、前活性化ニューロンに要素的に適用されるReLU(rerectified linear unit)を含む全ての活性化関数も、ニューラルネットワークから完全に取り除かれ、より良い条件付き代替物に置き換えられるべきである、というものである。 この目的のために,アフィン拘束畳み込み畳み込みとチャネルワイズソートプール層をサロゲートとして導入し,これら2つのアーキテクチャ変更が性能を損なうことなく正規化等価性を維持していることを示す。 画像復調実験の結果、正規化等価ニューラルネットワークは、条件付けの改善に加えて、ノイズレベルをまたいだより優れた一般化をもたらすことが示された。

In many information processing systems, it may be desirable to ensure that any change of the input, whether by shifting or scaling, results in a corresponding change in the system response. While deep neural networks are gradually replacing all traditional automatic processing methods, they surprisingly do not guarantee such normalization-equivariance (scale + shift) property, which can be detrimental in many applications. To address this issue, we propose a methodology for adapting existing neural networks so that normalization-equivariance holds by design. Our main claim is that not only ordinary convolutional layers, but also all activation functions, including the ReLU (rectified linear unit), which are applied element-wise to the pre-activated neurons, should be completely removed from neural networks and replaced by better conditioned alternatives. To this end, we introduce affine-constrained convolutions and channel-wise sort pooling layers as surrogates and show that these two architectural modifications do preserve normalization-equivariance without loss of performance. Experimental results in image denoising show that normalization-equivariant neural networks, in addition to their better conditioning, also provide much better generalization across noise levels.
翻訳日:2023-06-09 15:25:33 公開日:2023-06-08
# HCIの課題のマッピング:コスト効率の高い質問応答へのChatGPTとGPT-4の適用と評価

Mapping the Challenges of HCI: An Application and Evaluation of ChatGPT and GPT-4 for Cost-Efficient Question Answering ( http://arxiv.org/abs/2306.05036v1 )

ライセンス: Link先を確認
Jonas Oppenlaender, Joonas H\"am\"al\"ainen(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、広く普及している。 しかし、2つのLLMはクローズドソースであり、実世界のユースケースにおけるLLMの性能についてはほとんど分かっていない。 学術において、LCMのパフォーマンスは、ChatGPTとGPT-4のトレーニングデータにリークした可能性のあるベンチマークでしばしば測定される。 本稿では,2つのLLM学習終了後に出版されたテキストコーパスに対して,コスト効率の高い抽出質問応答の実際のタスクに対してChatGPTとGPT-4を適用し,評価する。 より具体的には、2023年のコンピュータシステムにおけるヒューマンファクター会議(CHI)の手続きから、HCI分野の研究者のための研究課題を抽出する。 本課題のllmを批判的に評価し,chatgptとgpt-4の組み合わせは,テキストコーパスを大規模に解析するための優れたコスト効率のよい手段であると結論づける。 費用効率は研究のアイデアをプロトタイピングし、異なる視点からテキストコーパスを分析し、学術や実践にLLMを適用する上で重要である。 HCIの研究者は、90以上の研究トピックで4392の研究課題をインタラクティブに可視化する。 この視覚化とデータセットをオープンサイエンスの精神で共有しています。

Large language models (LLMs), such as ChatGPT and GPT-4, are gaining wide-spread real world use. Yet, the two LLMs are closed source, and little is known about the LLMs' performance in real-world use cases. In academia, LLM performance is often measured on benchmarks which may have leaked into ChatGPT's and GPT-4's training data. In this paper, we apply and evaluate ChatGPT and GPT-4 for the real-world task of cost-efficient extractive question answering over a text corpus that was published after the two LLMs completed training. More specifically, we extract research challenges for researchers in the field of HCI from the proceedings of the 2023 Conference on Human Factors in Computing Systems (CHI). We critically evaluate the LLMs on this practical task and conclude that the combination of ChatGPT and GPT-4 makes an excellent cost-efficient means for analyzing a text corpus at scale. Cost-efficiency is key for prototyping research ideas and analyzing text corpora from different perspectives, with implications for applying LLMs in academia and practice. For researchers in HCI, we contribute an interactive visualization of 4392 research challenges in over 90 research topics. We share this visualization and the dataset in the spirit of open science.
翻訳日:2023-06-09 15:25:11 公開日:2023-06-08
# 長期連続予測は複雑な注意と余剰長期入力を必要とするか?

Does Long-Term Series Forecasting Need Complex Attention and Extra Long Inputs? ( http://arxiv.org/abs/2306.05035v1 )

ライセンス: Link先を確認
Daojun Liang, Haixia Zhang, Dongfeng Yuan, Xiaoyan Ma, Dongyang Li and Minggao Zhang(参考訳) 変圧器ベースのモデルが様々な時系列タスクで印象的な性能を発揮しているため、ltsf(long-term series forecasting)のタスクも近年広く注目を集めている。 しかし、Transformerベースの手法を要求される計算の複雑さと長いシーケンスのため、LTSFタスクへの適用には、さらに検討が必要な2つの大きな問題がある。 1) これらの方法によって設計される注意の分散機構が実際に実際のデバイス上での実行時間を減少させるかどうか。 2)これらのモデルは、性能を保証するために、さらに長い入力シーケンスを必要とするか? 本論文の回答は否定的である。 そこで本稿では,これら2つの課題をよりよく再現するために,周期性による長期サブシリーズの集約と,近接処理による短期サブシリーズの更新を行う軽量な周期アテンション機構(Periodformer)を設計する。 一方、ガティング機構を周期フォーマに埋め込み、アテンションモジュールが予測結果に与える影響を調節する。 さらに,高速なハイパーパラメータ最適化のためのGPUを最大限活用するために,ベイズ最適化(MABO)に基づくマルチGPU非同期並列アルゴリズムを提案する。 MABOはキュー機構を介して各GPUにプロセスを割り当て、非同期並列検索のために一度に複数の試行を生成する。 最新の手法と比較すると,多変量予測では13%,不定値予測では26%の予測誤差が減少した。 さらにMABOは平均検索時間を46%削減し、ハイパーパラメータも改善した。 結論として、LTSFは複雑な注意と余分な長い入力シーケンスを必要としない可能性がある。 ソースコードはGithubでオープンソース化される。

As Transformer-based models have achieved impressive performance on various time series tasks, Long-Term Series Forecasting (LTSF) tasks have also received extensive attention in recent years. However, due to the inherent computational complexity and long sequences demanding of Transformer-based methods, its application on LTSF tasks still has two major issues that need to be further investigated: 1) Whether the sparse attention mechanism designed by these methods actually reduce the running time on real devices; 2) Whether these models need extra long input sequences to guarantee their performance? The answers given in this paper are negative. Therefore, to better copy with these two issues, we design a lightweight Period-Attention mechanism (Periodformer), which renovates the aggregation of long-term subseries via explicit periodicity and short-term subseries via built-in proximity. Meanwhile, a gating mechanism is embedded into Periodformer to regulate the influence of the attention module on the prediction results. Furthermore, to take full advantage of GPUs for fast hyperparameter optimization (e.g., finding the suitable input length), a Multi-GPU Asynchronous parallel algorithm based on Bayesian Optimization (MABO) is presented. MABO allocates a process to each GPU via a queue mechanism, and then creates multiple trials at a time for asynchronous parallel search, which greatly reduces the search time. Compared with the state-of-the-art methods, the prediction error of Periodformer reduced by 13% and 26% for multivariate and univariate forecasting, respectively. In addition, MABO reduces the average search time by 46% while finding better hyperparameters. As a conclusion, this paper indicates that LTSF may not need complex attention and extra long input sequences. The source code will be open source on Github.
翻訳日:2023-06-09 15:24:51 公開日:2023-06-08
# アウトカム制御のための因果フェアネス

Causal Fairness for Outcome Control ( http://arxiv.org/abs/2306.05066v1 )

ライセンス: Link先を確認
Drago Plecko, Elias Bareinboim(参考訳) 社会がAIベースの意思決定インフラストラクチャへと移行するにつれて、人間の支配下にある決定が、ますます増え続ける。 このような発展は社会の様々な部分をより効率的にするが、このような自動意思決定システムを公平かつ公平にするためには、特に性別、人種、宗教といった繊細な属性を考慮に入れるために、多くの注意が必要であるという証拠が多数ある。 本稿では,自動システムにおいて,公平かつ公平な結果変数を最適化することを目的とした,結果制御と呼ばれる特定の意思決定タスクについて検討する。 このような設定への関心は、刑事司法と福祉に関する介入から、臨床意思決定や公衆衛生まで幅広い。 本稿では、まず因果レンズを通して利益の概念を解析し、ある個人が正の判断によってどれだけの利益を得られるか、すなわち、代替の負の判断と対照的に比較して分析する。 我々は,意思決定における最小公平性要件と見なすことができる便益公平性の概念を導入し,それを満たすアルゴリズムを開発する。 次に、利益自体が保護属性の影響を受けている可能性があることに留意し、これを分析するために使用できる因果ツールを提案する。 最後に、利益の保護された属性のバリエーションのいくつかが差別的と見なされる場合、利益の公平性の概念は強化される必要があり、因果的利益の公平性の概念の明瞭化に繋がる。 この概念を用いて、決定過程における因果的公平性を確認しながら、y$を最大化できる新しい最適化手順を開発する。

As society transitions towards an AI-based decision-making infrastructure, an ever-increasing number of decisions once under control of humans are now delegated to automated systems. Even though such developments make various parts of society more efficient, a large body of evidence suggests that a great deal of care needs to be taken to make such automated decision-making systems fair and equitable, namely, taking into account sensitive attributes such as gender, race, and religion. In this paper, we study a specific decision-making task called outcome control in which an automated system aims to optimize an outcome variable $Y$ while being fair and equitable. The interest in such a setting ranges from interventions related to criminal justice and welfare, all the way to clinical decision-making and public health. In this paper, we first analyze through causal lenses the notion of benefit, which captures how much a specific individual would benefit from a positive decision, counterfactually speaking, when contrasted with an alternative, negative one. We introduce the notion of benefit fairness, which can be seen as the minimal fairness requirement in decision-making, and develop an algorithm for satisfying it. We then note that the benefit itself may be influenced by the protected attribute, and propose causal tools which can be used to analyze this. Finally, if some of the variations of the protected attribute in the benefit are considered as discriminatory, the notion of benefit fairness may need to be strengthened, which leads us to articulating a notion of causal benefit fairness. Using this notion, we develop a new optimization procedure capable of maximizing $Y$ while ascertaining causal fairness in the decision process.
翻訳日:2023-06-09 15:17:28 公開日:2023-06-08
# 量子ビットによる磁性基底状態の非古典的マグノン組成の解法

Resolving nonclassical magnon composition of a magnetic ground state via a qubit ( http://arxiv.org/abs/2306.05065v1 )

ライセンス: Link先を確認
Anna-Luisa E. R\"omling, Alejandro Vivas-Via\~na, Carlos S\'anchez Mu\~noz, Akashdeep Kamra(参考訳) 近年、量子科学とテクノロジーのエキサイティングな機会にマグネットで支えられた平衡のスクイーズと絡み合いに関する洞察を得ており、これらを活用するための具体的なプロトコルが必要である。 ここでは, 量子ビットと非固有モードマグノンの直接分散結合が, 実固有モード-マグノンの基底状態を形成するマグノン数状態の量子重ね合わせの検出を可能にすることを理論的に証明する。 さらに, この一意的なカップリングにより, 平衡マグノンスクイージングの制御と, キュービット状態とその励起によるスクイズド偶数フォック状態の決定論的生成が可能となる。 本研究は、平衡スクイージングと関連する量子特性を利用する一般的な経路として、スピン系で実現可能なnoneigenmodesへの直接分散結合を示し、他のプラットフォームで同様の実現を探索する動機付けとなる。

Recently gained insights into equilibrium squeezing and entanglement harbored by magnets point towards exciting opportunities for quantum science and technology, while concrete protocols for exploiting these are needed. Here, we theoretically demonstrate that a direct dispersive coupling between a qubit and a noneigenmode magnon enables detecting the magnonic number states' quantum superposition that forms the ground state of the actual eigenmode - squeezed-magnon - via qubit excitation spectroscopy. Furthermore, this unique coupling is found to enable control over the equilibrium magnon squeezing and a deterministic generation of squeezed even Fock states via the qubit state and its excitation. Our work demonstrates direct dispersive coupling to noneigenmodes, realizable in spin systems, as a general pathway to exploiting the equilibrium squeezing and related quantum properties thereby motivating a search for similar realizations in other platforms.
翻訳日:2023-06-09 15:17:00 公開日:2023-06-08
# 地学知識の理解と活用のための基礎言語モデルを学ぶ

Learning A Foundation Language Model for Geoscience Knowledge Understanding and Utilization ( http://arxiv.org/abs/2306.05064v1 )

ライセンス: Link先を確認
Cheng Deng, Tianhang Zhang, Zhongmou He, Qiyuan Chen, Yuanyuan Shi, Le Zhou, Luoyi Fu, Weinan Zhang, Xinbing Wang, Chenghu Zhou, Zhouhan Lin, Junxian He(参考訳) 大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めた。 本稿では,LLMを地球科学の領域に持ち込み,その分野における研究と応用の推進を目的としている。 この目的のために、地球科学における最初のLLMであるK2を、地球科学におけるLLM研究をさらに促進するために開発された一連の資源と共に提示する。 例えば,LLM応答をジオサイエンス関連ユーザクエリに合わせることを目的とした,最初のジオサイエンスインストラクションチューニングデータセットであるGeoSignalをキュレートした。 さらに,地球科学の文脈でLSMを評価するため,最初の地球科学ベンチマークであるGeoBenchmarkを構築した。 本研究では,プレトレーニング済みの一般領域 LLM を地球科学領域に適用するための完全なレシピを実験する。 具体的には、LLaMA-7Bモデルをさらに100万以上の地学文献で訓練し、GeoSignalの教師付きデータを用いてモデルを微調整する。 さらに,マンパワーが不足している状況でも,ドメイン固有データを効率的に収集し,ドメイン教師付きデータを構築するプロトコルを共有する。 geobenchmarkで行った実験は、我々のアプローチとデータセットの有効性を示しています。

Large language models (LLMs)have achieved great success in general domains of natural language processing. In this paper, we bring LLMs to the realm of geoscience, with the objective of advancing research and applications in this field. To this end, we present the first-ever LLM in geoscience, K2, alongside a suite of resources developed to further promote LLM research within geoscience. For instance, we have curated the first geoscience instruction tuning dataset, GeoSignal, which aims to align LLM responses to geoscience-related user queries. Additionally, we have established the first geoscience benchmark, GeoBenchmark, to evaluate LLMs in the context of geoscience. In this work, we experiment with a complete recipe to adapt a pretrained general-domain LLM to the geoscience domain. Specifically, we further train the LLaMA-7B model on over 1 million pieces of geoscience literature and utilize GeoSignal's supervised data to fine-tune the model. Moreover, we share a protocol that can efficiently gather domain-specific data and construct domain-supervised data, even in situations where manpower is scarce. Experiments conducted on the GeoBenchmark demonstrate the the effectiveness of our approach and datasets.
翻訳日:2023-06-09 15:16:40 公開日:2023-06-08
# マルチタスク視覚知覚のための動的特徴相互作用フレームワーク

A Dynamic Feature Interaction Framework for Multi-task Visual Perception ( http://arxiv.org/abs/2306.05061v1 )

ライセンス: Link先を確認
Yuling Xi, Hao Chen, Ning Wang, Peng Wang, Yanning Zhang, Chunhua Shen, Yifan Liu(参考訳) マルチタスク視覚知覚は、自動運転のようなシーン理解に幅広い応用がある。 本研究では,インスタンスセグメンテーション,セマンティクスセグメンテーション,単眼3次元検出,深さ推定など,複数の共通知覚課題を解決するための効率的な統一フレームワークを考案する。 これらのタスクで同じ視覚的特徴表現を共有するだけでタスクのパフォーマンスが損なわれ、独立したタスク固有の特徴抽出器はパラメータの冗長性と遅延につながる。 そこで我々は,複数の知覚タスクにおいて有用かつ共有可能な特徴ベースを学ぶために,2つの特徴メルジブランチを設計した。 そして、各タスクは、対応する特徴ベースを予測タスクヘッドの入力として、特定のタスクを遂行する。 特に、ある特徴マージブランチは、高密度な予測のためのインスタンスレベルの認識のために設計されている。 分岐間通信を強化するために、インスタンスブランチは、効率的な動的畳み込み重み付けを用いて、各インスタンスの画素単位の空間情報を高密度ブランチに渡す。 さらに,タスク固有の特徴を分離し,タスク間の共通特性を活用するための,単純かつ効果的な動的ルーティング機構を提案する。 提案フレームワークであるd2bnetは,マルチタスク知覚のためのパラメータ効率予測にユニークなアプローチを示す。 さらに,タスク同士の協調学習のメリットとして,nuScenesの設定を部分的にラベル付けし,Cityscapesデータセット上での3次元検出と深度推定における従来の作業よりも優れた結果が得られる。

Multi-task visual perception has a wide range of applications in scene understanding such as autonomous driving. In this work, we devise an efficient unified framework to solve multiple common perception tasks, including instance segmentation, semantic segmentation, monocular 3D detection, and depth estimation. Simply sharing the same visual feature representations for these tasks impairs the performance of tasks, while independent task-specific feature extractors lead to parameter redundancy and latency. Thus, we design two feature-merge branches to learn feature basis, which can be useful to, and thus shared by, multiple perception tasks. Then, each task takes the corresponding feature basis as the input of the prediction task head to fulfill a specific task. In particular, one feature merge branch is designed for instance-level recognition the other for dense predictions. To enhance inter-branch communication, the instance branch passes pixel-wise spatial information of each instance to the dense branch using efficient dynamic convolution weighting. Moreover, a simple but effective dynamic routing mechanism is proposed to isolate task-specific features and leverage common properties among tasks. Our proposed framework, termed D2BNet, demonstrates a unique approach to parameter-efficient predictions for multi-task perception. In addition, as tasks benefit from co-training with each other, our solution achieves on par results on partially labeled settings on nuScenes and outperforms previous works for 3D detection and depth estimation on the Cityscapes dataset with full supervision.
翻訳日:2023-06-09 15:16:22 公開日:2023-06-08
# DNN推論用マルチ加速器プラットフォームにおける高精度レイテンシとエネルギーバランス

Precision-aware Latency and Energy Balancing on Multi-Accelerator Platforms for DNN Inference ( http://arxiv.org/abs/2306.05060v1 )

ライセンス: Link先を確認
Matteo Risso, Alessio Burrello, Giuseppe Maria Sarda, Luca Benini, Enrico Macii, Massimo Poncino, Marian Verhelst, Daniele Jahier Pagliari(参考訳) 低レイテンシとエッジでの低消費電力でDeep Neural Networks(DNN)を実行する必要性により、さまざまなハードウェアアクセラレーターをカプセル化した新しい異種システムオンチップ(SoC)の開発が加速された。 このようなマルチアクセラレータシステムにDNNを最適にマッピングする方法は、オープンな問題である。 ODiMOは、各アクセラレータの量子化精度を考慮して、チップ上の異なるアクセラレータをまたいで細粒度マッピングを行い、個々のレイヤを分割して並列に実行し、推論エネルギー消費や遅延を低減するハードウェア対応ツールである。 3つの一般的なデータセット/DNNペアに対して、精度対エネルギーまたはレイテンシ空間のパレート最適ネットワークを追求し、DIANAの不均一な超低電力エッジAI SoCにデプロイする。 ODiMOは,手動ヒューリスティックマッピングと比較して,限界精度低下(-0.53%/-0.32%)で最大33%/31%のエネルギー/遅延を減少させることを示した。

The need to execute Deep Neural Networks (DNNs) at low latency and low power at the edge has spurred the development of new heterogeneous Systems-on-Chips (SoCs) encapsulating a diverse set of hardware accelerators. How to optimally map a DNN onto such multi-accelerator systems is an open problem. We propose ODiMO, a hardware-aware tool that performs a fine-grain mapping across different accelerators on-chip, splitting individual layers and executing them in parallel, to reduce inference energy consumption or latency, while taking into account each accelerator's quantization precision to maintain accuracy. Pareto-optimal networks in the accuracy vs. energy or latency space are pursued for three popular dataset/DNN pairs, and deployed on the DIANA heterogeneous ultra-low power edge AI SoC. We show that ODiMO reduces energy/latency by up to 33%/31% with limited accuracy drop (-0.53%/-0.32%) compared to manual heuristic mappings.
翻訳日:2023-06-09 15:15:56 公開日:2023-06-08
# 予測と統計のパリティの調和:因果的アプローチ

Reconciling Predictive and Statistical Parity: A Causal Approach ( http://arxiv.org/abs/2306.05059v1 )

ライセンス: Link先を確認
Drago Plecko, Elias Bareinboim(参考訳) 公正な機械学習が調査の重要分野として台頭して以来、差別の定量化と測定方法に関する多くの異なる概念が文献で提案されている。 しかし、これらの概念のいくつかは互いに相容れないことが示されている。 このような結果から,多種多様な公平性が存在することが明らかとなり,公平性に関する適切な尺度についてのコンセンサスが困難となり,実用上のツールの適用が妨げられた。 本稿では,統計的および予測的パリティの概念を関連づけた,これらの重要な不可能な結果の1つについて検討する。 具体的には,予測パリティに関連する公平度尺度の新たな因果分解式を導出し,この基準が,異質な待遇,異質な影響,ビジネスの必要性という法的ドクトリンを通じて,統計的パリティとどのように関連しているか,新たな知見を得る。 以上の結果から, 統計的・予測パリティの概念は, より慎重な因果分析を通じて, 相互排他的ではなく, ビジネスニーズという概念を通じて, 公正な概念のスペクトルを補完し, 分散していることが明らかとなった。 最後に,実例における発見の重要性を実証する。

Since the rise of fair machine learning as a critical field of inquiry, many different notions on how to quantify and measure discrimination have been proposed in the literature. Some of these notions, however, were shown to be mutually incompatible. Such findings make it appear that numerous different kinds of fairness exist, thereby making a consensus on the appropriate measure of fairness harder to reach, hindering the applications of these tools in practice. In this paper, we investigate one of these key impossibility results that relates the notions of statistical and predictive parity. Specifically, we derive a new causal decomposition formula for the fairness measures associated with predictive parity, and obtain a novel insight into how this criterion is related to statistical parity through the legal doctrines of disparate treatment, disparate impact, and the notion of business necessity. Our results show that through a more careful causal analysis, the notions of statistical and predictive parity are not really mutually exclusive, but complementary and spanning a spectrum of fairness notions through the concept of business necessity. Finally, we demonstrate the importance of our findings on a real-world example.
翻訳日:2023-06-09 15:15:38 公開日:2023-06-08
# 文脈認識のためのニューロシンボリックアプローチ

Neuro-Symbolic Approaches for Context-Aware Human Activity Recognition ( http://arxiv.org/abs/2306.05058v1 )

ライセンス: Link先を確認
Luca Arrotta, Gabriele Civitarese, Claudio Bettini(参考訳) ディープラーニングモデルは、センサーベースのヒューマンアクティビティ認識(HAR)の標準ソリューションであるが、ラベル付きデータの不足とモデルの不透明さによって、その展開は制限されることが多い。 Neuro-Symbolic AI(NeSy)は、コンテキスト情報に関する知識をHARディープラーニング分類器に注入することにより、これらの問題を緩和するための興味深い研究方向を提供する。 しかし、既存の文脈認識harのnesyメソッドは分類時に計算コストの高い記号推論を必要とするため、リソース制約のあるデバイス(例えばモバイルデバイス)へのデプロイには適さない。 さらに、コンテキストを意識したHARに対するNeSyのアプローチは、現在開発中のデータセットでは評価されていない。 本研究では,HARモデルにおける知識制約を学習段階に注入する意味的損失関数に基づく新しい手法を提案する。 本研究の結果は,データ駆動モデルの性能向上におけるセマンティックな損失関数の影響を示すものである。 ソリューションを既存のNeSyメソッドと比較し、それぞれのアプローチの長所と短所を分析します。 我々のセマンティックロスは、シンボリック推論モジュールを必要とせずに単一のDNNとしてデプロイできる唯一のNeSyソリューションであり、既存のアプローチに(場合によっては)近い認識率に達する。

Deep Learning models are a standard solution for sensor-based Human Activity Recognition (HAR), but their deployment is often limited by labeled data scarcity and models' opacity. Neuro-Symbolic AI (NeSy) provides an interesting research direction to mitigate these issues by infusing knowledge about context information into HAR deep learning classifiers. However, existing NeSy methods for context-aware HAR require computationally expensive symbolic reasoners during classification, making them less suitable for deployment on resource-constrained devices (e.g., mobile devices). Additionally, NeSy approaches for context-aware HAR have never been evaluated on in-the-wild datasets, and their generalization capabilities in real-world scenarios are questionable. In this work, we propose a novel approach based on a semantic loss function that infuses knowledge constraints in the HAR model during the training phase, avoiding symbolic reasoning during classification. Our results on scripted and in-the-wild datasets show the impact of different semantic loss functions in outperforming a purely data-driven model. We also compare our solution with existing NeSy methods and analyze each approach's strengths and weaknesses. Our semantic loss remains the only NeSy solution that can be deployed as a single DNN without the need for symbolic reasoning modules, reaching recognition rates close (and better in some cases) to existing approaches.
翻訳日:2023-06-09 15:15:18 公開日:2023-06-08
# マグニチュードアテンションに基づく動的プルーニング

Magnitude Attention-based Dynamic Pruning ( http://arxiv.org/abs/2306.05056v1 )

ライセンス: Link先を確認
Jihye Back, Namhyuk Ahn, Jangho Kim(参考訳) 既存の刈り取り法では, スパース構造探索時にのみ, 所定の基準に基づいて各重量の重要性を生かしているが, 訓練中は利用しない。 本研究では,前後の経路で重み付けを重要視し,スパースモデル構造を動的に探索する,新しいアプローチであるアプローチ\textbf{M}agnitude \textbf{A}ttention-based Dynamic \textbf{P}runing (MAP)法を提案する。 マグニチュードの注意は、効率的な探索を促進することによって、冗長から効果的なスパースネットワークへのシームレスな遷移を可能にする連続実数値として、重みの大きさに基づいて定義される。 さらに、アテンションメカニズムはスパースネットワーク内の重要なレイヤのより効率的な更新を保証する。 実験の後期段階において,本手法は探索から搾取へ移行し,探索構造に基づく重要な重みからなるスパースモデルのみを更新し,高密度モデルに匹敵する性能を得るだけでなく,CIFAR-10/100とImageNetの以前の刈り出し手法よりも優れた性能を発揮する。

Existing pruning methods utilize the importance of each weight based on specified criteria only when searching for a sparse structure but do not utilize it during training. In this work, we propose a novel approach - \textbf{M}agnitude \textbf{A}ttention-based Dynamic \textbf{P}runing (MAP) method, which applies the importance of weights throughout both the forward and backward paths to explore sparse model structures dynamically. Magnitude attention is defined based on the magnitude of weights as continuous real-valued numbers enabling a seamless transition from a redundant to an effective sparse network by promoting efficient exploration. Additionally, the attention mechanism ensures more effective updates for important layers within the sparse network. In later stages of training, our approach shifts from exploration to exploitation, exclusively updating the sparse model composed of crucial weights based on the explored structure, resulting in pruned models that not only achieve performance comparable to dense models but also outperform previous pruning methods on CIFAR-10/100 and ImageNet.
翻訳日:2023-06-09 15:14:53 公開日:2023-06-08
# ヘビー学習ネットワークにおけるアクティブ推論

Active Inference in Hebbian Learning Networks ( http://arxiv.org/abs/2306.05053v1 )

ライセンス: Link先を確認
Ali Safa, Tim Verbelen, Lars Keuninckx, Ilja Ocket, Andr\'e Bourdoux, Francky Catthoor, Georges Gielen, Gert Cauwenberghs(参考訳) 本研究は、局所的なヒュービアン可塑性を有する脳にインスパイアされた神経アンサンブルが、動的エージェントを制御するためにアクティブ推論(aif)を行う方法について研究する。 環境力学をキャプチャする生成モデルは、2つの異なるヘビーアンアンサンブルからなるネットワークによって学習される: 観測された潜在状態を推論する後続のネットワークと、現在の状態-作用ペアが与えられた次の予測潜在状態を予測する状態遷移ネットワークである。 openai gym suiteのマウンテンカー環境を用いた実験を行い,様々なヘビーネットワークパラメータがタスク性能に及ぼす影響について検討した。 提案したHebbian AIFアプローチは,従来の強化学習システムのように,リプレイバッファを必要としないQ-ラーニングよりも優れていた。 これらの結果は,過去のバッファリング経験を再考することなく環境力学を学習できるAIFネットワークの設計において,ヘビアン学習のさらなる研究を動機付けている。

This work studies how brain-inspired neural ensembles equipped with local Hebbian plasticity can perform active inference (AIF) in order to control dynamical agents. A generative model capturing the environment dynamics is learned by a network composed of two distinct Hebbian ensembles: a posterior network, which infers latent states given the observations, and a state transition network, which predicts the next expected latent state given current state-action pairs. Experimental studies are conducted using the Mountain Car environment from the OpenAI gym suite, to study the effect of the various Hebbian network parameters on the task performance. It is shown that the proposed Hebbian AIF approach outperforms the use of Q-learning, while not requiring any replay buffer, as in typical reinforcement learning systems. These results motivate further investigations of Hebbian learning for the design of AIF networks that can learn environment dynamics without the need for revisiting past buffered experiences.
翻訳日:2023-06-09 15:14:30 公開日:2023-06-08
# 大規模言語モデルによる構造化データ抽出による解釈可能な医療診断

Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models ( http://arxiv.org/abs/2306.05052v1 )

ライセンス: Link先を確認
Aleksa Bisercic, Mladen Nikolic, Mihaela van der Schaar, Boris Delibasic, Pietro Lio, Andrija Petrovic(参考訳) 表データはしばしばテキスト、特に医療診断レポートに隠されている。 従来の機械学習(ML)モデルは、表のデータを扱うように設計されており、そのような形式で情報を効果的に処理することはできない。 一方で、テキスト処理に優れた大規模言語モデル(llm)は、表データモデリングに最適なツールではないだろう。 そこで本研究では,TEMED-LLMと呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。 LLMの推論能力に基づいて、TEMED-LLMは従来の抽出技法を超越し、テキストに名前が明示的に言及されていない場合でも、正確に表形式の特徴を推測する。 これはドメイン固有の推論ガイドラインと提案するデータ検証と推論訂正フィードバックループを組み合わせることで実現される。 決定木やロジスティック回帰といった解釈可能なMLモデルを抽出および検証データに適用することにより、エンドツーエンドの解釈可能な予測が得られる。 本手法は,医療診断における最先端のテキスト分類モデルを大きく上回っている。 TEMED-LLMはその予測性能、簡易性、解釈可能性から、医療応用におけるMLモデルの性能と信頼性を向上させるためにLLMを活用する可能性を強調している。

Tabular data is often hidden in text, particularly in medical diagnostic reports. Traditional machine learning (ML) models designed to work with tabular data, cannot effectively process information in such form. On the other hand, large language models (LLMs) which excel at textual tasks, are probably not the best tool for modeling tabular data. Therefore, we propose a novel, simple, and effective methodology for extracting structured tabular data from textual medical reports, called TEMED-LLM. Drawing upon the reasoning capabilities of LLMs, TEMED-LLM goes beyond traditional extraction techniques, accurately inferring tabular features, even when their names are not explicitly mentioned in the text. This is achieved by combining domain-specific reasoning guidelines with a proposed data validation and reasoning correction feedback loop. By applying interpretable ML models such as decision trees and logistic regression over the extracted and validated data, we obtain end-to-end interpretable predictions. We demonstrate that our approach significantly outperforms state-of-the-art text classification models in medical diagnostics. Given its predictive performance, simplicity, and interpretability, TEMED-LLM underscores the potential of leveraging LLMs to improve the performance and trustworthiness of ML models in medical applications.
翻訳日:2023-06-09 15:14:10 公開日:2023-06-08
# デジタル化の両端の影響の緩和--農村を事例として

Eliciting the Double-edged Impact of Digitalisation: a Case Study in Rural Areas ( http://arxiv.org/abs/2306.05078v1 )

ライセンス: Link先を確認
Alessio Ferrari, Fabio Lepore, Livia Ortolani, Gianluca Brunori(参考訳) 持続可能性を考慮したシステムを設計するには、デジタル技術による介入が特定の社会技術的文脈で持つことができることのより深い理解が必要である。 しかしながら、利害関係者による影響関連情報の活用に関する限られた研究が利用可能であり、特に計画されたシステム目標を超える、‘textit{ negative} ’ を含む長期的な影響を誘発する戦略が特に必要である。 本稿では,遠隔地におけるディジタル化の影響について,一般土地管理システムと水文地質リスク管理システムの観点から考察する。 啓発プロセスはインタビューやワークショップに基づいていた。 初期段階では過去と現在の影響が確認された。 第2フェーズでは、ディソトピーとテクノロジ集約、テクノロジバランスの2つのシナリオに関する議論を通じて、将来の影響が予測された。 このアプローチは特にネガティブな影響を特定するのに効果的だった。 その中でも,接続性の過剰によるストレス,意思決定能力の部分的低下,特定の種類の利害関係者に対する限界化のリスクが注目される。 この研究は、システム目標が適用される前に、要件エンジニアはシステムに含まれるICT技術の社会的・経済的影響を特定する必要があることを示唆している。 本研究は,類似した文脈に適用可能な事例に特有の影響のセット,影響誘発のための効果的なアプローチ,経験から学んだ教訓の一覧など,文献に寄与する。

Designing systems that account for sustainability concerns demands for a better understanding of the \textit{impact} that digital technology interventions can have on a certain socio-technical context. However, limited studies are available about the elicitation of impact-related information from stakeholders, and strategies are particularly needed to elicit possible long-term effects, including \textit{negative} ones, that go beyond the planned system goals. This paper reports a case study about the impact of digitalisation in remote mountain areas, in the context of a system for ordinary land management and hydro-geological risk control. The elicitation process was based on interviews and workshops. In the initial phase, past and present impacts were identified. In a second phase, future impacts were forecasted through the discussion of two alternative scenarios: a dystopic, technology-intensive one, and a technology-balanced one. The approach was particularly effective in identifying negative impacts. Among them, we highlight the higher stress due to the excess of connectivity, the partial reduction of decision-making abilities, and the risk of marginalisation for certain types of stakeholders. The study posits that before the elicitation of system goals, requirements engineers need to identify the socio-economic impacts of ICT technologies included in the system, as negative effects need to be properly mitigated. Our study contributes to the literature with: a set of impacts specific to the case, which can apply to similar contexts; an effective approach for impact elicitation; and a list of lessons learned from the experience.
翻訳日:2023-06-09 15:08:14 公開日:2023-06-08
# ニューラルマシン翻訳のための言語モデル統合の改善

Improving Language Model Integration for Neural Machine Translation ( http://arxiv.org/abs/2306.05077v1 )

ライセンス: Link先を確認
Christian Herold and Yingbo Gao and Mohammad Zeineldeen and Hermann Ney(参考訳) ニューラルマシン翻訳のための言語モデルの統合は、過去に広く研究されてきた。 追加のターゲット側モノリンガルデータに基づいてトレーニングされた外部言語モデルが翻訳品質の向上に役立つことが示されている。 しかしながら、翻訳モデルはトレーニング中に暗黙的な対象言語モデルも学習し、復号時に外部言語モデルに干渉する、という前提は常に存在してきた。 近年,暗黙の言語モデルが復号化において中立化されている場合,外部言語モデルを統合する際に,さらなる改良が期待できることを示す研究が行われている。 本研究では、この概念を機械翻訳のタスクに転送し、追加の単言語データを含む最も顕著な方法、すなわちバックトランスレーションと比較する。 暗黙的な言語モデルを説明することは言語モデル融合の性能を著しく向上させるが、それでもバックトランスレーションにより性能は向上する。

The integration of language models for neural machine translation has been extensively studied in the past. It has been shown that an external language model, trained on additional target-side monolingual data, can help improve translation quality. However, there has always been the assumption that the translation model also learns an implicit target-side language model during training, which interferes with the external language model at decoding time. Recently, some works on automatic speech recognition have demonstrated that, if the implicit language model is neutralized in decoding, further improvements can be gained when integrating an external language model. In this work, we transfer this concept to the task of machine translation and compare with the most prominent way of including additional monolingual data - namely back-translation. We find that accounting for the implicit language model significantly boosts the performance of language model fusion, although this approach is still outperformed by back-translation.
翻訳日:2023-06-09 15:07:48 公開日:2023-06-08
# DLAMA:事前訓練された言語モデルの知識を検証するための文化的多言語ファクトの計算フレームワーク

DLAMA: A Framework for Curating Culturally Diverse Facts for Probing the Knowledge of Pretrained Language Models ( http://arxiv.org/abs/2306.05076v1 )

ライセンス: Link先を確認
Amr Keleg and Walid Magdy(参考訳) 事前学習された言語モデルの事実知識を評価するために、いくつかのベンチマークデータセットがリリースされた。 これらのベンチマーク(LAMAやParaRelなど)は主に英語で開発され、後に新しい多言語版(mLAMAやmParaRelなど)に翻訳される。 これらの多言語ベンチマークの結果は、英語のプロンプトを用いて、多言語モデルから事実を思い出すと、非英語のプロンプトよりもはるかに優れた、一貫性のあるパフォーマンスが得られることを示唆している。 分析の結果,ムラマは西側諸国の事実に偏っており,調査モデルの公平性に影響を与えている可能性が示唆された。 文化的に多様なウィキデータから事実のトリプルをキュレートするための新しいフレームワークを提案する。 新しいベンチマークdlama-v1は、20の関連述語から78,259のトリプルを持つ3組のコントラスト文化の事実三重項で構成されている。 3つのペアはそれぞれ、(アラブと西部)、(アジアと西部)、(南米と西部)を表す事実で構成されている。 よりバランスのとれたベンチマーク (DLAMA-v1) を持つことは、mBERTが西洋の事実に対して非西洋の事実よりも優れており、一方モノリンガルのアラビア語、英語、韓国のモデルは文化的に近縁な事実に対して良いパフォーマンスを示す傾向にある。 さらに、単言語モデルと多言語モデルの両方が、たとえ予測が間違っていても、正しいラベルに文化的または地理的に関連のある予測をする傾向がある。

A few benchmarking datasets have been released to evaluate the factual knowledge of pretrained language models. These benchmarks (e.g., LAMA, and ParaRel) are mainly developed in English and later are translated to form new multilingual versions (e.g., mLAMA, and mParaRel). Results on these multilingual benchmarks suggest that using English prompts to recall the facts from multilingual models usually yields significantly better and more consistent performance than using non-English prompts. Our analysis shows that mLAMA is biased toward facts from Western countries, which might affect the fairness of probing models. We propose a new framework for curating factual triples from Wikidata that are culturally diverse. A new benchmark DLAMA-v1 is built of factual triples from three pairs of contrasting cultures having a total of 78,259 triples from 20 relation predicates. The three pairs comprise facts representing the (Arab and Western), (Asian and Western), and (South American and Western) countries respectively. Having a more balanced benchmark (DLAMA-v1) supports that mBERT performs better on Western facts than non-Western ones, while monolingual Arabic, English, and Korean models tend to perform better on their culturally proximate facts. Moreover, both monolingual and multilingual models tend to make a prediction that is culturally or geographically relevant to the correct label, even if the prediction is wrong.
翻訳日:2023-06-09 15:07:32 公開日:2023-06-08
# LCT-1 at SemEval-2023 Task 10: Pre-training and Multi-task Learning for Sexism Detection and Classification

LCT-1 at SemEval-2023 Task 10: Pre-training and Multi-task Learning for Sexism Detection and Classification ( http://arxiv.org/abs/2306.05075v1 )

ライセンス: Link先を確認
Konstantin Chernyshev, Ekaterina Garanina, Duygu Bayram, Qiankun Zheng, Lukas Edman(参考訳) ソーシャルメディアではミソジニーや性差別が問題になっている。 オンライン性差別検出の進歩はあったが、システムはしばしば解釈できない。 SemEval-2023 Task 10 on Explainable Detection of Online Sexismは、性差別の検出の説明可能性を高めることを目的としており、提案したすべてのサブタスクに参加した。 本システムはドメイン適応型事前訓練(Gururangan et al., 2020)に基づいている。 トランスフォーマティブモデルとドメイン適応性に基づいて構築し,マルチタスク学習と微調整を比較し,各サブタスクに異なるシステム構成が必要であることを示す。 実験では、マルチタスク学習は性差別検出のための標準的な微調整と同等に動作し、粗粒性差別分類には顕著に優れているが、微調整はきめ細かい分類には好ましい。

Misogyny and sexism are growing problems in social media. Advances have been made in online sexism detection but the systems are often uninterpretable. SemEval-2023 Task 10 on Explainable Detection of Online Sexism aims at increasing explainability of the sexism detection, and our team participated in all the proposed subtasks. Our system is based on further domain-adaptive pre-training (Gururangan et al., 2020). Building on the Transformer-based models with the domain adaptation, we compare fine-tuning with multi-task learning and show that each subtask requires a different system configuration. In our experiments, multi-task learning performs on par with standard fine-tuning for sexism detection and noticeably better for coarse-grained sexism classification, while fine-tuning is preferable for fine-grained classification.
翻訳日:2023-06-09 15:07:03 公開日:2023-06-08
# 非線形量子フォトニック干渉計を用いた決定論的エンタングリングゲート

Deterministic entangling gates with nonlinear quantum photonic interferometers ( http://arxiv.org/abs/2306.05072v1 )

ライセンス: Link先を確認
Francesco Scala and Davide Nigro and Dario Gerace(参考訳) フォトニクスにおける量子コンピューティングのパラダイムは、線形光デバイスにおけるマルチポート干渉に依存しており、本質的には確率的測定結果に基づいており、したがって非決定論的である。 完全に決定論的で普遍的で、事実上実現可能な量子コンピューティングプラットフォームを開発することは、まだ未解決の課題である。 本稿では、弱非線形フォトニックデバイスを用いて、デュアルレールフォトニック量子ビットの定義に従い、決定論的量子ゲートを実装することを提案する。 単一および2ビットのゲートの普遍的な集合は、制約付き最適化アルゴリズムにより、任意に100%に近い最適忠実度を持つ光学干渉計要素の適切な結合によって設計できることが示されている。 実際の実現には、数万の基本的な操作と、既存の量子フォトニックプラットフォームのいくつかと互換性のあるオンチップの光学非線形性の結合が必要となる。

The quantum computing paradigm in photonics currently relies on the multi-port interference in linear optical devices, which is intrinsically based on probabilistic measurements outcome and thus non-deterministic. Devising a fully deterministic, universal, and practically achievable quantum computing platform based on integrated photonic circuits is still an open challenge. Here we propose to exploit weakly nonlinear photonic devices to implement deterministic entangling quantum gates, following the definition of dual rail photonic qubits. It is shown that a universal set of single- and two-qubit gates can be designed by a suitable concatenation of few optical interferometric elements, with optimal fidelities arbitrarily close to 100% theoretically demonstrated through a bound constrained optimization algorithm. The actual realization would require the concatenation of a few tens of elementary operations, as well as on-chip optical nonlinearities that are compatible with some of the existing quantum photonic platforms, as it is finally discussed.
翻訳日:2023-06-09 15:06:45 公開日:2023-06-08
# 散発的な変動を分解するための因果的枠組み

A Causal Framework for Decomposing Spurious Variations ( http://arxiv.org/abs/2306.05071v1 )

ライセンス: Link先を確認
Drago Plecko, Elias Bareinboim(参考訳) データサイエンスの根本的課題の1つは、なぜ物事が特定の方法で起こるのか、あるいはどのメカニズムを通じてある変数$X$が他の変数$Y$に影響を及ぼすのかを説明することである。 統計学と機械学習では、変数間の相関を効率的に推定する機械の開発に多大な努力が払われている。 因果推論では、大量の文献が媒介分析のルーリックの下で因果効果の分解に関係している。 しかし、応用科学全体で異なる現象を含む、多くのバリエーションが自然界で散発的である。 相関を推定する統計力と因果効果を分解する識別力にもかかわらず、素因果関係の性質とそれらが根底にある因果機構によってどのように分解されるかについてはまだ理解されていない。 本稿では,マルコフモデルとセミマルコフモデルの両方において,突発的変動を分解するための形式ツールを開発する。 本研究は、スプリアス効果の非パラメトリック分解を可能にする最初の結果を示し、これらの分解の同定に十分な条件を提供する。 このアプローチには、説明可能なaiや公正なaiから疫学や医学の質問まで、いくつかの応用があり、実世界のデータセットでの使用を実証的に実証する。

One of the fundamental challenges found throughout the data sciences is to explain why things happen in specific ways, or through which mechanisms a certain variable $X$ exerts influences over another variable $Y$. In statistics and machine learning, significant efforts have been put into developing machinery to estimate correlations across variables efficiently. In causal inference, a large body of literature is concerned with the decomposition of causal effects under the rubric of mediation analysis. However, many variations are spurious in nature, including different phenomena throughout the applied sciences. Despite the statistical power to estimate correlations and the identification power to decompose causal effects, there is still little understanding of the properties of spurious associations and how they can be decomposed in terms of the underlying causal mechanisms. In this manuscript, we develop formal tools for decomposing spurious variations in both Markovian and Semi-Markovian models. We prove the first results that allow a non-parametric decomposition of spurious effects and provide sufficient conditions for the identification of such decompositions. The described approach has several applications, ranging from explainable and fair AI to questions in epidemiology and medicine, and we empirically demonstrate its use on a real-world dataset.
翻訳日:2023-06-09 15:06:28 公開日:2023-06-08
# 準局所結合による近似GHZ状態の安定化

Stabilization of approximate GHZ state with quasi-local couplings ( http://arxiv.org/abs/2306.05070v1 )

ライセンス: Link先を確認
Vincent Martin and Alain Sarlette(参考訳) 我々は,n量子ビット上の近似GHZ状態を安定化するために,少数の局所サブシステムで作用する固定散逸演算子からなる貯水池の設計を提案する。 主なアイデアは、前述した2つの安定化ステップのシーケンスが、適切な(確率的)重ね合わせでどのように適用できるかを考えることである。 時間」アンシラの連鎖や、データサブシステムの追加レベルのおかげで、局所的なカップリングのみを使用して重ね合わせを同期する代替案を検討する。 これらの代替案の実用的価値は実験的制約に依存する。 それらはすべて、近似安定化フィリティと摂動に対する保護の間の設計上のトレードオフを特徴としている。 これらの提案は、逐次状態形成手順を置き換えるために量子貯留層工学において単純な自律オートマトンをいかに実装できるかを示す。 追加のデータレベルのみによるautomattonアクションのエンコーディングは、このコンテキストでは特に効率的である。 仮想出力信号に対するlindbladマスター方程式をマルコフ連鎖に還元する解析手法は, 独立な関心を持つ可能性がある。

We propose a reservoir design, composed of fixed dissipation operators acting each on few local subsystems, to stabilize an approximate GHZ state on n qubits. The main idea is to work out how a previously proposed sequence of two stabilization steps can be applied instead in appropriate (probabilistic) superposition. We examine alternatives to synchronize the superposition using local couplings only, thanks to a chain of "clock" ancillas or to additional levels on the data subsystems. The practical value of these alternatives depends on experimental constraints. They all feature a design tradeoff between approximate stabilization fidelity and protection against perturbations. These proposals illustrate how simple autonomous automata can be implemented in quantum reservoir engineering to replace sequential state preparation procedures. Encoding automaton actions via additional data levels only, appears particularly efficient in this context. Our analysis method, reducing the Lindblad master equation to a Markov chain on virtual output signals, may be of independent interest.
翻訳日:2023-06-09 15:06:08 公開日:2023-06-08
# 安定かつ支援された論理プログラムモデルによる(最適)緩和計画のキャプチャ

Capturing (Optimal) Relaxed Plans with Stable and Supported Models of Logic Programs ( http://arxiv.org/abs/2306.05069v1 )

ライセンス: Link先を確認
Masood Feyzbakhsh Rankooh and Tomi Janhunen(参考訳) 我々は、削除不要計画と、緩和計画として知られるAIプランニングコミュニティにとって重要なタスク、論理プログラミングの新たな関係を確立する。 計画問題を考えると、緩和計画を作成するために命令された全ての行動のサブセットは、対応する緩和計画問題を記述する論理プログラムの安定なモデルで客観的に捕捉できることを示す。 また,論理プログラムのモデルセマンティクスがサポートされていることを考慮し,緩和計画問題の1つの因果と1つの診断エンコーディングを論理プログラムとして導入する。 実験の結果,これらの新たなエンコーディングは,最適化された緩和計画の計算において大きなパフォーマンス向上をもたらすことが示され,その診断法は,広範囲のSTRIPS計画ベンチマークで測定した場合の所定時間制限によらず,緩和計画に対する最先端の手法よりも優れていた。

We establish a novel relation between delete-free planning, an important task for the AI Planning community also known as relaxed planning, and logic programming. We show that given a planning problem, all subsets of actions that could be ordered to produce relaxed plans for the problem can be bijectively captured with stable models of a logic program describing the corresponding relaxed planning problem. We also consider the supported model semantics of logic programs, and introduce one causal and one diagnostic encoding of the relaxed planning problem as logic programs, both capturing relaxed plans with their supported models. Our experimental results show that these new encodings can provide major performance gain when computing optimal relaxed plans, with our diagnostic encoding outperforming state-of-the-art approaches to relaxed planning regardless of the given time limit when measured on a wide collection of STRIPS planning benchmarks.
翻訳日:2023-06-09 15:05:51 公開日:2023-06-08
# 機械学習における不表現とサンプリングバイアスの遮蔽光

Shedding light on underrepresentation and Sampling Bias in machine learning ( http://arxiv.org/abs/2306.05068v1 )

ライセンス: Link先を確認
Sami Zhioua, R\=uta Binkyt\.e(参考訳) 機械学習(ML)モデルの公正性を忠実に評価するためには、正確な識別測定が不可欠である。 差別を測定するバイアスは、既存の格差の増幅または過小評価に繋がる。 バイアスの源はいくつか存在し、機械学習から生じるバイアスは、異なるグループ(女性対男性、白人対黒人など)によって等しく生まれると仮定されている。 しかし、バイアスが異なるグループによって異なる場合、特定のサブ人口に対する差別を悪化させる可能性がある。 サンプリングバイアスは、サンプリング手順によるバイアスを記述するために文献で不整合に使用される。 本稿では,サンプルサイズバイアス (SSB) とアンダーレ表現バイアス (URB) という,明確に定義されたサンプリングバイアスの変種を導入することで,この用語を曖昧にしようとする。 また、差別を分散、偏見、ノイズに分解する方法を示す。 最後に,一般に受け入れられている緩和アプローチに挑戦し,過小評価されたグループのより多くのサンプルを収集することで,差別に対処することができる。

Accurately measuring discrimination is crucial to faithfully assessing fairness of trained machine learning (ML) models. Any bias in measuring discrimination leads to either amplification or underestimation of the existing disparity. Several sources of bias exist and it is assumed that bias resulting from machine learning is born equally by different groups (e.g. females vs males, whites vs blacks, etc.). If, however, bias is born differently by different groups, it may exacerbate discrimination against specific sub-populations. Sampling bias, is inconsistently used in the literature to describe bias due to the sampling procedure. In this paper, we attempt to disambiguate this term by introducing clearly defined variants of sampling bias, namely, sample size bias (SSB) and underrepresentation bias (URB). We show also how discrimination can be decomposed into variance, bias, and noise. Finally, we challenge the commonly accepted mitigation approach that discrimination can be addressed by collecting more samples of the underrepresented group.
翻訳日:2023-06-09 15:05:35 公開日:2023-06-08
# 自己教師付き視覚トランスフォーマの視覚プロンプトチューニングの改善

Improving Visual Prompt Tuning for Self-supervised Vision Transformers ( http://arxiv.org/abs/2306.05067v1 )

ライセンス: Link先を確認
Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon(参考訳) Visual Prompt Tuning (VPT)は、トレーニング済みの視覚変換器(ViT)を下流タスクに適応させる効果的なチューニング手法である。 プロンプトと呼ばれる追加の学習可能なトークンを利用し、凍結した事前訓練されたViTを操る。 vptは視覚トランスフォーマーに応用できることを示したが、しばしば自己監督トランスフォーマーで過小評価される。 経験的観察により、VPTヒンジの有効性は、プロンプトトークンが相互作用するViTブロックに大きく依存していることが推測される。 具体的には、第1ブロックではなく後ブロックにプロンプトトークンを挿入した場合、VPTはMAEとMoCo v3の画像分類タスクのパフォーマンスを改善した。 これらの観測は、プロンプトトークンの挿入に最適なブロックの位置があることを示唆している。 残念ながら、様々な将来のシナリオのために、各自己監督型ViT内のプロンプトの最適なブロックを特定することは、コストのかかるプロセスである。 この問題を軽減するため,vitブロック毎にゲートを学習し,プロンプトトークンへの介入を調整できる簡易かつ効果的な手法を提案する。 提案手法では,タスク適応のためのステアリングを必要とするブロックによって,プロンプトトークンが選択的に影響を受ける。 提案手法は,FGVCおよびVTAB画像分類およびADE20KセマンティックセマンティックセグメンテーションにおけるVPT変種よりも優れている。 コードはhttps://github.com/ryongithub/gatedprompttuningで入手できる。

Visual Prompt Tuning (VPT) is an effective tuning method for adapting pretrained Vision Transformers (ViTs) to downstream tasks. It leverages extra learnable tokens, known as prompts, which steer the frozen pretrained ViTs. Although VPT has demonstrated its applicability with supervised vision transformers, it often underperforms with self-supervised ones. Through empirical observations, we deduce that the effectiveness of VPT hinges largely on the ViT blocks with which the prompt tokens interact. Specifically, VPT shows improved performance on image classification tasks for MAE and MoCo v3 when the prompt tokens are inserted into later blocks rather than the first block. These observations suggest that there exists an optimal location of blocks for the insertion of prompt tokens. Unfortunately, identifying the optimal blocks for prompts within each self-supervised ViT for diverse future scenarios is a costly process. To mitigate this problem, we propose a simple yet effective method that learns a gate for each ViT block to adjust its intervention into the prompt tokens. With our method, prompt tokens are selectively influenced by blocks that require steering for task adaptation. Our method outperforms VPT variants in FGVC and VTAB image classification and ADE20K semantic segmentation. The code is available at https://github.com/ryongithub/GatedPromptTuning.
翻訳日:2023-06-09 15:05:17 公開日:2023-06-08
# 分散変分不等式に対する通信効率の高い勾配降下補正法:統一解析と局所更新

Communication-Efficient Gradient Descent-Accent Methods for Distributed Variational Inequalities: Unified Analysis and Local Updates ( http://arxiv.org/abs/2306.05100v1 )

ライセンス: Link先を確認
Siqi Zhang, Sayantan Choudhury, Sebastian U Stich, Nicolas Loizou(参考訳) 分散学習アルゴリズムと手法は、主に最小化問題に関連する。 しかし、機械学習におけるミニマックス最適化と変分不等式問題の増加に伴い、これらの問題に対して効率的な分散/フェデレート学習アプローチを設計する必要性が高まっている。 本稿では,分散変動不等式問題(VIP)に対する通信効率の良い局所訓練手法の統一収束解析を行う。 本手法は,構造化非単調vipクラスの解法として,複数の新しい局所学習アルゴリズムを提案し,解析することを可能にする確率的推定に関する一般的な仮定に基づいている。 異種データにおける分散変分不等式を解決するために,通信複雑性を向上した最初の局所勾配降下偏差アルゴリズムを提案する。 一般的なアルゴリズムフレームワークは、最小化やミニマックス最適化問題に特化した場合、最先端のアルゴリズムとその鋭い収束保証を回復する。 最後に,federated minimax最適化問題を解く際の最先端手法と比較して,提案アルゴリズムの性能が向上することを示す。

Distributed and federated learning algorithms and techniques associated primarily with minimization problems. However, with the increase of minimax optimization and variational inequality problems in machine learning, the necessity of designing efficient distributed/federated learning approaches for these problems is becoming more apparent. In this paper, we provide a unified convergence analysis of communication-efficient local training methods for distributed variational inequality problems (VIPs). Our approach is based on a general key assumption on the stochastic estimates that allows us to propose and analyze several novel local training algorithms under a single framework for solving a class of structured non-monotone VIPs. We present the first local gradient descent-accent algorithms with provable improved communication complexity for solving distributed variational inequalities on heterogeneous data. The general algorithmic framework recovers state-of-the-art algorithms and their sharp convergence guarantees when the setting is specialized to minimization or minimax optimization problems. Finally, we demonstrate the strong performance of the proposed algorithms compared to state-of-the-art methods when solving federated minimax optimization problems.
翻訳日:2023-06-09 14:56:28 公開日:2023-06-08
# 再同定攻撃に対するトピックAPIのロバスト性について

On the Robustness of Topics API to a Re-Identification Attack ( http://arxiv.org/abs/2306.05094v1 )

ライセンス: Link先を確認
Nikhil Jha, Martino Trevisan, Emilio Leonardi, Marco Mellia(参考訳) サードパーティのクッキーによるweb追跡は、ユーザのプライバシーを脅かすものと考えられており、近い将来放棄される予定である。 最近Googleは、行動広告のプライバシーに優しい代替手段として、Topics APIフレームワークを提案した。 このアプローチを使って、ブラウザはナビゲーション履歴に基づいてユーザープロファイルを構築し、広告主がアクセスできる。 Topics APIは行動広告の新しい標準となる可能性があり、その操作を完全に理解し、制限を見つける必要がある。 本稿では,攻撃者がユーザの露出したトピックを時間をかけて蓄積してユーザプロファイルを再構築し,後に別のWebサイト上で同一ユーザを再識別する攻撃に対するトピックAPIの堅牢性を評価する。 実際のトラフィックトレースと現実的な人口モデルを使用することで、トピックapiが緩和されるが、webサイトのオーディエンス内でユーザのプロファイルがユニークである可能性が大きいため、再識別を防止できないことが分かる。 その結果、1000人のユーザーを考慮すれば、正しい再識別の確率は15-17%に達する。 私たちは、この作業で使用するコードとデータを提供し、トピックapiパラメータのさらなる研究とチューニングを刺激します。

Web tracking through third-party cookies is considered a threat to users' privacy and is supposed to be abandoned in the near future. Recently, Google proposed the Topics API framework as a privacy-friendly alternative for behavioural advertising. Using this approach, the browser builds a user profile based on navigation history, which advertisers can access. The Topics API has the possibility of becoming the new standard for behavioural advertising, thus it is necessary to fully understand its operation and find possible limitations. This paper evaluates the robustness of the Topics API to a re-identification attack where an attacker reconstructs the user profile by accumulating user's exposed topics over time to later re-identify the same user on a different website. Using real traffic traces and realistic population models, we find that the Topics API mitigates but cannot prevent re-identification to take place, as there is a sizeable chance that a user's profile is unique within a website's audience. Consequently, the probability of correct re-identification can reach 15-17%, considering a pool of 1,000 users. We offer the code and data we use in this work to stimulate further studies and the tuning of the Topic API parameters.
翻訳日:2023-06-09 14:56:11 公開日:2023-06-08
# シャドウモデルの再調整は、ホワイトボックスメンバーシップ推論攻撃を改善する

Re-aligning Shadow Models can Improve White-box Membership Inference Attacks ( http://arxiv.org/abs/2306.05093v1 )

ライセンス: Link先を確認
Ana-Maria Cretu, Daniel Jones, Yves-Alexandre de Montjoye, Shruti Tople(参考訳) 機械学習モデルは、トレーニングデータセットに関する機密情報を漏洩することが示されている。 モデルが、タスクを自動化し、新しいアプリケーションを動かすために、デバイス上でますます使われているため、モデルへのクエリアクセスのみを提供するブラックボックス設定とは対照的に、そのようなホワイトボックスによるパラメータへのアクセスが攻撃面を増加させるという懸念がある。 シャドウモデリング技術をブラックボックスからホワイトボックス設定へ直接拡張することは、一般にブラックボックスのみの攻撃よりもうまく機能しないことを示す。 重要な理由は、ディープニューラルネットワークの既知の特徴である不一致である。 本稿では,影モデルにおける不一致の原因を初めて体系的に解析し,異なる重み初期化が影モデル不一致の原因となることを示す。 第2に,これまでにモデル融合文献で開発されたいくつかの再調整手法をシャドウモデリングコンテキストに拡張し,シャドウモデルの層を対象モデルと再調整することを目的として,ターゲットモデルとシャドウモデル間の不一致を著しく低減する再調整手法を提案する。 最後に,white-box member inference attack (mia)の包括的評価を行った。 分析の結果,(1)MIAは影モデル間のミスアライメントに悩まされるが,(2)影モデルの再アライメントにより,MIAの性能が向上することがわかった。 CIFAR10データセットの偽陽性率1\%では、並べ替えシャドウモデルを用いたホワイトボックスMIAにより、真の正レートが4.5\%向上する。 その結果,デバイス上での配置が攻撃面を増加させ,新たに利用可能な情報を攻撃者が利用できることが強調された。

Machine learning models have been shown to leak sensitive information about their training datasets. As models are being increasingly used, on devices, to automate tasks and power new applications, there have been concerns that such white-box access to its parameters, as opposed to the black-box setting which only provides query access to the model, increases the attack surface. Directly extending the shadow modelling technique from the black-box to the white-box setting has been shown, in general, not to perform better than black-box only attacks. A key reason is misalignment, a known characteristic of deep neural networks. We here present the first systematic analysis of the causes of misalignment in shadow models and show the use of a different weight initialisation to be the main cause of shadow model misalignment. Second, we extend several re-alignment techniques, previously developed in the model fusion literature, to the shadow modelling context, where the goal is to re-align the layers of a shadow model to those of the target model.We show re-alignment techniques to significantly reduce the measured misalignment between the target and shadow models. Finally, we perform a comprehensive evaluation of white-box membership inference attacks (MIA). Our analysis reveals that (1) MIAs suffer from misalignment between shadow models, but that (2) re-aligning the shadow models improves, sometimes significantly, MIA performance. On the CIFAR10 dataset with a false positive rate of 1\%, white-box MIA using re-aligned shadow models improves the true positive rate by 4.5\%.Taken together, our results highlight that on-device deployment increase the attack surface and that the newly available information can be used by an attacker.
翻訳日:2023-06-09 14:55:52 公開日:2023-06-08
# ベイズゲーム理論における絡み合いを超えた量子優位

Quantum advantage beyond entanglement in Bayesian game theory ( http://arxiv.org/abs/2306.05090v1 )

ライセンス: Link先を確認
Adam Lowe(参考訳) 量子不協和は、Cluser, Horne, Shimony, Holt (CHSH) ゲームの拡張において量子的優位性を求めるために利用されてきた。 ベイズゲームとして明示的にゲームを記述することにより、結果のゲームはペイオフが異なるように修正され、アリスとボブが行うことのできる測定値に重大な制限が課される。 これらの制限を課すことで、与えられた量子状態の絡み合いを超えて量子優位が存在することが分かる。 これは、期待されるペイオフを古典的かつ量子的な項に分解することで示される。 予想される支払いを最適化すると、古典的な限界は超えてしまう。 これにより、量子不協和を目撃し決定するための運用フレームワークが提供される。

Quantum discord has been utilised in order to find quantum advantage in an extension of the Clauser, Horne, Shimony, and Holt (CHSH) game. By writing the game explicitly as a Bayesian game, the resulting game is modified such the payoff's are different, and crucially restrictions are imposed on the measurements that Alice and Bob can perform. By imposing these restrictions, it is found that there exists quantum advantage beyond entanglement for a given quantum state. This is shown by decomposing the expected payoff into a classical and quantum term. Optimising over the expected payoff, results in the classical limit being surpassed. This gives an operational framework in order to witness and determine quantum discord.
翻訳日:2023-06-09 14:55:21 公開日:2023-06-08
# uav視覚検出・追跡法の現状と展望

A review of UAV Visual Detection and Tracking Methods ( http://arxiv.org/abs/2306.05089v1 )

ライセンス: Link先を確認
Raed Abu Zitar, Mohammad Al-Betar, Mohamad Ryalat and Sofian Kassaymehd(参考訳) 本稿では,UAVやドローンの検知・追跡に使用される技術について概説する。 紫外線の位置、速度、画像の測定を収集し、検出と追跡に使用する技術は様々である。 ハイブリッド検出技術も提案されている。 この論文は、ドローン検出プロセスで使用される幅広い手法のクイックリファレンスである。

This paper presents a review of techniques used for the detection and tracking of UAVs or drones. There are different techniques that depend on collecting measurements of the position, velocity, and image of the UAV and then using them in detection and tracking. Hybrid detection techniques are also presented. The paper is a quick reference for a wide spectrum of methods that are used in the drone detection process.
翻訳日:2023-06-09 14:55:09 公開日:2023-06-08
# 会話のART:シームズRNNを用いたL2音声における音声の収束と熟考の測定

The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN ( http://arxiv.org/abs/2306.05088v1 )

ライセンス: Link先を確認
Zheng Yuan (1 and 2), Aldo Pastore (1 and 2), Dorina de Jong (1 and 2), Hao Xu (3), Luciano Fadiga (1 and 2), Alessandro D'Ausilio (1 and 2) ((1) Istituto Italiano di Tecnologia, Italy, (2) Universit\`a degli Studi di Ferrara, Italy, (3) University of California San Diego, USA)(参考訳) 音声収束は会話における2つの対話者の自動的および無意識的な音声適応を記述する。 本稿では,L2-L2相互作用における音声の総観スペクトル特性の収束度を測定するため,Syamese Recurrent Neural Network (RNN)アーキテクチャを提案する。 スロバキア語l2母語話者20名を追加して,交互読解課題(art)データセットを拡張した。 我々は、イタリア語 (9 dyads) 、フランス語 (10 dyads) 、スロバキア (10 dyads) の3つの母国語群からL2英語の音声収束を測定するために、シームズRNNモデルを訓練し、試験した。 この結果から,シームズRNNモデルは音韻収束のダイナミクスと話者の模倣能力を効果的に捉えることが示唆された。 さらに、このテキスト非依存モデルはスケーラブルであり、L1による話者変動を処理できる。

Phonetic convergence describes the automatic and unconscious speech adaptation of two interlocutors in a conversation. This paper proposes a Siamese recurrent neural network (RNN) architecture to measure the convergence of the holistic spectral characteristics of speech sounds in an L2-L2 interaction. We extend an alternating reading task (the ART) dataset by adding 20 native Slovak L2 English speakers. We train and test the Siamese RNN model to measure phonetic convergence of L2 English speech from three different native language groups: Italian (9 dyads), French (10 dyads) and Slovak (10 dyads). Our results indicate that the Siamese RNN model effectively captures the dynamics of phonetic convergence and the speaker's imitation ability. Moreover, this text-independent model is scalable and capable of handling L1-induced speaker variability.
翻訳日:2023-06-09 14:55:04 公開日:2023-06-08
# PandaLM: LLM命令チューニング最適化のための自動評価ベンチマーク

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization ( http://arxiv.org/abs/2306.05087v1 )

ライセンス: Link先を確認
Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang(参考訳) 大規模言語モデル(LLM)のチューニングは、ハイパーパラメータ選択の複雑さと調整モデルの評価の難しさのため、依然として難しい課題である。 最適なハイパーパラメータを決定するためには、自動的で堅牢で信頼性の高い評価ベンチマークが不可欠である。 しかしながら,評価精度やプライバシ保護に関する課題から,このようなベンチマークの確立は簡単な作業ではない。 これらの課題に応えて,複数のLLMが与えられた優れたモデルを識別する訓練を施した,PandaLMという判断用大言語モデルを導入する。 PandaLMの焦点は、従来の評価データセットの主な焦点である応答の客観的な正しさに留まらない。 相対的簡潔さ、明快さ、指示への固執、包括性、形式性などの重要な主観的要因に対処する。 PandaLMの信頼性を確保するために、我々は、人間によって生成されたすべてのコンテキストとラベルが人間の嗜好に合致する多様な人間アノテーションテストデータセットを収集する。 PandaLM-7BはGPT-3.5の評価能力の93.75%、テストデータセットのF1スコアの88.28%を達成した。 PandaLMは、デフォルトのアルパカのハイパーパラメーターで訓練されたモデルと比較して、PandaLMによって調整されたモデルによって達成された顕著な改善により、LCMの評価をより公平に、低コストで行えるようにした。 さらに、PandaLMはAPIベースの評価に依存しないので、潜在的なデータ漏洩を回避することができる。 PandaLMのすべてのリソースはhttps://github.com/WeOpenML/PandaLMで公開されている。

Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
翻訳日:2023-06-09 14:54:45 公開日:2023-06-08
# 英雄による文エンコーダ評価の盲点を明らかにする

Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS ( http://arxiv.org/abs/2306.05083v1 )

ライセンス: Link先を確認
Cheng-Han Chiang, Yung-Sung Chuang, James Glass, Hung-yi Lee(参考訳) 既存の文テキスト類似性ベンチマークデータセットは、文エンコーダの判断がいかに人間に類似しているかを要約するために、単一の番号のみを使用する。 しかし, 文エンコーダ (SE) がどのような文対を類似とみなすかは明らかでない。 また、既存のseベンチマークでは、語彙重なりの低い文対を主に考慮しており、2つの文が語彙重なりが高い場合、sesがどのように振る舞うかは明らかではない。 高品質なSE診断データセットHEROSを導入する。 heros は、ある規則に基づいて元の文を新しい文に変換して \textit{minimal pair} を形成することで構成され、最小のペアは語彙の重なりが高い。 規則には、単語をシノニム、対義語、タイプポ、ランダムな単語に置き換え、元の文を否定に変換することが含まれる。 異なる規則はHEROSの異なる部分集合を生成する。 HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。 SEをトレーニングするために使用されるデータセットが、SEが類似していると考える文ペアの主決定要因であることがわかった。 また、2つのSEがSTSベンチマークで類似した性能を持つ場合でも、HEROS上での挙動が全く異なることを示す。 この結果から,SEの評価において従来のSTSベンチマークの盲点が明らかとなった。

Existing sentence textual similarity benchmark datasets only use a single number to summarize how similar the sentence encoder's decision is to humans'. However, it is unclear what kind of sentence pairs a sentence encoder (SE) would consider similar. Moreover, existing SE benchmarks mainly consider sentence pairs with low lexical overlap, so it is unclear how the SEs behave when two sentences have high lexical overlap. We introduce a high-quality SE diagnostic dataset, HEROS. HEROS is constructed by transforming an original sentence into a new sentence based on certain rules to form a \textit{minimal pair}, and the minimal pair has high lexical overlaps. The rules include replacing a word with a synonym, an antonym, a typo, a random word, and converting the original sentence into its negation. Different rules yield different subsets of HEROS. By systematically comparing the performance of over 60 supervised and unsupervised SEs on HEROS, we reveal that most unsupervised sentence encoders are insensitive to negation. We find the datasets used to train the SE are the main determinants of what kind of sentence pairs an SE considers similar. We also show that even if two SEs have similar performance on STS benchmarks, they can have very different behavior on HEROS. Our result reveals the blind spot of traditional STS benchmarks when evaluating SEs.
翻訳日:2023-06-09 14:54:17 公開日:2023-06-08
# 因果アルゴリズムにおける時間の重要性

The Importance of Time in Causal Algorithmic Recourse ( http://arxiv.org/abs/2306.05082v1 )

ライセンス: Link先を確認
Isacco Beretta and Martina Cinquini(参考訳) 意思決定におけるアルゴリズム・リコースの適用は、好ましくない決定を覆す実用的な解決策を提供する有望な分野である。 しかし、変数間の潜在的な依存関係を考慮できないことは、特徴独立性の仮定のために大きな課題となる。 近年の進歩は因果関係の知識を取り入れ、推奨されたリコースアクションの品質を高めている。 これらの改善にもかかわらず、時間次元を組み込むことができないことは、これらのアプローチの重要な制限である。 これは特に問題であり、望ましくない結果の根本原因を特定し、対処するには変数間の時間依存関係を理解する必要がある。 本研究では,時間的次元を因果的アルゴリズムの手法に統合し,推薦の妥当性と信頼性を高めることの必要性を動機とする。 実験評価は,この分野における時間の役割の重要性を強調する。

The application of Algorithmic Recourse in decision-making is a promising field that offers practical solutions to reverse unfavorable decisions. However, the inability of these methods to consider potential dependencies among variables poses a significant challenge due to the assumption of feature independence. Recent advancements have incorporated knowledge of causal dependencies, thereby enhancing the quality of the recommended recourse actions. Despite these improvements, the inability to incorporate the temporal dimension remains a significant limitation of these approaches. This is particularly problematic as identifying and addressing the root causes of undesired outcomes requires understanding time-dependent relationships between variables. In this work, we motivate the need to integrate the temporal dimension into causal algorithmic recourse methods to enhance recommendations' plausibility and reliability. The experimental evaluation highlights the significance of the role of time in this field.
翻訳日:2023-06-09 14:53:53 公開日:2023-06-08
# データ拡張によるAI攻撃コードジェネレータのロバスト性向上

Enhancing Robustness of AI Offensive Code Generators via Data Augmentation ( http://arxiv.org/abs/2306.05079v1 )

ライセンス: Link先を確認
Cristina Improta, Pietro Liguori, Roberto Natella, Bojan Cukic and Domenico Cotroneo(参考訳) 本研究では、セキュリティ指向のコードにおいて、意図された開発者による自然言語(NL)の新たな入力をコード記述に追加し、AI攻撃コードジェネレータの性能にどの程度の摂動がどのような影響を及ぼすかを分析する方法を提案する。 実験の結果,コードジェネレータの性能はNL記述の摂動の影響が大きいことがわかった。 コードジェネレータのロバスト性を高めるため,この手法を用いてデータ拡張を行い,トレーニングデータの多様性と多様性を向上し,摂動コード記述と非摂動コード記述の両方に対する有効性を証明した。

In this work, we present a method to add perturbations to the code descriptions, i.e., new inputs in natural language (NL) from well-intentioned developers, in the context of security-oriented code, and analyze how and to what extent perturbations affect the performance of AI offensive code generators. Our experiments show that the performance of the code generators is highly affected by perturbations in the NL descriptions. To enhance the robustness of the code generators, we use the method to perform data augmentation, i.e., to increase the variability and diversity of the training data, proving its effectiveness against both perturbed and non-perturbed code descriptions.
翻訳日:2023-06-09 14:53:39 公開日:2023-06-08
# AIはオンラインコミュニティをモデレートできるか?

Can AI Moderate Online Communities? ( http://arxiv.org/abs/2306.05122v1 )

ライセンス: Link先を確認
Henrik Axelsen, Johannes Rude Jensen, Sebastian Axelsen, Valdemar Licht, Omri Ross(参考訳) オンラインコミュニティにおける健全なコミュニケーションを育むという課題は、ゲームやソーシャルメディアの体験が徐々に没入的になり、生活の様相が増すにつれて、ますます緊急化しつつある。 我々は,大規模言語モデル(LLM)を用いて学生モデルを訓練することで,オンラインコミュニティをモデレートする課題にアプローチする。 ゼロショット学習モデルを使用してデータセットを蒸留および拡張し、OpenAIからオープンアクセス可能な生成前トレーニングトランスフォーマーモデル(GPT)を活用する、数ショット学習と微調整アプローチを実践する。 予備的な知見は、適切に訓練された場合、LLMはアクターの意図を識別し、有害なコメントをモデレートし、肯定的な貢献を得られることを示唆している。 学生モデルでは,非文脈的課題,例えば古典的有害な行動の同定,オンライン談話への肯定的な貢献の特定など,文脈的課題について十分な評価を行う。 さらに、openaiのgptのようなオープンアクセスモデルを使用することで、これまで複雑なモデリングタスクであった開発プロセスにステップチェンジを経験できます。 オープンアクセス LLM に基づく産業対応型生成型AIモデルのサンプルモデルスイートを提供することにより,情報システム (IS) におけるコンテンツオンラインモデレーションと文化管理への生成型AIの適用に関する迅速な開発フレームワークの構築に寄与する。

The task of cultivating healthy communication in online communities becomes increasingly urgent, as gaming and social media experiences become progressively more immersive and life-like. We approach the challenge of moderating online communities by training student models using a large language model (LLM). We use zero-shot learning models to distill and expand datasets followed by a few-shot learning and a fine-tuning approach, leveraging open-access generative pre-trained transformer models (GPT) from OpenAI. Our preliminary findings suggest, that when properly trained, LLMs can excel in identifying actor intentions, moderating toxic comments, and rewarding positive contributions. The student models perform above-expectation in non-contextual assignments such as identifying classically toxic behavior and perform sufficiently on contextual assignments such as identifying positive contributions to online discourse. Further, using open-access models like OpenAI's GPT we experience a step-change in the development process for what has historically been a complex modeling task. We contribute to the information system (IS) discourse with a rapid development framework on the application of generative AI in content online moderation and management of culture in decentralized, pseudonymous communities by providing a sample model suite of industrial-ready generative AI models based on open-access LLMs.
翻訳日:2023-06-09 14:48:29 公開日:2023-06-08
# 説明可能な予測保守

Explainable Predictive Maintenance ( http://arxiv.org/abs/2306.05120v1 )

ライセンス: Link先を確認
Sepideh Pashami, Slawomir Nowaczyk, Yuantao Fan, Jakub Jakubowski, Nuno Paiva, Narjes Davari, Szymon Bobek, Samaneh Jamshidi, Hamid Sarmadi, Abdallah Alabdallah, Rita P. Ribeiro, Bruno Veloso, Moamar Sayed-Mouchaweh, Lala Rajaoarisoa, Grzegorz J. Nalepa, Jo\~ao Gama(参考訳) 説明可能な人工知能(XAI)は、高度なインテリジェントシステムと、データサイエンティスト、ドメインエキスパート、エンドユーザなど、さまざまな個人とのインタラクションを促進する重要なインターフェースの役割を担っている。 これは 'black box''' 機械学習 (ML) の複雑な内部メカニズムの解読に役立ち、意思決定の背後にある理由をより理解しやすいものにする。 しかしながら、XAIにおける現在の研究は、主に、ユーザの信頼を促進する方法、あるいはMLモデルのデバッグと洗練の2つの側面に焦点を当てている。 ユーザやさまざまなアプリケーション領域が、特定のニーズに合わせたソリューションを必要としているため、より広いコンテキストで必要とされるさまざまなタイプの説明を認識するには不足しています。 そのような領域の1つがプレデクティブ・メンテナンス(PdM)であり、産業 4.0 \& 5.0 の傘の下で爆発する研究領域である。 本稿では,既存のXAI方法論と産業応用,特に予測保守分野における説明の具体的な要件とのギャップを強調する。 説明責任が重要な役割を担っているにもかかわらず、この主題は比較的未調査の領域であり、この論文は研究コミュニティの注目に関連性のある課題をもたらす先駆的な試みである。 我々は,予測保守作業の概要を提供し,対応説明の必要性と目的を強調する。 次に、文献で一般的に用いられているXAIテクニックをリストし、記述し、PdMタスクに適合性について論じる。 最後に、このアイデアと主張をより具体化するために、XAIは商用車、地下鉄、鉄鋼工場、風力発電所の4つの特定の産業ユースケースに適用され、さらなる研究を必要とするスポットライティングエリアを実演する。

Explainable Artificial Intelligence (XAI) fills the role of a critical interface fostering interactions between sophisticated intelligent systems and diverse individuals, including data scientists, domain experts, end-users, and more. It aids in deciphering the intricate internal mechanisms of ``black box'' Machine Learning (ML), rendering the reasons behind their decisions more understandable. However, current research in XAI primarily focuses on two aspects; ways to facilitate user trust, or to debug and refine the ML model. The majority of it falls short of recognising the diverse types of explanations needed in broader contexts, as different users and varied application areas necessitate solutions tailored to their specific needs. One such domain is Predictive Maintenance (PdM), an exploding area of research under the Industry 4.0 \& 5.0 umbrella. This position paper highlights the gap between existing XAI methodologies and the specific requirements for explanations within industrial applications, particularly the Predictive Maintenance field. Despite explainability's crucial role, this subject remains a relatively under-explored area, making this paper a pioneering attempt to bring relevant challenges to the research community's attention. We provide an overview of predictive maintenance tasks and accentuate the need and varying purposes for corresponding explanations. We then list and describe XAI techniques commonly employed in the literature, discussing their suitability for PdM tasks. Finally, to make the ideas and claims more concrete, we demonstrate XAI applied in four specific industrial use cases: commercial vehicles, metro trains, steel plants, and wind farms, spotlighting areas requiring further research.
翻訳日:2023-06-09 14:47:48 公開日:2023-06-08
# 参考事項:細粒度評価フレームワークを用いた対話要約における事実誤り訂正のベンチマーク

Reference Matters: Benchmarking Factual Error Correction for Dialogue Summarization with Fine-grained Evaluation Framework ( http://arxiv.org/abs/2306.05119v1 )

ライセンス: Link先を確認
Mingqi Gao, Xiaojun Wan, Jia Su, Zhefeng Wang, Baoxing Huai(参考訳) 対話の要約には現実性が重要である。 モデル生成要約のFECは事実性を改善する一つの方法である。 事実性メトリクスに依存する現在のFEC評価は、十分に信頼性と詳細なものではない。 この問題を解決するために、4000項目を含む対話要約のためのFECデータセットを手動で注釈付けし、異なるエラーカテゴリにおけるFECモデルの性能を自動的に評価する参照補正に基づくきめ細かい評価フレームワークであるFERRANTIを提案する。 この評価フレームワークを用いて, FEC のアプローチを様々な設定で十分な実験を行い, 異なる実ミスカテゴリにおける既存手法の性能の相違点と, 最適なトレーニングモードと有意な相違点を見出した。

Factuality is important to dialogue summarization. Factual error correction (FEC) of model-generated summaries is one way to improve factuality. Current FEC evaluation that relies on factuality metrics is not reliable and detailed enough. To address this problem, we are the first to manually annotate a FEC dataset for dialogue summarization containing 4000 items and propose FERRANTI, a fine-grained evaluation framework based on reference correction that automatically evaluates the performance of FEC models on different error categories. Using this evaluation framework, we conduct sufficient experiments with FEC approaches under a variety of settings and find the best training modes and significant differences in the performance of the existing approaches on different factual error categories.
翻訳日:2023-06-09 14:47:22 公開日:2023-06-08
# 文書レベルニューラルマシン翻訳のための探索戦略について

On Search Strategies for Document-Level Neural Machine Translation ( http://arxiv.org/abs/2306.05116v1 )

ライセンス: Link先を確認
Christian Herold and Hermann Ney(参考訳) 文レベルのシステムと比較して、文書レベルのニューラルマシン翻訳(nmt)モデルは、文書全体の一貫性のある出力を生成し、入力内のあいまいさをよりよく解決する。 ドキュメントレベルのNMTに関する多くの研究があり、主に追加のコンテキストインプットに適合させるために、モデルアーキテクチャやトレーニング戦略の変更に焦点を当てています。 一方、ほとんどの研究において、トレーニングされたモデルを用いて探索を行う方法については、ほとんど議論されていない。 本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するかという問題に答えることを目的とする。 我々は、最も一般的な文書レベルのNMTアプローチから始め、異なる復号方式を比較します。 比較では、3つの標準文書レベルの翻訳ベンチマークにおいて、標準自動メトリクスと特定の言語現象の両方を用いている。 最も一般的に使用されるデコーディング戦略は、互いに類似しており、より高品質なコンテキスト情報が翻訳をさらに改善する可能性を秘めている。

Compared to sentence-level systems, document-level neural machine translation (NMT) models produce a more consistent output across a document and are able to better resolve ambiguities within the input. There are many works on document-level NMT, mostly focusing on modifying the model architecture or training strategy to better accommodate the additional context-input. On the other hand, in most works, the question on how to perform search with the trained model is scarcely discussed, sometimes not mentioned at all. In this work, we aim to answer the question how to best utilize a context-aware translation model in decoding. We start with the most popular document-level NMT approach and compare different decoding schemes, some from the literature and others proposed by us. In the comparison, we are using both, standard automatic metrics, as well as specific linguistic phenomena on three standard document-level translation benchmarks. We find that most commonly used decoding strategies perform similar to each other and that higher quality context information has the potential to further improve the translation.
翻訳日:2023-06-09 14:47:10 公開日:2023-06-08
# chatgptは、ソーシャルメディア上のスポンサーコンテンツの人間ラベル付けを改善するためのモデル説明を生成する

Closing the Loop: Testing ChatGPT to Generate Model Explanations to Improve Human Labelling of Sponsored Content on Social Media ( http://arxiv.org/abs/2306.05115v1 )

ライセンス: Link先を確認
Thales Bertaglia, Stefan Huber, Catalina Goanta, Gerasimos Spanakis, Adriana Iamnitchi(参考訳) 世界中の規制機関は、欧州連合の不公正商業慣行指令(UCPD)や連邦取引委員会法第5節を通じて、インフルエンサーのソーシャルメディアへのマーケティングの透明性を確保する努力を強化している。 しかし、インフルエンサー市場の急激な規模のため、こうした義務を強制することは極めて問題視されている。 スポンサードコンテンツを自動的に検出するタスクは、大規模な規制の監視と実施を可能にすることを目的としている。 この分野での現在の研究は、主にこの問題を機械学習タスクとして、広告の検出において高い分類性能を達成するモデルの開発に焦点をあてている。 これらの機械学習タスクは、真理情報を提供するために人間のデータアノテーションに依存している。 しかし、アノテータ間の合意はしばしば低く、モデルの信頼性を妨げる一貫性のないラベルに繋がる。 アノテーションの精度を向上し,かつ,スポンサー付きコンテンツの検出を行うため,アノテーションプロセスの拡張にchatGPTを用い,関連する特徴や簡潔な説明文として認識したフレーズを付加する手法を提案する。 このアプローチはアノテーション間の合意とアノテーションの正確性が一貫して向上することを示す。 さらに,アノテーションタスクにおけるユーザエクスペリエンスの調査から,アノテーションの信頼性の向上とプロセスの合理化が示唆された。 提案手法により,スポンサードコンテンツ検出における規制要件の透明性と整合性が向上する。

Regulatory bodies worldwide are intensifying their efforts to ensure transparency in influencer marketing on social media through instruments like the Unfair Commercial Practices Directive (UCPD) in the European Union, or Section 5 of the Federal Trade Commission Act. Yet enforcing these obligations has proven to be highly problematic due to the sheer scale of the influencer market. The task of automatically detecting sponsored content aims to enable the monitoring and enforcement of such regulations at scale. Current research in this field primarily frames this problem as a machine learning task, focusing on developing models that achieve high classification performance in detecting ads. These machine learning tasks rely on human data annotation to provide ground truth information. However, agreement between annotators is often low, leading to inconsistent labels that hinder the reliability of models. To improve annotation accuracy and, thus, the detection of sponsored content, we propose using chatGPT to augment the annotation process with phrases identified as relevant features and brief explanations. Our experiments show that this approach consistently improves inter-annotator agreement and annotation accuracy. Additionally, our survey of user experience in the annotation task indicates that the explanations improve the annotators' confidence and streamline the process. Our proposed methods can ultimately lead to more transparency and alignment with regulatory requirements in sponsored content detection.
翻訳日:2023-06-09 14:46:54 公開日:2023-06-08
# fhefl: 完全な均質な暗号化フレンドリーなプライバシー保護型連合学習とビザンチンユーザ

FheFL: Fully Homomorphic Encryption Friendly Privacy-Preserving Federated Learning with Byzantine Users ( http://arxiv.org/abs/2306.05112v1 )

ライセンス: Link先を確認
Yogachandran Rahulamathavan, Charuka Herath, Xiaolan Liu, Sangarapillai Lambotharan and Carsten Maple(参考訳) フェデレートラーニング(FL)技術は、当初、従来の機械学習パラダイムで起こりうるデータのプライバシ問題を緩和するために開発された。 FLはユーザのデータが常にユーザの手元にあることを保証しますが、ローカルにトレーニングされたモデルの勾配は、グローバルモデルを構築するために集中型サーバと通信する必要があります。 これによりプライバシリークが発生し、サーバは共有勾配からユーザのデータのプライベート情報を推測できる。 この欠陥を軽減するため、次世代flアーキテクチャは、モデル更新をサーバから保護するための暗号化と匿名化技術を提案した。 しかし、このアプローチは、悪意のあるユーザが誤った勾配を共有することでグローバルモデルを妨害するなど、他の課題を生み出します。 勾配は暗号化されているため、グローバルモデルを保護する悪質なユーザを特定し、排除することはできない。 そこで本稿では,両攻撃を緩和するために,flに適した新しい完全準同型暗号(fhe)方式を提案する。 我々は1対1のシングルキーCheon-Kim-Kim-Song(CKKS)ベースのFHEスキームを、FLのモデルアグリゲーションをサポートする分散マルチキー加法的同型暗号スキームに修正する。 我々は,暗号化ドメイン内に新たなアグリゲーションスキームを導入し,ユーザの非毒殺率を利用して,プライバシの確保を図りながら,データ中毒攻撃を効果的に対処する。 厳密なセキュリティ、プライバシ、収束、実験的分析は、FheFLが新規で、セキュアで、プライベートであり、合理的な計算コストで同等の精度を達成することを示すために提供されている。

The federated learning (FL) technique was initially developed to mitigate data privacy issues that can arise in the traditional machine learning paradigm. While FL ensures that a user's data always remain with the user, the gradients of the locally trained models must be communicated with the centralized server to build the global model. This results in privacy leakage, where the server can infer private information of the users' data from the shared gradients. To mitigate this flaw, the next-generation FL architectures proposed encryption and anonymization techniques to protect the model updates from the server. However, this approach creates other challenges, such as a malicious user might sabotage the global model by sharing false gradients. Since the gradients are encrypted, the server is unable to identify and eliminate rogue users which would protect the global model. Therefore, to mitigate both attacks, this paper proposes a novel fully homomorphic encryption (FHE) based scheme suitable for FL. We modify the one-to-one single-key Cheon-Kim-Kim-Song (CKKS)-based FHE scheme into a distributed multi-key additive homomorphic encryption scheme that supports model aggregation in FL. We employ a novel aggregation scheme within the encrypted domain, utilizing users' non-poisoning rates, to effectively address data poisoning attacks while ensuring privacy is preserved by the proposed encryption scheme. Rigorous security, privacy, convergence, and experimental analyses have been provided to show that FheFL is novel, secure, and private, and achieves comparable accuracy at reasonable computational cost.
翻訳日:2023-06-09 14:46:29 公開日:2023-06-08
# また別のicuベンチマーク:臨床mlのための柔軟なマルチセンターフレームワーク

Yet Another ICU Benchmark: A Flexible Multi-Center Framework for Clinical ML ( http://arxiv.org/abs/2306.05109v1 )

ライセンス: Link先を確認
Robin van de Water, Hendrik Schmidt, Paul Elbers, Patrick Thoral, Bert Arnrich, Patrick Rockenschaub(参考訳) 近年,機械学習(ML)の医療応用が急増している。 集中治療ユニット(ICU)は、電子健康記録から利用可能なデータが豊富にあることを考えると、MLの自然な生息地である。 合併症の早期検出など、多数のICU予測タスクに対処するモデルが提案されている。 著者は、しばしば最先端のパフォーマンスを報告するが、優越性の主張を検証することは困難である。 データセットとコードは必ずしも公開されておらず、コホート定義、前処理パイプライン、トレーニングセットアップは再現が難しい。 本研究は,再現可能かつ同等な臨床ML実験を研究者が定義可能なモジュラーフレームワークであるEtther Another ICU Benchmark (YAIB)を紹介し,コホート定義からモデル評価まで,エンドツーエンドのソリューションを提供する。 このフレームワークは、ほとんどのオープンアクセスICUデータセット(MIMIC III/IV、eICU、HiRID、AUMCdb)をネイティブにサポートしており、将来のICUデータセットに容易に適応できる。 複数のMLとディープラーニングモデルの透過的な前処理パイプラインと拡張可能なトレーニングコードを組み合わせることで、YAIBは統一されたモデル開発を可能にする。 このベンチマークは臨床医と共同で開発した5つの既定予測タスク(致死性,急性腎障害,敗血症,腎機能,滞在期間)が組み合わされている。 さらなるタスクの追加は設計によって簡単です。 yaibを用いて、データセット、コホート定義、前処理の選択が予測性能(モデルクラスよりも多く)に大きな影響を与えていることが、総合的なベンチマークツールとしてyaibが緊急に必要であることを示している。 本研究は,手法開発を加速し,実際の臨床実践を可能にするための臨床MLコミュニティへの取り組みである。 ソフトウェアリポジトリ: https://github.com/rvandewater/yaib。

Medical applications of machine learning (ML) have experienced a surge in popularity in recent years. The intensive care unit (ICU) is a natural habitat for ML given the abundance of available data from electronic health records. Models have been proposed to address numerous ICU prediction tasks like the early detection of complications. While authors frequently report state-of-the-art performance, it is challenging to verify claims of superiority. Datasets and code are not always published, and cohort definitions, preprocessing pipelines, and training setups are difficult to reproduce. This work introduces Yet Another ICU Benchmark (YAIB), a modular framework that allows researchers to define reproducible and comparable clinical ML experiments; we offer an end-to-end solution from cohort definition to model evaluation. The framework natively supports most open-access ICU datasets (MIMIC III/IV, eICU, HiRID, AUMCdb) and is easily adaptable to future ICU datasets. Combined with a transparent preprocessing pipeline and extensible training code for multiple ML and deep learning models, YAIB enables unified model development. Our benchmark comes with five predefined established prediction tasks (mortality, acute kidney injury, sepsis, kidney function, and length of stay) developed in collaboration with clinicians. Adding further tasks is straightforward by design. Using YAIB, we demonstrate that the choice of dataset, cohort definition, and preprocessing have a major impact on the prediction performance - often more so than model class - indicating an urgent need for YAIB as a holistic benchmarking tool. We provide our work to the clinical ML community to accelerate method development and enable real-world clinical implementations. Software Repository: https://github.com/rvandewater/YAIB.
翻訳日:2023-06-09 14:46:01 公開日:2023-06-08
# Hybrid Graph: 複雑なグラフのためのデータセットとベンチマークを備えた統一グラフ表現

Hybrid Graph: A Unified Graph Representation with Datasets and Benchmarks for Complex Graphs ( http://arxiv.org/abs/2306.05108v1 )

ライセンス: Link先を確認
Zehui Li, Xiangyu Zhao, Mingzhu Shen, Guy-Bart Stan, Pietro Li\`o, Yiren Zhao(参考訳) グラフは様々なデータフォーマットをカプセル化するために広く使われているが、実世界のネットワークはペアワイズ以上の複雑なノード関係を持つことが多い。 ハイパーグラフや階層グラフが開発され、複雑なノード関係を考慮に入れられているが、実際にはこれらの複雑さを完全に表現することはできない。 さらに、高階グラフ上での表現学習には多くのグラフニューラルネットワーク(GNN)が提案されているが、通常は単純なグラフデータセットでのみ評価される。 したがって、複雑なグラフ上でこれらのアルゴリズムの性能を十分に理解するために、高階グラフの統一モデリングと、アクセス可能な評価フレームワークを備えた包括的なデータセットの集合が必要である。 本稿では,高次グラフの統一定義であるハイブリットグラフの概念を紹介し,ハイブリットグラフベンチマーク(hgb)を提案する。 hgbには、生物学、ソーシャルメディア、eコマースなど、さまざまなドメインにわたる23の現実世界のハイブリッドグラフデータセットが含まれている。 さらに,HGB上でのGNNのトレーニングと評価を容易にするため,拡張可能な評価フレームワークとサポートコードベースを提供する。 HGB 上の既存の GNN に関する実証的研究は,(1) グラフ GNN 上でのハイパーグラフ GNN の実際の性能向上の評価,(2) ハイブリッドグラフ学習法における異なるサンプリング戦略の影響の比較,(3) グラフ情報とハイパーグラフ情報の統合方法の探索など,様々な研究機会とギャップが明らかにされている。 ソースコードと全データセットはhttps://zehui127.github.io/hybrid-graph-benchmark/で公開しています。

Graphs are widely used to encapsulate a variety of data formats, but real-world networks often involve complex node relations beyond only being pairwise. While hypergraphs and hierarchical graphs have been developed and employed to account for the complex node relations, they cannot fully represent these complexities in practice. Additionally, though many Graph Neural Networks (GNNs) have been proposed for representation learning on higher-order graphs, they are usually only evaluated on simple graph datasets. Therefore, there is a need for a unified modelling of higher-order graphs, and a collection of comprehensive datasets with an accessible evaluation framework to fully understand the performance of these algorithms on complex graphs. In this paper, we introduce the concept of hybrid graphs, a unified definition for higher-order graphs, and present the Hybrid Graph Benchmark (HGB). HGB contains 23 real-world hybrid graph datasets across various domains such as biology, social media, and e-commerce. Furthermore, we provide an extensible evaluation framework and a supporting codebase to facilitate the training and evaluation of GNNs on HGB. Our empirical study of existing GNNs on HGB reveals various research opportunities and gaps, including (1) evaluating the actual performance improvement of hypergraph GNNs over simple graph GNNs; (2) comparing the impact of different sampling strategies on hybrid graph learning methods; and (3) exploring ways to integrate simple graph and hypergraph information. We make our source code and full datasets publicly available at https://zehui127.github.io/hybrid-graph-benchmark/.
翻訳日:2023-06-09 14:45:30 公開日:2023-06-08
# マイカルイメージセグメンテーションのための教師なし強調最適化

Unsupervised augmentation optimization for few-shot medical image segmentation ( http://arxiv.org/abs/2306.05107v1 )

ライセンス: Link先を確認
Quan Quan, Shang Zhao, Qingsong Yao, Heqin Zhu, S. Kevin Zhou(参考訳) 拡張パラメータは,摂動サンプルの異なるネットワークに供給することで,トレーニング結果に直接影響を及ぼすため,少数ショットの意味セグメンテーションに重要な意味を持つ。 しかし、アノテーションのない数ショットセグメンテーションモデルに対して最適な拡張パラメータを探索することは、現在のメソッドが対処できない課題である。 本稿では,まず,特定の解剖学の原標本とその拡張標本との類似性を記述したintra-instance similarityと,選択した標本と他との類似性を表わしたintra-instance similarityとを同一クラス内の他の標本との類似性を表すintra-class similarityを用いて,人間のアノテーションを使わずに,'optimal'パラメータを決定する枠組みを提案する。 大規模な実験は、数発のセグメンテーションモデルを強化する際に最適化された拡張の優位性を示す。 我々はそれぞれAbd-MRIとAbd-CTのデータセットで1.27\%と1.11\%の競合法を大幅に改善し、Abd-CTのデータセットで3.39\%のSSL-ALPを有意に改善した。

The augmentation parameters matter to few-shot semantic segmentation since they directly affect the training outcome by feeding the networks with varying perturbated samples. However, searching optimal augmentation parameters for few-shot segmentation models without annotations is a challenge that current methods fail to address. In this paper, we first propose a framework to determine the ``optimal'' parameters without human annotations by solving a distribution-matching problem between the intra-instance and intra-class similarity distribution, with the intra-instance similarity describing the similarity between the original sample of a particular anatomy and its augmented ones and the intra-class similarity representing the similarity between the selected sample and the others in the same class. Extensive experiments demonstrate the superiority of our optimized augmentation in boosting few-shot segmentation models. We greatly improve the top competing method by 1.27\% and 1.11\% on Abd-MRI and Abd-CT datasets, respectively, and even achieve a significant improvement for SSL-ALP on the left kidney by 3.39\% on the Abd-CT dataset.
翻訳日:2023-06-09 14:45:02 公開日:2023-06-08
# Sy-CON: 自己監督型表現学習のための対称的コントラスト損失

Sy-CON: Symmetric Contrastive Loss for Continual Self-Supervised Representation Learning ( http://arxiv.org/abs/2306.05101v1 )

ライセンス: Link先を確認
Sungmin Cha and Taesup Moon(参考訳) 我々は,CSSL(Continual Self-supervised Learning)のための,Symmetric Contrastive(Sy-CON)損失という,新規で一般的な損失関数を導入する。 1つのタスク固有の損失(可塑性)と1つの正規化子(安定性)からなる連続学習の従来の損失形式は、表現学習に焦点を当てた対比的損失ベースのcsslには理想的ではないかもしれない。 我々の主張は、対照的な学習に基づく手法では、タスク固有の損失は負のサンプルの多様性の低下に悩まされ、正規化器は新たな表現の学習を妨げる可能性があるということである。 そこで本研究では,2つの損失(可塑性と安定性)からなるsy-conを提案する。 当社のモデルは,明示的なハイパーパラメータチューニングを伴わずに,可塑性と安定性の良好なトレードオフを見出すことができる。 提案手法の有効性を実験により検証し,MoCoをベースとしたSy-CON損失実装が,他の最先端CSSL手法と比較して優れた性能を実現することを示す。

We introduce a novel and general loss function, called Symmetric Contrastive (Sy-CON) loss, for effective continual self-supervised learning (CSSL). We first argue that the conventional loss form of continual learning which consists of single task-specific loss (for plasticity) and a regularizer (for stability) may not be ideal for contrastive loss based CSSL that focus on representation learning. Our reasoning is that, in contrastive learning based methods, the task-specific loss would suffer from decreasing diversity of negative samples and the regularizer may hinder learning new distinctive representations. To that end, we propose Sy-CON that consists of two losses (one for plasticity and the other for stability) with symmetric dependence on current and past models' negative sample embeddings. We argue our model can naturally find good trade-off between the plasticity and stability without any explicit hyperparameter tuning. We validate the effectiveness of our approach through extensive experiments, demonstrating that MoCo-based implementation of Sy-CON loss achieves superior performance compared to other state-of-the-art CSSL methods.
翻訳日:2023-06-09 14:44:38 公開日:2023-06-08
# 2次元物体と手札を用いた自我中心視点における人間の行動認識

Human Action Recognition in Egocentric Perspective Using 2D Object and Hands Pose ( http://arxiv.org/abs/2306.05147v1 )

ライセンス: Link先を確認
Wiktor Mucha and Martin Kampel(参考訳) エゴセントリックなアクション認識は、利用者の意識的な努力を必要とせずに、日常生活のアクティビティ(adl)の自動的かつ継続的な監視を可能にするため、エゴセントリックカメラに依存する医療および補助技術に不可欠である。 本研究は,2次元ハンドと物体ポーズ情報を用いた自己中心的行動認識の実現可能性について検討する。 現在の文献は3dハンドポーズ情報に焦点を当てているが、2dスケルトンデータを使うことは、ハンドベースのアクション分類に有望なアプローチであり、プライバシの強化を提供し、計算の要求を少なくする可能性があることを示している。 この研究は、最先端のトランスフォーマーベースの手法を用いてシーケンスを分類し、検証結果の94%を達成し、既存のソリューションよりも優れている。 テストサブセットの精度は76%に低下し、さらなる一般化の改善の必要性を示している。 本研究は, 動作認識タスクにおける2次元手と物体のポーズ情報の可能性を強調し, 3次元手法に代わる有望な代替手段を提供する。

Egocentric action recognition is essential for healthcare and assistive technology that relies on egocentric cameras because it allows for the automatic and continuous monitoring of activities of daily living (ADLs) without requiring any conscious effort from the user. This study explores the feasibility of using 2D hand and object pose information for egocentric action recognition. While current literature focuses on 3D hand pose information, our work shows that using 2D skeleton data is a promising approach for hand-based action classification, might offer privacy enhancement, and could be less computationally demanding. The study uses a state-of-the-art transformer-based method to classify sequences and achieves validation results of 94%, outperforming other existing solutions. The accuracy of the test subset drops to 76%, indicating the need for further generalization improvement. This research highlights the potential of 2D hand and object pose information for action recognition tasks and offers a promising alternative to 3D-based methods.
翻訳日:2023-06-09 14:36:12 公開日:2023-06-08
# 単一画像からのリアルライフカテゴリー・種別再構成のための可変放射場

Variable Radiance Field for Real-Life Category-Specifc Reconstruction from Single Image ( http://arxiv.org/abs/2306.05145v1 )

ライセンス: Link先を確認
Kun Wang, Zhiqiang Yan, Zhenyu Zhang, Xiang Li, Jun Li, and Jian Yang(参考訳) 一つの画像からカテゴリ固有のオブジェクトを再構築することは、限られた視点からオブジェクトの形状や外観を推測する必要がある困難なタスクである。 既存の手法は通常、既知のカメラ固有の再投影に基づく局所的な特徴検索に依存しており、入力画像から離れた視点で歪みが発生しやすい。 本稿では,カメラパラメータが不明な単一の画像からカテゴリ固有オブジェクトを効率的に再構成できる新しいフレームワークであるvarable radiance field(vrf)を提案する。 我々は,(1)多スケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化し,ポイントワイド特徴抽出とカメラ依存性の頻繁さを回避する。 また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。 2) カテゴリテンプレートを学習することでオブジェクトの幾何学的複雑さを低減し, ハイパーネットワークを用いて高速かつインスタンス固有のレンダリングのための小さなニューラルラディアンス場を生成する。 3)各トレーニングインスタンスをテンプレート空間にアライメントする学習類似度変換により,異なるオブジェクト間の意味一貫性のある学習を可能にする。 提案手法をCO3Dデータセット上で評価し,既存の手法よりも品質と速度で優れていることを示す。 また、補間およびオブジェクト配置タスクを形作るための適用性を示す。

Reconstructing category-specific objects from a single image is a challenging task that requires inferring the geometry and appearance of an object from a limited viewpoint. Existing methods typically rely on local feature retrieval based on re-projection with known camera intrinsic, which are slow and prone to distortion at viewpoints distant from the input image. In this paper, we present Variable Radiance Field (VRF), a novel framework that can efficiently reconstruct category-specific objects from a single image without known camera parameters. Our key contributions are: (1) We parameterize the geometry and appearance of the object using a multi-scale global feature extractor, which avoids frequent point-wise feature retrieval and camera dependency. We also propose a contrastive learning-based pretraining strategy to improve the feature extractor. (2) We reduce the geometric complexity of the object by learning a category template, and use hypernetworks to generate a small neural radiance field for fast and instance-specific rendering. (3) We align each training instance to the template space using a learned similarity transformation, which enables semantic-consistent learning across different objects. We evaluate our method on the CO3D dataset and show that it outperforms existing methods in terms of quality and speed. We also demonstrate its applicability to shape interpolation and object placement tasks.
翻訳日:2023-06-09 14:35:53 公開日:2023-06-08
# Mesogeos: 地中海におけるデータ駆動型山火事モデリングのための多目的データセット

Mesogeos: A multi-purpose dataset for data-driven wildfire modeling in the Mediterranean ( http://arxiv.org/abs/2306.05144v1 )

ライセンス: Link先を確認
Spyros Kondylatos, Ioannis Prapas, Gustau Camps-Valls, Ioannis Papoutsis(参考訳) 地中海における山火事モデリングのための大規模多目的データセットであるMesogeosを紹介した。 メソゲオスは、山火事の運転者(気象学、植生、人的活動)を表す変数と、山火事の発火の歴史記録と17年間(2006-2022年)の火災地域を統合している。 クラウドフレンドリーな時空間データセット、すなわちデータキューブとして設計され、1km x 1km x 1日解像度のグリッド内のすべての変数を調和させる。 Datacube構造は、さまざまな山火事モデリングタスクで機械学習(ML)の使用を評価する機会を提供する。 この可能性を示すために,(1)短期的山火事危険予測と(2)着火点を考慮した最終焼損面積推定という2つのml対応データセットを抽出した。 各トラックにおけるモデルのパフォーマンスを評価するために、適切なメトリクスとベースラインを定義します。 データキューブを公開し、MLデータセットとモデルを作成するためのコードとともに、地中海における山火事の脅威の増大を緩和するための追加のトラックの実装を促進することをコミュニティに奨励します。

We introduce Mesogeos, a large-scale multi-purpose dataset for wildfire modeling in the Mediterranean. Mesogeos integrates variables representing wildfire drivers (meteorology, vegetation, human activity) and historical records of wildfire ignitions and burned areas for 17 years (2006-2022). It is designed as a cloud-friendly spatio-temporal dataset, namely a datacube, harmonizing all variables in a grid of 1km x 1km x 1-day resolution. The datacube structure offers opportunities to assess machine learning (ML) usage in various wildfire modeling tasks. We extract two ML-ready datasets that establish distinct tracks to demonstrate this potential: (1) short-term wildfire danger forecasting and (2) final burned area estimation given the point of ignition. We define appropriate metrics and baselines to evaluate the performance of models in each track. By publishing the datacube, along with the code to create the ML datasets and models, we encourage the community to foster the implementation of additional tracks for mitigating the increasing threat of wildfires in the Mediterranean.
翻訳日:2023-06-09 14:35:32 公開日:2023-06-08
# Genomic Interpreter: 1Dシフトウィンドウトランスを備えた階層型ゲノムディープニューラルネットワーク

Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D Shifted Window Transformer ( http://arxiv.org/abs/2306.05143v1 )

ライセンス: Link先を確認
Zehui Li, Akashaditya Das, William A V Beardall, Yiren Zhao, Guy-Bart Stan(参考訳) ゲノムデータの量と質の増大を考えると、新しい洞察の抽出には解釈可能な機械学習モデルが必要である。 本研究はゲノム解析予測のための新しいアーキテクチャであるゲノム解釈を提示する。 このモデルは、ゲノムアッセイ予測タスクの最先端モデルを上回る。 我々のモデルはゲノム部位の階層的依存関係を識別できる。 これは、我々が長距離階層データをモデル化するために設計した、新しいトランスフォーマーベースのブロックである1d-swinの統合によって実現されている。 ゲノムインタプターは17K塩基対の38,171のDNAセグメントを含むデータセットに基づいて評価され、クロマチンアクセシビリティと遺伝子発現予測において優れた性能を示し、遺伝子制御の基礎となる「シンタクス」を解き放つ。

Given the increasing volume and quality of genomics data, extracting new insights requires interpretable machine-learning models. This work presents Genomic Interpreter: a novel architecture for genomic assay prediction. This model outperforms the state-of-the-art models for genomic assay prediction tasks. Our model can identify hierarchical dependencies in genomic sites. This is achieved through the integration of 1D-Swin, a novel Transformer-based block designed by us for modelling long-range hierarchical data. Evaluated on a dataset containing 38,171 DNA segments of 17K base pairs, Genomic Interpreter demonstrates superior performance in chromatin accessibility and gene expression prediction and unmasks the underlying `syntax' of gene regulation.
翻訳日:2023-06-09 14:35:10 公開日:2023-06-08
# 離散空間の照明における勾配非定型品質多様性

Gradient-Informed Quality Diversity for the Illumination of Discrete Spaces ( http://arxiv.org/abs/2306.05138v1 )

ライセンス: Link先を確認
Raphael Boige, Guillaume Richard, J\'er\'emie Dona, Thomas Pierrot, Antoine Cully(参考訳) 品質多様性(QD)アルゴリズムは、一組の局所最適化ではなく、多種多様かつ高性能なソリューションの大規模なコレクションを探すために提案されている。 初期のqdアルゴリズムは目的関数と記述関数をブラックボックス関数と見なすが、勾配情報を用いて探索を加速し、連続入力空間上でのアルゴリズム全体の性能を向上させる新しいツールが導入された。 しかし、薬物発見や画像生成のような離散空間を含む幅広い応用がある。 これらの空間を探索することは、組合せ的に大きく、勾配は連続空間と同様の方法では使用できないため、難しい。 本稿では, 離散探索空間上での微分可能関数によるQD最適化を拡張したGIDE (Gradient-Informed Discrete Emitter) を用いたマップエリートを提案する。 me-gideは、目的関数とディスクリプタ関数の勾配情報とその離散入力を利用して、様々な高品質な解の探索を導くグラデーションインフォームド更新を提案する。 我々は,タンパク質設計や離散潜在空間照明を含む挑戦的なベンチマークにおいて,本手法がすべてのベンチマークにおいて最先端QDアルゴリズムより優れていることを示す。

Quality Diversity (QD) algorithms have been proposed to search for a large collection of both diverse and high-performing solutions instead of a single set of local optima. While early QD algorithms view the objective and descriptor functions as black-box functions, novel tools have been introduced to use gradient information to accelerate the search and improve overall performance of those algorithms over continuous input spaces. However a broad range of applications involve discrete spaces, such as drug discovery or image generation. Exploring those spaces is challenging as they are combinatorially large and gradients cannot be used in the same manner as in continuous spaces. We introduce map-elites with a Gradient-Informed Discrete Emitter (ME-GIDE), which extends QD optimisation with differentiable functions over discrete search spaces. ME-GIDE leverages the gradient information of the objective and descriptor functions with respect to its discrete inputs to propose gradient-informed updates that guide the search towards a diverse set of high quality solutions. We evaluate our method on challenging benchmarks including protein design and discrete latent space illumination and find that our method outperforms state-of-the-art QD algorithms in all benchmarks.
翻訳日:2023-06-09 14:34:57 公開日:2023-06-08
# 画像匿名化はコンピュータビジョントレーニングに影響を及ぼすか?

Does Image Anonymization Impact Computer Vision Training? ( http://arxiv.org/abs/2306.05135v1 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Frank Lindseth(参考訳) 画像の匿名化は、多くの地域でプライバシー規制に従うために広く採用されている。 しかし、匿名化はしばしばデータの品質を低下させ、コンピュータビジョン開発における有用性を低下させる。 本稿では,コンピュータビジョンモデルのトレーニングにおける画像匿名化が,重要なコンピュータビジョンタスク(検出,インスタンス分割,ポーズ推定)に与える影響について検討する。 具体的には、顔と全身の従来の匿名化と現実的な匿名化の両方を評価する共通検出データセットの認識低下をベンチマークする。 我々の総合的な実験は、従来の画像の匿名化が最終モデルの性能、特に全身の匿名化に大きく影響を与えることを反映している。 さらに,実際の匿名化は,顔の匿名化に対する最小のパフォーマンス低下を反映した,この性能低下を緩和できることがわかった。 本研究は,様々な重要なコンピュータビジョンベンチマークにおいて,プライバシ保全型コンピュータビジョン開発を最小限のパフォーマンス低下で実現できることを実証する。

Image anonymization is widely adapted in practice to comply with privacy regulations in many regions. However, anonymization often degrades the quality of the data, reducing its utility for computer vision development. In this paper, we investigate the impact of image anonymization for training computer vision models on key computer vision tasks (detection, instance segmentation, and pose estimation). Specifically, we benchmark the recognition drop on common detection datasets, where we evaluate both traditional and realistic anonymization for faces and full bodies. Our comprehensive experiments reflect that traditional image anonymization substantially impacts final model performance, particularly when anonymizing the full body. Furthermore, we find that realistic anonymization can mitigate this decrease in performance, where our experiments reflect a minimal performance drop for face anonymization. Our study demonstrates that realistic anonymization can enable privacy-preserving computer vision development with minimal performance degradation across a range of important computer vision benchmarks.
翻訳日:2023-06-09 14:34:35 公開日:2023-06-08
# ラベルシフトによるフェデレーション不確かさの等角的予測

Conformal Prediction for Federated Uncertainty Quantification Under Label Shift ( http://arxiv.org/abs/2306.05131v1 )

ライセンス: Link先を確認
Vincent Plassier, Mehdi Makni, Aleksandr Rubashevskii, Eric Moulines and Maxim Panov(参考訳) Federated Learning(FL)は機械学習フレームワークで、多くのクライアントがトレーニングデータを分散化しながらモデルを協調的にトレーニングする。 近年のFLの発展にもかかわらず、不確実量化トピック(UQ)は部分的に解決されている。 UQ法の中で、共形予測(CP)アプローチは最小の仮定の下で分布のない保証を提供する。 質的回帰に基づく新しい連立共形共形予測法を開発し,プライバシー制約を考慮に入れる。 この方法はエージェント間のラベルシフトを効果的に扱うために重み付けを活用し、予測セットの有効なカバレッジと差分プライバシの両方を理論的に保証する。 広範な実験により、この方法が現在の競争相手よりも優れていることが示されている。

Federated Learning (FL) is a machine learning framework where many clients collaboratively train models while keeping the training data decentralized. Despite recent advances in FL, the uncertainty quantification topic (UQ) remains partially addressed. Among UQ methods, conformal prediction (CP) approaches provides distribution-free guarantees under minimal assumptions. We develop a new federated conformal prediction method based on quantile regression and take into account privacy constraints. This method takes advantage of importance weighting to effectively address the label shift between agents and provides theoretical guarantees for both valid coverage of the prediction sets and differential privacy. Extensive experimental studies demonstrate that this method outperforms current competitors.
翻訳日:2023-06-09 14:34:18 公開日:2023-06-08
# 密度計数の自由化のためのフォーカス

Focus for Free in Density-Based Counting ( http://arxiv.org/abs/2306.05129v1 )

ライセンス: Link先を確認
Zenglin Shi, Pascal Mettes, Cees G.M. Snoek(参考訳) この研究は、教師あり学習を画像とその対応するポイントアノテーションから数えることを検討する。 密度に基づくカウント法は、通常、ガウス密度マップを作成するためにのみポイントアノテーションを使用するが、これは監督信号として振る舞う。 利用可能なポイントアノテーションを再利用してカウント性能を向上させる2つの方法を紹介する。 1つはポイントアノテーションを利用して入力画像と密度画像の両方のオクルードオブジェクトをシミュレートし、ネットワークのオクルージョンに対するロバスト性を高めるカウント専用拡張である。 第2の方法である前景蒸留は点アノテーションから前景マスクを生成し,黒色背景を持つ画像上で補助的ネットワークを訓練する。 これにより、背景から干渉することなく前景カウント知識を抽出することを学ぶ。 これらの方法は既存の数え上げの進歩とシームレスに統合でき、異なる損失関数に適応できる。 提案手法の補完効果を実証し,背景乱雑,隠蔽,群集密度の変動といった難題においても,頑健なカウント結果が得られることを示した。 提案手法は,上海Tech Part\_A,Part\_B,UCF\_QNRF,JHU-Crowd++,NWPU-Crowdなど,複数のデータセットに対して高いカウント結果が得られる。

This work considers supervised learning to count from images and their corresponding point annotations. Where density-based counting methods typically use the point annotations only to create Gaussian-density maps, which act as the supervision signal, the starting point of this work is that point annotations have counting potential beyond density map generation. We introduce two methods that repurpose the available point annotations to enhance counting performance. The first is a counting-specific augmentation that leverages point annotations to simulate occluded objects in both input and density images to enhance the network's robustness to occlusions. The second method, foreground distillation, generates foreground masks from the point annotations, from which we train an auxiliary network on images with blacked-out backgrounds. By doing so, it learns to extract foreground counting knowledge without interference from the background. These methods can be seamlessly integrated with existing counting advances and are adaptable to different loss functions. We demonstrate complementary effects of the approaches, allowing us to achieve robust counting results even in challenging scenarios such as background clutter, occlusion, and varying crowd densities. Our proposed approach achieves strong counting results on multiple datasets, including ShanghaiTech Part\_A and Part\_B, UCF\_QNRF, JHU-Crowd++, and NWPU-Crowd.
翻訳日:2023-06-09 14:34:06 公開日:2023-06-08
# 脳を言語モデルにマッピングする:調査

Mapping Brains with Language Models: A Survey ( http://arxiv.org/abs/2306.05126v1 )

ライセンス: Link先を確認
Antonia Karamolegkou, Mostafa Abdou, Anders S{\o}gaard(参考訳) 脳と言語モデルの活性化はいくつかの構造的類似性を示し、神経記録から抽出された特徴と計算言語モデルの間の線形部分マッピングを可能にする。 この観測のためにどれだけの証拠が蓄積されたかを評価するため、10のデータセットと8のメトリクスからなる30以上の研究を調査した。 どの程度の証拠が蓄積され、何であれ、結論を出す前に何が欠けているのか。 文献における評価手法の分析から,いくつかの指標は保守的でないことが判明した。 蓄積された証拠は今のところあいまいだが、モデルのサイズや品質との相関は慎重な楽観主義の根拠となる。

Over the years, many researchers have seemingly made the same observation: Brain and language model activations exhibit some structural similarities, enabling linear partial mappings between features extracted from neural recordings and computational language models. In an attempt to evaluate how much evidence has been accumulated for this observation, we survey over 30 studies spanning 10 datasets and 8 metrics. How much evidence has been accumulated, and what, if anything, is missing before we can draw conclusions? Our analysis of the evaluation methods used in the literature reveals that some of the metrics are less conservative. We also find that the accumulated evidence, for now, remains ambiguous, but correlations with model size and quality provide grounds for cautious optimism.
翻訳日:2023-06-09 14:33:42 公開日:2023-06-08
# 産業システム生成のためのメタジェネレーションフレームワーク

A Meta-Generation framework for Industrial System Generation ( http://arxiv.org/abs/2306.05123v1 )

ライセンス: Link先を確認
Fouad Oubari, Raphael Meunier, Rodrigue D\'ecatoire, Mathilde Mougeot(参考訳) ジェネレーティブデザインは、産業の世界においてますます重要なツールである。 これにより、設計者とエンジニアは、幅広い設計オプションを簡単に探索でき、試行錯誤のアプローチに対するより安価で高速な代替手段を提供する。 柔軟性のおかげで、Deep Generative Modelsはジェネレーティブデザイン技術の間で人気を集めています。 しかし、これらのモデルの開発と評価は困難である。 このフィールドは、異なるDeep Generative Modelsアーキテクチャを評価し比較するために、アクセス可能なベンチマークを欠いている。 さらに、バニラ深層生成モデルは、潜在設計制約によって制御される多成分産業システムを正確に生成できないように見える。 これらの課題に対処するため,産業システムの特徴を取り入れた産業用ユースケースを提案する。 このユースケースは素早く生成し、ベンチマークとして使用できます。 本稿では,多成分産業システムを生産可能なメタベールを提案し,その応用例を示す。

Generative design is an increasingly important tool in the industrial world. It allows the designers and engineers to easily explore vast ranges of design options, providing a cheaper and faster alternative to the trial and failure approaches. Thanks to the flexibility they offer, Deep Generative Models are gaining popularity amongst Generative Design technologies. However, developing and evaluating these models can be challenging. The field lacks accessible benchmarks, in order to evaluate and compare objectively different Deep Generative Models architectures. Moreover, vanilla Deep Generative Models appear to be unable to accurately generate multi-components industrial systems that are controlled by latent design constraints. To address these challenges, we propose an industry-inspired use case that incorporates actual industrial system characteristics. This use case can be quickly generated and used as a benchmark. We propose a Meta-VAE capable of producing multi-component industrial systems and showcase its application on the proposed use case.
翻訳日:2023-06-09 14:33:32 公開日:2023-06-08
# ビット読み出し用パラメトリック増幅器のモデリングと高調波バランス解析

Modeling and Harmonic Balance Analysis of Parametric Amplifiers for Qubit Read-out ( http://arxiv.org/abs/2306.05177v1 )

ライセンス: Link先を確認
Daryoush Shiri, Hampus Renberg Nilsson, Pavan Telluri, Anita Fadavi Roudsari, Vitaly Shumeiko, Christian Fager, Per Delsing(参考訳) 超伝導ジョセフソン接合(JJ)のような非線形要素に基づく移動波パラメトリック増幅器(TWPA)の性能予測は量子コンピュータにおける量子ビット読み出しに不可欠である。 この記事の目的は2つある。 (a)JJの組み合わせに基づく非線形インダクタが商用回路シミュレータでどのようにモデル化できるかを実証する。 (b)利得やポンプ高調波電力変換等の増幅器性能の信頼性予測において、ハーモニックバランス(hb)がどのように使われているかを示す。 2種類のTWPAアーキテクチャの実験的特徴をシミュレーションと比較し,HB法の信頼性を示す。 我々はパラメトリック増幅器の新しい設計者にモデリングノウハウと手法を広める。

Predicting the performance of traveling-wave parametric amplifiers (TWPAs) based on nonlinear elements like superconducting Josephson junctions (JJs) is vital for qubit read-out in quantum computers. The purpose of this article is twofold: (a) to demonstrate how nonlinear inductors based on combinations of JJs can be modeled in commercial circuit simulators, and (b) to show how the harmonic balance (HB) is used in the reliable prediction of the amplifier performance e.g., gain and pump harmonic power conversion. Experimental characterization of two types of TWPA architectures is compared with simulations to showcase the reliability of the HB method. We disseminate the modeling know-how and techniques to new designers of parametric amplifiers.
翻訳日:2023-06-09 14:27:21 公開日:2023-06-08
# RRWKV:RWKVの長距離依存性をキャプチャする

RRWKV: Capturing Long-range Dependencies in RWKV ( http://arxiv.org/abs/2306.05176v1 )

ライセンス: Link先を確認
Leilei Wang(参考訳) ドットプロダクティビティの注目により、トランスフォーマーは様々な自然言語処理(NLP)タスクにおいて支配的なアーキテクチャとなっている。 近年、Receptance Weighted Key Value (RWKV)アーキテクチャは、メモリと計算の複雑さがシーケンス長の2次スケーリングを示す点積の欠点を取り除くために、非変換アーキテクチャに従っている。 RWKVは、線形にテンソル積の注意機構を利用し、時間列モードを配置することで並列化された計算を実現しているが、標準トランスフォーマーのダイレクトインタラクションによって得られる全情報と比較して、以前の情報を振り返ることに制限があるため、長距離依存を捉えることができない。 そこで本稿では,RWKVにレトロスペクション機能を組み込んで,メモリや計算効率の維持を図ることで,Retrospected Receptance Weighted Key Value(RRWKV)アーキテクチャを考案する。

Owing to the impressive dot-product attention, the Transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architecture follows a non-transformer architecture to eliminate the drawbacks of dot-product attention, where memory and computational complexity exhibits quadratic scaling with sequence length. Although RWKV has exploited a linearly tensor-product attention mechanism and achieved parallelized computations by deploying the time-sequential mode, it fails to capture long-range dependencies because of its limitation on looking back at previous information, compared with full information obtained by direct interactions in the standard transformer. Therefore, the paper devises the Retrospected Receptance Weighted Key Value (RRWKV) architecture via incorporating the retrospecting ability into the RWKV to effectively absorb information, which maintains memory and computational efficiency as well.
翻訳日:2023-06-09 14:27:12 公開日:2023-06-08
# 動的不確実性を考慮した大規模データセットプラニング

Large-scale Dataset Pruning with Dynamic Uncertainty ( http://arxiv.org/abs/2306.05175v1 )

ライセンス: Link先を確認
Muyang He, Shuo Yang, Tiejun Huang, Bo Zhao(参考訳) 画像分類などの多くの学習タスクの最先端は、より大きなデータセットを収集し、その上でより大きなモデルをトレーニングすることで実現される。 その結果、計算コストの増大は達成不可能になりつつある。 本稿では,大規模データセットを創出する方法を考察し,非許容性能低下を伴う高度な深層モデルのトレーニングのための情報サブセットを作成する。 本研究では,予測の不確かさとトレーニングダイナミクスの両方を探索し,簡易かつ効果的なデータセットプラニング手法を提案する。 我々の知る限り、これは大規模なデータセット、すなわち ImageNet-1K と ImageNet-21K、および高度なモデル、すなわち Swin Transformer と ConvNeXt でデータセットプルーニングを研究する最初の研究である。 その結果,本手法は画像Net-1Kと画像Net-21Kの両方で75%のロスレス圧縮比が得られることがわかった。 コードはhttps://github.com/BAAI-DCAI/Dataset-Pruning.comで公開されている。

The state of the art of many learning tasks, e.g., image classification, is advanced by collecting larger datasets and then training larger models on them. As the outcome, the increasing computational cost is becoming unaffordable. In this paper, we investigate how to prune the large-scale datasets, and thus produce an informative subset for training sophisticated deep models with negligible performance drop. We propose a simple yet effective dataset pruning method by exploring both the prediction uncertainty and training dynamics. To our knowledge, this is the first work to study dataset pruning on large-scale datasets, i.e., ImageNet-1K and ImageNet-21K, and advanced models, i.e., Swin Transformer and ConvNeXt. Extensive experimental results indicate that our method outperforms the state of the art and achieves 75% lossless compression ratio on both ImageNet-1K and ImageNet-21K. The code and pruned datasets are available at https://github.com/BAAI-DCAI/Dataset-Pruning.
翻訳日:2023-06-09 14:26:52 公開日:2023-06-08
# 量子インターネットのための量子ドット単一光子源

Quantum-dot single-photon sources for the quantum internet ( http://arxiv.org/abs/2306.05174v1 )

ライセンス: Link先を確認
Chao-Yang Lu, Jian-Wei Pan(参考訳) 半導体量子ドットをマイクロキャビティに結合した高性能量子光源は、長距離固体量子ネットワークにおいてその将来性を示している。

High-performance quantum light sources based on semiconductor quantum dots coupled to microcavities are showing their promise in long-distance solid-state quantum networks.
翻訳日:2023-06-09 14:26:33 公開日:2023-06-08
# FLEdge:エッジコンピューティングシステムにおけるフェデレーション機械学習アプリケーションのベンチマーク

FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems ( http://arxiv.org/abs/2306.05172v1 )

ライセンス: Link先を確認
Herbert Woisetschl\"ager, Alexander Isenko, Ruben Mayer, Hans-Arno Jacobsen(参考訳) 近年,federated machine learning (fl) が注目されている。 FLベンチマークはシミュレーションシステムまたはデータセンター環境で主に研究されており、エッジコンピューティングと密接に結びついている実世界のシステムのセットアップを無視している。 我々は、エッジコンピューティングシステムにおけるFLワークロードをターゲットにしたベンチマークであるFLEdgeを導入することで、この研究ギャップを埋める。 ハードウェアの不均一性,トレーニング中のエネルギー効率,およびFLシステムのトレーニングに対する各種差分プライバシーレベルの影響を系統的に研究した。 このベンチマークを現実世界のシナリオに適用するために,我々は,クライアントのドロップアウトが最先端fl戦略に与える影響を50%まで評価する。 FLEdgeは、古いGPUアクセラレーションされた組み込みデバイス上での最先端のFLワークロードのトレーニングが、現代のサーバグレードのGPUよりも最大3倍エネルギー効率が高いという、新たな洞察を提供する。

Federated Machine Learning (FL) has received considerable attention in recent years. FL benchmarks are predominantly explored in either simulated systems or data center environments, neglecting the setups of real-world systems, which are often closely linked to edge computing. We close this research gap by introducing FLEdge, a benchmark targeting FL workloads in edge computing systems. We systematically study hardware heterogeneity, energy efficiency during training, and the effect of various differential privacy levels on training in FL systems. To make this benchmark applicable to real-world scenarios, we evaluate the impact of client dropouts on state-of-the-art FL strategies with failure rates as high as 50%. FLEdge provides new insights, such as that training state-of-the-art FL workloads on older GPU-accelerated embedded devices is up to 3x more energy efficient than on modern server-grade GPUs.
翻訳日:2023-06-09 14:26:30 公開日:2023-06-08
# 有向グラフ構造を持つ知識を表現する大規模言語モデルに基づくロボットタスク計画

Robot Task Planning Based on Large Language Model Representing Knowledge with Directed Graph Structures ( http://arxiv.org/abs/2306.05171v1 )

ライセンス: Link先を確認
Yue Zhen, Sheng Bi, Lu Xing-tong, Pan Wei-qin, Shi Hai-peng, Chen Zi-rui, Fang Yi-shu(参考訳) 従来のロボットタスク計画手法は、高度に構造化されていない環境や複雑なタスクを扱う際の課題に直面する。 本研究では,人間の専門知識をLLMと組み合わせたタスク計画手法を提案し,構造化された専門知識を表現するために,より強力な表現力を備えたLLMプロンプトテンプレートであるThink_Net_Promptを設計した。 さらに,タスクを段階的に分解し,タスクツリーを生成して各タスクの計画量を削減する手法を提案し,ロボットタスク計画を分離する戦略を考案した。 異なる計画エンティティを分割し、実際のマシンバインディングプロセスからタスクを分離することで、タスク計画プロセスがより柔軟になる。 提案手法は,タスクとサブタスクの関係を理解し,テキスト記述からパラメータを抽出し,特定のコード形式を扱うのに有効であることを示す。 しかし、タスクロジック処理の複雑さの制限、部品の量の不明瞭さ、組み立ての正確な位置といった問題もある。 タスク記述の正確さと認知構造の改善は、いくつかの改善をもたらす。 https://github.com/NOMIzy/Think_Net_Prompt

Traditional robot task planning methods face challenges when dealing with highly unstructured environments and complex tasks. We propose a task planning method that combines human expertise with an LLM and have designed an LLM prompt template, Think_Net_Prompt, with stronger expressive power to represent structured professional knowledge. We further propose a method to progressively decompose tasks and generate a task tree to reduce the planning volume for each task, and we have designed a strategy to decouple robot task planning. By dividing different planning entities and separating the task from the actual machine binding process, the task planning process becomes more flexible. Research results show that our method performs well in handling specified code formats, understanding the relationship between tasks and subtasks, and extracting parameters from text descriptions. However, there are also problems such as limited complexity of task logic handling, ambiguity in the quantity of parts and the precise location of assembly. Improving the precision of task description and cognitive structure can bring certain improvements. https://github.com/NOMIzy/Think_Net_Prompt
翻訳日:2023-06-09 14:26:16 公開日:2023-06-08
# 決定S4: 状態空間層による効率的なシーケンスベースRL

Decision S4: Efficient Sequence-Based RL via State Spaces Layers ( http://arxiv.org/abs/2306.05167v1 )

ライセンス: Link先を確認
Shmuel Bar-David, Itamar Zimerman, Eliya Nachmani, Lior Wolf(参考訳) 近年,この課題にトランスフォーマーを用いた決定変換器に関する基礎研究を含む,非政治強化学習の問題にシーケンス学習手法が適用されている。 トランスフォーマはパラメータ重みがあり、固定されたウィンドウサイズよりも長い歴史の恩恵を受けることができず、再帰的な計算もできないため、特に長距離依存関係のモデリングにおいてトランスフォーマよりも優れる、状態空間層に基づくs4ファミリの適合性について検討した。 この研究では2つの主要なアルゴリズムを紹介します (i)S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順。 (ii)リカレントな方法で訓練され、長距離依存性の恩恵を受けるオンポリシートレーニング手順は、新規な安定したアクタ-クリティックメカニズムに基づいている。 提案手法は,多くのタスクにおいて,複数種類の決定変換器および他のベースライン手法よりも優れており,遅延,パラメータ数,トレーニング時間を桁違いに削減し,実世界のRLに適した手法であることを示す。

Recently, sequence learning methods have been applied to the problem of off-policy Reinforcement Learning, including the seminal work on Decision Transformers, which employs transformers for this task. Since transformers are parameter-heavy, cannot benefit from history longer than a fixed window size, and are not computed using recurrence, we set out to investigate the suitability of the S4 family of models, which are based on state-space layers and have been shown to outperform transformers, especially in modeling long-range dependencies. In this work we present two main algorithms: (i) an off-policy training procedure that works with trajectories, while still maintaining the training efficiency of the S4 model. (ii) An on-policy training procedure that is trained in a recurrent manner, benefits from long-range dependencies, and is based on a novel stable actor-critic mechanism. Our results indicate that our method outperforms multiple variants of decision transformers, as well as the other baseline methods on most tasks, while reducing the latency, number of parameters, and training time by several orders of magnitude, making our approach more suitable for real-world RL.
翻訳日:2023-06-09 14:25:57 公開日:2023-06-08
# AIはより良いプログラミングパートナーか? 人間-人間ペアプログラミング対人間-AI pAIrプログラミング

Is AI the better programming partner? Human-Human Pair Programming vs. Human-AI pAIr Programming ( http://arxiv.org/abs/2306.05153v1 )

ライセンス: Link先を確認
Qianou (Christina) Ma, Tongshuang Wu, Kenneth Koedinger(参考訳) GitHubのCopilotのようなコード生成と商用製品に優れた大規模言語モデル(LLM)の出現は、AIシステムが人間のプログラマと協力する、人間とAIのペアプログラミング("pAIr programming"と呼ばれる)への関心を喚起した。 人間同士のペアプログラミングは広く研究されているが、その発見が人間とAIのペアプログラミングに適用できるかどうかは不明である。 我々は、人間とAIのペアプログラミングを比較し、その類似点と相互作用、測定、利益、課題の違いを探求する。 両方のアプローチの有効性は、文献に混ざっている(ペアプログラミングに使用される尺度は、それほど包括的ではない)。 pAIrプログラミング研究の機会を提供する人間と人間のペアプログラミングの成功に関する調整因子を要約する。 例えば、ミスマッチした専門知識はペアプログラミングの生産性を低下させるため、よく設計されたAIプログラミングアシスタントは専門知識のレベルの違いに適応する可能性がある。

The emergence of large-language models (LLMs) that excel at code generation and commercial products such as GitHub's Copilot has sparked interest in human-AI pair programming (referred to as "pAIr programming") where an AI system collaborates with a human programmer. While traditional pair programming between humans has been extensively studied, it remains uncertain whether its findings can be applied to human-AI pair programming. We compare human-human and human-AI pair programming, exploring their similarities and differences in interaction, measures, benefits, and challenges. We find that the effectiveness of both approaches is mixed in the literature (though the measures used for pAIr programming are not as comprehensive). We summarize moderating factors on the success of human-human pair programming, which provides opportunities for pAIr programming research. For example, mismatched expertise makes pair programming less productive, therefore well-designed AI programming assistants may adapt to differences in expertise levels.
翻訳日:2023-06-09 14:25:37 公開日:2023-06-08
# 重み付きグレイボックス関数のベイズ最適化

Bayesian Optimization of Expensive Nested Grey-Box Functions ( http://arxiv.org/abs/2306.05150v1 )

ライセンス: Link先を確認
Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) ブラックボックス関数とホワイトボックス関数の両方からなるネスト関数であるグレーボックス目的関数を最適化する問題を考察する。 このようなグレイボックス問題の一般的な定式化は、既存のグレイボックス最適化定式化を特別な場合としてカバーする。 次に、最適化駆動型アルゴリズムを設計して解決する。 ある正規性仮定の下では、本アルゴリズムは、考慮された関数のリプシッツ定数に依存する定数乗算項まで、標準的なブラックボックスベイズ最適化アルゴリズムに対して同様の後悔の結束を達成する。 さらに,本手法を制約事例にまで拡張し,いくつかの特別事例について考察する。 一般的に使われるカーネル関数に対して、後悔境界は最適な解への収束率を導出することができる。 実験の結果, グレーボックス最適化手法は, 通常のブラックボックス最適化アルゴリズムと比較して, グローバル最適解の探索速度を大幅に向上させることがわかった。

We consider the problem of optimizing a grey-box objective function, i.e., nested function composed of both black-box and white-box functions. A general formulation for such grey-box problems is given, which covers the existing grey-box optimization formulations as special cases. We then design an optimism-driven algorithm to solve it. Under certain regularity assumptions, our algorithm achieves similar regret bound as that for the standard black-box Bayesian optimization algorithm, up to a constant multiplicative term depending on the Lipschitz constants of the functions considered. We further extend our method to the constrained case and discuss several special cases. For the commonly used kernel functions, the regret bounds allow us to derive a convergence rate to the optimal solution. Experimental results show that our grey-box optimization method empirically improves the speed of finding the global optimal solution significantly, as compared to the standard black-box optimization algorithm.
翻訳日:2023-06-09 14:25:20 公開日:2023-06-08
# キラル光学キャビティを有する魔法の角度から遠ざかるツイスト二層グラフェンの工学的平坦帯

Engineering flat bands in twisted-bilayer graphene away from the magic angle with chiral optical cavities ( http://arxiv.org/abs/2306.05149v1 )

ライセンス: Link先を確認
Cunyuan Jiang, Matteo Baggioli, Qing-Dong Jiang(参考訳) ツイスト二層グラフェン (twisted bilayer graphene, tbg) は、最近発見された2次元超格子構造で、量子多体物理学と強い相関を持つ。 TBGのエキゾチックな性質の大部分は、いわゆるマジックアングル($\theta \approx 1.05^{\circ}$)で孤立したトポロジカルな電子バンドの出現と関連している。 本研究では,キラルな光学キャビティを用いることで,約0.8^{\circ}<\theta<1.3^{\circ}$の間隔で,位相的平坦帯域を魔法の角度から遠ざけることができることを示す。 単純化された理論モデルによって強調されるように、時間反転対称性の破れは空洞のキラルな性質によって引き起こされ、孤立したバンドを平坦化し、スペクトルの残りの部分を切り離すのに基本的な役割を果たす。 キャビティの効率は、ねじれ角、光マッター結合、光キャビティ特性周波数の関数として議論される。 以上の結果から,光デバイスを用いたTBGのエンジニアリングフラットバンドの可能性が示され,Moir\e超格子における強相関位相電子位相の開始をより広い角度まで拡大した。

Twisted bilayer graphene (TBG) is a recently discovered two-dimensional superlattice structure which exhibits strongly-correlated quantum many-body physics, including strange metallic behavior and unconventional superconductivity. Most of TBG exotic properties are connected to the emergence of a pair of isolated and topological flat electronic bands at the so-called magic angle, $\theta \approx 1.05^{\circ}$, which are nevertheless very fragile. In this work, we show that, by employing chiral optical cavities, the topological flat bands can be stabilized away from the magic angle in an interval of approximately $0.8^{\circ}<\theta<1.3^{\circ}$. As highlighted by a simplified theoretical model, time reversal symmetry breaking, induced by the chiral nature of the cavity, plays a fundamental role in flattening the isolated bands and gapping out the rest of the spectrum. The efficiency of the cavity is discussed as a function of the twisting angle, the light-matter coupling and the optical cavity characteristic frequency. Our results demonstrate the possibility of engineering flat bands in TBG using optical devices, extending the onset of strongly-correlated topological electronic phases in Moir\'e superlattices to a wider range in the twisting angle.
翻訳日:2023-06-09 14:25:02 公開日:2023-06-08
# 医用画像分割のためのチャネル事前畳み込み注意

Channel prior convolutional attention for medical image segmentation ( http://arxiv.org/abs/2306.05196v1 )

ライセンス: Link先を確認
Hejun Huang, Zuguo Chen, Ying Zou, Ming Lu, Chaoyang Chen(参考訳) 低コントラストや顕著な臓器形状の変化といった特徴は、しばしば医療画像に現れる。 医用画像におけるセグメンテーション性能の向上は, 既存の注意機構の適応能力の全般的不足によって制限される。 本稿では,チャネル先行畳み込み注意(cpca)法を提案し,チャネル次元と空間次元の両方における注意重みの動的分布について検討した。 マルチスケールの深度ワイド畳み込みモジュールを用いて、チャネルを保存しながら、空間関係を効果的に抽出する。 情報チャネルや重要な領域にフォーカスする能力はCPCAが保有している。 医用画像分割のためのCPCANetと呼ばれるセグメンテーションネットワークを提案する。 CPCANetは2つの公開データセットで検証されている。 CPCANetによりセグメント化性能が向上し,最先端アルゴリズムとの比較により計算資源の削減が図られた。 私たちのコードは、 \url{https://github.com/Cuthbert-Huang/CPCANet}で公開されています。

Characteristics such as low contrast and significant organ shape variations are often exhibited in medical images. The improvement of segmentation performance in medical imaging is limited by the generally insufficient adaptive capabilities of existing attention mechanisms. An efficient Channel Prior Convolutional Attention (CPCA) method is proposed in this paper, supporting the dynamic distribution of attention weights in both channel and spatial dimensions. Spatial relationships are effectively extracted while preserving the channel prior by employing a multi-scale depth-wise convolutional module. The ability to focus on informative channels and important regions is possessed by CPCA. A segmentation network called CPCANet for medical image segmentation is proposed based on CPCA. CPCANet is validated on two publicly available datasets. Improved segmentation performance is achieved by CPCANet while requiring fewer computational resources through comparisons with state-of-the-art algorithms. Our code is publicly available at \url{https://github.com/Cuthbert-Huang/CPCANet}.
翻訳日:2023-06-09 14:17:11 公開日:2023-06-08
# Qlineアーキテクチャを用いたマルチクライアント分散ブラインド量子計算

Multi-client distributed blind quantum computation with the Qline architecture ( http://arxiv.org/abs/2306.05195v1 )

ライセンス: Link先を確認
Beatrice Polacchi, Dominik Leichtle, Leonardo Limongi, Gonzalo Carvacho, Giorgio Milani, Nicol\`o Spagnolo, Marc Kaplan, Fabio Sciarrino, Elham Kashefi(参考訳) ユニバーサルブラインド量子コンピューティングは、最小の量子リソースを持つユーザは、内部に隠れた入力、アルゴリズム、結果を保持しながら、量子計算をリモート量子サーバーに委譲することができる。 このようなプロトコルの最先端の実験的なデモは1つのクライアントに限られていた。 しかし、フェデレーション機械学習のような多人数のアルゴリズムの増加は、与えられた共同計算を実行するために複数のクライアントの協力を必要とする。 本研究では,新しい線形量子ネットワーク構成(Qline)に基づく,軽量なマルチクライアントブラインド量子計算プロトコルを提案する。 高速な電子制御によって各クライアントとサーバ間の古典的通信のオーケストレーションを最適化し、サーバノードと悪意のあるクライアントの相関攻撃に対してさえも、分散アーキテクチャとの互換性を保ちながら、各クライアントが独自の信頼できるソースや測定装置を持つ必要をなくすため、我々のプロトコルの独創性は3つの大きな長所に留まる。

Universal blind quantum computing allows users with minimal quantum resources to delegate a quantum computation to a remote quantum server, while keeping intrinsically hidden input, algorithm, and outcome. State-of-art experimental demonstrations of such a protocol have only involved one client. However, an increasing number of multi-party algorithms, e.g. federated machine learning, require the collaboration of multiple clients to carry out a given joint computation. In this work, we propose and experimentally demonstrate a lightweight multi-client blind quantum computation protocol based on a novel linear quantum network configuration (Qline). Our protocol originality resides in three main strengths: scalability, since we eliminate the need for each client to have its own trusted source or measurement device, low-loss, by optimizing the orchestration of classical communication between each client and server through fast classical electronic control, and compatibility with distributed architectures while remaining intact even against correlated attacks of server nodes and malicious clients.
翻訳日:2023-06-09 14:16:58 公開日:2023-06-08
# 一次元振幅チャープ格子におけるwannier-stark局在

Wannier-Stark localization in one-dimensional amplitude-chirped lattices ( http://arxiv.org/abs/2306.05193v1 )

ライセンス: Link先を確認
Qi-Bo Zeng, Bo Hou, and Han Xiao(参考訳) 関数 $Fj\cos(2\pi \alpha j)$ で変調された$j$th オンサイトポテンシャルを持つ一次元振幅チャープ格子におけるワニエ・スターク (WS) の局所化について検討する。 実(または虚)体を持つエルミート系(または非エルミート系)では、アイジネギースペクトルにおいて実(または虚)WSはしごを得ることができる。 大抵の場合、$q \geq 2$ の場合、強いフィールド極限に局所化されたすべての固有状態を持つ複数の WS はしごが存在する。 しかし、q=4$の格子では、オンサイト電位における空間的周期的および線形的に増加する挙動の競合によってエネルギー依存的局在化現象が発生する。 バンドの中心に約半数の固有状態が集まっており、フィールドが非常に強くなったとしても、広い領域、あるいは格子の全範囲にわたって拡張することができる。 さらに、奇数$q$の非エルミート格子では、WSはしごのいくつかは二重縮退し、そこでは固有状態は場強度の広い状態の2つの近傍で均等に分布する。 我々の研究は、エルミートおよび非エルミート振幅チャープ格子におけるWSローカライゼーションの道を開く。

We study the Wannier-Stark (WS) localization in one-dimensional amplitude-chirped lattices with the $j$th onsite potential modulated by a function $Fj\cos(2\pi \alpha j)$, where $F$ is the external field with a period determined by $\alpha=p/q$ ($p$ and $q$ are co-prime integers). In the Hermitian (or non-Hermitian) systems with real (or imaginary) fields, we can obtain real (or imaginary) WS ladders in the eigenenergy spectrum. In most cases with $q \geq 2$, there are multiple WS ladders with all the eigenstates localized in the strong field limit. However, in the lattices with $q=4$, the energy-dependent localization phenomenon emerges due to the competition between spatially periodic and linearly increasing behaviors in the onsite potential. About half the number of eigenstates are gathered at the band center and can extend over a wide region or even the full range of the lattice, even when the field becomes very strong. Moreover, in the non-Hermitian lattices with odd $q$, some of the WS ladders become doubly degenerate, where the eigenstates are evenly distributed at two neighboring sites in a wide regime of field strength. Our work opens an avenue for exploring WS localization in both Hermitian and non-Hermitian amplitude-chirped lattices.
翻訳日:2023-06-09 14:16:38 公開日:2023-06-08
# emo: 少数のメタラーニングのためのエピソディクスメモリ最適化

EMO: Episodic Memory Optimization for Few-Shot Meta-Learning ( http://arxiv.org/abs/2306.05189v1 )

ライセンス: Link先を確認
Yingjun Du, Jiayi Shen, Xiantong Zhen, Cee G.M. Snoek(参考訳) タスク毎のトレーニングサンプル数が限られているため、勾配勾配勾配最適化の課題は少ない。 この問題に対処するために,我々は,脳の記憶から過去の学習経験を思い出す人間の能力に触発された,メタラーニングのためのエピソディックメモリ最適化を提案する。 EMOは過去の経験豊富なタスクの勾配履歴を外部メモリに保持し、メモリ拡張された方法で数ショットの学習を可能にする。 過去のトレーニングタスクの学習プロセスの保持とリコールを学習することにより、EMOは、限られた数のサンプルによって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。 理論的には、このアルゴリズムは滑らかで強い凸目的に対して収束する。 EMOは汎用的で柔軟性があり、モデルに依存しないため、既存の最適化ベースの数ショットメタ学習アプローチにシームレスに組み込むことのできる、シンプルなプラグアンドプレイオプティマイザである。 実験の結果,emoは最小ショット分類ベンチマークのほとんどによく適合し,最適化に基づくメタ学習手法の性能が向上し,収束が促進された。

Few-shot meta-learning presents a challenge for gradient descent optimization due to the limited number of training samples per task. To address this issue, we propose an episodic memory optimization for meta-learning, we call \emph{EMO}, which is inspired by the human ability to recall past learning experiences from the brain's memory. EMO retains the gradient history of past experienced tasks in external memory, enabling few-shot learning in a memory-augmented way. By learning to retain and recall the learning process of past training tasks, EMO nudges parameter updates in the right direction, even when the gradients provided by a limited number of examples are uninformative. We prove theoretically that our algorithm converges for smooth, strongly convex objectives. EMO is generic, flexible, and model-agnostic, making it a simple plug-and-play optimizer that can be seamlessly embedded into existing optimization-based few-shot meta-learning approaches. Empirical results show that EMO scales well with most few-shot classification benchmarks and improves the performance of optimization-based meta-learning methods, resulting in accelerated convergence.
翻訳日:2023-06-09 14:16:12 公開日:2023-06-08
# 誘導散逸型高温Rydberg蒸気における同期の発生

Emergence of synchronisation in a driven-dissipative hot Rydberg vapor ( http://arxiv.org/abs/2306.05188v1 )

ライセンス: Link先を確認
Karen Wadenpfuhl and C. Stuart Adams(参考訳) 熱 (35-60 {\deg}C) 原子(Rb) アンサンブルにおいて、高励起リドベルク状態(主量子数nは43から79)に駆動される同期を観測する。 この系の同期は原子運動により予期しないが、理論上は、大域的リドバーグ密度平均場による十分な強い相互作用が周波数と位相のエントレインを引き起こすことを示している。 2光子励起方式のプローブレーザの伝送では、蒸気のバルク量における創発的振動が検出される。

We observe synchronisation in a thermal (35-60 {\deg}C) atomic (Rb) ensemble driven to a highly-excited Rydberg state (principle quantum number n ranging from 43 to 79). Synchronisation in this system is unexpected due to the atomic motion, however, we show theoretically that sufficiently strong interactions via a global Rydberg density mean field causes frequency and phase entrainment. The emergent oscillations in the vapor's bulk quantities are detected in the transmission of the probe laser for a two-photon excitation scheme.
翻訳日:2023-06-09 14:15:52 公開日:2023-06-08
# 半線形楕円型PDEにおける非平滑重ね合わせ作用素の同定と最適化について

On the Identification and Optimization of Nonsmooth Superposition Operators in Semilinear Elliptic PDEs ( http://arxiv.org/abs/2306.05185v1 )

ライセンス: Link先を確認
Constantin Christof and Julia Kowalczyk(参考訳) 本研究では,pde解と与えられた所望の状態との間の距離を最小化する半線形楕円偏微分方程式(pde)の非線形部分におけるネミツキー作用素の同定を目的とした無限次元最適化問題について検討する。 以前の研究とは対照的に、ネミトスキー作用素を誘導する関数が a-プリオリであることは、$H^1_{loc}(\mathbb{R})$ の要素であることが知られている。 これにより、未知の重ね合わせ演算子を非平滑活性化機能を有するニューラルネットワーク(ReLU, leaky-ReLUなど)を用いて近似する学習インフォームドPDEの訓練問題を厳格に解析する上で、学習問題クラスを出発点として適当となる。 制御の規則性が低いにもかかわらず、局所最小化器の古典的定常性系を導出し、勾配投影法を用いて検討された問題を解くことができる。 結果のアルゴリズムの収束性は関数空間の設定で証明される。 また、確立された一階必要最適条件は、局所最適重ね合わせ演算子が、一般的に使用される活性化関数と様々な特性を共有していることを示している。 本論文は理論的知見を裏付ける数値実験によって結論づける。

We study an infinite-dimensional optimization problem that aims to identify the Nemytskii operator in the nonlinear part of a prototypical semilinear elliptic partial differential equation (PDE) which minimizes the distance between the PDE-solution and a given desired state. In contrast to previous works, we consider this identification problem in a low-regularity regime in which the function inducing the Nemytskii operator is a-priori only known to be an element of $H^1_{loc}(\mathbb{R})$. This makes the studied problem class a suitable point of departure for the rigorous analysis of training problems for learning-informed PDEs in which an unknown superposition operator is approximated by means of a neural network with nonsmooth activation functions (ReLU, leaky-ReLU, etc.). We establish that, despite the low regularity of the controls, it is possible to derive a classical stationarity system for local minimizers and to solve the considered problem by means of a gradient projection method. The convergence of the resulting algorithm is proven in the function space setting. It is also shown that the established first-order necessary optimality conditions imply that locally optimal superposition operators share various characteristic properties with commonly used activation functions: They are always sigmoidal, continuously differentiable away from the origin, and typically possess a distinct kink at zero. The paper concludes with numerical experiments which confirm the theoretical findings.
翻訳日:2023-06-09 14:15:43 公開日:2023-06-08
# 長文文書レベル機械翻訳の改善

Improving Long Context Document-Level Machine Translation ( http://arxiv.org/abs/2306.05183v1 )

ライセンス: Link先を確認
Christian Herold and Hermann Ney(参考訳) ニューラルマシン翻訳のための文書レベルの文脈は、翻訳の一貫性と凝集、曖昧な入力の翻訳、および他のいくつかの言語現象を改善するために重要である。 文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では、通常、1つまたは2つの先行する文を追加情報として含む、ローカルコンテキストのみに制限されている。 これは曖昧な入力を解決するのに十分かもしれないが、おそらく、トピックや会話のスタイルといったドキュメントレベルの情報を取得するのに十分ではないだろう。 ローカルコンテキスト以上のコンテキストサイズを拡大するには、2つの課題があります。 i) メモリ使用量は指数関数的に増加する (ii)翻訳性能が低下し始める。 我々は、広く使われている注意機構が両方の問題に責任を負うと論じている。 そこで本研究では,メモリ消費を低減しつつ,シーケンスの最も関連する部分に注意を集中させる制約付き注意型を提案する。 評価のために,目的とするテストセットと新しい評価手法を組み合わせて,特定の談話関連現象に関する翻訳を分析する。 今回のアプローチは,文レベルのnmtとフルコンテキスト,特に低リソースシナリオとのよい妥協点であることが分かりました。

Document-level context for neural machine translation (NMT) is crucial to improve the translation consistency and cohesion, the translation of ambiguous inputs, as well as several other linguistic phenomena. Many works have been published on the topic of document-level NMT, but most restrict the system to only local context, typically including just the one or two preceding sentences as additional information. This might be enough to resolve some ambiguous inputs, but it is probably not sufficient to capture some document-level information like the topic or style of a conversation. When increasing the context size beyond just the local context, there are two challenges: (i) the~memory usage increases exponentially (ii) the translation performance starts to degrade. We argue that the widely-used attention mechanism is responsible for both issues. Therefore, we propose a constrained attention variant that focuses the attention on the most relevant parts of the sequence, while simultaneously reducing the memory consumption. For evaluation, we utilize targeted test sets in combination with novel evaluation techniques to analyze the translations in regards to specific discourse-related phenomena. We find that our approach is a good compromise between sentence-level NMT vs attending to the full context, especially in low resource scenarios.
翻訳日:2023-06-09 14:15:16 公開日:2023-06-08
# 等張回帰による不確かさの階層化と校正誤差統計への影響

Stratification of uncertainties recalibrated by isotonic regression and its impact on calibration error statistics ( http://arxiv.org/abs/2306.05180v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 等調回帰による機械学習回帰問題の予測の不確かさの抽象的再検討は、ビンベースの校正誤差統計(例えばence)に問題をもたらす可能性がある。 等調回帰はしばしば成層的不確実性、すなわち同じ数値を持つ不確実性のサブセットを生成する。 結果データを等サイズのバイナリに分割することで、binベースのキャリブレーション統計量の推定にaleatoricコンポーネントが導入される。 階層化されたデータのビンへの分割はデータの順序に依存するが、通常はキャリブレーションテスト/検証セットの制御不能な性質である。 バイナリ化に使用する順序付けアルゴリズムのタイブレーキ法も、アレータティックコンポーネントを導入するかもしれない。 このことがキャリブレーション診断にどのように影響するかを例に示します。

Abstract Post hoc recalibration of prediction uncertainties of machine learning regression problems by isotonic regression might present a problem for bin-based calibration error statistics (e.g. ENCE). Isotonic regression often produces stratified uncertainties, i.e. subsets of uncertainties with identical numerical values. Partitioning of the resulting data into equal-sized bins introduces an aleatoric component to the estimation of bin-based calibration statistics. The partitioning of stratified data into bins depends on the order of the data, which is typically an uncontrolled property of calibration test/validation sets. The tie-braking method of the ordering algorithm used for binning might also introduce an aleatoric component. I show on an example how this might significantly affect the calibration diagnostics.
翻訳日:2023-06-09 14:14:56 公開日:2023-06-08
# M3Exam: 大規模言語モデルを調べるための多言語・マルチモーダル・マルチレベルベンチマーク

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models ( http://arxiv.org/abs/2306.05179v1 )

ライセンス: Link先を確認
Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing(参考訳) 自然言語処理モデルを評価するための様々なベンチマークが存在するにもかかわらず、人間試験は、言語理解、ドメイン知識、問題解決スキルなど、より広い範囲の能力を要求するため、大規模言語モデル(llm)のための汎用知性を評価するより適切な方法であると主張する。 この目的のために,多言語,マルチモーダル,多レベル環境においてllmを評価するための,実および公式の人間試験質問から得られた新しいベンチマークであるm3examを紹介する。 M3Examは,(1)多言語能力と文化的知識を必要とする複数の国からの質問を包含する多言語主義,(2)多モーダル性,2)モデルの多モーダル理解能力をテストするための多くの試験質問の多モーダル性,3)3つの重要な教育期間の試験を包括的に評価する多段階構造,の3つの特徴を示す。 合計で、m3examは3つの教育レベルを持つ9つの多様な言語で12,317の質問を含んでいる。 M3Exam上でのLLMの性能評価を行い、GPT-4を含む現在のモデルは、特に低リソースおよび非ラテン文字言語において、多言語テキストに苦戦している。 マルチモーダル LLM は複雑なマルチモーダル問題でも不十分である。 我々は,M3Examが多言語および多モーダルの能力を検証し,その開発を追跡することで,LLMを包括的に評価するための貴重な資源であると考えている。 データおよび評価コードは \url{https://github.com/DAMO-NLP-SG/M3Exam} で公開されている。

Despite the existence of various benchmarks for evaluating natural language processing models, we argue that human exams are a more suitable means of evaluating general intelligence for large language models (LLMs), as they inherently demand a much wider range of abilities such as language understanding, domain knowledge, and problem-solving skills. To this end, we introduce M3Exam, a novel benchmark sourced from real and official human exam questions for evaluating LLMs in a multilingual, multimodal, and multilevel context. M3Exam exhibits three unique characteristics: (1) multilingualism, encompassing questions from multiple countries that require strong multilingual proficiency and cultural knowledge; (2) multimodality, accounting for the multimodal nature of many exam questions to test the model's multimodal understanding capability; and (3) multilevel structure, featuring exams from three critical educational periods to comprehensively assess a model's proficiency at different levels. In total, M3Exam contains 12,317 questions in 9 diverse languages with three educational levels, where about 23\% of the questions require processing images for successful solving. We assess the performance of top-performing LLMs on M3Exam and find that current models, including GPT-4, still struggle with multilingual text, particularly in low-resource and non-Latin script languages. Multimodal LLMs also perform poorly with complex multimodal questions. We believe that M3Exam can be a valuable resource for comprehensively evaluating LLMs by examining their multilingual and multimodal abilities and tracking their development. Data and evaluation code is available at \url{https://github.com/DAMO-NLP-SG/M3Exam}.
翻訳日:2023-06-09 14:14:44 公開日:2023-06-08
# syncdiffusion:同期ジョイント拡散によるコヒーレントモンタージュ

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions ( http://arxiv.org/abs/2306.05178v1 )

ライセンス: Link先を確認
Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung(参考訳) 事前訓練された画像拡散モデルの顕著な機能は、固定サイズ画像の生成だけでなく、パノラマの作成にも利用されてきた。 しかし、複数の画像を縫い合わせると、しばしば目に見える縫い目が生じる。 近年,複数ウィンドウで共同拡散を行い,重なり合う領域で遅延特性を平均化する手法が提案されている。 しかし、シームレスなモンタージュ生成に焦点をあてたこれらのアプローチは、1つの画像に異なるシーンを混ぜることで、しばしば不整合出力をもたらす。 この制限を克服するため,我々は,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグアンドプレイモジュールであるsyncdiffusionを提案する。 具体的には,各音化ステップで予測された音化画像を用いて知覚損失の勾配を算出し,コヒーレントモンタージュを実現するための有意義なガイダンスを提供する。 実験結果から,提案手法は従来手法に比べて一貫性が向上し(ユーザ調査では66.35%対33.65%),忠実度(GIQAによる評価)と入力プロンプトとの整合性(CLIPスコアによる評価)は維持されていることがわかった。

The remarkable capabilities of pretrained image diffusion models have been utilized not only for generating fixed-size images but also for creating panoramas. However, naive stitching of multiple images often results in visible seams. Recent techniques have attempted to address this issue by performing joint diffusions in multiple windows and averaging latent features in overlapping regions. However, these approaches, which focus on seamless montage generation, often yield incoherent outputs by blending different scenes within a single image. To overcome this limitation, we propose SyncDiffusion, a plug-and-play module that synchronizes multiple diffusions through gradient descent from a perceptual similarity loss. Specifically, we compute the gradient of the perceptual loss using the predicted denoised images at each denoising step, providing meaningful guidance for achieving coherent montages. Our experimental results demonstrate that our method produces significantly more coherent outputs compared to previous methods (66.35% vs. 33.65% in our user study) while still maintaining fidelity (as assessed by GIQA) and compatibility with the input prompt (as measured by CLIP score).
翻訳日:2023-06-09 14:14:11 公開日:2023-06-08
# SparseTrack:擬似深度に基づくシーン分解による多目的追跡

SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth ( http://arxiv.org/abs/2306.05238v1 )

ライセンス: Link先を確認
Zelin Liu, Xinggang Wang, Cheng Wang, Wenyu Liu, Xiang Bai(参考訳) 多目的追跡(MOT)において、ロバストで効率的なアソシエーション手法の探索は常に重要な問題であった。 既存の追跡手法は目覚ましい性能を示しているが、混雑や頻繁な閉塞は、マルチオブジェクト追跡において依然として困難な問題となっている。 密集したシーンでスパース分解を行うことは、隠蔽対象の関連性を高めるための重要なステップである。 そこで本研究では,2次元画像からターゲットの相対深度を求める擬似深度推定法を提案する。 第二に、得られた深度情報を用いて、密集したターゲットセットを複数のスパースターゲットサブセットに変換し、これらのスパースターゲットサブセットに関するデータアソシエーションを行うディープカスケードマッチング(DCM)アルゴリズムを設計する。 擬似深度法とDCM戦略をデータアソシエーションプロセスに統合することにより、SparseTrackと呼ばれる新しいトラッカーを提案する。 SparseTrackは、困難なシーンMOT問題を解決するための新しい視点を提供する。 IoUマッチングのみを使用するSparseTrackは、MOT17とMOT20ベンチマークの最先端(SOTA)メソッドと同等のパフォーマンスを実現する。 コードとモデルは \url{https://github.com/hustvl/SparseTrack} で公開されている。

Exploring robust and efficient association methods has always been an important issue in multiple-object tracking (MOT). Although existing tracking methods have achieved impressive performance, congestion and frequent occlusions still pose challenging problems in multi-object tracking. We reveal that performing sparse decomposition on dense scenes is a crucial step to enhance the performance of associating occluded targets. To this end, we propose a pseudo-depth estimation method for obtaining the relative depth of targets from 2D images. Secondly, we design a depth cascading matching (DCM) algorithm, which can use the obtained depth information to convert a dense target set into multiple sparse target subsets and perform data association on these sparse target subsets in order from near to far. By integrating the pseudo-depth method and the DCM strategy into the data association process, we propose a new tracker, called SparseTrack. SparseTrack provides a new perspective for solving the challenging crowded scene MOT problem. Only using IoU matching, SparseTrack achieves comparable performance with the state-of-the-art (SOTA) methods on the MOT17 and MOT20 benchmarks. Code and models are publicly available at \url{https://github.com/hustvl/SparseTrack}.
翻訳日:2023-06-09 14:08:24 公開日:2023-06-08
# 教師なし再同定のための集団型進化ゲーム

Population-Based Evolutionary Gaming for Unsupervised Person Re-identification ( http://arxiv.org/abs/2306.05236v1 )

ライセンス: Link先を確認
Yunpeng Zhai, Peixi Peng, Mengxi Jia, Shiyong Li, Weiqiang Chen, Xuesong Gao, Yonghong Tian(参考訳) 教師なしの人物の再識別は、個々のニューラルネットワークの自己改善を通じて大きな成功を収めた。 しかし、識別情報の多様性の欠如によって制限され、単一のネットワークは教師なしの条件下で十分な識別能力を学ぶのに苦労している。 この制限に対処するために,多種多様なニューラルネットワークの集団を選択・複製・変異・集団相互学習によって同時に訓練する集団型進化ゲーム(peg)フレームワークを開発した。 具体的には、保存するネットワークの選択を協調ゲームとしてモデル化し、最善の応答ダイナミクスにより解決し、ネットワークのハイパーパラメータをクローニング・変動させてより多様性を学習し、集団相互学習により、集団内の知識蒸留によるネットワークの識別を改善する。 さらに,ラベル付きサンプルを使わずにre-IDモデルの評価を行い,PEGにおけるネットワーク選択の基準として採用するためのCRSを提案する。 CRSは、特徴空間の凝集と分離に応じて予測された擬似ラベルの精度を間接的に推定することにより、モデルの性能を測定する。 CRSは,(1)ラベル付きサンプルを含まないモデルの性能を概略測定し,(2)PEGは個人再識別のための新たな最先端の精度を生み出すとともに,教師なし学習のためのネットワーク協調トレーニングの可能性を示した。

Unsupervised person re-identification has achieved great success through the self-improvement of individual neural networks. However, limited by the lack of diversity of discriminant information, a single network has difficulty learning sufficient discrimination ability by itself under unsupervised conditions. To address this limit, we develop a population-based evolutionary gaming (PEG) framework in which a population of diverse neural networks is trained concurrently through selection, reproduction, mutation, and population mutual learning iteratively. Specifically, the selection of networks to preserve is modeled as a cooperative game and solved by the best-response dynamics, then the reproduction and mutation are implemented by cloning and fluctuating hyper-parameters of networks to learn more diversity, and population mutual learning improves the discrimination of networks by knowledge distillation from each other within the population. In addition, we propose a cross-reference scatter (CRS) to approximately evaluate re-ID models without labeled samples and adopt it as the criterion of network selection in PEG. CRS measures a model's performance by indirectly estimating the accuracy of its predicted pseudo-labels according to the cohesion and separation of the feature space. Extensive experiments demonstrate that (1) CRS approximately measures the performance of models without labeled samples; (2) and PEG produces new state-of-the-art accuracy for person re-identification, indicating the great potential of population-based network cooperative training for unsupervised learning.
翻訳日:2023-06-09 14:08:01 公開日:2023-06-08
# 生成型adversarial networkの所有権保護

Ownership Protection of Generative Adversarial Networks ( http://arxiv.org/abs/2306.05233v1 )

ライセンス: Link先を確認
Hailong Hu, Jun Pang(参考訳) GAN(Generative Adversarial Network)は画像合成において顕著な成功を収めており、GANモデル自体が正当なモデル所有者にとって有益である。 したがって、GANの知的財産権の法的保護は極めて重要である。 事前の作業はトレーニングセットやトレーニングプロセスの改ざんが必要であり、新たなモデル抽出攻撃に対して堅牢ではない。 本稿では,対象モデルとその盗難モデルの共通特性に基づく新たな所有権保護手法を提案する。 本手法は, 目標モデルの再訓練を必要とせず, 訓練済みのganに対して直接適用することができる。 実験結果から,本手法は最先端の手法と比較して高い保護性能が得られることが示された。 最後に, モデル抽出攻撃の世代数, 生成されたサンプル数, 異なるデータセット, 適応攻撃に対する本手法の有効性を示す。

Generative adversarial networks (GANs) have shown remarkable success in image synthesis, making GAN models themselves commercially valuable to legitimate model owners. Therefore, it is critical to technically protect the intellectual property of GANs. Prior works need to tamper with the training set or training process, and they are not robust to emerging model extraction attacks. In this paper, we propose a new ownership protection method based on the common characteristics of a target model and its stolen models. Our method can be directly applicable to all well-trained GANs as it does not require retraining target models. Extensive experimental results show that our new method can achieve the best protection performance, compared to the state-of-the-art methods. Finally, we demonstrate the effectiveness of our method with respect to the number of generations of model extraction attacks, the number of generated samples, different datasets, as well as adaptive attacks.
翻訳日:2023-06-09 14:07:35 公開日:2023-06-08
# 平坦な局所最大値獲得による対向移動性の向上

Boosting Adversarial Transferability by Achieving Flat Local Maxima ( http://arxiv.org/abs/2306.05225v1 )

ライセンス: Link先を確認
Zhijin Ge, Fanhua Shang, Hongying Liu, Yuanyuan Liu, Xiaosen Wang(参考訳) 転送ベースの攻撃は、サロゲートモデルで生成された敵の例を採用して、様々なモデルを攻撃し、物理的世界に適用し、興味を惹きつける。 近年,異なる視点から敵の移動性を高めるために,様々な敵の攻撃が出現している。 本研究は,平坦局所極小がよい一般化と相関していることに着想を得て,平坦局所領域の逆例が元の損失関数にペナリズド勾配ノルムを導入することで良好な移動可能性を持つ傾向があることを仮定し,実証的に検証する。 勾配正規化ノルムの直接最適化は計算コストが高く,逆例生成には難解であるため,目的関数の勾配更新を簡略化する近似最適化手法を提案する。 具体的には、サンプルをランダムにサンプリングし、二階のヘッセン行列を近似するために一階の勾配を採用することで、2つのヤコビ行列を補間することで計算をより効率的にする。 一方,より安定な勾配方向を得るため,複数のサンプルをランダムにサンプリングし,各サンプルの勾配を平均して,反復過程におけるランダムサンプリングによるばらつきを低減した。 imagenet互換データセットの広範囲な実験結果から,提案手法は平坦なローカル領域で逆行例を生成し,通常訓練されたモデルあるいは逆行訓練モデルにおいて,最先端攻撃よりも逆行性が著しく向上することが示された。

Transfer-based attack adopts the adversarial examples generated on the surrogate model to attack various models, making it applicable in the physical world and attracting increasing interest. Recently, various adversarial attacks have emerged to boost adversarial transferability from different perspectives. In this work, inspired by the fact that flat local minima are correlated with good generalization, we assume and empirically validate that adversarial examples at a flat local region tend to have good transferability by introducing a penalized gradient norm to the original loss function. Since directly optimizing the gradient regularization norm is computationally expensive and intractable for generating adversarial examples, we propose an approximation optimization method to simplify the gradient update of the objective function. Specifically, we randomly sample an example and adopt the first-order gradient to approximate the second-order Hessian matrix, which makes computing more efficient by interpolating two Jacobian matrices. Meanwhile, in order to obtain a more stable gradient direction, we randomly sample multiple examples and average the gradients of these examples to reduce the variance due to random sampling during the iterative process. Extensive experimental results on the ImageNet-compatible dataset show that the proposed method can generate adversarial examples at flat local regions, and significantly improve the adversarial transferability on either normally trained models or adversarially trained models than the state-of-the-art attacks.
翻訳日:2023-06-09 14:07:22 公開日:2023-06-08
# クープマン作用素の固有対の「Good Dictionary」の自動符号化

Autoencoding for the 'Good Dictionary' of eigen pairs of the Koopman Operator ( http://arxiv.org/abs/2306.05224v1 )

ライセンス: Link先を確認
Neranjaka Jayarathne and Erik M. Bollt(参考訳) 縮小順序モデリングは、単純化されたモードを使って複雑な力学系を表現することに依存している。 しかし、高次元可観測データに対するクープマン固有ペアの計算は非効率である。 本論文では,深層学習手法であるディープオートエンコーダを用いて,コープマン固有ベクトルの計算に先立って,生データ上に非線形な幾何変換を行う。 ディープオートエンコーダによって生成された符号化データは、力学系の多様体に微分され、原データよりもかなり低次元である。 高次元時系列データを扱うために、テイクスの時間遅延埋め込みを前処理技術として提示する。 論文は、これらのテクニックの例を実演して締めくくっている。

Reduced order modelling relies on representing complex dynamical systems using simplified modes, which can be achieved through Koopman operator analysis. However, computing Koopman eigen pairs for high-dimensional observable data can be inefficient. This paper proposes using deep autoencoders, a type of deep learning technique, to perform non-linear geometric transformations on raw data before computing Koopman eigen vectors. The encoded data produced by the deep autoencoder is diffeomorphic to a manifold of the dynamical system, and has a significantly lower dimension than the raw data. To handle high-dimensional time series data, Takens's time delay embedding is presented as a pre-processing technique. The paper concludes by presenting examples of these techniques in action.
翻訳日:2023-06-09 14:06:56 公開日:2023-06-08
# 線形閾値関数のためのブースティングに基づくBDDの構築とニューラルネットワークの検証への応用

Boosting-based Construction of BDDs for Linear Threshold Functions and Its Application to Verification of Neural Networks ( http://arxiv.org/abs/2306.05211v1 )

ライセンス: Link先を確認
Yiping Tang, Kohei Hatano, Eiji Takimoto(参考訳) ニューラルネットワークの特徴を理解することは重要であるが、複雑な構造や振る舞いのために難しい。 従来の研究では、ニューラルネットワークを等価ブール表現に変換し、興味のある特性に検証技術を適用することを提案した。 このアプローチは、回路や他のブール式に対する検証技術の豊富な結果が容易に適用できるため、有望である。 ボトルネックは、トランスフォーメーションの時間的複雑性です。 より正確には (i)ネットワークの各ニューロン、すなわち線形しきい値関数は、バイナリ決定図(bdd)に変換され、 (ii)さらにブール回路などいくつかの最終形式に結合される。 n$変数を持つ線形しきい値関数に対して、既存のメソッドは$o(n2^{\frac{n}{2}})$を使って、いくつかの変数順序付けと一致するサイズ$o(2^{\frac{n}{2}})$の順序付けbddを構築する。 しかし、$nの中で小さなBDDを生み出す変数の順序を選択するのは簡単ではない。 候補者は$ 本稿では,機械学習の文献における強化アプローチに基づいて,線形しきい値関数をBDDの特定の形式に変換する手法を提案する。 この方法では、$o(2^n \text{poly}(1/\rho))$の時間をとり、サイズ$o(\frac{n^2}{\rho^4}\ln{\frac{1}{\rho}})$のbddを出力する。 本手法では,線形しきい値関数のマージンが大きい場合には,良好な変数順序を求める必要はなく,より少ない式を生成する。 より正確には、我々の新しいブースティングアルゴリズムに基づいており、これは独立した関心事である。 また,これらをニューラルネットワークを表す最後のブール式に結合する手法を提案する。

Understanding the characteristics of neural networks is important but difficult due to their complex structures and behaviors. Some previous work proposes to transform neural networks into equivalent Boolean expressions and apply verification techniques for characteristics of interest. This approach is promising since rich results of verification techniques for circuits and other Boolean expressions can be readily applied. The bottleneck is the time complexity of the transformation. More precisely, (i) each neuron of the network, i.e., a linear threshold function, is converted to a Binary Decision Diagram (BDD), and (ii) they are further combined into some final form, such as Boolean circuits. For a linear threshold function with $n$ variables, an existing method takes $O(n2^{\frac{n}{2}})$ time to construct an ordered BDD of size $O(2^{\frac{n}{2}})$ consistent with some variable ordering. However, it is non-trivial to choose a variable ordering producing a small BDD among $n!$ candidates. We propose a method to convert a linear threshold function to a specific form of a BDD based on the boosting approach in the machine learning literature. Our method takes $O(2^n \text{poly}(1/\rho))$ time and outputs BDD of size $O(\frac{n^2}{\rho^4}\ln{\frac{1}{\rho}})$, where $\rho$ is the margin of some consistent linear threshold function. Our method does not need to search for good variable orderings and produces a smaller expression when the margin of the linear threshold function is large. More precisely, our method is based on our new boosting algorithm, which is of independent interest. We also propose a method to combine them into the final Boolean expression representing the neural network.
翻訳日:2023-06-09 14:06:44 公開日:2023-06-08
# PriSampler:拡散モデルの特性推定の軽減

PriSampler: Mitigating Property Inference of Diffusion Models ( http://arxiv.org/abs/2306.05208v1 )

ライセンス: Link先を確認
Hailong Hu, Jun Pang(参考訳) 拡散モデルはデータ合成において著しく成功している。 このような成功は、人間の顔データのような繊細なデータに適用するための拡散モデルも引き起こしているが、これは深刻なプライバシー上の懸念を引き起こす可能性がある。 本研究では,拡散モデルに対する資産推測攻撃に関する最初のプライバシ研究を体系的に提示し,特定の感度特性に対するトレーニングデータの比率など,拡散モデルからトレーニングセットのセンシティブなグローバルな特性を抽出することを目的とした。 具体的には、最も実用的な攻撃シナリオを検討し、敵は合成データのみを得ることができる。 この現実的なシナリオでは、異なる種類のサンプルおよび拡散モデルに対する特性推定攻撃を評価する。 幅広い評価により、様々な拡散モデルとそのサンプルは、全て特性推論攻撃に弱いことが示されている。 さらに, 既設の事前学習拡散モデルを用いた実験により, 攻撃効果が実証された。 最後に,拡散モデルの特性推論を緩和する新しいモデル非依存プラグインメソッドprisamplerを提案する。 プリサンプラーはよく訓練された拡散モデルに直接適用でき、確率的および決定論的サンプリングの両方をサポートする。 広範な実験により、我々の防御の有効性が示され、敵はランダムな推測と同じくらい近い特性の比率を推測する。 PriSamplerはまた、モデルユーティリティとディフェンスパフォーマンスの両方で差分プライバシでトレーニングされた拡散モデルよりもはるかに優れたパフォーマンスを示している。

Diffusion models have been remarkably successful in data synthesis. Such successes have also driven diffusion models to apply to sensitive data, such as human face data, but this might bring about severe privacy concerns. In this work, we systematically present the first privacy study about property inference attacks against diffusion models, in which adversaries aim to extract sensitive global properties of the training set from a diffusion model, such as the proportion of the training data for certain sensitive properties. Specifically, we consider the most practical attack scenario: adversaries are only allowed to obtain synthetic data. Under this realistic scenario, we evaluate the property inference attacks on different types of samplers and diffusion models. A broad range of evaluations shows that various diffusion models and their samplers are all vulnerable to property inference attacks. Furthermore, one case study on off-the-shelf pre-trained diffusion models also demonstrates the effectiveness of the attack in practice. Finally, we propose a new model-agnostic plug-in method PriSampler to mitigate the property inference of diffusion models. PriSampler can be directly applied to well-trained diffusion models and support both stochastic and deterministic sampling. Extensive experiments illustrate the effectiveness of our defense and it makes adversaries infer the proportion of properties as close as random guesses. PriSampler also shows its significantly superior performance to diffusion models trained with differential privacy on both model utility and defense performance.
翻訳日:2023-06-09 14:06:11 公開日:2023-06-08
# qupit stabiliser zx-travaganza:単純公理、正規形、グラフ理論的単純化

The Qupit Stabiliser ZX-travaganza: Simplified Axioms, Normal Forms and Graph-Theoretic Simplification ( http://arxiv.org/abs/2306.05204v1 )

ライセンス: Link先を確認
Boldizs\'ar Po\'or, Robert I. Booth, Titouan Carette, John van de Wetering, Lia Yeh(参考訳) 奇素次元立方体(すなわち、qupits)に対する安定化器 ZX-計算に多くの結果を示す。 我々は、qubit zx-calculus の元の規則によく似た簡素な規則集合を導出する。 これらのルールを用いて,スパイダー除去した局所補間とピボット規則の類似性を示す。 これにより、位相正規形式を持つアフィンへのダイアグラムの効率的な還元が可能となる。 我々はまた、一意な形式への還元を示し、完全性の代替的でより単純な証明を提供する。 さらに,局所クリフォード正規形とグラフ状態の異なる還元を導入することにより,qupit cliffordユニタリの新たな階層分解を実現する。 さらに,スカラーを形式的に扱うための新しい手法を提案する。 最後に、これらの発見をqudit ZX-diagrammatic reasoningのためのオープンソースのPythonライブラリであるDiZXに実装した。

We present a smorgasbord of results on the stabiliser ZX-calculus for odd prime-dimensional qudits (i.e. qupits). We derive a simplified rule set that closely resembles the original rules of qubit ZX-calculus. Using these rules, we demonstrate analogues of the spider-removing local complementation and pivoting rules. This allows for efficient reduction of diagrams to the affine with phases normal form. We also demonstrate a reduction to a unique form, providing an alternative and simpler proof of completeness. Furthermore, we introduce a different reduction to the graph state with local Cliffords normal form, which leads to a novel layered decomposition for qupit Clifford unitaries. Additionally, we propose a new approach to handle scalars formally, closely reflecting their practical usage. Finally, we have implemented many of these findings in DiZX, a new open-source Python library for qudit ZX-diagrammatic reasoning.
翻訳日:2023-06-09 14:05:49 公開日:2023-06-08
# クビットペア状態のステアリング測定設定の階層化の深層学習

Deep learning the hierarchy of steering measurement settings of qubit-pair states ( http://arxiv.org/abs/2306.05201v1 )

ライセンス: Link先を確認
Hong-Ming Wang, Huan-Yu Ku, Jie-Yien Lin, and Hong-Bin Chen(参考訳) 量子ステアリングは、その基本的な重要性と量子情報科学への応用により、研究の注目を集めている。 集合体の操舵性の評価は確立されていないが、あらゆる不整合性測定に対して不整合性最適化を行うため、任意のキュービットペア状態であっても、どのように操舵性を検出するかは定かではない。 ここでは、深層学習モデルのパワーを活用して、ステアリング測定設定の階層を推定する。 一方、最適化を克服するために反復テストからなる計算プロトコルを構築し、必要なトレーニングデータを生成する。 認識すべき状態を符号化する異なる物理駆動的特徴に対するよく訓練されたモデルの反応によると、Alice-to-Bob ステアビリティの最もコンパクトな特徴は、アリスの規則的に整列した操舵楕円体である。 さらに、我々のアプローチは量子ステアリングの階層構造に関するさらなる洞察を明らかにし、隠れたステアビリティを検出できる。

Quantum steering has attracted increasing research attention because of its fundamental importance, as well as its applications in quantum information science. Regardless of the well-established characterization of the steerability of assemblages, it remains unclear how to detect the degree of steerability even for an arbitrary qubit-pair state due to the cumbersome optimization over all possible incompatible measurements. Here we leverage the power of the deep learning models to infer the hierarchy of steering measurement setting. A computational protocol consisting of iterative tests is constructed to overcome the optimization, meanwhile, generating the necessary training data. According to the responses of the well-trained models to the different physics-driven features encoding the states to be recognized, we can conclude that the most compact characterization of the Alice-to-Bob steerability is Alice's regularly aligned steering ellipsoid; whereas Bob's ellipsoid is irrelevant. Additionally, our approach is versatile in revealing further insights into the hierarchical structure of quantum steering and detecting the hidden steerability.
翻訳日:2023-06-09 14:05:32 公開日:2023-06-08
# 超強結合超伝導量子回路における仮想光子の集積変換と光検出

Integrated conversion and photodetection of virtual photons in an ultrastrongly coupled superconducting quantum circuit ( http://arxiv.org/abs/2306.05200v1 )

ライセンス: Link先を確認
Luigi Giannelli, Giorgio Anfuso, Miroslav Grajcar, Gheorghe Sorin Paraoanu, Elisabetta Paladino, and Giuseppe Falci(参考訳) 量子化されたモードに超強結合された人工原子の基底状態は絡み合い、任意の数の仮想光子を含む。 彼らの発見の問題は、フィールドの誕生以来提起されてきたが、理論的な努力にもかかわらず、まだ実験的なデモンストレーションを待っている。 近年, 人工原子の非従来型設計と高度なコヒーレント制御を組み合わせることで, 克服可能であることを示す実験的問題に対処している。 本研究では,最先端の量子技術で仮想光子の非あいまいな検出を実現することができることを示す,測定効率とバックアクションのトレードオフを著しく好む制御統合連続計測の簡単なスキームについて検討する。

The ground-state of an artificial atom ultrastrongly coupled to quantized modes is entangled thus it contains an arbitrary number of virtual photons. The problem of their detection has been raised since the very birth of the field but despite the theoretical efforts still awaits experimental demonstration. Recently experimental problems have been addressed in detail showing that they can be overcome by combining an unconventional design of the artificial atom with advanced coherent control. In this work we study a simple scheme of control-integrated continuous measurement which makes remarkably favourable the tradeoff between measurement efficiency and backaction showing that the unambiguous detection of virtual photons can be achieved within state-of-the art quantum technologies.
翻訳日:2023-06-09 14:05:08 公開日:2023-06-08
# 無臭オートエンコーダ

Unscented Autoencoder ( http://arxiv.org/abs/2306.05256v1 )

ライセンス: Link先を確認
Faris Janjo\v{s}, Lars Rosenbaum, Maxim Dolgov, J. Marius Z\"ollner(参考訳) 変分オートエンコーダ(VAE)は、潜伏変数を用いた深部生成モデリングにおける基礎的なアプローチである。 その再構成過程を潜伏後方分布からのサンプルの非線形変換として解釈し、フィルタの分野から非香水カルマンフィルタ (ukf) で用いられるよく知られた分布近似である非香水変換 (ut) を適用する。 決定論的にサンプリングされたシグマ点と呼ばれる有限の統計群は、再パラメータ化トリックのユビキタスなノイズスケーリングよりも、より情報的かつ低分散な後方表現を提供し、高品質な再構築を保証している。 さらに,KL(Kullback-Leibler)の偏差をワッサーシュタイン分布測定値に置き換えることで,よりシャープな後部化を実現する。 両成分に着想を得て,VAE (Unscented Autoencoder, UAE) の新規な決定論的サンプリングフレーバーを作成した。 本研究では,近縁モデルに対するfr\'echetインセプション距離(fid)得点の競合性を示すとともに,vaeよりも低いトレーニング分散を示す。

The Variational Autoencoder (VAE) is a seminal approach in deep generative modeling with latent variables. Interpreting its reconstruction process as a nonlinear transformation of samples from the latent posterior distribution, we apply the Unscented Transform (UT) -- a well-known distribution approximation used in the Unscented Kalman Filter (UKF) from the field of filtering. A finite set of statistics called sigma points, sampled deterministically, provides a more informative and lower-variance posterior representation than the ubiquitous noise-scaling of the reparameterization trick, while ensuring higher-quality reconstruction. We further boost the performance by replacing the Kullback-Leibler (KL) divergence with the Wasserstein distribution metric that allows for a sharper posterior. Inspired by the two components, we derive a novel, deterministic-sampling flavor of the VAE, the Unscented Autoencoder (UAE), trained purely with regularization-like terms on the per-sample posterior. We empirically show competitive performance in Fr\'echet Inception Distance (FID) scores over closely-related models, in addition to a lower training variance than the VAE.
翻訳日:2023-06-09 13:58:54 公開日:2023-06-08
# 教師なし領域適応による外傷性脳損傷検出のためのより正確で汎用的な脳変形推定装置の開発

Toward more accurate and generalizable brain deformation estimators for traumatic brain injury detection with unsupervised domain adaptation ( http://arxiv.org/abs/2306.05255v1 )

ライセンス: Link先を確認
Xianghao Zhan, Jiawei Sun, Yuzhe Liu, Nicholas J. Cecchi, Enora Le Flao, Olivier Gevaert, Michael M. Zeineh, David B. Camarillo(参考訳) 外傷性脳損傷(tbi)早期検出のための脳変形を推定するために,機械学習ヘッドモデル(mlhms)を開発した。 しかし、シミュレーションによる影響の過剰と、異なる頭部衝撃データセットの分布シフトによる一般化性の欠如は、現在のmlhmsの広範な臨床応用を妨げる。 本稿では,教師なし領域適応を深層ニューラルネットワークに統合し,全脳最大主ひずみ(MPS)とMPS速度(MPSR)を予測する脳変形推定器を提案する。 12,780個の頭部衝撃を模擬し,302個のカレッジフットボール(CF)衝撃と457個の複合格闘技(MMA)衝撃を,ドメイン正規化成分分析(DRCA)およびサイクルGAN法を用いて非教師なし領域適応を行った。 新しいモデルでは,MPS/MPSR推定精度が向上し,DRCA法は予測精度において他の領域適応法よりも有意に向上した(p<0.001),MPS RMSE:0.027(CF),0.037(MMA),MPSR RMSE:7.159(CF),13.022(MMA)。 また,大学サッカーの195点,ボクシングの260点を含む2つのホールドアウトテストセットにおいて,DRCAモデルはMPSおよびMPSR推定精度において,ドメイン適応を伴わないベースラインモデルよりも有意に優れていた(p<0.001)。 DRCAドメイン適応は、MPS/MPSR推定誤差をTBI閾値よりかなり低くし、将来の臨床応用において正確な脳の変形推定を可能にする。

Machine learning head models (MLHMs) are developed to estimate brain deformation for early detection of traumatic brain injury (TBI). However, the overfitting to simulated impacts and the lack of generalizability caused by distributional shift of different head impact datasets hinders the broad clinical applications of current MLHMs. We propose brain deformation estimators that integrates unsupervised domain adaptation with a deep neural network to predict whole-brain maximum principal strain (MPS) and MPS rate (MPSR). With 12,780 simulated head impacts, we performed unsupervised domain adaptation on on-field head impacts from 302 college football (CF) impacts and 457 mixed martial arts (MMA) impacts using domain regularized component analysis (DRCA) and cycle-GAN-based methods. The new model improved the MPS/MPSR estimation accuracy, with the DRCA method significantly outperforming other domain adaptation methods in prediction accuracy (p<0.001): MPS RMSE: 0.027 (CF) and 0.037 (MMA); MPSR RMSE: 7.159 (CF) and 13.022 (MMA). On another two hold-out test sets with 195 college football impacts and 260 boxing impacts, the DRCA model significantly outperformed the baseline model without domain adaptation in MPS and MPSR estimation accuracy (p<0.001). The DRCA domain adaptation reduces the MPS/MPSR estimation error to be well below TBI thresholds, enabling accurate brain deformation estimation to detect TBI in future clinical applications.
翻訳日:2023-06-09 13:58:18 公開日:2023-06-08
# Devil is in Channels: Contrastive Single Domain Generalization for Medical Image Segmentation

Devil is in Channels: Contrastive Single Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2306.05254v1 )

ライセンス: Link先を確認
Shishuai Hu, Zehui Liao, Yong Xia(参考訳) ディープラーニングベースの医療画像セグメンテーションモデルは、新しい医療センターにデプロイするとパフォーマンスが低下する。 この問題に対処するために,非教師なしドメイン適応法やマルチソースドメイン一般化法が提案されているが,ターゲットドメインデータの取得コストや,複数のソースドメインからのデータの再配布に伴うプライバシ上の懸念から,臨床実践にはあまり好ましくない。 本稿では,医療画像のセグメンテーションのための<textbf{C}hannel-level \textbf{C}ontrastive \textbf{S}ingle \textbf{D}omain \textbf{G}eneralization (\textbf{C$^2$SDG})モデルを提案する。 c$^2$sdgでは、各画像とそのスタイル指定された画像の浅い特徴を抽出し、対比訓練に使用し、不連続なスタイル表現と構造表現を生成する。 セグメント化は構造表現のみに基づいて実行される。 本手法は,単一のソースドメインを用いたチャネル間特徴の絡み合いを可能にする,コントラスト的な観点では斬新である。 c$^2$sdgを6つのsdg法に対してマルチドメイン合同光学カップと光ディスクセグメンテーションベンチマークで評価した。 この結果から, C$^2$SDGにおける各モジュールの有効性が示唆され, また, C$^2$SDGがベースラインおよび競合するすべてのメソッドよりも大きなマージンを持つことを示す。 コードは \url{https://github.com/ShishuaiHu/CCSDG} で入手できる。

Deep learning-based medical image segmentation models suffer from performance degradation when deployed to a new healthcare center. To address this issue, unsupervised domain adaptation and multi-source domain generalization methods have been proposed, which, however, are less favorable for clinical practice due to the cost of acquiring target-domain data and the privacy concerns associated with redistributing the data from multiple source domains. In this paper, we propose a \textbf{C}hannel-level \textbf{C}ontrastive \textbf{S}ingle \textbf{D}omain \textbf{G}eneralization (\textbf{C$^2$SDG}) model for medical image segmentation. In C$^2$SDG, the shallower features of each image and its style-augmented counterpart are extracted and used for contrastive training, resulting in the disentangled style representations and structure representations. The segmentation is performed based solely on the structure representations. Our method is novel in the contrastive perspective that enables channel-wise feature disentanglement using a single source domain. We evaluated C$^2$SDG against six SDG methods on a multi-domain joint optic cup and optic disc segmentation benchmark. Our results suggest the effectiveness of each module in C$^2$SDG and also indicate that C$^2$SDG outperforms the baseline and all competing methods with a large margin. The code will be available at \url{https://github.com/ShishuaiHu/CCSDG}.
翻訳日:2023-06-09 13:57:21 公開日:2023-06-08
# グラフ上の逆問題に対する量子計算アルゴリズムとNP完全逆問題

Quantum computing algorithms for inverse problems on graphs and an NP-complete inverse problem ( http://arxiv.org/abs/2306.05253v1 )

ライセンス: Link先を確認
Joonas Ilmavirta, Matti Lassas, Jinpeng Lu, Lauri Oksanen, Lauri Ylinen(参考訳) 有限グラフ $(x,e)$ の逆問題を考えると、頂点 $b\subset x$ の部分集合と距離 $d_{(x,e)}(b_1,b_2)$ のすべての頂点 $b_1,b_2\in b$ が与えられる。 点距離$x_1,x_2\in X$ は、2つの頂点を結ぶのに必要なエッジの最小数として定義される。 逆問題(英: inverse problem)とは、リーマン幾何学における境界剛性問題や地球物理学における逆旅行時間問題の離散版である。 この問題には特定の条件下でのユニークな解法があることを示し、それを解決するための量子コンピューティング手法を開発する。 例えば、$(x,e)$ が木であり、$b$ が木の葉の集合であるとき、グラフ $(x,e)$ は、一定の数の頂点を持つすべてのグラフのクラスにおいて一意的に決定できる。 グラフ$(X,E)$,あるいはそれらのうちの1つを生成する量子計算アルゴリズムについて,与えられた頂点数と頂点間の所要距離を$B$で表現する。 そこで我々はグラフの量子ビット表現を取り込んでグローバーの探索アルゴリズムと組み合わせるアルゴリズムを開発した。 このアルゴリズムは$O(|X|^2)$ qubitsだけで実装できるが、これは隣接行列の$(X,E)$の要素の数と同じ順序である。 また、従来のアルゴリズムに比べて計算コストが2倍に向上している。 最後に、計算理論の応用を考察し、上述の逆問題に対する若干の修正がNP完全であることを示し、全てのNPプロブレムを離散逆問題に還元することができる。

We consider an inverse problem for a finite graph $(X,E)$ where we are given a subset of vertices $B\subset X$ and the distances $d_{(X,E)}(b_1,b_2)$ of all vertices $b_1,b_2\in B$. The distance of points $x_1,x_2\in X$ is defined as the minimal number of edges needed to connect two vertices, so all edges have length 1. The inverse problem is a discrete version of the boundary rigidity problem in Riemannian geometry or the inverse travel time problem in geophysics. We will show that this problem has unique solution under certain conditions and develop quantum computing methods to solve it. We prove the following uniqueness result: when $(X,E)$ is a tree and $B$ is the set of leaves of the tree, the graph $(X,E)$ can be uniquely determined in the class of all graphs having a fixed number of vertices. We present a quantum computing algorithm which produces a graph $(X,E)$, or one of those, which has a given number of vertices and the required distances between vertices in $B$. To this end we develop an algorithm that takes in a qubit representation of a graph and combine it with Grover's search algorithm. The algorithm can be implemented using only $O(|X|^2)$ qubits, the same order as the number of elements in the adjacency matrix of $(X,E)$. It also has a quadratic improvement in computational cost compared to standard classical algorithms. Finally, we consider applications in theory of computation, and show that a slight modification of the above inverse problem is NP-complete: all NP-problems can be reduced to a discrete inverse problem we consider.
翻訳日:2023-06-09 13:56:52 公開日:2023-06-08
# アナログバウンシング幾何学からのホーキング放射

Hawking radiation from an analogue bouncing geometry ( http://arxiv.org/abs/2306.05250v1 )

ライセンス: Link先を確認
Alberto Garc\'ia Mart\'in-Caro, Gerardo Garc\'ia-Moreno, Javier Olmedo, Jose M. S\'anchez Vel\'azquez(参考訳) 本研究では, 超伝導量子干渉素子で終端した共平面導波路からなる構成において, アナログバウンシング幾何からのホーキング放射をシミュレートする設定, すなわち, 有限時間後に崩壊を回復する崩壊幾何を提案する。 現在の技術における提案手法の有効性を実証する。 我々の分析は、ブラックホールの通常の代替物質がホーキング放射を放出するという考えを裏付ける、エネルギーの物理学的な変化によるホーキング放射の弾力性が温度よりもずっと大きいことを示しています。

We propose a setting that simulates Hawking radiation from an analogue bouncing geometry, i.e., a collapsing geometry that reverts its collapse after a finite time, in a setup consisting of a coplanar waveguide terminated in superconducting quantum-interference devices at both ends. We demonstrate experimental feasibility of the proposed setup within the current technology. Our analysis illustrates the resilience of Hawking radiation under changes in the physics at energy scales much larger than the temperature, supporting the idea that regular alternatives to black holes would also emit Hawking radiation.
翻訳日:2023-06-09 13:56:20 公開日:2023-06-08
# Mesh-MLP: メッシュ分類とセマンティックセグメンテーションのためのオールMLPアーキテクチャ

Mesh-MLP: An all-MLP Architecture for Mesh Classification and Semantic Segmentation ( http://arxiv.org/abs/2306.05246v1 )

ライセンス: Link先を確認
Qiujie Dong, Rui Xu, Xiaoran Gong, Zixiong Wang, Shuangmin Chen, Shiqing Xin, Changhe Tu(参考訳) 幾何学的深層学習技術の急速な発展に伴い、不規則なメッシュ構造や一般的なバックボーンネットワークを橋渡しするメッシュベースの畳み込み演算子が多数提案されている。 本稿では、畳み込みは有用であるが、マルチ層パーセプトロン(MLP)のみに基づく単純なアーキテクチャは、メッシュ分類とセマンティックセグメンテーションを扱うのに十分であることを示す。 新しいネットワークアーキテクチャである mesh-mlp では,熱核シグネチャ (hks) と二面体角 (dihedral angles) を備えたメッシュ頂点を入力とし,resnet の畳み込みモジュールを多層パーセプトロン (mlp) に置き換え,層正規化 (ln) をレイヤの正規化に利用する。 オールMLPアーキテクチャはエンドツーエンドで動作し、プールモジュールは含まない。 メッシュ分類/セグメンテーションタスクに関する大規模な実験結果により、全MLPアーキテクチャの有効性が検証された。

With the rapid development of geometric deep learning techniques, many mesh-based convolutional operators have been proposed to bridge irregular mesh structures and popular backbone networks. In this paper, we show that while convolutions are helpful, a simple architecture based exclusively on multi-layer perceptrons (MLPs) is competent enough to deal with mesh classification and semantic segmentation. Our new network architecture, named Mesh-MLP, takes mesh vertices equipped with the heat kernel signature (HKS) and dihedral angles as the input, replaces the convolution module of a ResNet with Multi-layer Perceptron (MLP), and utilizes layer normalization (LN) to perform the normalization of the layers. The all-MLP architecture operates in an end-to-end fashion and does not include a pooling module. Extensive experimental results on the mesh classification/segmentation tasks validate the effectiveness of the all-MLP architecture.
翻訳日:2023-06-09 13:56:09 公開日:2023-06-08
# 音声テキストに基づくキーワードスポッティングのためのマッチング潜時符号化

Matching Latent Encoding for Audio-Text based Keyword Spotting ( http://arxiv.org/abs/2306.05245v1 )

ライセンス: Link先を確認
Kumari Nishu, Minsik Cho, Devang Naik(参考訳) キーワードスポッティング(KWS)に音声とテキストの埋め込みを併用すると、高品質な結果が得られるが、シーケンス長の異なる複数ワードキーワードに対して2つの埋め込みを意味的に整合させるという重要な課題はほとんど解決されていない。 本稿では,学習音声とテキストの埋め込みに基づくフレキシブルキーワードスポッティング(KWS)のための,音声テキストに基づくエンドツーエンドモデルアーキテクチャを提案する。 我々のアーキテクチャは、動的プログラミングに基づく新しいアルゴリズムである動的シーケンス分割(DSP)を用いて、音声コンテンツの単調アライメントを用いて、音声シーケンスを単語ベースのテキストシーケンスと同じ長さに最適に分割する。 提案モデルは,音声とテキストの埋め込みを得るエンコーダブロックと,個々の埋め込みを共通の潜在空間に投影するプロジェクタブロックと,音声とテキストの埋め込みを整合させ,音声コンテンツがテキストと同一かどうかを判定する新しいdspアルゴリズムを含むオーディオテキストアライナーで構成されている。 実験の結果, DSPは他の分割方式よりも有効であることが示され, 提案したアーキテクチャは, ROC曲線(AUC)とEER(Equal-Error-Rate)をそれぞれ14.4%, 28.9%向上させた。

Using audio and text embeddings jointly for Keyword Spotting (KWS) has shown high-quality results, but the key challenge of how to semantically align two embeddings for multi-word keywords of different sequence lengths remains largely unsolved. In this paper, we propose an audio-text-based end-to-end model architecture for flexible keyword spotting (KWS), which builds upon learned audio and text embeddings. Our architecture uses a novel dynamic programming-based algorithm, Dynamic Sequence Partitioning (DSP), to optimally partition the audio sequence into the same length as the word-based text sequence using the monotonic alignment of spoken content. Our proposed model consists of an encoder block to get audio and text embeddings, a projector block to project individual embeddings to a common latent space, and an audio-text aligner containing a novel DSP algorithm, which aligns the audio and text embeddings to determine if the spoken content is the same as the text. Experimental results show that our DSP is more effective than other partitioning schemes, and the proposed architecture outperformed the state-of-the-art results on the public dataset in terms of Area Under the ROC Curve (AUC) and Equal-Error-Rate (EER) by 14.4 % and 28.9%, respectively.
翻訳日:2023-06-09 13:55:48 公開日:2023-06-08
# RGB-D変換器を用いたマルチタスクシーン解析

Efficient Multi-Task Scene Analysis with RGB-D Transformers ( http://arxiv.org/abs/2306.05242v1 )

ライセンス: Link先を確認
S\"ohnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, and Horst-Michael Gross(参考訳) シーン分析は、移動ロボットのような自律システムが現実世界の環境で動作できるようにするのに不可欠である。 しかし、シーンの包括的理解を得るには、パンオプティカルセグメンテーション、インスタンス指向推定、シーン分類といった複数のタスクを解決する必要がある。 モバイルプラットフォーム上でのコンピューティングとバッテリの機能に制限のあるタスクの解決は難しい。 この課題に対処するために,RGB-D Transformer を用いたエンコーダを用いた,EMSAFormer と呼ばれる効率的なマルチタスクシーン解析手法を提案する。 我々のアプローチは、以前に公開されたemsanetに基づいている。 しかし、EMSANetの2つのCNNベースのエンコーダは、1つのTransformerベースのエンコーダに置き換えることができる。 そこで本研究では,RGBデータと深度データの両方の情報を,単一のエンコーダに効果的に組み込む方法について検討する。 ロボットハードウェアの推論を高速化するために、EMSAFormerアプローチの高度に最適化可能なNVIDIA TensorRT拡張を提供する。 一般的な屋内データセットであるNYUv2、SUNRGB-D、ScanNetに関する広範な実験を通じて、当社のアプローチは最先端のパフォーマンスを実現しつつ、NVIDIA Jetson AGX Orin 32GB上で39.1 FPSの推論を可能にしていることを示す。

Scene analysis is essential for enabling autonomous systems, such as mobile robots, to operate in real-world environments. However, obtaining a comprehensive understanding of the scene requires solving multiple tasks, such as panoptic segmentation, instance orientation estimation, and scene classification. Solving these tasks given limited computing and battery capabilities on mobile platforms is challenging. To address this challenge, we introduce an efficient multi-task scene analysis approach, called EMSAFormer, that uses an RGB-D Transformer-based encoder to simultaneously perform the aforementioned tasks. Our approach builds upon the previously published EMSANet. However, we show that the dual CNN-based encoder of EMSANet can be replaced with a single Transformer-based encoder. To achieve this, we investigate how information from both RGB and depth data can be effectively incorporated in a single encoder. To accelerate inference on robotic hardware, we provide a custom NVIDIA TensorRT extension enabling highly optimization for our EMSAFormer approach. Through extensive experiments on the commonly used indoor datasets NYUv2, SUNRGB-D, and ScanNet, we show that our approach achieves state-of-the-art performance while still enabling inference with up to 39.1 FPS on an NVIDIA Jetson AGX Orin 32 GB.
翻訳日:2023-06-09 13:55:20 公開日:2023-06-08
# マルチモーダルNLPにおける意味的不特定化によるディーリング

Dealing with Semantic Underspecification in Multimodal NLP ( http://arxiv.org/abs/2306.05240v1 )

ライセンス: Link先を確認
Sandro Pezzelle(参考訳) 人間として言語をマスターすることを目指す知的システムは、その意味的下位特定、すなわち、言語信号がコミュニケーションの成功に必要な情報の一部を伝達する可能性に対処しなければならない。 代名詞の用法を考えると、その代名詞は、その代名詞の性別と番号を未特定のまま残すことができる。 セマンティクスのアンダーシグメンテーションはバグではなく、そのストレージと処理効率を高める重要な言語機能である。 実際、人間の話者は、多様文脈、社会的・文化的慣習、共有知識など、意味論的に認識された言語信号と幅広い非言語的情報とを迅速かつ無力に統合することができる。 標準的なnlpモデルは、原則としてそのような追加情報にアクセスできないか制限されていないが、マルチモーダルシステムは言語を視覚のような他のモダリティに接地し、自然にこの現象を考慮に入れている。 しかし、パフォーマンスに悪影響を及ぼし、アプリケーションに使用すると有害な結果をもたらす可能性がある。 本論文では,人間ユーザとの対話を成功させる言語技術開発を目指す場合,コミュニティは意味的不特定を意識すべきである,と論じる。 我々は、それをマスターすることが重要であるアプリケーションについて議論し、この目標を達成するためのいくつかの方向について概説する。

Intelligent systems that aim at mastering language as humans do must deal with its semantic underspecification, namely, the possibility for a linguistic signal to convey only part of the information needed for communication to succeed. Consider the usages of the pronoun they, which can leave the gender and number of its referent(s) underspecified. Semantic underspecification is not a bug but a crucial language feature that boosts its storage and processing efficiency. Indeed, human speakers can quickly and effortlessly integrate semantically-underspecified linguistic signals with a wide range of non-linguistic information, e.g., the multimodal context, social or cultural conventions, and shared knowledge. Standard NLP models have, in principle, no or limited access to such extra information, while multimodal systems grounding language into other modalities, such as vision, are naturally equipped to account for this phenomenon. However, we show that they struggle with it, which could negatively affect their performance and lead to harmful consequences when used for applications. In this position paper, we argue that our community should be aware of semantic underspecification if it aims to develop language technology that can successfully interact with human users. We discuss some applications where mastering it is crucial and outline a few directions toward achieving this goal.
翻訳日:2023-06-09 13:54:54 公開日:2023-06-08
# イベントストリームに基づく認識のためのポイントボクセル吸収グラフ表現学習

Point-Voxel Absorbing Graph Representation Learning for Event Stream based Recognition ( http://arxiv.org/abs/2306.05239v1 )

ライセンス: Link先を確認
Bo Jiang, Chengguo Yuan, Xiao Wang, Zhimin Bao, Lin Zhu, Bin Luo(参考訳) 性能と効率のバランスを考えると、サンプリングされた点とボクセル法は、通常、密度の高いイベントをスパースにダウンサンプルするために使用される。 その後の一般的な方法は、スパースポイント/ボクセルをノードとして扱い、グラフニューラルネットワーク(GNN)を採用してイベントデータの表現を学ぶグラフモデルを活用することである。 しかし、性能は良好であるが、主に2つの問題により結果が制限されている。 1) 既存のイベントGNNは一般に、すべてのノード埋め込みをイベントデータ表現全体のグラフレベル表現にまとめるために、追加の最大値(または平均値)プーリング層を採用しています。 しかし、このアプローチはグラフノードの重要性を捉えることができず、ノード表現を完全に認識することができない。 (2) 既存の手法では一般にスパースポイントまたはボクセルグラフ表現モデルを用いるため、これらの2種類の表現モデル間の相補性を考慮しない。 本稿では,これらの問題に対処するために,イベントストリームデータ表現のためのグラフ表現学習を行う2点ボクセルを提案する。 具体的には、入力イベントストリームを前提として、まずスパースイベントクラウドとボクセルグリッドに変換し、それぞれに二重吸収グラフモデルを構築する。 次に,二重吸収グラフ表現と学習のための新しい吸収型グラフ畳み込みネットワーク(agcn)を設計する。 提案したAGCNの重要な側面は、ノードの重要性を効果的に捉え、導入した吸収ノードを通して全てのノード表現を要約するノード表現を十分に認識する能力である。 最後に、二重学習枝のイベント表現を連結して、2つのキューの補完情報を抽出する。 出力は、イベントデータ分類のために線形層に供給される。

Considering the balance of performance and efficiency, sampled point and voxel methods are usually employed to down-sample dense events into sparse ones. After that, one popular way is to leverage a graph model which treats the sparse points/voxels as nodes and adopts graph neural networks (GNNs) to learn the representation for event data. Although good performance can be obtained, however, their results are still limited mainly due to two issues. (1) Existing event GNNs generally adopt the additional max (or mean) pooling layer to summarize all node embeddings into a single graph-level representation for the whole event data representation. However, this approach fails to capture the importance of graph nodes and also fails to be fully aware of the node representations. (2) Existing methods generally employ either a sparse point or voxel graph representation model which thus lacks consideration of the complementary between these two types of representation models. To address these issues, in this paper, we propose a novel dual point-voxel absorbing graph representation learning for event stream data representation. To be specific, given the input event stream, we first transform it into the sparse event cloud and voxel grids and build dual absorbing graph models for them respectively. Then, we design a novel absorbing graph convolutional network (AGCN) for our dual absorbing graph representation and learning. The key aspect of the proposed AGCN is its ability to effectively capture the importance of nodes and thus be fully aware of node representations in summarizing all node representations through the introduced absorbing nodes. Finally, the event representations of dual learning branches are concatenated together to extract the complementary information of two cues. The output is then fed into a linear layer for event data classification.
翻訳日:2023-06-09 13:54:30 公開日:2023-06-08
# シンプルで制御可能な音楽生成

Simple and Controllable Music Generation ( http://arxiv.org/abs/2306.05284v1 )

ライセンス: Link先を確認
Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre D\'efossez(参考訳) 我々は条件付き音楽生成の課題に取り組む。 我々は,圧縮された離散的音楽表現,すなわちトークンのストリームを運用する単一言語モデル (lm) である musicgen を紹介する。 以前の作業とは異なり、MusicGenはシングルステージトランスフォーマーLMと効率的なトークンインターリーブパターンで構成されており、階層化やアップサンプリングといったいくつかのモデルをカスケードする必要がなくなる。 このアプローチに従うと,MusicGenはテキスト記述やメロディック機能で条件付きで高品質なサンプルを生成することができ,生成した出力の制御性が向上することを示す。 提案手法が標準テキストから音楽へのベンチマークで評価されたベースラインよりも優れていることを示す。 アブレーション研究を通じて,MusicGenを構成する各コンポーネントの重要性に光を当てた。 音楽のサンプル、コード、モデルはhttps://github.com/facebookresearch/audiocraftで入手できる。

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft.
翻訳日:2023-06-09 13:48:43 公開日:2023-06-08
# plmsを用いたマイナショットインテント分類の再検討: 直接微調整と連続予訓練

Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training ( http://arxiv.org/abs/2306.05278v1 )

ライセンス: Link先を確認
Haode Zhang, Haowen Liang, Liming Zhan, Xiao-Ming Wu, Albert Y.S. Lam(参考訳) 我々は,少量のラベル付きデータのみを使用して,基礎となる意図に基づいて発話を分類する深層学習モデルのトレーニングを行う,マイトショットインテント検出のタスクについて検討する。 この問題に対処する現在のアプローチは、インテント分類子をトレーニングするために発話エンコーダとして使用する前に、外部リソース(会話コーパス、公開意図検出データセット、自然言語理解データセットなど)で事前学習済み言語モデル(plm)を継続的に調整することである。 本稿では,本課題におけるPLMの過度な適合問題は,予想されるほど深刻ではないため,継続事前学習は必須ではないことを示す。 特に,ラベル付き例のごく一部でplmを直接微調整することは,継続的な事前トレーニングを行う方法に比べ,すでに良好な結果をもたらしており,ラベル付きデータ数の増加に伴ってパフォーマンスギャップが急速に減少することがわかった。 限られたデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。 実世界のベンチマークに関する総合的な実験は、クラスごとに2つ以上のラベル付きサンプルが与えられた場合、直接微調整は、外部データソースを使用して連続的な事前学習を行う強力なベースラインよりも優れていることを示している。 コードはhttps://github.com/hdzhang-code/DFTPlusにある。

We consider the task of few-shot intent detection, which involves training a deep learning model to classify utterances based on their underlying intents using only a small amount of labeled data. The current approach to address this problem is through continual pre-training, i.e., fine-tuning pre-trained language models (PLMs) on external resources (e.g., conversational corpora, public intent detection datasets, or natural language understanding datasets) before using them as utterance encoders for training an intent classifier. In this paper, we show that continual pre-training may not be essential, since the overfitting problem of PLMs on this task may not be as serious as expected. Specifically, we find that directly fine-tuning PLMs on only a handful of labeled examples already yields decent results compared to methods that employ continual pre-training, and the performance gap diminishes rapidly as the number of labeled data increases. To maximize the utilization of the limited available data, we propose a context augmentation method and leverage sequential self-distillation to boost performance. Comprehensive experiments on real-world benchmarks show that given only two or more labeled samples per class, direct fine-tuning outperforms many strong baselines that utilize external data sources for continual pre-training. The code can be found at https://github.com/hdzhang-code/DFTPlus.
翻訳日:2023-06-09 13:48:27 公開日:2023-06-08
# 逆薬品イベント抽出のためのトランスフォーマーアーキテクチャの大規模評価

Extensive Evaluation of Transformer-based Architectures for Adverse Drug Events Extraction ( http://arxiv.org/abs/2306.05276v1 )

ライセンス: Link先を確認
Simone Scaboro, Beatrice Portellia, Emmanuele Chersoni, Enrico Santus, Giuseppe Serra(参考訳) 有害事象 (ade) 抽出は、特に非公式のテキストに適用される場合において、デジタル薬物移動において重要なタスクの1つである。 このタスクは自然言語処理コミュニティによって、bertのような大きな事前学習された言語モデルを使って対処されている。 多くのトランスフォーマーベースのアーキテクチャが文献で使われているが、どちらが優れているのか、その理由は不明である。 そこで本稿では,非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルの評価と解析を行う。 2つのデータセット上で考慮されたすべてのモデルのパフォーマンスを、非公式性(フォーラムやツイート)の増加レベルと比較する。 また,純トランスベースモデルと共通に使用される2つの処理層(crfおよびlstm)を組み合わせることで,モデル性能への影響を解析した。 さらに,モデルカテゴリ(自動エンコーディング,自己回帰,テキスト間テキスト),事前トレーニングドメイン,スクラッチからのトレーニング,パラメータ数におけるモデルサイズなど,モデルのパフォーマンスとそれらを記述する一連の特徴を関連付けるために,確立された機能重要度テクニック(shap)を使用します。 分析の最後には,実験データから抽出可能なテイクホームメッセージのリストを同定する。

Adverse Event (ADE) extraction is one of the core tasks in digital pharmacovigilance, especially when applied to informal texts. This task has been addressed by the Natural Language Processing community using large pre-trained language models, such as BERT. Despite the great number of Transformer-based architectures used in the literature, it is unclear which of them has better performances and why. Therefore, in this paper we perform an extensive evaluation and analysis of 19 Transformer-based models for ADE extraction on informal texts. We compare the performance of all the considered models on two datasets with increasing levels of informality (forums posts and tweets). We also combine the purely Transformer-based models with two commonly-used additional processing layers (CRF and LSTM), and analyze their effect on the models performance. Furthermore, we use a well-established feature importance technique (SHAP) to correlate the performance of the models with a set of features that describe them: model category (AutoEncoding, AutoRegressive, Text-to-Text), pretraining domain, training from scratch, and model size in number of parameters. At the end of our analyses, we identify a list of take-home messages that can be derived from the experimental data.
翻訳日:2023-06-09 13:48:01 公開日:2023-06-08
# ユーザレベルのディファレンシャルプライバシを持つフェデレーション線形コンテキストバンディット

Federated Linear Contextual Bandits with User-level Differential Privacy ( http://arxiv.org/abs/2306.05275v1 )

ライセンス: Link先を確認
Ruiquan Huang, Huanyu Zhang, Luca Melis, Milan Shen, Meisam Hajzinia, Jing Yang(参考訳) 本稿では,ユーザレベルのディファレンシャルプライバシ(dp)という概念に基づく,連帯線形コンテキストバンディットについて検討する。 まず,DP の様々な定義を逐次決定設定で適用可能な統合された帯域幅フレームワークを提案する。 次に,federated banditsフレームワークにおいて,ユーザレベル中心dp (cdp) とローカルdp (ldp) を正式に導入し,federated linear context banditsモデルにおいて,学習後悔と対応するdp保証との間の根本的なトレードオフを検討する。 cdp では \robin と呼ばれるフェデレーションアルゴリズムを提案し,ユーザレベルのdp が満たされた場合の上位および下位の後悔限度を導出することにより,クライアント数 m$ とプライバシ予算 $\varepsilon$ の点でほぼ最適であることを示す。 LDP の場合、ユーザレベルの $(\varepsilon,\delta)$-LDP での学習は、少なくとも {$\min\{1/\varepsilon,M\}$ または $\min\{1/\sqrt{\varepsilon},\sqrt{M}\}$} で異なる条件下では、後悔の吹き上げ要因を負わなければならないことを示す。

This paper studies federated linear contextual bandits under the notion of user-level differential privacy (DP). We first introduce a unified federated bandits framework that can accommodate various definitions of DP in the sequential decision-making setting. We then formally introduce user-level central DP (CDP) and local DP (LDP) in the federated bandits framework, and investigate the fundamental trade-offs between the learning regrets and the corresponding DP guarantees in a federated linear contextual bandits model. For CDP, we propose a federated algorithm termed as \robin and show that it is near-optimal in terms of the number of clients $M$ and the privacy budget $\varepsilon$ by deriving nearly-matching upper and lower regret bounds when user-level DP is satisfied. For LDP, we obtain several lower bounds, indicating that learning under user-level $(\varepsilon,\delta)$-LDP must suffer a regret blow-up factor at least {$\min\{1/\varepsilon,M\}$ or $\min\{1/\sqrt{\varepsilon},\sqrt{M}\}$} under different conditions.
翻訳日:2023-06-09 13:47:38 公開日:2023-06-08
# 事前学習モデルにおけるレート低減原理による画像クラスタリング

Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models ( http://arxiv.org/abs/2306.05272v1 )

ライセンス: Link先を確認
Tianzhe Chu, Shengbang Tong, Tianjiao Ding, Xili Dai, Benjamin David Haeffele, Rene Vidal, Yi Ma(参考訳) 大規模な事前学習モデルの出現は、視覚表現学習と自然言語処理の両方にパラダイムシフトをもたらした。 しかしながら、ラベルのないイメージのクラスタリングは、基本で古典的な機械学習の問題として、特に大規模データセットでは、効果的なソリューションを欠いている。 本稿では,クリップ画像やクラスタ画像などの大規模事前学習モデルの強力な特徴表現を効果的かつ効率的に活用する,新しい画像クラスタリングパイプラインを提案する。 また, 事前学習した特徴は, レート削減目標をさらに最適化することで, かなり構造化されていることを示す。 その結果、ImageNet-1kでは57\%から66\%のクラスタリング精度が大幅に向上する可能性がある。 さらに,クリップのイメージテキストバインディングを利用して,ms-coco や laion-aesthetics のようなラベルなしの大規模データセットでうまく機能する,単純かつ効果的な自己ラベルアルゴリズムを実現する方法を示す。 コードをhttps://github.com/LeslieTrue/CPPでリリースします。

The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57\% to 66\% on ImageNet-1k. Furthermore, by leveraging CLIP's image-text binding, we show how the new clustering method leads to a simple yet effective self-labeling algorithm that successfully works on unlabeled large datasets such as MS-COCO and LAION-Aesthetics. We will release the code in https://github.com/LeslieTrue/CPP.
翻訳日:2023-06-09 13:47:04 公開日:2023-06-08
# 課題リスト要約(ProbSum)2023 患者の活動診断の共有課題と電子健康記録の進歩ノートからの問題点

Overview of the Problem List Summarization (ProbSum) 2023 Shared Task on Summarizing Patients' Active Diagnoses and Problems from Electronic Health Record Progress Notes ( http://arxiv.org/abs/2306.05270v1 )

ライセンス: Link先を確認
Yanjun Gao, Dmitriy Dligach, Timothy Miller, Matthew M. Churpek, Majid Afshar(参考訳) BioNLP Workshop 2023は2023年1月に問題リスト要約(ProbSum)の共有タスクの立ち上げを開始した。 この共有タスクの目的は、実世界の診断意思決定支援アプリケーションのためのNLPモデルの構築において、医療提供者による意思決定プロセスを強化し、患者のケアの質を向上させることを目的としている。 参加者の目標は,重篤な患者の入院から収集した毎日のケアノートからの入力を用いて,診断と問題のリストを作成するモデルを開発することである。 8チームが最終システムを共有タスクリーダボードに提出した。 本稿では,タスク,データセット,評価指標,ベースラインシステムについて述べる。 さらに、参加チームによって試みられた異なるアプローチの評価手法と結果を要約する。

The BioNLP Workshop 2023 initiated the launch of a shared task on Problem List Summarization (ProbSum) in January 2023. The aim of this shared task is to attract future research efforts in building NLP models for real-world diagnostic decision support applications, where a system generating relevant and accurate diagnoses will augment the healthcare providers decision-making process and improve the quality of care for patients. The goal for participants is to develop models that generated a list of diagnoses and problems using input from the daily care notes collected from the hospitalization of critically ill patients. Eight teams submitted their final systems to the shared task leaderboard. In this paper, we describe the tasks, datasets, evaluation metrics, and baseline systems. Additionally, the techniques and results of the evaluation of the different approaches tried by the participating teams are summarized.
翻訳日:2023-06-09 13:46:47 公開日:2023-06-08
# 要因的コントラスト学習 - マルチビュー冗長性を超えて

Factorized Contrastive Learning: Going Beyond Multi-view Redundancy ( http://arxiv.org/abs/2306.05268v1 )

ライセンス: Link先を確認
Paul Pu Liang, Zihao Deng, Martin Ma, James Zou, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 多様なマルチモーダルタスクにおいて、コントラスト学習は、ペアリング情報(画像キャプチャやビデオオーディオペアなど)のみを含む豊富なラベルなしデータから表現をうまく学習できるため、特に魅力的なアプローチとなっている。 これらのアプローチを支えるのは、マルチビュー冗長性(multi-view redundancy)の仮定である。 しかし、多くの現実の環境では、タスク関連情報はモダリティ・ユニクティックな領域にも含まれている: 1つのモダリティにのみ存在するが、タスクに関係している情報である。 下流タスクに関連する共有情報とユニークな情報の両方をキャプチャするために、自己組織化されたマルチモーダル表現をどのように学べるか? 本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。 factorclは,(1)タスク関連情報を共有表現とユニークな表現に分解する,(2)mi下限を最大化しタスク関連情報を取得し,mi上限を最小化することでタスク関連情報を削除する,(3)ラベル無しでタスク関連情報を近似するマルチモーダルデータ拡張,の3つの新たなコントリビューションから構築されている。 大規模な実世界のデータセットでは、factorclは共有情報とユニークな情報の両方をキャプチャし、6つのベンチマークで最先端の結果を得る。

In a wide range of multimodal tasks, contrastive learning has become a particularly appealing approach since it can successfully learn representations from abundant unlabeled data with only pairing information (e.g., image-caption or video-audio pairs). Underpinning these approaches is the assumption of multi-view redundancy - that shared information between modalities is necessary and sufficient for downstream tasks. However, in many real-world settings, task-relevant information is also contained in modality-unique regions: information that is only present in one modality but still relevant to the task. How can we learn self-supervised multimodal representations to capture both shared and unique information relevant to downstream tasks? This paper proposes FactorCL, a new multimodal representation learning method to go beyond multi-view redundancy. FactorCL is built from three new contributions: (1) factorizing task-relevant information into shared and unique representations, (2) capturing task-relevant information via maximizing MI lower bounds and removing task-irrelevant information via minimizing MI upper bounds, and (3) multimodal data augmentations to approximate task relevance without labels. On large-scale real-world datasets, FactorCL captures both shared and unique information and achieves state-of-the-art results on six benchmarks.
翻訳日:2023-06-09 13:46:34 公開日:2023-06-08
# EXOT:移動物体の安全なロボット操作のためのエクイット認識オブジェクトトラッカー

EXOT: Exit-aware Object Tracker for Safe Robotic Manipulation of Moving Object ( http://arxiv.org/abs/2306.05262v1 )

ライセンス: Link先を確認
Hyunseo Kim, Hye Jung Yoon, Minji Kim, Dong-Sig Han, and Byoung-Tak Zhang(参考訳) 現在のロボットハンド操作は、限られた環境で予測可能な位置にあるオブジェクトを狭く操作する。 したがって、対象物の位置が期待位置から著しくずれると、ロボットは、特に人間と操作した場合、予期せぬ方法で応答することがある。 安全なロボット操作のために,操作中の物体の欠如を認識するロボットハンドカメラにEXOT(Exit-aware Object Tracker)を提案する。 ロボットは、対象物を含むトラッカーのバウンディングボックス出力を調べて進むか否かを判定する。 トラッカーが対象対象物として背景を誤追跡できるため,より正確な物体認識のために分布外分類器を採用する。 我々の知識を最大限に活用するため,本手法はトラッカ出力に分散分類手法を適用した最初の手法である。 UR5eロボットから収集した1人称ビデオベンチマークデータセットであるTREK-150と、カスタムデータセットであるRMOT-223について評価を行った。 次に, コンベアベルト寿司タスクを用いて, ur5eロボットのトラッカをリアルタイムにテストし, 対象料理を追跡するトラッカの能力を調べ, 出口状態の判定を行う。 トラッカーはベースライン法よりも38%高い出口認識性能を示した。 データセットとコードはhttps://github.com/hskAlena/EXOTでリリースされる。

Current robotic hand manipulation narrowly operates with objects in predictable positions in limited environments. Thus, when the location of the target object deviates severely from the expected location, a robot sometimes responds in an unexpected way, especially when it operates with a human. For safe robot operation, we propose the EXit-aware Object Tracker (EXOT) on a robot hand camera that recognizes an object's absence during manipulation. The robot decides whether to proceed by examining the tracker's bounding box output containing the target object. We adopt an out-of-distribution classifier for more accurate object recognition since trackers can mistrack a background as a target object. To the best of our knowledge, our method is the first approach of applying an out-of-distribution classification technique to a tracker output. We evaluate our method on the first-person video benchmark dataset, TREK-150, and on the custom dataset, RMOT-223, that we collect from the UR5e robot. Then we test our tracker on the UR5e robot in real-time with a conveyor-belt sushi task, to examine the tracker's ability to track target dishes and to determine the exit status. Our tracker shows 38% higher exit-aware performance than a baseline method. The dataset and the code will be released at https://github.com/hskAlena/EXOT.
翻訳日:2023-06-09 13:46:07 公開日:2023-06-08
# 結晶群下で不変な関数の表現と学習

Representing and Learning Functions Invariant Under Crystallographic Groups ( http://arxiv.org/abs/2306.05261v1 )

ライセンス: Link先を確認
Ryan P. Adams and Peter Orbanz(参考訳) 結晶学群は、自然と科学で遭遇する結晶やその他の反復構造の対称性を記述する。 これらのグループには壁紙やスペースグループが含まれる。 このような群の下で(1)滑らかで(2)不変である関数の線型および非線形表現を導出する。 線型表現はフーリエ基底を結晶的不変基底関数に一般化する。 そのような基底が各結晶群に対して存在し、関連する$l_2$空間において正規直交であることを示し、純シフト群の特別な場合として標準フーリエ基底を回復する。 非線形表現は群の軌道空間を有限次元ユークリッド空間に埋め込む。 そのような埋め込みはすべての結晶群に存在し、その因子はオービフォールドと呼ばれる多様体の一般化を通じて機能することを示す。 我々は、その群の標準化された記述を与えられたアルゴリズムを記述し、フーリエ基底と埋め込み写像を計算する。 例えば、結晶学的に不変なニューラルネットワーク、カーネルマシン、ガウス過程を構築する。

Crystallographic groups describe the symmetries of crystals and other repetitive structures encountered in nature and the sciences. These groups include the wallpaper and space groups. We derive linear and nonlinear representations of functions that are (1) smooth and (2) invariant under such a group. The linear representation generalizes the Fourier basis to crystallographically invariant basis functions. We show that such a basis exists for each crystallographic group, that it is orthonormal in the relevant $L_2$ space, and recover the standard Fourier basis as a special case for pure shift groups. The nonlinear representation embeds the orbit space of the group into a finite-dimensional Euclidean space. We show that such an embedding exists for every crystallographic group, and that it factors functions through a generalization of a manifold called an orbifold. We describe algorithms that, given a standardized description of the group, compute the Fourier basis and an embedding map. As examples, we construct crystallographically invariant neural networks, kernel machines, and Gaussian processes.
翻訳日:2023-06-09 13:45:46 公開日:2023-06-08
# 薬物・薬物相互作用予測におけるディープ・グラフ学習の総合評価

Comprehensive evaluation of deep and graph learning on drug-drug interactions prediction ( http://arxiv.org/abs/2306.05257v1 )

ライセンス: Link先を確認
Xuan Lin, Lichang Dai, Yafang Zhou, Zu-Guo Yu, Wen Zhang, Jian-Yu Shi, Dong-Sheng Cao, Li Zeng, Haowen Chen, Bosheng Song, Philip S. Yu and Xiangxiang Zeng(参考訳) 近年の人工知能(AI)と深層学習モデルの進歩と成果は、特に薬物・薬物相互作用(DDI)におけるバイオメディカル応用において有用性を確立している。 DDIは、ある薬物の人体における別の薬物の存在に対する効果の変化を指し、薬物発見と臨床研究において重要な役割を担っている。 従来の臨床試験と実験によるDDIの予測は、高価で時間を要するプロセスである。 高度なAIとディープラーニングを正しく適用するために、開発者とユーザは、データリソースの可用性とエンコーディング、計算方法の設計など、さまざまな課題を満たす。 本稿では、化学構造ベース、ネットワークベース、nlpベース、ハイブリッド手法を概説し、異なるドメイン知識を持つ幅広い研究者と開発コミュニティに対して、更新され、アクセス可能なガイドを提供する。 本稿では,広く用いられている分子表現を導入し,分子構造を表現するためのグラフニューラルネットワークモデルの理論的枠組みを説明する。 比較実験を行うことにより,深層学習法とグラフ学習法の利点と欠点を示す。 本稿では,ddis予測を高速化する深層学習モデルとグラフ学習モデルの今後の方向性について述べる。

Recent advances and achievements of artificial intelligence (AI) as well as deep and graph learning models have established their usefulness in biomedical applications, especially in drug-drug interactions (DDIs). DDIs refer to a change in the effect of one drug to the presence of another drug in the human body, which plays an essential role in drug discovery and clinical research. DDIs prediction through traditional clinical trials and experiments is an expensive and time-consuming process. To correctly apply the advanced AI and deep learning, the developer and user meet various challenges such as the availability and encoding of data resources, and the design of computational methods. This review summarizes chemical structure based, network based, NLP based and hybrid methods, providing an updated and accessible guide to the broad researchers and development community with different domain knowledge. We introduce widely-used molecular representation and describe the theoretical frameworks of graph neural network models for representing molecular structures. We present the advantages and disadvantages of deep and graph learning methods by performing comparative experiments. We discuss the potential technical challenges and highlight future directions of deep and graph learning models for accelerating DDIs prediction.
翻訳日:2023-06-09 13:45:32 公開日:2023-06-08
# 深層強化学習モデルを異なる、低コンピュート、連続的に変化する放射線学展開環境に動的に訓練・適応するためのフレームワーク

A framework for dynamically training and adapting deep reinforcement learning models to different, low-compute, and continuously changing radiology deployment environments ( http://arxiv.org/abs/2306.05310v1 )

ライセンス: Link先を確認
Guangyao Zheng, Shuhao Lai, Vladimir Braverman, Michael A. Jacobs, Vishwa S. Parekh(参考訳) Deep Reinforcement Learningは医療画像で広く研究されているが、これらのモデルのトレーニングとデプロイは通常、強力なGPUを必要とする。 画像環境は急速に進化し、エッジデバイスによって生成されるため、アルゴリズムは変化する環境に継続的に学習し適応し、低消費電力デバイスに適応する必要がある。 そこで我々は,医用画像の圧縮・デノア化のための3つの画像コアセットアルゴリズムを開発した。 ダイクソン水およびディクソン脂肪mri画像上に,近傍平均コアセット,近傍感度に基づくサンプリングコアセット,最大エントロピーコアセットを実装した。 3つのコアセットはいずれも,左膝,右転子,左腎,脾,肺の5つの解剖学的ランドマークの局所化に優れ,27倍の圧縮が得られた。 最大エントロピーコアセットは平均距離誤差が1.97\pm 12.02$であり、従来の生涯学習フレームワークは19.24\pm 50.77$であった。

While Deep Reinforcement Learning has been widely researched in medical imaging, the training and deployment of these models usually require powerful GPUs. Since imaging environments evolve rapidly and can be generated by edge devices, the algorithm is required to continually learn and adapt to changing environments, and adjust to low-compute devices. To this end, we developed three image coreset algorithms to compress and denoise medical images for selective experience replayed-based lifelong reinforcement learning. We implemented neighborhood averaging coreset, neighborhood sensitivity-based sampling coreset, and maximum entropy coreset on full-body DIXON water and DIXON fat MRI images. All three coresets produced 27x compression with excellent performance in localizing five anatomical landmarks: left knee, right trochanter, left kidney, spleen, and lung across both imaging environments. Maximum entropy coreset obtained the best performance of $11.97\pm 12.02$ average distance error, compared to the conventional lifelong learning framework's $19.24\pm 50.77$.
翻訳日:2023-06-09 13:37:47 公開日:2023-06-08
# 機械学習における差別バイアスを評価するのに、公正度スコアは十分か?

Are fairness metric scores enough to assess discrimination biases in machine learning? ( http://arxiv.org/abs/2306.05307v1 )

ライセンス: Link先を確認
Fanny Jourdan, Laurent Risser, Jean-Michel Loubes, Nicholas Asher(参考訳) 本稿では、テキストデータを用いた機械学習アルゴリズムによる性差別のバイアスを評価するための、現在の指標の欠点に関する新しい実験について述べる。 我々は,Biosデータセットに焦点をあて,学習課題は,その伝記に基づいて個人の職業を予測することである。 このような予測タスクは、自動ジョブレコメンデーションのような商用自然言語処理(NLP)アプリケーションで一般的である。 大規模なデータセットに焦点をあてるが、多くの産業用NLPアプリケーションでは、小さくて合理的に大規模な言語データセットを使用することが一般的であり、そこでは、主要な実用的な制約は予測精度を向上させることである。 そして、トレーニングセットのサイズが合理的に正確な予測を学ぶのに十分である場合、一般的なバイアス尺度がどの程度信頼性があるか疑問に思う。 実験では、Biosデータセットをサンプリングし、異なるサンプルサイズで200以上のモデルを学ぶ。 これにより、統計的に調査し、一般的な性別バイアス指標が比較的小さなトレーニングやテストサンプルに適用した場合、ばらつきや信頼できない結果をもたらすことを確認できます。 このことは、この分野での音響結果を提供するための分散計算の重要性を強調している。

This paper presents novel experiments shedding light on the shortcomings of current metrics for assessing biases of gender discrimination made by machine learning algorithms on textual data. We focus on the Bios dataset, and our learning task is to predict the occupation of individuals, based on their biography. Such prediction tasks are common in commercial Natural Language Processing (NLP) applications such as automatic job recommendations. We address an important limitation of theoretical discussions dealing with group-wise fairness metrics: they focus on large datasets, although the norm in many industrial NLP applications is to use small to reasonably large linguistic datasets for which the main practical constraint is to get a good prediction accuracy. We then question how reliable are different popular measures of bias when the size of the training set is simply sufficient to learn reasonably accurate predictions. Our experiments sample the Bios dataset and learn more than 200 models on different sample sizes. This allows us to statistically study our results and to confirm that common gender bias indices provide diverging and sometimes unreliable results when applied to relatively small training and test samples. This highlights the crucial importance of variance calculations for providing sound results in this field.
翻訳日:2023-06-09 13:37:24 公開日:2023-06-08
# グラフ上の関数のベイズ最適化

Bayesian Optimisation of Functions on Graphs ( http://arxiv.org/abs/2306.05304v1 )

ライセンス: Link先を確認
Xingchen Wan, Pierre Osselin, Henry Kenlay, Binxin Ru, Michael A. Osborne, Xiaowen Dong(参考訳) グラフ構造化データの可用性の増大は、グラフのノードセットで定義された関数を最適化するタスクを動機付ける。 従来のグラフ探索アルゴリズムは、この場合、サンプル非効率であり、関数値に関する情報を利用せず、一方ベイジアン最適化は、より優れたサンプル効率を持つ有望なブラックボックスソルバのクラスであるが、そのような新しい設定にはほとんど適用されていない。 このギャップを埋めるために,汎用,大規模,潜在的に未知のグラフ上で定義された関数を最適化するベイズ最適化フレームワークを提案する。 グラフ上の適切なカーネルの学習を通じて、我々のフレームワークは対象関数の振る舞いに適応する利点があります。 局所モデリングアプローチは,提案手法の効率をさらに保証する。 合成グラフと実世界のグラフの両方に対する大規模な実験は、提案した最適化フレームワークの有効性を示す。

The increasing availability of graph-structured data motivates the task of optimising over functions defined on the node set of graphs. Traditional graph search algorithms can be applied in this case, but they may be sample-inefficient and do not make use of information about the function values; on the other hand, Bayesian optimisation is a class of promising black-box solvers with superior sample efficiency, but it has been scarcely been applied to such novel setups. To fill this gap, we propose a novel Bayesian optimisation framework that optimises over functions defined on generic, large-scale and potentially unknown graphs. Through the learning of suitable kernels on graphs, our framework has the advantage of adapting to the behaviour of the target function. The local modelling approach further guarantees the efficiency of our method. Extensive experiments on both synthetic and real-world graphs demonstrate the effectiveness of the proposed optimisation framework.
翻訳日:2023-06-09 13:37:04 公開日:2023-06-08
# Enhance-NeRF:ニューラルラジアンス場の性能評価

Enhance-NeRF: Multiple Performance Evaluation for Neural Radiance Fields ( http://arxiv.org/abs/2306.05303v1 )

ライセンス: Link先を確認
Qianqiu Tan, Tao Liu, Yinling Xie, Shuwan Yu, Baohua Zhang(参考訳) 3次元再構築の質は、仮想現実(VR)や拡張現実(AR)技術などの分野における応用の有効性に影響を与える重要な要因である。 neural radiance fields (nerf) は任意の視点から現実的な画像を生成することができる。 物体の形状、照明、材料を同時に再構築し、表面欠陥なくして、仮想性と現実の間の障壁を壊す。 再構成されたシーンと現実世界のシーンの間のNeRFによって表示される潜在的な空間対応は、幅広い応用可能性を提供する。 nerf導入以来,3次元復元の著しい進展にもかかわらず,探索と実験の余地は残されている。 NeRFベースのモデルは、色付きの"fog"ノイズによって引き起こされる干渉問題の影響を受けやすい。 また、無防備な場面の再建を図りながら、しばしば不安定や失敗に遭遇する。 さらに、モデルが収束するのにかなりの時間を要するため、そのようなシナリオでの使用がさらに困難になります。 提案手法は,低反射率と高反射率オブジェクトの表示バランスを両立させるジョイントカラーを採用し,先行知識を持つデコードアーキテクチャを用いて認識を改善し,多層性能評価機構を用いて学習能力を向上させる。 1枚のカードで1時間以内に屋外のシーンを再現する。 実験結果に基づき、Enhance-NeRFは部分的にフィットネス能力を高め、屋外シーンの再構築を支援する。 Enhance-NeRF法はプラグイン・アンド・プレイコンポーネントとして利用でき、他のNeRFベースのモデルと容易に統合できる。 コードは、https://github.com/TANQIanQ/Enhance-NeRFで入手できる。

The quality of three-dimensional reconstruction is a key factor affecting the effectiveness of its application in areas such as virtual reality (VR) and augmented reality (AR) technologies. Neural Radiance Fields (NeRF) can generate realistic images from any viewpoint. It simultaneously reconstructs the shape, lighting, and materials of objects, and without surface defects, which breaks down the barrier between virtuality and reality. The potential spatial correspondences displayed by NeRF between reconstructed scenes and real-world scenes offer a wide range of practical applications possibilities. Despite significant progress in 3D reconstruction since NeRF were introduced, there remains considerable room for exploration and experimentation. NeRF-based models are susceptible to interference issues caused by colored "fog" noise. Additionally, they frequently encounter instabilities and failures while attempting to reconstruct unbounded scenes. Moreover, the model takes a significant amount of time to converge, making it even more challenging to use in such scenarios. Our approach, coined Enhance-NeRF, which adopts joint color to balance low and high reflectivity objects display, utilizes a decoding architecture with prior knowledge to improve recognition, and employs multi-layer performance evaluation mechanisms to enhance learning capacity. It achieves reconstruction of outdoor scenes within one hour under single-card condition. Based on experimental results, Enhance-NeRF partially enhances fitness capability and provides some support to outdoor scene reconstruction. The Enhance-NeRF method can be used as a plug-and-play component, making it easy to integrate with other NeRF-based models. The code is available at: https://github.com/TANQIanQ/Enhance-NeRF
翻訳日:2023-06-09 13:36:50 公開日:2023-06-08
# toolalpaca:3000シミュレートケースを持つ言語モデルのための一般化ツール学習

ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases ( http://arxiv.org/abs/2306.05301v1 )

ライセンス: Link先を確認
Qiaoyu Tang, Ziliang Deng, Hongyu Lin, Xianpei Han, Qiao Liang, Le Sun(参考訳) 実世界のツールを有効に活用するための大きな言語モデルの実現は、具体的知性を達成する上で不可欠である。 既存のツール学習のアプローチは、gpt-4のような非常に大きな言語モデルに依存しており、汎用的なツール使用能力をゼロショット方式で達成するか、あるいは教師付き学習を使用してコンパクトモデル上の限られた種類のツールのトレーニングを行っている。 しかし、より小さな言語モデルが特定のツール固有の訓練なしで汎用的なツール利用能力が得られるかどうかは不明だ。 本稿では,ツール使用コーパスの自動生成と,人間の介入を最小限に抑えたコンパクト言語モデルにおける汎用ツール利用能力の学習を目的とした,新しいフレームワークであるToolAlpacaを紹介する。 具体的には、ToolAlpacaはまず、50の異なるカテゴリにまたがる400以上の現実世界のツールAPIから3938のツール使用インスタンスを含むマルチエージェントシミュレーション環境を構築することで、包括的なデータセットを収集する。 その後、構築されたコーパスを微調整したコンパクト言語モデルに採用し、それぞれ toolalpaca-7b と toolalpaca-13b の2つのモデルを生成する。 最後に、これらのモデルが未確認のツールを特定のトレーニングなしで利用できる能力を評価する。 実験の結果, ToolAlpaca は GPT-3.5 のような非常に大きな言語モデルに匹敵する,効果的な汎用ツール利用能力を実現している。 この検証は、学習の汎用ツール利用能力はコンパクト言語モデルで実現可能であるという考えを支持する。

Enabling large language models to effectively utilize real-world tools is crucial for achieving embodied intelligence. Existing approaches to tool learning have primarily relied on either extremely large language models, such as GPT-4, to attain generalized tool-use abilities in a zero-shot manner, or have utilized supervised learning to train limited types of tools on compact models. However, it remains uncertain whether smaller language models can achieve generalized tool-use abilities without specific tool-specific training. To address this question, this paper introduces ToolAlpaca, a novel framework designed to automatically generate a tool-use corpus and learn generalized tool-use abilities on compact language models with minimal human intervention. Specifically, ToolAlpaca first collects a comprehensive dataset by building a multi-agent simulation environment, which contains 3938 tool-use instances from more than 400 real-world tool APIs spanning 50 distinct categories. Subsequently, the constructed corpus is employed to fine-tune compact language models, resulting in two models, namely ToolAlpaca-7B and ToolAlpaca-13B, respectively. Finally, we evaluate the ability of these models to utilize previously unseen tools without specific training. Experimental results demonstrate that ToolAlpaca achieves effective generalized tool-use capabilities comparable to those of extremely large language models like GPT-3.5. This validation supports the notion that learning generalized tool-use abilities is feasible for compact language models.
翻訳日:2023-06-09 13:36:25 公開日:2023-06-08
# Epoch-based Stochastic Gradient Descent における相関ノイズ : 体重変動との関連

Correlated Noise in Epoch-Based Stochastic Gradient Descent: Implications for Weight Variances ( http://arxiv.org/abs/2306.05300v1 )

ライセンス: Link先を確認
Marcel K\"uhn, Bernd Rosenow(参考訳) 確率的勾配降下(sgd)はニューラルネットワークの最適化の基盤となっているが、sgdがもたらしたノイズはしばしば時間とともに相関しないと仮定される。 本研究では,この仮定に挑戦し,2次損失に限定された離散時間SGDの定常分布に対するエポック雑音相関の影響について検討する。 まず,重みベクトルの小さなゆらぎとは無関係であると仮定して,エポックにおける学習用ノイズの正確な自己相関を計算し,その相関がsgdダイナミクスに与える影響について検討する。 その結果,超パラメータ依存性のクロスオーバー値よりも曲率が大きい方向では,非相関ノイズが回復することがわかった。 しかし、比較的平坦な方向には、重量分散が著しく減少する。 相関時間間のクロスオーバーに基づいて,これらの結果に対する直感的な説明を行い,epochに基づく雑音相関の存在下でのsgdのダイナミクスの理解を深める。

Stochastic gradient descent (SGD) has become a cornerstone of neural network optimization, yet the noise introduced by SGD is often assumed to be uncorrelated over time, despite the ubiquity of epoch-based training. In this work, we challenge this assumption and investigate the effects of epoch-based noise correlations on the stationary distribution of discrete-time SGD with momentum, limited to a quadratic loss. Our main contributions are twofold: first, we calculate the exact autocorrelation of the noise for training in epochs under the assumption that the noise is independent of small fluctuations in the weight vector; second, we explore the influence of correlations introduced by the epoch-based learning scheme on SGD dynamics. We find that for directions with a curvature greater than a hyperparameter-dependent crossover value, the results for uncorrelated noise are recovered. However, for relatively flat directions, the weight variance is significantly reduced. We provide an intuitive explanation for these results based on a crossover between correlation times, contributing to a deeper understanding of the dynamics of SGD in the presence of epoch-based noise correlations.
翻訳日:2023-06-09 13:35:55 公開日:2023-06-08
# 心の習慣:効率的な計画のための行動系列の再利用

Habits of Mind: Reusing Action Sequences for Efficient Planning ( http://arxiv.org/abs/2306.05298v1 )

ライセンス: Link先を確認
No\'emi \'Eltet\H{o} and Peter Dayan(参考訳) アクションのシーケンスを実行すると、それらの実行はより流動的で正確になります。 そこで本研究では,これまで頻繁に用いられてきた経路に探索木の拡張を集中させることにより,より高速かつ正確な計画を立てることが可能であり,また,多段ジャンプによる浅瀬への深い計画問題を低減できる可能性を検討する。 このようなシーケンスをキャプチャするために、異なるスケールで統計的に信頼できる構造を発見し、活用する柔軟なベイズ作用チャンキング機構を用いる。 これにより、モンテカルロの木探索プランナに組み込むことのできる、より短く、より長いルーチンが生まれる。 本手法の利点は,タングラムの後にパターン化された物理構成タスクを用いて示す。

When we exercise sequences of actions, their execution becomes more fluent and precise. Here, we consider the possibility that exercised action sequences can also be used to make planning faster and more accurate by focusing expansion of the search tree on paths that have been frequently used in the past, and by reducing deep planning problems to shallow ones via multi-step jumps in the tree. To capture such sequences, we use a flexible Bayesian action chunking mechanism which finds and exploits statistically reliable structure at different scales. This gives rise to shorter or longer routines that can be embedded into a Monte-Carlo tree search planner. We show the benefits of this scheme using a physical construction task patterned after tangrams.
翻訳日:2023-06-09 13:35:34 公開日:2023-06-08
# 脳疾患診断のための接続型文脈表現学習

Connectional-Style-Guided Contextual Representation Learning for Brain Disease Diagnosis ( http://arxiv.org/abs/2306.05297v1 )

ライセンス: Link先を確認
Gongshu Wang, Ning Jiang, Yunxiao Ma, Tiantian Liu, Duanduan Chen, Jinglong Wu, Guoqi Li, Dong Liang, Tianyi Yan(参考訳) 構造磁気共鳴画像法(smri)は臨床的価値が高く、深層学習(dl)ベースの脳疾患診断において広く用いられている。 従来のアプローチでは、特定の領域内でのみ重要なsMRIの局所的な形状とテクスチャに焦点を当てていた。 学習された表現は散発的な情報を含んでおり、他の病気やデータセットでは一般化能力に乏しい。 有意義でロバストな特徴の把握を容易にするためには、まず、単一のデータ/タスクドメイン内に制限されない脳の固有のパターンを包括的に理解する必要がある。 脳は相互に結合した神経細胞の複雑なコネクトームであるため、脳内の結合特性は、複数の領域にまたがって共有され、ほとんどの病理情報をカバーしている。 本研究では,複数の脳疾患の診断に用いられる脳固有のパターンを捉えるための接続型文脈表現学習モデル(cs-crl)を提案する。 具体的には、視覚トランスフォーマー(vit)エンコーダを持ち、プロキシタスクとしてマスク再構成と、接続情報の表現を導くグラム行列を利用する。 グローバルなコンテキストのキャプチャと、生物学的な可能性を備えた特徴の集約を促進する。 その結果、cs-crlは6つのデータセットと3つの疾患にまたがる複数の脳疾患診断タスクにおいて優れた精度を達成し、最先端モデルよりも優れていた。 さらに, cs-crlは脳ネットワーク的特性をより多く捉え, 集約性が向上し, 最適化が容易で, 雑音に対して頑健であることを示した。 ソースコードはもうすぐリリースされます。

Structural magnetic resonance imaging (sMRI) has shown great clinical value and has been widely used in deep learning (DL) based computer-aided brain disease diagnosis. Previous approaches focused on local shapes and textures in sMRI that may be significant only within a particular domain. The learned representations are likely to contain spurious information and have a poor generalization ability in other diseases and datasets. To facilitate capturing meaningful and robust features, it is necessary to first comprehensively understand the intrinsic pattern of the brain that is not restricted within a single data/task domain. Considering that the brain is a complex connectome of interlinked neurons, the connectional properties in the brain have strong biological significance, which is shared across multiple domains and covers most pathological information. In this work, we propose a connectional style contextual representation learning model (CS-CRL) to capture the intrinsic pattern of the brain, used for multiple brain disease diagnosis. Specifically, it has a vision transformer (ViT) encoder and leverages mask reconstruction as the proxy task and Gram matrices to guide the representation of connectional information. It facilitates the capture of global context and the aggregation of features with biological plausibility. The results indicate that CS-CRL achieves superior accuracy in multiple brain disease diagnosis tasks across six datasets and three diseases and outperforms state-of-the-art models. Furthermore, we demonstrate that CS-CRL captures more brain-network-like properties, better aggregates features, is easier to optimize and is more robust to noise, which explains its superiority in theory. Our source code will be released soon.
翻訳日:2023-06-09 13:35:20 公開日:2023-06-08
# 安全な協調フィルタリング

Safe Collaborative Filtering ( http://arxiv.org/abs/2306.05292v1 )

ライセンス: Link先を確認
Riku Togashi, Tatsushi Oka, Naoto Ohsaka, Tetsuro Morimura(参考訳) アルゴリズムの公正性、クラス不均衡、リスクに敏感な意思決定といった現代の機械学習タスクでは、データセット内の挑戦的なサンプルの効果的な処理が保証されるため、優れたテールパフォーマンスが不可欠である。 テールパフォーマンスは、満足度の低いユーザを失うリスクを減らすために、パーソナライズドレコメンデーションシステムにとって成功の重要な決定要因でもある。 本研究では,平均性能に注目するのではなく,満足度の低いユーザの推奨品質を優先する「安全な」協調フィルタリング手法を提案する。 提案手法は,利用者の損失に対する平均リスクを表す条件付リスク値(CVaR)を最小化する。 ウェブスケールレコメンデータシステムの計算課題を克服するため、最もスケーラブルな手法を拡張し、最小二乗(iALS)を暗黙的に交互に拡張する頑健で実用的なアルゴリズムを開発した。 実世界のデータセットに対する実証的な評価は、競争力のある計算効率を維持しながら、我々のアプローチの優れたテール性能を示す。

Excellent tail performance is crucial for modern machine learning tasks, such as algorithmic fairness, class imbalance, and risk-sensitive decision making, as it ensures the effective handling of challenging samples within a dataset. Tail performance is also a vital determinant of success for personalised recommender systems to reduce the risk of losing users with low satisfaction. This study introduces a "safe" collaborative filtering method that prioritises recommendation quality for less-satisfied users rather than focusing on the average performance. Our approach minimises the conditional value at risk (CVaR), which represents the average risk over the tails of users' loss. To overcome computational challenges for web-scale recommender systems, we develop a robust yet practical algorithm that extends the most scalable method, implicit alternating least squares (iALS). Empirical evaluation on real-world datasets demonstrates the excellent tail performance of our approach while maintaining competitive computational efficiency.
翻訳日:2023-06-09 13:34:39 公開日:2023-06-08
# 共変量シフトに基づくフェデレート学習と一般化保証

Federated Learning under Covariate Shifts with Generalization Guarantees ( http://arxiv.org/abs/2306.05325v1 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya, Fanghui Liu, Thomas Pethick, Grigorios Chrysos, Volkan Cevher(参考訳) 本稿では,連合学習(FL)におけるクライアント内およびクライアント間共変量シフトについて,全体的な一般化性能に着目して検討する。 共変量シフトに対処するため、我々は新たなグローバルモデルトレーニングパラダイムを定式化し、真の比率よりも上限の完全な知識を必要とせず、密度比マッチング法の改善とともに、フェデレート重要度重み付き経験的リスク最小化(FTW-ERM)を提案する。 また、FLの古典的EMMと同じレベルのプライバシー保証を持つ通信効率の高いFITW-ERMを提案する。 理論上、ftw-ermは、特定の設定下では古典的ermよりも小さい一般化誤差を達成する。 既存のFLベースラインよりもFTW-ERMの方がクライアント間のデータ分散シフトにおいて不均衡なフェデレーション設定に挑戦できることを示す実験結果を得た。

This paper addresses intra-client and inter-client covariate shifts in federated learning (FL) with a focus on the overall generalization performance. To handle covariate shifts, we formulate a new global model training paradigm and propose Federated Importance-Weighted Empirical Risk Minimization (FTW-ERM) along with improving density ratio matching methods without requiring perfect knowledge of the supremum over true ratios. We also propose the communication-efficient variant FITW-ERM with the same level of privacy guarantees as those of classical ERM in FL. We theoretically show that FTW-ERM achieves smaller generalization error than classical ERM under certain settings. Experimental results demonstrate the superiority of FTW-ERM over existing FL baselines in challenging imbalanced federated settings in terms of data distribution shifts across clients.
翻訳日:2023-06-09 13:28:48 公開日:2023-06-08
# 大規模言語モデルを用いたイタリアの生物医学情報抽出:方法論的考察と多施設活用

Advancing Italian Biomedical Information Extraction with Large Language Models: Methodological Insights and Multicenter Practical Application ( http://arxiv.org/abs/2306.05323v1 )

ライセンス: Link先を確認
Claudio Crema, Tommaso Mario Buonocore, Silvia Fostinelli, Enea Parimbelli, Federico Verde, Cira Fundar\`o, Marina Manera, Matteo Cotta Ramusino, Marco Capelli, Alfredo Costa, Giuliano Binetti, Riccardo Bellazzi and Alberto Redolfi(参考訳) 病院におけるコンピュータ化された医療記録の導入により、手書きや情報収集などの負担が軽減された。 しかし、医療記録に含まれるデータは、主に構造化されていない医療記録から抽出するのに時間と労力を要するため、いまだに未利用である。 自然言語処理のサブフィールドである情報抽出は、自動テキストマイニングパイプラインを使用して、臨床実践者がこの制限を克服するのに役立つ。 本研究では,イタリアで初めての神経心理学的名称付きエンティティ認識データセットであるPsyNITを作成し,これを用いて大規模言語モデルを構築した。 さらに,3つの外部独立データセットを用いて,f1-score 84.77%,精度83.16%,リコール86.44%という,効果的なマルチセンタモデルを実現する実験を行った。 学んだ教訓は次のとおりである。 (i)一貫したアノテーションプロセスの重要な役割 (ii)古典的な方法と「フェウショット」アプローチを組み合わせた微調整戦略。 これにより、この分野における将来の実装への道を開くための方法論的ガイドラインを確立し、イタリアの病院が重要な研究機会を活用できるようにしました。

The introduction of computerized medical records in hospitals has reduced burdensome operations like manual writing and information fetching. However, the data contained in medical records are still far underutilized, primarily because extracting them from unstructured textual medical records takes time and effort. Information Extraction, a subfield of Natural Language Processing, can help clinical practitioners overcome this limitation, using automated text-mining pipelines. In this work, we created the first Italian neuropsychiatric Named Entity Recognition dataset, PsyNIT, and used it to develop a Large Language Model for this task. Moreover, we conducted several experiments with three external independent datasets to implement an effective multicenter model, with overall F1-score 84.77%, Precision 83.16%, Recall 86.44%. The lessons learned are: (i) the crucial role of a consistent annotation process and (ii) a fine-tuning strategy that combines classical methods with a "few-shot" approach. This allowed us to establish methodological guidelines that pave the way for future implementations in this field and allow Italian hospitals to tap into important research opportunities.
翻訳日:2023-06-09 13:28:32 公開日:2023-06-08
# 潜在ニューラル正規微分方程式を用いた実時間全心電メカニカルシミュレーション

Real-time whole-heart electromechanical simulations using Latent Neural Ordinary Differential Equations ( http://arxiv.org/abs/2306.05321v1 )

ライセンス: Link先を確認
Matteo Salvador, Marina Strocchi, Francesco Regazzoni, Luca Dede', Steven Niederer, Alfio Quarteroni(参考訳) 心臓デジタル双生児は、予測的でパーソナライズされた医療を提供するための物理学と生理学のインフォームド・フレームワークを提供する。 しかし、高忠実度マルチスケール心臓モデルは、その膨大な計算コストと患者固有のパーソナライズに必要なモデル評価の多さから、採用の障壁となっている。 人工知能に基づく手法は、高速で正確なデジタル双生児の作成を可能にする。 本研究では、LNODE(Latent Neural Ordinary Differential Equations)を用いて、心不全患者の時間的圧力-体積ダイナミクスを学習する。 我々のlnodesに基づくサーロゲートモデルは, 43のモデルパラメータを考慮しつつ, 400の3d-0d心室クローズドループ電気機械シミュレーションから訓練された。 訓練されたlノードは、3つの隠れ層と13個のニューロンを層ごとに保持し、標準ラップトップの1つのプロセッサ上で心臓機能の300倍のリアルタイム数値シミュレーションを可能にするフィードフォワード完全接続型ニューラルネットワークを用いて、潜在空間における3d-0dモデルのコンパクトで効率的な表現を提供する。 このサーロゲートモデルは、単一のプロセッサ上で3時間の計算で不確実性定量化を伴うグローバル感度解析とロバストパラメータ推定を行うために用いられる。 トレーニング期間中にLNODEによって見つからない圧力と体積の時間トレースに一致し、4から11のモデルパラメータを校正し、後部分布も提供する。 本報告では, 心機能に関する最新のサロゲートモデルを導入し, 心臓デジタル双生児におけるパラメータキャリブレーションのための新たな重要な場所を開く。

Cardiac digital twins provide a physics and physiology informed framework to deliver predictive and personalized medicine. However, high-fidelity multi-scale cardiac models remain a barrier to adoption due to their extensive computational costs and the high number of model evaluations needed for patient-specific personalization. Artificial Intelligence-based methods can make the creation of fast and accurate whole-heart digital twins feasible. In this work, we use Latent Neural Ordinary Differential Equations (LNODEs) to learn the temporal pressure-volume dynamics of a heart failure patient. Our surrogate model based on LNODEs is trained from 400 3D-0D whole-heart closed-loop electromechanical simulations while accounting for 43 model parameters, describing single cell through to whole organ and cardiovascular hemodynamics. The trained LNODEs provides a compact and efficient representation of the 3D-0D model in a latent space by means of a feedforward fully-connected Artificial Neural Network that retains 3 hidden layers with 13 neurons per layer and allows for 300x real-time numerical simulations of the cardiac function on a single processor of a standard laptop. This surrogate model is employed to perform global sensitivity analysis and robust parameter estimation with uncertainty quantification in 3 hours of computations, still on a single processor. We match pressure and volume time traces unseen by the LNODEs during the training phase and we calibrate 4 to 11 model parameters while also providing their posterior distribution. This paper introduces the most advanced surrogate model of cardiac function available in the literature and opens new important venues for parameter calibration in cardiac digital twins.
翻訳日:2023-06-09 13:28:12 公開日:2023-06-08
# IWSLT 2023におけるKITの多言語音声翻訳システム

KIT's Multilingual Speech Translation System for IWSLT 2023 ( http://arxiv.org/abs/2306.05320v1 )

ライセンス: Link先を確認
Danni Liu, Thai Binh Nguyen, Sai Koneru, Enes Yavuz Ugan, Ngoc-Quan Pham, Tuan-Nam Nguyen, Tu Anh Dinh, Carlos Mullov, Alexander Waibel, Jan Niehues(参考訳) 多くの既存の音声翻訳ベンチマークは、高品質な録音条件におけるネイティブ英語の音声に焦点を当てている。 本稿では,IWSLT 2023の多言語トラックにおける音声翻訳システムについて述べる。 テスト条件は、アクセント付き入力音声と用語読解内容を特徴とする。 様々なリソースを持つ10の言語に翻訳する必要がある。 対象ドメインからのトレーニングデータがない場合、音声翻訳に+0.8BLEUを有効適応するために検索ベースアプローチ(kNN-MT)を用いる。 また、データ拡張からインクリメンタルなトレーニングデータを簡単に統合するためにアダプタを使用し、再トレーニングのパフォーマンスにマッチしていることを示します。 ケースドシステムは、異なるモジュールによって特定のターゲットドメインに対してより容易に適応可能であることを観察する。 提案手法は, TEDトークとよく似ているが, 科学的な音声翻訳において, エンドツーエンドの音声システムよりもかなり優れている。

Many existing speech translation benchmarks focus on native-English speech in high-quality recording conditions, which often do not match the conditions in real-life use-cases. In this paper, we describe our speech translation system for the multilingual track of IWSLT 2023, which focuses on the translation of scientific conference talks. The test condition features accented input speech and terminology-dense contents. The tasks requires translation into 10 languages of varying amounts of resources. In absence of training data from the target domain, we use a retrieval-based approach (kNN-MT) for effective adaptation (+0.8 BLEU for speech translation). We also use adapters to easily integrate incremental training data from data augmentation, and show that it matches the performance of re-training. We observe that cascaded systems are more easily adaptable towards specific target domains, due to their separate modules. Our cascaded speech system substantially outperforms its end-to-end counterpart on scientific talk translation, although their performance remains similar on TED talks.
翻訳日:2023-06-09 13:27:42 公開日:2023-06-08
# 衛星観測特徴と擬似残差を用いたRNNに基づくGNSS測位

RNN-Based GNSS Positioning using Satellite Measurement Features and Pseudorange Residuals ( http://arxiv.org/abs/2306.05319v1 )

ライセンス: Link先を確認
Ibrahim Sbeity, Christophe Villien, Beno\^it Denis, and E. Veronica Belmega(参考訳) グローバル・ナビゲーション・サテライト・システム(GNSS)の文脈では、特に一新世のシナリオにおいて、測度が位置決め精度に強く影響していることを考えると、最も正確な擬似距離の貢献を選択することに関して、利用可能な衛星の数が増えていることが多くの課題となっている。 この研究は、リンク単位の測定品質係数を予測する機械学習の可能性を活用し、測定重み付けを最適化する。 この目的のために、条件付き擬似範囲残差やリンク毎衛星測度(例えば、キャリア間電力密度比とその経験統計、衛星高度、キャリア位相ロック時間)などの不均一な特徴からなるカスタマイズ行列を用いる。 このマトリックスは、リカレントニューラルネットワーク(recurrent neural network、rnn)(long-short term memory(lstm)ネットワーク)への入力として供給される。 大規模フィールド計測から得られた実データに対する実験結果から,提案手法が従来手法の重み付けおよび選択戦略より優れている可能性が示された。

In the Global Navigation Satellite System (GNSS) context, the growing number of available satellites has lead to many challenges when it comes to choosing the most accurate pseudorange contributions, given the strong impact of biased measurements on positioning accuracy, particularly in single-epoch scenarios. This work leverages the potential of machine learning in predicting link-wise measurement quality factors and, hence, optimize measurement weighting. For this purpose, we use a customized matrix composed of heterogeneous features such as conditional pseudorange residuals and per-link satellite metrics (e.g., carrier-to-noise power density ratio and its empirical statistics, satellite elevation, carrier phase lock time). This matrix is then fed as an input to a recurrent neural network (RNN) (i.e., a long-short term memory (LSTM) network). Our experimental results on real data, obtained from extensive field measurements, demonstrate the high potential of our proposed solution being able to outperform traditional measurements weighting and selection strategies from state-of-the-art.
翻訳日:2023-06-09 13:27:26 公開日:2023-06-08
# ダイヤモンドにおける窒素空洞中心の零場分裂の温度依存性に関する物理的動機付け解析式

A physically motivated analytical expression for the temperature dependence of the zero-field splitting of the nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2306.05318v1 )

ライセンス: Link先を確認
M. C. Cambria, G. Thiering, A. Norambuena, H. T. Dinani, A. Gardill, I. Kemeny, V. Lordi, A. Gali, J. R. Maze, and S. Kolkowitz(参考訳) m_{s}=0\rangle$と$|m_{s}=\pm 1\rangle$レベルの間のゼロフィールド分割(zfs)の温度依存性は、幅広い環境において強固なナノスケール温度計として使用できる。 しかし, 異なる温度範囲におけるこれらの依存性を多数測定したにもかかわらず, NV 中心の ZFS のスケーリングを観測する解析的表現は, 全温度にわたって行われていない。 ここでは,2つの代表的なフォノンモードの占有数に比例してZFSがシフトするすべての実験観測と一致する,NV中心のZFSの温度依存性に関する,単純で解析的,物理的動機付き表現を示す。 以前のモデルとは対照的に、我々の表現は適合領域外では分岐しない。 本モデルは,超純度バルクダイヤモンド中の単一nv中心におけるzfsの15~500k実験値と定量的に一致し,先行モデルと実験データとの比較を行った。

The temperature dependence of the zero-field splitting (ZFS) between the $|m_{s}=0\rangle$ and $|m_{s}=\pm 1\rangle$ levels of the nitrogen-vacancy (NV) center's electronic ground-state spin triplet can be used as a robust nanoscale thermometer in a broad range of environments. However, despite numerous measurements of this dependence in different temperature ranges, to our knowledge no analytical expression has been put forward that captures the scaling of the ZFS of the NV center across all relevant temperatures. Here we present a simple, analytical, and physically motivated expression for the temperature dependence of the NV center's ZFS that matches all experimental observations, in which the ZFS shifts in proportion to the occupation numbers of two representative phonon modes. In contrast to prior models our expression does not diverge outside the regions of fitting. We show that our model quantitatively matches experimental measurements of the ZFS from 15 to 500 K in single NV centers in ultra-pure bulk diamond, and we compare our model and measurements to prior models and experimental data.
翻訳日:2023-06-09 13:27:06 公開日:2023-06-08
# ProbSum 2023でのCUED: 要約モデルの階層的アンサンブル

CUED at ProbSum 2023: Hierarchical Ensemble of Summarization Models ( http://arxiv.org/abs/2306.05317v1 )

ライセンス: Link先を確認
Potsawee Manakul, Yassir Fathullah, Adian Liusie, Vyas Raina, Vatsal Raina, Mark Gales(参考訳) 本稿では,患者の医療進歩ノートを限られたデータで要約することの課題について考察する。 バイオNLPワークショップ2023における課題リスト要約(Shared Task 1A)では,臨床T5の微調整が他の抽出,抽象的,ゼロショットベースラインよりも優れ,医用メモ要約のための合理的なベースラインシステムが得られることを示した。 さらに,様々な微調整された臨床用t5モデルのトークンレベルアンサンブルと,最小ベイズリスク(mbr)デコードからなる階層型要約モデル(hesm)を導入する。 我々のHESMアプローチは,性能向上に大きく寄与し,保持された課題データに基づいて評価すると,共有タスクリーダーボードの上位で最高の性能を示すROUGE-Lが32.77と達成された。

In this paper, we consider the challenge of summarizing patients' medical progress notes in a limited data setting. For the Problem List Summarization (shared task 1A) at the BioNLP Workshop 2023, we demonstrate that Clinical-T5 fine-tuned to 765 medical clinic notes outperforms other extractive, abstractive and zero-shot baselines, yielding reasonable baseline systems for medical note summarization. Further, we introduce Hierarchical Ensemble of Summarization Models (HESM), consisting of token-level ensembles of diverse fine-tuned Clinical-T5 models, followed by Minimum Bayes Risk (MBR) decoding. Our HESM approach lead to a considerable summarization performance boost, and when evaluated on held-out challenge data achieved a ROUGE-L of 32.77, which was the best-performing system at the top of the shared task leaderboard.
翻訳日:2023-06-09 13:26:46 公開日:2023-06-08
# 混合次元異方性格子模型におけるスピンスクイーズ

Spin squeezing in mixed-dimensional anisotropic lattice models ( http://arxiv.org/abs/2306.05313v1 )

ライセンス: Link先を確認
Mikhail Mamaev, Diego Barberena, Ana Maria Rey(参考訳) 本稿では,3次元格子中のスピン-1/2粒子間の近接相互作用によるスケーラブルなスピンスクイーズを生成するための理論的スキームについて述べる。 我々は格子の個々の平面内で強い等方性ハイゼンベルク相互作用を用いることを提案し、構成スピン-1/2は大きな集合スピンとして振る舞う。 これらの大きなスピンは格子の第3方向に沿ってXXZ異方性相互作用と結合される。 このシステムは、重力のような外部線形ポテンシャルを受ける3次元光学格子における超交換相互作用とスピン軌道カップリング(SOC)の存在により、スピン異方性相互作用を生成することができる。 この設定では, ホールの存在下においても, スピンスクイーズによりシステムサイズが大きくなることにより, 幅広いパラメータが向上することを示す。

We describe a theoretical scheme for generating scalable spin squeezing with nearest-neighbour interactions between spin-1/2 particles in a 3D lattice, which are naturally present in state-of-the-art 3D optical lattice clocks. We propose to use strong isotropic Heisenberg interactions within individual planes of the lattice, forcing the constituent spin-1/2s to behave as large collective spins. These large spins are then coupled with XXZ anisotropic interactions along a third direction of the lattice. This system can be realized via superexchange interactions in a 3D optical lattice subject to an external linear potential, such as gravity, and in the presence of spin-orbit coupling (SOC) to generate spin anisotropic interactions. We show there is a wide range of parameters in this setting where the spin squeezing improves with increasing system size even in the presence of holes.
翻訳日:2023-06-09 13:26:24 公開日:2023-06-08
# 大規模超電導多ビットプロセッサ用容量接続パッドを用いた可変結合アーキテクチャ

Tunable Coupling Architectures with Capacitively Connecting Pads for Large-Scale Superconducting Multi-Qubit Processors ( http://arxiv.org/abs/2306.05312v1 )

ライセンス: Link先を確認
Gui-Han Liang, Xiao-Hui Song, Cheng-Lin Deng, Xu-Yang Gu, Yu Yan, Zheng-Yang Mei, Si-Lu Zhao, Yi-Zhou Bu, Yong-Xi Xiao, Yi-Han Yu, Ming-Chuan Wang, Tong Liu, Yun-Hao Shi, He Zhang, Xiang Li, Li Li, Jing-Zhe Wang, Ye Tian, Shi-Ping Zhao, Kai Xu, Heng Fan, Zhong-Cheng Xiang, and Dong-Ning Zheng(参考訳) 超伝導量子ビットの大規模統合のための可変量子ビット間カップリング方式を提案し,実験的に検証した。 このスキームの重要な特徴は、qubit と tunable coupling element 間の接続パッドの挿入である。 このように、2つの量子ビット間の距離は数ミリメートルに大きく増加し、制御線路やリードアウト共振器などの必要な構造を配置するのに十分なスペースが残される。 量子ビット間距離の増大により、フリップチッププロセスの配線スペースが増加し、キュービット間のクロストークが低減される。 我々は、Tunable Coupler with Capacitively Connecting Pad (TCCP)という用語を用いて、トランスモンカプラと容量型接続パッドからなる調整可能な結合部を名付ける。 接続パッドの配置が異なるため、様々なTCCPアーキテクチャを実現することができる。 我々は,tccpをカップリングに使用するマルチキュービットデバイスの設計と試作を行った。 測定結果から,T_1$やT_2$などのTCPが結合した量子ビットの性能は,TCCPのない従来のトランペット量子ビットと類似していた。 一方,TCCPでは,設計上のパラメータを適切に調整することにより,有効結合強度と量子ビット間の低残留ZZ相互作用の広い調整範囲を示した。 最後に,TCCPを用いた断熱的CZゲートの実装に成功した。 さらに,TCCPを導入することにより,フリップチッププロセスの実現と,異なるチップ間の可変結合量子ビットについても検討する。

We have proposed and experimentally verified a tunable inter-qubit coupling scheme for large-scale integration of superconducting qubits. The key feature of the scheme is the insertion of connecting pads between qubit and tunable coupling element. In such a way, the distance between two qubits can be increased considerably to a few millimeters, leaving enough space for arranging control lines, readout resonators and other necessary structures. The increased inter-qubit distance provides more wiring space for flip-chip process and reduces crosstalk between qubits and from control lines to qubits. We use the term Tunable Coupler with Capacitively Connecting Pad (TCCP) to name the tunable coupling part that consists of a transmon coupler and capacitively connecting pads. With the different placement of connecting pads, different TCCP architectures can be realized. We have designed and fabricated a few multi-qubit devices in which TCCP is used for coupling. The measured results show that the performance of the qubits coupled by the TCCP, such as $T_1$ and $T_2$, was similar to that of the traditional transmon qubits without TCCP. Meanwhile, our TCCP also exhibited a wide tunable range of the effective coupling strength and a low residual ZZ interaction between the qubits by properly tuning the parameters on the design. Finally, we successfully implemented an adiabatic CZ gate with TCCP. Furthermore, by introducing TCCP, we also discuss the realization of the flip-chip process and tunable coupling qubits between different chips.
翻訳日:2023-06-09 13:26:09 公開日:2023-06-08
# 監視記録から再構成した3次元骨格を用いた地震活動予算予測モデル

Predictive Modeling of Equine Activity Budgets Using a 3D Skeleton Reconstructed from Surveillance Recordings ( http://arxiv.org/abs/2306.05311v1 )

ライセンス: Link先を確認
Ernest Pokropek, Sofia Broom\'e, Pia Haubro Andersen, Hedvig Kjellstr\"om(参考訳) 本研究では,4つの同時監視カメラ記録から馬の3Dポーズを再構築するパイプラインを提案する。 私たちの環境は、カメラの視野の制限や、比較的閉じて小さな環境など、取り組まなければならない興味深い課題があります。 パイプラインは、2Dマーカーレスポーズ推定モデルをトレーニングして、すべての視点で作業し、それをビデオに適用し、三角測量を実行する。 本稿では,結果の数値評価(エラー解析)と,選択した行動予測の下流課題における達成された行動の有用性を示す。 ウマの行動予測モデルの解析では、痛みを誘発する馬に偏りがみられ、痛みや健康な被験者の行動がどのように変化するかの理解と一致した。

In this work, we present a pipeline to reconstruct the 3D pose of a horse from 4 simultaneous surveillance camera recordings. Our environment poses interesting challenges to tackle, such as limited field view of the cameras and a relatively closed and small environment. The pipeline consists of training a 2D markerless pose estimation model to work on every viewpoint, then applying it to the videos and performing triangulation. We present numerical evaluation of the results (error analysis), as well as show the utility of the achieved poses in downstream tasks of selected behavioral predictions. Our analysis of the predictive model for equine behavior showed a bias towards pain-induced horses, which aligns with our understanding of how behavior varies across painful and healthy subjects.
翻訳日:2023-06-09 13:25:45 公開日:2023-06-08
# 正規電位に基づくプレイヤーレーティング

Ordinal Potential-based Player Rating ( http://arxiv.org/abs/2306.05366v1 )

ライセンス: Link先を確認
Nelson Vadori and Rahul Savani(参考訳) 2人のプレイヤーが対称なゼロサムゲームが推移的である場合、純粋な戦略である$x$、$y$、$z$、$x$が$y$より良い場合、$y$は$z$よりも良い場合、$x$は$z$よりよい。 近年,戦略間の推移的関係を維持できないため,ゲームの推移的要素を正しく抽出できないことが明らかとなった。 私たちの最初の貢献は、正しい空間で計算されたとき、エロ評価が実際に遷移性を保存することを示すことです。 正確には、適切な可逆写像$\varphi$を用いて、まずゲームに$\varphi$を適用し、次にelo ratingsを計算し、$\varphi^{-1}$を適用して元の空間に戻る。 我々は、加法的に分離可能なポテンシャル関数を持つ順序ポテンシャルゲームの弱い変種として推移ゲームの特徴を与える。 この知見を応用して、推移性次数の概念を導入し、推移ゲームのペイオフをポテンシャル関数に変換するのに必要な可逆写像の最小個を導入する。 推移性順序は推移ゲームを分類するためのツールであり、エロゲームは順序1の推移ゲームの一例である。 ほとんどの実世界のゲームは推移的成分と非推移的成分の両方を持ち、遷移性の分析を用いて任意のゲームの推移的成分を抽出する。 推移性は記号ランクの概念と結びついている: 推移性ゲームは符号ランク2を持ち、任意のゲームはより高い符号ランクを持つ。 ニューラルネットワークをベースとしたアーキテクチャを用いて,任意のゲームから過渡的かつ循環的なコンポーネントへの分解を学習し,ゲームのサインパターンを優先する。 特に、推移ゲームは、その分解において、ポテンシャル成分である1つの成分しか持たない。 実世界のゲームからの経験的データと玩具の例を用いて,我々の方法論を総合的に評価する。

A two-player symmetric zero-sum game is transitive if for any pure strategies $x$, $y$, $z$, if $x$ is better than $y$, and $y$ is better than $z$, then $x$ is better than $z$. It was recently observed that the Elo rating fails at preserving transitive relations among strategies and therefore cannot correctly extract the transitive component of a game. Our first contribution is to show that the Elo rating actually does preserve transitivity when computed in the right space. Precisely, using a suitable invertible mapping $\varphi$, we first apply $\varphi$ to the game, then compute Elo ratings, then go back to the original space by applying $\varphi^{-1}$. We provide a characterization of transitive games as a weak variant of ordinal potential games with additively separable potential functions. Leveraging this insight, we introduce the concept of transitivity order, the minimum number of invertible mappings required to transform the payoff of a transitive game into (differences of) its potential function. The transitivity order is a tool to classify transitive games, with Elo games being an example of transitive games of order one. Most real-world games have both transitive and non-transitive (cyclic) components, and we use our analysis of transitivity to extract the transitive (potential) component of an arbitrary game. We link transitivity to the known concept of sign-rank: transitive games have sign-rank two; arbitrary games may have higher sign-rank. Using a neural network-based architecture, we learn a decomposition of an arbitrary game into transitive and cyclic components that prioritises capturing the sign pattern of the game. In particular, a transitive game always has just one component in its decomposition, the potential component. We provide a comprehensive evaluation of our methodology using both toy examples and empirical data from real-world games.
翻訳日:2023-06-09 13:17:58 公開日:2023-06-08
# IF-PCAによる対象クラスタリングと最近の方法

Subject clustering by IF-PCA and several recent methods ( http://arxiv.org/abs/2306.05363v1 )

ライセンス: Link先を確認
Dieyi Chen, Jiashun Jin, Zheng Tracy Ke(参考訳) 対象クラスタリング(患者や細胞などの対象を複数のグループに分類するための計測機能の使用)は大きな関心事である。 近年では、教師なしディープラーニング(unsupervised deep learning:udl)が注目されている多くのアプローチが提案されている。 興味深い2つの質問 (a)udlと他のアプローチの強みを組み合わせる方法、及び (b)これらのアプローチがどう比較されるか。 Influential Feature PCA (IF-PCA) のアイデアと組み合わせ, 主観的クラスタリングのための新しい手法として IF-VAE を提案する。 IF-VAEを解析し、IF-PCA, VAE, Seurat, SC3)の遺伝子マイクロアレイデータセットと8ドルの単細胞RNA-seqデータセットを比較した。 IF-VAEはVAEよりも有意に改善するが,IF-PCAは依然として低性能である。 また、IF-PCAは非常に競争力があり、シングルセルデータセットの8ドルに対してSeuratとSC3をわずかに上回ります。 IF-PCAは概念的には単純であり、微妙な分析が可能である。 IF-PCAはRare/Weakモデルで相転移を達成可能であることを示す。 対照的に、Seurat と SC3 はより複雑で理論的に解析が難しい(これらの理由から、それらの最適性は不明確である)。

Subject clustering (i.e., the use of measured features to cluster subjects, such as patients or cells, into multiple groups) is a problem of great interest. In recent years, many approaches were proposed, among which unsupervised deep learning (UDL) has received a great deal of attention. Two interesting questions are (a) how to combine the strengths of UDL and other approaches, and (b) how these approaches compare to one other. We combine Variational Auto-Encoder (VAE), a popular UDL approach, with the recent idea of Influential Feature PCA (IF-PCA), and propose IF-VAE as a new method for subject clustering. We study IF-VAE and compare it with several other methods (including IF-PCA, VAE, Seurat, and SC3) on $10$ gene microarray data sets and $8$ single-cell RNA-seq data sets. We find that IF-VAE significantly improves over VAE, but still underperforms IF-PCA. We also find that IF-PCA is quite competitive, which slightly outperforms Seurat and SC3 over the $8$ single-cell data sets. IF-PCA is conceptually simple and permits delicate analysis. We demonstrate that IF-PCA is capable of achieving the phase transition in a Rare/Weak model. Comparatively, Seurat and SC3 are more complex and theoretically difficult to analyze (for these reasons, their optimality remains unclear).
翻訳日:2023-06-09 13:17:21 公開日:2023-06-08
# BEA-2023におけるAudioシステム : 教育対話におけるAI教師の反応生成タスク

The ADAIO System at the BEA-2023 Shared Task on Generating AI Teacher Responses in Educational Dialogues ( http://arxiv.org/abs/2306.05360v1 )

ライセンス: Link先を確認
Adaeze Adigwe (1), Zheng Yuan (2 and 3)((1) University of Edinburgh, United Kingdom, (2) Istituto Italiano di Tecnologia, Italy, (3) Universit\`a di Ferrara, Italy)(参考訳) 本稿では,教育用アプリケーション構築におけるadaioチームによるシステムエントリ(bea)2023年教育用対話におけるai教師応答生成タスクについて述べる。 この課題は,教師と教師の対話の中で,適切な応答を生み出すためのAI教師として,最先端の生成モデルの性能を評価することである。 本システムは, OpenAI GPT-3 を用いた各種ベースラインモデルの評価と, 教師応答生成のための OpenAI モデル作成のための多様なプロンプトの設計を含む。 課題の後,OpenAI テキスト-davinci-003 モデルを用いた数発のプロンプトベースアプローチを用いて2位に到達した。 その結果、AI教師の役割において、大規模言語モデル、特にOpenAIのGPT-3のいくつかのショット学習能力を強調した。

This paper presents the ADAIO team's system entry in the Building Educational Applications (BEA) 2023 Shared Task on Generating AI Teacher Responses in Educational Dialogues. The task aims to assess the performance of state-of-the-art generative models as AI teachers in producing suitable responses within a student-teacher dialogue. Our system comprises evaluating various baseline models using OpenAI GPT-3 and designing diverse prompts to prompt the OpenAI models for teacher response generation. After the challenge, our system achieved second place by employing a few-shot prompt-based approach with the OpenAI text-davinci-003 model. The results highlight the few-shot learning capabilities of large-language models, particularly OpenAI's GPT-3, in the role of AI teachers.
翻訳日:2023-06-09 13:16:55 公開日:2023-06-08
# テキスト・画像生成モデルによる教師なし合成概念の発見

Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models ( http://arxiv.org/abs/2306.05357v1 )

ライセンス: Link先を確認
Nan Liu, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba(参考訳) テキストから画像への生成モデルは、異なるドメイン間で高解像度の画像合成を可能にするが、ユーザーは生成したいコンテンツを指定する必要がある。 本稿では,異なる画像の集合が与えられた場合,各画像を表す生成概念を見つけることができるかという逆問題を考える。 本稿では,画像の集合から生成概念を発見し,絵画,絵画,絵画,照明の異なるスタイルをキッチンシーンから切り離し,イメージネット画像から画像クラスを発見するための教師なしアプローチを提案する。 このような生成概念が画像の内容を正確に表現し,再結合して新たな芸術的およびハイブリッドな画像を生成する方法を示し,下流分類タスクの表現としてさらに活用する。

Text-to-image generative models have enabled high-resolution image synthesis across different domains, but require users to specify the content they wish to generate. In this paper, we consider the inverse problem -- given a collection of different images, can we discover the generative concepts that represent each image? We present an unsupervised approach to discover generative concepts from a collection of images, disentangling different art styles in paintings, objects, and lighting from kitchen scenes, and discovering image classes given ImageNet images. We show how such generative concepts can accurately represent the content of images, be recombined and composed to generate new artistic and hybrid images, and be further used as a representation for downstream classification tasks.
翻訳日:2023-06-09 13:16:39 公開日:2023-06-08
# ReliableSwap:信頼性の高いスーパービジョンで顔のスワップを拡大

ReliableSwap: Boosting General Face Swapping Via Reliable Supervision ( http://arxiv.org/abs/2306.05356v1 )

ライセンス: Link先を確認
Ge Yuan, Maomao Li, Yong Zhang, Huicheng Zheng(参考訳) ほとんど全ての高度な顔交換アプローチは、リコンストラクションをプロキシタスクとして、すなわち、ターゲットとソースが同一人物に属している場合にのみ、監督を行う。 そうでなければ、ピクセルレベルの監督が欠如しているため、これらの手法はソースアイデンティティの保存に苦慮する。 本稿は,学習中の対象とソースの同一性が異なる場合,画像レベルの指導を行う「サイクルトリプレット」と呼ばれる信頼性の高い監督手法を構築することを提案する。 具体的には、顔再現とブレンド技術を用いて、実際の画像からスワップされた顔を事前に合成し、合成された顔はソースのアイデンティティとターゲット属性を保存する。 しかし、そのような合成顔にはいくつかの人工物があるかもしれない。 本研究は, 人工物の可能性を避け, 自然に近いネットワーク出力の分布を推し進めるために, 顔交換の訓練段階において, 実顔を信頼性の高い監督対象として, 合成画像を入力として逆向きに取り出す。 さらに,既存の方法では,顔の形や口などの下面の詳細を音源から失う傾向にある。 本稿では,下面の識別的埋め込みを拡張として,FixerNetを設計する。 フェーススワッピングフレームワークであるReliableSwapは、既存のフェースワップネットワークの性能を無視できるオーバーヘッドで向上させることができる。 広範な実験により,信頼性の高いswapの有効性が実証された。 プロジェクトページはhttps://reliable-swap.github.io/。

Almost all advanced face swapping approaches use reconstruction as the proxy task, i.e., supervision only exists when the target and source belong to the same person. Otherwise, lacking pixel-level supervision, these methods struggle for source identity preservation. This paper proposes to construct reliable supervision, dubbed cycle triplets, which serves as the image-level guidance when the source identity differs from the target one during training. Specifically, we use face reenactment and blending techniques to synthesize the swapped face from real images in advance, where the synthetic face preserves source identity and target attributes. However, there may be some artifacts in such a synthetic face. To avoid the potential artifacts and drive the distribution of the network output close to the natural one, we reversely take synthetic images as input while the real face as reliable supervision during the training stage of face swapping. Besides, we empirically find that the existing methods tend to lose lower-face details like face shape and mouth from the source. This paper additionally designs a FixerNet, providing discriminative embeddings of lower faces as an enhancement. Our face swapping framework, named ReliableSwap, can boost the performance of any existing face swapping network with negligible overhead. Extensive experiments demonstrate the efficacy of our ReliableSwap, especially in identity preservation. The project page is https://reliable-swap.github.io/.
翻訳日:2023-06-09 13:16:25 公開日:2023-06-08
# 交渉による推論--相対的な一般化を正当化する

Negotiated Reasoning: On Provably Addressing Relative Over-Generalization ( http://arxiv.org/abs/2306.05353v1 )

ライセンス: Link先を確認
Junjie Sheng, Wenhao Li, Bo Jin, Hongyuan Zha, Jun Wang, Xiangfeng Wang(参考訳) 過度な一般化は認知科学における厄介な問題であり、過去の経験によって人々は過度に慎重になる可能性がある。 マルチエージェント強化学習(MARL)のエージェントも、人々が行うように相対的な過剰一般化(RO)に悩まされ、準最適協力に固執している。 近年の手法では, エージェントに推論能力を割り当てることによって, ROをアルゴリズム的にかつ経験的に緩和できることが示されているが, ROの理論的理解の欠如が指摘されている。 本稿では,MARL法が一定の条件下で一貫した推論条件を満たす場合,ROを回避できることを最初に証明する。 次に、まず理論的正当化を伴う推論とROの接続を構築する、交渉推論と呼ばれる新しい推論フレームワークを導入する。 その後,svnr(stein variational negotiationd reasoning)という,最大エントロピー政策の反復でmarlのroを確実に回避するネゴシエーションポリシを導出するアルゴリズムを提案する。 この手法はさらに、償却学習のためのニューラルネットワークでパラメータ化され、計算効率が向上する。 多くの RO チャレング環境における数値実験により SVNR の優位性と効率性を示す。

Over-generalization is a thorny issue in cognitive science, where people may become overly cautious due to past experiences. Agents in multi-agent reinforcement learning (MARL) also have been found to suffer relative over-generalization (RO) as people do and stuck to sub-optimal cooperation. Recent methods have shown that assigning reasoning ability to agents can mitigate RO algorithmically and empirically, but there has been a lack of theoretical understanding of RO, let alone designing provably RO-free methods. This paper first proves that RO can be avoided when the MARL method satisfies a consistent reasoning requirement under certain conditions. Then we introduce a novel reasoning framework, called negotiated reasoning, that first builds the connection between reasoning and RO with theoretical justifications. After that, we propose an instantiated algorithm, Stein variational negotiated reasoning (SVNR), which uses Stein variational gradient descent to derive a negotiation policy that provably avoids RO in MARL under maximum entropy policy iteration. The method is further parameterized with neural networks for amortized learning, making computation efficient. Numerical experiments on many RO-challenged environments demonstrate the superiority and efficiency of SVNR compared to state-of-the-art methods in addressing RO.
翻訳日:2023-06-09 13:16:01 公開日:2023-06-08
# 結晶材料特性予測のための結晶特性評価フレームワーク

A Crystal-Specific Pre-Training Framework for Crystal Material Property Prediction ( http://arxiv.org/abs/2306.05344v1 )

ライセンス: Link先を確認
Haomin Yu, Yanru Song, Jilin Hu, Chenjuan Guo, Bin Yang(参考訳) 結晶特性予測は、新しい材料を開発する上で重要な側面である。 しかし、結晶の研究をスピードアップするための技術的課題は2つある。 第一に、結晶特性のラベル付けは、物理的シミュレーションや実験実験にかかわる高コストと時間のために本質的に困難である。 第二に、結晶は周期的不変性( periodic invariance)として知られる特定の量子化学原理に固執する。 これらの課題を克服するために,自己スーパービジョンによる結晶表現学習のための結晶特異的事前学習フレームワークを提案する。 このフレームワークは、結晶特性予測に利用可能な限定ラベルを緩和するために、表現学習を強化するミューテックスマスク戦略を設計する。 さらに, 結晶構造の特定の周期的不変性を考慮して, 周期的不変性多グラフモジュールと周期的属性学習をフレームワーク内で構築する。 このフレームワークは8つの異なるタスクでテストされている。 これらの課題に対する実験結果から,フレームワークは期待できる予測性能を達成し,最近の強いベースラインを上回り得ることが示された。

Crystal property prediction is a crucial aspect of developing novel materials. However, there are two technical challenges to be addressed for speeding up the investigation of crystals. First, labeling crystal properties is intrinsically difficult due to the high cost and time involved in physical simulations or lab experiments. Second, crystals adhere to a specific quantum chemical principle known as periodic invariance, which is often not captured by existing machine learning methods. To overcome these challenges, we propose the crystal-specific pre-training framework for learning crystal representations with self-supervision. The framework designs a mutex mask strategy for enhancing representation learning so as to alleviate the limited labels available for crystal property prediction. Moreover, we take into account the specific periodic invariance in crystal structures by developing a periodic invariance multi-graph module and periodic attribute learning within our framework. This framework has been tested on eight different tasks. The experimental results on these tasks show that the framework achieves promising prediction performance and is able to outperform recent strong baselines.
翻訳日:2023-06-09 13:15:39 公開日:2023-06-08
# 北極永久凍土の高分解能マッピングとセグメンテーションのためのリアルタイムジオAI

Real-time GeoAI for High-resolution Mapping and Segmentation of Arctic Permafrost Features ( http://arxiv.org/abs/2306.05341v1 )

ライセンス: Link先を確認
Wenwen Li, Chia-Yu Hsu, Sizhe Wang, Chandi Witharana, Anna Liljedahl(参考訳) 本稿では,大規模画像解析のためのリアルタイムGeoAIワークフローと,微細粒度での北極永久凍土の特徴のセグメンテーションを紹介する。 この分析では、非常に高解像度(0.5m)の商用画像が使用される。 リアルタイムの予測を実現するために、私たちのワークフローでは、画像シーン内のオブジェクトの位置を正確に特定するためにインスタンスアクティベーションマップを導入し、使用する、軽量でディープラーニングベースのインスタンスセグメンテーションモデルであるSparseInstを採用しています。 実験の結果,一般的なMask-RCNNモデルよりもはるかに高速な推論速度で予測精度を向上できることがわかった。

This paper introduces a real-time GeoAI workflow for large-scale image analysis and the segmentation of Arctic permafrost features at a fine-granularity. Very high-resolution (0.5m) commercial imagery is used in this analysis. To achieve real-time prediction, our workflow employs a lightweight, deep learning-based instance segmentation model, SparseInst, which introduces and uses Instance Activation Maps to accurately locate the position of objects within the image scene. Experimental results show that the model can achieve better accuracy of prediction at a much faster inference speed than the popular Mask-RCNN model.
翻訳日:2023-06-09 13:15:21 公開日:2023-06-08
# 超低温スピン1混合系における最大絡み合い状態

Maximum Entangled State in Ultracold Spin-1 Mixture ( http://arxiv.org/abs/2306.05335v1 )

ライセンス: Link先を確認
Jie Zhang Longsheng Yu, Zezhen He, and Pengjun Wang(参考訳) 相転移による大規模絡み合いを決定論的に生成する手法に着想を得て, ヘテロ核スピン交換衝突を考慮したスピン-1縮合混合物の基底状態特性について検討した。 二元結合二準位系の解析に有効なモデルを開発し,基底状態相転移の研究を行った。 同じ数の分布を持つ3つの代表量子状態が数ゆらぎによって研究され、区別される。 我々は、余剰磁場が特別に選択された場合、混合液中にグリーンベルガー・ホーネ・ザイリンガー状態(GHZ)が存在することを示した。 混合物に絡み合った状態を作る利点の一つは、マイクロ波-磁気協力を考えるのではなく、外部磁場を調整するだけでよいことである。 最後に, アルカリ金属原子混合物中のヘテロ核多体エンタングルメントを実験的に生成する可能性について検討した。

Inspired by the method that can deterministically generated the massive entanglement through phase transitions, we study the ground state properties of a spin-1 condensate mixture, under the premise that the heteronuclear spin-exchange collision is taken into account. We developed a effective model to analyze the binary-coupled two-level system and studied the ground state phase transitions. Three representative quantum states with the same number distribution are studied and distinguished through the number fluctuations. We demonstrate that there will be the GreenbergerHorne-Zeilinger (GHZ) state in the mixture if the the extra magnetic field is specifically selected or adiabatically adjusted. One advantage of preparing entangled states in mixtures is that we only need to adjust the external magnetic field, instead of considering the microwaves-magnetic cooperation. Finally we estimate the feasibility of experimentally generating the heteronuclear many-body entanglement in the alkali-metal atomic mixture.
翻訳日:2023-06-09 13:15:09 公開日:2023-06-08
# 深部情報を用いたベイズ行列融合モデルの能動的学習

Actively learning a Bayesian matrix fusion model with deep side information ( http://arxiv.org/abs/2306.05331v1 )

ライセンス: Link先を確認
Yangyang Yu, Jordan W. Suchow(参考訳) 画像や概念の高次元深層ニューラルネットワーク表現は、多様な刺激の人間の注釈を予測するために調整できる。 しかし、そのようなアライメントにはコストのかかる行動応答の収集が必要であるため、実際には深層空間はわずかにサンプリングされるのみである。 本稿では,実験刺激を適応的にサンプリングし,深い側面情報を持つベイズ行列因子化モデルを効率的に学習するアクティブラーニング手法を提案する。 我々は受動ベースラインよりも大きな効率向上を観察する。 さらに、逐次バッチサンプリング戦略により、従来の実験実験から収集した小さなデータセットだけでなく、事前学習ネットワークから得られた高次元の深い特徴表現を正確に整合させるために大規模なクラウドソースデータ収集が必要な設定にも適用することができる。

High-dimensional deep neural network representations of images and concepts can be aligned to predict human annotations of diverse stimuli. However, such alignment requires the costly collection of behavioral responses, such that, in practice, the deep-feature spaces are only ever sparsely sampled. Here, we propose an active learning approach to adaptively sampling experimental stimuli to efficiently learn a Bayesian matrix factorization model with deep side information. We observe a significant efficiency gain over a passive baseline. Furthermore, with a sequential batched sampling strategy, the algorithm is applicable not only to small datasets collected from traditional laboratory experiments but also to settings where large-scale crowdsourced data collection is needed to accurately align the high-dimensional deep feature representations derived from pre-trained networks.
翻訳日:2023-06-09 13:14:51 公開日:2023-06-08
# 雑音変動量子回路の古典的シミュレーション

Classical simulations of noisy variational quantum circuits ( http://arxiv.org/abs/2306.05400v1 )

ライセンス: Link先を確認
Enrico Fontana, Manuel S. Rudolph, Ross Duncan, Ivan Rungger, Cristina C\^irstoiu(参考訳) ノイズは量子計算に悪影響を及ぼし、より正確になるだけでなく、システムのスケールアップとともに古典的なシミュレートも容易になる。 雑音パラメータ化量子回路の期待値を推定するための古典的シミュレーションアルゴリズムLOWESA(lowweight efficient simulation algorithm)を構築した。 パラメータ化回路のスペクトル解析とパウリのバックプロパゲーションと、ノイズランダム回路のシミュレーションに関する最近のアイデアを結合する。 回路上のいくつかの条件とノイズに対する軽度の仮定の下で、LOWESAは物理誤差率と制御可能なカットオフパラメータで指数関数的に消滅する近似誤差を持つ量子ビット数(および深さ)の効率的な多項式アルゴリズムを与えることを示す。 また,相関パラメータを持つ回路クラスの実用的限界と,そのスケーリングと誤差率の低減について考察した。

Noise detrimentally affects quantum computations so that they not only become less accurate but also easier to simulate classically as systems scale up. We construct a classical simulation algorithm, LOWESA (low weight efficient simulation algorithm), for estimating expectation values of noisy parameterised quantum circuits. It combines previous results on spectral analysis of parameterised circuits with Pauli back-propagation and recent ideas for simulations of noisy random circuits. We show, under some conditions on the circuits and mild assumptions on the noise, that LOWESA gives an efficient, polynomial algorithm in the number of qubits (and depth), with approximation error that vanishes exponentially in the physical error rate and a controllable cut-off parameter. We also discuss the practical limitations of the method for circuit classes with correlated parameters and its scaling with decreasing error rates.
翻訳日:2023-06-09 13:10:12 公開日:2023-06-08
# 何でもマッティングする

Matting Anything ( http://arxiv.org/abs/2306.05399v1 )

ライセンス: Link先を確認
Jiachen Li, Jitesh Jain, Humphrey Shi(参考訳) 本稿では,画像中の任意のインスタンスのアルファマットを,柔軟かつインタラクティブな視覚的あるいは言語的ユーザプロンプトガイダンスで推定する,効率的で汎用的なフレームワークであるmatting anything model(mam)を提案する。 MAMは、以前の特殊な画像マッチングネットワークよりもいくつかの大きな利点を提供している。 (i)MAMは、セマンティック、例、単一のモデルのみでの画像マッチングを参照するなど、さまざまな種類の画像マッチングを扱うことができる。 (ii)MAMはSegment Anything Model (SAM)の機能マップを活用し、軽量のMask-to-Matte (M2M) モジュールを採用し、反復的改良によりアルファ行列を予測する。 三 SAMを組み込むことにより、MAMはトリマップからボックス、ポイント、テキストプロンプトへのインタラクティブな画像マッチングの使用に必要なユーザの介入を単純化する。 各種画像マッチングベンチマークにおけるMAMの性能評価を行い, 実験結果から, MAMは各ベンチマークにおいて, 異なる測定値の下で, 最先端の特殊画像マッチングモデルと同等の性能を達成できることを示した。 全体としては、mamは優れた一般化能力を示し、より少ないパラメータで様々なイメージマットングタスクを効果的に処理できる。 私たちのコードとモデルは、https://github.com/shi-labs/matting-anythingでオープンソースです。

In this paper, we propose the Matting Anything Model (MAM), an efficient and versatile framework for estimating the alpha matte of any instance in an image with flexible and interactive visual or linguistic user prompt guidance. MAM offers several significant advantages over previous specialized image matting networks: (i) MAM is capable of dealing with various types of image matting, including semantic, instance, and referring image matting with only a single model; (ii) MAM leverages the feature maps from the Segment Anything Model (SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha matte through iterative refinement, which has only 2.7 million trainable parameters. (iii) By incorporating SAM, MAM simplifies the user intervention required for the interactive use of image matting from the trimap to the box, point, or text prompt. We evaluate the performance of MAM on various image matting benchmarks, and the experimental results demonstrate that MAM achieves comparable performance to the state-of-the-art specialized image matting models under different metrics on each benchmark. Overall, MAM shows superior generalization ability and can effectively handle various image matting tasks with fewer parameters, making it a practical solution for unified image matting. Our code and models are open-sourced at https://github.com/SHI-Labs/Matting-Anything.
翻訳日:2023-06-09 13:09:56 公開日:2023-06-08
# コード生成によるモジュール型視覚質問応答

Modular Visual Question Answering via Code Generation ( http://arxiv.org/abs/2306.05392v1 )

ライセンス: Link先を確認
Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein(参考訳) モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。 VQAのモジュラーアプローチに対する以前の研究とは対照的に、我々のアプローチは追加のトレーニングを必要とせず、事前訓練された言語モデル(LM)、画像キャプションペアで事前訓練された視覚モデル、50のVQA例に依存している。 生成されたPythonプログラムは、算術と条件論理を用いて視覚モデルの出力を呼び出し、構成する。 コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。

We present a framework that formulates visual question answering as modular code generation. In contrast to prior work on modular approaches to VQA, our approach requires no additional training and relies on pre-trained language models (LMs), visual models pre-trained on image-caption pairs, and fifty VQA examples used for in-context learning. The generated Python programs invoke and compose the outputs of the visual models using arithmetic and conditional logic. Our approach improves accuracy on the COVR dataset by at least 3% and on the GQA dataset by roughly 2% compared to the few-shot baseline that does not employ code generation.
翻訳日:2023-06-09 13:09:16 公開日:2023-06-08
# HQ-50K:画像復元のための大規模で高品質なデータセット

HQ-50K: A Large-scale, High-quality Dataset for Image Restoration ( http://arxiv.org/abs/2306.05390v1 )

ライセンス: Link先を確認
Qinhong Yang and Dongdong Chen and Zhentao Tan and Qiankun Liu and Qi Chu and Jianmin Bao and Lu Yuan and Gang Hua and Nenghai Yu(参考訳) 本稿では,5万枚の高画質画像と,テクスチャの詳細とセマンティックな多様性を含むHQ-50Kという大規模画像復元データセットを提案する。 既存の画像復元データセットを,データスケール,解像度,圧縮率,テクスチャ詳細,セマンティクスカバレッジの5つの視点から分析する。 しかし、これらのデータセットは、いくつかの面で不足している。 対照的にHQ-50Kは、データキュレーションプロセスでこれら5つの側面をすべて考慮し、すべての要件を満たす。 また,複数の汚職タイプと未知のレベルを単一のモデルで処理可能な,エキスパート(damoe)モデルの分解対応混合も提案する。 HQ-50Kは高分解能,デノナイジング,デジペグ,デライニングなど,様々な画像復元タスクの性能を一貫して改善することを示す。 さらに,提案するDAMoEは,複数の修復作業やレベルのために設計された既存の最先端統一モデルよりも優れている。 データセットとコードは \url{https://github.com/littleyaang/hq-50k} で入手できる。

This paper introduces a new large-scale image restoration dataset, called HQ-50K, which contains 50,000 high-quality images with rich texture details and semantic diversity. We analyze existing image restoration datasets from five different perspectives, including data scale, resolution, compression rates, texture details, and semantic coverage. However, we find that all of these datasets are deficient in some aspects. In contrast, HQ-50K considers all of these five aspects during the data curation process and meets all requirements. We also present a new Degradation-Aware Mixture of Expert (DAMoE) model, which enables a single model to handle multiple corruption types and unknown levels. Our extensive experiments demonstrate that HQ-50K consistently improves the performance on various image restoration tasks, such as super-resolution, denoising, dejpeg, and deraining. Furthermore, our proposed DAMoE, trained on our \dataset, outperforms existing state-of-the-art unified models designed for multiple restoration tasks and levels. The dataset and code are available at \url{https://github.com/littleYaang/HQ-50K}.
翻訳日:2023-06-09 13:08:55 公開日:2023-06-08
# 子どもの詩における発話感情の動態--年齢による感情変化

Utterance Emotion Dynamics in Children's Poems: Emotional Changes Across Age ( http://arxiv.org/abs/2306.05387v1 )

ライセンス: Link先を確認
Daniela Teodorescu, Alona Fyshe, Saif M. Mohammad(参考訳) 精神病理学の新しい研究によると、感情状態の変化のパターン(感情のダイナミクス)は、全体的な幸福と精神の健康に関連している。 最近では、発話を通して感情のダイナミクスを追跡する作業がいくつか行われており、時間と人々を通じて大規模なデータを収集できるようになっている。 しかし, 年齢とともに感情の動態がどう変化するか, 子どもの執筆によって決定された場合, 未回答のままである。 本研究は,様々な年齢の子どもが詠んだ詩から判断される感情の動態の特徴を定量化するために,語彙と機械学習に基づくアプローチの両方を用いる。 いくつかの感情(怒り、恐怖、喜び、悲しみ、覚醒、支配など)に対して、年齢と年齢とともに一貫した価値の低下という、両者のアプローチは同じ傾向を示している。 また、年齢とともに、感情的変動、上昇率(感情的反応性)、回復率(感情的調節)が増加する。 これらの結果は、子供によって表現される感情のパターンが年齢とともにどのように変化するか、そしてメンタルヘルスとの関連性について、さらなる研究の基盤となる。

Emerging psychopathology studies are showing that patterns of changes in emotional state -- emotion dynamics -- are associated with overall well-being and mental health. More recently, there has been some work in tracking emotion dynamics through one's utterances, allowing for data to be collected on a larger scale across time and people. However, several questions about how emotion dynamics change with age, especially in children, and when determined through children's writing, remain unanswered. In this work, we use both a lexicon and a machine learning based approach to quantify characteristics of emotion dynamics determined from poems written by children of various ages. We show that both approaches point to similar trends: consistent increasing intensities for some emotions (e.g., anger, fear, joy, sadness, arousal, and dominance) with age and a consistent decreasing valence with age. We also find increasing emotional variability, rise rates (i.e., emotional reactivity), and recovery rates (i.e., emotional regulation) with age. These results act as a useful baselines for further research in how patterns of emotions expressed by children change with age, and their association with mental health.
翻訳日:2023-06-09 13:08:15 公開日:2023-06-08
# line-graph qubit ルーティング: kagome から heavy-hex など

Line-graph qubit routing: from kagome to heavy-hex and more ( http://arxiv.org/abs/2306.05385v1 )

ライセンス: Link先を確認
Joris Kattem\"olle and Seenivasan Hariharan(参考訳) 量子コンピュータは古典的コンピュータを上回る能力を持つが、現在はその能力に制限がある。 そのような制限の1つは、ハードウェアの結合グラフで捉えられるように、キュービット間の接続を制限することである。 この制限は、ハードウェアが提供するものと異なる結合グラフを必要とするアルゴリズムを実行する上での課題である。 この課題を克服し、ハードウェアを完全に活用するには、効率的なキュービットルーティング戦略が必要である。 本稿では,アルゴリズムの結合グラフが直線グラフでハードウェア結合グラフが重グラフである場合に,キュービットをルーティングするための一般的な方法である線グラフキュービットルーティングを提案する。 線形グラフ量子ビットルーティングは高速で決定論的かつ効果的であり、従来の回路のゲート数とほぼ4分の1でスケールする古典的な計算コストを必要とする一方で、SWAPオーバヘッドが元の回路の2キュービットゲートの2倍の回路を生成する。 線グラフ量子ビットルーティングを実装し,kagome,checkerboard,shuriken の量子回路をヘビーヘックス,ヘビー四角形,ヘビー四角形結合グラフのハードウェアにマッピングする上での有効性を示す。 ベンチマークは、必要となる古典的なウォールクロック時間と解の質の両方において、確立された汎用手法よりも優れたライングラフキュービットルーティング能力を示す。 線グラフ量子ビットルーティングは格子ベースのモデルの量子シミュレーションに直接的な応用があり、短期量子ハードウェアの能力の探索に役立つ。

Quantum computers have the potential to outperform classical computers, but are currently limited in their capabilities. One such limitation is the restricted connectivity between qubits, as captured by the hardware's coupling graph. This limitation poses a challenge for running algorithms that require a coupling graph different from what the hardware can provide. To overcome this challenge and fully utilize the hardware, efficient qubit routing strategies are necessary. In this paper, we introduce line-graph qubit routing, a general method for routing qubits when the algorithm's coupling graph is a line graph and the hardware coupling graph is a heavy graph. Line-graph qubit routing is fast, deterministic, and effective; it requires a classical computational cost that scales at most quadratically with the number of gates in the original circuit, while producing a circuit with a SWAP overhead of at most two times the number of two-qubit gates in the original circuit. We implement line-graph qubit routing and demonstrate its effectiveness in mapping quantum circuits on kagome, checkerboard, and shuriken lattices to hardware with heavy-hex, heavy-square, and heavy-square-octagon coupling graphs, respectively. Benchmarking shows the ability of line-graph qubit routing to outperform established general-purpose methods, both in the required classical wall-clock time and in the quality of the solution that is found. Line-graph qubit routing has direct applications in the quantum simulation of lattice-based models and aids the exploration of the capabilities of near-term quantum hardware.
翻訳日:2023-06-09 13:07:37 公開日:2023-06-08
# SAMとDINOに基づく自動画像ブレンディングアルゴリズム

Automatic Image Blending Algorithm Based on SAM and DINO ( http://arxiv.org/abs/2306.05382v1 )

ライセンス: Link先を確認
Haochen Xue, Mingyu Jin, Chong Zhang, Yuxuan Huang, Qian Weng, Xiaobo Jin(参考訳) 画像ブレンディングの分野は、視覚的に素晴らしいコンテンツを制作する能力によって近年大きな人気を集めている。 イメージブレンディングの主な目的は、オブジェクトをある画像から別の画像にシームレスにマージし、小さなマスキング調整を行うことである。 SAMは画像中のターゲットを自動的に検出し、セグメンテーションすることができる。 提案手法は,画像を自動的に融合するために意味オブジェクト検出とセグメンテーションと対応するマスク生成を組み合わせること,および(2)融合過程におけるさらなる品質向上のためのpanの利用を導入することである。 提案手法は,psnr,ssim,リアリズムなどの様々な性能指標において,多くの古典的視覚融合モデルを超える。 特に、当社のプロセスは非常に効率的で高速で、産業環境で広く適用できます。 この新たなプロセスは、視覚コンテンツ作成に革命をもたらし、様々な産業で生産性を向上させる可能性がある。

The field of image blending has gained significant popularity in recent years due to its ability to create visually stunning content. The main objective of image blending is to merge an object from one image onto another seamlessly, with minor masking adjustments. With the recent development of SAM, which can detect and segment targets in images automatically. Our approach (1) combines semantic object detection and segmentation with corresponding mask generation to automatically fuse images and (2) introduces the use of PAN for further quality enhancement during the fusion process. Our approach surpasses many classical visual fusion models in various performance indicators such as PSNR, SSIM, and Realism. Notably, our process is highly efficient and speedy, making it widely applicable in industrial settings. This new process has the potential to revolutionize visual content creation and improve productivity across various industries.
翻訳日:2023-06-09 13:07:10 公開日:2023-06-08
# グローバル・ローカル3次元再構成による2次元単眼物体検出

2D Supervised Monocular 3D Object Detection by Global-to-Local 3D Reconstruction ( http://arxiv.org/abs/2306.05418v1 )

ライセンス: Link先を確認
Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang(参考訳) ビッグデータ時代の到来とともに、データに対する需要はますます重要になっている。 特にモノクロの3dオブジェクト検出では、高価な手動アノテーションはさらなる開発を制限する可能性がある。 既存の研究は、lidarモダリティを用いて弱い教師付きアルゴリズムを調査し、通常のビデオには適用できない3d擬似ラベルを生成する。 本稿では,2次元教師付き単眼物体検出のためのグローバル・ツー・ローカル3次元再構成の考え方を活かし,ba$^2$-detと呼ばれる新しいパラダイムを提案する。 具体的には,シーンレベルのグローバル再構築とグローバルバンドル調整(BA)によりモノクロ映像から3次元構造を復元し,DoubleClusteringアルゴリズムによりオブジェクトクラスタを得る。 GBA-LearnerはグローバルBAで完全に再構成されたオブジェクトから学習し、隠蔽されたオブジェクトの擬似ラベルを予測する。 最後に、オブジェクト中心のローカルBAを持つLBA-Learnerをトレーニングし、生成された3D擬似ラベルを移動オブジェクトに一般化する。 大規模なwaymo open datasetの実験では、ba$^2$-detのパフォーマンスは、10%の動画でトレーニングされた完全教師付きba-detと同等であり、さらには先駆的な完全教師付きメソッドよりも優れていることが示されている。 また,複雑な場面でオープンセット3Dオブジェクトを検出するBA$^2$-Detの可能性を示す。 コードは利用可能になります。 プロジェクトページ: https://ba2det.site 。

With the advent of the big model era, the demand for data has become more important. Especially in monocular 3D object detection, expensive manual annotations potentially limit further developments. Existing works have investigated weakly supervised algorithms with the help of LiDAR modality to generate 3D pseudo labels, which cannot be applied to ordinary videos. In this paper, we propose a novel paradigm, termed as BA$^2$-Det, leveraging the idea of global-to-local 3D reconstruction for 2D supervised monocular 3D object detection. Specifically, we recover 3D structures from monocular videos by scene-level global reconstruction with global bundle adjustment (BA) and obtain object clusters by the DoubleClustering algorithm. Learning from completely reconstructed objects in global BA, GBA-Learner predicts pseudo labels for occluded objects. Finally, we train an LBA-Learner with object-centric local BA to generalize the generated 3D pseudo labels to moving objects. Experiments on the large-scale Waymo Open Dataset show that the performance of BA$^2$-Det is on par with the fully-supervised BA-Det trained with 10% videos and even outperforms some pioneer fully-supervised methods. We also show the great potential of BA$^2$-Det for detecting open-set 3D objects in complex scenes. The code will be made available. Project page: https://ba2det.site .
翻訳日:2023-06-09 12:58:06 公開日:2023-06-08
# ビデオから3d表現でオブジェクトを追跡する

Tracking Objects with 3D Representation from Videos ( http://arxiv.org/abs/2306.05416v1 )

ライセンス: Link先を確認
Jiawei He, Lue Fan, Yuqi Wang, Yuntao Chen, Zehao Huang, Naiyan Wang, Zhaoxiang Zhang(参考訳) データアソシエーションは、オブジェクトの閉塞による2次元多目的追跡の結びつきの問題である。 しかし、3D空間では、データアソシエーションはそれほど難しくない。 3Dカルマンフィルタでのみ、オンラインオブジェクトトラッカーはLiDARから検出を関連付けることができる。 本稿では,2次元MOTにおけるデータアソシエーションを再考し,特徴空間内の各オブジェクトを分離するために3次元オブジェクト表現を利用する。 既存の深度に基づくMOT法とは異なり、3Dオブジェクト表現はオブジェクト関連モジュールと共同で学習することができる。 さらに、オブジェクトの3D表現はビデオから学習され、LiDARや事前訓練された深さ推定器から追加の手動アノテーションなしで2D追跡ラベルによって教師される。 モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。 広範な実験により,本手法の有効性が示された。 大規模なwaymo open dataset上で,新たな最先端のパフォーマンスを実現する。

Data association is a knotty problem for 2D Multiple Object Tracking due to the object occlusion. However, in 3D space, data association is not so hard. Only with a 3D Kalman Filter, the online object tracker can associate the detections from LiDAR. In this paper, we rethink the data association in 2D MOT and utilize the 3D object representation to separate each object in the feature space. Unlike the existing depth-based MOT methods, the 3D object representation can be jointly learned with the object association module. Besides, the object's 3D representation is learned from the video and supervised by the 2D tracking labels without additional manual annotations from LiDAR or pretrained depth estimator. With 3D object representation learning from Pseudo 3D object labels in monocular videos, we propose a new 2D MOT paradigm, called P3DTrack. Extensive experiments show the effectiveness of our method. We achieve new state-of-the-art performance on the large-scale Waymo Open Dataset.
翻訳日:2023-06-09 12:57:40 公開日:2023-06-08
# 因果正規化フロー:理論から実践へ

Causal normalizing flows: from theory to practice ( http://arxiv.org/abs/2306.05415v1 )

ライセンス: Link先を確認
Adri\'an Javaloy, Pablo S\'anchez-Mart\'in and Isabel Valera(参考訳) 本研究では,因果推論のための正規化フローの利用について深く検討する。 具体的には,非線形ICAにおける最近の結果を利用して,因果的順序付けを施した観測データから因果的モデルが識別可能であることを示す。 第2に,因果正規化フローの異なる設計と学習の選択を分析し,その基礎となる因果データ生成プロセスを捉える。 第3に,causal nfsにおけるdoオペレータの実装方法と,介入的および反事実的質問に答える方法について述べる。 最後に、実験では、包括的なアブレーション研究を通じて設計とトレーニングの選択を検証するとともに、因果モデル近似のための他のアプローチと因果nfを比較し、因果nfsを用いて実世界の問題に対処することができることを実証的に実証する。 この作業のコードはhttps://github.com/psanch21/causal-flowsにある。

In this work, we deepen on the use of normalizing flows for causal reasoning. Specifically, we first leverage recent results on non-linear ICA to show that causal models are identifiable from observational data given a causal ordering, and thus can be recovered using autoregressive normalizing flows (NFs). Second, we analyze different design and learning choices for causal normalizing flows to capture the underlying causal data-generating process. Third, we describe how to implement the do-operator in causal NFs, and thus, how to answer interventional and counterfactual questions. Finally, in our experiments, we validate our design and training choices through a comprehensive ablation study; compare causal NFs to other approaches for approximating causal models; and empirically demonstrate that causal NFs can be used to address real-world problems, where the presence of mixed discrete-continuous data and partial knowledge on the causal graph is the norm. The code for this work can be found at https://github.com/psanch21/causal-flows.
翻訳日:2023-06-09 12:57:25 公開日:2023-06-08
# 近位誘導による負プロパントインバージョンの改善

Improving Negative-Prompt Inversion via Proximal Guidance ( http://arxiv.org/abs/2306.05414v1 )

ライセンス: Link先を確認
Ligong Han, Song Wen, Qi Chen, Zhixing Zhang, Kunpeng Song, Mengwei Ren, Ruijiang Gao, Yuxiao Chen, Di Liu, Qilong Zhangli, Anastasis Stathopoulos, Jindong Jiang, Zhaoyang Xia, Akash Srivastava, Dimitris Metaxas(参考訳) DDIMインバージョンは拡散法における実際の画像編集の可能性を明らかにした。 しかし、DDIM再構成の精度は、より大きな分類器フリーガイダンス(CFG)スケールが編集の強化に使われているため劣化する。 null-text inversion (nti) は、レコンストラクションとインバージョントラジェクタをより大きなcfgスケールに合わせるためにnull埋め込みを最適化し、クロスアテンション制御による実際の画像編集を可能にする。 負のプロンプト反転(NPI)はさらに、NTIのトレーニング不要閉形式解を提供する。 しかし、アーティファクトを導入し、DDIMの再構築品質に制約されている。 これらの制限を克服するため,NTI と NPI の概念を拡張した ProxNPI (ProxNPI) を提案する。 我々は、NPIを正規化期間と再構築指導で強化し、トレーニングフリーな性質を生かしながらアーティファクトを減らす。 提案手法は,計算オーバーヘッドを最小限に抑えることで,実画像編集作業に効果的に対処する。

DDIM inversion has revealed the remarkable potential of real image editing within diffusion-based methods. However, the accuracy of DDIM reconstruction degrades as larger classifier-free guidance (CFG) scales being used for enhanced editing. Null-text inversion (NTI) optimizes null embeddings to align the reconstruction and inversion trajectories with larger CFG scales, enabling real image editing with cross-attention control. Negative-prompt inversion (NPI) further offers a training-free closed-form solution of NTI. However, it may introduce artifacts and is still constrained by DDIM reconstruction quality. To overcome these limitations, we propose Proximal Negative-Prompt Inversion (ProxNPI), extending the concepts of NTI and NPI. We enhance NPI with a regularization term and reconstruction guidance, which reduces artifacts while capitalizing on its training-free nature. Our method provides an efficient and straightforward approach, effectively addressing real image editing tasks with minimal computational overhead.
翻訳日:2023-06-09 12:57:07 公開日:2023-06-08
# オフライン優先体験リプレイ

Offline Prioritized Experience Replay ( http://arxiv.org/abs/2306.05412v1 )

ライセンス: Link先を確認
Yang Yue, Bingyi Kang, Xiao Ma, Gao Huang, Shiji Song, Shuicheng Yan(参考訳) オフライン強化学習 (RL) は分布シフト問題に挑戦される。 この問題に対処するため、既存の研究は主に学習政策と行動政策の間の洗練された政策制約を設計することに焦点を当てている。 しかし、これらの制約は、学習方針に悪影響を及ぼす可能性のある一様サンプリングにより、良好なパフォーマンスと劣悪な動作に等しく適用される。 この問題を軽減するために,我々は,高度に回帰した遷移を優先する優先度関数のクラスを特徴とする,オフライン優先体験再生(OPER)を提案する。 理論的解析により、この優先度関数は行動ポリシーの改善をもたらすことが示され、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムがより良い解をもたらす可能性が示唆された。 適応値ネットワーク (oper-a) や軌道帰納法 (oper-r) を高速計算に活用し, 優先度重みを得るための2つの実践的戦略を開発した。 OPERはオフラインRLアルゴリズムのためのプラグイン・アンド・プレイコンポーネントである。 ケーススタディでは,BC,TD3+BC,Onestep RL,CQL,IQLの5つのアルゴリズムでOPERを評価する。 OPER-A と OPER-R の2つの実験により,全てのベースライン法の性能が大幅に向上した。 コードと優先度はhttps://github.com/sail-sg/OPERで利用可能である。

Offline reinforcement learning (RL) is challenged by the distributional shift problem. To address this problem, existing works mainly focus on designing sophisticated policy constraints between the learned policy and the behavior policy. However, these constraints are applied equally to well-performing and inferior actions through uniform sampling, which might negatively affect the learned policy. To alleviate this issue, we propose Offline Prioritized Experience Replay (OPER), featuring a class of priority functions designed to prioritize highly-rewarding transitions, making them more frequently visited during training. Through theoretical analysis, we show that this class of priority functions induce an improved behavior policy, and when constrained to this improved policy, a policy-constrained offline RL algorithm is likely to yield a better solution. We develop two practical strategies to obtain priority weights by estimating advantages based on a fitted value network (OPER-A) or utilizing trajectory returns (OPER-R) for quick computation. OPER is a plug-and-play component for offline RL algorithms. As case studies, we evaluate OPER on five different algorithms, including BC, TD3+BC, Onestep RL, CQL, and IQL. Extensive experiments demonstrate that both OPER-A and OPER-R significantly improve the performance for all baseline methods. Codes and priority weights are availiable at https://github.com/sail-sg/OPER.
翻訳日:2023-06-09 12:56:50 公開日:2023-06-08
# R-MAE:地域がマスクオートエンコーダと出会う

R-MAE: Regions Meet Masked Autoencoders ( http://arxiv.org/abs/2306.05411v1 )

ライセンス: Link先を確認
Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen(参考訳) といった視覚特有の概念は、一般的な機械学習フレームワークをオブジェクト検出のようなタスクに拡張する上で重要な役割を果たす。 教師付き学習における領域ベースの検出器の成功とコントラスト学習における画像内手法の進歩を踏まえ,再構成事前学習における領域の利用について検討する。 マスキングオートエンコーディング(mae)をベースラインとインスピレーションとして開始し,画像と領域間の1対1のマッピングに対応するために調整された並列プリテキストタスクを提案する。 このような領域は教師なしの方法で生成できるため、我々のアプローチ(R-MAE)は、より"リージョン対応"でありながら、MAEから幅広い適用性を継承する。 我々は、R-MAEの開発中に徹底的な解析を行い、効率的かつ効率的な変種(MAEの1.3%のオーバーヘッド)に収束する。 さらに,様々な事前学習データや下流検出およびセグメンテーションベンチマークに一般化した場合,一貫した定量的改善を示す。 最後に、R-MAEの振る舞いとポテンシャルの理解を深めるために、広範囲な定性的な可視化を提供する。 コードはhttps://github.com/facebookresearch/r-maeで入手できる。

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.
翻訳日:2023-06-09 12:56:23 公開日:2023-06-08
# LU-NeRF:局所的非定位NeRF同期によるシーンと時間推定

LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs ( http://arxiv.org/abs/2306.05410v1 )

ライセンス: Link先を確認
Zezhou Cheng, Carlos Esteves, Varun Jampani, Abhishek Kar, Subhransu Maji, Ameesh Makadia(参考訳) NeRFモデルが野生で広く展開されるのを防ぐ重要な障害は、正確なカメラのポーズに依存することである。 その結果、カメラポーズとシーン表現を協調的に最適化するためにNeRFモデルを拡張することへの関心が高まっている。 未提案のNeRFの既存のアプローチは、事前のポーズ分布や粗いポーズの初期化といった限られた仮定の下で動作し、一般的な環境では効果が低い。 本研究では,カメラポーズとニューラルレイディアンスフィールドを協調的に推定し,ポーズ設定を緩和した新しいアプローチLU-NeRFを提案する。 当社のアプローチは,まずはmini-scenesと呼ばれる,データのローカルサブセットを最適化する,ローカルからグローバルに動作します。 LU-NeRFは、この挑戦的な数ショットタスクの局所的なポーズと幾何学を推定する。 ミニシーンポーズはロバストなポーズ同期ステップを介してグローバル参照フレームに持ち込まれ、最終的なポーズとシーンのグローバル最適化を行うことができる。 LU-NeRFパイプラインは、ポーズに制限的な仮定を加えることなく、未提案のNeRFに対する事前試みより優れることを示す。 これにより、ベースラインとは異なり、一般的なSE(3)ポーズ設定で操作できる。 また,低テクスチャ画像と低解像度画像のCOLMAPと比較し,特徴量に基づくSfMパイプラインを補完できることを示す。

A critical obstacle preventing NeRF models from being deployed broadly in the wild is their reliance on accurate camera poses. Consequently, there is growing interest in extending NeRF models to jointly optimize camera poses and scene representation, which offers an alternative to off-the-shelf SfM pipelines which have well-understood failure modes. Existing approaches for unposed NeRF operate under limited assumptions, such as a prior pose distribution or coarse pose initialization, making them less effective in a general setting. In this work, we propose a novel approach, LU-NeRF, that jointly estimates camera poses and neural radiance fields with relaxed assumptions on pose configuration. Our approach operates in a local-to-global manner, where we first optimize over local subsets of the data, dubbed mini-scenes. LU-NeRF estimates local pose and geometry for this challenging few-shot task. The mini-scene poses are brought into a global reference frame through a robust pose synchronization step, where a final global optimization of pose and scene can be performed. We show our LU-NeRF pipeline outperforms prior attempts at unposed NeRF without making restrictive assumptions on the pose prior. This allows us to operate in the general SE(3) pose setting, unlike the baselines. Our results also indicate our model can be complementary to feature-based SfM pipelines as it compares favorably to COLMAP on low-texture and low-resolution images.
翻訳日:2023-06-09 12:56:02 公開日:2023-06-08
# SNAP:視覚的位置決めと意味理解のための自己監督型ニューラルネットワーク

SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic Understanding ( http://arxiv.org/abs/2306.05407v1 )

ライセンス: Link先を確認
Paul-Edouard Sarlin, Eduard Trulls, Marc Pollefeys, Jan Hosang, Simon Lynen(参考訳) セマンティック2Dマップは、人間や機械が歩いたり運転したりするために一般的に使われている。 しかし、これらのマップには制限があり、詳細が欠落し、しばしば不正確な情報が含まれ、特に自動化された方法で作成と維持が困難である。 生画像を使って、人間と機械の両方で容易に解釈できるより良い地図を自動生成できますか? 我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。 我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。 SNAPは、従来の手法のリーチを超えた、挑戦的な画像クエリの場所を解決し、ローカライゼーションの最先端を大きなマージンで上回る。 さらに,我々のニューラルマップは,幾何学や外観だけでなく,明示的な監督なしに発見された高レベル意味論もエンコードしている。 これにより、データ効率の良いセマンティックシーン理解のための効果的な事前学習が可能になり、より詳細な地図の作成に費用効率がかかる可能性がある。

Semantic 2D maps are commonly used by humans and machines for navigation purposes, whether it's walking or driving. However, these maps have limitations: they lack detail, often contain inaccuracies, and are difficult to create and maintain, especially in an automated fashion. Can we use raw imagery to automatically create better maps that can be easily interpreted by both humans and machines? We introduce SNAP, a deep network that learns rich neural 2D maps from ground-level and overhead images. We train our model to align neural maps estimated from different inputs, supervised only with camera poses over tens of millions of StreetView images. SNAP can resolve the location of challenging image queries beyond the reach of traditional methods, outperforming the state of the art in localization by a large margin. Moreover, our neural maps encode not only geometry and appearance but also high-level semantics, discovered without explicit supervision. This enables effective pre-training for data-efficient semantic scene understanding, with the potential to unlock cost-efficient creation of more detailed maps.
翻訳日:2023-06-09 12:55:38 公開日:2023-06-08
# ドメイン適応の混合:事前学習された言語モデルに対するドメイン知識の分離と注入

Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models Memories ( http://arxiv.org/abs/2306.05406v1 )

ライセンス: Link先を確認
Shizhe Diao, Tianyang Xu, Ruijia Xu, Jiawei Wang, Tong Zhang(参考訳) プレトレーニング言語モデル(PLM)は、特定のドメインで苦労しながら、ジェネリックドメインのテキストを理解する優れた能力を示す。 大きなドメイン固有コーパスでの事前トレーニングは有効であるが、ドメイン上のすべてのパラメータをチューニングするのはコストがかかる。 本稿では,数個のパラメータをチューニングするだけで,PLMを効果的かつ効率的に適用できるかどうかを検討する。 具体的には、トランスフォーマーアーキテクチャのフィードフォワードネットワーク(FFN)を、旧ドメイン知識を維持するためにトレーニング済みのFFNと、ドメイン固有知識を並列に注入する新しいドメイン固有アダプタの2つの部分に分割する。 次に、異なるドメインアダプタからの知識を動的に融合するために、mixed-of-adaptersゲートを採用します。 提案するmix-of-domain-adapters(mixda)は,ラベルなしデータとラベル付きデータの両方を活用する2段階のアダプタチューニング戦略を採用している。 一 ラベルなしデータに関するドメイン特化アダプタ ii) ラベル付きデータに対するタスク固有のアダプタ。 実験では、MixDAがドメイン内タスク(GLUE)、ドメイン外タスク(ChemProt, RCT, IMDB, Amazon)、知識集約タスク(KILT)において、優れたパフォーマンスを達成することを示した。 さらに,本手法の信頼性,スケーラビリティ,効率性を考察した。 コードはhttps://github.com/Amano-Aki/Mixture-of-Domain-Adaptersで入手できる。

Pre-trained language models (PLMs) demonstrate excellent abilities to understand texts in the generic domain while struggling in a specific domain. Although continued pre-training on a large domain-specific corpus is effective, it is costly to tune all the parameters on the domain. In this paper, we investigate whether we can adapt PLMs both effectively and efficiently by only tuning a few parameters. Specifically, we decouple the feed-forward networks (FFNs) of the Transformer architecture into two parts: the original pre-trained FFNs to maintain the old-domain knowledge and our novel domain-specific adapters to inject domain-specific knowledge in parallel. Then we adopt a mixture-of-adapters gate to fuse the knowledge from different domain adapters dynamically. Our proposed Mixture-of-Domain-Adapters (MixDA) employs a two-stage adapter-tuning strategy that leverages both unlabeled data and labeled data to help the domain adaptation: i) domain-specific adapter on unlabeled data; followed by ii) the task-specific adapter on labeled data. MixDA can be seamlessly plugged into the pretraining-finetuning paradigm and our experiments demonstrate that MixDA achieves superior performance on in-domain tasks (GLUE), out-of-domain tasks (ChemProt, RCT, IMDB, Amazon), and knowledge-intensive tasks (KILT). Further analyses demonstrate the reliability, scalability, and efficiency of our method. The code is available at https://github.com/Amano-Aki/Mixture-of-Domain-Adapters.
翻訳日:2023-06-09 12:55:18 公開日:2023-06-08
# RDumb: 継続的なテスト時間適応の進捗に疑問を呈するシンプルなアプローチ

RDumb: A simple approach that questions our progress in continual test-time adaptation ( http://arxiv.org/abs/2306.05401v1 )

ライセンス: Link先を確認
Ori Press, Steffen Schneider, Matthias K\"ummerer, Matthias Bethge(参考訳) テスト時間適応(tta)は、トレーニング済みのモデルを、デプロイ時にデータ分布を変更するように更新できる。 初期の研究は、個々の固定分布シフトに対してこれらのアルゴリズムを検証したが、近年の研究では、長期にわたる連続的な適応法が提案されている。 そこで本研究では,TTA手法の漸近的性能を評価するために,CCC(Continuously Changing Corruptions)ベンチマークを提案する。 最終的に、1つの最先端のメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。 さらに,モデルが予め訓練された状態に定期的にリセットされるシンプルなベースライン "RDumb" を導入する。 RDumbは、これまで提案されていたすべてのベンチマークで、より良く、あるいは同等に動作する。 以上の結果から, 従来のTTAアプローチは, 崩壊を避けるための適応の正則化や, 単純化されたリセット戦略に勝ることが不可能であった。

Test-Time Adaptation (TTA) allows to update pretrained models to changing data distributions at deployment time. While early work tested these algorithms for individual fixed distribution shifts, recent work proposed and applied methods for continual adaptation over long timescales. To examine the reported progress in the field, we propose the Continuously Changing Corruptions (CCC) benchmark to measure asymptotic performance of TTA techniques. We find that eventually all but one state-of-the-art methods collapse and perform worse than a non-adapting model, including models specifically proposed to be robust to performance collapse. In addition, we introduce a simple baseline, "RDumb", that periodically resets the model to its pretrained state. RDumb performs better or on par with the previously proposed state-of-the-art in all considered benchmarks. Our results show that previous TTA approaches are neither effective at regularizing adaptation to avoid collapse nor able to outperform a simplistic resetting strategy.
翻訳日:2023-06-09 12:54:48 公開日:2023-06-08
# 被写体深度改善のための背景プロンプト

Background Prompting for Improved Object Depth ( http://arxiv.org/abs/2306.05428v1 )

ライセンス: Link先を確認
Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein, Antonio Torralba, William T. Freeman, Varun Jampani(参考訳) 単一の画像からオブジェクトの深さを推定することは、多くのビジョン、ロボティクス、グラフィックアプリケーションにとって貴重なタスクである。 しかし、現在の手法では、様々な場面で正確な被写体深度が得られないことが多い。 本研究では,入力対象画像に学習背景を適応させる,シンプルで効果的なバックグラウンドプロンプト戦略を提案する。 背景プロンプトは小規模の合成オブジェクトデータセットのみを使用して学習する。 実画像上で物体の深度を推定するために、セグメント化された物体を学習した背景のプロンプトに配置し、棚から外れた深さネットワークを走らせる。 バックグラウンド・プロンプティングは、背景の変化に不変となるため、深度ネットワークが前景オブジェクトにフォーカスするのに役立つ。 さらに、バックグラウンドプロンプトは合成画像と実際のオブジェクト画像の間のドメインギャップを最小限に抑え、単純な微調整よりもsim2現実の一般化に繋がる。 複数の合成データと実データの結果は、既存の様々な深度ネットワークにおける実物体深度の一貫した改善を示している。 コードと最適化されたバックグラウンドプロンプトは以下の通りである。

Estimating the depth of objects from a single image is a valuable task for many vision, robotics, and graphics applications. However, current methods often fail to produce accurate depth for objects in diverse scenes. In this work, we propose a simple yet effective Background Prompting strategy that adapts the input object image with a learned background. We learn the background prompts only using small-scale synthetic object datasets. To infer object depth on a real image, we place the segmented object into the learned background prompt and run off-the-shelf depth networks. Background Prompting helps the depth networks focus on the foreground object, as they are made invariant to background variations. Moreover, Background Prompting minimizes the domain gap between synthetic and real object images, leading to better sim2real generalization than simple finetuning. Results on multiple synthetic and real datasets demonstrate consistent improvements in real object depths for a variety of existing depth networks. Code and optimized background prompts can be found at: https://mbaradad.github.io/depth_prompt.
翻訳日:2023-06-09 12:48:57 公開日:2023-06-08
# アテンションリフォーカスによる接地テキスト・画像合成

Grounded Text-to-Image Synthesis with Attention Refocusing ( http://arxiv.org/abs/2306.05427v1 )

ライセンス: Link先を確認
Quynh Phung, Songwei Ge, Jia-Bin Huang(参考訳) 大規模なテキスト画像データセットでトレーニングされたスケーラブルな拡散モデルによって、テキストから画像への合成手法が説得力のある結果を示している。 しかし、これらのモデルは、複数のオブジェクト、属性、空間構成がプロンプトに関与している場合、テキストプロンプトに正確に従わない。 本稿では拡散モデルにおける相互注意層と自己注意層の両方の潜在的な理由を同定する。 そこで本研究では, サンプリング中のアテンションマップを, 所定のレイアウトに従って再フォーカスする2つの新しい損失を提案する。 本研究では,大規模言語モデルで合成されたレイアウトを用いて,drawbench と hrs ベンチマークを総合的に実験し,提案する損失を既存のテキスト対画像法に簡易かつ効果的に統合し,生成された画像とテキストプロンプトとの整合を一貫して改善できることを示す。

Driven by scalable diffusion models trained on large-scale paired text-image datasets, text-to-image synthesis methods have shown compelling results. However, these models still fail to precisely follow the text prompt when multiple objects, attributes, and spatial compositions are involved in the prompt. In this paper, we identify the potential reasons in both the cross-attention and self-attention layers of the diffusion model. We propose two novel losses to refocus the attention maps according to a given layout during the sampling process. We perform comprehensive experiments on the DrawBench and HRS benchmarks using layouts synthesized by Large Language Models, showing that our proposed losses can be integrated easily and effectively into existing text-to-image methods and consistently improve their alignment between the generated images and the text prompts.
翻訳日:2023-06-09 12:48:37 公開日:2023-06-08
# SequenceMatch: バックトラッキングを用いた自己回帰シーケンスモデリングのための模擬学習

SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking ( http://arxiv.org/abs/2306.05426v1 )

ライセンス: Link先を確認
Chris Cundy, Stefano Ermon(参考訳) 多くの領域において、自己回帰モデルは、次の観測を予測するタスクにおいて、低いログライクさを達成することができる。 しかし、このMLE(Maxum-likelihood)の目的は、必ずしも下流で自動回帰的に高品質なシーケンスを生成するユースケースと一致しない。 mleの客観的重み列は、データ分布の周波数に比例し、モデルの分散の振る舞い(ood)のガイダンスを含まず、自己回帰的生成時の複合誤差を生じさせる。 この複合的誤り問題に対処するために, シーケンス生成を模倣学習(IL)問題として定式化する。 これにより、自己回帰モデルによって生成されたシーケンスの分布と、OOD生成シーケンスの重み付き分岐を含むデータセットからのシーケンスの分散を最小化できる。 ILフレームワークはまた、生成プロセスにバックスペースアクションを導入することで、バックトラックを組み込むことができます。 これにより、配列 OOD を取ると、モデルがサンプルトークンを反転させることで複合エラー問題を緩和する。 得られた手法であるSequenceMatchは、敵の訓練や大きなアーキテクチャ変更なしに実装できる。 sequencematch-$\chi^2$ divergence は、生成に使用される自己回帰モデルのためのより適切な訓練対象である。 経験的に、SequenceMatchトレーニングは、言語モデルを用いたテキスト生成において、MLEよりも改善されていることを示す。

In many domains, autoregressive models can achieve low log-likelihood on the task of predicting the next observation. However, this maximum-likelihood (MLE) objective does not necessarily match a downstream use-case of autoregressively generating high-quality sequences. The MLE objective weights sequences proportionally to their frequency under the data distribution, with no guidance for the model's behaviour out of distribution (OOD): leading to compounding error during autoregressive generation. In order to address this compounding error problem, we formulate sequence generation as an imitation learning (IL) problem. This allows us to minimize a variety of divergences between the distribution of sequences generated by an autoregressive model and sequences from a dataset, including divergences with weight on OOD generated sequences. The IL framework also allows us to incorporate backtracking by introducing a backspace action into the generation process. This further mitigates the compounding error problem by allowing the model to revert a sampled token if it takes the sequence OOD. Our resulting method, SequenceMatch, can be implemented without adversarial training or major architectural changes. We identify the SequenceMatch-$\chi^2$ divergence as a more suitable training objective for autoregressive models which are used for generation. We show that empirically, SequenceMatch training leads to improvements over MLE on text generation with language models.
翻訳日:2023-06-09 12:48:20 公開日:2023-06-08
# MIMIC-IT:マルチモードインコンテキストインストラクションチューニング

MIMIC-IT: Multi-Modal In-Context Instruction Tuning ( http://arxiv.org/abs/2306.05425v1 )

ライセンス: Link先を確認
Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu(参考訳) 対話型自然言語タスクにおける大規模言語モデルのゼロショット性能には,高品質な命令と応答が不可欠である。 複雑な視覚シーンを含む対話型視覚言語タスクでは、多種多様で創造的な命令応答ペアが視覚言語モデル(VLM)のチューニングに不可欠である。 それでも、量、多様性、クリエイティビティの観点からの視覚言語による命令応答ペアの現在の利用は限定的であり、対話型VLMの一般化に課題を呈している。 本稿では,マルチモーダルインコンテクスト命令チューニング(mimic-it,multi-modal in-context instruction tuning)について述べる。 各ペアにはマルチモーダルなインコンテキスト情報があり、知覚、推論、計画におけるVLMの強化を目的とした会話コンテキストを形成する。 Syphusと呼ばれる命令応答収集プロセスは、人間の専門知識とGPTの機能を組み合わせた自動アノテーションパイプラインを使用してスケールされる。 MIMIC-ITデータセットを使用して、Otterという大きなVLMをトレーニングする。 視覚言語ベンチマークを用いた広範囲な評価結果から,オッターはマルチモーダル知覚,推論,文脈内学習において顕著な熟練度を示していることがわかった。 人間の評価は、ユーザの意図と効果的に一致していることを明らかにする。 我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。

High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT's capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user's intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.
翻訳日:2023-06-09 12:48:00 公開日:2023-06-08
# video-chatgpt: 大きなビジョンと言語モデルによる詳細なビデオ理解に向けて

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models ( http://arxiv.org/abs/2306.05424v1 )

ライセンス: Link先を確認
Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan(参考訳) 大規模言語モデル(llms)が推進する会話エージェントは、ビジュアルデータと対話するための新しい方法を提供する。 画像ベースの会話モデルの初期の試みはあったが、ビデオチャットGPTを導入することで、ビデオベースの会話の未探索領域に対処する。 ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。 このモデルは、ビデオに関する人間的な会話を理解し、生成することができる。 我々は,手動および半自動パイプラインを通じて取得したビデオチャットGPTのトレーニングに使用する10万のビデオ命令ペアのデータセットを導入し,ノイズのラベル付けを容易にする。 また,提案モデルの強みや弱みを客観的に分析するための,映像ベース対話モデルの定量的評価フレームワークを開発した。 私たちのコード、モデル、命令セット、デモはhttps://github.com/mbzuai-oryx/Video-ChatGPTで公開されています。

Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.
翻訳日:2023-06-09 12:47:36 公開日:2023-06-08
# ADDP:交互拡散プロセスによる画像認識と生成のための一般表現学習

ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process ( http://arxiv.org/abs/2306.05423v1 )

ライセンス: Link先を確認
Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu, Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu(参考訳) 画像認識と生成は、長い間互いに独立して開発されてきた。 近年の汎用表現学習の進展に伴い、認識課題と生成課題の両方に対する一般表現の開発も進められている。 しかし、予備試行は主に生成性能に焦点をあてるが、認識タスクにはまだ劣っている。 これらの手法はベクトル量子化(VQ)空間でモデル化されるが、先行認識法は画素を入力として使用する。 1) 入力としての画素は認識タスクに不可欠であり, (2) 再構成対象としてのvqトークンは生成タスクに有用である。 これら2つの空間を1つの表現学習フレームワークに統合する交互除極拡散プロセス (ADDP) を提案する。 各デノージングステップでは、まず前回のvqトークンから画素をデコードし、その後デコードされたピクセルから新しいvqトークンを生成する。 拡散過程は徐々にVQトークンの一部をマスクしてトレーニングサンプルを構築する。 学習した表現は、多彩な高忠実度画像の生成や、認識タスクにおける優れた転送性能を示すために使用できる。 実験の結果,非条件生成,イメージネット分類,COCO検出,ADE20kセグメンテーションの競合性能が得られた。 重要なことに,本手法は生成タスクと高密度認識タスクの両方に適用可能な汎用表現の最初の成功例である。 コードは解放される。

Image recognition and generation have long been developed independently of each other. With the recent trend towards general-purpose representation learning, the development of general representations for both recognition and generation tasks is also promoted. However, preliminary attempts mainly focus on generation performance, but are still inferior on recognition tasks. These methods are modeled in the vector-quantized (VQ) space, whereas leading recognition methods use pixels as inputs. Our key insights are twofold: (1) pixels as inputs are crucial for recognition tasks; (2) VQ tokens as reconstruction targets are beneficial for generation tasks. These observations motivate us to propose an Alternating Denoising Diffusion Process (ADDP) that integrates these two spaces within a single representation learning framework. In each denoising step, our method first decodes pixels from previous VQ tokens, then generates new VQ tokens from the decoded pixels. The diffusion process gradually masks out a portion of VQ tokens to construct the training samples. The learned representations can be used to generate diverse high-fidelity images and also demonstrate excellent transfer performance on recognition tasks. Extensive experiments show that our method achieves competitive performance on unconditional generation, ImageNet classification, COCO detection, and ADE20k segmentation. Importantly, our method represents the first successful development of general representations applicable to both generation and dense recognition tasks. Code shall be released.
翻訳日:2023-06-09 12:47:23 公開日:2023-06-08
# あらゆるものを一度に追跡する

Tracking Everything Everywhere All at Once ( http://arxiv.org/abs/2306.05422v1 )

ライセンス: Link先を確認
Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely(参考訳) ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。 従来の光学フローまたは粒子ビデオ追跡アルゴリズムは、通常、限られた時間窓内で動作し、オクルージョンを追尾し、推定された運動軌跡のグローバルな一貫性を維持するのに苦労する。 ビデオ中の全画素の正確な全長モーション推定を可能にする,omnimotionと呼ばれる完全かつグローバルに一貫したモーション表現を提案する。 OmniMotionは、準3Dカノニカルボリュームを使用して動画を表現し、局所空間とカノニカル空間の間の複射によるピクセルワイドトラッキングを行う。 この表現は、グローバルに一貫性を確保し、オクルージョンを追跡し、カメラとオブジェクトの動きの組み合わせをモデル化できます。 TAP-Vidベンチマークと実世界の映像の大規模な評価は、我々の手法が従来の最先端手法よりも定量的にも質的にも優れていることを示している。 さらなる結果については、プロジェクトページを参照してください。

We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
翻訳日:2023-06-09 12:47:00 公開日:2023-06-08
# 確率的マルチパーソン3次元モーション予測

Stochastic Multi-Person 3D Motion Forecasting ( http://arxiv.org/abs/2306.05421v1 )

ライセンス: Link先を確認
Sirui Xu, Yu-Xiong Wang, Liang-Yan Gui(参考訳) 本稿では,人間の運動予測における先行研究における現実世界の複雑さの無視と,多人数行動の社会的特性,運動と社会的相互作用の多様性,関節運動の複雑さを強調することを目的とした。 そこで本研究では,確率的マルチパーソン3次元動作予測の新しいタスクを提案する。 本研究では,局所レベルでの独立行動とグローバルレベルでの社会的相互作用を別々にモデル化する2段階生成モデリングフレームワークを提案する。 特に、この二重レベルモデリングメカニズムは、将来の動きの意図を表す学習可能な潜在コードを導入し、異なるレベルの動作モードを切り替えることで、共有生成モデル内で実現できる。 我々のフレームワークは汎用的であり、生成的敵ネットワークや拡散モデル、多人数予測モデルなど、異なる生成モデルでインスタンス化する。 CMU-Mocap, MuPoTS-3D, SoMoF ベンチマークの大規模な実験により,本手法は多人数同時予測の多種多様な精度を達成し, 技術水準を大幅に上回った。

This paper aims to deal with the ignored real-world complexities in prior work on human motion forecasting, emphasizing the social properties of multi-person motion, the diversity of motion and social interactions, and the complexity of articulated motion. To this end, we introduce a novel task of stochastic multi-person 3D motion forecasting. We propose a dual-level generative modeling framework that separately models independent individual motion at the local level and social interactions at the global level. Notably, this dual-level modeling mechanism can be achieved within a shared generative model, through introducing learnable latent codes that represent intents of future motion and switching the codes' modes of operation at different levels. Our framework is general; we instantiate it with different generative models, including generative adversarial networks and diffusion models, and various multi-person forecasting models. Extensive experiments on CMU-Mocap, MuPoTS-3D, and SoMoF benchmarks show that our approach produces diverse and accurate multi-person predictions, significantly outperforming the state of the art.
翻訳日:2023-06-09 12:46:43 公開日:2023-06-08
# 球状CNNのスケーリング

Scaling Spherical CNNs ( http://arxiv.org/abs/2306.05420v1 )

ライセンス: Link先を確認
Carlos Esteves, Jean-Jacques Slotine, Ameesh Makadia(参考訳) 球面CNNは球面上の関数に一般化し、球面畳み込みを主線形演算として用いる。 球面畳み込みを計算する最も正確かつ効率的な方法はスペクトル領域(畳み込み定理による)であり、通常の平面畳み込みよりも依然として高価である。 このため、球面cnnの応用はこれまで、低モデル容量でアプローチできる小さな問題に限定されてきた。 本研究では,球面cnnを大規模にスケールできることを示す。 これを実現するために、共通モデルコンポーネントの新しい変種、ハードウェアアクセラレーション特性を利用するコアオペレーションの実装、モデルの性質を利用するアプリケーション固有の入力表現など、重要な改善を行います。 実験により、従来等変グラフニューラルネットワークが支配していたqm9分子ベンチマークのいくつかの目標において、より大きな球形cnnが最先端に到達し、複数の天気予報タスクで競合性能を達成することが示された。 私たちのコードはhttps://github.com/google-research/spherical-cnnで利用可能です。

Spherical CNNs generalize CNNs to functions on the sphere, by using spherical convolutions as the main linear operation. The most accurate and efficient way to compute spherical convolutions is in the spectral domain (via the convolution theorem), which is still costlier than the usual planar convolutions. For this reason, applications of spherical CNNs have so far been limited to small problems that can be approached with low model capacity. In this work, we show how spherical CNNs can be scaled for much larger problems. To achieve this, we make critical improvements including novel variants of common model components, an implementation of core operations to exploit hardware accelerator characteristics, and application-specific input representations that exploit the properties of our model. Experiments show our larger spherical CNNs reach state-of-the-art on several targets of the QM9 molecular benchmark, which was previously dominated by equivariant graph neural networks, and achieve competitive performance on multiple weather forecasting tasks. Our code is available at https://github.com/google-research/spherical-cnn.
翻訳日:2023-06-09 12:46:25 公開日:2023-06-08
# TopoMask: トランスフォーマーアーキテクチャによる道路トポロジ問題に対するインスタンスマスクに基づく定式化

TopoMask: Instance-Mask-Based Formulation for the Road Topology Problem via Transformer-Based Architecture ( http://arxiv.org/abs/2306.05419v1 )

ライセンス: Link先を確認
M. Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel(参考訳) 運転シーン理解タスクは、車線、交通標識、信号などの静的要素の検出と、それらの相互関係を含む。 複数のカメラビューを用いた総合的なシーン理解ソリューションの開発を容易にするため、Road Genome (OpenLane-V2)と呼ばれる新しいデータセットがリリースされた。 このデータセットは、複雑な道路接続やレーンマーキングが存在しない状況の探索を可能にする。 従来のレーンマーキングを使用する代わりに、このデータセットのレーンは、レーンとその接続をより適切な表現を提供するセンターラインとして表現される。 本研究では,道路トポロジの中心線を予測するためのTopoMaskという新しい手法を提案する。 キーポイントやパラメトリックメソッドに依存する文学の既存のアプローチとは異なり、topomaskはトランスフォーマーベースのアーキテクチャでインスタンスマスクベースの定式化を採用しており、フロー情報でマスクインスタンスを豊かにするために方向ラベル表現が提案されている。 TopoMaskはOpenLane-V2スコア(OLS)で4位、OpenLane Topology Challenge 2023ではF1スコアで2位にランクインしている。 提案手法は,現在の最先端手法であるtoponetと比較して,frechetに基づくレーン検出と,そのシーングラフニューラルネットワークを使わずにchamferに基づくレーン検出におけるtoponetに匹敵する性能を実現した。

Driving scene understanding task involves detecting static elements such as lanes, traffic signs, and traffic lights, and their relationships with each other. To facilitate the development of comprehensive scene understanding solutions using multiple camera views, a new dataset called Road Genome (OpenLane-V2) has been released. This dataset allows for the exploration of complex road connections and situations where lane markings may be absent. Instead of using traditional lane markings, the lanes in this dataset are represented by centerlines, which offer a more suitable representation of lanes and their connections. In this study, we have introduced a new approach called TopoMask for predicting centerlines in road topology. Unlike existing approaches in the literature that rely on keypoints or parametric methods, TopoMask utilizes an instance-mask based formulation with a transformer-based architecture and, in order to enrich the mask instances with flow information, a direction label representation is proposed. TopoMask have ranked 4th in the OpenLane-V2 Score (OLS) and ranked 2nd in the F1 score of centerline prediction in OpenLane Topology Challenge 2023. In comparison to the current state-of-the-art method, TopoNet, the proposed method has achieved similar performance in Frechet-based lane detection and outperformed TopoNet in Chamfer-based lane detection without utilizing its scene graph neural network.
翻訳日:2023-06-09 12:46:07 公開日:2023-06-08
# 量子場論におけるクリロフ複素性

Krylov Complexity in Quantum Field Theory ( http://arxiv.org/abs/2204.02250v3 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury, Abhishek Roy(参考訳) 本稿では,量子場論におけるクリロフ複雑性を考察し,ホログラフィックな「複雑度は体積と等しい」予想に関連付ける。 クリロフ基底がフォック基底と一致するとき、いくつかの興味深い設定のために、クリロフ複雑性は体積とともに複雑性がスケールすることを示す平均粒子数と等しいことを観測する。 同様の形式を用いて、自由スカラー場理論のクリロフ複雑性を計算し、ホログラフィと驚くべき類似性を見つける。 また、反転発振器が自然に現れる場理論のこの枠組みを拡張し、そのカオス的振る舞いを探求する。

In this paper, we study the Krylov complexity in quantum field theory and make a connection with the holographic "Complexity equals Volume" conjecture. When Krylov basis matches with Fock basis, for several interesting settings, we observe that the Krylov complexity equals the average particle number showing that complexity scales with volume. Using similar formalism, we compute the Krylov complexity for free scalar field theory and find surprising similarities with holography. We also extend this framework for field theory where an inverted oscillator appears naturally and explore its chaotic behavior.
翻訳日:2023-06-09 10:57:13 公開日:2023-06-08
# コスモロジー・クリロフ複合体

Cosmological Krylov Complexity ( http://arxiv.org/abs/2203.14330v5 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury(参考訳) 本稿では,音速$c_s$を有する実効場の存在下での2つのモード圧縮状態形式を用いて,ド・ジッター空間の平面/インフレーションパッチからクリロフ複雑性(k$)について検討する。 本分析から,有効音速$c_s$の存在下での時間スケールとスケール係数について,クリロフ複雑性(K$)およびランコス係数(b_n$)の明示的な挙動を求める。 ランコズ係数 (b_n$) は整数 $n$ で線形に成長するので、宇宙はこの期間にカオス系のように振る舞うことを示唆する。 また、有効な音速$c_s$ の存在下で対応する lyapunov exponent $\lambda$ を得る。 この系に対するクリロフ複雑性(K$)は、体積との関係を示す平均粒子数と等しいことを示す。 最後に、Krylov complexity (K$) と entanglement entropy (Von-Neumann) を比較し、Krylov complexity (K$) と entanglement entropy の間に大きな違いがあることを発見した。 このことは、クリロフ複雑性(K$)が、絡み合いエントロピーの飽和後も宇宙系の力学を研究するための重要なプローブとなることを示唆している。

In this paper, we study the Krylov complexity ($K$) from the planar/inflationary patch of the de Sitter space using the two mode squeezed state formalism in the presence of an effective field having sound speed $c_s$. From our analysis, we obtain the explicit behavior of Krylov complexity ($K$) and lancoz coefficients ($b_n$) with respect to the conformal time scale and scale factor in the presence of effective sound speed $c_s$. Since lancoz coefficients ($b_n$) grow linearly with integer $n$, this suggests that universe acts like a chaotic system during this period. We also obtain the corresponding Lyapunov exponent $\lambda$ in presence of effective sound speed $c_s$. We show that the Krylov complexity ($K$) for this system is equal to average particle numbers suggesting it's relation to the volume. Finally, we give a comparison of Krylov complexity ($K$) with entanglement entropy (Von-Neumann) where we found that there is a large difference between Krylov complexity ($K$) and entanglement entropy for large values of squeezing amplitude. This suggests that Krylov complexity ($K$) can be a significant probe for studying the dynamics of the cosmological system even after the saturation of entanglement entropy.
翻訳日:2023-06-09 10:57:01 公開日:2023-06-08
# SGEM:シーケンスレベル一般化エントロピー最小化による自動音声認識のためのテスト時間適応

SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization ( http://arxiv.org/abs/2306.01981v3 )

ライセンス: Link先を確認
Changhun Kim, Joonhyung Park, Hajin Shim and Eunho Yang(参考訳) 自動音声認識(ASR)モデルは、多くの実世界のシナリオでデータ分散シフトに頻繁に晒され、誤った予測につながる。 この問題に対処するために、最近、ソースデータなしでラベルなしのテストインスタンスに事前学習されたasrモデルを適用するために、既存のテスト時間適応法(tta)が提案されている。 良好な性能向上にもかかわらず、本研究はナイーブな欲望復号にのみ依存し、モデル出力の逐次的性質を考えると最適ではないフレームレベルで時間ステップをまたいで適応する。 そこで我々は,一般的なASRモデルに対して,SGEMと呼ばれる新しいTTAフレームワークを提案する。 逐次出力を扱うために、SGEMはまずビームサーチを利用して候補出力ロジットを探索し、最も有効なものを選択する。 次に、一般化エントロピー最小化と負サンプリングを教師なしの目的とし、モデルを適応させる。 SGEMはドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を実現する。

Automatic speech recognition (ASR) models are frequently exposed to data distribution shifts in many real-world scenarios, leading to erroneous predictions. To tackle this issue, an existing test-time adaptation (TTA) method has recently been proposed to adapt the pre-trained ASR model on unlabeled test instances without source data. Despite decent performance gain, this work relies solely on naive greedy decoding and performs adaptation across timesteps at a frame level, which may not be optimal given the sequential nature of the model output. Motivated by this, we propose a novel TTA framework, dubbed SGEM, for general ASR models. To treat the sequential output, SGEM first exploits beam search to explore candidate output logits and selects the most plausible one. Then, it utilizes generalized entropy minimization and negative sampling as unsupervised objectives to adapt the model. SGEM achieves state-of-the-art performance for three mainstream ASR models under various domain shifts.
翻訳日:2023-06-09 10:55:46 公開日:2023-06-08
# ベンチマークデータセットにおけるChatGPTの体系的研究と総合評価

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets ( http://arxiv.org/abs/2305.18486v3 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang(参考訳) ChatGPTのような大規模言語モデル(LLM)の開発は、最近多くの注目を集めている。 しかし,本モデルが生み出す生成的アウトプットを根底から評価することの難しさから,その評価は未検討のままである。 本稿では,問合せ,テキスト要約,コード生成,コモンセンス推論,数学的問題解決,機械翻訳,バイアス検出,倫理的考察など,さまざまな学術データセットにおけるchatgptの性能を徹底的に評価することを目的とする。 具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。 これにより、NLPベンチマークにおけるChatGPTの最大の評価が得られます。 本研究の目的は,様々なタスクにおけるChatGPTの強みと弱みを検証し,LCMを用いた今後の研究への洞察を提供することである。 また、ChatGPTや他の命令調整モデルでよく見られるマルチクエリ命令に従う新しい創発的能力についても報告する。 我々の広範な評価によると、ChatGPTは様々なタスクを実行でき、いくつかのベンチマークデータセットで印象的なパフォーマンスを得ることができるが、多くの課題を確実に解決する能力を達成するには程遠い。 多様なNLPタスクに対してChatGPTの性能を徹底的に評価することにより、現実のアプリケーションにChatGPTライクなLLMをターゲットとして配置するためのステージを設定する。

The development of large language models (LLMs) such as ChatGPT has brought a lot of attention recently. However, their evaluation in the benchmark academic datasets remains under-explored due to the difficulty of evaluating the generative outputs produced by this model against the ground truth. In this paper, we aim to present a thorough evaluation of ChatGPT's performance on diverse academic datasets, covering tasks like question-answering, text summarization, code generation, commonsense reasoning, mathematical problem-solving, machine translation, bias detection, and ethical considerations. Specifically, we evaluate ChatGPT across 140 tasks and analyze 255K responses it generates in these datasets. This makes our work the largest evaluation of ChatGPT in NLP benchmarks. In short, our study aims to validate the strengths and weaknesses of ChatGPT in various tasks and provide insights for future research using LLMs. We also report a new emergent ability to follow multi-query instructions that we mostly found in ChatGPT and other instruction-tuned models. Our extensive evaluation shows that even though ChatGPT is capable of performing a wide variety of tasks, and may obtain impressive performance in several benchmark datasets, it is still far from achieving the ability to reliably solve many challenging tasks. By providing a thorough assessment of ChatGPT's performance across diverse NLP tasks, this paper sets the stage for a targeted deployment of ChatGPT-like LLMs in real-world applications.
翻訳日:2023-06-09 10:55:11 公開日:2023-06-08
# PTQD:拡散モデルのための正確な後処理量子化

PTQD: Accurate Post-Training Quantization for Diffusion Models ( http://arxiv.org/abs/2305.10657v3 )

ライセンス: Link先を確認
Yefei He, Luping Liu, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは最近、画像合成やその他の関連する生成タスクを支配している。 しかし、反復的復調処理は推論時の計算に高価であり、低レイテンシでスケーラブルな実世界のアプリケーションでは拡散モデルが実用的でない。 拡散モデルのトレーニング後の量子化は、モデルサイズを大幅に削減し、再トレーニングを必要とせずにサンプリングプロセスを高速化することができる。 それでも、既存の学習後量子化法を低ビット拡散モデルに直接適用することは、生成したサンプルの品質を著しく損なう可能性がある。 具体的には、分別ステップ毎に、量子化ノイズが推定平均の偏差を生じさせ、所定の分散スケジュールとミスマッチする。 さらに、サンプリングプロセスが進むにつれて、量子化ノイズが蓄積され、遅延復調ステップにおいて信号対雑音比(SNR)が低くなる。 そこで本研究では, 量子化雑音と拡散摂動雑音を統一的に定式化する手法を提案する。 まず, 量子化雑音を, 相関部分と残差部分に分けて, その全精度部分について検討する。 相関係数を推定することにより、相関部を容易に補正することができる。 非相関部分については、偏極分散スケジュールを校正し、量子化による過剰な分散を吸収する。 さらに,高ビットが高snrを後期ステップに維持している間,低ビットを早期のデノージングステップの高速化に好むデノージングステップ毎に最適なビット幅を選択するための混合精度スキームを提案する。 広範な実験により,imagenet 256x256 のフル精度 ldm-4 と比較して,高品質のサンプル生成において,前回のトレーニング後の量子化拡散モデルよりも優れており,fid スコアは 0.06 % 向上し,19.9 倍の演算を節約できることを示した。

Diffusion models have recently dominated image synthesis and other related generative tasks. However, the iterative denoising process is expensive in computations at inference time, making diffusion models less practical for low-latency and scalable real-world applications. Post-training quantization of diffusion models can significantly reduce the model size and accelerate the sampling process without requiring any re-training. Nonetheless, applying existing post-training quantization methods directly to low-bit diffusion models can significantly impair the quality of generated samples. Specifically, for each denoising step, quantization noise leads to deviations in the estimated mean and mismatches with the predetermined variance schedule. Moreover, as the sampling process proceeds, the quantization noise may accumulate, resulting in a low signal-to-noise ratio (SNR) in late denoising steps. To address these challenges, we propose a unified formulation for the quantization noise and diffusion perturbed noise in the quantized denoising process. We first disentangle the quantization noise into its correlated and residual uncorrelated parts regarding its full-precision counterpart. The correlated part can be easily corrected by estimating the correlation coefficient. For the uncorrelated part, we calibrate the denoising variance schedule to absorb the excess variance resulting from quantization. Moreover, we propose a mixed-precision scheme to choose the optimal bitwidth for each denoising step, which prefers low bits to accelerate the early denoising steps while high bits maintain the high SNR for the late steps. Extensive experiments demonstrate that our method outperforms previous post-training quantized diffusion models in generating high-quality samples, with only a 0.06 increase in FID score compared to full-precision LDM-4 on ImageNet 256x256, while saving 19.9x bit operations.
翻訳日:2023-06-09 10:54:11 公開日:2023-06-08
# 自由視点照明とシーン構成のための物体中心神経散乱関数の学習

Learning Object-Centric Neural Scattering Functions for Free-Viewpoint Relighting and Scene Composition ( http://arxiv.org/abs/2303.06138v3 )

ライセンス: Link先を確認
Hong-Xing Yu, Michelle Guo, Alireza Fathi, Yen-Yu Chang, Eric Ryan Chan, Ruohan Gao, Thomas Funkhouser, Jiajun Wu(参考訳) 2次元画像からのフォトリアリスティックオブジェクトの外観モデリングは、視覚とグラフィックスにおいて一定のトピックである。 ニューラルネットワークの暗黙的手法(ニューラルネットワークの放射場など)は高忠実度なビュー合成結果を示しているが、捕獲されたオブジェクトをリフレッシュすることはできない。 より最近のニューラルネットワークの逆レンダリング手法は、物体の照準を可能にするが、表面特性を単純なBRDFとして表すため、半透明物体を扱えない。 画像のみからオブジェクトの外観を再構築する学習のためのオブジェクト指向ニューラル散乱関数(OSF)を提案する。 OSFは、自由視点オブジェクトのリライトだけでなく、不透明なオブジェクトと半透明なオブジェクトの両方をモデル化できる。 半透明物体の地下光輸送を正確にモデル化することは、非常に複雑で、神経学的手法でも難解であるが、OSFは、遠方の光から任意の空間的位置における出射方向への放射移動を近似することを学ぶ。 この近似は、複雑な地下散乱を明示的にモデル化することを避け、ニューラルネットワークの暗黙モデルを学ぶことができる。 実データと合成データの実験により、OSFは不透明な物体と半透明な物体の両方の外観を正確に再構成し、忠実な自由視点のリライティングとシーン構成を可能にした。

Photorealistic object appearance modeling from 2D images is a constant topic in vision and graphics. While neural implicit methods (such as Neural Radiance Fields) have shown high-fidelity view synthesis results, they cannot relight the captured objects. More recent neural inverse rendering approaches have enabled object relighting, but they represent surface properties as simple BRDFs, and therefore cannot handle translucent objects. We propose Object-Centric Neural Scattering Functions (OSFs) for learning to reconstruct object appearance from only images. OSFs not only support free-viewpoint object relighting, but also can model both opaque and translucent objects. While accurately modeling subsurface light transport for translucent objects can be highly complex and even intractable for neural methods, OSFs learn to approximate the radiance transfer from a distant light to an outgoing direction at any spatial location. This approximation avoids explicitly modeling complex subsurface scattering, making learning a neural implicit model tractable. Experiments on real and synthetic data show that OSFs accurately reconstruct appearances for both opaque and translucent objects, allowing faithful free-viewpoint relighting as well as scene composition.
翻訳日:2023-06-09 10:53:43 公開日:2023-06-08
# 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成

Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC ( http://arxiv.org/abs/2302.11552v3 )

ライセンス: Link先を確認
Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl(参考訳) 導入以来、拡散モデルは急速に多くの領域における生成モデリングへの一般的なアプローチとなっている。 これらは、ログ確率密度関数の時間変化列の勾配を学ぶと解釈できる。 この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。 本研究は, 拡散モデルのスコアに基づく解釈を用いてこれらの概念を構築し, 構成生成と指導を伴うタスクの拡散モデルを条件づけ, 修正, 再利用する方法を検討する。 特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。 この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。 さらに,新しい構成演算子と,より洗練されたメトロポリス補正試料を用いた拡散モデルのエネルギーベースパラメータ化を提案する。 興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題において、構成生成の顕著な改善につながっている。

Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation.
翻訳日:2023-06-09 10:53:21 公開日:2023-06-08
# エゴセントリック行動予測のためのインタラクションビジュアルトランスフォーマ

Interaction Visual Transformer for Egocentric Action Anticipation ( http://arxiv.org/abs/2211.14154v5 )

ライセンス: Link先を確認
Debaditya Roy, Ramanathan Rajendiran and Basura Fernando(参考訳) ヒトと物体の相互作用は最も重要な視覚的手がかりの1つであり、人間と物体の相互作用をエゴセントリックな行動予測のために表現する方法を提案する。 本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練することにより,インタラクションをモデル化するトランスフォーマーを提案する。 具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。 これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。 本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
翻訳日:2023-06-09 10:53:03 公開日:2023-06-08
# 抽象目標のモデル化による次の行動予測

Predicting the Next Action by Modeling the Abstract Goal ( http://arxiv.org/abs/2209.05044v4 )

ライセンス: Link先を確認
Debaditya Roy and Basura Fernando(参考訳) 人間の行動を予測する問題は本質的に不確実である。 しかし、俳優が達成しようとしている目標を把握できれば、この不確実性を低減することができる。 本稿では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。 我々は、推論中に目標情報や観察された行動を持っていないので、視覚表現を用いて行動と目標の両方に関する情報をカプセル化する。 そこで我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。 この抽象目標を,変動リカレントネットワークを用いてパラメータを推定する分布として設計する。 我々は,次の行動に対する複数の候補をサンプリングし,抽象目標から従う最適な候補を決定するための目標整合度尺度を導入する。 提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。 ek55のs1法と比較して,top-1動詞の+13.69,+11.24,+5.19,top-1名詞,top-1行動予測精度の絶対的改善が得られた。 同様に、トップ1動詞(+10.75)、名詞(+5.84)、行動(+2.87)に設定された未確認キッチン(S2)の大幅な改善も得られる。 EGTEA Gaze+データセットでも同様の傾向が見られ、名詞、動詞、行動予測に対して+9.9、+13.1、+6.8の絶対的な改善が得られる。 本論文の提出により,本手法は現在,ek55およびegtea gaze+ https://competitions.codalab.org/competitions/20071#resultsコードが,https://github.com/debadityaroy/abstract_goalで利用可能である。

The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages goal information for the purpose of reducing the uncertainty in future predictions. Since we do not possess goal information or the observed actions during inference, we resort to visual representation to encapsulate information about both actions and goals. Through this, we derive a novel concept called abstract goal which is conditioned on observed sequences of visual features for action anticipation. We design the abstract goal as a distribution whose parameters are estimated using a variational recurrent network. We sample multiple candidates for the next action and introduce a goal consistency measure to determine the best candidate that follows from the abstract goal. Our method obtains impressive results on the very challenging Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1 action anticipation accuracy respectively over prior state-of-the-art methods for seen kitchens (S1) of EK55. Similarly, we also obtain significant improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun (+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained for noun, verb, and action anticipation. It is through the submission of this paper that our method is currently the new state-of-the-art for action anticipation in EK55 and EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal
翻訳日:2023-06-09 10:52:43 公開日:2023-06-08
# 一般化可能な人物再識別のためのスタイルインターリーブ学習

Style Interleaved Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2207.03132v3 )

ライセンス: Link先を確認
Wentao Tan and Changxing Ding and Pengfei Wang and Mingming Gong and Kui Jia(参考訳) 個人再識別(ReID)のためのドメイン一般化(DG)は、トレーニングプロセス中にターゲットドメインデータへのアクセスが許可されないため、難しい問題である。 既存のDG ReIDメソッドのほとんどは、同じ機能に基づいて特徴抽出子と分類子パラメータを更新する。 この一般的なプラクティスは、モデルをソースドメインの既存の機能スタイルに過度に適合させ、それによってターゲットドメインに対する準最適一般化能力をもたらす。 そこで,本稿では,新しい形式のインターリーブ学習(il)フレームワークを提案する。 従来の学習戦略とは異なり、ilは各イテレーションに2つの前方伝播と1つの後方伝播を組み込んでいる。 我々は、異なるフォワード伝搬を使用して特徴抽出子と分類器を更新するためにインターリーブされたスタイルの特徴を利用し、モデルが特定のドメインスタイルに過度に適合することを防ぐ。 インターリーブされた特徴スタイルを生成するために,新たな特徴スタイリング手法を提案する。 ilの方法論に対応するソースドメインのオリジナルスタイルと異なる、あるいは独立した、幅広い意味のあるスタイルを生み出します。 我々のモデルはDG ReIDの大規模ベンチマークにおいて常に最先端の手法よりも優れているだけでなく、計算効率にも明らかな利点があることを示す。 コードはhttps://github.com/wentaotan/interleaved-learningで入手できる。

Domain generalization (DG) for person re-identification (ReID) is a challenging problem, as access to target domain data is not permitted during the training process. Most existing DG ReID methods update the feature extractor and classifier parameters based on the same features. This common practice causes the model to overfit to existing feature styles in the source domain, resulting in sub-optimal generalization ability on target domains. To solve this problem, we propose a novel style interleaved learning (IL) framework. Unlike conventional learning strategies, IL incorporates two forward propagations and one backward propagation for each iteration. We employ the features of interleaved styles to update the feature extractor and classifiers using different forward propagations, which helps to prevent the model from overfitting to certain domain styles. To generate interleaved feature styles, we further propose a new feature stylization approach. It produces a wide range of meaningful styles that are both different and independent from the original styles in the source domain, which caters to the IL methodology. Extensive experimental results show that our model not only consistently outperforms state-of-the-art methods on large-scale benchmarks for DG ReID, but also has clear advantages in computational efficiency. The code is available at https://github.com/WentaoTan/Interleaved-Learning.
翻訳日:2023-06-09 10:52:03 公開日:2023-06-08
# 1位pvuw challenge 2023: video panoptic segmentation

1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation ( http://arxiv.org/abs/2306.04091v2 )

ライセンス: Link先を確認
Tao Zhang and Xingye Tian and Haoran Wei and Yu Wu and Shunping Ji and Xuebo Wang and Xin Tao and Yuan Zhang and Pengfei Wan(参考訳) ビデオのパンオプティカルセグメンテーションは、ビデオ編集や自動運転など、多くの下流アプリケーションの基礎となる課題である。 dvisによって提案された分離戦略は、"thing"と"stuff"の両方のオブジェクトに対して、より効果的な時間情報の活用を可能にすると信じている。 本報告では,ビデオパノプティックセグメンテーションにおけるデカップリング戦略の有効性を検証した。 最後に,第2回PVUWチャレンジのVPSトラックでそれぞれ51.4と53.7のVPQスコアを達成し,最終的に第2回PVUWチャレンジのVPSトラックで1位となった。 コードはhttps://github.com/zhang-tao-whu/dvisで入手できる。

Video panoptic segmentation is a challenging task that serves as the cornerstone of numerous downstream applications, including video editing and autonomous driving. We believe that the decoupling strategy proposed by DVIS enables more effective utilization of temporal information for both "thing" and "stuff" objects. In this report, we successfully validated the effectiveness of the decoupling strategy in video panoptic segmentation. Finally, our method achieved a VPQ score of 51.4 and 53.7 in the development and test phases, respectively, and ultimately ranked 1st in the VPS track of the 2nd PVUW Challenge. The code is available at https://github.com/zhang-tao-whu/DVIS
翻訳日:2023-06-09 10:44:39 公開日:2023-06-08
# 70ge/28si70ge量子井戸

Nuclear Spin-Depleted, Isotopically Enriched 70Ge/28Si70Ge Quantum Wells ( http://arxiv.org/abs/2306.04052v2 )

ライセンス: Link先を確認
O. Moutanabbir, S. Assali, A. Attiaoui, G. Daligou, P. Daoust, P. Del Vecchio, S. Koelling, L. Luo, and N. Rotaru(参考訳) ホール波動関数のp対称性は電子に比べて弱い超微細構造相互作用と関連しており、ホールスピン量子ビットは長いコヒーレンス量子プロセッサを実装する候補となる。 しかし、最近の研究では、平面ゲルマニウム(Ge)ヘテロ構造は核スピン浴に非常に敏感であることが示されている。 これらの観察は、この脱コヒーレンスチャネルを抑制し、その影響を評価するために核スピンフリーなGe量子ビットを開発する必要性を強調している。 この観点から、この研究は、$^\text{73}$Ge-depleted isotopally enriched $^\text{70}$Ge/SiGe 量子井戸のエピタキシャル成長を示す。 この成長は, 等方的に精製したモノガーマン$^\text{70}$GeH$_\text{4}$およびモノシラン$^\text{28}$SiH$_\text{4}$を用いて, 99.9$\%および99.99$\%$以上の同位体純度を有する圧力化学的蒸着によって達成された。 量子井戸は、Ge仮想基板とグレードしたSiGeバッファ層を用いてSiウェハ上に成長した$^\text{70}$Ge/SiGeヘテロ構造からなる。 質量スペクトルにおける同位体ピークの重なりに起因する同位体量の不一致を解析し,原子プローブトモグラフィを用いて同位体純度を調べた。 量子井戸の核スピン背景は成長条件に敏感であることが判明した。 ヘテロ構造における核スピンフル同位体の最低濃度$^\text{73}$Geと$^\text{29}$Siは、Ge量子井戸とSiGe障壁において0.01$\%で確立された。 核スピン間の平均距離は$^\text{70}$Ge/$^\text{28}$Si$^\text{70}$Geで3-4nmに達する。

The p-symmetry of the hole wavefunction is associated with a weaker hyperfine interaction as compared to electrons, thus making hole spin qubits attractive candidates to implement long coherence quantum processors. However, recent studies demonstrated that hole qubits in planar germanium (Ge) heterostructures are still very sensitive to nuclear spin bath. These observations highlight the need to develop nuclear spin-free Ge qubits to suppress this decoherence channel and evaluate its impact. With this perspective, this work demonstrates the epitaxial growth of $^\text{73}$Ge-depleted isotopically enriched $^\text{70}$Ge/SiGe quantum wells. The growth was achieved by reduced pressure chemical vapor deposition using isotopically purified monogermane $^\text{70}$GeH$_\text{4}$ and monosilane $^\text{28}$SiH$_\text{4}$ with an isotopic purity higher than 99.9 $\%$ and 99.99 $\%$, respectively. The quantum wells consist of a series of $^\text{70}$Ge/SiGe heterostructures grown on Si wafers using a Ge virtual substrate and a graded SiGe buffer layer. The isotopic purity is investigated using atom probe tomography following an analytical procedure addressing the discrepancies in the isotopic content caused by the overlap of isotope peaks in mass spectra. The nuclear spin background in the quantum wells was found to be sensitive to the growth conditions. The lowest concentration of nuclear spin-full isotopes $^\text{73}$Ge and $^\text{29}$Si in the heterostructure was established at 0.01 $\%$ in the Ge quantum well and SiGe barriers. The measured average distance between nuclear spins reaches 3-4 nm in $^\text{70}$Ge/$^\text{28}$Si$^\text{70}$Ge, which is an order of magnitude larger than in natural Ge/SiGe heterostructures.
翻訳日:2023-06-09 10:44:27 公開日:2023-06-08
# 階層型変分オートエンコーダを用いた感情条件メロディ調和

Emotion-Conditioned Melody Harmonization with Hierarchical Variational Autoencoder ( http://arxiv.org/abs/2306.03718v2 )

ライセンス: Link先を確認
Shulei Ji and Xinyu Yang(参考訳) 既存のメロディ調和モデルでは、生成したハーモニーの品質向上に大きな進歩を遂げているが、その多くは音楽の下の感情を無視している。 一方、以前の手法で生成された調和の変動性は不十分である。 これらの問題を解決するために,LSTMを用いた階層的変分自動エンコーダ(LHVAE)を提案する。 特に、LHVAEは、グローバルおよびローカルな音楽特性をモデル化するために、様々なレベル(ピースレベルとバーレベル)の潜伏変数と感情条件を組み込んでいる。 さらに,各ステップに注意に基づくメロディコンテキストベクトルを導入し,メロディとハーモニーの対応をよりよく学習する。 評価実験の結果,提案モデルが他のLSTMモデルより優れていることが示された。 主観的評価により、和音の修正だけが音楽の全体的な感情を変えることはないと結論づけた。 定性的解析は、我々のモデルが可変調和を生成する能力を示す。

Existing melody harmonization models have made great progress in improving the quality of generated harmonies, but most of them ignored the emotions beneath the music. Meanwhile, the variability of harmonies generated by previous methods is insufficient. To solve these problems, we propose a novel LSTM-based Hierarchical Variational Auto-Encoder (LHVAE) to investigate the influence of emotional conditions on melody harmonization, while improving the quality of generated harmonies and capturing the abundant variability of chord progressions. Specifically, LHVAE incorporates latent variables and emotional conditions at different levels (piece- and bar-level) to model the global and local music properties. Additionally, we introduce an attention-based melody context vector at each step to better learn the correspondence between melodies and harmonies. Experimental results of the objective evaluation show that our proposed model outperforms other LSTM-based models. Through subjective evaluation, we conclude that only altering the chords hardly changes the overall emotion of the music. The qualitative analysis demonstrates the ability of our model to generate variable harmonies.
翻訳日:2023-06-09 10:43:49 公開日:2023-06-08
# エージェントとllmのインテリジェントなインタラクションの実現:強化学習アプローチ

Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.03604v2 )

ライセンス: Link先を確認
Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu(参考訳) 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。 近年の研究では、LLMは高レベルの指示を提供することで、実施環境における複雑な逐次意思決定タスクを解くエージェントを支援することができることが示されている。 しかし、LLMとの対話には時間がかかる場合がある。多くの実践的なシナリオでは、リモートクラウドサーバノードにしかデプロイできない大量のストレージスペースが必要になる。 加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。 本稿では,エージェントとLLMのインテリジェントなコスト効率な相互作用を実現する方法について検討する。 本稿では,目標タスクを達成するためにllmに相談する必要があるタイミングを決定する強化学習型メディエータモデルを提案する。 4つのミニグリッド環境におけるプランニングサブゴールを含む実験により、本手法は、llmとほんの数個の必要なインタラクションだけでターゲットタスクを解くことを学び、ベースライン法と比較してテスト環境でのインタラクションコストを大幅に削減できることが証明された。 また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が環境の部分的可観測性に対してより堅牢になることが示唆された。 私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。

Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an agent in solving complex sequential decision making tasks in embodied environments by providing high-level instructions. However, interacting with LLMs can be time-consuming, as in many practical scenarios, they require a significant amount of storage space that can only be deployed on remote cloud server nodes. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable intelligent cost-effective interactions between the agent and an LLM. We propose a reinforcement learning based mediator model that determines when it is necessary to consult LLMs for high-level instructions to accomplish a target task. Experiments on 4 MiniGrid environments that entail planning sub-goals demonstrate that our method can learn to solve target tasks with only a few necessary interactions with an LLM, significantly reducing interaction costs in testing environments, compared with baseline methods. Experimental results also suggest that by learning a mediator model to interact with the LLM, the agent's performance becomes more robust against partial observability of the environment. Our Code is available at https://github.com/ZJLAB-AMMI/LLM4RL.
翻訳日:2023-06-09 10:43:30 公開日:2023-06-08
# 位相相関:anyonic状態は局所的操作と古典的通信では決定できない

Topological correlation: anyonic states cannot be determined by local operations and classical communication ( http://arxiv.org/abs/2306.03596v2 )

ライセンス: Link先を確認
Cheng-Qian Xu and D. L. Zhou(参考訳) anyonic system は位相量子コンピュータの構成に潜在的に応用できるだけでなく、量子多体系における位相絡みエントロピーとして知られる特異な性質を示す。 トポロジカル絡み合いのエントロピーを理解する方法は、物理学者にとって最も関心のある問題の1つである。 正準双極子系では、最大エントロピーの原理に基づいて位相相関の操作測度を定義し、このトポロジ的相関は、正準超選択規則や古典的通信によって制約された局所的な操作によってアクセスできない情報である。 この測度は、スーパー選択規則の存在下で他の複合量子系の非局所的資源を測定するために拡張することができる。 最大階数を持つ任意のアノニカル二成分状態に対して、その位相相関は、その位相的絡み合いエントロピーを導出できることが文献に示されているアノニカル電荷の絡み合いのエントロピーに等しいことが証明される。 この尺度は、超選択規則と位相位相分類への照明的アプローチを備えた多部系における相関のより洗練された分類を提供する。

Anyonic system not only has potential applications in the construction of topological quantum computer, but also presents a unique property known as topological entanglement entropy in quantum many-body systems. How to understand topological entanglement entropy is one of the most concerned problems for physicists. For an anyonic bipartite system, we define an operational measure of topological correlation based on the principle of maximal entropy, where the topological correlation is the information that cannot be accessed by local operations constrained by anyonic superselection rules and classical communication. This measure can be extended to measure non-local resources of other compound quantum systems in the presence of superselection rules. For a given anyonic bipartite state with maximal rank, we prove that its topological correlation is equal to its entropy of anyonic charge entanglement that has been shown in the literature to be able to derive topological entanglement entropy. This measure provides a more refined classification of correlations in a multipartite system with superselection rules and an illuminating approach to topological phase classification.
翻訳日:2023-06-09 10:43:07 公開日:2023-06-08
# DFormer:Universal Image Segmentationのための拡散誘導変換器

DFormer: Diffusion-guided Transformer for Universal Image Segmentation ( http://arxiv.org/abs/2306.03437v2 )

ライセンス: Link先を確認
Hefeng Wang, Jiale Cao, Rao Muhammad Anwer, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang(参考訳) 本稿では,ユニバーサルイメージセグメンテーションのためのアプローチであるdformerを提案する。 提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。 DFormerはまず、グラウンドトルースマスクに様々なレベルのガウスノイズを加え、その後、劣化したマスクからデノナイジングマスクを予測するモデルを学ぶ。 具体的には,ノイズの少ないマスクを入力とし,マスク特徴や注意マスクを生成し,拡散型デコーダを用いてマスク予測を徐々に行う。 推論では、ドフォーマーはランダムに生成されたマスクからマスクと対応するカテゴリを直接予測します。 広範な実験により,提案する画像分割タスクにおける提案手法の有用性が明らかになった。 我々のDFormerは,MS COCO val2017セットで3.6%向上し,近年の拡散型パノプティックセグメンテーション法Pix2Seq-Dより優れている。 さらに、dformer は ade20k val セット上で、最近の拡散ベース法を2.2%上回る有望な意味セグメンテーション性能を実現する。 ソースコードとモデルはhttps://github.com/cp3wan/dformerで公開します。

This paper introduces an approach, named DFormer, for universal image segmentation. The proposed DFormer views universal image segmentation task as a denoising process using a diffusion model. DFormer first adds various levels of Gaussian noise to ground-truth masks, and then learns a model to predict denoising masks from corrupted masks. Specifically, we take deep pixel-level features along with the noisy masks as inputs to generate mask features and attention masks, employing diffusion-based decoder to perform mask prediction gradually. At inference, our DFormer directly predicts the masks and corresponding categories from a set of randomly-generated masks. Extensive experiments reveal the merits of our proposed contributions on different image segmentation tasks: panoptic segmentation, instance segmentation, and semantic segmentation. Our DFormer outperforms the recent diffusion-based panoptic segmentation method Pix2Seq-D with a gain of 3.6% on MS COCO val2017 set. Further, DFormer achieves promising semantic segmentation performance outperforming the recent diffusion-based method by 2.2% on ADE20K val set. Our source code and models will be publicly on https://github.com/cp3wan/DFormer
翻訳日:2023-06-09 10:42:44 公開日:2023-06-08
# dreamsparse: スパースビューを付与した2次元拡散モデルによるプラトンの洞窟からの脱出

DreamSparse: Escaping from Plato's Cave with 2D Diffusion Model Given Sparse Views ( http://arxiv.org/abs/2306.03414v2 )

ライセンス: Link先を確認
Paul Yoo, Jiaxian Guo, Yutaka Matsuo, Shixiang Shane Gu(参考訳) いくつかの視点から新しいビューイメージを合成することは、難しいが実践的な問題である。 既存の手法では、提供された情報不足のため、品質の高い結果を生成するのに苦労することが多い。 本研究では,事前学習した拡散モデルにおける2次元先行の強みを利用した新しいビュー画像の合成について検討する。 しかし、2d拡散モデルには3d認識が欠如しており、画像合成の歪曲化とアイデンティティの妥協に繋がる。 このような問題に対処するために,凍結した事前学習拡散モデルにより幾何学的,アイデンティティに一貫性のある新しいビュー画像を生成するフレームワークDreamSparseを提案する。 具体的には、DreamSparseには3Dビューから3Dの機能をキャプチャーするための幾何学モジュールが組み込まれている。 その後、これらの3次元特徴写像を生成過程の空間情報に変換するための空間誘導モデルを導入する。 この情報は、事前訓練された拡散モデルを導くために使用され、幾何的に一貫した画像を生成することができる。 事前訓練された拡散モデルで強いイメージを活用すれば、DreamSparseはオブジェクトレベルの画像とシーンレベルの画像の両方に対して高品質なノベルビューを合成し、オープンセットイメージに一般化することができる。 実験により,本フレームワークは,スパースビューから新しいビューイメージを効果的に合成し,訓練されたカテゴリイメージとオープンセットのカテゴリイメージの両方において,ベースラインに優れることを示した。 https://sites.google.com/view/dreamsparse-webページ。

Synthesizing novel view images from a few views is a challenging but practical problem. Existing methods often struggle with producing high-quality results or necessitate per-object optimization in such few-view settings due to the insufficient information provided. In this work, we explore leveraging the strong 2D priors in pre-trained diffusion models for synthesizing novel view images. 2D diffusion models, nevertheless, lack 3D awareness, leading to distorted image synthesis and compromising the identity. To address these problems, we propose DreamSparse, a framework that enables the frozen pre-trained diffusion model to generate geometry and identity-consistent novel view image. Specifically, DreamSparse incorporates a geometry module designed to capture 3D features from sparse views as a 3D prior. Subsequently, a spatial guidance model is introduced to convert these 3D feature maps into spatial information for the generative process. This information is then used to guide the pre-trained diffusion model, enabling it to generate geometrically consistent images without tuning it. Leveraging the strong image priors in the pre-trained diffusion models, DreamSparse is capable of synthesizing high-quality novel views for both object and scene-level images and generalising to open-set images. Experimental results demonstrate that our framework can effectively synthesize novel view images from sparse views and outperforms baselines in both trained and open-set category images. More results can be found on our project page: https://sites.google.com/view/dreamsparse-webpage.
翻訳日:2023-06-09 10:42:28 公開日:2023-06-08
# DVIS: 分離されたビデオインスタンスセグメンテーションフレームワーク

DVIS: Decoupled Video Instance Segmentation Framework ( http://arxiv.org/abs/2306.03413v2 )

ライセンス: Link先を確認
Tao Zhang, Xingye Tian, Yu Wu, Shunping Ji, Xuebo Wang, Yuan Zhang, Pengfei Wan(参考訳) ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。 既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。 まず、オフライン手法は、全てのフレームを等しく扱い、隣接するフレーム間の相互依存性を無視する密結合モデリングパラダイムによって制限される。 これにより、長期の時間的アライメント中に過度のノイズが発生する。 第二に、オンライン手法は時間情報の不十分な利用に悩まされる。 これらの課題に取り組むため,我々はvisをセグメンテーション,トラッキング,リファインメントという3つの独立したサブタスクに分割することにより,分離戦略を提案する。 分離戦略の有効性は2つの重要な要素に依存している。 1)追跡中のフレーム・バイ・フレーム・アソシエーションによる正確な長期的アライメントの達成 2) 上述の正確なアライメント結果に基づく時間情報の有効性について検討した。 本稿では,新しいレファレンストラッカーとテンポラリファインダを導入し,それを用いて \textbf{D}ecoupled \textbf{VIS} framework (\textbf{DVIS})を構築する。 DVISは、VISとVPSの両方で新しいSOTAパフォーマンスを実現し、現在のSOTAメソッドを7.3 APと9.6 VPQのOVISとVIPSegデータセットで上回っている。 さらに、デカップリング戦略により、参照トラッカーと時間精製器は超軽量(セグメンタFLOPのわずか1.69\%)であり、11Gメモリを持つ単一のGPU上で効率的なトレーニングと推論を可能にする。 コードは \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS} で公開されている。

Video instance segmentation (VIS) is a critical task with diverse applications, including autonomous driving and video editing. Existing methods often underperform on complex and long videos in real world, primarily due to two factors. Firstly, offline methods are limited by the tightly-coupled modeling paradigm, which treats all frames equally and disregards the interdependencies between adjacent frames. Consequently, this leads to the introduction of excessive noise during long-term temporal alignment. Secondly, online methods suffer from inadequate utilization of temporal information. To tackle these challenges, we propose a decoupling strategy for VIS by dividing it into three independent sub-tasks: segmentation, tracking, and refinement. The efficacy of the decoupling strategy relies on two crucial elements: 1) attaining precise long-term alignment outcomes via frame-by-frame association during tracking, and 2) the effective utilization of temporal information predicated on the aforementioned accurate alignment outcomes during refinement. We introduce a novel referring tracker and temporal refiner to construct the \textbf{D}ecoupled \textbf{VIS} framework (\textbf{DVIS}). DVIS achieves new SOTA performance in both VIS and VPS, surpassing the current SOTA methods by 7.3 AP and 9.6 VPQ on the OVIS and VIPSeg datasets, which are the most challenging and realistic benchmarks. Moreover, thanks to the decoupling strategy, the referring tracker and temporal refiner are super light-weight (only 1.69\% of the segmenter FLOPs), allowing for efficient training and inference on a single GPU with 11G memory. The code is available at \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}.
翻訳日:2023-06-09 10:42:03 公開日:2023-06-08
# cmexamによる大規模言語モデルのベンチマーク - 総合的な中国医学試験データセット

Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset ( http://arxiv.org/abs/2306.03030v2 )

ライセンス: Link先を確認
Junling Liu, Peilin Zhou, Yining Hua, Dading Chong, Zhongyu Tian, Andrew Liu, Helin Wang, Chenyu You, Zhenhua Guo, Lei Zhu, Michael Lingzhi Li(参考訳) 大規模言語モデル(LLM)の最近の進歩は、質問応答(QA)の分野を変えている。 しかし、標準化された包括的なデータセットがないため、医療分野におけるLCMの評価は困難である。 このギャップに対処するため,中国国立医学ライセンス試験から得られたCMExamを紹介する。 CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。 llmsの詳細な分析のために、我々は医療専門家に、疾患グループ、臨床部門、医学分野、能力領域、質問難易度レベルを含む5つの追加の質問項目をラベル付けするよう求めた。 データセットとともに,CMExam上で,代表LLMとQAアルゴリズムを用いた徹底的な実験を行った。 その結果、GPT-4は61.6%、重み付きF1スコアは0.617であった。 これらの結果は、人的精度が71.6%であったのに対して、大きな違いを示している。 説明タスクでは、LCMは関連する推論を生成し、微調整後の性能向上を示すが、望ましい標準には達せず、改善の余地が十分にある。 私たちの知る限り、CMExamは、包括的な医療アノテーションを提供する最初の中国の医学試験データセットです。 LLM評価の実験と結果はまた、中国の医療用QAシステムとLLM評価パイプラインの開発における課題と潜在的な解決策に関する貴重な知見を提供する。 データセットと関連するコードはhttps://github.com/williamliujl/cmexamで入手できる。

Recent advancements in large language models (LLMs) have transformed the field of question answering (QA). However, evaluating LLMs in the medical field is challenging due to the lack of standardized and comprehensive datasets. To address this gap, we introduce CMExam, sourced from the Chinese National Medical Licensing Examination. CMExam consists of 60K+ multiple-choice questions for standardized and objective evaluations, as well as solution explanations for model reasoning evaluation in an open-ended manner. For in-depth analyses of LLMs, we invited medical professionals to label five additional question-wise annotations, including disease groups, clinical departments, medical disciplines, areas of competency, and question difficulty levels. Alongside the dataset, we further conducted thorough experiments with representative LLMs and QA algorithms on CMExam. The results show that GPT-4 had the best accuracy of 61.6% and a weighted F1 score of 0.617. These results highlight a great disparity when compared to human accuracy, which stood at 71.6%. For explanation tasks, while LLMs could generate relevant reasoning and demonstrate improved performance after finetuning, they fall short of a desired standard, indicating ample room for improvement. To the best of our knowledge, CMExam is the first Chinese medical exam dataset to provide comprehensive medical annotations. The experiments and findings of LLM evaluation also provide valuable insights into the challenges and potential solutions in developing Chinese medical QA systems and LLM evaluation pipelines. The dataset and relevant code are available at https://github.com/williamliujl/CMExam.
翻訳日:2023-06-09 10:41:30 公開日:2023-06-08
# 入力空間におけるチューニングによる事前学習されたバックボーンによる連続学習

Continual Learning with Pretrained Backbones by Tuning in the Input Space ( http://arxiv.org/abs/2306.02947v2 )

ライセンス: Link先を確認
Simone Marullo and Matteo Tiezzi and Marco Gori and Stefano Melacci and Tinne Tuytelaars(参考訳) ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。 この問題は、事前訓練されたモデルが、異なるタスク予測器が時間とともに順次学習される潜在空間への投影を計算するような、実践的な教師付き学習設定において重要である。 実のところ、新しいタスクに適応するためにモデルを段階的に微調整すると、たいていは破滅的な忘れがちになり、過去の経験よりもパフォーマンスが低下し、トレーニング前の段階から貴重な知識を失う。 本稿では,ネットワークの事前学習部分の更新を回避し,通常の分類ヘッドだけでなく,入力データの変換に責任を持つ新たな学習可能なパラメータのセットも学習することで,微調整手順をより効果的にするための新しい手法を提案する。 このプロセスにより、ネットワークは事前学習した知識を効果的に活用し、可塑性と安定性の間の良いトレードオフを見つけることができる。 連続学習環境における4つの画像分類問題に関する実験は,複数の微調整手順と一般的な連続学習手法と比較して,提案手法の品質を確認する。

The intrinsic difficulty in adapting deep learning models to non-stationary environments limits the applicability of neural networks to real-world tasks. This issue is critical in practical supervised learning settings, such as the ones in which a pre-trained model computes projections toward a latent space where different task predictors are sequentially learned over time. As a matter of fact, incrementally fine-tuning the whole model to better adapt to new tasks usually results in catastrophic forgetting, with decreasing performance over the past experiences and losing valuable knowledge from the pre-training stage. In this paper, we propose a novel strategy to make the fine-tuning procedure more effective, by avoiding to update the pre-trained part of the network and learning not only the usual classification head, but also a set of newly-introduced learnable parameters that are responsible for transforming the input data. This process allows the network to effectively leverage the pre-training knowledge and find a good trade-off between plasticity and stability with modest computational efforts, thus especially suitable for on-the-edge settings. Our experiments on four image classification problems in a continual learning setting confirm the quality of the proposed approach when compared to several fine-tuning procedures and to popular continual learning methods.
翻訳日:2023-06-09 10:41:03 公開日:2023-06-08
# テキストプロンプトによる高品質検出データ生成のためのテキスト間拡散モデルへの幾何制御の統合

Integrating Geometric Control into Text-to-Image Diffusion Models for High-Quality Detection Data Generation via Text Prompt ( http://arxiv.org/abs/2306.04607v2 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツの作成や画像分類などのタスクのためのデータの生成に際し、非常に注目されている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件が不可欠である未探索領域に留まっている。 従来はコピー・ペースト合成やレイアウト・トゥ・イメージ(L2I)生成を利用していた。 本稿では,様々な幾何学的条件を柔軟にテキストプロンプトに変換し,高品質なデータ生成のための事前学習されたtext-to-image(t2i)拡散モデルを強化するシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to their remarkable ability to create content and generate data for tasks such as image classification. However, the usage of diffusion models to generate high-quality object detection data remains an underexplored area, where not only the image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode semantic layouts. In this paper, we propose GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower the pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2023-06-09 10:36:07 公開日:2023-06-08
# 忠実な知識蒸留

Faithful Knowledge Distillation ( http://arxiv.org/abs/2306.04431v2 )

ライセンス: Link先を確認
Tom A. Lamb, Rudy Brunel, Krishnamurthy DJ Dvijotham, M. Pawan Kumar, Philip H. S. Torr, Francisco Eiras(参考訳) 知識蒸留(KD)は、資源の制約されたシステムへの展開を可能にするために、ネットワークの圧縮に成功したため、多くの注目を集めている。 対角的堅牢性の問題は、KD設定において以前にも研究されてきたが、従来の研究は、教師に対する学生ネットワークの相対的キャリブレーションをソフトな自信の観点から見落としている。 特に,教師と学生のペアに関する2つの重要な質問に焦点をあてる。 i)教師と学生は、正しく分類されたデータセットの例に近い点で意見が一致しないか。 (ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか? これらは、安全クリティカルな環境でロバストな教師から訓練された小さな学生ネットワークの配置を考えるとき、重要な問題である。 そこで本研究では,自信の相対的校正を議論するための忠実な模倣枠組みと,教師の相対校正を評価するための経験的・認定的手法を提案する。 さらに, 生徒の相対校正インセンティブと教師の校正インセンティブを確実に一致させるために, 忠実蒸留を導入する。 MNISTおよびFashion-MNISTデータセットに関する実験は、このような分析の必要性と、代替対角蒸留法に対する忠実蒸留の有効性の増大の利点を示している。

Knowledge distillation (KD) has received much attention due to its success in compressing networks to allow for their deployment in resource-constrained systems. While the problem of adversarial robustness has been studied before in the KD setting, previous works overlook what we term the relative calibration of the student network with respect to its teacher in terms of soft confidences. In particular, we focus on two crucial questions with regard to a teacher-student pair: (i) do the teacher and student disagree at points close to correctly classified dataset examples, and (ii) is the distilled student as confident as the teacher around dataset examples? These are critical questions when considering the deployment of a smaller student network trained from a robust teacher within a safety-critical setting. To address these questions, we introduce a faithful imitation framework to discuss the relative calibration of confidences, as well as provide empirical and certified methods to evaluate the relative calibration of a student w.r.t. its teacher. Further, to verifiably align the relative calibration incentives of the student to those of its teacher, we introduce faithful distillation. Our experiments on the MNIST and Fashion-MNIST datasets demonstrate the need for such an analysis and the advantages of the increased verifiability of faithful distillation over alternative adversarial distillation methods.
翻訳日:2023-06-09 10:35:45 公開日:2023-06-08
# M$^3$IT:マルチモーダル多言語指導チューニングに向けた大規模データセット

M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning ( http://arxiv.org/abs/2306.04387v2 )

ライセンス: Link先を確認
Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, Lingpeng Kong, Qi Liu(参考訳) インストラクションチューニングはChatGPTのような大きな言語モデル(LLM)が大幅に進歩し、様々なタスクにまたがる人間の命令と整合することを可能にする。 しかし、高品質な命令データセットの不足により、オープンビジョン言語モデル(VLM)の進歩は制限されている。 この課題に対処し、視覚言語分野の研究を促進するために、人間の指示によるVLMアライメントを最適化するために設計されたM$^3$IT(Multi-Modal, Multilingual Instruction Tuning)データセットを導入する。 私たちのm$^3$itデータセットは、240万のインスタンスと400の手作業によるタスク命令を含む40の注意深くキュレートされたデータセットで構成されています。 主要なタスクは80の言語に翻訳され、高度な翻訳システムにより幅広いアクセシビリティが保証される。 M$^3$ITは、タスクカバレッジ、命令番号、インスタンススケールに関する以前のデータセットを上回る。 さらに,我々のM$3$ITデータセットに基づいて訓練されたVLMモデルであるYing-VLMを開発し,世界的知識を必要とする複雑な疑問に答える可能性を示し,未確認のビデオタスクに一般化し,中国語で未知の指示を理解する。 我々は、さらなる研究を促進するためにデータセットをオープンソース化した。

Instruction tuning has significantly advanced large language models (LLMs) such as ChatGPT, enabling them to align with human instructions across diverse tasks. However, progress in open vision-language models (VLMs) has been limited due to the scarcity of high-quality instruction datasets. To tackle this challenge and promote research in the vision-language field, we introduce the Multi-Modal, Multilingual Instruction Tuning (M$^3$IT) dataset, designed to optimize VLM alignment with human instructions. Our M$^3$IT dataset comprises 40 carefully curated datasets, including 2.4 million instances and 400 manually written task instructions, reformatted into a vision-to-text structure. Key tasks are translated into 80 languages with an advanced translation system, ensuring broader accessibility. M$^3$IT surpasses previous datasets regarding task coverage, instruction number and instance scale. Moreover, we develop Ying-VLM, a VLM model trained on our M$^3$IT dataset, showcasing its potential to answer complex questions requiring world knowledge, generalize to unseen video tasks, and comprehend unseen instructions in Chinese. We have open-sourced the dataset to encourage further research.
翻訳日:2023-06-09 10:35:23 公開日:2023-06-08
# より良いデータアノテータのためのGPTセルフスーパービジョン

GPT Self-Supervision for a Better Data Annotator ( http://arxiv.org/abs/2306.04349v2 )

ライセンス: Link先を確認
Xiaohuan Pei, Yanxi Li, Chang Xu(参考訳) 簡潔な要約にデータをアノテートする作業は、さまざまなドメインで大きな課題となり、人間の専門家による重要な時間と専門知識の割り当てをしばしば要求される。 アノテーションタスクに大規模な言語モデルを使用するという既存の取り組みにもかかわらず、ラベルなしデータの適用可能性の制限、自己監督型メソッドの欠如、複雑な構造化データへのフォーカスの欠如といった重大な問題は依然として続いている。 本稿では,生成事前学習型トランスフォーマ(GPT)のワンショット学習機能を活用した生成回収パラダイムを具現化したGPT自己スーパービジョンアノテーション手法を提案する。 提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。 ワンショットチューニングフェーズでは、gptがテキスト要約を生成するためのプロンプトの一部としてサポートセットからデータをサンプリングし、元のデータを復元するために使用する。 復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。 生成段階では、最適な選択されたワンショットサンプルがプロンプトのテンプレートとして機能し、挑戦的なデータセットから要約を生成する。 複数の人間フィードバック報酬ネットワークをチューニングし、文章と構造レベルで元のデータと回復したデータのアライメントスコアを算出し、アノテーション性能を評価する。 自己教師付きアノテーション手法は,競争スコアを一貫して達成し,様々なデータ・ツー・サマリーアノテーションタスクにおいて強固な強みを示す。

The task of annotating data into concise summaries poses a significant challenge across various domains, frequently requiring the allocation of significant time and specialized knowledge by human experts. Despite existing efforts to use large language models for annotation tasks, significant problems such as limited applicability to unlabeled data, the absence of self-supervised methods, and the lack of focus on complex structured data still persist. In this work, we propose a GPT self-supervision annotation method, which embodies a generating-recovering paradigm that leverages the one-shot learning capabilities of the Generative Pretrained Transformer (GPT). The proposed approach comprises a one-shot tuning phase followed by a generation phase. In the one-shot tuning phase, we sample a data from the support set as part of the prompt for GPT to generate a textual summary, which is then used to recover the original data. The alignment score between the recovered and original data serves as a self-supervision navigator to refine the process. In the generation stage, the optimally selected one-shot sample serves as a template in the prompt and is applied to generating summaries from challenging datasets. The annotation performance is evaluated by tuning several human feedback reward networks and by calculating alignment scores between original and recovered data at both sentence and structure levels. Our self-supervised annotation method consistently achieves competitive scores, convincingly demonstrating its robust strength in various data-to-summary annotation tasks.
翻訳日:2023-06-09 10:34:59 公開日:2023-06-08
# 駐車場入居検知における深層学習手法の改訂

Revising deep learning methods in parking lot occupancy detection ( http://arxiv.org/abs/2306.04288v2 )

ライセンス: Link先を確認
Anastasia Martynova, Mikhail Kuznetsov, Vadim Porvatov, Vladislav Tishin, Andrey Kuznetsov, Natalia Semenova, Ksenia Kuznetsova(参考訳) 駐車場案内システムは近年,スマートシティの発展パラダイムの一部として人気が高まっている。 このようなシステムの重要な部分は、ドライバーが関心のある地域をまたいで利用可能な駐車場を検索できるアルゴリズムである。 このタスクの古典的なアプローチは、ニューラルネットワーク分類器のカメラレコードへの応用に基づいている。 しかし、既存のシステムは、特定の視覚条件に関する一般化能力や適切なテストの欠如を示している。 本研究では、現在最先端の駐車場占有率検出アルゴリズムを広く評価し、その予測品質を最近登場した視覚変換器と比較し、EfficientNetアーキテクチャに基づく新しいパイプラインを提案する。 性能計算実験により, 5つの異なるデータセットで評価したモデルの場合, 性能が向上することを示した。

Parking guidance systems have recently become a popular trend as a part of the smart cities' paradigm of development. The crucial part of such systems is the algorithm allowing drivers to search for available parking lots across regions of interest. The classic approach to this task is based on the application of neural network classifiers to camera records. However, existing systems demonstrate a lack of generalization ability and appropriate testing regarding specific visual conditions. In this study, we extensively evaluate state-of-the-art parking lot occupancy detection algorithms, compare their prediction quality with the recently emerged vision transformers, and propose a new pipeline based on EfficientNet architecture. Performed computational experiments have demonstrated the performance increase in the case of our model, which was evaluated on 5 different datasets.
翻訳日:2023-06-09 10:34:08 公開日:2023-06-08
# ベイズ最適化のための自己調整重み付き期待改善

Self-Adjusting Weighted Expected Improvement for Bayesian Optimization ( http://arxiv.org/abs/2306.04262v2 )

ライセンス: Link先を確認
Carolin Benjamins and Elena Raponi and Anja Jankovic and Carola Doerr and Marius Lindauer(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、ブラックボックス問題を最小評価予算で最適化するためのサロゲートベースのサンプル効率アルゴリズムである。 BOパイプライン自体は、初期設計、サロゲートモデル、取得機能(AF)に関する多くの異なる設計選択で、高度に構成可能である。 残念ながら、問題に対する適切なコンポーネントの選択方法に関する理解は非常に限られています。 本研究は,不確実性の高い地域と,優れたソリューションを約束する地域とのトレードオフを両立させることを主目的とするAFの定義に焦点を当てる。 我々は,BOの収束基準に基づいて,データ駆動方式で探索・探索トレードオフを自己調整する自己調整重み付き改善(SAWEI)を提案する。 COCOベンチマークプラットフォームのノイズフリーなブラックボックスBBOB関数では,手作りのベースラインに比べて任意の時間性能が良好であり,どの問題構造に対しても堅牢なデフォルト選択として機能する。 提案手法の適合性もHPOBenchに伝達される。 SAWEIでは、手元にある問題に自動的にサンプリング動作を調整する、オンザフライ、データ駆動、堅牢なBO設計に一歩近づきます。

Bayesian Optimization (BO) is a class of surrogate-based, sample-efficient algorithms for optimizing black-box problems with small evaluation budgets. The BO pipeline itself is highly configurable with many different design choices regarding the initial design, surrogate model, and acquisition function (AF). Unfortunately, our understanding of how to select suitable components for a problem at hand is very limited. In this work, we focus on the definition of the AF, whose main purpose is to balance the trade-off between exploring regions with high uncertainty and those with high promise for good solutions. We propose Self-Adjusting Weighted Expected Improvement (SAWEI), where we let the exploration-exploitation trade-off self-adjust in a data-driven manner, based on a convergence criterion for BO. On the noise-free black-box BBOB functions of the COCO benchmarking platform, our method exhibits a favorable any-time performance compared to handcrafted baselines and serves as a robust default choice for any problem structure. The suitability of our method also transfers to HPOBench. With SAWEI, we are a step closer to on-the-fly, data-driven, and robust BO designs that automatically adjust their sampling behavior to the problem at hand.
翻訳日:2023-06-09 10:33:42 公開日:2023-06-08
# ニューラルネットワーク輸送ダイナミクスによる逆サンプル検出

Adversarial Sample Detection Through Neural Network Transport Dynamics ( http://arxiv.org/abs/2306.04252v2 )

ライセンス: Link先を確認
Skander Karkar and Patrick Gallinari and Alain Rakotomamonjy(参考訳) 本稿では,ニューラルネットワークを離散力学系として捉えた逆行サンプル検出手法を提案する。 検出器は、層を通過する離散ベクトル場を比較して、異常な物体からのクリーンな入力を伝える。 また,このベクトル場をトレーニング中に正則化することで,ネットワークがデータ分散のサポートにより規則的になり,クリーン入力のアクティベーションが異常入力と区別しやすくなることを示した。 実験により,ネットワークのダイナミクスの正規化により,内部埋め込みを入力として使用する対向検出器の性能が向上し,試験精度も向上することを確認した。

We propose a detector of adversarial samples that is based on the view of neural networks as discrete dynamic systems. The detector tells clean inputs from abnormal ones by comparing the discrete vector fields they follow through the layers. We also show that regularizing this vector field during training makes the network more regular on the data distribution's support, thus making the activations of clean inputs more distinguishable from those of abnormal ones. Experimentally, we compare our detector favorably to other detectors on seen and unseen attacks, and show that the regularization of the network's dynamics improves the performance of adversarial detectors that use the internal embeddings as inputs, while also improving test accuracy.
翻訳日:2023-06-09 10:33:19 公開日:2023-06-08
# 粗い方が良い? 未修正画像を用いた自己教師あり学習のための新しいパイプライン

Coarse Is Better? A New Pipeline Towards Self-Supervised Learning with Uncurated Images ( http://arxiv.org/abs/2306.04244v2 )

ライセンス: Link先を確認
Ke Zhu, Yin-Yin He, Jianxin Wu(参考訳) ほとんどの自己教師付き学習(SSL)メソッドは、オブジェクト中心の仮定が成立するキュレートデータセットで動作することが多い。 この仮定は未解決の画像に分解される。 既存のシーン画像SSL法は、よくマッチした、あるいは密度の高いオリジナルのシーン画像から2つのビューを見つけようとするが、これは複雑で計算的に重くなる。 まず、粗いオブジェクト(適切なオブジェクト性を持つ)である領域を見つけ出し、疑似オブジェクト中心のイメージとして抽出し、その後、sslメソッドを実際のオブジェクト中心のデータセットのように直接適用することができる。 つまり、粗い作物はシーンイメージSSLの恩恵を受ける。 粗いオブジェクトボックスを生成する新しい収穫戦略を提案する。 新しいパイプラインとトリミング戦略は、ImageNetなしで未処理のデータセットから品質機能を学ぶことに成功した。 実験の結果、パイプラインは既存のSSLメソッド(MoCo-v2、DenseCL、MAE)よりも、分類、検出、セグメンテーションタスクで優れています。 私たちはさらに、それを検証するために広範囲なアブレーションを行います。 1) パイプラインは事前訓練されたモデルに依存しない。 2) クロッピング戦略は,既存のオブジェクト発見方法よりも優れている。 3) この手法はハイパーパラメータやデータ拡張に敏感ではない。

Most self-supervised learning (SSL) methods often work on curated datasets where the object-centric assumption holds. This assumption breaks down in uncurated images. Existing scene image SSL methods try to find the two views from original scene images that are well matched or dense, which is both complex and computationally heavy. This paper proposes a conceptually different pipeline: first find regions that are coarse objects (with adequate objectness), crop them out as pseudo object-centric images, then any SSL method can be directly applied as in a real object-centric dataset. That is, coarse crops benefits scene images SSL. A novel cropping strategy that produces coarse object box is proposed. The new pipeline and cropping strategy successfully learn quality features from uncurated datasets without ImageNet. Experiments show that our pipeline outperforms existing SSL methods (MoCo-v2, DenseCL and MAE) on classification, detection and segmentation tasks. We further conduct extensively ablations to verify that: 1) the pipeline do not rely on pretrained models; 2) the cropping strategy is better than existing object discovery methods; 3) our method is not sensitive to hyperparameters and data augmentations.
翻訳日:2023-06-09 10:33:07 公開日:2023-06-08
# Flare7K++: 夜間フレア除去のための合成と実際のデータセットの混合

Flare7K++: Mixing Synthetic and Real Datasets for Nighttime Flare Removal and Beyond ( http://arxiv.org/abs/2306.04236v2 )

ライセンス: Link先を確認
Yuekun Dai, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Yihang Luo, Chen Change Loy(参考訳) 人工光は通常、夜間に撮影された画像に強いレンズフレアアーティファクトを残し、視覚アルゴリズムの視覚品質と性能の両方を劣化させる。 既存のフレア除去アプローチは主に昼間のフレアを除去することと夜間のケースで失敗することに焦点を当てている。 夜間のフレア除去は、人工光の独特の輝度とスペクトル、およびフレアの多様なパターンと画像劣化のために困難である。 夜間のフレア除去データセットの不足は、この重要な課題の研究を制約している。 本稿では,夜行性フレア除去データセットであるflare7k++について紹介する。flare-rと7,000個の合成フレア(flare7k)からなる962のリアルタイムフレア除去データセットである。 Flare7Kと比較して、Frare7K++は、合成フレアのみを使用することで、光源周辺の複雑な劣化を取り除くのに特に効果的である。 さらに、以前のフレア除去パイプラインは手動のしきい値とぼかしのカーネル設定に依存して光源を抽出する。 この問題に対処するため、私たちはさらにflare7k++の光源のアノテーションを提供し、レンズフレアを取り除きながら光源を保存するための新しいエンドツーエンドパイプラインを提案します。 我々のデータセットとパイプラインは、将来の夜間フレア除去研究のための貴重な基礎とベンチマークを提供する。 広範な実験により、flare7k++が既存のフレアデータセットの多様性を補完し、夜間フレア除去のフロンティアを現実のシナリオへと押し上げることが示されている。

Artificial lights commonly leave strong lens flare artifacts on the images captured at night, degrading both the visual quality and performance of vision algorithms. Existing flare removal approaches mainly focus on removing daytime flares and fail in nighttime cases. Nighttime flare removal is challenging due to the unique luminance and spectrum of artificial lights, as well as the diverse patterns and image degradation of the flares. The scarcity of the nighttime flare removal dataset constraints the research on this crucial task. In this paper, we introduce Flare7K++, the first comprehensive nighttime flare removal dataset, consisting of 962 real-captured flare images (Flare-R) and 7,000 synthetic flares (Flare7K). Compared to Flare7K, Flare7K++ is particularly effective in eliminating complicated degradation around the light source, which is intractable by using synthetic flares alone. Besides, the previous flare removal pipeline relies on the manual threshold and blur kernel settings to extract light sources, which may fail when the light sources are tiny or not overexposed. To address this issue, we additionally provide the annotations of light sources in Flare7K++ and propose a new end-to-end pipeline to preserve the light source while removing lens flares. Our dataset and pipeline offer a valuable foundation and benchmark for future investigations into nighttime flare removal studies. Extensive experiments demonstrate that Flare7K++ supplements the diversity of existing flare datasets and pushes the frontier of nighttime flare removal towards real-world scenarios.
翻訳日:2023-06-09 10:32:48 公開日:2023-06-08
# 表面から見る:試料効率の良いオフラインRLの基礎対称性の爆発

Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL ( http://arxiv.org/abs/2306.04220v2 )

ライセンス: Link先を確認
Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song, Han Wang, Youfang Lin, Li Jiang(参考訳) オフライン強化学習(rl)は、事前収集されたデータセットから環境と対話することなくポリシーを学習することで、現実世界のタスクに魅力的なアプローチを提供する。 しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。 現実世界のデータ収集は、しばしば高価で制御不能であり、小規模で狭い範囲のデータセットにつながり、オフラインrlの実用的なデプロイに重大な課題をもたらす。 本稿では,システムダイナミクスの基本的な対称性を活用することで,小規模データセット下でのオフラインrl性能が大幅に向上することを示す。 具体的には,tdm(time-reversal symmetry)強制動力学モデル(t-symmetry enforced dynamics model, tdm)を提案する。 TDMは、小さなデータセットに対する良好な表現と、T対称性の遵守に基づくOODサンプルに対する新しい信頼性尺度の両方を提供する。 これらは、保守的なポリシー制約の少ない新しいオフラインRLアルゴリズム(TSRL)の構築や、信頼性の高い遅延空間データ拡張手順に容易に使用できる。 大規模な実験に基づいて、TSRLは、原サンプルの1%に満たない小さなベンチマークデータセットで優れた性能を発揮し、データ効率と一般化性の観点から、最近のオフラインRLアルゴリズムを著しく上回っている。

Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the performance of existing offline RL algorithms heavily depends on the scale and state-action space coverage of datasets. Real-world data collection is often expensive and uncontrollable, leading to small and narrowly covered datasets and posing significant challenges for practical deployments of offline RL. In this paper, we provide a new insight that leveraging the fundamental symmetry of system dynamics can substantially enhance offline RL performance under small datasets. Specifically, we propose a Time-reversal symmetry (T-symmetry) enforced Dynamics Model (TDM), which establishes consistency between a pair of forward and reverse latent dynamics. TDM provides both well-behaved representations for small datasets and a new reliability measure for OOD samples based on compliance with the T-symmetry. These can be readily used to construct a new offline RL algorithm (TSRL) with less conservative policy constraints and a reliable latent space data augmentation procedure. Based on extensive experiments, we find TSRL achieves great performance on small benchmark datasets with as few as 1% of the original samples, which significantly outperforms the recent offline RL algorithms in terms of data efficiency and generalizability.
翻訳日:2023-06-09 10:32:19 公開日:2023-06-08