このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230728となっている論文です。

PDF登録状況(公開日: 20230728)

TitleAuthorsAbstract論文公表日・翻訳日
# モデルチェックのためのユーザ駆動抽象化

User-Driven Abstraction for Model Checking ( http://arxiv.org/abs/2307.15820v1 )

ライセンス: Link先を確認
Glenn Bruns(参考訳) モデルチェックはリアクティブシステムのエンジニアリングにおいて重要な役割を担っている。 しかし、モデルチェッカーは、チェック可能なシステム記述のサイズによって、依然として強く制限されている。 本稿では,抽象ルールの適用によるモデルチェックの前に,システムを単純化する手法を提案する。 このルールは、システム記述の状態空間を大幅に減らし、システムがプロパティを満たす理由を理解するのに役立つ。 本稿では,Dekkerの相互排他アルゴリズムなど,この手法を例に紹介する。

Model checking has found a role in the engineering of reactive systems. However, model checkers are still strongly limited by the size of the system description they can check. Here we present a technique in which a system is simplified prior to model checking by the application of abstraction rules. The rules can greatly reduce the state space of a system description and help in understanding why a system satisfies a property. We illustrate the use of the technique on examples, including Dekker's mutual exclusion algorithm.
翻訳日:2023-10-23 16:02:19 公開日:2023-07-28
# ソフトウェアエコシステム入門

An Introduction to Software Ecosystems ( http://arxiv.org/abs/2307.15709v1 )

ライセンス: Link先を確認
Tom Mens, Coen De Roover(参考訳) この章では、さまざまな種類のソフトウェアエコシステムを定義し、提示する。 ソフトウェアエコシステムの開発、ツーリング、分析の側面、すなわちソフトウェア開発者のコミュニティと相互接続されたソフトウェアコンポーネント(プロジェクト、ライブラリ、パッケージ、リポジトリ、プラグイン、アプリなど)に焦点を当てている。 これらの開発者とソフトウェアコンポーネント間の技術的および社会的依存関係は、社会技術的依存関係ネットワークを形成し、ネットワークのダイナミクスは時間とともに変化する。 このようなエコシステムのいくつかの例を分類し、提供します。 この章は、これらのエコシステムを理解し、分析するために必要な関連する用語と、これらのエコシステムの異なる側面を分析するのに使用できる技術と研究方法も紹介し、明らかにしている。

This chapter defines and presents different kinds of software ecosystems. The focus is on the development, tooling and analytics aspects of software ecosystems, i.e., communities of software developers and the interconnected software components (e.g., projects, libraries, packages, repositories, plug-ins, apps) they are developing and maintaining. The technical and social dependencies between these developers and software components form a socio-technical dependency network, and the dynamics of this network change over time. We classify and provide several examples of such ecosystems. The chapter also introduces and clarifies the relevant terms needed to understand and analyse these ecosystems, as well as the techniques and research methods that can be used to analyse different aspects of these ecosystems.
翻訳日:2023-10-23 16:02:14 公開日:2023-07-28
# ossで示された道徳原則を探求する - github heated issuesのケーススタディ

Exploring Moral Principles Exhibited in OSS: A Case Study on GitHub Heated Issues ( http://arxiv.org/abs/2307.15631v1 )

ライセンス: Link先を確認
Ramtin Ehsani, Rezvaneh Rezapour, Preetha Chatterjee(参考訳) オープンソースソフトウェア(OSS)プロジェクトのコラボレーションとインクリビティを促進するためには、特に表現不足のコミュニティから貢献者を遠ざける可能性のある有害な言語のパターンを理解し、検出することが重要です。 ドメイン固有のデータでトレーニングされた機械学習ベースの毒性検出ツールは約束されているものの、その設計はossの議論における毒性のユニークな性質と引き金の理解を欠き、さらなる調査の必要性を強調している。 本研究では,道徳的原理とOSSの毒性の関係を検討するために,道徳的基礎理論を用いた。 具体的には、GitHubの発行するスレッドで有毒なコミュニケーションを分析し、テキストで示される5種類の道徳原則を特定し、理解し、有毒な行動との関連性を探る。 予備的な知見は、道徳原則とOSSコミュニケーションにおける有毒なコメントの関連性を示唆しており、それぞれの道徳原則は少なくとも1種類の有毒性と関連している。 毒性検出におけるmftの可能性はさらなる調査の必要となる。

To foster collaboration and inclusivity in Open Source Software (OSS) projects, it is crucial to understand and detect patterns of toxic language that may drive contributors away, especially those from underrepresented communities. Although machine learning-based toxicity detection tools trained on domain-specific data have shown promise, their design lacks an understanding of the unique nature and triggers of toxicity in OSS discussions, highlighting the need for further investigation. In this study, we employ Moral Foundations Theory to examine the relationship between moral principles and toxicity in OSS. Specifically, we analyze toxic communications in GitHub issue threads to identify and understand five types of moral principles exhibited in text, and explore their potential association with toxic behavior. Our preliminary findings suggest a possible link between moral principles and toxic comments in OSS communications, with each moral principle associated with at least one type of toxicity. The potential of MFT in toxicity detection warrants further investigation.
翻訳日:2023-10-23 16:02:02 公開日:2023-07-28
# 増幅回帰テストオラクルの自動生成に向けて

Towards Automatic Generation of Amplified Regression Test Oracles ( http://arxiv.org/abs/2307.15527v1 )

ライセンス: Link先を確認
Alejandra Duque-Torres, Claus Klammer, Dietmar Pfahl, Stefan Fischer, Rudolf Ramler(参考訳) 回帰テストは、純粋なコードリファクタリングが既存のソフトウェア機能に悪影響を与えないことを保証するのに不可欠であるが、ソフトウェアのメンテナンスコストの半分を考慮すれば、コストがかかる可能性がある。 自動テストケース生成は労力を減らすが、テストスイートが弱い可能性がある。 テストの増幅は,既存のものの追加あるいは改善によってテストを強化する,有望なソリューションである。 そこで我々は,system under test (sut) テスト実行中に生成されたオブジェクト状態データを用いて,回帰テストoracleを増幅するテストoracle導出手法を提案する。 このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。 予備評価の結果,提案手法は行動変化の検出を著しく促進し,その有効性を実証した。

Regression testing is crucial in ensuring that pure code refactoring does not adversely affect existing software functionality, but it can be expensive, accounting for half the cost of software maintenance. Automated test case generation reduces effort but may generate weak test suites. Test amplification is a promising solution that enhances tests by generating additional or improving existing ones, increasing test coverage, but it faces the test oracle problem. To address this, we propose a test oracle derivation approach that uses object state data produced during System Under Test (SUT) test execution to amplify regression test oracles. The approach monitors the object state during test execution and compares it to the previous version to detect any changes in relation to the SUT's intended behaviour. Our preliminary evaluation shows that the proposed approach can enhance the detection of behaviour changes substantially, providing initial evidence of its effectiveness.
翻訳日:2023-10-23 16:01:44 公開日:2023-07-28
# 変成関係の選択・制約のためのテストデータ駆動手法の探索

Exploring a Test Data-Driven Method for Selecting and Constraining Metamorphic Relations ( http://arxiv.org/abs/2307.15522v1 )

ライセンス: Link先を確認
Alejandra Duque-Torres, Dietmar Pfahl, Claus Klammer, Stefan Fischer(参考訳) 高品質なメタモルフィック関係(MR)の特定と選択は、メタモルフィックテスト(MT)における課題である。 MRを自動選択する手法はいくつか提案されているが,事前に定義されたMRの応用性に関する厳密な仮定に依拠している。本論文では,試験データに基づくMRの選択・制約手法であるMetaTrimmerの予備評価について述べる。 MetaTrimmerは、SUT(ステップ1)のためのランダムなテストデータ入力を生成し、テストデータ変換を実行し、MR違反をロギングする(ステップ2)、制約を導出するための手動検査を行う(ステップ3)。 metatrimmerの目新しさはmrsの適用性に関してラベル付きデータセットを必要とする複雑な予測モデルを避けることである。さらに、metatrimmerはmtのシームレスな統合と、テストデータ生成のための高度なファジングを容易にする。 予備評価では、MetaTrimmerが既存の制限を克服し、MRの有効性を高める可能性を示している。

Identifying and selecting high-quality Metamorphic Relations (MRs) is a challenge in Metamorphic Testing (MT). While some techniques for automatically selecting MRs have been proposed, they are either domain-specific or rely on strict assumptions about the applicability of a pre-defined MRs. This paper presents a preliminary evaluation of MetaTrimmer, a method for selecting and constraining MRs based on test data. MetaTrimmer comprises three steps: generating random test data inputs for the SUT (Step 1), performing test data transformations and logging MR violations (Step 2), and conducting manual inspections to derive constraints (Step 3). The novelty of MetaTrimmer is its avoidance of complex prediction models that require labeled datasets regarding the applicability of MRs. Moreover, MetaTrimmer facilitates the seamless integration of MT with advanced fuzzing for test data generation. In a preliminary evaluation, MetaTrimmer shows the potential to overcome existing limitations and enhance MR effectiveness.
翻訳日:2023-10-23 16:01:29 公開日:2023-07-28
# 高並列シミュレーションに基づくサイバー物理システムの最適検証

Optimising Highly-Parallel Simulation-Based Verification of Cyber-Physical Systems ( http://arxiv.org/abs/2307.15383v1 )

ライセンス: Link先を確認
Toni Mancini, Igor Melatti, Enrico Tronci(参考訳) ソフトウェアと物理コンポーネントの両方からなるサイバーフィジカルシステム(cpss)は、多くの業界関連ドメインで発生し、しばしばミッションクリティカルまたは安全クリティカルである。 CPSのシステムレベル検証(SLV)は、与えられた(例えば、安全または生きた)仕様が満たされていること、または、システムが運用環境、すなわち、入力(ユーザーまたは他のシステムからの)および/または追加の制御不能な障害が存在する場合のKPIの価値を推定することを目的としている。 初期の設計段階から複雑なシステムのSLVを可能にするため、現在最も採用されているアプローチは、(時間境界のある)運用シナリオ下でのシステムモデルのシミュレーションを想定している。 シミュレーションに基づくSLVは、モデルシミュレーションが計算集約的であり、興味のあるシナリオの集合が巨大になるため、計算が禁じられる(逐次シミュレーションの年)。 We present a technique that, given a collection of scenarios of interest (extracted from mass-storage databases or from symbolic structures, e.g., constraint-based scenario generators), computes parallel shortest simulation campaigns, which drive a possibly large number of system model simulators running in parallel in a HPC infrastructure through all (and only) those scenarios in the user-defined (possibly random) order, by wisely avoiding multiple simulations of repeated trajectories, thus minimising the overall completion time, compatibly with the available simulator memory capacity. modelica/fmuとsimulinkのケーススタディモデルでは,最大2億のシナリオで最適化が最大8倍のスピードアップを実現している。 これにより、実現可能な大規模な並列化とともに、(hpcインフラストラクチャで数週間の)検証タスク(与えられたシナリオセットに関して、統計的かつ徹底的な)が事実上実行可能になり、そうでなければ長い時間を要する。

Cyber-Physical Systems (CPSs), comprising both software and physical components, arise in many industry-relevant domains and are often mission- or safety-critical. System-Level Verification (SLV) of CPSs aims at certifying that given (e.g., safety or liveness) specifications are met, or at estimating the value of some KPIs, when the system runs in its operational environment, i.e., in presence of inputs (from users or other systems) and/or of additional, uncontrolled disturbances. To enable SLV of complex systems from the early design phases, the currently most adopted approach envisions the simulation of a system model under the (time bounded) operational scenarios of interest. Simulation-based SLV can be computationally prohibitive (years of sequential simulation), since model simulation is computationally intensive and the set of scenarios of interest can huge. We present a technique that, given a collection of scenarios of interest (extracted from mass-storage databases or from symbolic structures, e.g., constraint-based scenario generators), computes parallel shortest simulation campaigns, which drive a possibly large number of system model simulators running in parallel in a HPC infrastructure through all (and only) those scenarios in the user-defined (possibly random) order, by wisely avoiding multiple simulations of repeated trajectories, thus minimising the overall completion time, compatibly with the available simulator memory capacity. Our experiments on Modelica/FMU and Simulink case study models with up to ~200 million scenarios show that our optimisation yields speedups as high as 8x. This, together with the enabled massive parallelisation, makes practically viable (a few weeks in a HPC infrastructure) verification tasks (both statistical and exhaustive, with respect to the given set of scenarios) which would otherwise take inconceivably long time.
翻訳日:2023-10-23 16:01:11 公開日:2023-07-28
# 大規模言語モデルを用いたプライベートライブラリ指向コード生成

Private-Library-Oriented Code Generation with Large Language Models ( http://arxiv.org/abs/2307.15370v1 )

ライセンス: Link先を確認
Daoguang Zan, Bei Chen, Yongshun Gong, Junzhi Cao, Fengji Zhang, Bingchao Wu, Bei Guan, Yilong Yin, Yongji Wang(参考訳) codexやgpt-4といった大規模言語モデル(llm)は最近、その素晴らしいコード生成能力を披露し、コーディング効率を大幅に向上させた。 本稿では,LLMを日常的なプログラミングに広く採用されているプライベートライブラリのコード生成に活用することを検討する。 それらの優れた機能にもかかわらず、そのようなプライベートAPIの生成は、事前トレーニング中にこれらのプライベートライブラリへの露出が本質的に欠如しているため、LLMにとって深刻な混乱をもたらす。 この課題に対処するために、プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 APIFinderはまずAPIドキュメントから潜在的に有用なAPIを検索し、APICoderは取得したAPIを利用してプライベートコードを生成する。 具体的には、APIFinderはベクトル検索技術を採用し、検索プロセスにユーザの関与を可能にする。 APICoderでは、既製のコード生成モデルを直接利用できる。 プロンプトからAPIを呼び出す際の明確な習熟度をさらに育むために、私たちは、CodeGenAPIという名前の強化バージョンのAPICoderを継続的に事前訓練しました。 私たちの目標は、上記の2つのモジュールを巨大なパブリックライブラリでトレーニングし、プライベートライブラリへの一般化を可能にすることです。 一方、torchdataeval、torchdatacomplexeval、 monkeyeval、beatnumevalの4つのプライベートライブラリベンチマークを作成し、包括的な評価をサポートするために各ベンチマークで細心の注意を払って手作りのテストケースを作成しました。 4つのベンチマークに関する多くの実験は、我々のアプローチの有効性を一貫して裏付けている。 さらに、さらなる洞察を得るためにより深い分析を行う。

Large language models (LLMs), such as Codex and GPT-4, have recently showcased their remarkable code generation abilities, facilitating a significant boost in coding efficiency. This paper will delve into utilizing LLMs for code generation in private libraries, as they are widely employed in everyday programming. Despite their remarkable capabilities, generating such private APIs poses a formidable conundrum for LLMs, as they inherently lack exposure to these private libraries during pre-training. To address this challenge, we propose a novel framework that emulates the process of programmers writing private code. This framework comprises two modules: APIFinder first retrieves potentially useful APIs from API documentation; and APICoder then leverages these retrieved APIs to generate private code. Specifically, APIFinder employs vector retrieval techniques and allows user involvement in the retrieval process. For APICoder, it can directly utilize off-the-shelf code generation models. To further cultivate explicit proficiency in invoking APIs from prompts, we continuously pre-train a reinforced version of APICoder, named CodeGenAPI. Our goal is to train the above two modules on vast public libraries, enabling generalization to private ones. Meanwhile, we create four private library benchmarks, including TorchDataEval, TorchDataComplexEval, MonkeyEval, and BeatNumEval, and meticulously handcraft test cases for each benchmark to support comprehensive evaluations. Numerous experiments on the four benchmarks consistently affirm the effectiveness of our approach. Furthermore, deeper analysis is also conducted to glean additional insights.
翻訳日:2023-10-23 16:00:40 公開日:2023-07-28
# クリティカルリアルタイムシステムにおける効果的な干渉試験のためのSafeTIトラヒックインジェクタの強化

SafeTI Traffic Injector Enhancement for Effective Interference Testing in Critical Real-Time Systems ( http://arxiv.org/abs/2308.11528v1 )

ライセンス: Link先を確認
Francisco Fuentes, Raimon Casanova, Sergi Alcaide, Jaume Abella(参考訳) 自動車、宇宙、ロボットなどの安全に重要なドメインは、高いパフォーマンスと効率のために、豊富なハードウェア共有リソースを備えた、ますます強力なマルチコアを採用する。 しかし、SoC内の並列操作による相互干渉を適切に検証する必要がある。 近年、SafeTIトラヒックインジェクタがリリースされ、テスト用の同種RISC-Vマルチコアに統合されている。 本稿では,高速度トラヒックインジェクションのための内部パイプライン化や,複数のインターフェースへの調整,さらに空間領域に対するガイスラーの技術に基づくより強力なrisc-vマルチコアへの統合など,safeti上で実施されるいくつかの機能拡張について紹介する。

Safety-critical domains, such as automotive, space, and robotics, are adopting increasingly powerful multicores with abundant hardware shared resources for higher performance and efficiency. However, mutual interference due to parallel operation within the SoC must be properly validated. Recently, the SafeTI traffic injector has been released and integrated in a homogeneous RISC-V multicore for testing, otherwise untestable casuistic for software-only solutions. This paper introduces some enhancements performed on the SafeTI, which include internal pipelining for higher-rate traffic injection, and its tailoring to multiple interfaces, as well as its integration in a more powerful heterogeneous RISC-V multicore based on Gaisler's technology for the space domain.
翻訳日:2023-10-23 13:08:38 公開日:2023-07-28
# 反復収束分散機械学習におけるパラメータサーバのストラグラー問題に関する実証的研究

Empirical Study of Straggler Problem in Parameter Server on Iterative Convergent Distributed Machine Learning ( http://arxiv.org/abs/2308.15482v1 )

ライセンス: Link先を確認
Benjamin Wong(参考訳) 本研究の目的は,MF(Matrix Factorization)やMLR(Multinomial Logistic Regression),LDA(Latent Dirichlet Allocation)など,さまざまな重要な反復収束機械学習(ML)アルゴリズムに対して,現在のトラグラー緩和手法の有効性を検証することである。 この実験は、パラメータサーバアーキテクチャを採用した最新のシステム実装であるflexpsシステムを使用して実装するために行われた。 この実験ではバルク同期並列(bsp)計算モデルを用いて,反復収束型分散機械学習におけるパラメータサーバのストラグラー問題を調べる。 さらに,本研究では,共通ストラグラーパターンを注入し,最新の緩和手法を実行することで,並列学習問題に関するパラメータサーバ戦略の実験的配置を分析する。 この研究の成果は、問題をさらなる研究を行うために必要なプラットフォームを提供し、研究者が様々な応用の異なる方法を比較することを可能にするために重要である。 したがって、この問題を解決するための新しい視点と組み合わされた新しい技術の開発を促進することが期待される。

The purpose of this study is to test the effectiveness of current straggler mitigation techniques over different important iterative convergent machine learning(ML) algorithm including Matrix Factorization (MF), Multinomial Logistic Regression (MLR), and Latent Dirichlet Allocation (LDA) . The experiment was conducted to implemented using the FlexPS system, which is the latest system implementation that employ parameter server architecture. The experiment employed the Bulk Synchronous Parallel (BSP) computational model to examine the straggler problem in Parameter Server on Iterative Convergent Distributed Machine Learning. Moreover, the current research analyzes the experimental arrangement of the parameter server strategy concerning the parallel learning problems by injecting universal straggler patterns and executing latest mitigation techniques. The findings of the study are significant in that as they will provide the necessary platform for conducting further research into the problem and allow the researcher to compare different methods for various applications. The outcome is therefore expected to facilitate the development of new techniques coupled with new perspectives in addressing this problem.
翻訳日:2023-09-03 21:21:42 公開日:2023-07-28
# Beyond Reality: メタバースにおける生成AIのPivotalの役割

Beyond Reality: The Pivotal Role of Generative AI in the Metaverse ( http://arxiv.org/abs/2308.06272v1 )

ライセンス: Link先を確認
Vinay Chamola, Gaurang Bansal, Tridib Kumar Das, Vikas Hassija, Naga Siva Sai Reddy, Jiacheng Wang, Sherali Zeadally, Amir Hussain, F. Richard Yu, Mohsen Guizani and Dusit Niyato(参考訳) 物理世界と同じくらい豊かでダイナミックでインタラクティブなバーチャルの世界に足を踏み入れることを想像してください。 これはMetaverseの約束であり、Generative Artificial Intelligence(AI)の変革的な力によって生命に導かれています。 本稿では、生成AI技術がMetaverseをどのように形成し、動的で没入的でインタラクティブな仮想世界へと変換しているかを包括的に調査する。 我々は、AI生成文字による会話インタフェースを強化しているChatGPTやGPT-3といったテキスト生成モデルの応用を探求する。 DALL-EやMidJourneyといった画像生成モデルが視覚的に見事で多様なコンテンツを制作する役割について検討する。 また,3次元モデル生成技術であるPoint-E や Lumirithmic が,Metaverse 体験を豊かにする現実的な仮想オブジェクトを作成する可能性についても検討する。 しかし、その旅はそこで止まらない。 また、Metaverseでこれらの技術を実装する際の課題と倫理的考察に対処し、ユーザコントロールとAI自動化のバランスに関する洞察を提供する。 この論文は単なる研究ではなく、Metaverseの未来へのガイドであり、没入型仮想世界の構築において生成AIのパワーを活用するためのロードマップを提供する。

Imagine stepping into a virtual world that's as rich, dynamic, and interactive as our physical one. This is the promise of the Metaverse, and it's being brought to life by the transformative power of Generative Artificial Intelligence (AI). This paper offers a comprehensive exploration of how generative AI technologies are shaping the Metaverse, transforming it into a dynamic, immersive, and interactive virtual world. We delve into the applications of text generation models like ChatGPT and GPT-3, which are enhancing conversational interfaces with AI-generated characters. We explore the role of image generation models such as DALL-E and MidJourney in creating visually stunning and diverse content. We also examine the potential of 3D model generation technologies like Point-E and Lumirithmic in creating realistic virtual objects that enrich the Metaverse experience. But the journey doesn't stop there. We also address the challenges and ethical considerations of implementing these technologies in the Metaverse, offering insights into the balance between user control and AI automation. This paper is not just a study, but a guide to the future of the Metaverse, offering readers a roadmap to harnessing the power of generative AI in creating immersive virtual worlds.
翻訳日:2023-08-20 16:40:36 公開日:2023-07-28
# 伝達学習による認知タスクの構造評価

Evaluating the structure of cognitive tasks with transfer learning ( http://arxiv.org/abs/2308.02408v1 )

ライセンス: Link先を確認
Bruno Aristimunha, Raphael Y. de Camargo, Walter H. Lopez Pinaya, Sylvain Chevallier, Alexandre Gramfort, Cedric Rommel(参考訳) 脳波デコード(EEG)はラベル付きデータの限られた可用性のために難しい課題である。 転送学習は、この課題に対処する有望なテクニックであるが、転送可能なデータドメインとタスクが知られていると仮定している。 本研究では,異なる脳波復号タスク間での深層学習表現の転送可能性について検討する。 最近リリースされた2つの脳波データセットであるERP COREとM$3$CVで、140以上の被験者と11の認知タスクを含む最先端デコーディングモデルを用いて広範な実験を行った。 深層ニューラルネットワークを1つのタスクで事前学習し、その後のタスクをデコードする能力を評価することにより、学習した表現の伝達可能性を測定する。 私たちの実験では、線形プローブ転送でもデコード性能が大幅に向上し、最大28%の利得が純粋な教師付きアプローチと比較できることを実証した。 さらに、特定のデコードパラダイムが特定の脳活動や狭い脳活動を誘発する証拠を発見できる一方、幅広い表現の事前学習の恩恵を受けるものもある。 脳波デコードにおけるトランスファー学習の利点を明らかにすることで,本手法におけるデータ不足の軽減に有効であることを示す。 伝達マップは認知的タスク間の階層的関係についての洞察も与えるので、神経科学的な観点からこれらのタスクがどのように接続されているかの理解を深めることができます。

Electroencephalography (EEG) decoding is a challenging task due to the limited availability of labelled data. While transfer learning is a promising technique to address this challenge, it assumes that transferable data domains and task are known, which is not the case in this setting. This study investigates the transferability of deep learning representations between different EEG decoding tasks. We conduct extensive experiments using state-of-the-art decoding models on two recently released EEG datasets, ERP CORE and M$^3$CV, containing over 140 subjects and 11 distinct cognitive tasks. We measure the transferability of learned representations by pre-training deep neural networks on one task and assessing their ability to decode subsequent tasks. Our experiments demonstrate that, even with linear probing transfer, significant improvements in decoding performance can be obtained, with gains of up to 28% compare with the pure supervised approach. Additionally, we discover evidence that certain decoding paradigms elicit specific and narrow brain activities, while others benefit from pre-training on a broad range of representations. By revealing which tasks transfer well and demonstrating the benefits of transfer learning for EEG decoding, our findings have practical implications for mitigating data scarcity in this setting. The transfer maps generated also provide insights into the hierarchical relations between cognitive tasks, hence enhancing our understanding of how these tasks are connected from a neuroscientific standpoint.
翻訳日:2023-08-14 01:49:02 公開日:2023-07-28
# ハイブリッド無線データ融合によるrfid支援屋内定位

RFID-Assisted Indoor Localization Using Hybrid Wireless Data Fusion ( http://arxiv.org/abs/2308.02410v1 )

ライセンス: Link先を確認
Abouzar Ghavami, Ali Abedi(参考訳) 屋内環境における物体追跡には無線定位が不可欠である。 Internet of Things(IoT)は、さまざまな無線通信プロトコルを通じてローカライズを可能にする。 本稿では、RFID(Radio Frequency Identification)トラッキングデバイスと複数のIoT無線技術を用いたハイブリッド区間を用いた屋内位置推定手法を提案する。 RFIDタグのコストを削減するため、各区間の境界にのみタグを設置する。 RFID追跡装置はセクションを特定し、提案した無線ハイブリッド方式はセクション内のオブジェクトの位置を検出する。 提案手法は、異なるIoT無線技術から得られた線形位置推定により解析的に駆動される。 rfid追跡装置とrssiベースのbluetooth, wifi, zigbee技術を用いた実験により, 解析結果が検証された。

Wireless localization is essential for tracking objects in indoor environments. Internet of Things (IoT) enables localization through its diverse wireless communication protocols. In this paper, a hybrid section-based indoor localization method using a developed Radio Frequency Identification (RFID) tracking device and multiple IoT wireless technologies is proposed. In order to reduce the cost of the RFID tags, the tags are installed only on the borders of each section. The RFID tracking device identifies the section, and the proposed wireless hybrid method finds the location of the object inside the section. The proposed hybrid method is analytically driven by linear location estimates obtained from different IoT wireless technologies. The experimental results using developed RFID tracking device and RSSI-based localization for Bluetooth, WiFi and ZigBee technologies verifies the analytical results.
翻訳日:2023-08-14 01:37:27 公開日:2023-07-28
# 確率的グラフ生成モデルの適合性

Goodness-of-Fit of Attributed Probabilistic Graph Generative Models ( http://arxiv.org/abs/2308.03773v1 )

ライセンス: Link先を確認
Pablo Robles-Granda, Katherine Tsai, Oluwasanmi Koyejo(参考訳) グラフの確率的生成モデルは、表現とサンプリングを可能にする重要なツールである。 最近の多くの研究は、エンティティの相互作用だけでなくその属性も表現できるグラフの確率的モデルを生み出している。 しかし、ランダム属性グラフの生成モデルを考えると、適合性の良さを立証する一般的な条件は明確でない。 本稿では,ランダム二元ネットワークにおける平均二乗共起係数の観点から適合性の良さを定義する。 この統計のために, 平均二乗連続係数(定数, 確率)の差が, 高確率で極小であることを保証することにより, 学習された有意グラフの構造の質を評価する手順を概説する。 これらの基準を多種多様なグラフモデルに対する確率的生成モデルの表現能力を検証するために適用する。

Probabilistic generative models of graphs are important tools that enable representation and sampling. Many recent works have created probabilistic models of graphs that are capable of representing not only entity interactions but also their attributes. However, given a generative model of random attributed graph(s), the general conditions that establish goodness of fit are not clear a-priori. In this paper, we define goodness of fit in terms of the mean square contingency coefficient for random binary networks. For this statistic, we outline a procedure for assessing the quality of the structure of a learned attributed graph by ensuring that the discrepancy of the mean square contingency coefficient (constant, or random) is minimal with high probability. We apply these criteria to verify the representation capability of a probabilistic generative model for various popular types of graph models.
翻訳日:2023-08-14 00:41:56 公開日:2023-07-28
# AbDiffuser: In-Vitro機能抗体の全原子生成

AbDiffuser: Full-Atom Generation of In-Vitro Functioning Antibodies ( http://arxiv.org/abs/2308.05027v1 )

ライセンス: Link先を確認
Karolis Martinkus, Jan Ludwiczak, Kyunghyun Cho, Wei-Ching Lian, Julien Lafrance-Vanasse, Isidro Hotzel, Arvind Rajpal, Yan Wu, Richard Bonneau, Vladimir Gligorijevic, Andreas Loukas(参考訳) 抗体3d構造と配列の同時生成のための同変・物理不定拡散モデルabdiffuserを提案する。 abdiffuserは、タンパク質構造の新しい表現の上に構築され、アライメントされたタンパク質の新しいアーキテクチャに依存し、強い拡散優先を利用して、変性プロセスを改善する。 提案手法は,ドメイン知識と物理に基づく制約を生かしてタンパク質の拡散を改善し,シーケンス長の変更を処理し,バックボーンとサイドチェーン生成を可能にする1桁のメモリ複雑性を低減する。 シリカおよびin vitroでAbDiffuserを検証する。 数値実験では、abdiffuserが参照集合の配列と構造特性を密接に追跡する抗体を生成する能力を示す。 実験では16種のHER2抗体が高レベルに発現され、57.1%がタイトバインダーであることが確認された。

We introduce AbDiffuser, an equivariant and physics-informed diffusion model for the joint generation of antibody 3D structures and sequences. AbDiffuser is built on top of a new representation of protein structure, relies on a novel architecture for aligned proteins, and utilizes strong diffusion priors to improve the denoising process. Our approach improves protein diffusion by taking advantage of domain knowledge and physics-based constraints; handles sequence-length changes; and reduces memory complexity by an order of magnitude enabling backbone and side chain generation. We validate AbDiffuser in silico and in vitro. Numerical experiments showcase the ability of AbDiffuser to generate antibodies that closely track the sequence and structural properties of a reference set. Laboratory experiments confirm that all 16 HER2 antibodies discovered were expressed at high levels and that 57.1% of selected designs were tight binders.
翻訳日:2023-08-14 00:21:51 公開日:2023-07-28
# DeepTSF: 時系列予測のためのコードレス機械学習操作

DeepTSF: Codeless machine learning operations for time series forecasting ( http://arxiv.org/abs/2308.00709v1 )

ライセンス: Link先を確認
Sotiris Pelekis, Evangelos Karakolis, Theodosios Pountridis, George Kormpakis, George Lampropoulos, Spiros Mouzakits, Dimitris Askounis(参考訳) 本稿では、ワークフロー自動化とコードレスモデリングによる時系列予測の革新を目的とした、包括的な機械学習操作(MLOps)フレームワークであるDeepTSFを提案する。 DeepTSFはMLライフサイクルの重要な側面を自動化し、機械学習(ML)とディープラーニング(DL)ベースの予測に携わるデータサイエンティストやMLopsエンジニアにとって理想的なツールとなる。 deeptsfはユーザに対して、堅牢でユーザフレンドリなソリューションを提供する一方で、既存のデータ分析ワークフローとシームレスに統合して、生産性と互換性を高めるように設計されている。 このフレームワークは、データサイエンティストや他の高レベルの利害関係者に適したフロントエンドユーザインターフェース(ui)を提供し、洞察に富んだ可視化と評価メトリクスを通じた総合的な理解を可能にする。 DeepTSFはまた、ID管理とアクセス許可機構を通じてセキュリティを優先する。 I-NERGYプロジェクトの実運用におけるDeepTSFの適用は、DLベースの負荷予測におけるDeepTSFの有効性をすでに証明しており、電力とエネルギーシステム領域における重要な付加価値を示している。

This paper presents DeepTSF, a comprehensive machine learning operations (MLOps) framework aiming to innovate time series forecasting through workflow automation and codeless modeling. DeepTSF automates key aspects of the ML lifecycle, making it an ideal tool for data scientists and MLops engineers engaged in machine learning (ML) and deep learning (DL)-based forecasting. DeepTSF empowers users with a robust and user-friendly solution, while it is designed to seamlessly integrate with existing data analysis workflows, providing enhanced productivity and compatibility. The framework offers a front-end user interface (UI) suitable for data scientists, as well as other higher-level stakeholders, enabling comprehensive understanding through insightful visualizations and evaluation metrics. DeepTSF also prioritizes security through identity management and access authorization mechanisms. The application of DeepTSF in real-life use cases of the I-NERGY project has already proven DeepTSF's efficacy in DL-based load forecasting, showcasing its significant added value in the electrical power and energy systems domain.
翻訳日:2023-08-06 11:03:20 公開日:2023-07-28
# VeriGen:Verilogコード生成のための大規模言語モデル

VeriGen: A Large Language Model for Verilog Code Generation ( http://arxiv.org/abs/2308.00708v1 )

ライセンス: Link先を確認
Shailja Thakur, Baleegh Ahmad, Hammond Pearce, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri, Siddharth Garg(参考訳) 本研究では,デジタルシステムの設計とモデリングのための共通言語である高品質なverilogコードを生成することで,ハードウェア設計を自動化するための大規模言語モデル(llm)の機能を検討する。 GitHub と Verilog の教科書からコンパイルされた Verilog データセット上に,既存の LLM を微調整する。 特別に設計されたテストスイートを用いて生成したVerilogコードの機能的正当性を評価し、カスタム問題セットとテストベンチを特徴とする。 ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。 より多様で複雑な問題集合でテストすると、細調整されたモデルが最先端のgpt-3.5-turboと競合する性能を示し、特定のシナリオで優れたことが分かる。 特に、様々な問題カテゴリで構文的に正しいVerilogコードを生成する際の41%の改善を示しており、ハードウェア設計自動化における、より小さな社内LLMの可能性を強調している。

In this study, we explore the capability of Large Language Models (LLMs) to automate hardware design by generating high-quality Verilog code, a common language for designing and modeling digital systems. We fine-tune pre-existing LLMs on Verilog datasets compiled from GitHub and Verilog textbooks. We evaluate the functional correctness of the generated Verilog code using a specially designed test suite, featuring a custom problem set and testing benches. Here, our fine-tuned open-source CodeGen-16B model outperforms the commercial state-of-the-art GPT-3.5-turbo model with a 1.1% overall increase. Upon testing with a more diverse and complex problem set, we find that the fine-tuned model shows competitive performance against state-of-the-art gpt-3.5-turbo, excelling in certain scenarios. Notably, it demonstrates a 41% improvement in generating syntactically correct Verilog code across various problem categories compared to its pre-trained counterpart, highlighting the potential of smaller, in-house LLMs in hardware design automation.
翻訳日:2023-08-06 11:03:02 公開日:2023-07-28
# SAP-sLDA:非構造化テキスト探索のための解釈可能なインタフェース

SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text ( http://arxiv.org/abs/2308.01420v1 )

ライセンス: Link先を確認
Charumathi Badrinath, Weiwei Pan, Finale Doshi-Velez(参考訳) テキストコーパスを探索する一般的な方法は、文書の低次元投影を通じて、数学的に類似した文書が投影された空間にまとめられることを期待する。 しかし、LDA(Latent Dirichlet Allocation)のようなテキストコーパスの次元的削減のための一般的なアルゴリズムは、文書類似性の人間の概念を捉えない投影を生成することが多い。 低次元投影における文書間の意味的に意味のある関係を保存するための半教師付きLDAに基づく学習手法を提案する。 合成コーパスでは, 少数のラベルのみを付与したベースライン法よりも解釈可能なプロジェクションが得られた。 実コーパスでは、質的に類似した結果が得られる。

A common way to explore text corpora is through low-dimensional projections of the documents, where one hopes that thematically similar documents will be clustered together in the projected space. However, popular algorithms for dimensionality reduction of text corpora, like Latent Dirichlet Allocation (LDA), often produce projections that do not capture human notions of document similarity. We propose a semi-supervised human-in-the-loop LDA-based method for learning topics that preserve semantically meaningful relationships between documents in low-dimensional projections. On synthetic corpora, our method yields more interpretable projections than baseline methods with only a fraction of labels provided. On a real corpus, we obtain qualitatively similar results.
翻訳日:2023-08-06 10:55:31 公開日:2023-07-28
# 双曲型ミネズウィーパーはpです

Hyperbolic Minesweeper is in P ( http://arxiv.org/abs/2002.09534v2 )

ライセンス: Link先を確認
Eryk Kopczy\'nski(参考訳) minesweeperはnp完全であるが、その双曲的変種は p であることを示している。この証明は minesweeper の規則に依存しないが、双曲的平面に埋め込まれたグラフ上の局所的な制約を満たすことで、どんなパズルに対しても有効である。

We show that, while Minesweeper is NP-complete, its hyperbolic variant is in P. Our proof does not rely on the rules of Minesweeper, but is valid for any puzzle based on satisfying local constraints on a graph embedded in the hyperbolic plane.
翻訳日:2023-08-02 18:45:38 公開日:2023-07-28
# 時間的コモンセンス推論と買収の概観

An Overview Of Temporal Commonsense Reasoning and Acquisition ( http://arxiv.org/abs/2308.00002v1 )

ライセンス: Link先を確認
Georg Wenzel and Adam Jatowt(参考訳) テンポラル・コモンセンス推論(temporal commonsense reasoning)とは、フレーズ、アクション、イベントの典型的な時間的文脈を理解し、そのような知識を必要とする問題を推論するために使用する能力を指す。 この特徴は時相自然言語処理タスクにおいて必須であり、時相要約、時相質問応答、時相自然言語推論などの応用が可能となる。 大規模言語モデルの性能に関する最近の研究は, 構文的に正しい文を生成し, 分類タスクを解くことに長けているにもかかわらず, 推論のショートカットを行い, 単純な言語トラップに陥ることが多いことを示唆している。 本稿では,時間的コモンセンス推論の分野における研究の概要について述べる。特に,多種多様な拡張による言語モデルの性能向上と,さらに多くのデータセットを対象とした評価に焦点を当てる。 しかしながら、これらの強化モデルは、典型的な発生時間、順序、イベントの持続時間などの時間的共通感覚特性よりも、人間のパフォーマンスを推論するタスクにアプローチするのに依然として苦労している。 さらに,トランスフォーマの浅い推論に照らして,過度に予測される評価結果から保護する研究の慎重な解釈の必要性も強調する。 これはデータセットと適切な評価メトリクスを適切に準備することで実現できる。

Temporal commonsense reasoning refers to the ability to understand the typical temporal context of phrases, actions, and events, and use it to reason over problems requiring such knowledge. This trait is essential in temporal natural language processing tasks, with possible applications such as timeline summarization, temporal question answering, and temporal natural language inference. Recent research on the performance of large language models suggests that, although they are adept at generating syntactically correct sentences and solving classification tasks, they often take shortcuts in their reasoning and fall prey to simple linguistic traps. This article provides an overview of research in the domain of temporal commonsense reasoning, particularly focusing on enhancing language model performance through a variety of augmentations and their evaluation across a growing number of datasets. However, these augmented models still struggle to approach human performance on reasoning tasks over temporal common sense properties, such as the typical occurrence times, orderings, or durations of events. We further emphasize the need for careful interpretation of research to guard against overpromising evaluation results in light of the shallow reasoning present in transformers. This can be achieved by appropriately preparing datasets and suitable evaluation metrics.
翻訳日:2023-08-02 16:48:34 公開日:2023-07-28
# 高次CFD解法における教師なし機械学習ショックキャプチャ

Unsupervised machine learning shock capturing for High-Order CFD solvers ( http://arxiv.org/abs/2308.00086v1 )

ライセンス: Link先を確認
Andr\'es Mateo-Gab\'in, Kenza Tlales, Eusebio Valero, Esteban Ferrer, Gonzalo Rubio(参考訳) 本稿では,ガウス混合モデル(gmms)に基づく教師なし機械学習ショックキャプチャアルゴリズムを提案する。 提案したGMMセンサは衝撃検出において顕著な精度を示し,パラメータチューニングを必要としない多種多様なテストケースに対して堅牢である。 GMMを用いたセンサと最先端のセンサを比較した。 全ての方法は高次圧縮性不連続ガレルキン解法に統合され、人工粘度を変調して衝撃を捉えることができる。 高レイノルズ数を含む超音速テストケースは、センサーの性能を示し、最先端のセンサーと同じ効果を示している。 %のnodal dg aproachは, サブセルフラックス拡散法, 超音速特徴検出, メッシュ微細化における潜在的な応用を可能にする。 広範囲なトレーニングデータセットなしで機能する適応特性と能力により、このGMMベースのセンサーは複雑なジオメトリと様々なフロー構成に適している。 本研究は,高度なCFD符号の堅牢性と効率を向上させるため,GMMセンサで実証した教師なし機械学習手法の可能性を明らかにする。

We present a novel unsupervised machine learning shock capturing algorithm based on Gaussian Mixture Models (GMMs). The proposed GMM sensor demonstrates remarkable accuracy in detecting shocks and is robust across diverse test cases without the need for parameter tuning. We compare the GMM-based sensor with state-of-the-art alternatives. All methods are integrated into a high-order compressible discontinuous Galerkin solver where artificial viscosity can be modulated to capture shocks. Supersonic test cases, including high Reynolds numbers, showcase the sensor's performance, demonstrating the same effectiveness as fine-tuned state-of-the-art sensors. %The nodal DG aproach allows for potential applications in sub-cell flux-differencing formulations, supersonic feature detection, and mesh refinement. The adaptive nature and ability to function without extensive training datasets make this GMM-based sensor suitable for complex geometries and varied flow configurations. Our study reveals the potential of unsupervised machine learning methods, exemplified by the GMM sensor, to improve the robustness and efficiency of advanced CFD codes.
翻訳日:2023-08-02 16:41:19 公開日:2023-07-28
# 応答前の推論:共感応答生成のためのコモンセンスに基づく因果説明の統合

Reasoning before Responding: Integrating Commonsense-based Causality Explanation for Empathetic Response Generation ( http://arxiv.org/abs/2308.00085v1 )

ライセンス: Link先を確認
Yahui Fu, Koji Inoue, Chenhui Chu, Tatsuya Kawahara(参考訳) 共感応答生成に対する最近のアプローチでは、ユーザの経験や感情をよりよく理解するために、常識的な知識や感情の原因に関する推論を取り入れようとしている。 しかし,これらのアプローチは主にユーザの視点からコンテキストの因果関係を理解することに焦点を当て,システムの観点からは無視する。 本稿では,ユーザ視点(ユーザの欲望と反応)とシステム視点(システムの意図と反応)の両方を考慮した,多様な共感応答生成のための共通感覚に基づく因果関係説明手法を提案する。 コンテキスト内学習と常識知識を統合し,システムの視点を推論するチャットgptの能力を高める。 次に,コモンセンスに基づく因果説明をChatGPTとT5ベースモデルの両方に統合する。 実験により,本手法は自動評価と人的評価の両方において,他の同等の手法よりも優れていることが示された。

Recent approaches to empathetic response generation try to incorporate commonsense knowledge or reasoning about the causes of emotions to better understand the user's experiences and feelings. However, these approaches mainly focus on understanding the causalities of context from the user's perspective, ignoring the system's perspective. In this paper, we propose a commonsense-based causality explanation approach for diverse empathetic response generation that considers both the user's perspective (user's desires and reactions) and the system's perspective (system's intentions and reactions). We enhance ChatGPT's ability to reason for the system's perspective by integrating in-context learning with commonsense knowledge. Then, we integrate the commonsense-based causality explanation with both ChatGPT and a T5-based model. Experimental evaluations demonstrate that our method outperforms other comparable methods on both automatic and human evaluations.
翻訳日:2023-08-02 16:40:51 公開日:2023-07-28
# 細粒度マイズショット分類のためのタスク指向チャネル注意

Task-Oriented Channel Attention for Fine-Grained Few-Shot Classification ( http://arxiv.org/abs/2308.00093v1 )

ライセンス: Link先を確認
SuBeen Lee, WonJun Moon, Hyun Seok Seong, and Jae-Pil Heo(参考訳) きめ細かい画像分類の難しさは、主にクラス間で共有された全体的な外観から生じる。 したがって、鳥の目やくちばしなどの識別的詳細を認識することが重要な課題である。 しかし、トレーニングデータに制限がある場合、これは特に難しい。 そこで本研究では,2つの新規モジュールによるタスク対応型チャネルアテンションモジュール (sam) とクエリアテンションモジュール (qam) を用いたタスク指向チャネルアテンション手法であるtask discrepancy maximization (tdm)を提案する。 sam氏はクラス毎の判別機能をエンコードするチャネルを強調し、qamはクエリのオブジェクト関連チャネルに重みを割り当てる。 これらのサブモジュールに基づいて、TDMは、サポートとクエリインスタンス間の正確なクラス依存の類似度測定のために、クラス識別の詳細を符号化し、クエリによって同時に保持されるチャネルに焦点を当て、タスク適応機能を生成する。 TDMはタスク適応型チャネルワイドのキャリブレーションによる高レベルの特徴マップに影響を与えるが、QAMを拡張してオブジェクト関連チャネルを例に強調するために、特徴抽出器の中間層で動作するインスタンス注意モジュール(IAM)をさらに導入する。 TDMとIAMの利点とそれらの相補的な利点は、きめ細かい分類タスクにおいて実験的に検証される。 さらに、IAMは、粗粒度およびクロスドメインのショット分類にも有効であることが示されている。

The difficulty of the fine-grained image classification mainly comes from a shared overall appearance across classes. Thus, recognizing discriminative details, such as eyes and beaks for birds, is a key in the task. However, this is particularly challenging when training data is limited. To address this, we propose Task Discrepancy Maximization (TDM), a task-oriented channel attention method tailored for fine-grained few-shot classification with two novel modules Support Attention Module (SAM) and Query Attention Module (QAM). SAM highlights channels encoding class-wise discriminative features, while QAM assigns higher weights to object-relevant channels of the query. Based on these submodules, TDM produces task-adaptive features by focusing on channels encoding class-discriminative details and possessed by the query at the same time, for accurate class-sensitive similarity measure between support and query instances. While TDM influences high-level feature maps by task-adaptive calibration of channel-wise importance, we further introduce Instance Attention Module (IAM) operating in intermediate layers of feature extractors to instance-wisely highlight object-relevant channels, by extending QAM. The merits of TDM and IAM and their complementary benefits are experimentally validated in fine-grained few-shot classification tasks. Moreover, IAM is also shown to be effective in coarse-grained and cross-domain few-shot classifications.
翻訳日:2023-08-02 16:30:10 公開日:2023-07-28
# 多変量極端のスペクトル学習

Spectral learning of multivariate extremes ( http://arxiv.org/abs/2111.07799v2 )

ライセンス: Link先を確認
Marco Avella Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極度の依存構造を解析するためのスペクトルクラスタリングアルゴリズムを提案する。 より具体的には、極値理論における角測度やスペクトル測度によって特徴づけられる多変量極値の漸近依存に焦点をあてる。 本研究は, 極端サンプルから構築したランダムな$k$-nearest近傍グラフ, すなわち, 半径が大きなしきい値を超えるランダムベクトルの角部に基づいて, スペクトルクラスタリングの理論的性能について検討する。 特に、線形因子モデルから生じる極度の漸近分布を導出し、ある条件下では、スペクトルクラスタリングが、このモデルで生じる極度のクラスターを一貫して識別できることを証明する。 この結果を利用して,角測度の学習のための簡易な一貫した推定手法を提案する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose a spectral clustering algorithm for analyzing the dependence structure of multivariate extremes. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory. Our work studies the theoretical performance of spectral clustering based on a random $k$-nearest neighbor graph constructed from an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. In particular, we derive the asymptotic distribution of extremes arising from a linear factor model and prove that, under certain conditions, spectral clustering can consistently identify the clusters of extremes arising in this model. Leveraging this result we propose a simple consistent estimation strategy for learning the angular measure. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2023-08-02 01:15:57 公開日:2023-07-28
# テラバイトスケール教師付きマウス腎臓の3dトレーニングとベンチマークデータセット

Terabyte-scale supervised 3D training and benchmarking dataset of the mouse kidney ( http://arxiv.org/abs/2108.02226v3 )

ライセンス: Link先を確認
Willy Kuo, Diego Rossinelli, Georg Schulz, Roland H. Wenger, Simone Hieber, Bert M\"uller, Vartan Kurtcuoglu(参考訳) 3dバイオメディカル画像のセグメンテーションに使用される機械学習アルゴリズムの性能は、2d写真で得られた結果に基づいて期待値に達しない。 これは、最先端のイメージング設備、アノテーションのドメインエキスパート、大規模な計算および個人リソースを必要とする、高ボリュームで高品質なトレーニングデータセットの欠如によって説明できる。 この研究で提示されたhr-kidneyデータセットは、1.7tbの人工物による放射光ベースのx線位相コントラストマイクロトモグラフィー画像と、現在利用可能な生体医学データセットよりも1桁から2桁増加する33個の729個の糸球体からなる検証されたセグメントを提供することで、このギャップを埋める。 画像セットには、基礎となる生データ、しきい値と形態に基づく腎血管と尿細管の半自動セグメンテーション、そして真の3D手動アノテーションが含まれている。 そこで我々は、画像処理、データ拡張、機械学習、特に教師なしおよび半教師なしの学習調査、および転送学習と生成的敵ネットワークの分野において、科学コミュニティが構築し拡張するための広い基盤を提供する。

The performance of machine learning algorithms, when used for segmenting 3D biomedical images, does not reach the level expected based on results achieved with 2D photos. This may be explained by the comparative lack of high-volume, high-quality training datasets, which require state-of-the-art imaging facilities, domain experts for annotation and large computational and personal resources. The HR-Kidney dataset presented in this work bridges this gap by providing 1.7 TB of artefact-corrected synchrotron radiation-based X-ray phase-contrast microtomography images of whole mouse kidneys and validated segmentations of 33 729 glomeruli, which corresponds to a one to two orders of magnitude increase over currently available biomedical datasets. The image sets also contain the underlying raw data, threshold- and morphology-based semi-automatic segmentations of renal vasculature and uriniferous tubules, as well as true 3D manual annotations. We therewith provide a broad basis for the scientific community to build upon and expand in the fields of image processing, data augmentation and machine learning, in particular unsupervised and semi-supervised learning investigations, as well as transfer learning and generative adversarial networks.
翻訳日:2023-08-02 01:14:36 公開日:2023-07-28
# Code-routing: 位置検証に対する新たな攻撃

Code-routing: a new attack on position verification ( http://arxiv.org/abs/2202.07812v5 )

ライセンス: Link先を確認
Joy Cree, Alex May(参考訳) 位置検証の暗号タスクは、量子情報と相対論的因果関係の制約を利用して、時空の相手の位置を検証しようとするものである。 f$-routingとして知られる一般的な検証方式では、証明者がブール関数 $f$ の値に基づいて量子系をリダイレクトする必要がある。 $f$-routingスキームのチーティング戦略は、証明者が事前に共有された絡み合いを使う必要があり、そのスキームのセキュリティは、証明者が操作できる絡み合いの量に関する仮定にかかっている。 本稿では,量子システムを秘密共有スキームに符号化し,秘密共有スキームの認証構造を利用して適切にシステムを誘導する,新たな不正行為戦略を提案する。 この戦略は$O(SP_p(f))$ EPRペアを使って$f$-routingタスクを完了し、$SP_p(f)$はフィールド上のスパンプログラムの最小サイズである$\mathbb{Z}_p$ computing $f$である。 これは、$f$が複雑性クラス$\text{Mod}_p\text{L}$にあるとき、ローカル前処理を許可した後、$f$-routingスキームを効率的に攻撃できることを示している。 最初期の構成はクラス l で、これは厳密に$\text{mod}_p\text{l}$ の内部にあると考えられている。 また、インジケータ関数 $f_I$ の量子秘密共有方式のサイズは、関数 $f_I$ の上限エンタングルメントコスト $f$-routing であることを示す。

The cryptographic task of position verification attempts to verify one party's location in spacetime by exploiting constraints on quantum information and relativistic causality. A popular verification scheme known as $f$-routing involves requiring the prover to redirect a quantum system based on the value of a Boolean function $f$. Cheating strategies for the $f$-routing scheme require the prover use pre-shared entanglement, and security of the scheme rests on assumptions about how much entanglement a prover can manipulate. Here, we give a new cheating strategy in which the quantum system is encoded into a secret-sharing scheme, and the authorization structure of the secret-sharing scheme is exploited to direct the system appropriately. This strategy completes the $f$-routing task using $O(SP_p(f))$ EPR pairs, where $SP_p(f)$ is the minimal size of a span program over the field $\mathbb{Z}_p$ computing $f$. This shows we can efficiently attack $f$-routing schemes whenever $f$ is in the complexity class $\text{Mod}_p\text{L}$, after allowing for local pre-processing. The best earlier construction achieved the class L, which is believed to be strictly inside of $\text{Mod}_p\text{L}$. We also show that the size of a quantum secret sharing scheme with indicator function $f_I$ upper bounds entanglement cost of $f$-routing on the function $f_I$.
翻訳日:2023-08-02 01:07:00 公開日:2023-07-28
# 独立スプリットによる分類器再学習によるグループロバスト性の改善

Improved Group Robustness via Classifier Retraining on Independent Splits ( http://arxiv.org/abs/2204.09583v3 )

ライセンス: Link先を確認
Thien Hang Nguyen, Hongyang R. Zhang, Huy Le Nguyen(参考訳) 平均リスクを最小限にすることでトレーニングされたディープニューラルネットワークは、強い平均パフォーマンスを実現することができる。 それでも、サブグループのパフォーマンスが低下する可能性があるのは、サブグループ全体のデータ人口が過小評価されている場合である。 群分布的ロバスト最適化(Sgawa et al., 2020a, 略してDRO)は、強力な最悪群性能を持つ学習モデルのベースラインとして広く使われている。 本手法では,各例にグループラベルが必要であり,小規模なグループに過度に適合し,厳密な正規化が要求される。 訓練時にグループラベルが限られている場合、Just Train Twice (Liu et al., 2021) または JTT は、まず未ラベルのすべてのサンプルに対して擬似グループラベルを推測し、次に推論されたグループラベルに基づいてグループDROを適用する2段階の手法である。 推論プロセスはオーバーフィッティングにも敏感で、時にはハイパーパラメータも追加される。 本稿では,学習データの独立分割に基づく分類器再訓練の考え方に基づく簡易な手法を提案する。 我々は,新しいサンプルスプリッティング手法を用いることで,微調整ステップにおいてロバストな最悪グループ性能を実現することを見出した。 ベンチマーク画像およびテキスト分類タスクで評価すると,どちらのグループラベルもトレーニング中に利用可能か,検証セットでのみ提供される場合,グループdro,jtt,その他の強力なベースラインに対して,一貫して良好に機能する。 重要な点として,本手法は1つのハイパーパラメータにのみ依存し,特徴抽出器のトレーニングに使用するラベルの比率をトレーニング分類層と比較する。 我々は,最悪のグループ損失の一般化境界解析により,分割スキームの理論的根拠を正当化する。

Deep neural networks trained by minimizing the average risk can achieve strong average performance. Still, their performance for a subgroup may degrade if the subgroup is underrepresented in the overall data population. Group distributionally robust optimization (Sagawa et al., 2020a), or group DRO in short, is a widely used baseline for learning models with strong worst-group performance. We note that this method requires group labels for every example at training time and can overfit to small groups, requiring strong regularization. Given a limited amount of group labels at training time, Just Train Twice (Liu et al., 2021), or JTT in short, is a two-stage method that infers a pseudo group label for every unlabeled example first, then applies group DRO based on the inferred group labels. The inference process is also sensitive to overfitting, sometimes involving additional hyperparameters. This paper designs a simple method based on the idea of classifier retraining on independent splits of the training data. We find that using a novel sample-splitting procedure achieves robust worst-group performance in the fine-tuning step. When evaluated on benchmark image and text classification tasks, our approach consistently performs favorably to group DRO, JTT, and other strong baselines when either group labels are available during training or are only given in validation sets. Importantly, our method only relies on a single hyperparameter, which adjusts the fraction of labels used for training feature extractors vs. training classification layers. We justify the rationale of our splitting scheme with a generalization-bound analysis of the worst-group loss.
翻訳日:2023-08-02 00:57:30 公開日:2023-07-28
# ロバストショットクロスドメイン顔アンチスプーフィングのための適応変換器

Adaptive Transformers for Robust Few-shot Cross-domain Face Anti-spoofing ( http://arxiv.org/abs/2203.12175v2 )

ライセンス: Link先を確認
Hsin-Ping Huang, Deqing Sun, Yaojie Liu, Wen-Sheng Chu, Taihong Xiao, Jinwei Yuan, Hartwig Adam, Ming-Hsuan Yang(参考訳) 近年のフェース・アンチ・スプーフィング法はドメイン内設定下では良好に機能するが、複雑なシーンで取得した画像のより大きな外観変化を、堅牢なパフォーマンスのために考慮する必要がある。 本稿では、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。 具体的には、VTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。 さらに,vit内にアンサンブルアダプタモジュールと機能変換層を導入して,いくつかのサンプルでロバストなパフォーマンスを実現する。 いくつかのベンチマークデータセットの実験により、提案したモデルは、いくつかのサンプルを用いてドメイン間対面アンチスプーフィングの最先端手法に対して、堅牢かつ競争的なパフォーマンスを達成することが示された。

While recent face anti-spoofing methods perform well under the intra-domain setups, an effective approach needs to account for much larger appearance variations of images acquired in complex scenes with different sensors for robust performance. In this paper, we present adaptive vision transformers (ViT) for robust cross-domain face antispoofing. Specifically, we adopt ViT as a backbone to exploit its strength to account for long-range dependencies among pixels. We further introduce the ensemble adapters module and feature-wise transformation layers in the ViT to adapt to different domains for robust performance with a few samples. Experiments on several benchmark datasets show that the proposed models achieve both robust and competitive performance against the state-of-the-art methods for cross-domain face anti-spoofing using a few samples.
翻訳日:2023-08-02 00:56:00 公開日:2023-07-28
# 部分空間制約下における分散学習の量子化

Quantization for decentralized learning under subspace constraints ( http://arxiv.org/abs/2209.07821v2 )

ライセンス: Link先を確認
Roula Nassif, Stefan Vlaski, Marco Carpentiero, Vincenzo Matta, Marc Antonini, Ali H. Sayed(参考訳) 本稿では,各エージェントが低次元部分空間に配置するためにネットワーク上の最小限の制約を最小化するために,個別のコスト関数を持つ分散最適化問題を考察する。 この制約付き定式化は、特別なケースとしてコンセンサスやシングルタスク最適化を含み、マルチタスクの滑らかさや結合最適化のようなより一般的なタスク関連モデルを可能にする。 通信制約に対処するために,エージェントがランダム化量子化器を用いて予測値を圧縮し,隣人と通信する適応分散型戦略を提案し,検討する。 分析によれば、量子化ノイズに関するいくつかの一般的な条件の下で、十分小さなステップサイズである$\mu$に対して、平均二乗誤差と平均ビットレートの両方で戦略は安定である: $\mu$を小さくすることで、ビットレートを$\mu\rightarrow 0$に無期限に増加させることなく、推定誤差を($\mu$の順に)小さくすることができる。 シミュレーションは理論的な知見と提案手法の有効性を示し、分散学習はほんの数ビットの犠牲で実現可能であることを示した。

In this paper, we consider decentralized optimization problems where agents have individual cost functions to minimize subject to subspace constraints that require the minimizers across the network to lie in low-dimensional subspaces. This constrained formulation includes consensus or single-task optimization as special cases, and allows for more general task relatedness models such as multitask smoothness and coupled optimization. In order to cope with communication constraints, we propose and study an adaptive decentralized strategy where the agents employ differential randomized quantizers to compress their estimates before communicating with their neighbors. The analysis shows that, under some general conditions on the quantization noise, and for sufficiently small step-sizes $\mu$, the strategy is stable both in terms of mean-square error and average bit rate: by reducing $\mu$, it is possible to keep the estimation errors small (on the order of $\mu$) without increasing indefinitely the bit rate as $\mu\rightarrow 0$. Simulations illustrate the theoretical findings and the effectiveness of the proposed approach, revealing that decentralized learning is achievable at the expense of only a few bits.
翻訳日:2023-08-02 00:24:29 公開日:2023-07-28
# StyleGANで顔認識を高めるには?

How to Boost Face Recognition with StyleGAN? ( http://arxiv.org/abs/2210.10090v2 )

ライセンス: Link先を確認
Artem Sevastopolsky, Yury Malkov, Nikita Durasov, Luisa Verdoliva, Matthias Nie{\ss}ner(参考訳) 最先端の顔認識システムは大量のラベル付きトレーニングデータを必要とする。 顔認識アプリケーションにおけるプライバシの優先性を考えると、データはセレブのwebクロールに限定されている。 一方で、業界における自己監督型革命は、関連する技術が顔認識に適応する研究を動機付けている。 最も一般的な実践的手法の1つは、アイデンティティを維持しながら生成モデルから抽出したサンプルによるデータセットの強化である。 StyleGANのための微調整pSpエンコーダに基づく簡単なアプローチにより、最先端の顔認識を改善することができ、合成顔のアイデンティティのトレーニングよりも優れた性能が得られることを示す。 また,制御可能な民族構成 -africanfaceset-5m (異民族500万画像) と asianfaceset-3m (異民族300万画像) - を持つ大規模無ラベルデータセットを収集し,各民族の事前学習がそれぞれの民族認識(他と同様に)を改善し,すべてのラベル付きデータセットを組み合わせることで,最大のパフォーマンス向上をもたらすことを示した。 私たちの自己管理戦略は、限られたラベル付きトレーニングデータでもっとも有用であり、よりカスタマイズされた顔認識タスクやプライバシー上の懸念に直面した場合に有用です。 評価は標準のRFWデータセットと新しい大規模RB-WebFaceベンチマークに基づいている。 コードとデータはhttps://github.com/seva100/stylegan-for-facerecで公開されている。

State-of-the-art face recognition systems require vast amounts of labeled training data. Given the priority of privacy in face recognition applications, the data is limited to celebrity web crawls, which have issues such as limited numbers of identities. On the other hand, self-supervised revolution in the industry motivates research on the adaptation of related techniques to facial recognition. One of the most popular practical tricks is to augment the dataset by the samples drawn from generative models while preserving the identity. We show that a simple approach based on fine-tuning pSp encoder for StyleGAN allows us to improve upon the state-of-the-art facial recognition and performs better compared to training on synthetic face identities. We also collect large-scale unlabeled datasets with controllable ethnic constitution -- AfricanFaceSet-5M (5 million images of different people) and AsianFaceSet-3M (3 million images of different people) -- and we show that pretraining on each of them improves recognition of the respective ethnicities (as well as others), while combining all unlabeled datasets results in the biggest performance increase. Our self-supervised strategy is the most useful with limited amounts of labeled training data, which can be beneficial for more tailored face recognition tasks and when facing privacy concerns. Evaluation is based on a standard RFW dataset and a new large-scale RB-WebFace benchmark. The code and data are made publicly available at https://github.com/seva100/stylegan-for-facerec.
翻訳日:2023-08-02 00:15:01 公開日:2023-07-28
# abcを忘れるな:チャット指向対話システムにおける最先端の評価

Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems ( http://arxiv.org/abs/2212.09180v3 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, and Jinho D. Choi(参考訳) 対話システムの飛躍的な進歩にもかかわらず、安定した評価には人間の判断が必要である。 さらに、対話評価における手法やラベルは、特にオープンドメインチャットにおいて完全に標準化されておらず、それらのアプローチの妥当性を比較し評価する作業が不足している。 不整合評価の使用は、対話システムの性能を誤認し、それを強化するための大きなハードルとなる。 そこで,対話機能の複数の側面を確実に測定するチャット指向オープンドメイン対話システムの次元評価が望まれる。 本稿では,対話システム行動の頻度を推定する新しい人間評価手法を提案する。 本手法は,4つの最先端オープンドメイン対話システムを評価し,既存のアプローチと比較する。 解析の結果, 提案手法は, 従来のlikert方式や, 次元評価のための比較手法よりも適していることがわかった。

Despite tremendous advancements in dialogue systems, stable evaluation still requires human judgments producing notoriously high-variance metrics due to their inherent subjectivity. Moreover, methods and labels in dialogue evaluation are not fully standardized, especially for open-domain chats, with a lack of work to compare and assess the validity of those approaches. The use of inconsistent evaluation can misinform the performance of a dialogue system, which becomes a major hurdle to enhance it. Thus, a dimensional evaluation of chat-oriented open-domain dialogue systems that reliably measures several aspects of dialogue capabilities is desired. This paper presents a novel human evaluation method to estimate the rates of many dialogue system behaviors. Our method is used to evaluate four state-of-the-art open-domain dialogue systems and compared with existing approaches. The analysis demonstrates that our behavior method is more suitable than alternative Likert-style or comparative approaches for dimensional evaluation of these systems.
翻訳日:2023-08-02 00:07:20 公開日:2023-07-28
# 欧州のAI責任指令 -- ハーフハードアプローチの批判と今後の教訓

The European AI Liability Directives -- Critique of a Half-Hearted Approach and Lessons for the Future ( http://arxiv.org/abs/2211.13960v6 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) ChatGPTらが世界を征服するにつれ、AIシステムの最適責任フレームワークは、世界中で未解決の問題のままである。 欧州委員会は2022年9月に、新たなai責任指令と製品責任指令の改訂という2つの提案を前進させた。 これらはEUのAI規制の最終的な基盤となっている。 重要なことに、責任提案とEUのAI法は本質的に相互運用されており、後者は被災者の個人的権利を一切含んでおらず、前者はAI開発と展開に関する特定の実質的な規則を欠いている。 総合すると、これらの行為は、ai規制においてブリュッセル効果を引き起こす可能性がある。 この論文は3つの新しい貢献をする。 まず、欧州委員会の提案を詳細に検討し、正しい方向に進む一方で、最終的にはハーフハーフハーフのアプローチを表現している。もし前向きに制定されたら、EUにおけるAIの責任は、主に証拠メカニズムの開示と、欠陥、欠陥、因果関係に関する狭義の予測にかかっている。 第二に、この記事は修正を提案するが、これは論文の最後にAnnexで収集される。 第3に、AIがもたらす重要なリスクの分析に基づいて、最終部では、EU以降におけるAIの責任と規制の将来への道のりを図示している。 これには、AI責任のための包括的なフレームワーク、イノベーションをサポートするための条項、非差別/アルゴリズムフェアネスの拡張、説明可能なAI、持続可能性が含まれる。 我々は、AI法における持続可能性影響評価と、債務制度における持続可能な設計欠陥を通じて、持続可能なAI規制を飛躍的に開始することを提案する。 このようにして、この法律は公正なAIとXAIだけでなく、持続可能なAI(SAI)にも役立ちます。

As ChatGPT et al. conquer the world, the optimal liability framework for AI systems remains an unsolved problem across the globe. In a much-anticipated move, the European Commission advanced two proposals outlining the European approach to AI liability in September 2022: a novel AI Liability Directive and a revision of the Product Liability Directive. They constitute the final cornerstone of EU AI regulation. Crucially, the liability proposals and the EU AI Act are inherently intertwined: the latter does not contain any individual rights of affected persons, and the former lack specific, substantive rules on AI development and deployment. Taken together, these acts may well trigger a Brussels Effect in AI regulation, with significant consequences for the US and beyond. This paper makes three novel contributions. First, it examines in detail the Commission proposals and shows that, while making steps in the right direction, they ultimately represent a half-hearted approach: if enacted as foreseen, AI liability in the EU will primarily rest on disclosure of evidence mechanisms and a set of narrowly defined presumptions concerning fault, defectiveness and causality. Hence, second, the article suggests amendments, which are collected in an Annex at the end of the paper. Third, based on an analysis of the key risks AI poses, the final part of the paper maps out a road for the future of AI liability and regulation, in the EU and beyond. This includes: a comprehensive framework for AI liability; provisions to support innovation; an extension to non-discrimination/algorithmic fairness, as well as explainable AI; and sustainability. I propose to jump-start sustainable AI regulation via sustainability impact assessments in the AI Act and sustainable design defects in the liability regime. In this way, the law may help spur not only fair AI and XAI, but potentially also sustainable AI (SAI).
翻訳日:2023-08-02 00:05:57 公開日:2023-07-28
# 有効モデル空間における量子シミュレーション(I):デジタル量子コンピュータを用いたハミルトン学習VQEとLipkin-Meshkov-Glickモデルへの応用

Quantum Simulations in Effective Model Spaces (I): Hamiltonian Learning-VQE using Digital Quantum Computers and Application to the Lipkin-Meshkov-Glick Model ( http://arxiv.org/abs/2301.05976v3 )

ライセンス: Link先を確認
Caroline E. P. Robin and Martin J. Savage(参考訳) 非相対論的量子多体系の量子シミュレーションにおける有効モデル空間の有用性は、相互作用フェルミオンのリプキン・メシュコフ・グリック模型の文脈で研究されている。 本稿では,実効的なハミルトニアンを同時に最適化し,実効モデル空間への絡み合いと関連する基底状態波動関数を再構成する,反復的ハイブリッド古典量子アルゴリズムであるhamiltonian learning variational quantum eigensolver (hl-vqe)を提案する。 HL-VQEは、ヒルベルト空間のかなりの部分にわたって、ハミルトニアン学習を伴わない単純なトランケーションと比較して、リプキン-メシュコフ-グリックモデル計算において指数関数的な改善をもたらす。 量子シミュレーションはhl-vqeアルゴリズムを実証するために行われ、量子ビットの数を粒子数ではなく実効モデル空間のサイズの$\log$でスケールする効率的なマッピングを用いて、小さな量子回路を持つ大規模システムを記述することができる。 IBMのQExperience量子コンピュータと1ビットと2ビットの有効モデル空間のシミュレータの実装は、古典的な予測を再現し、正確で正確な結果を提供する。 この研究は、ノイズの多い中間スケール量子(NISQ)デバイスの可能性を活用する核システム記述のための絡み合い駆動量子アルゴリズムの開発におけるステップを構成する。

The utility of effective model spaces in quantum simulations of non-relativistic quantum many-body systems is explored in the context of the Lipkin-Meshkov-Glick model of interacting fermions. We introduce an iterative hybrid-classical-quantum algorithm, Hamiltonian learning variational quantum eigensolver (HL-VQE), that simultaneously optimizes an effective Hamiltonian, thereby rearranging entanglement into the effective model space, and the associated ground-state wavefunction. HL-VQE is found to provide an exponential improvement in Lipkin-Meshkov-Glick model calculations, compared to a naive truncation without Hamiltonian learning, throughout a significant fraction of the Hilbert space. Quantum simulations are performed to demonstrate the HL-VQE algorithm, using an efficient mapping where the number of qubits scales with the $\log$ of the size of the effective model space, rather than the particle number, allowing for the description of large systems with small quantum circuits. Implementations on IBM's QExperience quantum computers and simulators for 1- and 2-qubit effective model spaces are shown to provide accurate and precise results, reproducing classical predictions. This work constitutes a step in the development of entanglement-driven quantum algorithms for the description of nuclear systems, that leverages the potential of noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2023-08-01 23:57:19 公開日:2023-07-28
# 連続時空間変圧器

Continuous Spatiotemporal Transformers ( http://arxiv.org/abs/2301.13338v2 )

ライセンス: Link先を確認
Antonio H. de O. Fonseca, Emanuele Zappala, Josue Ortega Caro, David van Dijk(参考訳) 時空間力学系のモデリングは機械学習の基本的な課題である。 トランスフォーマーモデルは、データの解釈可能な表現を提供するnlpおよびコンピュータビジョンで非常に成功している。 しかし、連続力学系のモデリングにおける変圧器の制限は、基本的に離散時間と空間モデルであり、したがって連続サンプリングに関する保証がないことである。 この課題に対処するため,我々は連続システムモデリング用に設計された新しいトランスフォーマアーキテクチャである連続時空間トランスフォーマ(cst)を提案する。 この新しいフレームワークは、ソボレフ空間の最適化による連続的でスムーズな出力を保証する。 我々はCSTを従来のトランスフォーマーや時空間力学モデリング法と比較し、カルシウムイメージングデータから脳のダイナミクスを学習するなど、合成および実システムにおける多くのタスクにおいて優れた性能を発揮する。

Modeling spatiotemporal dynamical systems is a fundamental challenge in machine learning. Transformer models have been very successful in NLP and computer vision where they provide interpretable representations of data. However, a limitation of transformers in modeling continuous dynamical systems is that they are fundamentally discrete time and space models and thus have no guarantees regarding continuous sampling. To address this challenge, we present the Continuous Spatiotemporal Transformer (CST), a new transformer architecture that is designed for the modeling of continuous systems. This new framework guarantees a continuous and smooth output via optimization in Sobolev space. We benchmark CST against traditional transformers as well as other spatiotemporal dynamics modeling methods and achieve superior performance in a number of tasks on synthetic and real systems, including learning brain dynamics from calcium imaging data.
翻訳日:2023-08-01 23:46:05 公開日:2023-07-28
# 行列代数上の$k$-(Super)正の写像に対するシェーンベルク対応

Schoenberg Correspondence for $k$-(Super)Positive Maps on Matrix Algebras ( http://arxiv.org/abs/2301.10679v4 )

ライセンス: Link先を確認
B. V. Rajarama Bhat and Purbayan Chakraborty and Uwe Franz(参考訳) michael sch\"urmann によって証明されたユニタリ半群の類似の結果を一般化する非ユニタリ半群に対するシェーンベルク型対応を証明する。 線型写像の半群の生成元を $m_n(c)$ で特徴づけるが、これらは $k$-positive, $k$-superpositive, $k$-entanglement breaking である。 仲間として、lindblad氏、gorini氏、kossakowski氏、sudarshan氏の定理を再証明します。 作用素の半群の具体例を示し、その正の性質が時間とともにどのように改善するかを研究する。

We prove a Schoenberg-type correspondence for non-unital semigroups which generalizes an analogous result for unital semigroup proved by Michael Sch\"urmann. It characterizes the generators of semigroups of linear maps on $M_n(C)$ which are $k$-positive, $k$-superpositive, or $k$-entanglement breaking. As a corollary we reprove Lindblad, Gorini, Kossakowski, Sudarshan's theorem. We present some concrete examples of semigroups of operators and study how their positivity properties can improve with time.
翻訳日:2023-08-01 23:45:21 公開日:2023-07-28
# ヘルド型フォトニックベル計測による量子メモリのエンタングリング

Entangling Quantum Memories via Heralded Photonic Bell Measurement ( http://arxiv.org/abs/2303.03453v2 )

ライセンス: Link先を確認
Prajit Dhara, Dirk Englund, Saikat Guha(参考訳) 量子記憶を絡める一般的な方法はフォトニック絡み合いスワップである。 光チャネルで接続された2つのメモリはそれぞれ、自身と絡み合うフォトニック量子ビットを発生させ、フォトニック量子ビットは、チャネルの中央にあるビームスプリッターの絡み合いスワップを受ける。 我々は、フォトニックキュービットの符号化の2つの選択肢を比較する:シングルレールとデュアルレール。 低チャネル損失では、デュアルレール方式はシングルレール方式よりも優れる。 しかし、予想通り、デュアルレール・スキームの高損失率の漸近は、シングルレールに比べて損失が2倍に大きい。 スワップにおける不完全モードマッチング、干渉されたフォトニック量子ビット間のキャリア位相ミスマッチ、余剰ノイズの検出といった非理想性を考えると、2量子絡み状態の密度演算子を評価する。 1コピーあたりの蒸留可能な絡み合いと、その忠実度(理想的なベル状態)について下限を計算する。 どちらのスキームにおいても、不完全なスワップ可視性は一定因子の速度減少をもたらし、余剰ノイズは、ある総チャネル損失しきい値を超える蒸留可能な絡み合いをゼロにする。 シングルレールのスケールが改善されたにもかかわらず、過大な騒音の影響は大きい。 シングルレールスキームは, 両レールスキームに影響を与えない確率的キャリア位相ミスマッチの影響を受けない。 本研究は,両手法の連接状態における絡み合い蒸留について検討し,我々の研究が引き起こせる一連の量子ネットワーク研究を概説する。

A common way to entangle quantum memories is via photonic entanglement swaps. Each of two memories, connected by an optical channel, emits a photonic qubit entangled with itself, and the photonic qubits undergo an entanglement swap on a beamsplitter in the middle of the channel. We compare two choices of encoding of the photonic qubit: single rail and dual rail. At low channel loss the dual-rail scheme outperforms the single rail scheme. However, as expected, the high-loss rate asymptote for the dual rail scheme scales quadratically worse with loss compared with single rail. Considering the following non-idealities: imperfect mode matching at the swap, carrier-phase mismatch across the interfered photonic qubits, and detector excess noise, we evaluate the density operator of the heralded two-qubit entangled state. We calculate a lower bound on its distillable entanglement per copy, and its Fidelity (with the ideal Bell state). For both schemes, imperfect swap-visibility results in a constant-factor decrease in the rate, while excess noise results in a dropoff of distillable entanglement beyond a certain total channel loss threshold, to zero. Despite the single-rail scheme's better rate-loss scaling, it is more severely affected by excess noise. The single-rail scheme is adversely affected by stochastic carrier-phase mismatch, which does not affect the dual-rail scheme. We study entanglement distillation on the heralded noisy entangled states for both methods, and outline a suite of quantum networking studies that our work could incite.
翻訳日:2023-08-01 23:27:35 公開日:2023-07-28
# EfficientAD:ミリ秒レベルレイテンシにおける正確な視覚異常検出

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies ( http://arxiv.org/abs/2303.14535v2 )

ライセンス: Link先を確認
Kilian Batzner, Lars Heckler, Rebecca K\"onig(参考訳) 画像中の異常を検出することは特にリアルタイムコンピュータビジョンアプリケーションにおいて重要な課題である。 本研究では,計算効率を重視し,最新のGPU上で1ミリ秒未満で画像を処理する軽量な特徴抽出器を提案する。 次に,生徒・教師のアプローチを用いて異常な特徴を検出する。 学生ネットワークを訓練し,正常,すなわち異常のないトレーニング画像から抽出された特徴を予測する。 テスト時の異常の検出は、生徒がその特徴を予測できないことによって可能となる。 本研究では,教師の特徴抽出器を通常の画像を超えて模倣することを妨げる訓練損失を提案する。 これにより、異常な特徴の検出を改善しつつ、学生-教師モデルの計算コストを大幅に削減できる。 さらに,通常の局所的特徴の無効な組み合わせ,例えば,オブジェクトの誤った順序付けを含む,難しい論理異常の検出にも対処する。 画像解析を行うオートエンコーダを効率良く組み込んで,これらの異常を検出する。 3つの産業的異常検出データセットから抽出した32個のデータセットからEfficientADという手法を評価した。 EfficientADは、異常の検出とローカライゼーションの両方のための新しい標準を設定する。 2ミリ秒のレイテンシと毎秒600イメージのスループットで、異常の高速処理を可能にする。 エラー率の低さとともに、実世界のアプリケーションにとって経済的な解決策となり、将来の研究に実りある基礎となる。

Detecting anomalies in images is an important task, especially in real-time computer vision applications. In this work, we focus on computational efficiency and propose a lightweight feature extractor that processes an image in less than a millisecond on a modern GPU. We then use a student-teacher approach to detect anomalous features. We train a student network to predict the extracted features of normal, i.e., anomaly-free training images. The detection of anomalies at test time is enabled by the student failing to predict their features. We propose a training loss that hinders the student from imitating the teacher feature extractor beyond the normal images. It allows us to drastically reduce the computational cost of the student-teacher model, while improving the detection of anomalous features. We furthermore address the detection of challenging logical anomalies that involve invalid combinations of normal local features, for example, a wrong ordering of objects. We detect these anomalies by efficiently incorporating an autoencoder that analyzes images globally. We evaluate our method, called EfficientAD, on 32 datasets from three industrial anomaly detection dataset collections. EfficientAD sets new standards for both the detection and the localization of anomalies. At a latency of two milliseconds and a throughput of six hundred images per second, it enables a fast handling of anomalies. Together with its low error rate, this makes it an economical solution for real-world applications and a fruitful basis for future research.
翻訳日:2023-08-01 23:18:41 公開日:2023-07-28
# DSVAE:合成音声検出のための解釈可能な不整合表現

DSVAE: Interpretable Disentangled Representation for Synthetic Speech Detection ( http://arxiv.org/abs/2304.03323v2 )

ライセンス: Link先を確認
Amit Kumar Singh Yadav, Kratika Bhagtani, Ziyue Xiang, Paolo Bestagini, Stefano Tubaro, Edward J. Delp(参考訳) 人間の話者から録音された音声と知覚的に区別できない高品質な合成音声信号を生成するツールは容易に利用できる。 合成音声の検出にはいくつかの手法が提案されている。 これらのアプローチの多くは、深層学習をブラックボックスとして使用し、意思決定の理由を提供しない。 これはこれらのアプローチの解釈可能性を制限する。 本稿では,合成音声を検出するための音声信号の解釈可能な表現を生成するために,不整形表現学習を用いて音声のスペクトルを処理する2段階訓練型変分オートエンコーダ(DSVAE)を提案する。 DSVAEはまた、人間の音声信号を識別する分光器領域をハイライトする活性化マップを作成する。 ASVspoof2019データセットを用いてDSVAEから得られた表現を評価した。 実験結果から,未知音声合成器11例中6例と10例の合成音声の検出精度(>98%)が向上した。 また,DSVAEから得られた17種類の音声合成器の表現を可視化し,各合成器からのボナフッ化物および合成音声の解釈・識別を行う。

Tools to generate high quality synthetic speech signal that is perceptually indistinguishable from speech recorded from human speakers are easily available. Several approaches have been proposed for detecting synthetic speech. Many of these approaches use deep learning methods as a black box without providing reasoning for the decisions they make. This limits the interpretability of these approaches. In this paper, we propose Disentangled Spectrogram Variational Auto Encoder (DSVAE) which is a two staged trained variational autoencoder that processes spectrograms of speech using disentangled representation learning to generate interpretable representations of a speech signal for detecting synthetic speech. DSVAE also creates an activation map to highlight the spectrogram regions that discriminate synthetic and bona fide human speech signals. We evaluated the representations obtained from DSVAE using the ASVspoof2019 dataset. Our experimental results show high accuracy (>98%) on detecting synthetic speech from 6 known and 10 out of 11 unknown speech synthesizers. We also visualize the representation obtained from DSVAE for 17 different speech synthesizers and verify that they are indeed interpretable and discriminate bona fide and synthetic speech from each of the synthesizers.
翻訳日:2023-08-01 23:06:53 公開日:2023-07-28
# 最適化の無視規範

Optimization's Neglected Normative Commitments ( http://arxiv.org/abs/2305.17465v2 )

ライセンス: Link先を確認
Benjamin Laufer, Thomas Krendl Gilbert, Helen Nissenbaum(参考訳) 最適化は、不確実性と矛盾する利益を含む複雑な現実世界の意思決定を解決する客観的アプローチとして提供される。 ビジネス戦略と公共政策を駆動し、ますます高度な機械学習システムの中心となっている。 潜在的に高い意思決定にアプローチするために使用されるパラダイムは、現実世界を決定(s)、目的(s)、制約(s)の集合に抽象化することに依存する。 本稿では,モデリングプロセスと実例の範囲から,最適化に必然的に含まれる規範的選択と仮定について述べる。 そして、無視される可能性のある6つの問題を特定します。 1) ミス特定値は、特定の命令を完全に省略する最適化や、それらを制約として又は目的の一部として誤って組み込むことができる。 2) 問題的決定境界は,モジュール性の仮定やフィードバックループの欠陥につながる可能性がある。 3)複数のエージェントの異なる目標や決定を説明できないことは、特定の狭い利益のみを果たす政策につながる可能性がある。 4)誤記及び誤記は、偏見及び不当さをもたらすことがある。 5) 形式的特徴及び保証を伴わない緩和及び近似法の誤用は、適用性を著しく阻害し得る。 6) 行動の正当化として最適化を扱い、必要な文脈情報を規定することなく、倫理的に疑わしい、または不当な判断を下すことができる。 最適化が不正に使用される際に生じる害をさらに理解し、抑制するために提案される。

Optimization is offered as an objective approach to resolving complex, real-world decisions involving uncertainty and conflicting interests. It drives business strategies as well as public policies and, increasingly, lies at the heart of sophisticated machine learning systems. A paradigm used to approach potentially high-stakes decisions, optimization relies on abstracting the real world to a set of decision(s), objective(s) and constraint(s). Drawing from the modeling process and a range of actual cases, this paper describes the normative choices and assumptions that are necessarily part of using optimization. It then identifies six emergent problems that may be neglected: 1) Misspecified values can yield optimizations that omit certain imperatives altogether or incorporate them incorrectly as a constraint or as part of the objective, 2) Problematic decision boundaries can lead to faulty modularity assumptions and feedback loops, 3) Failing to account for multiple agents' divergent goals and decisions can lead to policies that serve only certain narrow interests, 4) Mislabeling and mismeasurement can introduce bias and imprecision, 5) Faulty use of relaxation and approximation methods, unaccompanied by formal characterizations and guarantees, can severely impede applicability, and 6) Treating optimization as a justification for action, without specifying the necessary contextual information, can lead to ethically dubious or faulty decisions. Suggestions are given to further understand and curb the harms that can arise when optimization is used wrongfully.
翻訳日:2023-08-01 21:02:58 公開日:2023-07-28
# ジェンセン・シャノンの多様性の表現

The Representation Jensen-Shannon Divergence ( http://arxiv.org/abs/2305.16446v2 )

ライセンス: Link先を確認
Jhoan K. Hoyos-Osorio, Luis G. Sanchez-Giraldo(参考訳) 統計的多様性は、機械学習で複数の用途を見つける確率分布の違いを定量化する。 しかしながら、データの基盤となる分布は通常不明であるため、実証的なサンプルからの逸脱を推定することが基本的な課題である。 本稿では、カーネルヒルベルト空間(RKHS)の共分散演算子に基づく新しい発散であるJensen-Shannon Divergenceを提案する。 本手法では,データ分布をrkhsに埋め込み,表現の共分散演算子のスペクトルを利用する。 フーリエ特徴量を用いてデータをRKHSに明示的にマッピングすることで,経験的共分散行列から推定する。 この推定器は柔軟で、スケーラブルで、微分可能で、ミニバッチベースの最適化問題に適している。 さらに、RKHSに明示的にマッピングすることなく、カーネル行列に基づく推定器を提供する。 この量はJensen-Shannon分散の低い境界であることを示し、それを推定するための変分的アプローチを提案する。 複数のデータセットにおいて,関連する最先端技術を上回る2つのサンプルテストに適用した。 我々はjensen-shannon divergenceの表現をコスト関数として使用し,生成的敵ネットワークの訓練を行った。

Statistical divergences quantify the difference between probability distributions finding multiple uses in machine-learning. However, a fundamental challenge is to estimate divergence from empirical samples since the underlying distributions of the data are usually unknown. In this work, we propose the representation Jensen-Shannon Divergence, a novel divergence based on covariance operators in reproducing kernel Hilbert spaces (RKHS). Our approach embeds the data distributions in an RKHS and exploits the spectrum of the covariance operators of the representations. We provide an estimator from empirical covariance matrices by explicitly mapping the data to an RKHS using Fourier features. This estimator is flexible, scalable, differentiable, and suitable for minibatch-based optimization problems. Additionally, we provide an estimator based on kernel matrices without having an explicit mapping to the RKHS. We show that this quantity is a lower bound on the Jensen-Shannon divergence, and we propose a variational approach to estimate it. We applied our divergence to two-sample testing outperforming related state-of-the-art techniques in several datasets. We used the representation Jensen-Shannon divergence as a cost function to train generative adversarial networks which intrinsically avoids mode collapse and encourages diversity.
翻訳日:2023-08-01 21:02:36 公開日:2023-07-28
# 量子センシングのための最適発電機

Optimal Generators for Quantum Sensing ( http://arxiv.org/abs/2305.15556v2 )

ライセンス: Link先を確認
Jarrod T. Reilly, John Drew Wilson, Simon B. J\"ager, Christopher Wilson, Murray J. Holland(参考訳) 量子状態が最も敏感なユニタリ進化を導出するための計算効率の高い手法を提案する。 これにより、量子センシングにおける絡み合った状態の最適利用を決定することができる。 本稿では、量子フィッシャー情報行列(QFIM)の最大固有値により、与えられた量子状態を用いた最大到達感度が決定され、重要なことに、対応する進化は、一致する固有ベクトルによって一意に決定されることを示す。 状態準備プロトコルではなくパラメータ符号化のプロセスを最適化するため、我々の手法はあらゆる量子センサに関係している。 この手順は、QFIMの固有ベクトルを通じて、最適な感度で通勤可観測物の最大セットを決定することで、自然にマルチパラメータ推定を最適化する。

We propose a computationally efficient method to derive the unitary evolution that a quantum state is most sensitive to. This allows one to determine the optimal use of an entangled state for quantum sensing, even in complex systems where intuition from canonical squeezing examples breaks down. In this paper we show that the maximal obtainable sensitivity using a given quantum state is determined by the largest eigenvalue of the quantum Fisher information matrix (QFIM) and, importantly, the corresponding evolution is uniquely determined by the coinciding eigenvector. Since we optimize the process of parameter encoding rather than focusing on state preparation protocols, our scheme is relevant for any quantum sensor. This procedure naturally optimizes multiparameter estimation by determining, through the eigenvectors of the QFIM, the maximal set of commuting observables with optimal sensitivity.
翻訳日:2023-08-01 21:01:57 公開日:2023-07-28
# 画像フィルタリングにおける量子長所の実現

Achieving quantum advantages for image filtering ( http://arxiv.org/abs/2306.07251v2 )

ライセンス: Link先を確認
Zidong Cui and Shan Jin and Akira Sone and Xiaoting Wang(参考訳) 画像処理は、量子アルゴリズムを探求する魅力的な分野である。 しかし、量子速度を上げることは大きな課題であることがわかった。 本研究では,画像フィルタリングに焦点をあて,相当なスピードアップを達成可能な画像のクラスを同定する。 効率的な符号化と信号対雑音比の下限を持つ画像に対して、量子フィルタリングアルゴリズムを量子ビット数の観点から多項式複雑性で構築できることを示す。 このアルゴリズムは量子フーリエ変換と振幅増幅法を組み合わせたものである。 提案手法の利点を示すために,3つの典型的なフィルタリング問題に適用する。 我々は、効率的にエンコードできない画像の場合、量子アドバンテージが減少することを示すことで、効率的なエンコーディングの重要性を強調している。 我々の研究は、実質的な量子スピードアップを達成することのできる画像の種類に関する洞察を提供する。

Image processing is a fascinating field for exploring quantum algorithms. However, achieving quantum speedups turns out to be a significant challenge. In this work, we focus on image filtering to identify a class of images that can achieve a substantial speedup. We show that for images with efficient encoding and a lower bound on the signal-to-noise ratio, a quantum filtering algorithm can be constructed with a polynomial complexity in terms of the qubit number. Our algorithm combines the quantum Fourier transform with the amplitude amplification technique. To demonstrate the advantages of our approach, we apply it to three typical filtering problems. We highlight the importance of efficient encoding by illustrating that for images that cannot be efficiently encoded, the quantum advantage will diminish. Our work provides insights into the types of images that can achieve a substantial quantum speedup.
翻訳日:2023-08-01 20:44:37 公開日:2023-07-28
# 組合せ分布シフトに取り組む:行列完全性の観点から

Tackling Combinatorial Distribution Shift: A Matrix Completion Perspective ( http://arxiv.org/abs/2307.06457v3 )

ライセンス: Link先を確認
Max Simchowitz and Abhishek Gupta and Kaiqing Zhang(参考訳) 分布シフト下での一般化のための厳密な統計的保証を得ることは、オープンかつアクティブな研究領域である。 私たちはコンビネート的分布シフトという設定を研究し (a) テストおよびトレーニング配信の下では、ラベル$z$ は機能対 $(x,y)$ によって決定される。 b) トレーニング分布は、x$ と y$ を別にして、一定の限界分布をカバーするが、 (c) テスト分布は、トレーニング分布でカバーされている {not} である $(x,y)$ 以上の製品分布からの例を含む。 ラベルが双線型埋め込みによってヒルベルト空間 $H$: $\mathbb{E}[z \mid x,y]=\langle f_{\star} に与えられる特別な場合に着目して x,g_{\star (複数形 x,g_{\stars) (y)\rangle_{{H}}$、トレーニングでカバーされる$not$のテスト分布領域、すなわち双線形組合せ外挿を達成することを目指している。 本設定では,非ランダムデータから行列完備化の特別な事例を一般化し,既存の結果のすべてにおいて,地上構造行列を正確に低ランクにするか,あるいは非常にシャープなスペクトルカットオフを示す必要がある。 本研究では, 新アルゴリズム, 一般化保証, 線形代数的結果など, 典型的な高次元データに見られるような, 漸進的スペクトル崩壊下での双線形組合せ外挿を可能にする一連の理論的結果を開発する。 鍵となるツールは、絶対スペクトルギャップよりも相対スペクトルギャップに依存する2つの行列の間のランク-$k$ 特異値分解近似に対して束縛された新しい摂動である。

Obtaining rigorous statistical guarantees for generalization under distribution shift remains an open and active research area. We study a setting we call combinatorial distribution shift, where (a) under the test- and training-distributions, the labels $z$ are determined by pairs of features $(x,y)$, (b) the training distribution has coverage of certain marginal distributions over $x$ and $y$ separately, but (c) the test distribution involves examples from a product distribution over $(x,y)$ that is {not} covered by the training distribution. Focusing on the special case where the labels are given by bilinear embeddings into a Hilbert space $H$: $\mathbb{E}[z \mid x,y ]=\langle f_{\star}(x),g_{\star}(y)\rangle_{{H}}$, we aim to extrapolate to a test distribution domain that is $not$ covered in training, i.e., achieving bilinear combinatorial extrapolation. Our setting generalizes a special case of matrix completion from missing-not-at-random data, for which all existing results require the ground-truth matrices to be either exactly low-rank, or to exhibit very sharp spectral cutoffs. In this work, we develop a series of theoretical results that enable bilinear combinatorial extrapolation under gradual spectral decay as observed in typical high-dimensional data, including novel algorithms, generalization guarantees, and linear-algebraic results. A key tool is a novel perturbation bound for the rank-$k$ singular value decomposition approximations between two matrices that depends on the relative spectral gap rather than the absolute spectral gap, a result that may be of broader independent interest.
翻訳日:2023-08-01 20:25:13 公開日:2023-07-28
# 局所ブラウン回路におけるサンプリングと誤差補正の相転移

Phase transitions in sampling and error correction in local Brownian circuits ( http://arxiv.org/abs/2307.04267v2 )

ライセンス: Link先を確認
Subhayan Sahu, Shao-Kai Jian(参考訳) 局所ブラウン回路における反集中性と近似ユニタリ設計挙動の出現について検討した。 出力状態の確率分布とエントロピーの回路平均モーメントのダイナミクスは、レプリカ空間に有効な局所ハミルトニアンを用いて想像上の時間発展として表現することができる。 これにより、テンソルネットワークツールを用いて、そのような回路平均量の1+1d$のダイナミックスを大規模に数値シミュレーションし、ブラウン回路の様々な状態を異なる熱力学相として同定することができる。 特に、反濃縮の出現は衝突確率の急激な遷移として$\log N$ timescale と同定し、そこでは$N$は量子ビットの数である。 また,特定の古典近似アルゴリズムが同時に計算硬度遷移を持つことを示す。 ノイズの存在下では、ノイズレートを1/n$にスケールダウンした場合、線形クロスエントロピーベンチマークにノイズ誘起1次位相遷移が存在することを示す。 ブラウン回路はより長い時間に、o(n)$タイムでユニタリな2-設計を近似する。 このような回路による量子誤差補正の実現可能性を直接調査し、o(n)$タイムスケールで1次遷移を同定する。 これら全ての相転移のスケーリング挙動は、大規模数値から得られ、有効レプリカハミルトニアンのスペクトルを解析することによって裏付けられる。

We study the emergence of anticoncentration and approximate unitary design behavior in local Brownian circuits. The dynamics of circuit averaged moments of the probability distribution and entropies of the output state can be represented as imaginary time evolution with an effective local Hamiltonian in the replica space. This facilitates large scale numerical simulation of the dynamics in $1+1d$ of such circuit-averaged quantities using tensor network tools, as well as identifying the various regimes of the Brownian circuit as distinct thermodynamic phases. In particular, we identify the emergence of anticoncentration as a sharp transition in the collision probability at $\log N$ timescale, where $N$ is the number of qubits. We also show that a specific classical approximation algorithm has a computational hardness transition at the same timescale. In the presence of noise, we show there is a noise-induced first order phase transition in the linear cross entropy benchmark when the noise rate is scaled down as $1/N$. At longer times, the Brownian circuits approximate a unitary 2-design in $O(N)$ time. We directly probe the feasibility of quantum error correction by such circuits, and identify a first order transition at $O(N)$ timescales. The scaling behaviors for all these phase transitions are obtained from the large scale numerics, and corroborated by analyzing the spectrum of the effective replica Hamiltonian.
翻訳日:2023-08-01 20:23:15 公開日:2023-07-28
# izhikevichニューロンを用いたloihi 2のバイオリアリスティックニューラルネットワークによる実装

Bio-realistic Neural Network Implementation on Loihi 2 with Izhikevich Neurons ( http://arxiv.org/abs/2307.11844v2 )

ライセンス: Link先を確認
Recep Bu\u{g}ra Uluda\u{g} and Serhat \c{C}a\u{g}da\c{s} and Yavuz Selim \.I\c{s}ler and Neslihan Serap \c{S}eng\"or and Ismail Akturk(参考訳) 本稿では,バイオリアリスティックな基底神経節ニューラルネットワークと,intelのloihiニューロモルフィックプロセッサと統合することにより,単純なgo/no-goタスクを実現する。 よりバイオリアリスティックで多様なニューロン動態を組み込むために、Loihiを内蔵したLeaky-Integrate and Fire(LIF)ニューロンモデルの代わりに、マイクロコードとして実装されたIzhikevichニューロンモデルを使用しました。 本研究は,これらのカスタムニューロンを特徴とするスパイクニューラルネットワーク(snn)構築のためのloihi上の計算効率の高いカスタムニューロンモデルの実現可能性を示すことを目的としている。

In this paper, we presented a bio-realistic basal ganglia neural network and its integration into Intel's Loihi neuromorphic processor to perform simple Go/No-Go task. To incorporate more bio-realistic and diverse set of neuron dynamics, we used Izhikevich neuron model, implemented as microcode, instead of Leaky-Integrate and Fire (LIF) neuron model that has built-in support on Loihi. This work aims to demonstrate the feasibility of implementing computationally efficient custom neuron models on Loihi for building spiking neural networks (SNNs) that features these custom neurons to realize bio-realistic neural networks.
翻訳日:2023-08-01 20:05:54 公開日:2023-07-28
# A type $I$ クロス製品の近似

A Type $I$ Approximation of the Crossed Product ( http://arxiv.org/abs/2307.12481v2 )

ライセンス: Link先を確認
Ronak M Soni(参考訳) 私は、タイプ$III_{1}$代数学からタイプ$II$代数学への横断積構成の類似が、タイプ$I$の場合にも存在することを示します。 これは、局所代数が$i$因子の非自明な直和であるときに特に自然である。 具体的には、通常の$i$トレースを別の方法で書き直し、再正規化します。 この新しい再正規化トレースは、各因子がタイプされたときにもよく定義されている。 私は、コード内の中央演算子に異なる制約を課すことで、タイプ$II_{\infty}$とタイプ$II_{1}$ algebraの両方を回復できます。 この構造の例はホログラフィック量子誤り訂正符号に現れ、中心演算子は領域演算子である。

I show that an analog of the crossed product construction that takes type $III_{1}$ algebras to type $II$ algebras exists also in the type $I$ case. This is particularly natural when the local algebra is a non-trivial direct sum of type $I$ factors. Concretely, I rewrite the usual type $I$ trace in a different way and renormalise it. This new renormalised trace stays well-defined even when each factor is taken to be type $III$. I am able to recover both type $II_{\infty}$ as well as type $II_{1}$ algebras by imposing different constraints on the central operator in the code. An example of this structure appears in holographic quantum error-correcting codes; the central operator is then the area operator.
翻訳日:2023-08-01 19:53:20 公開日:2023-07-28
# 有効候補選択のための潜在ディリクレ割当と自然言語処理による残量評価

Resume Evaluation through Latent Dirichlet Allocation and Natural Language Processing for Effective Candidate Selection ( http://arxiv.org/abs/2307.15752v1 )

ライセンス: Link先を確認
Vidhita Jagwani, Smit Meghani, Krishna Pai, Sudhir Dhage(参考訳) 本稿では,LDA(Latent Dirichlet Allocation)とSpaCyを用いたエンティティ検出を用いて,評価を再開する手法を提案する。 提案手法はまず,SpaCy の Named Entity Recognition (NER) を用いて,履歴書から教育,経験,スキルなどの関連エンティティを抽出する。 LDAモデルは、各エンティティにトピック確率を割り当てることで、履歴書を評価するためにこれらのエンティティを使用する。 さらに,SpaCyのNERを用いたエンティティ検出の詳細な解析を行い,評価指標について報告する。 LDAを用いて、提案システムは履歴書を潜在トピックに分解し、意味のある意味表現を抽出する。 履歴書のスコアを、構造やキーワードマッチングではなく、コンテント駆動で定義するビジョンにより、考慮中のスキルのみに関する精度が77%、すべての属性を考慮した総合的な精度が82%に達しました。 (大学名、職業経験、学位、技能など)

In this paper, we propose a method for resume rating using Latent Dirichlet Allocation (LDA) and entity detection with SpaCy. The proposed method first extracts relevant entities such as education, experience, and skills from the resume using SpaCy's Named Entity Recognition (NER). The LDA model then uses these entities to rate the resume by assigning topic probabilities to each entity. Furthermore, we conduct a detailed analysis of the entity detection using SpaCy's NER and report its evaluation metrics. Using LDA, our proposed system breaks down resumes into latent topics and extracts meaningful semantic representations. With a vision to define our resume score to be more content-driven rather than a structure and keyword match driven, our model has achieved 77% accuracy with respect to only skills in consideration and an overall 82% accuracy with all attributes in consideration. (like college name, work experience, degree and skills)
翻訳日:2023-08-01 19:47:37 公開日:2023-07-28
# Context-VQA: コンテキスト認識と目的の視覚的質問応答を目指して

Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering ( http://arxiv.org/abs/2307.15745v1 )

ライセンス: Link先を確認
Nandita Naik, Christopher Potts, Elisa Kreiss(参考訳) 視覚的質問応答(VQA)は、インターネットをインタラクティブな方法でアクセスしやすくする可能性があり、画像を見ることができない人々に質問することができる。 しかし、視覚障害者や視力の低い人は、画像が現れるコンテキストを取り入れた画像の説明を好むが、現在のVQAデータセットは分離した画像に焦点を当てている。 VQAモデルは、コンテキストを考慮に入れない限り、人々の要求を満たすために完全には成功しない、と私たちは主張する。 異なるコンテキスト間の区別をさらに動機付け、分析するために、イメージとコンテキスト、特にwebサイトの種類(ショッピングwebサイトなど)を組み合わせるvqaデータセットであるcontext-vqaを紹介する。 質問の種類は文脈によって様々である。 例えば、旅行コンテキストで提示された画像は、平均の2倍、質問は2倍、ソーシャルメディアやニュースのイメージは2.8倍、質問は1.8倍、といった具合です。 また、参加者が画像を見ることができない場合、コンテキスト効果が特に重要であることも分かりました。 これらの結果は、コンテキストが質問の種類に影響を与え、特にアクセシビリティ設定において、VQAモデルが人々の要求に合うようにコンテキストに敏感であることを示す。

Visual question answering (VQA) has the potential to make the Internet more accessible in an interactive way, allowing people who cannot see images to ask questions about them. However, multiple studies have shown that people who are blind or have low-vision prefer image explanations that incorporate the context in which an image appears, yet current VQA datasets focus on images in isolation. We argue that VQA models will not fully succeed at meeting people's needs unless they take context into account. To further motivate and analyze the distinction between different contexts, we introduce Context-VQA, a VQA dataset that pairs images with contexts, specifically types of websites (e.g., a shopping website). We find that the types of questions vary systematically across contexts. For example, images presented in a travel context garner 2 times more "Where?" questions, and images on social media and news garner 2.8 and 1.8 times more "Who?" questions than the average. We also find that context effects are especially important when participants can't see the image. These results demonstrate that context affects the types of questions asked and that VQA models should be context-sensitive to better meet people's needs, especially in accessibility settings.
翻訳日:2023-08-01 19:47:19 公開日:2023-07-28
# 正規化が損失関数の幾何に及ぼす影響

How regularization affects the geometry of loss functions ( http://arxiv.org/abs/2307.15744v1 )

ライセンス: Link先を確認
Nathaniel Bottman, Y. Cooper, Antonio Lerario(参考訳) ニューラルネットワークが学んだことは、基礎となる損失関数の幾何に依存する。 我々は、この関数の幾何に異なる正規化子がどのように影響するかを研究する。 滑らかな函数の最も基本的な幾何学的性質の1つは、それがモースかどうかである。 非線形深層ニューラルネットワークの場合、非正規化損失関数 $l$ は通常モースではない。 ウェイト崩壊を含むいくつかの異なる正規化器を考えるとともに、正規化関数 $L_\epsilon$ が Morse となる正則化器の研究を行う。

What neural networks learn depends fundamentally on the geometry of the underlying loss function. We study how different regularizers affect the geometry of this function. One of the most basic geometric properties of a smooth function is whether it is Morse or not. For nonlinear deep neural networks, the unregularized loss function $L$ is typically not Morse. We consider several different regularizers, including weight decay, and study for which regularizers the regularized function $L_\epsilon$ becomes Morse.
翻訳日:2023-08-01 19:46:56 公開日:2023-07-28
# 走査とトラップによるQGEMプロトコールのミクロンサイズ空間重ね合わせ

Micron-size spatial superpositions for the QGEM-protocol via screening and trapping ( http://arxiv.org/abs/2307.15743v1 )

ライセンス: Link先を確認
M. Schut, A. Geraci, S. Bose and A. Mazumdar(参考訳) 量子重力による質量の絡み合い(英: quantum gravity-induced entanglement of mass, qgem)は、量子重力を絡み合いの証人を用いてテストするためのプロトコルであり、距離dで分離された2つの中性物質波干渉計の空間的重ね合わせを作成する。 質量と空間的重ね合わせは、2つの量子系が重力の量子の性質によってのみ絡み合うことができるようにすべきである。 電荷ニュートラルであるにもかかわらず、双極子-双極子相互作用やカシミール-ポルダー相互作用のような系を絡める多くの電磁背景が存在する。 導電板によって2つの重ね合わせを分離することが関係している質量間の電磁誘導相互作用を最小限に抑える。 しかし、導電板は質量にも力を与えるため、2つの重ね合わせの軌道に影響される。 この効果を最小限に抑えるために, 導電板と物質波干渉計との間のトラッピング電位が支配する2つの干渉計を捕捉する。 重ね合わせは、トラップ電位が無視できるプレートと平行な方向のスターン・ゲルラッハ効果によっても生成することができる。 トラップと遮蔽の組み合わせは実験の平行配置により良いパラメータ空間を提供し、空間的重ね合わせの大きさの要件は、重力の量子的性質によって純粋に2つの質量間の絡み合いを目撃するものであり、元のプロトコルペーパーと比較して少なくとも2桁は減少する。

The quantum gravity-induced entanglement of masses (QGEM) protocol for testing quantum gravity using entanglement witnessing utilizes the creation of spatial quantum superpositions of two neutral, massive matter-wave interferometers kept adjacent to each other, separated by a distance d. The mass and the spatial superposition should be such that the two quantum systems can entangle solely via the quantum nature of gravity. Despite being charge-neutral, there are many electromagnetic backgrounds that can also entangle the systems, such as the dipole-dipole interaction, and the Casimir-Polder interaction. To minimize electromagnetic-induced interactions between the masses it is pertinent to isolate the two superpositions by a conducting plate. However, the conducting plate will also exert forces on the masses and hence the trajectories of the two superpositions would be affected. To minimize this effect, we propose to trap the two interferometers such that the trapping potential dominates over the attraction between the conducting plate and the matter-wave interferometers. The superpositions can still be created via the Stern-Gerlach effect in the direction parallel to the plate, where the trapping potential is negligible. The combination of trapping and shielding provides a better parameter space for the parallel configuration of the experiment, where the requirement on the size of the spatial superposition, to witness the entanglement between the two masses purely due to their quantum nature of gravity, decreases by at least two orders of magnitude as compared to the original protocol paper.
翻訳日:2023-08-01 19:46:48 公開日:2023-07-28
# 予知行動のためのai: 気候変動予測を超えて

AI for Anticipatory Action: Moving Beyond Climate Forecasting ( http://arxiv.org/abs/2307.15727v1 )

ライセンス: Link先を確認
Benjamin Q. Huynh and Mathew V. Kiang(参考訳) 災害対応機関は、気候予測のパラダイムから、気候がどのようなものかを評価するだけでなく、特定の人口にどのように影響するかを評価することで、積極的応答と資源配分を可能にしている。 気候予報では機械学習モデルが非常に強力になっているが、予測行動を促進するという点では方法論的ギャップが残っている。 ここでは、予測行動の概要、機械学習の関連応用のレビュー、共通の課題の特定、および機械学習が気候変動に最も脆弱な人口に対する災害対応に一意に貢献できる分野のハイライトを紹介する。

Disaster response agencies have been shifting from a paradigm of climate forecasting towards one of anticipatory action: assessing not just what the climate will be, but how it will impact specific populations, thereby enabling proactive response and resource allocation. Machine learning models are becoming exceptionally powerful at climate forecasting, but methodological gaps remain in terms of facilitating anticipatory action. Here we provide an overview of anticipatory action, review relevant applications of machine learning, identify common challenges, and highlight areas where machine learning can uniquely contribute to advancing disaster response for populations most vulnerable to climate change.
翻訳日:2023-08-01 19:46:18 公開日:2023-07-28
# キュリオシティ駆動強化学習による低レベル飛行制御

Curiosity-Driven Reinforcement Learning based Low-Level Flight Control ( http://arxiv.org/abs/2307.15724v1 )

ライセンス: Link先を確認
Amir Ramezani Dooraki and Alexandros Iosifidis(参考訳) 好奇心は、探索のための測定可能なレベルの知能を持ち、その結果、より効率的な学習を持つ多くの自然生物の主要な動機の1つである。 これにより、人間や多くの動物は、自分が知らないことをもっと学ぶという目標で驚かされる状態にあることを探索することで、効率的に探索することができる。 その結果、好奇心をそそる一方で、よりよい学習が得られます。 機械学習の文献では、好奇心は主に本質的な報酬として強化学習に基づくアルゴリズムと組み合わせられている。 本研究では,オドメトリデータから適切な運動速度を生成することにより,自律学習のための好奇心の駆動に基づくアルゴリズムを提案する。 提案アルゴリズムにより制御されたクワッドコプターは,クワッドコプターのYaw方向を所望の位置に制御しながら障害物を通過させることができる。 そこで本研究では,予測誤差に基づく新たな好奇心アプローチを提案する。 私たちは、オン・ポリシー、オフ・ポリシー、オン・ポリシー、キュリオシティ、そして提案されたアルゴリズムを使ってテストを行い、キュリオシティが進化する探索パターンに与える影響を可視化しました。 その結果,提案アルゴリズムが最適方針を学習し,他のアルゴリズムがそうしなかった場合の報酬を最大化する能力を示す。

Curiosity is one of the main motives in many of the natural creatures with measurable levels of intelligence for exploration and, as a result, more efficient learning. It makes it possible for humans and many animals to explore efficiently by searching for being in states that make them surprised with the goal of learning more about what they do not know. As a result, while being curious, they learn better. In the machine learning literature, curiosity is mostly combined with reinforcement learning-based algorithms as an intrinsic reward. This work proposes an algorithm based on the drive of curiosity for autonomous learning to control by generating proper motor speeds from odometry data. The quadcopter controlled by our proposed algorithm can pass through obstacles while controlling the Yaw direction of the quad-copter toward the desired location. To achieve that, we also propose a new curiosity approach based on prediction error. We ran tests using on-policy, off-policy, on-policy plus curiosity, and the proposed algorithm and visualized the effect of curiosity in evolving exploration patterns. Results show the capability of the proposed algorithm to learn optimal policy and maximize reward where other algorithms fail to do so.
翻訳日:2023-08-01 19:46:06 公開日:2023-07-28
# agent-based model: 封じ込め措置の受容に基づくウイルス拡大のシミュレーション

Agent-Based Model: Simulating a Virus Expansion Based on the Acceptance of Containment Measures ( http://arxiv.org/abs/2307.15723v1 )

ライセンス: Link先を確認
Alejandro Rodr\'iguez-Arias, Amparo Alonso-Betanzos, Bertha Guijarro-Berdi\~nas, Noelia S\'anchez-Marro\~no(参考訳) 比較疫学モデルでは、SEIRDモデル(Susceptible-Exposed-Infected-Recovered-Dead)のような疾患の状態に基づいて個人を分類する。 これらのモデルは、感染や回復率などのアウトブレイクの規模に影響を与えるパラメータを決定する。 しかし、新型コロナウイルスのマスク使用やHIVのコンドーム分布などの緩和戦略を評価する上で重要である個々の特徴や集団行動は説明できない。 さらに、各国間の感染率の違いを説明する上で、市民の連帯、対人信頼、政府の信頼の役割も研究で強調されている。 エージェントベースモデリング(abm)は、個々のコンポーネント、それらのアクション、環境内の相互作用をシミュレートして複雑なシステムを研究するための貴重なアプローチを提供する。 abmは社会現象の分析に有用なツールを提供する。 本研究では,適応型SEIRDモデルと市民のための意思決定モデルを組み合わせたABMアーキテクチャを提案する。 本稿では,2つの構成要素に基づいて,社会におけるウイルス感染の進展を分析するためのABMアーキテクチャを提案する。 1)SEIRDモデルの適応及び 2)市民のための意思決定モデル。 このようにして、感染の進化は、公衆衛生対策を受け入れるか拒否するかする個人の行動によって、ウイルス自体の拡散に加えて影響を受ける。 スペインのcoru\~naにおけるsars-cov-2感染の進展を調べることにより, 設計モデルを示す。 このアプローチにより、流行時の市民の行動がウイルスの拡散に及ぼす影響を分析することができる。

Compartmental epidemiological models categorize individuals based on their disease status, such as the SEIRD model (Susceptible-Exposed-Infected-Recovered-Dead). These models determine the parameters that influence the magnitude of an outbreak, such as contagion and recovery rates. However, they don't account for individual characteristics or population actions, which are crucial for assessing mitigation strategies like mask usage in COVID-19 or condom distribution in HIV. Additionally, studies highlight the role of citizen solidarity, interpersonal trust, and government credibility in explaining differences in contagion rates between countries. Agent-Based Modeling (ABM) offers a valuable approach to study complex systems by simulating individual components, their actions, and interactions within an environment. ABM provides a useful tool for analyzing social phenomena. In this study, we propose an ABM architecture that combines an adapted SEIRD model with a decision-making model for citizens. In this paper, we propose an ABM architecture that allows us to analyze the evolution of virus infections in a society based on two components: 1) an adaptation of the SEIRD model and 2) a decision-making model for citizens. In this way, the evolution of infections is affected, in addition to the spread of the virus itself, by individual behavior when accepting or rejecting public health measures. We illustrate the designed model by examining the progression of SARS-CoV-2 infections in A Coru\~na, Spain. This approach makes it possible to analyze the effect of the individual actions of citizens during an epidemic on the spread of the virus.
翻訳日:2023-08-01 19:45:46 公開日:2023-07-28
# SAFE:DNNに基づく自動運転システムのためのサリエンシを考慮した対実説明

SAFE: Saliency-Aware Counterfactual Explanations for DNN-based Automated Driving Systems ( http://arxiv.org/abs/2307.15786v1 )

ライセンス: Link先を確認
Amir Samadi, Amir Shirian, Konstantinos Koufos, Kurt Debattista and Mehrdad Dianati(参考訳) CF説明器は、モデルの出力を補数に変更する入力の最小限の変更を識別する。 言い換えれば、CF説明器はモデルの判断境界を越えるのに必要な最小限の修正を計算する。 現在のディープジェネレーティブcfモデルはブラックボックスモデルの識別機能に注目するのではなく、ユーザー選択のフィーチャで動作します。 したがって、そのような CF の例は決定境界付近に必ずしも存在せず、したがって CF の定義に矛盾する。 この問題に対処するため,本稿では,より有用なcf説明を生成するために,サリエンシーマップを利用する新しい手法を提案する。 ソースコードは、https://github.com/Amir-Samadi//Saliency_Aware_CFで入手できる。

A CF explainer identifies the minimum modifications in the input that would alter the model's output to its complement. In other words, a CF explainer computes the minimum modifications required to cross the model's decision boundary. Current deep generative CF models often work with user-selected features rather than focusing on the discriminative features of the black-box model. Consequently, such CF examples may not necessarily lie near the decision boundary, thereby contradicting the definition of CFs. To address this issue, we propose in this paper a novel approach that leverages saliency maps to generate more informative CF explanations. Source codes are available at: https://github.com/Amir-Samadi//Saliency_Aware_CF.
翻訳日:2023-08-01 19:36:08 公開日:2023-07-28
# MRFモデルのグラフ埋め込みに基づく球面および双曲的トーリックトポロジーに基づくコード:古典的および量子トポロジー機械学習

Spherical and Hyperbolic Toric Topology-Based Codes On Graph Embedding for Ising MRF Models: Classical and Quantum Topology Machine Learning ( http://arxiv.org/abs/2307.15778v1 )

ライセンス: Link先を確認
Vasiliy Usatyuk, Sergey Egorov, Denis Sapozhnikov(参考訳) 本稿では,イジングモデルの基底状態を記述するための情報幾何の応用について述べる。 これは、トーリックおよび球面トポロジー上の巡回および準巡回符号のパリティチェック行列を利用することによって達成される。 このアプローチは、機械学習と誤り訂正符号、特に準循環符号の自己同型と循環の大きさという観点からの関連を確立する。 提案手法は,トラップセットに基づく新しい埋め込み手法の開発に影響を及ぼす。 統計物理学と数幾何学は誤り訂正符号の最適化に利用され、これらの埋め込みとスパース因数分解法に繋がる。 本論文は,dnnアーキテクチャと誤り訂正符号との直接的関係を,長距離アリーナからの最先端のdnnアーキテクチャ (chordmixer, mega, mega-chunk, cdil, ...) が,ブロック符号と畳み込みldpc符号の特定の型 (cage-graph, repeat accumulate) と等価であることを示すことによって確立する。 QC符号は特定の種類の化学元素に対応し、炭素元素は混合自己同型Shu-Lin-Fossorier QC-LDPC符号で表される。 sherrington-kirkpatrick isingモデルで用いられる量子近似最適化アルゴリズム(qaoa)は、トレーニングdnnにおけるバックプロパゲーション損失関数のランドスケープに類似していると見なすことができる。 この類似性は、信念伝播法に似たts擬似符号語に匹敵する問題を引き起こす。 さらに、QAOAの層深さは、ウィバーグ復号木における復号信条伝播反復の数と相関する。 全体として、この研究は情報理論、dnnアーキテクチャ設計(疎結合で構造化された事前グラフトポロジー)、量子および古典dpu/tpuの効率的なハードウェア設計(グラフ、量子化およびシフトレジスタアーキテクト)から材料科学まで、様々な分野を前進させる可能性がある。

The paper introduces the application of information geometry to describe the ground states of Ising models. This is achieved by utilizing parity-check matrices of cyclic and quasi-cyclic codes on toric and spherical topologies. The approach establishes a connection between machine learning and error-correcting coding, specifically in terms of automorphism and the size of the circulant of the quasi-cyclic code. This proposed approach has implications for the development of new embedding methods based on trapping sets. Statistical physics and number geometry are utilized to optimize error-correcting codes, leading to these embedding and sparse factorization methods. The paper establishes a direct connection between DNN architecture and error-correcting coding by demonstrating how state-of-the-art DNN architectures (ChordMixer, Mega, Mega-chunk, CDIL, ...) from the long-range arena can be equivalent to specific types (Cage-graph, Repeat Accumulate) of block and convolutional LDPC codes. QC codes correspond to certain types of chemical elements, with the carbon element being represented by the mixed automorphism Shu-Lin-Fossorier QC-LDPC code. The Quantum Approximate Optimization Algorithm (QAOA) used in the Sherrington-Kirkpatrick Ising model can be seen as analogous to the back-propagation loss function landscape in training DNNs. This similarity creates a comparable problem with TS pseudo-codeword, resembling the belief propagation method. Additionally, the layer depth in QAOA correlates to the number of decoding belief propagation iterations in the Wiberg decoding tree. Overall, this work has the potential to advance multiple fields, from Information Theory, DNN architecture design (sparse and structured prior graph topology), efficient hardware design for Quantum and Classical DPU/TPU (graph, quantize and shift register architect.) to Materials Science and beyond.
翻訳日:2023-08-01 19:35:57 公開日:2023-07-28
# Select and Augment: 強化されたDense Retrieval Knowledge Graph Augmentation

Select and Augment: Enhanced Dense Retrieval Knowledge Graph Augmentation ( http://arxiv.org/abs/2307.15776v1 )

ライセンス: Link先を確認
Micheal Abaho, Yousef H. Alfaifi(参考訳) 知識グラフ(KG)の実体表現にテキスト情報を注入することは、NLPコミュニティにおけるKG指向タスクのパフォーマンス向上の観点から、貴重な調査である。 KG埋め込みを強化するための外部知識は、意味的にリッチな語彙依存解析機能から、関連するキーワードのセットから、wikipediaなどの外部コーパスから提供されるテキスト記述全体まで多岐にわたる。 この革新(テキストエンハンス付kg埋め込み)の成果にもかかわらず、本研究の提案はさらに改善できることを示唆している。 テキストの語彙的曖昧さのため、一つのテキスト記述を使う代わりに、kgエンティティに関連する一連のテキスト記述を共同で選択し、kg埋め込みとテキスト記述を調整または拡張するマルチタスクフレームワークを提案する。 知識ベースで宣言された形式的なエンティティ記述をプラグインする以前の作業とは異なり、このフレームワークは検索モデルを活用して、エンティティの強化に使用するよりリッチで高関連性の高いテキスト記述を選択的に識別する。 さらに、拡張プロセスで使用する記述の数をパラメータとして扱うことにより、適切な数を特定する前に複数の数値を列挙する柔軟性が実現される。 Link Predictionの実験結果は、従来のCNNを用いたテキスト強化知識グラフ拡張法と比較して、平均相反ランク(MRR)とHits@10スコアの5.5%と3.5%の増加を示した。

Injecting textual information into knowledge graph (KG) entity representations has been a worthwhile expedition in terms of improving performance in KG oriented tasks within the NLP community. External knowledge often adopted to enhance KG embeddings ranges from semantically rich lexical dependency parsed features to a set of relevant key words to entire text descriptions supplied from an external corpus such as wikipedia and many more. Despite the gains this innovation (Text-enhanced KG embeddings) has made, the proposal in this work suggests that it can be improved even further. Instead of using a single text description (which would not sufficiently represent an entity because of the inherent lexical ambiguity of text), we propose a multi-task framework that jointly selects a set of text descriptions relevant to KG entities as well as align or augment KG embeddings with text descriptions. Different from prior work that plugs formal entity descriptions declared in knowledge bases, this framework leverages a retriever model to selectively identify richer or highly relevant text descriptions to use in augmenting entities. Furthermore, the framework treats the number of descriptions to use in augmentation process as a parameter, which allows the flexibility of enumerating across several numbers before identifying an appropriate number. Experiment results for Link Prediction demonstrate a 5.5% and 3.5% percentage increase in the Mean Reciprocal Rank (MRR) and Hits@10 scores respectively, in comparison to text-enhanced knowledge graph augmentation methods using traditional CNNs.
翻訳日:2023-08-01 19:35:17 公開日:2023-07-28
# 収量バリアの探索:最適マニフォールドによる高次元SRAM評価

Seeking the Yield Barrier: High-Dimensional SRAM Evaluation Through Optimal Manifold ( http://arxiv.org/abs/2307.15773v1 )

ライセンス: Link先を確認
Yanfang Liu, Guohao Dai and Wei W.Xing(参考訳) sramコンポーネントの故障確率を効率的に推定できることは、モデル回路が高度な技術ノードを持つサブマイクロメータにスケールを縮小するため、主要な問題となっている。 本研究では,古典的ノルム最小化法を再考する。 次に、それを無限成分で一般化し、サーロゲートベースおよび重要サンプリング(is)の収率推定法を橋渡しする新しい最適多様体の概念を導出する。 次に、最適多様体である最適超球面を導出し、オニオンサンプリングと呼ばれる故障境界を認識する効率的なサンプリング手法を導出する。 最後に、IS提案分布としてニューラルカップリングフロー(代理モデルのようなサンプルから学習する)を用いる。 これらの組み合わせは、高次元SRAM評価におけるSOTA法よりも最大3.5倍の効率と3倍の精度で、ロゲート法とIS法の利点を保ちつつ、新しい収率推定法であるOPTIMIS(Optimal Manifold Important Sampling)を生み出している。

Being able to efficiently obtain an accurate estimate of the failure probability of SRAM components has become a central issue as model circuits shrink their scale to submicrometer with advanced technology nodes. In this work, we revisit the classic norm minimization method. We then generalize it with infinite components and derive the novel optimal manifold concept, which bridges the surrogate-based and importance sampling (IS) yield estimation methods. We then derive a sub-optimal manifold, optimal hypersphere, which leads to an efficient sampling method being aware of the failure boundary called onion sampling. Finally, we use a neural coupling flow (which learns from samples like a surrogate model) as the IS proposal distribution. These combinations give rise to a novel yield estimation method, named Optimal Manifold Important Sampling (OPTIMIS), which keeps the advantages of the surrogate and IS methods to deliver state-of-the-art performance with robustness and consistency, with up to 3.5x in efficiency and 3x in accuracy over the best of SOTA methods in High-dimensional SRAM evaluation.
翻訳日:2023-08-01 19:34:52 公開日:2023-07-28
# 浅いReLUネットワークによる重み付き変動空間と近似

Weighted variation spaces and approximation by shallow ReLU networks ( http://arxiv.org/abs/2307.15772v1 )

ライセンス: Link先を確認
Ronald DeVore, Robert D. Nowak, Rahul Parhi, and Jonathan W. Siegel(参考訳) 境界領域 $\Omega\subset \mathbb{R}^d$ 上の関数 $f$ の近似を,幅 $n$ の単層ReLUニューラルネットワークの出力により検討する。 この非線形$n$項辞書近似は、ニューラルネットワーク近似(NNA)の最も単純な場合であるため、非常に研究されている。 この形式のNNAにはいくつかの有名な近似結果があり、$\Omega$に関数の新しいモデルクラスを導入し、近似レートは次元の呪いを避ける。 これらの新しいクラスはバロンクラスを含み、スパルシティやラドンドメインbvクラスのようなバリエーションに基づくクラスである。 本稿では、これらのドメイン上の新しいモデルクラスを$\Omega$で定義する。 これらのモデルクラスの現在の定義はドメイン$\Omega$に依存しない。 ドメイン上のモデルクラスの新しいより適切な定義は、重み付き変分空間の概念を導入することによって与えられる。 これらの新しいモデルクラスはドメイン自体に固有のものです。 これらの新しいモデルクラスの重要性は、それらが古典的な(ドメインに依存しない)クラスよりも厳密に大きいことである。 しかし、彼らは同じNNAレートを維持している。

We investigate the approximation of functions $f$ on a bounded domain $\Omega\subset \mathbb{R}^d$ by the outputs of single-hidden-layer ReLU neural networks of width $n$. This form of nonlinear $n$-term dictionary approximation has been intensely studied since it is the simplest case of neural network approximation (NNA). There are several celebrated approximation results for this form of NNA that introduce novel model classes of functions on $\Omega$ whose approximation rates avoid the curse of dimensionality. These novel classes include Barron classes, and classes based on sparsity or variation such as the Radon-domain BV classes. The present paper is concerned with the definition of these novel model classes on domains $\Omega$. The current definition of these model classes does not depend on the domain $\Omega$. A new and more proper definition of model classes on domains is given by introducing the concept of weighted variation spaces. These new model classes are intrinsic to the domain itself. The importance of these new model classes is that they are strictly larger than the classical (domain-independent) classes. Yet, it is shown that they maintain the same NNA rates.
翻訳日:2023-08-01 19:34:32 公開日:2023-07-28
# Hydra効果: 言語モデル計算における創発的自己修復

The Hydra Effect: Emergent Self-repair in Language Model Computations ( http://arxiv.org/abs/2307.15771v1 )

ライセンス: Link先を確認
Thomas McGrath, Matthew Rahtz, Janos Kramar, Vladimir Mikulik, Shane Legg(参考訳) 因果解析を用いて言語モデル計算の内部構造を調査し,(1)言語モデルの1つの注意層のアブレーションが他のレイヤを補償する(Hydra効果と呼ぶ)適応計算の形式,(2)最大形トークンのダウンレギュレーションに作用する後期MLP層の逆バランシング関数の2つのモチーフを示す。 私たちのアブレーション研究は、言語モデル層が一般的に比較的疎結合であることを示している(一つの層へのアブレーションは少数の下流層にのみ影響する)。 驚くべきことに、これらの効果はドロップアウトのない言語モデルでも起こります。 これらの影響を事実リコールの文脈で分析し,言語モデルにおける回路レベルの帰属に対する影響を検討する。

We investigate the internal structure of language model computations using causal analysis and demonstrate two motifs: (1) a form of adaptive computation where ablations of one attention layer of a language model cause another layer to compensate (which we term the Hydra effect) and (2) a counterbalancing function of late MLP layers that act to downregulate the maximum-likelihood token. Our ablation studies demonstrate that language model layers are typically relatively loosely coupled (ablations to one layer only affect a small number of downstream layers). Surprisingly, these effects occur even in language models trained without any form of dropout. We analyse these effects in the context of factual recall and consider their implications for circuit-level attribution in language models.
翻訳日:2023-08-01 19:34:16 公開日:2023-07-28
# CHATREPORT: LLMツールによるサステナビリティ開示分析の民主化

CHATREPORT: Democratizing Sustainability Disclosure Analysis through LLM-based Tools ( http://arxiv.org/abs/2307.15770v1 )

ライセンス: Link先を確認
Jingwei Ni, Julia Bingler, Chiara Colesanti-Senni, Mathias Kraus, Glen Gostlow, Tobias Schimanski, Dominik Stammbach, Saeid Ashraf Vaghefi, Qian Wang, Nicolas Webersinke, Tobias Wekhof, Tingyu Yu, Markus Leippold(参考訳) 気候変動に直面した企業は、より持続可能な運用に向けて大きな一歩を踏み出しているのだろうか? 包括的な答えは、企業サステナビリティレポートの密集した情報豊富な状況にある。 しかし、これらの報告の量と複雑さにより、人間の分析は非常にコストがかかる。 したがって、これらのレポートを大規模に分析するリソースを持つ組織は世界中でわずかであり、持続可能性レポートの透明性の欠如につながっている。 LLMベースの自動分析ツールによる利害関係者の強化は、サステナビリティレポート分析を民主化する上で有望な方法である。 しかし,1)LLMの幻覚化,2)AI開発ループにドメインエキスパートを巻き込む非効率性のため,そのようなツールの開発は困難である。 本稿では,企業サステナビリティレポートの分析を自動化する新しいllmベースのシステムであるchatreportについて,(1)幻覚の害を軽減し,(2)開発ループにドメイン専門家を積極的に関与させることで,既存の課題を解決する。 提案手法,注釈付きデータセット,および1015件のレポートを公開して分析する。

In the face of climate change, are companies really taking substantial steps toward more sustainable operations? A comprehensive answer lies in the dense, information-rich landscape of corporate sustainability reports. However, the sheer volume and complexity of these reports make human analysis very costly. Therefore, only a few entities worldwide have the resources to analyze these reports at scale, which leads to a lack of transparency in sustainability reporting. Empowering stakeholders with LLM-based automatic analysis tools can be a promising way to democratize sustainability report analysis. However, developing such tools is challenging due to (1) the hallucination of LLMs and (2) the inefficiency of bringing domain experts into the AI development loop. In this paper, we ChatReport, a novel LLM-based system to automate the analysis of corporate sustainability reports, addressing existing challenges by (1) making the answers traceable to reduce the harm of hallucination and (2) actively involving domain experts in the development loop. We make our methodology, annotated datasets, and generated analyses of 1015 reports publicly available.
翻訳日:2023-08-01 19:34:01 公開日:2023-07-28
# DARSAN: NFTマーケットプレースに適した分散レビューシステム

DARSAN: A Decentralized Review System Suitable for NFT Marketplaces ( http://arxiv.org/abs/2307.15768v1 )

ライセンス: Link先を確認
Sulyab Thottungal Valapu, Tamoghna Sarkar, Jared Coleman, Anusha Avyukt, Hugo Embrechts, Dimitri Torfs, Michele Minelli, Bhaskar Krishnamachari(参考訳) 非フランジブルトークン(nft)マーケットプレース向けに設計された分散レビューシステムであるdarsanを導入することで,不偏レビューのインセンティブを与えることで,信頼性の高い製品の品質を検証することの課題を解決する。 DARSANは、客観的な人気を正確に予測し、NFTと一意に関連付けられた資産の主観的品質を評価することができるレビューアのグループ(「専門家」と呼ばれる)を反復的に選択することで機能する。 システムは2段階のレビュープロセスから成り、専門家だけが製品をレビューできる‘pre-listing’フェーズと、システムのレビュアーが製品をレビューできる‘`pre-sale’フェーズである。 販売が完了すると、DARSANは参加者にインセンティブを配布し、専門家と非専門家の両方のパフォーマンスに基づいて次世代の専門家を選定する。 我々はdarsanをシミュレーションによって評価し,まず最初に選択した専門家をブートストラップすると,真面目なレビュアーを好み,潜在的に悪質な参加者がいる場合でも外部の介入をすることなく,専門家プールの品質を時間とともに向上させることを示した。

We introduce DARSAN, a decentralized review system designed for Non-Fungible Token (NFT) marketplaces, to address the challenge of verifying the quality of highly resalable products with few verified buyers by incentivizing unbiased reviews. DARSAN works by iteratively selecting a group of reviewers (called ``experts'') who are likely to both accurately predict the objective popularity and assess some subjective quality of the assets uniquely associated with NFTs. The system consists of a two-phased review process: a ``pre-listing'' phase where only experts can review the product, and a ``pre-sale'' phase where any reviewer on the system can review the product. Upon completion of the sale, DARSAN distributes incentives to the participants and selects the next generation of experts based on the performance of both experts and non-expert reviewers. We evaluate DARSAN through simulation and show that, once bootstrapped with an initial set of appropriately chosen experts, DARSAN favors honest reviewers and improves the quality of the expert pool over time without any external intervention even in the presence of potentially malicious participants.
翻訳日:2023-08-01 19:33:42 公開日:2023-07-28
# 低回路2ビットゲートセットトモグラフィ

Two-Qubit Gate Set Tomography with Fewer Circuits ( http://arxiv.org/abs/2307.15767v1 )

ライセンス: Link先を確認
Kenneth M. Rudinger, Corey I. Ostrove, Stefan K. Seritan, Matthew D. Grace, Erik Nielsen, Robin J. Blume-Kohout, Kevin C. Young(参考訳) ゲートセットトモグラフィ(GST)は、ゲート、状態準備、測定を含む量子情報処理装置の量子論理演算のトモグラフィ再構成のための、自己整合的で高精度な方法である。 しかし、GSTの実験コストはキュービット数とともに指数関数的に増加する。 わずか2量子ビットでも特徴付けるため、標準のGST実験には数万の回路がある可能性があるため、プラットフォームにとって違法なコストがかかる。 GST実験は非常に過完全であるため、多くの回路を破棄することができる。 これにより、GSTのハイゼンベルクのようなスケーリングを精度良く維持しながら、GSTの実験コストが劇的に削減される。 我々は、GST回路の構造を利用して、どの回路が過剰であるかを決定する方法を示す。 実験結果の有効性を数値シミュレーションとフィッシャー情報を用いて確認する。 また,これらの技術が3量子GSTの展望に与える影響についても検討する。

Gate set tomography (GST) is a self-consistent and highly accurate method for the tomographic reconstruction of a quantum information processor's quantum logic operations, including gates, state preparations, and measurements. However, GST's experimental cost grows exponentially with qubit number. For characterizing even just two qubits, a standard GST experiment may have tens of thousands of circuits, making it prohibitively expensive for platforms. We show that, because GST experiments are massively overcomplete, many circuits can be discarded. This dramatically reduces GST's experimental cost while still maintaining GST's Heisenberg-like scaling in accuracy. We show how to exploit the structure of GST circuits to determine which ones are superfluous. We confirm the efficacy of the resulting experiment designs both through numerical simulations and via the Fisher information for said designs. We also explore the impact of these techniques on the prospects of three-qubit GST.
翻訳日:2023-08-01 19:33:19 公開日:2023-07-28
# 再現性に関する教訓:材料科学におけるNLP研究から

Lessons in Reproducibility: Insights from NLP Studies in Materials Science ( http://arxiv.org/abs/2307.15759v1 )

ライセンス: Link先を確認
Xiangyun Lei, Edward Kim, Viktoriia Baibakova, Shijing Sun(参考訳) 人工知能における基礎的な分野である自然言語処理(nlp)は、材料科学の文学の分野でますます活用されている。 本研究は,kimらによる"machine-learned and codified synthesis parameters of oxide materials"と,tshitoyanらによる"unsupervised word embeddeds capture latent knowledge from materials science literature"という2つの先駆的著作の再現性解析を行っている。 我々は,これらの研究を再現性の観点から理解し,材料情報学の分野に重要な影響を与えることを認識し,それらを理解することを目的としている。 両論文とも、完全なワークフロー、丁寧で文書化されたコードベース、モデル評価のための明確なガイダンスを提供している。 これにより、結果の再現が成功し、部分的に結果の再現が容易になる。 そこで彼らは、将来の資料科学の出版物に対する賞賛すべき基準を設定した。 しかし、我々の分析では、著作権が許すトレーニングデータへのアクセス、モデルアーキテクチャとトレーニングプロセスの透明性の向上、ソフトウェア依存バージョン仕様など、改善すべき領域も強調している。 また, 論文間の単語埋め込みモデルの比較を行い, 再現性とクロス互換性の重要な違いが, モデル自体の境界外の設計選択に起因していることを明らかにした。 本研究は, 材料科学におけるNLP分野における研究再現性実践のさらなる向上を提唱しながら, これらのセミナー論文によって設定されたベンチマークを高く評価する。 この理解と継続的な改善のバランスは、最終的にNLPと材料科学文学の交差する領域をエキサイティングな発見へと導く。

Natural Language Processing (NLP), a cornerstone field within artificial intelligence, has been increasingly utilized in the field of materials science literature. Our study conducts a reproducibility analysis of two pioneering works within this domain: "Machine-learned and codified synthesis parameters of oxide materials" by Kim et al., and "Unsupervised word embeddings capture latent knowledge from materials science literature" by Tshitoyan et al. We aim to comprehend these studies from a reproducibility perspective, acknowledging their significant influence on the field of materials informatics, rather than critiquing them. Our study indicates that both papers offered thorough workflows, tidy and well-documented codebases, and clear guidance for model evaluation. This makes it easier to replicate their results successfully and partially reproduce their findings. In doing so, they set commendable standards for future materials science publications to aspire to. However, our analysis also highlights areas for improvement such as to provide access to training data where copyright restrictions permit, more transparency on model architecture and the training process, and specifications of software dependency versions. We also cross-compare the word embedding models between papers, and find that some key differences in reproducibility and cross-compatibility are attributable to design choices outside the bounds of the models themselves. In summary, our study appreciates the benchmark set by these seminal papers while advocating for further enhancements in research reproducibility practices in the field of NLP for materials science. This balance of understanding and continuous improvement will ultimately propel the intersecting domains of NLP and materials science literature into a future of exciting discoveries.
翻訳日:2023-08-01 19:33:05 公開日:2023-07-28
# 双線型電磁場による$\mathbb{R}^N$上の非線形シュリンガー方程式の短時間制御性

Small-time controllability for the nonlinear Schr\"odinger equation on $\mathbb{R}^N$ via bilinear electromagnetic fields ( http://arxiv.org/abs/2307.15819v1 )

ライセンス: Link先を確認
Alessandro Duca and Eugenio Pozzoli(参考訳) 非線形 schr\"odinger 方程式 (nls) の磁気場と電場の存在下で $\r^n$ 上の小さな時間制御可能性問題に対処する。 方程式が $i\partial_t \psi = [-\Delta+u_0(t)h_{\vec{0}}+\la u(t), P\ra +\kappa|\psi|^{2p}]\psi$ となる特定のフレームワークを選択した。 ここで、制御作用素はゼロのエルミート函数 $h_{\vec{0}}(x)$ と運動量作用素 $P=i\grad$ で定義される。 詳細は、十分に大きな制御信号$u_0$および$u$を介して、所望の速さで(NLS)のダイナミクスを制御できることについて検討する。 まず、この性質が検証される量子状態の族の存在を示す。 第二に、この族に属するいくつかの特定の状態を考えることにより、時間 0 において量子系の任意のエネルギー変化を正確に制御できる可能性を示す。 この結果は,(nls)における非線形項は,所望の時間に限り小さい場合の線形問題の摂動である,という考え方を生かして証明される。 証明の中核は双線型方程式の可制御性であり、無限次元プロパゲータの特定の非可換性を用いて取り組まれる。

We address the small-time controllability problem for a nonlinear Schr\"odinger equation (NLS) on $\R^N$ in presence of magnetic and electric external fields. We chose a particular framework where the equation becomes $i\partial_t \psi = [-\Delta+u_0(t)h_{\vec{0}}+\la u(t), P\ra +\kappa|\psi|^{2p}]\psi$. Here, the control operators are defined by the zeroth Hermite function $h_{\vec{0}}(x)$ and the momentum operator $P=i\grad$. In detail, we study when it is possible to control the dynamics of (NLS) as fast as desired via sufficiently large control signals $u_0$ and $u$. We firstly show the existence of a family of quantum states for which this property is verified. Secondly, by considering some specific states belonging to this family, as a main physical implication we show the possibility of controlling precisely any arbitrary change of energy in the quantum system, in time zero. Our results are proved by exploiting the idea that the nonlinear term in (NLS) is only a perturbation of the linear problem when the time is as small as desired. The core of the proof, then, is the controllability of the bilinear equation which is tackled by using specific non-commutativity properties of infinite-dimensional propagators.
翻訳日:2023-08-01 19:27:50 公開日:2023-07-28
# rt-2: 視覚言語行動モデルによるweb知識のロボット制御

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control ( http://arxiv.org/abs/2307.15818v1 )

ライセンス: Link先を確認
Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, and Brianna Zitkovich(参考訳) 我々は,インターネットスケールデータにトレーニングされた視覚言語モデルが,エンドツーエンドロボット制御に直接組み込まれ,一般化を促進し,創発的な意味的推論を可能にする方法について検討する。 私たちのゴールは、単一エンドツーエンドのトレーニングモデルで、ロボットの観察をアクションにマッピングし、Webから言語や視覚言語のデータに基づいて大規模な事前学習を行うことのメリットを享受することにあります。 そこで本研究では,ロボット軌道データと視覚質問応答などのインターネット規模の視覚言語タスクの両面から,最先端の視覚言語モデルを構築することを提案する。 自然言語応答とロボット動作の両方を同じフォーマットに適合させるために、アクションをテキストトークンとして表現し、それらを自然言語トークンと同じようにモデルのトレーニングセットに直接組み込む。 このようなモデルのカテゴリを視覚言語アクションモデル(VLA)と呼び、RT-2と呼ぶモデルの一例をインスタンス化する。 広範評価(6k評価試験)により,本手法はロボットの動作性向上に寄与し,RT-2がインターネット規模のトレーニングから創発的能力の獲得を可能にした。 これには、新しいオブジェクトへの一般化が大幅に改善され、ロボットのトレーニングデータに存在しないコマンド(特定の番号やアイコンにオブジェクトを配置するなど)を解釈する能力、ユーザコマンド(最小または最大のオブジェクトを拾い上げる、または他のオブジェクトに最も近いもの)に対する初歩的な推論を行う能力が含まれる。 さらに,rt-2の連鎖的思考推論により,即興ハンマー(岩)として使用する物体や,疲れた人(エナジードリンク)に最適な飲み物など,rt-2が多段階的な意味的推論を行うことができることを示した。

We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning. Our goal is to enable a single end-to-end trained model to both learn to map robot observations to actions and enjoy the benefits of large-scale pretraining on language and vision-language data from the web. To this end, we propose to co-fine-tune state-of-the-art vision-language models on both robotic trajectory data and Internet-scale vision-language tasks, such as visual question answering. In contrast to other approaches, we propose a simple, general recipe to achieve this goal: in order to fit both natural language responses and robotic actions into the same format, we express the actions as text tokens and incorporate them directly into the training set of the model in the same way as natural language tokens. We refer to such category of models as vision-language-action models (VLA) and instantiate an example of such a model, which we call RT-2. Our extensive evaluation (6k evaluation trials) shows that our approach leads to performant robotic policies and enables RT-2 to obtain a range of emergent capabilities from Internet-scale training. This includes significantly improved generalization to novel objects, the ability to interpret commands not present in the robot training data (such as placing an object onto a particular number or icon), and the ability to perform rudimentary reasoning in response to user commands (such as picking up the smallest or largest object, or the one closest to another object). We further show that incorporating chain of thought reasoning allows RT-2 to perform multi-stage semantic reasoning, for example figuring out which object to pick up for use as an improvised hammer (a rock), or which type of drink is best suited for someone who is tired (an energy drink).
翻訳日:2023-08-01 19:27:25 公開日:2023-07-28
# マルチグロースステージ植物認識:綿花におけるアマランサ(amaranthus palmeri)の事例

Multi-growth stage plant recognition: a case study of Palmer amaranth (Amaranthus palmeri) in cotton (Gossypium hirsutum) ( http://arxiv.org/abs/2307.15816v1 )

ライセンス: Link先を確認
Guy RY Coleman, Matthew Kutugata, Michael J Walsh, Muthukumar Bagavathiannan(参考訳) 多くの高度な画像ベースの精密農業技術が、高度に可変な形態的成長段階における植物の検出と表現の信頼性にかかっている。 畳み込みニューラルネットワーク(CNN)は、イメージベースの植物表現型認識と雑草認識を約束しているが、その成長段階を認識する能力は、しばしば外観の相違を伴う。 アマランチュス・パルミリ(Amaranthus palmeri、Palmer amaranth)は、綿花(Gossypium hirsutum)の生産において特に困難な雑草植物であり、成長期の成長段階と、高い遺伝的多様性による特定の成長段階の植物の間で高度に変動する植物形態を示す。 本稿では,綿花中のA. palmeriの8クラス成長段階認識を,YOLOアーキテクチャの挑戦モデルとして検討する。 YOLO v3, v5, v6, v6 3.0, v7, v8の26種類のアーキテクチャを, A. palmeriの8クラスの成長段階データセットで比較した。 すべての成長段階のクラスを認識できる最も高いmAP@[0.5:0.95]は、v8-Xで47.34%、視覚的に類似した成長段階にクラス間の混乱があった。 すべての成長段階が単一のクラスとしてグループ化され、v7-Originalにより67.05%の最大平均精度(mAP@[0.5:0.95])で性能が向上した。 最大81.42%のリコールはv5-Xで達成され、89.72%の精度はv8-Xで達成された。 クラスアクティベーションマップ(CAM)は、複雑なデータセットのモデル注意を理解するために用いられた。 視覚的あるいはサイズによってグループ化されたクラスが少ないため、ゼロトゥルース8クラスのデータセットのパフォーマンスが向上した。 成長ステージ検出の成功は、植物表現型や雑草認識技術をオープンソースのオブジェクト検出アーキテクチャで改善する大きな機会を浮き彫りにしている。

Many advanced, image-based precision agricultural technologies for plant breeding, field crop research, and site-specific crop management hinge on the reliable detection and phenotyping of plants across highly variable morphological growth stages. Convolutional neural networks (CNNs) have shown promise for image-based plant phenotyping and weed recognition, but their ability to recognize growth stages, often with stark differences in appearance, is uncertain. Amaranthus palmeri (Palmer amaranth) is a particularly challenging weed plant in cotton (Gossypium hirsutum) production, exhibiting highly variable plant morphology both across growth stages over a growing season, as well as between plants at a given growth stage due to high genetic diversity. In this paper, we investigate eight-class growth stage recognition of A. palmeri in cotton as a challenging model for You Only Look Once (YOLO) architectures. We compare 26 different architecture variants from YOLO v3, v5, v6, v6 3.0, v7, and v8 on an eight-class growth stage dataset of A. palmeri. The highest mAP@[0.5:0.95] for recognition of all growth stage classes was 47.34% achieved by v8-X, with inter-class confusion across visually similar growth stages. With all growth stages grouped as a single class, performance increased, with a maximum mean average precision (mAP@[0.5:0.95]) of 67.05% achieved by v7-Original. Single class recall of up to 81.42% was achieved by v5-X, and precision of up to 89.72% was achieved by v8-X. Class activation maps (CAM) were used to understand model attention on the complex dataset. Fewer classes, grouped by visual or size features improved performance over the ground-truth eight-class dataset. Successful growth stage detection highlights the substantial opportunity for improving plant phenotyping and weed recognition technologies with open-source object detection architectures.
翻訳日:2023-08-01 19:26:46 公開日:2023-07-28
# Hess et al へのコメント。 Phys Rev. Lett. {\displaystyle {\bf 130},207001 (2023)

Comment on Hess et al. Phys. Rev. Lett. {\bf 130}, 207001 (2023) ( http://arxiv.org/abs/2307.15813v1 )

ライセンス: Link先を確認
A. Antipov, W. Cole, K. Kalashnikov, F. Karimi, R. Lutchyn, C. Nayak, D. Pikulin, G. Winkler(参考訳) 本稿では,Hess et alで導入されたモデルについて述べる。 Phys Rev. Lett. bf 130, 207001 (2023) は位相的ギャッププロトコル (TGP) (Pikulin et al., arXiv:2103.12217, M. Aghaee et al., Phys) に失敗する。 a b 107, 245424 (2023)。 さらに,このモデルについて,tgpのベンチマーク方法について,より広い文脈で論じる。

In this comment, we show that the model introduced in Hess et al. Phys. Rev. Lett. {\bf 130}, 207001 (2023) fails the topological gap protocol (TGP) (Pikulin et al., arXiv:2103.12217 and M. Aghaee et al., Phys. Rev. B 107, 245424 (2023)). In addition, we discuss this model in the broader context of how the TGP has been benchmarked.
翻訳日:2023-08-01 19:26:04 公開日:2023-07-28
# iotデバイスと機械学習を用いた産業機械の異常検出:体系的マッピング

Anomaly Detection in Industrial Machinery using IoT Devices and Machine Learning: a Systematic Mapping ( http://arxiv.org/abs/2307.15807v1 )

ライセンス: Link先を確認
S\'ergio F. Chevtchenko, Elisson da Silva Rocha, Monalisa Cristina Moura Dos Santos, Ricardo Lins Mota, Diego Moura Vieira, Ermeson Carneiro de Andrade, Danilo Ricardo Barbosa de Ara\'ujo(参考訳) 異常検出はスマート産業において、機器故障の防止、ダウンタイムの低減、安全性の向上に不可欠である。 IoT(Internet of Things)は、産業機械からの大量のデータ収集を可能にし、異常検出のための豊富な情報ソースを提供する。 しかし、モノのインターネットによって生成されるデータの量と複雑さは、人間が手動で異常を検出するのを困難にしている。 機械学習(ML)アルゴリズムは、生成されたデータを分析して、産業機械の異常検出を自動化する。 さらに、それぞれのテクニックには、データの性質と対応するシステムに基づいて、特定の強みと弱みがある。 しかし、現在の異常検出に関する体系的マッピング研究は、主にネットワークやサイバーセキュリティ関連の問題に焦点をあてており、産業部門への注意が限定されている。 さらに、これらの研究は、IoTエコシステムのコンテキスト内で産業機械の異常検出にMLを使用する際の課題をカバーしていない。 本稿では,IoTデバイスとMLアルゴリズムを用いた産業機械の異常検出の系統的マッピングを行い,このギャップに対処する。 この研究は、2016年から2023年までの84の関連研究を包括的に評価し、異常検出研究の広範なレビューを提供する。 以上より,最も一般的なアルゴリズム,前処理技術,センサタイプを特定する。 さらに、本レビューでは、応用分野を特定し、今後の課題と研究の機会を論じる。

Anomaly detection is critical in the smart industry for preventing equipment failure, reducing downtime, and improving safety. Internet of Things (IoT) has enabled the collection of large volumes of data from industrial machinery, providing a rich source of information for Anomaly Detection. However, the volume and complexity of data generated by the Internet of Things ecosystems make it difficult for humans to detect anomalies manually. Machine learning (ML) algorithms can automate anomaly detection in industrial machinery by analyzing generated data. Besides, each technique has specific strengths and weaknesses based on the data nature and its corresponding systems. However, the current systematic mapping studies on Anomaly Detection primarily focus on addressing network and cybersecurity-related problems, with limited attention given to the industrial sector. Additionally, these studies do not cover the challenges involved in using ML for Anomaly Detection in industrial machinery within the context of the IoT ecosystems. This paper presents a systematic mapping study on Anomaly Detection for industrial machinery using IoT devices and ML algorithms to address this gap. The study comprehensively evaluates 84 relevant studies spanning from 2016 to 2023, providing an extensive review of Anomaly Detection research. Our findings identify the most commonly used algorithms, preprocessing techniques, and sensor types. Additionally, this review identifies application areas and points to future challenges and research opportunities.
翻訳日:2023-08-01 19:25:51 公開日:2023-07-28
# ガウスデータを超えた単一指数モデルについて

On Single Index Models beyond Gaussian Data ( http://arxiv.org/abs/2307.15804v1 )

ライセンス: Link先を確認
Joan Bruna, Loucas Pillaud-Vivien and Aaron Zweig(参考訳) 細かな高次元関数は、浅層ニューラルネットワークを用いて勾配差法の振る舞いを研究するためのリッチなフレームワークとして生まれ、線形モデルを超えて特徴学習を行う能力を示している。 最も単純な関数は単射モデル $f(x) = \phi(x \cdot \theta^*)$ であり、入力データの未知の1次元射影に対して任意の非線形スカラーリンク関数 $\phi$ によってラベルが生成される。 ガウスデータに焦点を合わせることで、最近のいくつかの研究は、いわゆる情報指数(リンク関数の正規性に関連する)が必要なサンプル複雑性を制御する、驚くべき図を構築した。 本質的にこれらのツールはガウス分布の安定性と球対称を利用する。 本研究は, \cite{arous2020online} の枠組みに基づいて,安定性と対称性の両方に違反するガウス集合を超えて,この図の拡張を考察する。 確率的勾配降下は, 従来の研究を拡張させた仮定の下で, 確率的勾配降下が高次元環境において, 未知の方向$\theta^*$ を効率的に回収できることを示す。

Sparse high-dimensional functions have arisen as a rich framework to study the behavior of gradient-descent methods using shallow neural networks, showcasing their ability to perform feature learning beyond linear models. Amongst those functions, the simplest are single-index models $f(x) = \phi( x \cdot \theta^*)$, where the labels are generated by an arbitrary non-linear scalar link function $\phi$ applied to an unknown one-dimensional projection $\theta^*$ of the input data. By focusing on Gaussian data, several recent works have built a remarkable picture, where the so-called information exponent (related to the regularity of the link function) controls the required sample complexity. In essence, these tools exploit the stability and spherical symmetry of Gaussian distributions. In this work, building from the framework of \cite{arous2020online}, we explore extensions of this picture beyond the Gaussian setting, where both stability or symmetry might be violated. Focusing on the planted setting where $\phi$ is known, our main results establish that Stochastic Gradient Descent can efficiently recover the unknown direction $\theta^*$ in the high-dimensional regime, under assumptions that extend previous works ~\cite{yehudai2020learning,wu2022learning}.
翻訳日:2023-08-01 19:25:32 公開日:2023-07-28
# 人間の評価フィードバックから学ぶプリミティブスキルに基づくロボット

Primitive Skill-based Robot Learning from Human Evaluative Feedback ( http://arxiv.org/abs/2307.15801v1 )

ライセンス: Link先を確認
Ayano Hiranaka, Minjune Hwang, Sharon Lee, Chen Wang, Li Fei-Fei, Jiajun Wu, Ruohan Zhang(参考訳) 強化学習(rl)アルゴリズムは、サンプルの非効率性や安全性の問題から、実環境におけるロボット操作タスクを扱う上で、大きな課題に直面している。 これらの課題を克服するために、人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習という2つのアプローチを活用する新しいフレームワークSEEDを提案する。 どちらのアプローチも、スパース報酬問題や長いホリゾンタスクに関わる複雑さに対処するのに特に効果的である。 これらの組み合わせにより、SEEDはRLHFに必要な人的労力を削減し、実世界の環境でRLでロボット操作を訓練する際の安全性を高める。 さらに、パラメータ化されたスキルは、エージェントのハイレベルな意図を明確に把握し、人間が実行前にスキルの選択を評価することを可能にする。 この機能はトレーニングプロセスをより安全で効率的にする。 本研究は,SEEDの性能を評価するために,5つの操作タスクを多種多様な複雑さで実験した。 以上の結果から,\algoname はサンプル効率と安全性において最先端の rl アルゴリズムを著しく上回っている。 加えて、SEEDは他のRLHF法と比較して、人間の労力を大幅に削減している。 詳細とビデオ結果はhttps://seediros23.github.io/で確認できる。

Reinforcement learning (RL) algorithms face significant challenges when dealing with long-horizon robot manipulation tasks in real-world environments due to sample inefficiency and safety issues. To overcome these challenges, we propose a novel framework, SEED, which leverages two approaches: reinforcement learning from human feedback (RLHF) and primitive skill-based reinforcement learning. Both approaches are particularly effective in addressing sparse reward issues and the complexities involved in long-horizon tasks. By combining them, SEED reduces the human effort required in RLHF and increases safety in training robot manipulation with RL in real-world settings. Additionally, parameterized skills provide a clear view of the agent's high-level intentions, allowing humans to evaluate skill choices before they are executed. This feature makes the training process even safer and more efficient. To evaluate the performance of SEED, we conducted extensive experiments on five manipulation tasks with varying levels of complexity. Our results show that \algoName significantly outperforms state-of-the-art RL algorithms in sample efficiency and safety. In addition, SEED also exhibits a substantial reduction of human effort compared to other RLHF methods. Further details and video results can be found at https://seediros23.github.io/.
翻訳日:2023-08-01 19:25:07 公開日:2023-07-28
# 要約, ハイライト, アクション項目:LCMを利用した会議リキャップシステムの設計, 実装, 評価

Summaries, Highlights, and Action items: Design, implementation and evaluation of an LLM-powered meeting recap system ( http://arxiv.org/abs/2307.15793v1 )

ライセンス: Link先を確認
Sumit Asthana, Sagih Hilleli, Pengcheng He, Aaron Halfaker(参考訳) 会議は作業の調整において重要なインフラ的役割を果たす。 近年、ハイブリッドワークやリモートワークへの移行により、オンラインのComputer Mediated Spacesに多くのミーティングが移行している。 これは、新しい問題(例えば、より活発なミーティングに費やす時間の増加)と新しい機会(例えば、自動書き起こし/カプセル化と再カプセル化のサポート)につながった。 対話要約のための大規模言語モデル(LLM)の最近の進歩は、個人の会議負荷を減らし、ミーティングアウトプットの明確化と整合性を高めることにより、ミーティングの経験を改善する可能性がある。 この可能性にもかかわらず、長い書き起こしとユーザのコンテキストに基づいて多様なリカバリニーズをキャプチャできないことによる技術的制限に直面している。 これらのギャップに対処するため、ミーティング・リキャップシステムの設計、実装、評価を行う。 まず、重要なハイライトと構造化された階層的な分ビューという、2つのsaient recap表現を概念化します。 対話要約を構成要素として表現を運用するシステムを開発した。 最後に,作業会議のコンテキストにおいて,7人のユーザによるシステムの有効性を評価する。 以上の結果から,LLMを用いた対話要約による会議の要約と,異なる文脈での両表現の必要性が示唆された。 しかし, LLM をベースとしたリキャップには, 参加者の個人的関係を理解していないこと, 重要な詳細を見逃しかねないこと, グループダイナミクスに有害な誤帰があることが判明した。 高品質なリキャップを可能にする共有リキャップドキュメントのようなコラボレーションの機会を特定します。 本稿では,人間関係や要約品質に関する制約を克服するために,AIシステムの設計とユーザとの連携によって,自然なインタラクションから学び,改善することの重要性について報告する。

Meetings play a critical infrastructural role in the coordination of work. In recent years, due to shift to hybrid and remote work, more meetings are moving to online Computer Mediated Spaces. This has led to new problems (e.g. more time spent in less engaging meetings) and new opportunities (e.g. automated transcription/captioning and recap support). Recent advances in large language models (LLMs) for dialog summarization have the potential to improve the experience of meetings by reducing individuals' meeting load and increasing the clarity and alignment of meeting outputs. Despite this potential, they face technological limitation due to long transcripts and inability to capture diverse recap needs based on user's context. To address these gaps, we design, implement and evaluate in-context a meeting recap system. We first conceptualize two salient recap representations -- important highlights, and a structured, hierarchical minutes view. We develop a system to operationalize the representations with dialogue summarization as its building blocks. Finally, we evaluate the effectiveness of the system with seven users in the context of their work meetings. Our findings show promise in using LLM-based dialogue summarization for meeting recap and the need for both representations in different contexts. However, we find that LLM-based recap still lacks an understanding of whats personally relevant to participants, can miss important details, and mis-attributions can be detrimental to group dynamics. We identify collaboration opportunities such as a shared recap document that a high quality recap enables. We report on implications for designing AI systems to partner with users to learn and improve from natural interactions to overcome the limitations related to personal relevance and summarization quality.
翻訳日:2023-08-01 19:24:44 公開日:2023-07-28
# 逆貯水池による非エルミタン皮膚効果

Reciprocal Reservoir Induced Non-Hermitian Skin Effect ( http://arxiv.org/abs/2307.15792v1 )

ライセンス: Link先を確認
Xin Li, Mohamed Al Begaowe, Shu Zhang and Benedetta Flebus(参考訳) 特定の境界における固有状態のマクロな分画の局在を記述する非エルミート皮膚効果(NHSE)は、本質的に非相互性に結びついている。 ここでは, NHSEは共振結合と共振結合の相互作用を通じて, 相互貯水池と相互作用するオープン磁気系で設計可能であることを示す。 リンドブラジアン時間発展に基づき、スピンチェーンとその一方向極限に沿った過渡的非相反ダイナミクスを考察し、非エルミートハミルトニアンアプローチの一貫性と限界の両方を明らかにすることができる。 半古典的散逸磁化力学との関係についてコメントし, 磁気システムにおけるNHSEの基礎となる重要な成分をDMI(Dzyaloshinskii-Moriya interaction)および多層磁性金属ヘテロ構造に類似した散逸結合と同定した。 我々の研究は、磁気系における非相反ダイナミクスの一般性を示し、他の量子プラットフォームにおける非相反性工学のための新しいスキームを刺激するかもしれない。

The non-Hermitian skin effect (NHSE), which describes the localization of macroscopic fraction of eigenstates at a specific boundary, is inherently tied to nonreciprocity. Here, we show that the NHSE can be engineered in an open magnetic system interacting with a reciprocal reservoir, through the interplay between the reservoir-induced coherent and dissipative couplings. Based on a Lindbladian time evolution, we investigate the transient nonreciprocal dynamics along a spin chain and its unidirectional limit, which allow us to reveal both consistency with and limitation of the non-Hermitian Hamiltonian approach. We comment on the connection to the semiclassical dissipative magnetization dynamics, and identify the key ingredients underlying the NHSE in magnetic systems as Dzyaloshinskii-Moriya interaction (DMI) and dissipative coupling, analogous to those in multi-layered magnet-metal heterostructures. Our work suggests the generality of nonreciprocal dynamics in magnetic systems and may inspire new schemes for engineering nonreciprocity in other quantum platforms.
翻訳日:2023-08-01 19:24:12 公開日:2023-07-28
# 技術労働者の組織:職業から労働活動への転換を理解する

Tech Worker Organizing: Understanding the shift from occupational to labor activism ( http://arxiv.org/abs/2307.15790v1 )

ライセンス: Link先を確認
JS Tan, Nataliya Nedzhvetskaya, Emily Mazo(参考訳) 一般的な説明では、技術系労働者が職業的活動主義として組織化しているのが特徴である。 しかし、技術系労働者は労働者のアイデンティティに頼って伝統的な労働組織にますます参加している。 この記事では、2017年から2022年にかけての、前者から後者への変換について紹介する。 この変化は、雇用主が労働関係をリセットできる技術産業の最近の景気後退の結果ではないことがわかりました。 むしろ、労働者による労働組織化の活発で創造的なパフォーマンス、すなわち技術労働者間のネットワークの組織化と専門知識の増加が示唆された。

Popular accounts have characterized tech worker organizing as occupational activism, a type of employee activism motivated by a social-mission oriented professional identity. However, tech workers are increasingly participating in traditional labor organizing relying on worker identity. Our article shows the transformation from the former to the latter between 2017-2022. We find that this shift was not the result of the recent economic downturn in the technology industry which allowed employers to reset labor relations. Rather we suggest it was the active and creative performance of labor organizing by workers, namely the increase in organizing networks and expertise among tech workers.
翻訳日:2023-08-01 19:23:50 公開日:2023-07-28
# 中性原子を用いた教師付き分類のための量子核推定--ゲートに基づくアプローチ

Quantum Kernel Estimation With Neutral Atoms For Supervised Classification: A Gate-Based Approach ( http://arxiv.org/abs/2307.15840v1 )

ライセンス: Link先を確認
Marco Russo, Edoardo Giusto, Bartolomeo Montrucchio(参考訳) 量子カーネル推定(Quantum Kernel Estimation, QKE)は、量子コンピュータを利用して計算が難しいカーネル関数を推定する手法である。 古典的にシミュレートするのが難しい特徴マッピングを実現するのに必要な2-局所演算子の数が多ければ、超伝導デバイスでは現在不可能である高量子ビット接続が必要となる。 このため、中性原子量子コンピュータは、より多くの自由度で原子を配置できるため、使用できる。 中立原子に基づくQKEの例は文献で見ることができるが、グラフ学習に焦点をあて、アナログアプローチを用いる。 本稿では,ゲートモデルに基づく一般的な手法を提案する。 レーザパルスから1量子ビット及び2量子ビットゲートを導出した後、3量子ビット上の特徴マッピングのためのパラメータ化シーケンスを実現する。 このシーケンスは、SVMのトレーニングに最終的に使用されるデータセットから始まるカーネル行列を経験的に計算するために使用される。 また、このプロセスは、この技術が許すより柔軟な原子配置を利用して、N量子ビットまで一般化できることも示されている。 小さいデータセットと低い分離にもかかわらず、精度が高いことが示されている。 ゲートの集合を明示的に導出するアルゴリズムを提案するだけでなく、ゲートモデルを用いた一般的な問題に対して中性原子デバイス上で量子カーネルを推定する方法も提案した最初の論文である。

Quantum Kernel Estimation (QKE) is a technique based on leveraging a quantum computer to estimate a kernel function that is classically difficult to calculate, which is then used by a classical computer for training a Support Vector Machine (SVM). Given the high number of 2-local operators necessary for realizing a feature mapping hard to simulate classically, a high qubit connectivity is needed, which is not currently possible on superconducting devices. For this reason, neutral atom quantum computers can be used, since they allow to arrange the atoms with more freedom. Examples of neutral-atom-based QKE can be found in the literature, but they are focused on graph learning and use the analogue approach. In this paper, a general method based on the gate model is presented. After deriving 1-qubit and 2-qubit gates starting from laser pulses, a parameterized sequence for feature mapping on 3 qubits is realized. This sequence is then used to empirically compute the kernel matrix starting from a dataset, which is finally used to train the SVM. It is also shown that this process can be generalized up to N qubits taking advantage of the more flexible arrangement of atoms that this technology allows. The accuracy is shown to be high despite the small dataset and the low separation. This is the first paper that not only proposes an algorithm for explicitly deriving a universal set of gates but also presents a method of estimating quantum kernels on neutral atom devices for general problems using the gate model.
翻訳日:2023-08-01 19:15:23 公開日:2023-07-28
# 機械学習におけるプライバシーと公平性の総合的調査

Holistic Survey of Privacy and Fairness in Machine Learning ( http://arxiv.org/abs/2307.15838v1 )

ライセンス: Link先を確認
Sina Shaham, Arash Hajisafi, Minh K Quan, Dinh C Nguyen, Bhaskar Krishnamachari, Charith Peris, Gabriel Ghinita, Cyrus Shahabi, Pubudu N. Pathirana(参考訳) プライバシと公正性は、責任ある人工知能(AI)と信頼できる機械学習(ML)の2つの重要な柱である。 それぞれの目的が文学の中で独立に研究され、その達成におけるユーティリティの損失を減らすことを目的としている。 学術と産業の両方から大きな関心が寄せられているにもかかわらず、これらの2つの目的がMLモデルにどのように同時に統合できるかを解明するために、より詳細な研究が必要である。 プライバシーの効用と公正の効用という、よく認められたトレードオフとは対照的に、プライバシーと公正の相互関係はよく理解されていない。 2つの目的関数間のトレードオフを示唆する研究もあるが、特定のシナリオにおけるこれらの関数のアライメントを示すものもある。 この研究ギャップを埋めるために、教師なし、教師なし、半教師なし、強化学習を含むMLのプライバシーと公正性の徹底的なレビューを提供する。 両目的の文献を整理し,両目的について検討した結果,プライバシが公平性に与える影響,公平性がプライバシに与える影響,既存のアーキテクチャ,アプリケーションドメインにおけるそれらのインタラクション,両目的を最小化しつつ両目的を達成することを目的としたアルゴリズムについて総合的な調査を行った。 最後に、MLにおけるプライバシと公平性を同時に達成する研究課題、特に大規模言語モデルに焦点を当てる。

Privacy and fairness are two crucial pillars of responsible Artificial Intelligence (AI) and trustworthy Machine Learning (ML). Each objective has been independently studied in the literature with the aim of reducing utility loss in achieving them. Despite the significant interest attracted from both academia and industry, there remains an immediate demand for more in-depth research to unravel how these two objectives can be simultaneously integrated into ML models. As opposed to well-accepted trade-offs, i.e., privacy-utility and fairness-utility, the interrelation between privacy and fairness is not well-understood. While some works suggest a trade-off between the two objective functions, there are others that demonstrate the alignment of these functions in certain scenarios. To fill this research gap, we provide a thorough review of privacy and fairness in ML, including supervised, unsupervised, semi-supervised, and reinforcement learning. After examining and consolidating the literature on both objectives, we present a holistic survey on the impact of privacy on fairness, the impact of fairness on privacy, existing architectures, their interaction in application domains, and algorithms that aim to achieve both objectives while minimizing the utility sacrificed. Finally, we identify research challenges in achieving privacy and fairness concurrently in ML, particularly focusing on large language models.
翻訳日:2023-08-01 19:14:58 公開日:2023-07-28
# データ不均一性を考慮したユーザレベルのプライバシによる平均推定

Mean Estimation with User-level Privacy under Data Heterogeneity ( http://arxiv.org/abs/2307.15835v1 )

ライセンス: Link先を確認
Rachel Cummings and Vitaly Feldman and Audra McMillan and Kunal Talwar(参考訳) 現代の多くのデータ分析タスクにおける重要な課題は、ユーザデータが異種であることです。 異なるユーザーは膨大な数のデータポイントを持っているかもしれない。 さらに重要なことに、すべてのユーザが同じディストリビューションからサンプルを採取しているとは考えられない。 これは、例えば言語データでは、異なる音声スタイルがデータの不均一性をもたらす。 本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの簡単なモデルを提案するとともに,ユーザレベルの差分プライバシーを保ちながら,人口レベルの平均値を推定する方法を提案する。 我々は、推定器の漸近的最適性を示し、また我々が導入する設定で達成可能な誤差の一般的な下界も証明する。

A key challenge in many modern data analysis tasks is that user data are heterogeneous. Different users may possess vastly different numbers of data points. More importantly, it cannot be assumed that all users sample from the same underlying distribution. This is true, for example in language data, where different speech styles result in data heterogeneity. In this work we propose a simple model of heterogeneous user data that allows user data to differ in both distribution and quantity of data, and provide a method for estimating the population-level mean while preserving user-level differential privacy. We demonstrate asymptotic optimality of our estimator and also prove general lower bounds on the error achievable in the setting we introduce.
翻訳日:2023-08-01 19:14:33 公開日:2023-07-28
# 分布群対称性の非パラメトリック仮説テスト

Non-parametric Hypothesis Tests for Distributional Group Symmetry ( http://arxiv.org/abs/2307.15834v1 )

ライセンス: Link先を確認
Kenny Chiu, Benjamin Bloem-Reddy(参考訳) 対称性は科学、機械学習、統計において中心的な役割を果たす。 データが対称性に従うことが知られている状況では、対称性を利用する多くの方法が開発されている。 しかし、一般群対称性の存在や欠如に関する統計的テストはほとんど存在しない。 この研究は、単一独立かつ同一に分布したサンプルに基づいて、特定の群の下で分布対称性の非パラメトリック仮説テストを定式化する。 2つの広い設定に適用可能な対称性のテストの一般的な定式化を提供する。 第1設定テストは、コンパクト群の作用の下での辺分布または接合分布の不変性である。 ここで、漸近的に偏りのないテストは、確率分布の空間と一様ランダムな群要素をサンプリングする能力の計算可能な計量のみを必要とする。 これに基づいて,条件付きモンテカルロ試験を提案し,有限個の観測値とモンテカルロサンプルを用いて正確な$p$値が得られることを示す。 2つ目の設定テストは、局所コンパクト群の作用の下で条件分布の不変あるいは同値である。 条件不変性や等分散性の試験は条件独立性の試験として定式化できることを示す。 カーネル手法を用いて両方の設定からこれらのテストを実行し、合成データについて経験的に研究する。 最後に、電磁衛星データにおける対称性のテストと高エネルギー粒子物理学の2つの問題に適用する。

Symmetry plays a central role in the sciences, machine learning, and statistics. For situations in which data are known to obey a symmetry, a multitude of methods that exploit symmetry have been developed. Statistical tests for the presence or absence of general group symmetry, however, are largely non-existent. This work formulates non-parametric hypothesis tests, based on a single independent and identically distributed sample, for distributional symmetry under a specified group. We provide a general formulation of tests for symmetry that apply to two broad settings. The first setting tests for the invariance of a marginal or joint distribution under the action of a compact group. Here, an asymptotically unbiased test only requires a computable metric on the space of probability distributions and the ability to sample uniformly random group elements. Building on this, we propose an easy-to-implement conditional Monte Carlo test and prove that it achieves exact $p$-values with finitely many observations and Monte Carlo samples. The second setting tests for the invariance or equivariance of a conditional distribution under the action of a locally compact group. We show that the test for conditional invariance or equivariance can be formulated as particular tests of conditional independence. We implement these tests from both settings using kernel methods and study them empirically on synthetic data. Finally, we apply them to testing for symmetry in geomagnetic satellite data and in two problems from high-energy particle physics.
翻訳日:2023-08-01 19:14:24 公開日:2023-07-28
# 対話形成:NPCインタラクションによるエージェントの強化

Dialogue Shaping: Empowering Agents through NPC Interaction ( http://arxiv.org/abs/2307.15833v1 )

ライセンス: Link先を確認
Wei Zhou, Xiangyu Peng, Mark Riedl(参考訳) 強化学習(RL)における大きな課題のひとつは、特にアクション空間が広いテキストベースのゲーム環境において、RLエージェントがトレーニングプロセスに収束し、最適なポリシーを学ぶ必要があることである。 しかし、NPC(Non-player character)はゲームに関するいくつかの重要な情報を保持しており、RLエージェントのトレーニングを高速化するのに役立つ可能性がある。 そこで本稿では,大規模言語モデル(LLM)を用いてNPCエージェントと対話し,キー情報を取得する方法を検討するとともに,知識グラフ(KG)とストーリーシェーピング(Story Shaping)を用いたRLエージェントのトレーニングを高速化する。

One major challenge in reinforcement learning (RL) is the large amount of steps for the RL agent needs to converge in the training process and learn the optimal policy, especially in text-based game environments where the action space is extensive. However, non-player characters (NPCs) sometimes hold some key information about the game, which can potentially help to train RL agents faster. Thus, this paper explores how to interact and converse with NPC agents to get the key information using large language models (LLMs), as well as incorporate this information to speed up RL agent's training using knowledge graphs (KGs) and Story Shaping.
翻訳日:2023-08-01 19:14:05 公開日:2023-07-28
# 時系列予測のためのリカレントニューラルネットワークの有効性を特徴付ける距離相関に基づくアプローチ

A Distance Correlation-Based Approach to Characterize the Effectiveness of Recurrent Neural Networks for Time Series Forecasting ( http://arxiv.org/abs/2307.15830v1 )

ライセンス: Link先を確認
Christopher Salazar and Ashis G. Banerjee(参考訳) 時系列予測は、逐次データを扱う能力から、recurrent neural networks(rnn)が広く使われているモデルの1つとして注目されている。 時系列予測のためのRNNの以前の研究は、異なるデータセットでパフォーマンスがなぜ異なるのかという限定的な洞察で結果が一致しない。 本稿では,距離相関の多元的尺度を用いて時系列の特徴とRNNの成分を関連付ける手法を提案する。 このメトリクスにより、RNNアクティベーション層を流れる情報の流れを調べて、それらの性能を解釈し、説明することができます。 rnn活性化層が時系列の遅延構造をよく学習できることを実証的に示す。 しかし、彼らは徐々にこの情報をいくつかの連続した層で失い、大きなラグ構造を持つシリーズの予測品質が悪化する。 また,アクティベーション層は移動平均およびヘテロスケダティック時系列過程を適切にモデル化できないことを示す。 最後に、ネットワークハイパーパラメータの異なる選択のためにアクティベーション層を視覚的に比較するためのヒートマップを生成し、どれが予測性能に影響するかを特定する。 その結果,ネットワークのトレーニングや評価を行なわずに,各時系列データに対するRNNの有効性を評価できることがわかった。

Time series forecasting has received a lot of attention with recurrent neural networks (RNNs) being one of the widely used models due to their ability to handle sequential data. Prior studies of RNNs for time series forecasting yield inconsistent results with limited insights as to why the performance varies for different datasets. In this paper, we provide an approach to link the characteristics of time series with the components of RNNs via the versatile metric of distance correlation. This metric allows us to examine the information flow through the RNN activation layers to be able to interpret and explain their performance. We empirically show that the RNN activation layers learn the lag structures of time series well. However, they gradually lose this information over a span of a few consecutive layers, thereby worsening the forecast quality for series with large lag structures. We also show that the activation layers cannot adequately model moving average and heteroskedastic time series processes. Last, we generate heatmaps for visual comparisons of the activation layers for different choices of the network hyperparameters to identify which of them affect the forecast performance. Our findings can, therefore, aid practitioners in assessing the effectiveness of RNNs for given time series data without actually training and evaluating the networks.
翻訳日:2023-08-01 19:13:51 公開日:2023-07-28
# イベントカメラでダイナミックオクルージョンの裏側を見る

Seeing Behind Dynamic Occlusions with Event Cameras ( http://arxiv.org/abs/2307.15829v1 )

ライセンス: Link先を確認
Rong Zou, Manasi Muglikar, Niko Messikommer, Davide Scaramuzza(参考訳) ほこり、ほこり、雨滴、雪などの望ましくないカメラの閉塞は、コンピュータビジョンシステムの性能を著しく低下させる可能性がある。 動的咬合は連続的な変化パターンのため特に困難である。 既存の咬合除去法は、現在合成開口イメージングまたは画像インパインティングを使用している。 しかし、背景強度を幻覚させるために複数の視点やユーザ生成マスクを必要とするため、ダイナミックオクルージョンの問題に直面している。 本研究では,動的閉塞の存在下での単一視点から背景を再構築する新しい手法を提案する。 私たちのソリューションは、従来のカメラとイベントカメラの組み合わせに初めて依存しています。 閉塞が背景画像を横切ると、強度の変化が起こり、イベントが引き起こされる。 これらのイベントは、前景と背景の間の相対的な強度変化を高い時間分解能で追加情報を提供し、背景コンテンツの真の再構築を可能にする。 我々は,このアプローチを評価するために,同期画像とイベントシーケンスからなる最初の大規模データセットを提案する。 提案手法は, データセット上のPSNRにおいて, 3dBによる画像の描画方法よりも優れていることを示す。

Unwanted camera occlusions, such as debris, dust, rain-drops, and snow, can severely degrade the performance of computer-vision systems. Dynamic occlusions are particularly challenging because of the continuously changing pattern. Existing occlusion-removal methods currently use synthetic aperture imaging or image inpainting. However, they face issues with dynamic occlusions as these require multiple viewpoints or user-generated masks to hallucinate the background intensity. We propose a novel approach to reconstruct the background from a single viewpoint in the presence of dynamic occlusions. Our solution relies for the first time on the combination of a traditional camera with an event camera. When an occlusion moves across a background image, it causes intensity changes that trigger events. These events provide additional information on the relative intensity changes between foreground and background at a high temporal resolution, enabling a truer reconstruction of the background content. We present the first large-scale dataset consisting of synchronized images and event sequences to evaluate our approach. We show that our method outperforms image inpainting methods by 3dB in terms of PSNR on our dataset.
翻訳日:2023-08-01 19:13:30 公開日:2023-07-28
# 量子計算の酸素還元反応シミュレーションへの適用性

Applicability of Quantum Computing to Oxygen Reduction Reaction Simulations ( http://arxiv.org/abs/2307.15823v1 )

ライセンス: Link先を確認
Cono Di Paola, Evgeny Plekhanov, Michal Krompiec, Chandan Kumar, Fengmin Du, Daniel Weber, Jasper Simon Krauser, Elvira Shishenina and David Mu\~noz Ramo(参考訳) 水素は低炭素で持続可能な移動手段として有望なエネルギー源であると考えられている。 しかし, 大規模導入には水素から電気への変換効率の向上が必要である。 電解酸素還元反応(ORR)の速度論は、プロトン交換膜燃料電池(PEMFC)の主要なボトルネックであり、新しい陰極材料の開発が最重要である。 新しい触媒の計算設計は開発時間を短縮することができるが、ORRポテンシャルエネルギー景観の複雑さのため、このプロセスの原子レベルのモデリングは困難である。 さらに、触媒種は強い電子相関を示し、密度汎関数理論(DFT)のような低コストの手法では厳密かつ正確に説明できない。 正確なab-initio法は、計算コストが高いため、伝統的にそのようなシステムには適用できないと考えられてきたが、量子コンピューティングの急速な進歩により、すぐに可能かもしれない。 そこで本研究では, 純白金および白金被覆コバルト面上のorrの古典的・量子論的計算を行い, 複雑な触媒問題に対する量子計算法の適用性を示す。 inquanto\textsuperscript{(tm)} で実装されたそのようなワークフローの実現可能性を示し、h1-1 トラップイオン量子コンピュータで実証する。 最も重要なことは、Pt/Co触媒上のORRは、将来の量子優位性の実証のための良い試験ケースである強相関種を含むことを示す。

Hydrogen is considered a promising energy source for low-carbon and sustainable mobility. However, for wide scale adoption, improvements in the efficiency of hydrogen-to-electricity conversion are required. The kinetics of the electrocatalytic oxygen reduction reaction (ORR) is the main bottleneck of proton-exchange membrane fuel cells (PEMFC), hence development of new cathode materials is of paramount importance. Computational design of new catalysts can shorten the development time, but, due to the complexity of the ORR potential energy landscape, atomistic-level modeling of this processes is challenging. Moreover, the catalytic species may exhibit strong electronic correlations, which cannot be rigorously and accurately described with low-cost methods such as Density Functional Theory (DFT). Accurate ab-initio methods have been traditionally considered not applicable to such systems due to their high computational cost, but this soon may be possible thanks to the rapid advances in quantum computing. Here, we present the first classical/quantum computational study of the ORR on both pure platinum and platinum-capped cobalt surface and show the applicability of quantum computing methods to a complex catalysis problem. We show the feasibility of such a workflow implemented in InQuanto\textsuperscript{(TM)} and demonstrate it on the H1-1 trapped-ion quantum computer. Most importantly, we show that ORR on Pt/Co catalyst involves strongly-correlated species which are good test cases for future demonstration of quantum advantage.
翻訳日:2023-08-01 19:13:14 公開日:2023-07-28
# VPP:Voxel-Pointプログレッシブ表現による効率的な条件付き3D生成

VPP: Efficient Conditional 3D Generation via Voxel-Point Progressive Representation ( http://arxiv.org/abs/2307.16605v1 )

ライセンス: Link先を確認
Zekun Qi, Muzhou Yu, Runpei Dong, Kaisheng Ma(参考訳) 条件付き3D生成は大きな進歩を遂げており、テキストや2D画像などの入力から3Dコンテンツを自由に作成することができる。 しかし、従来のアプローチでは推論効率が低く、生成カテゴリが限られ、下流のアプリケーションに制限があった。 本研究では,異なる3次元表現が生成品質と効率に与える影響を再考する。 本稿では,Voxel-Point Progressive Representation (VPP)によるプログレッシブ生成手法を提案する。 VPPは提案したVoxel Semantic Generatorにおける構造化ボクセル表現とPoint Upsamplerにおける非構造化点表現の空間性を活用し、マルチカテゴリオブジェクトの効率的な生成を可能にする。 VPPは0.2秒で高品質の8K点雲を生成することができる。 さらに、マスク付きジェネレーショントランスフォーマーは、生成、編集、完了、事前トレーニングなど、様々な3D下流タスクを可能にする。 広汎な実験により、VPPは様々なカテゴリにまたがって高忠実で多様な3次元形状を効率よく生成し、表現伝達性能も優れていた。 コードはhttps://github.com/qizekun/vppでリリースされる。

Conditional 3D generation is undergoing a significant advancement, enabling the free creation of 3D content from inputs such as text or 2D images. However, previous approaches have suffered from low inference efficiency, limited generation categories, and restricted downstream applications. In this work, we revisit the impact of different 3D representations on generation quality and efficiency. We propose a progressive generation method through Voxel-Point Progressive Representation (VPP). VPP leverages structured voxel representation in the proposed Voxel Semantic Generator and the sparsity of unstructured point representation in the Point Upsampler, enabling efficient generation of multi-category objects. VPP can generate high-quality 8K point clouds within 0.2 seconds. Additionally, the masked generation Transformer allows for various 3D downstream tasks, such as generation, editing, completion, and pre-training. Extensive experiments demonstrate that VPP efficiently generates high-fidelity and diverse 3D shapes across different categories, while also exhibiting excellent representation transfer performance. Codes will be released on https://github.com/qizekun/VPP.
翻訳日:2023-08-01 14:40:08 公開日:2023-07-28
# ASCII-Artに基づく横断的タスクによるChatGPTの理解度:ASCII-Artの認識と生成に関するGPT3.5の能力は、完全には欠落していない

Testing the Depth of ChatGPT's Comprehension via Cross-Modal Tasks Based on ASCII-Art: GPT3.5's Abilities in Regard to Recognizing and Generating ASCII-Art Are Not Totally Lacking ( http://arxiv.org/abs/2307.16806v1 )

ライセンス: Link先を確認
David Bayani(参考訳) リリースから8ヶ月にわたって、ChatGPTとその基盤となるモデルであるGPT3.5は、能力とアクセシビリティの強力な混在により、大きな注目を集めている。 これらのモデルが持つ能力の範囲を調査した、ニッチな論文が登場しているが、これらのネットワークから供給され抽出される情報は、自然言語テキストか、スタイリッシュなコードライクな言語である。 本研究は,真の人間レベルの知的エージェントが複数の信号モダリティにまたがる能力から着想を得たものである。本研究では,ARCIIアートとして提供される特徴内容の入力を,言語的な要約に含めることなく,GPT3.5の視覚的タスクに対する適性について検討する。 視覚設定に典型的な様々な変換後の画像認識タスクにおけるモデルの性能分析,画像部品の知識の検証,画像生成に関する課題について実験を行った。

Over the eight months since its release, ChatGPT and its underlying model, GPT3.5, have garnered massive attention, due to their potent mix of capability and accessibility. While a niche-industry of papers have emerged examining the scope of capabilities these models possess, the information fed to and extracted from these networks has been either natural language text or stylized, code-like language. Drawing inspiration from the prowess we expect a truly human-level intelligent agent to have across multiple signal modalities, in this work we examine GPT3.5's aptitude for visual tasks, where the inputs feature content provided as ASCII-art without overt distillation into a lingual summary. We conduct experiments analyzing the model's performance on image recognition tasks after various transforms typical in visual settings, trials investigating knowledge of image parts, and tasks covering image generation.
翻訳日:2023-08-01 13:31:53 公開日:2023-07-28
# 各種ジェットソンエッジデバイスにおけるベンチマーク異常検出システム

Benchmarking Anomaly Detection System on various Jetson Edge Devices ( http://arxiv.org/abs/2307.16834v1 )

ライセンス: Link先を確認
Hoang Viet Pham, Thinh Gia Tran, Chuong Dinh Le, An Dinh Le, Hien Bich Vo(参考訳) 監視ビデオから異常な出来事を捉えることは、市民の安全と幸福を高める。 EdgeAI(EdgeコンピューティングベースのArtificial Intelligent )のアプリケーションは、セキュリティの厳しいレイテンシ要件を満たす。 本稿では、エッジコンピューティング技術を用いて、監視カメラから端から端までの犯罪現場の異常検出システムに、ロバスト時間特徴量学習(RTFM)と呼ばれる弱教師付きビデオ異常検出を適用した。 このシステムは、複数のJetsonエッジデバイスで直接テストされ、NVIDIAのソフトウェア開発キットであるTensorRTと組み合わせてシステムパフォーマンスを向上する。 さまざまなJetson Edgeデバイスに,AIベースのシステムデプロイメントとDockerテクノロジを併用したエクスペリエンスも提供されている。 異常検出モデルは、UCF-CrimeやUIT VNAnomalyのような利用可能なデータセット上の他の最先端(SOTA)アルゴリズムと比較して、競合結果が得られる。 アプローチシステムは、Jetsonエッジデバイス上の毎秒47.56フレーム(FPS)の推論速度に到達し、RAM使用量は3.11GBである。 また、aiシステムが前バージョンのjetsonデバイスよりも15%優れた性能を実現し、50%のエネルギーを消費する有望なjetsonデバイスも発見する。

Capturing the abnormal event from surveillance videos enhances the safety and well-being of the citizens. The application of EdgeAI (Edge computing-based Artificial Intelligent ) meets the strict latency requirements for security. In this paper, we apply weakly supervised video anomaly detection called Robust Temporal Feature Magnitude Learning (RTFM) to an end-to-end crime-scene anomaly detection system from the surveillance cameras with the help of edge computing technology. The system is tested directly on multiple Jetson edge devices combined with TensorRT as the software developer kit from NVIDIA for system performance enhancement. The experience of an AI-based system deployment on various Jetson Edge devices with Docker technology is also provided. The anomaly detection model yields competitive results compared to other state-of-the-art (SOTA) algorithms on available datasets such as UCF-Crime and UIT VNAnomaly. The approach system reaches 47.56 frames per second (FPS) inference speed on a Jetson edge device with only 3.11 GB RAM usage total. We also discover the promising Jetson device that the AI system achieves 15% better performance than the previous version of Jetson devices while consuming 50% less energy power.
翻訳日:2023-08-01 13:20:26 公開日:2023-07-28
# 実世界のアノテーションシナリオにおける雑音型ラベル学習の再考

Rethinking Noisy Label Learning in Real-world Annotation Scenarios from the Noise-type Perspective ( http://arxiv.org/abs/2307.16889v1 )

ライセンス: Link先を確認
Renyu Zhu, Haoyu Liu, Runze Wu, Minmin Lin, Tangjie Lv, Changjie Fan, Haobo Wang(参考訳) 実世界のアノテーションシナリオにおける雑音ラベルを用いた学習の問題点について検討し,雑音を実環境騒音と曖昧性雑音の2種類に分類する。 そこで,これらのノイズタイプを識別し,その意味を活用すべく,雑音ラベル学習のための新しいサンプル選択に基づく手法proto-semiを提案する。 proto-semiは当初、すべてのサンプルをウォームアップを通じて、信頼できないデータセットに分割する。 自信のあるデータセットを活用することで、プロトタイプベクトルはクラス特性をキャプチャするために構築される。 その後、未確認サンプルとプロトタイプベクトルとの距離を算出し、ノイズ分類を容易にする。 これらの距離に基づいて、ラベルは修正または保持され、信頼性と信頼性の低いデータセットが洗練される。 最後に,訓練を強化するための半教師付き学習手法を提案する。 実世界の注釈付きデータセットの実証評価は、ノイズラベルから学習する問題の処理において、プロトセミの堅牢性を裏付ける。 一方,試作機によるリパーティショニング戦略はラベルノイズの悪影響を軽減するのに有効であることが示された。 私たちのコードとデータはhttps://github.com/fuxiailab/protosemiで入手できます。

We investigate the problem of learning with noisy labels in real-world annotation scenarios, where noise can be categorized into two types: factual noise and ambiguity noise. To better distinguish these noise types and utilize their semantics, we propose a novel sample selection-based approach for noisy label learning, called Proto-semi. Proto-semi initially divides all samples into the confident and unconfident datasets via warm-up. By leveraging the confident dataset, prototype vectors are constructed to capture class characteristics. Subsequently, the distances between the unconfident samples and the prototype vectors are calculated to facilitate noise classification. Based on these distances, the labels are either corrected or retained, resulting in the refinement of the confident and unconfident datasets. Finally, we introduce a semi-supervised learning method to enhance training. Empirical evaluations on a real-world annotated dataset substantiate the robustness of Proto-semi in handling the problem of learning from noisy labels. Meanwhile, the prototype-based repartitioning strategy is shown to be effective in mitigating the adverse impact of label noise. Our code and data are available at https://github.com/fuxiAIlab/ProtoSemi.
翻訳日:2023-08-01 13:02:43 公開日:2023-07-28
# GP誘導MPPIによる複雑クラッタ環境における効率的なナビゲーション

GP-guided MPPI for Efficient Navigation in Complex Unknown Cluttered Environments ( http://arxiv.org/abs/2307.04019v3 )

ライセンス: Link先を確認
Ihab S. Mohamed, Mahmoud Ali, and Lantao Liu(参考訳) センサー能力に制限のある未知のクラッタ環境におけるロボットナビゲーションは、ロボット工学において大きな課題となる。 モデル予測パスインターガル(MPPI)のような局所軌道最適化手法はこの課題に対して有望な解決策である。 しかし、特に困難な環境条件に遭遇したり、計画の地平線を越えて航行する場合には、効果的な航行を確保するために、グローバルな指導が必要である。 本研究では,Sparse Gaussian Process(SGP)に基づく局所認識モデルとMPPIを統合したオンライン学習型制御戦略GP-MPPIを提案する。 鍵となるアイデアは、SGPの学習能力を活用して分散(不確実性)表面を構築することで、ロボットはその周囲の移動可能な空間を学習し、提案されたサブゴールの集合を特定し、最終的に地元のMPPIプランナーに定義されたコスト関数を最小限に抑える最適なサブゴールを推奨する。 その後、MPPIはロボットと衝突回避制約を満たす最適制御シーケンスを計算する。 このようなアプローチは、環境のグローバルマップやオフラインのトレーニングプロセスの必要性を排除します。 複雑な環境下での2次元自律走行タスクのシミュレーションおよび実環境実験により提案した制御戦略の有効性とロバスト性を検証し,ロボットを目的に向かって安全に誘導する上での優位性を実証した。 追加ビデオを含むGP-MPPIのGPU実装はhttps://github.com/IhabMohamed/GP-MPPIで利用可能である。

Robotic navigation in unknown, cluttered environments with limited sensing capabilities poses significant challenges in robotics. Local trajectory optimization methods, such as Model Predictive Path Intergal (MPPI), are a promising solution to this challenge. However, global guidance is required to ensure effective navigation, especially when encountering challenging environmental conditions or navigating beyond the planning horizon. This study presents the GP-MPPI, an online learning-based control strategy that integrates MPPI with a local perception model based on Sparse Gaussian Process (SGP). The key idea is to leverage the learning capability of SGP to construct a variance (uncertainty) surface, which enables the robot to learn about the navigable space surrounding it, identify a set of suggested subgoals, and ultimately recommend the optimal subgoal that minimizes a predefined cost function to the local MPPI planner. Afterward, MPPI computes the optimal control sequence that satisfies the robot and collision avoidance constraints. Such an approach eliminates the necessity of a global map of the environment or an offline training process. We validate the efficiency and robustness of our proposed control strategy through both simulated and real-world experiments of 2D autonomous navigation tasks in complex unknown environments, demonstrating its superiority in guiding the robot safely towards its desired goal while avoiding obstacles and escaping entrapment in local minima. The GPU implementation of GP-MPPI, including the supplementary video, is available at https://github.com/IhabMohamed/GP-MPPI.
翻訳日:2023-08-01 11:16:34 公開日:2023-07-28
# 動的サイロ:Covid-19パンデミックにおける組織内通信網のモジュール性の向上

Dynamic Silos: Increased Modularity in Intra-organizational Communication Networks during the Covid-19 Pandemic ( http://arxiv.org/abs/2104.00641v6 )

ライセンス: Link先を確認
Tiona Zuzul, Emily Cox Pahnke, Jonathan Larson, Patrick Bourke, Nicholas Caurvina, Neha Parikh Shah, Fereshteh Amini, Jeffrey Weston, Youngser Park, Joshua Vogelstein, Christopher White, and Carey E. Priebe(参考訳) 世界中の職場でのコミュニケーションは、Covid-19や関連する在宅勤務、リモートワークの興隆によって大幅に変化した。 これらの変化を理解するために、世界中の4,361の組織で、360億以上のメールから収集された匿名化されたメタデータを分析した。 月ごとの計測値と年々の計測値を比較して,Covid-19前後のネットワークコミュニティ構造の変化を検討した。 また、単一のグローバル組織内で複数のコミュニケーションメディア(電子メール、インスタントメッセージ、ビデオ通話、カレンダーソフトウェア)にまたがるシフトを調べ、形式的な組織構造の変化によって引き起こされたコミュニケーションシフトと比較した。 2020年、世界中の組織が2019年よりサイロ化され、モジュラリティが向上していることがわかりました。 このシフトはサイロ内での安定性の低下と同時に行われた。 分析の結果,Covid-19の開始後,従業員はサブコミュニティ(チーム,ワークグループ,機能領域)間で動的に移行し始めた。 同時に、一度サブコミュニティに入ると、そのコミュニティの他のメンバーとのコミュニケーションが制限される。 これらのネットワーク変更を動的サイロと呼びます。 作業の未来に対する動的サイロの意味と意味に関する最初の洞察を提供する。

Workplace communications around the world were drastically altered by Covid-19, related work-from-home orders, and the rise of remote work. To understand these shifts, we analyzed aggregated, anonymized metadata from over 360 billion emails within 4,361 organizations worldwide. By comparing month-to-month and year-over-year metrics, we examined changes in network community structures over 24 months before and after Covid-19. We also examined shifts across multiple communication media (email, instant messages, video calls, and calendaring software) within a single global organization, and compared them to communications shifts that were driven by changes in formal organizational structure. We found that, in 2020, organizations around the world became more siloed than in 2019, evidenced by increased modularity. This shift was concurrent with decreased stability within silos. Collectively, our analyses indicate that following the onset of Covid-19, employees began to shift more dynamically between subcommunities (teams, workgroups or functional areas). At the same time, once in a subcommunity, they limited their communication to other members of that community. We term these network changes dynamic silos. We provide initial insights into the meaning and implications of dynamic silos for the future of work.
翻訳日:2023-07-31 17:05:52 公開日:2023-07-28
# 細粒度認識のためのフィッシャーベクトル符号化のエンドツーエンド学習

End-to-end Learning of a Fisher Vector Encoding for Part Features in Fine-grained Recognition ( http://arxiv.org/abs/2007.02080v2 )

ライセンス: Link先を確認
Dimitri Korsch, Paul Bodesheim, Joachim Denzler(参考訳) 細粒度認識のための部分的アプローチは、グローバルメソッドよりも期待される性能向上を示すものではないが、非常に類似したクラスを区別するのに関係のある小さな詳細に焦点を当てている。 部分的手法は局所的な特徴の欠如に悩まされ、部品の順序に不変であり、様々な可視部品を適切に扱うことができると仮定する。 部品の順序は人工的であり、しばしば接地アノテーションによってのみ与えられるが、視点の変化やオクルージョンは観測可能な部品ではない。 そこで本研究では,部分特徴のフィッシャーベクトル符号化を畳み込みニューラルネットワークに統合する。 このエンコーディングのパラメータは、ニューラルネットワークと共同でオンラインemアルゴリズムによって推定され、以前の作業の予測よりも正確である。 本手法は,3種類の鳥種分類データセットの最先端の精度を向上させる。

Part-based approaches for fine-grained recognition do not show the expected performance gain over global methods, although explicitly focusing on small details that are relevant for distinguishing highly similar classes. We assume that part-based methods suffer from a missing representation of local features, which is invariant to the order of parts and can handle a varying number of visible parts appropriately. The order of parts is artificial and often only given by ground-truth annotations, whereas viewpoint variations and occlusions result in not observable parts. Therefore, we propose integrating a Fisher vector encoding of part features into convolutional neural networks. The parameters for this encoding are estimated by an online EM algorithm jointly with those of the neural network and are more precise than the estimates of previous works. Our approach improves state-of-the-art accuracies for three bird species classification datasets.
翻訳日:2023-07-31 17:04:53 公開日:2023-07-28
# 実測QFT問題とQFTにおけるハイゼンベルク風切削の必要性

The Pragmatic QFT Measurement Problem and the need for a Heisenberg-like Cut in QFT ( http://arxiv.org/abs/2205.09608v2 )

ライセンス: Link先を確認
Daniel Grimmer(参考訳) 量子理論の顕著な成功にもかかわらず、多くの哲学者は理論と実験の間に重要なつながりがないことを心配している。 量子計測問題の一面として、実験的な予測を抽出するために測定プロセスをモデル化する方法が不明確であることがある。 これらの現実的な懸念に対する解決策がなければ、量子論はその明らかな支持と物理的サリエンスの両方を失うリスクがある。 これらのリスクを避けるには、プラグマティックな測定問題を解く必要がある。 非相対論的量子論では、この問題は次のように解決されている: 量子論の重要な実験的な成功を、測定チェーンとハイゼンベルク切断の観点からケースバイケースでモデル化することができる。 そこから、あらゆる(またはほぼすべての)可能な測定プロセスをモデル化できる広いスコープの計測理論に挑戦することができる。 実際、非相対論的量子論では、これは通常の射影計測理論につながる。 しかし、量子場理論(QFT)の文脈に進むと、この話はどのように変わるのか? QFTでは、ほとんど全ての局所的射影測定が因果性に反し、より高速な信号処理を可能にすることが知られている。 それにもかかわらず、私たちは非相対論的なケースで行ったように、大きく進めることができると論じます。 まず、測定チェーンとハイスデンバーグ風のカット(QFTモデルから非QFTモデルに切り替える)を用いて、QFTのケースバイケース測定フレームワークを構築する必要がある。 次に、QFTの新しい測定理論と、その観測値の実験的に有意な特徴づけの両方を研究できる。 この時点では、より理論的な研究が必要である。 本稿では, 量子場の計測過程のモデル化に関する物理学文献における技術の現状について概説する。

Despite quantum theory's remarkable success, many philosophers worry that it nonetheless lacks some crucial connection between theory and experiment. One under-discussed aspect of the Quantum Measurement Problems is that it is sometimes unclear how to model our measurement processes in order to extract experimental predictions. Without a solution to these pragmatic worries, quantum theory would be at risk of losing both its evidential support and its physical salience. Avoiding these risks requires solving the Pragmatic Measurement Problem. For non-relativistic quantum theory, this problem has been solved as follows: One can model each of quantum theory's key experimental successes on a case-by-case in terms of measurement chains and Heisenberg cuts. From here, one can then strive for a wide-scoping measurement theory capable of modeling all (or nearly all) possible measurement processes. Indeed, for non-relativistic quantum theory this leads us to our usual projective measurement theory. But how does this story have to change when we move into the context of quantum field theory (QFT)? It is well known that in QFT almost all localized projective measurements violate causality, allowing for faster-than-light signaling. Despite this, I will argue that we can proceed largely as we did in the non-relativistic case. We first ought to build up a case-by-case measurement framework for QFT by using measurement chains and Heisdenberg-like cuts (where we switch from a QFT model to a non-QFT model). We can then strive for both a new measurement theory for QFT and an empirically meaningful characterization of its observables. It is at this point that significantly more theoretical work is needed. This paper ends by briefly reviewing the state of the art in the physics literature regarding the modeling of measurement processes involving quantum fields.
翻訳日:2023-07-31 17:02:28 公開日:2023-07-28
# フェイルセーフな敵対的生成的模倣学習

Fail-Safe Adversarial Generative Imitation Learning ( http://arxiv.org/abs/2203.01696v2 )

ライセンス: Link先を確認
Philipp Geiger, Christoph-Nikolas Straehle(参考訳) フレキシブルで安全な模倣学習(IL)のために,安全な生成連続ポリシーの閉形式確率密度/漸進性,エンドツーエンドの生成逆行訓練,最悪のケースの安全保証を実現するための理論とモジュール方式を提案する。 安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。 安全行動の集合は、まず、フォールバック操作の逆到達可能性解析を通じて有限の動作の安全性を確認し、次にリプシッツ連続性(英語版)のようなこれらの作用の近傍の安全性を結論付けることによって推測される。 実験時(二次誤差まで)にのみ使用する場合と比較して,すでにトレーニング中(水平方向の模倣誤差)に安全層を使用することによるロバスト性利点を示す理論的解析を行う。 実世界のドライバインタラクションデータを用いた実験で,提案手法の操作性,安全性,模倣性能を実証した。

For flexible yet safe imitation learning (IL), we propose theory and a modular method, with a safety layer that enables a closed-form probability density/gradient of the safe generative continuous policy, end-to-end generative adversarial training, and worst-case safety guarantees. The safety layer maps all actions into a set of safe actions, and uses the change-of-variables formula plus additivity of measures for the density. The set of safe actions is inferred by first checking safety of a finite sample of actions via adversarial reachability analysis of fallback maneuvers, and then concluding on the safety of these actions' neighborhoods using, e.g., Lipschitz continuity. We provide theoretical analysis showing the robustness advantage of using the safety layer already during training (imitation error linear in the horizon) compared to only using it at test time (up to quadratic error). In an experiment on real-world driver interaction data, we empirically demonstrate tractability, safety and imitation performance of our approach.
翻訳日:2023-07-31 17:02:00 公開日:2023-07-28
# トルコ語の自動辞書化

Automatic Lexical Simplification for Turkish ( http://arxiv.org/abs/2201.05878v3 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu(参考訳) 本稿では,トルコ語における最初の語彙合成システムについて述べる。 最近のテキスト単純化の取り組みは、手作業による簡易コーパスと、対象テキストを単語レベルと文レベルの両方で分析できる包括的なnlpツールに依存している。 トルコ語は形態学的に豊かな凝集言語であり、屈折事件の適切な処理など独自の考察を必要とする。 利用可能なリソースと工業的強化ツールの観点からは、低リソース言語であるため、テキストの簡易化が難しくなる。 本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。

In this paper, we present the first automatic lexical simplification system for the Turkish language. Recent text simplification efforts rely on manually crafted simplified corpora and comprehensive NLP tools that can analyse the target text both in word and sentence levels. Turkish is a morphologically rich agglutinative language that requires unique considerations such as the proper handling of inflectional cases. Being a low-resource language in terms of available resources and industrial-strength tools, it makes the text simplification task harder to approach. We present a new text simplification pipeline based on pretrained representation model BERT together with morphological features to generate grammatically correct and semantically appropriate word-level simplifications.
翻訳日:2023-07-31 17:01:06 公開日:2023-07-28
# 非パラメトリック需要モデルによる公正なオンライン価格判別

Fairness-aware Online Price Discrimination with Nonparametric Demand Models ( http://arxiv.org/abs/2111.08221v2 )

ライセンス: Link先を確認
Xi Chen, Jiameng Lyu, Xuan Zhang, Yuan Zhou(参考訳) 異なる顧客グループに対して異なる価格を設定する戦略を指す価格差別は、オンライン小売業で広く使われている。 オンライン小売業者の徴収収入を増加させるが、公正性に深刻な懸念を生じさせ、規制や法律に違反することさえある。 本稿では,公平性制約下での動的識別価格の問題について検討する。 特に、2つの顧客グループを持つ1つの製品に対して、長さt$という有限の販売地平線を考える。 顧客の各グループは、学習する必要のある未知の需要機能を持っています。 販売期間毎に、販売者は各グループの価格を決定し、購入行動を監視する。 既存の文献は主に収益の最大化に重点を置いているが、動的価格の文献では、異なる顧客間の公正性を確保することは十分に検討されていない。 この研究は Cohen et al. (2022) の公平性の概念を採用する。 価格公正性については、厳格な価格公正性制約を強制する後悔に関する最適動的価格ポリシーを提案する。 オンライン学習における標準的な$\sqrt{t}$-type regretとは対照的に、われわれの場合の最適後悔は$\tilde{o}(t^{4/5})$である。 我々はさらに、要求公正性を含むより一般的な公正性の概念へとアルゴリズムを拡張した。 この一般クラスを扱うために、ソフトフェアネス制約を提案し、$\tilde{O}(T^{4/5})$ regretを達成する動的価格ポリシーを開発する。 また、当社のアルゴリズム技術は、複数の顧客グループ間の公平性など、より一般的なシナリオに適応できることを示す。

Price discrimination, which refers to the strategy of setting different prices for different customer groups, has been widely used in online retailing. Although it helps boost the collected revenue for online retailers, it might create serious concerns about fairness, which even violates the regulation and laws. This paper studies the problem of dynamic discriminatory pricing under fairness constraints. In particular, we consider a finite selling horizon of length $T$ for a single product with two groups of customers. Each group of customers has its unknown demand function that needs to be learned. For each selling period, the seller determines the price for each group and observes their purchase behavior. While existing literature mainly focuses on maximizing revenue, ensuring fairness among different customers has not been fully explored in the dynamic pricing literature. This work adopts the fairness notion from Cohen et al. (2022). For price fairness, we propose an optimal dynamic pricing policy regarding regret, which enforces the strict price fairness constraint. In contrast to the standard $\sqrt{T}$-type regret in online learning, we show that the optimal regret in our case is $\tilde{O}(T^{4/5})$. We further extend our algorithm to a more general notion of fairness, which includes demand fairness as a special case. To handle this general class, we propose a soft fairness constraint and develop a dynamic pricing policy that achieves $\tilde{O}(T^{4/5})$ regret. We also demonstrate that our algorithmic techniques can be adapted to more general scenarios such as fairness among multiple groups of customers.
翻訳日:2023-07-31 17:00:31 公開日:2023-07-28
# 漸近的に最適な量子鍵分配プロトコル

Asymptotically Optimal prepare-measure Quantum Key Distribution Protocol ( http://arxiv.org/abs/2110.01973v6 )

ライセンス: Link先を確認
Hao Shu(参考訳) 量子鍵分布(QKD)は、量子情報理論の最も重要な応用である。 約40年の間、実質的なQKDプロトコルが開発されたが、BB84プロトコルとその変種は依然として最も研究されているプロトコルである。 bb84 プロトコルの qubit error rate (qber) のセキュアバウンドが 11$\%$ であるのに対して、6 状態プロトコルによって 12.6$\%$ に拡張できることはよく知られている。 より多くの基礎を雇うことで限界が高まることは驚くにあたらない。 しかし、最適なプロトコルとは何か、どのように分析するか? 本稿では,漸近的に最適なQKDプロトコルを提案する。 そこで本研究では,QKDプロトコルを抽象化し,同一の状態でコーディングされるすべてのプロトコルで最適である2つの特別なケースについて検討する。 我々の分析は、直交量子ビットで符号化された漸近的に最適なQBER境界は、メモリレスC-NOT攻撃とメモリレスC-NOT攻撃の両方に対して約27.28$\%、相互にバイアスのない2つのベースにおける非直交状態による符号化は、メモリレスC-NOT攻撃に対して約22.73$\%、28.69$\%であることを示した。 プロトコルは理想化されているが、その最適性はQKDプロトコルの究極のポテンシャルを示している一方で、漸近的に実現されるかもしれない。 分析には特別な種類の攻撃のみが含まれるが、そのようなプロトコルを調査するためのフレームワークを提供する。

Quantum key distribution (QKD) could be the most significant application of quantum information theory. In nearly four decades, although substantial QKD protocols are developed, the BB84 protocol and its variants are still the most researched ones. It is well-known that the secure bound of qubit error rate (QBER) of BB84 protocol is about 11$\%$ while it can be increased to 12.6$\%$ by six-state protocol. It would not be surprising that employing more basis could increase the bound. However, what is the optimal protocol, and how to analyze it? In this paper, investigations of asymptotically optimal QKD protocols are proposed. Precisely, We present an abstraction of prepare-measure QKD protocols and investigate two special cases which are optimal among all protocols coding by the same states. Our analysis demonstrates that the asymptotically optimal QBER bounds coding by orthogonal qubits are about 27.28$\%$ for both memory C-NOT attacks and memoryless C-NOT attacks while the bounds coding by non-orthogonal states in two mutually unbiased bases are about 22.73$\%$ for memory and 28.69$\%$ for memoryless C-NOT attacks. The protocols are idealized but might be asymptotically realized while their optimality indicates the ultimate potential of QKD protocols. Although the analysis only contains a special kind of attack, it provides a framework for investigating such protocols.
翻訳日:2023-07-31 17:00:04 公開日:2023-07-28
# 純粋状態ダイナミクスによる古典性,マルコビアン性,局所的詳細バランス

Classicality, Markovianity and local detailed balance from pure state dynamics ( http://arxiv.org/abs/2209.07977v3 )

ライセンス: Link先を確認
Philipp Strasberg, Andreas Winter, Jochen Gemmer, Jiaozi Wang(参考訳) 多体系における可観測体の有効ダイナミクスを記述するとき、系が短時間で最大エントロピー状態に戻るという繰り返しランダムネスの仮定は、有効ダイナミクスが古典的であることを保証し、局所的な詳細バランスに従うという決定的な仮説である。 後者の挙動は自然発生過程においてしばしば観察されるが、繰り返しランダムネスの仮定はシステムの微視的可逆性と矛盾する。 ここでは、繰り返しランダムネスの仮定を用いることは、観測可能かつ粗く、厳密に定義する2つの特性である観測可能の有効ダイナミクスの記述において正当化できることを示す。 すると、我々の導出は本質的に固有熱化仮説と典型論のみを呼び出す。 遅いオブザーバブルの仮定は、必要だが十分でない条件のみを提供するため微妙であるが、オープンなシステムや多体システムの集合オブザーバブルに適用できる統一的な視点も提供する。 我々のアイデアはすべてスピンチェーンの密度波の研究によって数値的に検証される。

When describing the effective dynamics of an observable in a many-body system, the repeated randomness assumption, which states that the system returns in a short time to a maximum entropy state, is a crucial hypothesis to guarantee that the effective dynamics is classical, Markovian and obeys local detailed balance. While the latter behaviour is frequently observed in naturally occurring processes, the repeated randomness assumption is in blatant contradiction to the microscopic reversibility of the system. Here, we show that the use of the repeated randomness assumption can be justified in the description of the effective dynamics of an observable that is both slow and coarse, two properties we will define rigorously. Then, our derivation will invoke essentially only the eigenstate thermalization hypothesis and typicality arguments. While the assumption of a slow observable is subtle, as it provides only a necessary but not sufficient condition, it also offers a unifying perspective applicable to, e.g., open systems as well as collective observables of many-body systems. All our ideas are numerically verified by studying density waves in spin chains.
翻訳日:2023-07-31 16:51:52 公開日:2023-07-28
# グラデーション類似度を用いたマイトショットテキスト分類のための適応メタリーナー

Adaptive Meta-learner via Gradient Similarity for Few-shot Text Classification ( http://arxiv.org/abs/2209.04702v2 )

ライセンス: Link先を確認
Tianyi Lei, Honghui Hu, Qiaoyang Luo, Dezhong Peng, Xu Wang(参考訳) 少数ショットのテキスト分類は、少数ショットのシナリオでテキストを分類することを目的としている。 従来の手法の多くは、タスク分布を得るために最適化に基づくメタ学習を採用していた。 しかし、少数のサンプルと複雑なモデルとの整合性の欠如や、有用なタスク特徴と役に立たないタスク特徴の区別により、これらの手法は過度に適合する問題に悩まされる。 この問題に対処するため,新しいタスクへのモデル一般化能力を改善するために,Gradient similarity (AMGS) 法による適応メタラーナを提案する。 具体的には, 提案手法は, オーバーフィッティングを2つの側面から緩和する。 (i)内ループにおける自己教師付き補助タスクによるサンプルの潜在的意味表現の獲得とモデル一般化の改善 2) 適応型メタラーナーの勾配類似性を利用して, ベースラーナーが外ループで得られる勾配に制約を加える。 さらに,規則化がフレームワーク全体に与える影響を体系的に分析する。 いくつかのベンチマークによる実験結果から,提案したAMGSは,最先端の最適化に基づくメタラーニング手法と比較して,テキスト分類性能を一貫して向上することが示された。

Few-shot text classification aims to classify the text under the few-shot scenario. Most of the previous methods adopt optimization-based meta learning to obtain task distribution. However, due to the neglect of matching between the few amount of samples and complicated models, as well as the distinction between useful and useless task features, these methods suffer from the overfitting issue. To address this issue, we propose a novel Adaptive Meta-learner via Gradient Similarity (AMGS) method to improve the model generalization ability to a new task. Specifically, the proposed AMGS alleviates the overfitting based on two aspects: (i) acquiring the potential semantic representation of samples and improving model generalization through the self-supervised auxiliary task in the inner loop, (ii) leveraging the adaptive meta-learner via gradient similarity to add constraints on the gradient obtained by base-learner in the outer loop. Moreover, we make a systematic analysis of the influence of regularization on the entire framework. Experimental results on several benchmarks demonstrate that the proposed AMGS consistently improves few-shot text classification performance compared with the state-of-the-art optimization-based meta-learning approaches.
翻訳日:2023-07-31 16:51:33 公開日:2023-07-28
# QAOAのベイズ最適化

Bayesian Optimization for QAOA ( http://arxiv.org/abs/2209.03824v3 )

ライセンス: Link先を確認
Simone Tibaldi, Davide Vodola, Edoardo Tignone and Elisa Ercolessi(参考訳) 量子近似最適化アルゴリズム(QAOA)は、変分最適化問題の近似解を見つけるために、ハイブリッド量子古典的アプローチを採用する。 実際、量子回路のパラメータを最適化するために古典的なサブルーチンに依存している。 本研究では,この最適化タスクを実現するためのベイズ最適化手順を提案し,その性能を他のグローバルオプティマイザと比較した。 私たちのアプローチは、一般的にqaoaで最も高価な部分である量子回路への呼び出し数を大幅に削減できることを示しています。 我々は、我々の手法が遅い回路繰り返しの状況でもうまく機能し、量子アンザッツの測定がエネルギーを十分に見積もるのに十分であることを示す。 さらに,ゲートレベルのノイズの存在下での手法の性能について検討し,低回路深度ではノイズに対して頑健であることを確認した。 提案手法は,うるさい中間スケール量子デバイス上でのqaoaのハイブリッド性を活用するための有望な枠組みであることが示唆された。

The Quantum Approximate Optimization Algorithm (QAOA) adopts a hybrid quantum-classical approach to find approximate solutions to variational optimization problems. In fact, it relies on a classical subroutine to optimize the parameters of a quantum circuit. In this work we present a Bayesian optimization procedure to fulfil this optimization task, and we investigate its performance in comparison with other global optimizers. We show that our approach allows for a significant reduction in the number of calls to the quantum circuit, which is typically the most expensive part of the QAOA. We demonstrate that our method works well also in the regime of slow circuit repetition rates, and that few measurements of the quantum ansatz would already suffice to achieve a good estimate of the energy. In addition, we study the performance of our method in the presence of noise at gate level, and we find that for low circuit depths it is robust against noise. Our results suggest that the method proposed here is a promising framework to leverage the hybrid nature of QAOA on the noisy intermediate-scale quantum devices.
翻訳日:2023-07-31 16:51:17 公開日:2023-07-28
# ディープラーニング型型推論システムのクロスドメイン評価

Cross-Domain Evaluation of a Deep Learning-Based Type Inference System ( http://arxiv.org/abs/2208.09189v4 )

ライセンス: Link先を確認
Bernd Gruner, Tim Sonnekalb, Thomas S. Heinze, Clemens-Alexander Brust(参考訳) オプション型アノテーションにより、より優れた統合開発環境(IDE)サポート、より正確なプログラム分析、型関連のランタイムエラーの早期検出と防止など、静的型付け機能を備えた動的プログラミング言語の強化が可能になる。 機械学習ベースの型推論は、このタスクの自動化に興味深い結果をもたらす。 しかし、そのようなシステムの実践的利用は、訓練領域外に適用されることが多いため、異なる領域にまたがる一般化能力に依存する。 本研究では,最先端の深層学習に基づく型推論システムであるType4Pyについて,広範囲にわたるクロスドメイン実験を行うことにより検討する。 これにより、クラス不均衡、語彙外単語、データセットシフト、未知クラスといった問題に対処する。 このような実験を行うには、MultiTypes4PyとCrossDomainTypes4Pyのデータセットを使用します。 後者は,本論文で紹介する。 当社のデータセットは、ソフトウェアプロジェクトのさまざまなドメインにおける型推論システムの評価を可能にし、githubとライブラリ上に1000,000以上の型アノテーションをマイニングしています。 web開発と科学計算の2つのドメインのデータから成り立っている。 実験により,データセットのシフトと,未知データ型が多数存在するロングテール分布が,深層学習型推論システムの性能を劇的に低下させることを確認した。 この文脈では、これらの問題を克服するために教師なしのドメイン適応法と微調整をテストする。 さらに,語彙外単語の影響について検討した。

Optional type annotations allow for enriching dynamic programming languages with static typing features like better Integrated Development Environment (IDE) support, more precise program analysis, and early detection and prevention of type-related runtime errors. Machine learning-based type inference promises interesting results for automating this task. However, the practical usage of such systems depends on their ability to generalize across different domains, as they are often applied outside their training domain. In this work, we investigate Type4Py as a representative of state-of-the-art deep learning-based type inference systems, by conducting extensive cross-domain experiments. Thereby, we address the following problems: class imbalances, out-of-vocabulary words, dataset shifts, and unknown classes. To perform such experiments, we use the datasets ManyTypes4Py and CrossDomainTypes4Py. The latter we introduce in this paper. Our dataset enables the evaluation of type inference systems in different domains of software projects and has over 1,000,000 type annotations mined on the platforms GitHub and Libraries. It consists of data from the two domains web development and scientific calculation. Through our experiments, we detect that the shifts in the dataset and the long-tailed distribution with many rare and unknown data types decrease the performance of the deep learning-based type inference system drastically. In this context, we test unsupervised domain adaptation methods and fine-tuning to overcome these issues. Moreover, we investigate the impact of out-of-vocabulary words.
翻訳日:2023-07-31 16:51:00 公開日:2023-07-28
# データ拡張はハイパーパラメータである:チェリーピックによる教師なし異常検出のためのセルフスーパービジョンは成功の錯覚を生み出す

Data Augmentation is a Hyperparameter: Cherry-picked Self-Supervision for Unsupervised Anomaly Detection is Creating the Illusion of Success ( http://arxiv.org/abs/2208.07734v7 )

ライセンス: Link先を確認
Jaemin Yoo, Tiancheng Zhao, and Leman Akoglu(参考訳) 自己教師付き学習(SSL)は、手動ラベリングの大幅なコストを回避し、現実の問題に対する監督的な信号を作成するための有望な代替手段として登場した。 SSLは、ラベル付き異常が稀で、しばしば存在しない、異常検出(AD)のような教師なしのタスクには特に魅力的である。 画像データに対するsslベースの広告(ssad)には、拡張機能の大規模なカタログが使われており、最近の研究では、拡張のタイプが精度に大きな影響を与えていると報告されている。 この研究の動機は、画像ベースのssadをより大きなレンズの下に置き、ssadにおけるデータ拡張の役割を調べることだ。 3つの異なる検出器モデルと420のADタスクに関する広範な実験を通じて、データの増大と異常発生機構の整合がSSADの成功の鍵であり、その欠如によりSSLが精度を損なう可能性があるという包括的な数値的および視覚的証拠を提供する。 我々の知る限りでは、SSADにおけるデータ拡張の役割に関する最初のメタ分析である。

Self-supervised learning (SSL) has emerged as a promising alternative to create supervisory signals to real-world problems, avoiding the extensive cost of manual labeling. SSL is particularly attractive for unsupervised tasks such as anomaly detection (AD), where labeled anomalies are rare or often nonexistent. A large catalog of augmentation functions has been used for SSL-based AD (SSAD) on image data, and recent works have reported that the type of augmentation has a significant impact on accuracy. Motivated by those, this work sets out to put image-based SSAD under a larger lens and investigate the role of data augmentation in SSAD. Through extensive experiments on 3 different detector models and across 420 AD tasks, we provide comprehensive numerical and visual evidences that the alignment between data augmentation and anomaly-generating mechanism is the key to the success of SSAD, and in the lack thereof, SSL may even impair accuracy. To the best of our knowledge, this is the first meta-analysis on the role of data augmentation in SSAD.
翻訳日:2023-07-31 16:50:37 公開日:2023-07-28
# マルチファイダリティウェーブレットニューラル演算子と不確実性定量化への応用

Multi-fidelity wavelet neural operator with application to uncertainty quantification ( http://arxiv.org/abs/2208.05606v2 )

ライセンス: Link先を確認
Akshay Thakur, Tapas Tripura and Souvik Chakraborty(参考訳) 演算子学習フレームワークは、2つの無限次元の関数空間間の非線形マップを学習する能力とニューラルネットワークの利用により、最近、応用機械学習の分野において最も重要な分野の1つとして登場した。 これらのフレームワークは複雑な現象のモデリングに関して非常に有能であるが、トレーニングを成功させるために大量のデータを必要とする。 しかし、この問題は、低価格の低忠実度データと少量の高価な高忠実度データを使ってモデルを訓練するマルチ忠実度学習(multi-fidelity learning)の使用によって緩和することができる。 そこで本研究では,多目的データセットから学習可能なウェーブレット・ニューラル・オペレータに基づく新しいフレームワークを開発した。 開発したモデルの優れた学習能力は,サロゲート構築に有効な相関学習を必要とする異なる問題を解き明かした。 さらに,不確実性定量化のためのフレームワークの開発も検討した。 本研究から得られた結果は,提案手法の優れた性能を示す。

Operator learning frameworks, because of their ability to learn nonlinear maps between two infinite dimensional functional spaces and utilization of neural networks in doing so, have recently emerged as one of the more pertinent areas in the field of applied machine learning. Although these frameworks are extremely capable when it comes to modeling complex phenomena, they require an extensive amount of data for successful training which is often not available or is too expensive. However, this issue can be alleviated with the use of multi-fidelity learning, where a model is trained by making use of a large amount of inexpensive low-fidelity data along with a small amount of expensive high-fidelity data. To this end, we develop a new framework based on the wavelet neural operator which is capable of learning from a multi-fidelity dataset. The developed model's excellent learning capabilities are demonstrated by solving different problems which require effective correlation learning between the two fidelities for surrogate construction. Furthermore, we also assess the application of the developed framework for uncertainty quantification. The results obtained from this work illustrate the excellent performance of the proposed framework.
翻訳日:2023-07-31 16:50:15 公開日:2023-07-28
# shor型誤り訂正のための適応型シンドローム測定

Adaptive syndrome measurements for Shor-style error correction ( http://arxiv.org/abs/2208.05601v4 )

ライセンス: Link先を確認
Theerapat Tansuwannont, Balint Pato, Kenneth R. Brown(参考訳) Shor fault-tolerant error correct (FTEC) 方式では, ゲート故障によるエラーの伝播を防止するために, 猫の状態に用意されたトランスバーサルゲートとアンシラキュービットを用いる。 最大$t=\lfloor(d-1)/2\rfloor$エラーを訂正できる安定化コード$d$のために、従来のshorスキームは、症候群が連続して繰り返されるまで症候群の測定を行うことで、アンシラの準備と測定の欠陥を処理し、最悪のケースでは$(t+1)^2$の計測が必要となる。 本研究では,適応型シンドローム計測手法を用いてshor ftecスキームを改善する。 誤り訂正症候群は、連続したラウンドから得られる症候群の違いの情報に基づいて決定される。 強いFTEC条件と弱いFTEC条件を満たすプロトコルは、それぞれ$(t+3)^2/4-1$ラウンドと$(t+3)^2/4-2$ラウンドを必要とせず、どの安定化符号にも適用可能である。 小距離ヘキサゴナルカラーコードに対する適応方式によるFTECプロトコルのシミュレーションにより、このプロトコルが符号距離を保ち、擬似閾値を増大させ、従来のショア方式と比較してラウンド数を減少させることができることを確認した。 また、距離$d$の符号に対して、適応型スキームを持つFTECプロトコルは、平均$d$のラウンドを必要としない。

The Shor fault-tolerant error correction (FTEC) scheme uses transversal gates and ancilla qubits prepared in the cat state in syndrome extraction circuits to prevent propagation of errors caused by gate faults. For a stabilizer code of distance $d$ that can correct up to $t=\lfloor(d-1)/2\rfloor$ errors, the traditional Shor scheme handles ancilla preparation and measurement faults by performing syndrome measurements until the syndromes are repeated $t+1$ times in a row; in the worst-case scenario, $(t+1)^2$ rounds of measurements are required. In this work, we improve the Shor FTEC scheme using an adaptive syndrome measurement technique. The syndrome for error correction is determined based on information from the differences of syndromes obtained from consecutive rounds. Our protocols that satisfy the strong and the weak FTEC conditions require no more than $(t+3)^2/4-1$ rounds and $(t+3)^2/4-2$ rounds, respectively, and are applicable to any stabilizer code. Our simulations of FTEC protocols with the adaptive schemes on hexagonal color codes of small distances verify that our protocols preserve the code distance, can increase the pseudothreshold, and can decrease the average number of rounds compared to the traditional Shor scheme. We also find that for the code of distance $d$, our FTEC protocols with the adaptive schemes require no more than $d$ rounds on average.
翻訳日:2023-07-31 16:49:58 公開日:2023-07-28
# ボソニック量子不純物の有限周波応答の解明

Revealing the finite-frequency response of a bosonic quantum impurity ( http://arxiv.org/abs/2208.03053v5 )

ライセンス: Link先を確認
S\'ebastien L\'eger, Th\'eo S\'epulcre, Dorian Fraudet, Olivier Buisson, C\'ecile Naud, Wiebke Hasch-Guichard, Serge Florens, Izak Snyman, Denis M. Basko, and Nicolas Roch(参考訳) 量子不純物は凝縮物質物理学においてユビキタスであり、多体問題の最も取り除かれた実現である。 有限周波応答を測定することで励起スペクトルや力学特性などの重要な特性にアクセスできるが、ナノ電子量子ドットの研究が20年以上続いたにもかかわらず、この目標は解明されていない。 非常に強い結合と大きな測定帯域の実験的制約を同時に満たさなければならない。 我々はcqedツールを用いてこの問題を回避し,非自明なボソニック不純物問題である境界正弦模型の量子シミュレータを構築した。 我々は,この系の有限周波数線形応答の完全マップ化に成功した。 その反応性部分は、非摂動計算と一致する境界における非線形性の強い再正規化を証明している。 散逸部分は多光子変換による劇的な多体拡大を示す。 実験結果は, 微視的キャリブレーションモデルに基づく再仮定図式計算と定量的に一致した。 さらに、多体量子回路をモデル化するためのより高度な理論ツールを要求するダイアグラム計算が崩壊する状態へとデバイスを押し込む。 cQEDプラットフォームが普遍的なスケーリング法に到達するための技術的制限についても批判的に検討する。 この研究は、量子臨界点近傍における量子絡み合いの定量化や、非自明な多体問題の動的性質へのアクセスなど、未来のエキサイティングな視点を開く。

Quantum impurities are ubiquitous in condensed matter physics and constitute the most stripped-down realization of many-body problems. While measuring their finite-frequency response could give access to key characteristics such as excitations spectra or dynamical properties, this goal has remained elusive despite over two decades of studies in nanoelectronic quantum dots. Conflicting experimental constraints of very strong coupling and large measurement bandwidths must be met simultaneously. We get around this problem using cQED tools, and build a precisely characterized quantum simulator of the boundary sine-Gordon model, a non-trivial bosonic impurity problem. We succeeded to fully map out the finite frequency linear response of this system. Its reactive part evidences a strong renormalisation of the nonlinearity at the boundary in agreement with non-perturbative calculations. Its dissipative part reveals a dramatic many-body broadening caused by multi-photon conversion. The experimental results are matched quantitatively to a resummed diagrammatic calculation based on a microscopically calibrated model. Furthermore, we push the device into a regime where diagrammatic calculations break down, which calls for more advanced theoretical tools to model many-body quantum circuits. We also critically examine the technological limitations of cQED platforms to reach universal scaling laws. This work opens exciting perspectives for the future such as quantifying quantum entanglement in the vicinity of a quantum critical point or accessing the dynamical properties of non-trivial many-body problems.
翻訳日:2023-07-31 16:49:26 公開日:2023-07-28
# SKTR: 確率的に知られたログからのトレースリカバリ

SKTR: Trace Recovery from Stochastically Known Logs ( http://arxiv.org/abs/2206.12672v3 )

ライセンス: Link先を確認
Eli Bogdanov, Izack Cohen, Avigdor Gal(参考訳) 機械学習とセンサデータの利用の増加は、決定論的ログへの依存に挑戦し、不確実な、特に確率論的に知られている新しいプロセスマイニングソリューションを必要とする。 本研究では,現実に忠実である確率的既知のログから決定論的ログを生成するタスクである<trace recovery}を定式化する。 効果的なトレースリカバリアルゴリズムは、不確かな設定のために信頼できるプロセスマイニングツールを維持するための強力な助けとなるだろう。 本稿では,3つの革新的な特徴を持つ,確率論的に知られたログとプロセスモデルとの最適なアライメントを復元するアルゴリズムフレームワークを提案する。 我々のアルゴリズム、SKTR 1) マルコフ過程と非マルコフ過程の両方を扱う。 2) 利用可能なプロセス情報、センサの品質、機械学習予測能力に応じて、プロセスモデルとログ間の品質ベースのバランスを提供する。 3) ログを作成するために同期製品のマルチグラフを新たに使用する。 標準ビデオキャプチャベンチマークよりも予測モデルを使用する5つの公開データセットを用いた実証分析では、共通のベースラインよりも平均10以上の相対的精度の向上が示されている。

Developments in machine learning together with the increasing usage of sensor data challenge the reliance on deterministic logs, requiring new process mining solutions for uncertain, and in particular stochastically known, logs. In this work we formulate {trace recovery}, the task of generating a deterministic log from stochastically known logs that is as faithful to reality as possible. An effective trace recovery algorithm would be a powerful aid for maintaining credible process mining tools for uncertain settings. We propose an algorithmic framework for this task that recovers the best alignment between a stochastically known log and a process model, with three innovative features. Our algorithm, SKTR, 1) handles both Markovian and non-Markovian processes; 2) offers a quality-based balance between a process model and a log, depending on the available process information, sensor quality, and machine learning predictiveness power; and 3) offers a novel use of a synchronous product multigraph to create the log. An empirical analysis using five publicly available datasets, three of which use predictive models over standard video capturing benchmarks, shows an average relative accuracy improvement of more than 10 over a common baseline.
翻訳日:2023-07-31 16:49:03 公開日:2023-07-28
# 量子コンピューティング量子モンテカルロ

Quantum Computing Quantum Monte Carlo ( http://arxiv.org/abs/2206.10431v2 )

ライセンス: Link先を確認
Yukun Zhang, Yifei Huang, Jinzhao Sun, Dingshun Lv and Xiao Yuan(参考訳) 量子コンピューティングと量子モンテカルロ(QMC)は、多体量子システムを理解するための最先端の量子および古典的な計算方法である。 本稿では,これら2つの手法を統合し,量子状態の効率的な表現と操作の特長を継承し,それらの限界を克服するハイブリッド量子古典アルゴリズムを提案する。 まず,QMCの有意な限界である符号問題を測定する非確率性指標(NSI)とその上界を導入する。 提案アルゴリズムは, 量子コンピューティングの助けを借りて, NSIを減少させる符号問題を大幅に軽減できることを示す。 一方、量子モンテカルロを用いることで、浅い量子回路の表現性も向上し、従来より深い回路でしか達成できなかったより正確な計算が可能になる。 我々は, n$_2$分子 (12 qubits) とハバードモデル (16 qubits) の手法を数値的に検証し検証した。 我々の研究は、化学、凝縮物質物理学、材料、高エネルギー物理学等に応用可能な、中規模および早期のフォールト耐性量子コンピュータによる実用的な問題を解決するための道を開いた。

Quantum computing and quantum Monte Carlo (QMC) are respectively the state-of-the-art quantum and classical computing methods for understanding many-body quantum systems. Here, we propose a hybrid quantum-classical algorithm that integrates these two methods, inheriting their distinct features in efficient representation and manipulation of quantum states and overcoming their limitations. We first introduce non-stoquasticity indicators (NSIs) and their upper bounds, which measure the sign problem, the most notable limitation of QMC. We show that our algorithm could greatly mitigate the sign problem, which decreases NSIs with the assistance of quantum computing. Meanwhile, the use of quantum Monte Carlo also increases the expressivity of shallow quantum circuits, allowing more accurate computation that is conventionally achievable only with much deeper circuits. We numerically test and verify the method for the N$_2$ molecule (12 qubits) and the Hubbard model (16 qubits). Our work paves the way to solving practical problems with intermediate-scale and early-fault tolerant quantum computers, with potential applications in chemistry, condensed matter physics, materials, high energy physics, etc.
翻訳日:2023-07-31 16:48:45 公開日:2023-07-28
# Shapley Curves:スムースな視点

Shapley Curves: A Smoothing Perspective ( http://arxiv.org/abs/2211.13289v4 )

ライセンス: Link先を確認
Ratmir Miftachov, Georg Keilbar, Wolfgang Karl H\"ardle(参考訳) 協調ゲーム理論から派生したShapley値は、応用機械学習において最も広く使われている変数重要度尺度の1つである。 しかし、シャプリー値の統計的理解はまだ限られている。 本稿では、変数重要性の局所測度としてシェープリー曲線を導入することにより、非パラメトリック(あるいは滑らか化)の視点をとる。 我々は,2つの推定戦略を考察し,独立性と特徴間の依存性の両方において,一貫性と漸近的正規性から導出する。 さらに,shapley 曲線専用に調整した wild bootstrap 手順の新規版を提案する。 これにより、信頼区間を構築して推論を行うことができます。 漸近的な結果は広範な実験で検証される。 実証的なアプリケーションでは、どの属性が車両の価格を押し上げるかを分析する。

Originating from cooperative game theory, Shapley values have become one of the most widely used measures for variable importance in applied Machine Learning. However, the statistical understanding of Shapley values is still limited. In this paper, we take a nonparametric (or smoothing) perspective by introducing Shapley curves as a local measure of variable importance. We consider two estimation strategies and derive the consistency and asymptotic normality both under independence and dependence among the features. We further propose a novel version of the wild bootstrap procedure specifically adjusted for Shapley curves. This allows us to construct confidence intervals and conduct inference. The asymptotic results are validated in extensive experiments. In an empirical application, we analyze which attributes drive the prices of vehicles.
翻訳日:2023-07-31 16:42:48 公開日:2023-07-28
# ワッサースタイン判別分析のための二レベル非線形固有ベクトルアルゴリズム

A Bi-level Nonlinear Eigenvector Algorithm for Wasserstein Discriminant Analysis ( http://arxiv.org/abs/2211.11891v2 )

ライセンス: Link先を確認
Dong Min Roh, Zhaojun Bai, Ren-Cang Li(参考訳) 古典的フィッシャー線形判別分析 (LDA) と同様に、最近提案されたワッサーシュタイン判別分析 (WDA) は、異なるデータクラスの分散を最大化し、二段階最適化により同一データクラスの分散を最小化する投影行列を求める線形次元減少法である。 LDAとは対照的に、WDAは最適な転送の基本原理を用いて、データクラス間のグローバルおよびローカルの相互接続を説明できる。 本稿では,二レベル非線形固有ベクトルアルゴリズム(WDA-nepv)を提案する。 最適輸送行列を計算するためのWDA-nepvの内部レベルは固有ベクトル依存非線形固有値問題(NEPv)として定式化され、一方、トレース比最適化の外部レベルは別のNEPvとして定式化される。 NEPvsはSCF(Self-Consistent Field)フレームワークで効率的に計算できる。 WDA-nepvは、既存のアルゴリズムと比較してデリバティブフリーで代理モデルフリーである。 提案したWDA-nepvの収束解析は、WDAの2レベル最適化を解くためのSCFの利用を正当化する。 WDA-nepvの分類精度と拡張性を示す合成および実生活データセットを用いた数値実験を行った。

Much like the classical Fisher linear discriminant analysis (LDA), the recently proposed Wasserstein discriminant analysis (WDA) is a linear dimensionality reduction method that seeks a projection matrix to maximize the dispersion of different data classes and minimize the dispersion of same data classes via a bi-level optimization. In contrast to LDA, WDA can account for both global and local interconnections between data classes by using the underlying principles of optimal transport. In this paper, a bi-level nonlinear eigenvector algorithm (WDA-nepv) is presented to fully exploit the structures of the bi-level optimization of WDA. The inner level of WDA-nepv for computing the optimal transport matrices is formulated as an eigenvector-dependent nonlinear eigenvalue problem (NEPv), and meanwhile, the outer level for trace ratio optimizations is formulated as another NEPv. Both NEPvs can be computed efficiently under the self-consistent field (SCF) framework. WDA-nepv is derivative-free and surrogate-model-free when compared with existing algorithms. Convergence analysis of the proposed WDA-nepv justifies the utilization of the SCF for solving the bi-level optimization of WDA. Numerical experiments with synthetic and real-life datasets demonstrate the classification accuracy and scalability of WDA-nepv.
翻訳日:2023-07-31 16:42:38 公開日:2023-07-28
# 仮想粒子の量子ビット画像

Qubit Picture of Virtual Particles ( http://arxiv.org/abs/2211.05782v2 )

ライセンス: Link先を確認
Gon\c{c}alo M. Quinta(参考訳) 仮想粒子は観測不可能であるにもかかわらず、特定の条件下で量子状態として解釈できる量子作用素によって記述できることを示す。 単一の仮想フェルミオンに対して、そのような状態がよく定義された有限温度を持つ分離可能な混合2量子状態であることを証明する。 スピン1仮想ボソンの場合、いくつかのゲージに対して量子状態として解釈できる4量子作用素に関連付けられる。 また,仮想フェルミオンの対の生成について検討し,この対が絡み合った4量子ビット演算子と関連していることを示し,対応する量子回路を示す。 最後に、再正規化がこれらの結果に構造的に影響を与えないことを証明する。 これらの発見は、量子場理論、量子情報、量子熱力学の新たな関係を示している。

We show that virtual particles, despite being unobservable, can be described by quantum operators which can be interpreted under certain conditions as valid qubit quantum states. For a single virtual fermion, we prove that such a state is a separable mixed 2-qubit state with a well-defined finite temperature. For spin-1 virtual bosons, we find them to be associated to 4-qubit operators which can be interpreted as quantum states for some gauges. We also study the creation of virtual pairs of fermions, where the pair is shown to be associated to an entangled 4-qubit operator, and show the corresponding quantum circuit. Finally, we prove that renormalization does not structurally affect these results. These findings represent new connections between quantum field theory, quantum information and quantum thermodynamics.
翻訳日:2023-07-31 16:42:15 公開日:2023-07-28
# 量子機械学習のためのリソースフラガー最適化器

Resource frugal optimizer for quantum machine learning ( http://arxiv.org/abs/2211.04965v3 )

ライセンス: Link先を確認
Charles Moussa, Max Hunter Gordon, Michal Baczyk, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) qml(quantum machine learning)とも呼ばれる量子エンハンスドデータサイエンスは、短期量子コンピュータの応用として注目されている。 変分QMLアルゴリズムは、特に量子データを含む場合、実際のハードウェアにおける実用的な問題を解く可能性がある。 しかし、これらのアルゴリズムのトレーニングは困難であり、最適化手順の調整が求められる。 特に、QMLアプリケーションは、大きなデータセットに関連するため、ショットカウントのオーバーヘッドが大きい可能性がある。 本研究では,損失関数を定義する測度演算子だけでなく,データセット上での同時ランダムサンプリングを提唱する。 我々は、多くのQMLアプリケーションを含む非常に一般的な損失関数を考察し、その勾配の偏りのない推定器を構築する方法を示す。 これにより、Refoqus (Resource Frugal Optimizer for QUantum Stochastic gradient descent) と呼ばれるショットフルーガル勾配勾配最適化器を提案することができる。 私たちの数値は、refoqusは、測定演算子単独でサンプルを最適化するオプティマイザと比較しても、数桁のショットコストを節約できることを示している。

Quantum-enhanced data science, also known as quantum machine learning (QML), is of growing interest as an application of near-term quantum computers. Variational QML algorithms have the potential to solve practical problems on real hardware, particularly when involving quantum data. However, training these algorithms can be challenging and calls for tailored optimization procedures. Specifically, QML applications can require a large shot-count overhead due to the large datasets involved. In this work, we advocate for simultaneous random sampling over both the dataset as well as the measurement operators that define the loss function. We consider a highly general loss function that encompasses many QML applications, and we show how to construct an unbiased estimator of its gradient. This allows us to propose a shot-frugal gradient descent optimizer called Refoqus (REsource Frugal Optimizer for QUantum Stochastic gradient descent). Our numerics indicate that Refoqus can save several orders of magnitude in shot cost, even relative to optimizers that sample over measurement operators alone.
翻訳日:2023-07-31 16:42:04 公開日:2023-07-28
# 階層的注意を伴うマルチスケール演算子学習におけるスペクトルバイアスの緩和

Mitigating spectral bias for the multiscale operator learning with hierarchical attention ( http://arxiv.org/abs/2210.10890v2 )

ライセンス: Link先を確認
Xinliang Liu, Bo Xu and Lei Zhang(参考訳) ニューラル作用素は、無限次元パラメータと偏微分方程式(PDE)の解空間のマッピングを学ぶための強力なツールとして登場した。 本研究では,貯水池モデルや乱流予測などの重要な応用を有する大規模PDEに着目した。 このようなPDEに対して、低周波成分に対するスペクトルバイアスは、既存のニューラル演算子にとって重要な課題であることを示す。 この課題に対処するために,階層行列アプローチに触発された階層的注意型ニューラルネットワーク(hano)を提案する。 HANOは、階層の階層上でのスケール適応的な相互作用範囲と自己アテンションを備え、制御可能な線形コストによるネストされた特徴計算と、マルチスケールのソリューション空間のエンコーディング/デコードを可能にする。 また,高周波成分の学習を促進するために,経験的な$h^1$損失関数を組み込んだ。 我々の数値実験により,HANOは多スケール問題に対して最先端(SOTA)法より優れていることが示された。

Neural operators have emerged as a powerful tool for learning the mapping between infinite-dimensional parameter and solution spaces of partial differential equations (PDEs). In this work, we focus on multiscale PDEs that have important applications such as reservoir modeling and turbulence prediction. We demonstrate that for such PDEs, the spectral bias towards low-frequency components presents a significant challenge for existing neural operators. To address this challenge, we propose a hierarchical attention neural operator (HANO) inspired by the hierarchical matrix approach. HANO features a scale-adaptive interaction range and self-attentions over a hierarchy of levels, enabling nested feature computation with controllable linear cost and encoding/decoding of multiscale solution space. We also incorporate an empirical $H^1$ loss function to enhance the learning of high-frequency components. Our numerical experiments demonstrate that HANO outperforms state-of-the-art (SOTA) methods for representative multiscale problems.
翻訳日:2023-07-31 16:41:47 公開日:2023-07-28
# 離散時間確率システムのための確率安定化型ニューラルコントローラの学習

Learning Provably Stabilizing Neural Controllers for Discrete-Time Stochastic Systems ( http://arxiv.org/abs/2210.05304v2 )

ライセンス: Link先を確認
Matin Ansaripour, Krishnendu Chatterjee, Thomas A. Henzinger, Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c(参考訳) 確率~1$の確率で特定の安定化領域内で安定化することを保証した離散時間確率系における制御ポリシーの学習問題を考察する。 このアプローチは,本研究で紹介するsrsm(stabilizing ranking supermartingales)という新しい概念に基づいている。 我々のsRSMは、制御ポリシに一度入力した時点で安定化領域を残せないシステムに限定して適用可能な、従来の研究で提案された手法の制限を克服する。 ニューラルネットワークとして学習した確率~1$の安定性を正式に証明する sRSM とともに制御ポリシを学習する学習手順を提案する。 この手順は、与えられたリプシッツ連続制御ポリシーの下で確率=1$の安定化領域内で確率系が安定化することを正式に検証するためにも適用可能であることを示す。 実験により,我々の学習手順は,実際の安定政策を確実に学習できることを示した。

We consider the problem of learning control policies in discrete-time stochastic systems which guarantee that the system stabilizes within some specified stabilization region with probability~$1$. Our approach is based on the novel notion of stabilizing ranking supermartingales (sRSMs) that we introduce in this work. Our sRSMs overcome the limitation of methods proposed in previous works whose applicability is restricted to systems in which the stabilizing region cannot be left once entered under any control policy. We present a learning procedure that learns a control policy together with an sRSM that formally certifies probability~$1$ stability, both learned as neural networks. We show that this procedure can also be adapted to formally verifying that, under a given Lipschitz continuous control policy, the stochastic system stabilizes within some stabilizing region with probability~$1$. Our experimental evaluation shows that our learning procedure can successfully learn provably stabilizing policies in practice.
翻訳日:2023-07-31 16:41:30 公開日:2023-07-28
# 量子位相処理とその位相・エントロピー推定への応用

Quantum Phase Processing and its Applications in Estimating Phase and Entropies ( http://arxiv.org/abs/2209.14278v2 )

ライセンス: Link先を確認
Youle Wang, Lei Zhang, Zhan Yu, Xin Wang(参考訳) 量子コンピューティングは、量子系の進化が指数関数的に大きいヒルベルト空間内のユニタリ作用素によって記述されるため、多くの問題を解決するためのスピードアップを提供することができる。 そのようなユニタリ作用素は固有状態の位相を変え、量子アルゴリズムを古典的なものと根本的に異なるものにする。 量子コンピューティングのこの一意的な原理に基づき、ユニタリ作用素の固有位相に任意の三角変換を直接適用できる新しいアルゴリズムツールボックス ``quantum phase processing''' を開発した。 量子位相処理回路は単一の量子ビット回転と制御単位で構成され、通常は1つのアンシラ量子ビットのみを使用する。 位相変換の能力に加えて、特に量子位相処理は、アンシラ量子ビットを測定するだけで量子システムの固有情報を抽出することができ、間接計測と自然に互換性がある。 量子位相処理は量子特異値変換(quantum singular value transformation)として知られる別の強力なフレームワークを補完し、特に位相関係の問題を解くためのより直感的で効率的な量子アルゴリズムをもたらす。 顕著な応用として,量子フーリエ変換を必要としない量子位相推定アルゴリズムを提案する。 さらに, ハミルトンシミュレーション, エンタングルメント分光, 量子エントロピー推定における多くの応用について検討し, ほぼすべてのケースで改善や最適性を示すことにより, 提案手法のパワーを活用した。

Quantum computing can provide speedups in solving many problems as the evolution of a quantum system is described by a unitary operator in an exponentially large Hilbert space. Such unitary operators change the phase of their eigenstates and make quantum algorithms fundamentally different from their classical counterparts. Based on this unique principle of quantum computing, we develop a new algorithmic toolbox ``quantum phase processing'' that can directly apply arbitrary trigonometric transformations to eigenphases of a unitary operator. The quantum phase processing circuit is constructed simply, consisting of single-qubit rotations and controlled-unitaries, typically using only one ancilla qubit. Besides the capability of phase transformation, quantum phase processing in particular can extract the eigen-information of quantum systems by simply measuring the ancilla qubit, making it naturally compatible with indirect measurement. Quantum phase processing complements another powerful framework known as quantum singular value transformation and leads to more intuitive and efficient quantum algorithms for solving problems that are particularly phase-related. As a notable application, we propose a new quantum phase estimation algorithm without quantum Fourier transform, which requires the fewest ancilla qubits and matches the best performance so far. We further exploit the power of our method by investigating a plethora of applications in Hamiltonian simulation, entanglement spectroscopy and quantum entropies estimation, demonstrating improvements or optimality for almost all cases.
翻訳日:2023-07-31 16:41:14 公開日:2023-07-28
# 自発ハマーのマルチモーダル予測に向けて:新しいデータセットと最初の結果

Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results ( http://arxiv.org/abs/2209.14272v2 )

ライセンス: Link先を確認
Lukas Christ, Shahin Amiriparian, Alexander Kathan, Niklas M\"uller, Andreas K\"onig, Bj\"orn W. Schuller(参考訳) ヒューモアは人間の感情と認知の重要な要素である。 その自動理解は、より自然なヒューマンデバイスインタラクションと人工知能の人間化を促進する。 ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、実際のアプリケーションでは不十分である。 本稿では,パスタウ・スポンタンス・フットボール・コーチ・ヒューマー (Passau-SFCH) のデータセットを導入し,約11時間にわたる記録を行った。 Passau-SFCHデータセットは、マーティンのHummor Style Questionnaireで提案されているように、ユーモアの存在とその次元(知覚と方向)について注釈付けされている。 我々は,事前学習されたトランスフォーマー,畳み込みニューラルネットワーク,エキスパートが設計した機能を用いて,一連の実験を行う。 自発的ユーモア認識のための各モード(テキスト,音声,ビデオ)の性能を分析し,その相補性を検討した。 以上の結果から,ユーモアと感情の自動分析では表情が最も有望であり,ユーモアの方向性はテキストベースの機能でモデル化できることが示唆された。 その結果,ユーモアの用法とスタイルの個性に顕著な違いが認められた。 さらに,決定レベルの融合が最良の認識結果をもたらすことを観察する。 最後に、コードはhttps://www.github.com/eihw/passau-sfchで公開しています。 Passau-SFCHデータセットは、要求に応じて利用できる。

Humour is a substantial element of human affect and cognition. Its automatic understanding can facilitate a more naturalistic human-device interaction and the humanisation of artificial intelligence. Current methods of humour detection are solely based on staged data making them inadequate for 'real-world' applications. We address this deficiency by introducing the novel Passau-Spontaneous Football Coach Humour (Passau-SFCH) dataset, comprising of about 11 hours of recordings. The Passau-SFCH dataset is annotated for the presence of humour and its dimensions (sentiment and direction) as proposed in Martin's Humor Style Questionnaire. We conduct a series of experiments, employing pretrained Transformers, convolutional neural networks, and expert-designed features. The performance of each modality (text, audio, video) for spontaneous humour recognition is analysed and their complementarity is investigated. Our findings suggest that for the automatic analysis of humour and its sentiment, facial expressions are most promising, while humour direction can be best modelled via text-based features. The results reveal considerable differences among various subjects, highlighting the individuality of humour usage and style. Further, we observe that a decision-level fusion yields the best recognition result. Finally, we make our code publicly available at https://www.github.com/EIHW/passau-sfch. The Passau-SFCH dataset is available upon request.
翻訳日:2023-07-31 16:40:49 公開日:2023-07-28
# SynthA1c:糖尿病リスク階層化のための臨床解釈可能な患者表現を目指して

SynthA1c: Towards Clinically Interpretable Patient Representations for Diabetes Risk Stratification ( http://arxiv.org/abs/2209.10043v2 )

ライセンス: Link先を確認
Michael S. Yao, Allison Chae, Matthew T. MacLean, Anurag Verma, Jeffrey Duda, James Gee, Drew A. Torigian, Daniel Rader, Charles Kahn, Walter R. Witschey, Hersh Sagreiya(参考訳) 2型糖尿病(T2DM)の早期診断は、タイムリーな治療介入とライフスタイルの変更を可能にするために重要である。 診療所訪問時間が短縮され、医用画像データがより広く利用できるようになると、患者画像データを使用して、医師による追加のT2DM診断作業の患者を同時に特定することができる。 画像由来の表現型データを表型学習分類器モデルに応用し,T2DMのリスクを自動予測し,高リスク患者の血液検査を必要とせずに診断できるかどうかを検討した。 従来の二分分類器とは対照的に、ニューラルネットワークと決定木モデルを利用して患者データを「シンサ1c」潜伏変数として表現し、血液ヘモグロビンa1cを模倣し、87.6%の感度を達成する。 SynthA1cモデルが他の患者集団にどのように一般化するかを評価するために,バニラデータ拡張技術を用いて,入力領域外共変量に対するモデル性能を予測する新しい一般化可能な指標を提案する。 画像由来の表現型と身体検査データを組み合わせることで、人工知能と医用画像によって可能となる機会論的リスク階層化の手段として、糖尿病リスクを正確に予測できることを示す。 私たちのコードはhttps://github.com/allisonjchae/DMT2RiskAssessment.comで利用可能です。

Early diagnosis of Type 2 Diabetes Mellitus (T2DM) is crucial to enable timely therapeutic interventions and lifestyle modifications. As the time available for clinical office visits shortens and medical imaging data become more widely available, patient image data could be used to opportunistically identify patients for additional T2DM diagnostic workup by physicians. We investigated whether image-derived phenotypic data could be leveraged in tabular learning classifier models to predict T2DM risk in an automated fashion to flag high-risk patients without the need for additional blood laboratory measurements. In contrast to traditional binary classifiers, we leverage neural networks and decision tree models to represent patient data as 'SynthA1c' latent variables, which mimic blood hemoglobin A1c empirical lab measurements, that achieve sensitivities as high as 87.6%. To evaluate how SynthA1c models may generalize to other patient populations, we introduce a novel generalizable metric that uses vanilla data augmentation techniques to predict model performance on input out-of-domain covariates. We show that image-derived phenotypes and physical examination data together can accurately predict diabetes risk as a means of opportunistic risk stratification enabled by artificial intelligence and medical imaging. Our code is available at https://github.com/allisonjchae/DMT2RiskAssessment.
翻訳日:2023-07-31 16:39:51 公開日:2023-07-28
# アウトデコヒーレンスによる古典性:概念、マルコビアン性との関係、およびランダム行列論アプローチ

Classicality with(out) decoherence: Concepts, relation to Markovianity, and a random matrix theory approach ( http://arxiv.org/abs/2301.02563v3 )

ライセンス: Link先を確認
Philipp Strasberg(参考訳) 古典の世界が量子物理学の根底からどのように現われるかという疑問に対する答えは、次のように再検討され、連結され、拡張される。 まず、オープン量子系のデコヒーレンス、一貫性/デコヒーレントヒストリー、コルモゴロフ一貫性の3つの異なる概念を比較する。 第二に、これらの概念をつなぐ量子マルコフ性(厳密に定義される)の重要な役割が確立される。 第3に、ランダム行列理論モデルを用いて、大量のコヒーレンスが存在するにもかかわらず、遅い観測値と粗い観測値の測定統計値において、量子効果が指数関数的に抑制されることが示されている。 これはまた数値的に例示されており、古典性の出現に対する非可積分性とカオスの可能性と重要性を強調している。

Answers to the question how a classical world emerges from underlying quantum physics are revisited, connected and extended as follows. First, three distinct concepts are compared: decoherence in open quantum systems, consistent/decoherent histories and Kolmogorov consistency. Second, the crucial role of quantum Markovianity (defined rigorously) to connect these concepts is established. Third, using a random matrix theory model, quantum effects are shown to be exponentially suppressed in the measurement statistics of slow and coarse observables despite the presence of large amount of coherences. This is also numerically exemplified, and it highlights the potential and importance of non-integrability and chaos for the emergence of classicality.
翻訳日:2023-07-31 16:31:22 公開日:2023-07-28
# ビュー・スペクティブ・ポイント・ツー・イメージ変換による3次元点雲の自己教師付き事前学習

Self-Supervised Pre-training for 3D Point Clouds via View-Specific Point-to-Image Translation ( http://arxiv.org/abs/2212.14197v3 )

ライセンス: Link先を確認
Qijian Zhang, Junhui Hou(参考訳) 過去数年間、言語と2Dビジョンコミュニティにおける自己指導型表現学習の成功と普及を目撃してきた。 しかし、このような進歩は3Dポイントのクラウド学習分野に完全に移行していない。 本稿では,3次元の点群から3次元の点群へのクロスモーダル変換という,新たな自己教師付きプレテキストタスクを駆使して,生成的モデリングやコントラスト学習の領域に該当する,深部点群の特徴抽出器を設計した既存の事前学習パラダイムと異なり,翻訳事前学習フレームワークであるPointVSTを提案する。 より具体的には、視点インジケータを挿入することで視点条件付きポイントワイズ埋め込みを導出し、その後に画像生成のための2次元畳み込み変換ヘッドにさらに供給されるビュー固有のグローバルコードワードを適応的に集約することから始める。 様々なダウンストリームタスクシナリオに対する大規模な実験的評価により、PointVSTは、現在の最先端アプローチよりも一貫性があり、顕著なパフォーマンス上の優位性を示し、良好なドメイン転送能力を示します。 私たちのコードはhttps://github.com/keeganhk/PointVSTで公開されます。

The past few years have witnessed the great success and prevalence of self-supervised representation learning within the language and 2D vision communities. However, such advancements have not been fully migrated to the field of 3D point cloud learning. Different from existing pre-training paradigms designed for deep point cloud feature extractors that fall into the scope of generative modeling or contrastive learning, this paper proposes a translative pre-training framework, namely PointVST, driven by a novel self-supervised pretext task of cross-modal translation from 3D point clouds to their corresponding diverse forms of 2D rendered images. More specifically, we begin with deducing view-conditioned point-wise embeddings through the insertion of the viewpoint indicator, and then adaptively aggregate a view-specific global codeword, which can be further fed into subsequent 2D convolutional translation heads for image generation. Extensive experimental evaluations on various downstream task scenarios demonstrate that our PointVST shows consistent and prominent performance superiority over current state-of-the-art approaches as well as satisfactory domain transfer capability. Our code will be publicly available at https://github.com/keeganhk/PointVST.
翻訳日:2023-07-31 16:31:07 公開日:2023-07-28
# 公正予測モデルのための一貫性範囲近似

Consistent Range Approximation for Fair Predictive Modeling ( http://arxiv.org/abs/2212.10839v3 )

ライセンス: Link先を確認
Jiongli Zhu, Sainyam Galhotra, Nazanin Sabri, Babak Salimi(参考訳) 本稿では,バイアスデータに基づく予測モデルの公平性を検証するための新しい枠組みを提案する。 これは、不完全で一貫性のないデータベースに対するクエリ応答から、対象個体群に対する予測モデルに対するフェアネスクエリの一貫性のある範囲近似(CRA)問題を定式化する。 このフレームワークは、データ収集プロセスの背景知識と偏りのあるデータを使用し、対象の個体数に関する限られた統計を扱い、フェアネスクエリに対する幅広い回答を計算する。 このフレームワークはCRAを使用して、トレーニング中の外部データの可用性に関係なく、ターゲット人口に対して確実に公正な予測モデルを構築する。 このフレームワークの有効性は、実データの評価を通じて実証され、既存の最先端手法よりも大幅に改善されている。

This paper proposes a novel framework for certifying the fairness of predictive models trained on biased data. It draws from query answering for incomplete and inconsistent databases to formulate the problem of consistent range approximation (CRA) of fairness queries for a predictive model on a target population. The framework employs background knowledge of the data collection process and biased data, working with or without limited statistics about the target population, to compute a range of answers for fairness queries. Using CRA, the framework builds predictive models that are certifiably fair on the target population, regardless of the availability of external data during training. The framework's efficacy is demonstrated through evaluations on real data, showing substantial improvement over existing state-of-the-art methods.
翻訳日:2023-07-31 16:30:46 公開日:2023-07-28
# 局所測定による量子ネットワークトポロジーの推定

Inferring Quantum Network Topology using Local Measurements ( http://arxiv.org/abs/2212.07987v3 )

ライセンス: Link先を確認
Daniel T. Chen, Brian Doolittle, Jeffrey M. Larson, Zain H. Saleem, Eric Chitambar(参考訳) 量子ネットワーク内のノード間で発生する統計的相関は、そのトポロジに決定的に依存する。 しかし、このトポロジカルな情報は事前の知識がないかもしれないし、検証する必要があるかもしれない。 本稿では,量子ネットワークのトポロジを識別し,推定するための効率的なプロトコルを提案する。 エントロピー量、すなわちフォン・ノイマンエントロピーと測定された相互情報、および測定共分散を利用して位相を一意に特徴づける。 エントロピー量はGHZ状態を生成する2つのネットワークを区別するのに十分であることを示す。 さらに、量子ビット測定が利用可能であれば、エントロピー量と共変性の両方を用いてネットワークトポロジーを推定することができる。 このプロトコルはノイズに対して完全にロバストであり、量子変分最適化によって実装できることを示す。 古典的シミュレータと量子ハードウェアの両方での数値実験により、共分散は一般にトポロジを正確に効率的に推論するために信頼性が高いが、エントロピーに基づく手法は低ショット状態における絡み合いの欠如を識別するのに優れていることが示されている。

Statistical correlations that can be generated across the nodes in a quantum network depend crucially on its topology. However, this topological information might not be known a priori, or it may need to be verified. In this paper, we propose an efficient protocol for distinguishing and inferring the topology of a quantum network. We leverage entropic quantities -- namely, the von Neumann entropy and the measured mutual information -- as well as measurement covariance to uniquely characterize the topology. We show that the entropic quantities are sufficient to distinguish two networks that prepare GHZ states. Moreover, if qubit measurements are available, both entropic quantities and covariance can be used to infer the network topology. We show that the protocol can be entirely robust to noise and can be implemented via quantum variational optimization. Numerical experiments on both classical simulators and quantum hardware show that covariance is generally more reliable for accurately and efficiently inferring the topology, whereas entropy-based methods are often better at identifying the absence of entanglement in the low-shot regime.
翻訳日:2023-07-31 16:30:34 公開日:2023-07-28
# 投票地区と不確実データ展開分析の比較

Comparing Voting Districts with Uncertain Data Envelopment Analysis ( http://arxiv.org/abs/2212.07779v2 )

ライセンス: Link先を確認
Casey Garner, Allen Holder(参考訳) ジェリーマンダーリングの投票地区は、現代のアメリカ社会の最も顕著な関心事の一つであり、新しい投票地図の作成は、その後の法的課題と共に、現代の政治談話の多くを語る。 サービス可能な選挙区に関する法的、社会的、政治的議論は公正の概念を要求しており、これは緩やかに特徴付けられるが、正確な定義を避けたアモルファスな概念である。 我々は、地図を均一に評価するために使用される事前基準に関連する落とし穴を避けるために、投票マップを比較するための新しいパラダイムを推進している。 評価手法は,各地域を別々に最適に評価する手法として,不確実なデータ包絡分析を用いて様々な指標の地図を評価する方法を示す。 提案手法を,提案および公開地図の集合上で検証し,評価戦略を概説する。

Gerrymandering voting districts is one of the most salient concerns of contemporary American society, and the creation of new voting maps, along with their subsequent legal challenges, speaks for much of our modern political discourse. The legal, societal, and political debate over serviceable voting districts demands a concept of fairness, which is a loosely characterized, but amorphous, concept that has evaded precise definition. We advance a new paradigm to compare voting maps that avoids the pitfalls associated with an a priori metric being used to uniformly assess maps. Our evaluative method instead shows how to use uncertain data envelopment analysis to assess maps on a variety of metrics, a tactic that permits each district to be assessed separately and optimally. We test our methodology on a collection of proposed and publicly available maps to illustrate our assessment strategy.
翻訳日:2023-07-31 16:30:16 公開日:2023-07-28
# 音響マスクオートエンコーダ

Audiovisual Masked Autoencoders ( http://arxiv.org/abs/2212.05922v2 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab(参考訳) 映像にすでに存在する映像情報を利用して自己教師付き表現学習を向上できるか? そこで本稿では,自然言語や画像理解における類似手法の成功を動機として,マスク付き自動符号化フレームワークにおける事前学習アーキテクチャと目的について検討する。 我々は,vggsound と audioset の最先端技術に勝って,視聴覚下分類タスクにおいて大幅な改善を実現できることを示す。 さらに,1つのオーディオビジュアルプリトレーニングモデルを用いて,複数のユニモーダルダウンストリームタスクに対して,オーディオビジュアルプリトレーニングスキームを活用できる。 さらに,表現の転送性を実証し,このデータセットを事前にトレーニングすることなく,エピックキッチンで最先端のオーディオビジュアル結果を得る。

Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset.
翻訳日:2023-07-31 16:30:00 公開日:2023-07-28
# 拡散モデルを用いた雑音画像からの複素値検索

Complex-valued Retrievals From Noisy Images Using Diffusion Models ( http://arxiv.org/abs/2212.03235v3 )

ライセンス: Link先を確認
Nadav Torem and Roi Ronen and Yoav Y. Schechner and Michael Elad(参考訳) 様々な顕微鏡法では、センサーは実値の強度のみを測定する。 さらに、センサの読み出しはポアソニアン分布光子ノイズに影響される。 従来の復元アルゴリズムは、元の画像と復元された画像の間の平均二乗誤差(mse)を最小化することを目的としている。 これはしばしば知覚品質の悪いぼやけた結果につながる。 近年,深部拡散モデル (ddms) は, 求める変数のaポストエリリ確率から画像の抽出能力が高く, 画質の高い画像が視覚的に満足できることが証明されている。 これらのモデルは主にガウス雑音に苦しむ実数値画像に対して提案されている。 本研究では,ddmの一種であるアニールド・ランジュバン・ダイナミクスを一般化し,ポアソンノイズの影響を受ける複素値物体(および実画像)の光学的イメージングにおける根本的な課題に取り組む。 本稿では,Fourier Ptychography, Phase Retrieval, Poisson denoisingなどの光学シナリオにアルゴリズムを適用した。 本アルゴリズムはシミュレーションおよび生体実験データに基づいて評価する。

In diverse microscopy modalities, sensors measure only real-valued intensities. Additionally, the sensor readouts are affected by Poissonian-distributed photon noise. Traditional restoration algorithms typically aim to minimize the mean squared error (MSE) between the original and recovered images. This often leads to blurry outcomes with poor perceptual quality. Recently, deep diffusion models (DDMs) have proven to be highly capable of sampling images from the a-posteriori probability of the sought variables, resulting in visually pleasing high-quality images. These models have mostly been suggested for real-valued images suffering from Gaussian noise. In this study, we generalize annealed Langevin Dynamics, a type of DDM, to tackle the fundamental challenges in optical imaging of complex-valued objects (and real images) affected by Poisson noise. We apply our algorithm to various optical scenarios, such as Fourier Ptychography, Phase Retrieval, and Poisson denoising. Our algorithm is evaluated on simulations and biological empirical data.
翻訳日:2023-07-31 16:29:48 公開日:2023-07-28
# 遅延最小のディープオンラインビデオ安定化

Minimum Latency Deep Online Video Stabilization ( http://arxiv.org/abs/2212.02073v2 )

ライセンス: Link先を確認
Zhuofan Zhang, Zhen Liu, Ping Tan, Bing Zeng, Shuaicheng Liu(参考訳) オンラインビデオ安定化のための新しいカメラパス最適化フレームワークを提案する。 通常、安定化パイプラインは、モーション推定、パススムーシング、新しいビューレンダリングの3つのステップから構成される。 以前の手法のほとんどは運動推定に集中し、様々な大域的または局所的な運動モデルを提案する。 対照的に、パス最適化は、特に将来のフレームが利用できない重要なオンライン設定において、比較的注意を払わない。 本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラ軌道を復元し,後者の2ステップに集中する。 我々のネットワークは、スライディングウィンドウ内の短い2次元カメラパスを入力として取り、ウィンドウ内の最後のフレームの安定化ワープフィールドを出力する。 ハイブリッド損失は、空間的および時間的一貫性を制限するためによく定義される。 さらに、トレーニングのための安定かつ不安定な動きペアを含む動きデータセットを構築する。 広範な実験により,我々のアプローチは質的かつ定量的に最先端のオンライン手法を著しく上回り,オフラインメソッドと同等のパフォーマンスを達成していることが示された。 私たちのコードとデータセットはhttps://github.com/liuzhen03/nndvsで利用可能です。

We present a novel camera path optimization framework for the task of online video stabilization. Typically, a stabilization pipeline consists of three steps: motion estimating, path smoothing, and novel view rendering. Most previous methods concentrate on motion estimation, proposing various global or local motion models. In contrast, path optimization receives relatively less attention, especially in the important online setting, where no future frames are available. In this work, we adopt recent off-the-shelf high-quality deep motion models for motion estimation to recover the camera trajectory and focus on the latter two steps. Our network takes a short 2D camera path in a sliding window as input and outputs the stabilizing warp field of the last frame in the window, which warps the coming frame to its stabilized position. A hybrid loss is well-defined to constrain the spatial and temporal consistency. In addition, we build a motion dataset that contains stable and unstable motion pairs for the training. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art online methods both qualitatively and quantitatively and achieves comparable performance to offline methods. Our code and dataset are available at https://github.com/liuzhen03/NNDVS
翻訳日:2023-07-31 16:29:30 公開日:2023-07-28
# 3DPPE:マルチカメラ3次元物体検出変換器の3次元位置符号化

3DPPE: 3D Point Positional Encoding for Multi-Camera 3D Object Detection Transformers ( http://arxiv.org/abs/2211.14710v3 )

ライセンス: Link先を確認
Changyong Shu, JIajun Deng, Fisher Yu and Yifan Liu(参考訳) トランスフォーマーベースの手法は、画像上の2Dおよび3D検出のベンチマークを席巻した。 注意機構の前のトークン化は空間情報を落とすため、それらの手法では位置符号化が重要となる。 近年の研究では、3D画像のサンプルに基づく符号化により、マルチカメラ3Dオブジェクト検出の品質が大幅に向上することが確認されている。 我々は3Dポイントの位置が光線よりも多くの情報を提供できると仮定する。 そこで我々は3D検出トランスフォーマーデコーダに3Dポイント位置符号化3DPPEを導入する。 モノクロ3次元物体検出では3次元計測はできないが、3DPPEは予測深度を用いて実点位置を近似する。 我々のハイブリッド深度モジュールは,各画素の微細化深度を推定するために直接および分類深度を組み合わせた。 近似にもかかわらず、3DPPEは競合するnuScenesデータセット上で46.0 mAPと51.4 NDSを達成した。 コードはhttps://github.com/drilistbox/3DPPEで公開しています。

Transformer-based methods have swept the benchmarks on 2D and 3D detection on images. Because tokenization before the attention mechanism drops the spatial information, positional encoding becomes critical for those methods. Recent works found that encodings based on samples of the 3D viewing rays can significantly improve the quality of multi-camera 3D object detection. We hypothesize that 3D point locations can provide more information than rays. Therefore, we introduce 3D point positional encoding, 3DPPE, to the 3D detection Transformer decoder. Although 3D measurements are not available at the inference time of monocular 3D object detection, 3DPPE uses predicted depth to approximate the real point positions. Our hybriddepth module combines direct and categorical depth to estimate the refined depth of each pixel. Despite the approximation, 3DPPE achieves 46.0 mAP and 51.4 NDS on the competitive nuScenes dataset, significantly outperforming encodings based on ray samples. We make the codes available at https://github.com/drilistbox/3DPPE.
翻訳日:2023-07-31 16:28:43 公開日:2023-07-28
# ポスト・エピソジック強化学習推論

Post-Episodic Reinforcement Learning Inference ( http://arxiv.org/abs/2302.08854v2 )

ライセンス: Link先を確認
Vasilis Syrgkanis, Ruohan Zhan(参考訳) エピソード強化学習(RL)アルゴリズムから収集したデータ,すなわち,各期間(いわゆるエピソード)に複数回,単一の処理単位と逐次的に相互作用する適応的実験アルゴリズムによる推定と推定について検討する。 本研究の目的は,データ収集後の非現実的適応ポリシーを評価し,クレジット割り当てに使用できる動的治療効果などの構造パラメータを推定することである(例えば,第1周期動作が最終結果にどのような影響があったか)。 このような興味のあるパラメータはモーメント方程式の解として表すことができるが、人口減少関数の最小化は行わず、静的データの場合、$Z$-estimation アプローチに繋がる。 しかし、このような推定器は適応型データ収集では漸近的に正常ではない。 本稿では,エピソード変動推定のばらつきを安定化するために,適応重みを注意深く設計した再重み付け手法であるz$推定手法を提案する。 対象パラメータに対する再重み付きZ推定器の整合性と漸近正規性を取り戻すための適切な重み付けスキームを同定し、仮説テストと対象パラメータに対する一様信頼領域の構築を可能にする。 主な応用は、動的処理効果推定と動的オフポリシー評価である。

We consider estimation and inference with data collected from episodic reinforcement learning (RL) algorithms; i.e. adaptive experimentation algorithms that at each period (aka episode) interact multiple times in a sequential manner with a single treated unit. Our goal is to be able to evaluate counterfactual adaptive policies after data collection and to estimate structural parameters such as dynamic treatment effects, which can be used for credit assignment (e.g. what was the effect of the first period action on the final outcome). Such parameters of interest can be framed as solutions to moment equations, but not minimizers of a population loss function, leading to $Z$-estimation approaches in the case of static data. However, such estimators fail to be asymptotically normal in the case of adaptive data collection. We propose a re-weighted $Z$-estimation approach with carefully designed adaptive weights to stabilize the episode-varying estimation variance, which results from the nonstationary policy that typical episodic RL algorithms invoke. We identify proper weighting schemes to restore the consistency and asymptotic normality of the re-weighted Z-estimators for target parameters, which allows for hypothesis testing and constructing uniform confidence regions for target parameters of interest. Primary applications include dynamic treatment effect estimation and dynamic off-policy evaluation.
翻訳日:2023-07-31 16:22:47 公開日:2023-07-28
# 3M3D:3次元物体検出のためのマルチビュー・マルチパス・マルチ表現

3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection ( http://arxiv.org/abs/2302.08231v3 )

ライセンス: Link先を確認
Jongwoo Park, Apoorv Singh, Varun Bankiti(参考訳) マルチカメラ画像に基づく3次元視覚認識タスクは、自律運転システムに不可欠である。 この分野での最近の研究は、マルチビューイメージを入力として活用し、オブジェクトクエリ(オブジェクト提案)を横断的なマルチビュー機能によって反復的に拡張することで、3Dオブジェクト検出を行う。 しかし、個々のバックボーン機能はマルチビュー機能では更新されず、単一のイメージバックボーンネットワークの出力の単なるコレクションとして残る。 そこで我々は3M3Dを提案する。 マルチビュー, マルチパス, 3次元オブジェクト検出のためのマルチビュー, マルチビュー, クエリ機能の両方を更新し, パノラマビューと粗いグローバルビューの両方においてシーンの表現を強化する。 まず,マルチビュー軸の自己アテンションにより,マルチビュー機能を更新する。 マルチビュー機能にパノラマ情報を導入し、グローバルなシーンの理解を深める。 第2に,機能内の局所的な詳細をエンコードするroi (region of interest) ウィンドウの自己対応により,マルチビュー機能を更新した。 これは多視点軸に沿ってだけでなく、他の空間次元に沿って情報を交換するのに役立ちます。 最後に、異なるドメインにおけるクエリの多重表現の事実を活用して、パフォーマンスをさらに向上する。 ここでは分散したフローティングクエリと密集したbev(bird's eye view)クエリを使い、後に重複検出をフィルタリングするために後処理します。 さらに,ベースライン上でのnuScenesベンチマークデータセットのパフォーマンス向上を示す。

3D visual perception tasks based on multi-camera images are essential for autonomous driving systems. Latest work in this field performs 3D object detection by leveraging multi-view images as an input and iteratively enhancing object queries (object proposals) by cross-attending multi-view features. However, individual backbone features are not updated with multi-view features and it stays as a mere collection of the output of the single-image backbone network. Therefore we propose 3M3D: A Multi-view, Multi-path, Multi-representation for 3D Object Detection where we update both multi-view features and query features to enhance the representation of the scene in both fine panoramic view and coarse global view. Firstly, we update multi-view features by multi-view axis self-attention. It will incorporate panoramic information in the multi-view features and enhance understanding of the global scene. Secondly, we update multi-view features by self-attention of the ROI (Region of Interest) windows which encodes local finer details in the features. It will help exchange the information not only along the multi-view axis but also along the other spatial dimension. Lastly, we leverage the fact of multi-representation of queries in different domains to further boost the performance. Here we use sparse floating queries along with dense BEV (Bird's Eye View) queries, which are later post-processed to filter duplicate detections. Moreover, we show performance improvements on nuScenes benchmark dataset on top of our baselines.
翻訳日:2023-07-31 16:22:25 公開日:2023-07-28
# 大$N$フォン・ノイマン代数とニュートン定数の再正規化

Large $N$ von Neumann algebras and the renormalization of Newton's constant ( http://arxiv.org/abs/2302.01938v2 )

ライセンス: Link先を確認
Elliott Gesteau(参考訳) 私は、ホログラフィック量子誤り訂正符号の大きい$N$制限で有効であり、バルク内の紫外線遮断の選択によってパラメータ化される龍高柳公式の族を導出する。 バルクエントロピー項は、バルク有効場理論を記述する大きな$N$フォンノイマン代数の中でネストされたフォンノイマン因子の族と一致する。 これらの因子は条件付き期待の族によって互いにマッピングされ、コード部分空間の正規化群フローとして解釈される。 この流れの下では、領域項とバルクエントロピー項の再正規化が互いに正確に補うことが示される。 この結果は、ER=EPRパラダイムの具体的な実現と、Susskind と Uglum による予想の明示的な証明を提供する。

I derive a family of Ryu--Takayanagi formulae that are valid in the large $N$ limit of holographic quantum error-correcting codes, and parameterized by a choice of UV cutoff in the bulk. The bulk entropy terms are matched with a family of von Neumann factors nested inside the large $N$ von Neumann algebra describing the bulk effective field theory. These factors are mapped onto one another by a family of conditional expectations, which are interpreted as a renormalization group flow for the code subspace. Under this flow, I show that the renormalizations of the area term and the bulk entropy term exactly compensate each other. This result provides a concrete realization of the ER=EPR paradigm, as well as an explicit proof of a conjecture due to Susskind and Uglum.
翻訳日:2023-07-31 16:21:35 公開日:2023-07-28
# 強化学習とグラフニューラルネットワークを用いた混在交通の自動断面積管理

Automatic Intersection Management in Mixed Traffic Using Reinforcement Learning and Graph Neural Networks ( http://arxiv.org/abs/2301.12717v2 )

ライセンス: Link先を確認
Marvin Klimke, Benjamin V\"olz, Michael Buchholz(参考訳) コネクテッド自動運転は、閉塞による問題を緩和するなど、都市交通効率を大幅に改善する可能性がある。 複数の車両の動作を協調的に最適化するために協調行動計画を用いることができる。 しかし、既存の自動交差点管理へのアプローチのほとんどは、完全に自動化されたトラフィックのみを考慮している。 実際には、混在する交通、すなわち、自動走行車と人力走行車による同時道路利用が普及する。 本稿では,強化学習とグラフに基づくシーン表現を協調型マルチエージェント計画に活用することを提案する。 我々は、このような機械学習手法が完全に自動化されたトラフィックに適用可能であることを示す以前の研究に基づいて構築した。 シーン表現は混在トラフィックのために拡張され、人間のドライバーの意図の不確実性を考慮する。 シミュレーションに基づく評価では,実世界データを用いて調整された雑音プロセスを通して測定の不確かさをモデル化する。 提案手法について,提案手法を改良した第1報,第1報,混合トラフィック管理のベースラインとして評価した。 自動走行車のシェアの増加に伴い、学習プランナーは車両のスループットを大幅に向上させ、相互作用による遅延を低減する。 非自動走行車も同様である。

Connected automated driving has the potential to significantly improve urban traffic efficiency, e.g., by alleviating issues due to occlusion. Cooperative behavior planning can be employed to jointly optimize the motion of multiple vehicles. Most existing approaches to automatic intersection management, however, only consider fully automated traffic. In practice, mixed traffic, i.e., the simultaneous road usage by automated and human-driven vehicles, will be prevalent. The present work proposes to leverage reinforcement learning and a graph-based scene representation for cooperative multi-agent planning. We build upon our previous works that showed the applicability of such machine learning methods to fully automated traffic. The scene representation is extended for mixed traffic and considers uncertainty in the human drivers' intentions. In the simulation-based evaluation, we model measurement uncertainties through noise processes that are tuned using real-world data. The paper evaluates the proposed method against an enhanced first in - first out scheme, our baseline for mixed traffic management. With increasing share of automated vehicles, the learned planner significantly increases the vehicle throughput and reduces the delay due to interaction. Non-automated vehicles benefit virtually alike.
翻訳日:2023-07-31 16:21:20 公開日:2023-07-28
# 合成負データを用いたハイブリッドオープンセットセグメンテーション

Hybrid Open-set Segmentation with Synthetic Negative Data ( http://arxiv.org/abs/2301.08555v2 )

ライセンス: Link先を確認
Matej Grci\'c and Sini\v{s}a \v{S}egvi\'c(参考訳) 開集合分割はしばしば、閉集合分類と異常検出を補完することで考え出される。 既存の濃密な異常検出装置は、正規トレーニングデータの生成モデリングまたは負のトレーニングデータに対する識別によって動作する。 これら2つのアプローチは、異なる目標を最適化し、異なる障害モードを示す。 そこで本研究では, 生成的, 識別的手がかりを融合した最初の高密度ハイブリッド異常スコアを提案する。 提案するスコアは,データ度と後方データセットの密な推定値を持つ任意の意味セグメンテーションモデルをアップグレードすることにより,効率的に実装できる。 我々の設計は、閉集合ベースライン上の無視可能な計算オーバーヘッドのため、大きな画像の効率的な推測に極めて適している。 結果として生じる密集したハイブリッドオープンセットモデルは、補助的な負のデータセットから、共同訓練された生成モデルから、または両方のソースの混合物からサンプリングできる、負のトレーニングイメージを必要とする。 我々は,高密度異常検出と開集合セグメンテーションのためのベンチマークへのコントリビューションを評価する。 この実験は、計算オーバーヘッドが無視できないにもかかわらず、強力なオープンセット性能を示す。

Open-set segmentation is often conceived by complementing closed-set classification with anomaly detection. Existing dense anomaly detectors operate either through generative modelling of regular training data or by discriminating with respect to negative training data. These two approaches optimize different objectives and therefore exhibit different failure modes. Consequently, we propose the first dense hybrid anomaly score that fuses generative and discriminative cues. The proposed score can be efficiently implemented by upgrading any semantic segmentation model with dense estimates of data likelihood and dataset posterior. Our design is a remarkably good fit for efficient inference on large images due to negligible computational overhead over the closed-set baseline. The resulting dense hybrid open-set models require negative training images that can be sampled from an auxiliary negative dataset, from a jointly trained generative model, or from a mixture of both sources. We evaluate our contributions on benchmarks for dense anomaly detection and open-set segmentation. The experiments reveal strong open-set performance in spite of negligible computational overhead.
翻訳日:2023-07-31 16:21:02 公開日:2023-07-28
# 相転移による回路複雑度:量子状態形成における結果

Circuit Complexity through phase transitions: consequences in quantum state preparation ( http://arxiv.org/abs/2301.04671v2 )

ライセンス: Link先を確認
Sebasti\'an Roca-Jerat, Teresa Sancho-Lorente, Juan Rom\'an-Roche and David Zueco(参考訳) 本稿では,量子多体系の基底状態を作成するための回路複雑性の解析を行う。 特に、基底状態が量子相転移に近づくにつれて、この複雑さがどのように成長するか。 複雑性の異なる定義、すなわちフビニ・スタディ計量(Fubini-Study metric)やニールセン複雑性(Nielsen complexity)について論じる。 また、Ising、ZZXZ、Dickeといったモデルも検討しています。 さらに, 解析的, 正確な対角化技術, 断熱アルゴリズム(近距離・非近距離), 量子変量固有解法など, 様々な形態の状態準備について検討した。 位相遷移近傍の複雑性の発散(またはその欠如)は、基底状態に到達するのに使用される操作の非局所的性質に依存する。 フビニ・スタディに基づく複雑性については、普遍的性質とその臨界指数を抽出する。 実用的なアルゴリズムでは、複雑性は状態を準備する際にシステムが量子臨界点に近づくかどうかに大きく依存する。 VQEアルゴリズムとAdiabaticアルゴリズムの両方に対して、明示的な表現を提供し、それぞれシステムサイズと実行時間に関する複雑性の増大を限定する。

In this paper, we analyze the circuit complexity for preparing ground states of quantum many-body systems. In particular, how this complexity grows as the ground state approaches a quantum phase transition. We discuss different definitions of complexity, namely the one following the Fubini-Study metric or the Nielsen complexity. We also explore different models: Ising, ZZXZ or Dicke. In addition, different forms of state preparation are investigated: analytic or exact diagonalization techniques, adiabatic algorithms (with and without shortcuts), and Quantum Variational Eigensolvers. We find that the divergence (or lack thereof) of the complexity near a phase transition depends on the non-local character of the operations used to reach the ground state. For Fubini-Study based complexity, we extract the universal properties and their critical exponents. In practical algorithms, we find that the complexity depends crucially on whether or not the system passes close to a quantum critical point when preparing the state. For both VQE and Adiabatic algorithms, we provide explicit expressions and bound the growth of complexity with respect to the system size and the execution time, respectively.
翻訳日:2023-07-31 16:20:06 公開日:2023-07-28
# 臨床CTにおける慢性閉塞性肺疾患検出のための畳み込みニューラルネットワークの最適化

Optimizing Convolutional Neural Networks for Chronic Obstructive Pulmonary Disease Detection in Clinical Computed Tomography Imaging ( http://arxiv.org/abs/2303.07189v2 )

ライセンス: Link先を確認
Tina Dorosti, Manuel Schultheiss, Felix Hofmann, Johannes Thalhammer, Luisa Kirchner, Theresa Urban, Franz Pfeiffer, Florian Schaff, Tobias Lasser, Daniela Pfeiffer(参考訳) 目的:ct画像上の手動調整型自動ウィンドウセット最適化(wso)を探索し,肺気腫と畳み込みニューラルネットワーク(cnn)を用いた慢性閉塞性肺疾患(copd)の2値検出を最適化すること。 方法は7,194枚のCT画像(3,597枚,3,597枚),78名の被験者(43枚,35枚)を振り返り(10.2018-12.2019)、前処理した。 各画像に対して、強度値を手動で気腫窓設定と「フルレンジ」窓設定にクリップした。 テストセットは3,392枚、1,114枚、2,688枚であった。 ネットワークバックボーンは、様々なCNNアーキテクチャを比較することで最適化された。 さらに、モデルにカスタマイズされたレイヤを追加することで、WSOの自動化が実現されました。 片側Mann-Whitney U-testから算出した画像レベル領域(AUC)[下限95%信頼度]とP値(P値)をモデル変動の比較に利用した。 結果: テストセットの繰り返し推論 (n=7) では, DenseNet が最も効率的なバックボーンであり, WSO を使わずに平均 AUC が 0.80 [0.76, 0.85] に達した。 入力画像が気腫ウィンドウに手動で調整された場合、DenseNetモデルは平均AUCが0.86[0.82, 0.89](P=0.03)であると予測した。 濃密網にカスタマイズされたwso層を加えることで、気腫窓設定近傍の最適な窓を自動的に学習し、平均aucを0.82[0.78, 0.86]とした。 結語: DenseNet モデルを用いた COPD の検出は,CT データから気腫窓設定範囲まで改善された。

Purpose: To optimize the binary detection of Chronic Obstructive Pulmonary Disease (COPD) based on emphysema presence in the lung with convolutional neural networks (CNN) by exploring manually adjusted versus automated window-setting optimization (WSO) on computed tomography (CT) images. Methods: 7,194 CT images (3,597 with COPD; 3,597 healthy controls) from 78 subjects (43 with COPD; 35 healthy controls) were selected retrospectively (10.2018-12.2019) and preprocessed. For each image, intensity values were manually clipped to the emphysema window setting and a baseline 'full-range' window setting. Class-balanced train, validation, and test sets contained 3,392, 1,114, and 2,688 images. The network backbone was optimized by comparing various CNN architectures. Furthermore, automated WSO was implemented by adding a customized layer to the model. The image-level area under the Receiver Operating Characteristics curve (AUC) [lower, upper limit 95% confidence] and P-values calculated from one-sided Mann-Whitney U-test were utilized to compare model variations. Results: Repeated inference (n=7) on the test set showed that the DenseNet was the most efficient backbone and achieved a mean AUC of 0.80 [0.76, 0.85] without WSO. Comparably, with input images manually adjusted to the emphysema window, the DenseNet model predicted COPD with a mean AUC of 0.86 [0.82, 0.89] (P=0.03). By adding a customized WSO layer to the DenseNet, an optimal window in the proximity of the emphysema window setting was learned automatically, and a mean AUC of 0.82 [0.78, 0.86] was achieved. Conclusion: Detection of COPD with DenseNet models was improved by WSO of CT data to the emphysema window setting range.
翻訳日:2023-07-31 16:12:42 公開日:2023-07-28
# マルチエージェント強化学習におけるエキスパートフリーオンライン転送学習

Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.01170v3 )

ライセンス: Link先を確認
Alberto Castagna and Ivana Dusparic(参考訳) 強化学習(rl)におけるトランスファーラーニングは、外部知識によるトレーニングフェーズを強化する方法を導入することで、深層rlのトレーニング問題、すなわち探索コスト、データ可用性、収束時間を克服するために広く研究されている。 一般的に知識は専門家から初心者に移される。 これにより、初心者エージェントの問題は解決されるが、そのような転送が効果的になるためには、エキスパートエージェントのタスクを十分に理解する必要がある。 本稿では,マルチエージェントシステムにおけるエキスパートフリーリアルタイム動的トランスファー学習を実現するアルゴリズムであるExpert-Free Online Transfer Learning (EF-OnTL)を提案する。 専用の専門家は存在せず、エージェントのパフォーマンスや不確実性に基づいて、転送ステップ毎に転送するトランスファーソースエージェントと知識を動的に選択する。 不確実性推定を改善するため,RLエージェントと環境相互作用から不確実性を評価するRNDの拡張であるState Action Reward Next-State Random Network Distillation (sars-RND)を提案する。 専門家エージェントの有無に関わらず,ef-ontlが非転送シナリオやアドバイスベースのベースラインに対して,cart-pole,mt-pp,hfo(half field offense)という3つのベンチマークタスクで有効性を示す。 その結果,ef-ontlは外部入力やしきい値チューニングを必要とせず,アドバイスベースのベースラインと比較した場合,全体的な比較性能が得られることがわかった。 EF-OnTLは、対処されるタスクの複雑さに関連する改善によって、非トランスファーよりも優れています。

Transfer learning in Reinforcement Learning (RL) has been widely studied to overcome training issues of Deep-RL, i.e., exploration cost, data availability and convergence time, by introducing a way to enhance training phase with external knowledge. Generally, knowledge is transferred from expert-agents to novices. While this fixes the issue for a novice agent, a good understanding of the task on expert agent is required for such transfer to be effective. As an alternative, in this paper we propose Expert-Free Online Transfer Learning (EF-OnTL), an algorithm that enables expert-free real-time dynamic transfer learning in multi-agent system. No dedicated expert exists, and transfer source agent and knowledge to be transferred are dynamically selected at each transfer step based on agents' performance and uncertainty. To improve uncertainty estimation, we also propose State Action Reward Next-State Random Network Distillation (sars-RND), an extension of RND that estimates uncertainty from RL agent-environment interaction. We demonstrate EF-OnTL effectiveness against a no-transfer scenario and advice-based baselines, with and without expert agents, in three benchmark tasks: Cart-Pole, a grid-based Multi-Team Predator-Prey (mt-pp) and Half Field Offense (HFO). Our results show that EF-OnTL achieve overall comparable performance when compared against advice-based baselines while not requiring any external input nor threshold tuning. EF-OnTL outperforms no-transfer with an improvement related to the complexity of the task addressed.
翻訳日:2023-07-31 16:11:24 公開日:2023-07-28
# 制約付き政策最適化における余剰安全予算を用いた効率的な探索

Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization ( http://arxiv.org/abs/2302.14339v2 )

ライセンス: Link先を確認
Haotian Xu and Shengjie Wang and Zhaolei Wang and Yunzhe Zhang and Qing Zhuo and Yang Gao and Tao Zhang(参考訳) 強化学習(RL)は多くのロボット制御タスクにおいて有望な結果を得た。 学習に基づくコントローラの安全性は、コントローラの有効性を保証するための重要な概念である。 現在の方法は、トレーニング中に完全な一貫性の制約を採用するため、初期段階での探索が非効率になる。 本稿では,探索効率と制約満足度とのバランスをとるために,ESB-CPO(Constrained Policy Optimization with Extra Safety Budget)というアルゴリズムを提案する。 初期段階において,本手法は,提案する新たな指標を用いて,安全でない移行(追加の安全予算)の実用的な制約を緩和する。 トレーニングプロセスでは、最適化問題の制約がより厳しくなります。 一方,理論解析と実践実験により,本手法は最終訓練段階におけるコスト限界の要求を徐々に満たしていることが示された。 Safety-Gym と Bullet-Safety-Gym のベンチマークで評価した結果,安全性と最適性の観点からベースラインアルゴリズムよりも優位性を示した。 また,本手法は,ベースラインと比較して,同じコスト制限下での顕著な性能向上を実現している。

Reinforcement learning (RL) has achieved promising results on most robotic control tasks. Safety of learning-based controllers is an essential notion of ensuring the effectiveness of the controllers. Current methods adopt whole consistency constraints during the training, thus resulting in inefficient exploration in the early stage. In this paper, we propose an algorithm named Constrained Policy Optimization with Extra Safety Budget (ESB-CPO) to strike a balance between the exploration efficiency and the constraints satisfaction. In the early stage, our method loosens the practical constraints of unsafe transitions (adding extra safety budget) with the aid of a new metric we propose. With the training process, the constraints in our optimization problem become tighter. Meanwhile, theoretical analysis and practical experiments demonstrate that our method gradually meets the cost limit's demand in the final training stage. When evaluated on Safety-Gym and Bullet-Safety-Gym benchmarks, our method has shown its advantages over baseline algorithms in terms of safety and optimality. Remarkably, our method gains remarkable performance improvement under the same cost limit compared with baselines.
翻訳日:2023-07-31 16:10:52 公開日:2023-07-28
# 非定常帯域の定義

A Definition of Non-Stationary Bandits ( http://arxiv.org/abs/2302.12202v2 )

ライセンス: Link先を確認
Yueyang Liu, Xu Kuang, Benjamin Van Roy(参考訳) 非定常バンディット学習の話題は近年注目を集めているが,非定常バンディットと定常バンディットを一貫して区別できる非定常性の定義は定まっていない。 先行研究では、非定常バンディットを、報酬分布が時間とともに変化するバンディットとして特徴づけている。 この定義は定常分布と非定常分布の両方と同じバンドイットを曖昧に分類できることを示し、この曖昧さは既存の定義の報酬分布の潜在列への依存に生じる。 さらに、この定義は、動的後悔と弱い後悔という2つの広く使われている後悔の概念を生み出した。 これらの概念は、いくつかの帯域における定性的エージェントのパフォーマンスを示すものではない。 さらに、この非定常バンディットの定義は、過剰に探索するエージェントの設計につながった。 我々は,これらの問題を解決する非定常バンディットの形式的定義を導入する。 この新しい定義は統一的なアプローチを提供し、ベイジアンおよび頻繁なバンドイットの定式化の両方にシームレスに適用できる。 さらに,本定義では,エージェントの識別不能な2つのバンディットの一貫した分類を保証し,これらを静止型か非定常型かのいずれかに分類する。 この進歩は、非定常バンディット学習のためのより堅牢なフレームワークを提供する。

Despite the subject of non-stationary bandit learning having attracted much recent attention, we have yet to identify a formal definition of non-stationarity that can consistently distinguish non-stationary bandits from stationary ones. Prior work has characterized non-stationary bandits as bandits for which the reward distribution changes over time. We demonstrate that this definition can ambiguously classify the same bandit as both stationary and non-stationary; this ambiguity arises in the existing definition's dependence on the latent sequence of reward distributions. Moreover, the definition has given rise to two widely used notions of regret: the dynamic regret and the weak regret. These notions are not indicative of qualitative agent performance in some bandits. Additionally, this definition of non-stationary bandits has led to the design of agents that explore excessively. We introduce a formal definition of non-stationary bandits that resolves these issues. Our new definition provides a unified approach, applicable seamlessly to both Bayesian and frequentist formulations of bandits. Furthermore, our definition ensures consistent classification of two bandits offering agents indistinguishable experiences, categorizing them as either both stationary or both non-stationary. This advancement provides a more robust framework for non-stationary bandit learning.
翻訳日:2023-07-31 16:10:10 公開日:2023-07-28
# エンジニアリング設計におけるマルチモーダル機械学習 : レビューと今後の方向性

Multi-modal Machine Learning in Engineering Design: A Review and Future Directions ( http://arxiv.org/abs/2302.10909v2 )

ライセンス: Link先を確認
Binyang Song, Rui Zhou, Faez Ahmed(参考訳) マルチモーダル機械学習(MMML)の急速に進歩する分野において、複数のデータモダリティの収束は様々なアプリケーションを再形成する可能性がある。 本稿では,工学設計分野におけるMMMLの現状,進歩,課題について概観する。 このレビューは、MMMLの5つの基本的な概念、マルチモーダル情報表現、融合、アライメント、翻訳、コラーニングから始まる。 次に,MMMLの最先端アプリケーションについて検討し,クロスモーダル合成,マルチモーダル予測,クロスモーダル情報検索など,エンジニアリング設計に関連するタスクに特に重点を置いている。 本総説では,工学設計におけるMMML導入の課題と今後の研究の方向性を明らかにする。 エンジニアリング設計におけるMMMLの継続的な発展を促進するため,我々は,広範囲なマルチモーダル設計データセットの構築,設計アプリケーションに適した効率的なデータ駆動型MMML技術の開発,MMMLモデルのスケーラビリティと解釈性の向上を提唱する。 次世代のインテリジェントデザインツールであるMMMLモデルは、製品の設計方法に影響を与える将来性を持っている。

In the rapidly advancing field of multi-modal machine learning (MMML), the convergence of multiple data modalities has the potential to reshape various applications. This paper presents a comprehensive overview of the current state, advancements, and challenges of MMML within the sphere of engineering design. The review begins with a deep dive into five fundamental concepts of MMML:multi-modal information representation, fusion, alignment, translation, and co-learning. Following this, we explore the cutting-edge applications of MMML, placing a particular emphasis on tasks pertinent to engineering design, such as cross-modal synthesis, multi-modal prediction, and cross-modal information retrieval. Through this comprehensive overview, we highlight the inherent challenges in adopting MMML in engineering design, and proffer potential directions for future research. To spur on the continued evolution of MMML in engineering design, we advocate for concentrated efforts to construct extensive multi-modal design datasets, develop effective data-driven MMML techniques tailored to design applications, and enhance the scalability and interpretability of MMML models. MMML models, as the next generation of intelligent design tools, hold a promising future to impact how products are designed.
翻訳日:2023-07-31 16:09:53 公開日:2023-07-28
# ディープニューラルネットワークを用いたメタラーニングによるネットワーク侵入検出

Deep Neural Networks based Meta-Learning for Network Intrusion Detection ( http://arxiv.org/abs/2302.09394v2 )

ライセンス: Link先を確認
Anabia Sohail, Bibi Ayisha, Irfan Hameed, Muhammad Mohsin Zafar, Hani Alquhayz and Asifullah Khan(参考訳) 産業の異なるコンポーネントのデジタル化と先住民ネットワーク間の相互接続性がネットワーク攻撃のリスクを高めている。 ネットワークトラフィックがさまざまな攻撃タイプを包含しているため,産業エコシステムのセキュリティを確保するための侵入検知システムの設計は困難である。 コンピュータネットワークの予測モデルを構築するために使用されるデータには、スキュークラス分布と、実際のネットワークトラフィックとは異なる攻撃型の限定表現がある。 これらの制限はデータセットシフトを引き起こし、機械学習モデルの予測能力に悪影響を及ぼし、新規攻撃に対する検出率を低下させる。 そこで本研究では,ネットワーク侵入検出のための情報融合とスタックリングアンサンブル(infuse)という,新しい深層ニューラルネットワークに基づくメタ学習フレームワークを提案する。 まず、決定空間と特徴空間を統合することで、ハイブリッドな特徴空間を作成する。 5つの異なる分類器を使用して、決定空間のプールを生成する。 機能空間は、攻撃間の意味関係を学習する深いスパースオートエンコーダを通じて強化される。 最後に、deep meta-learnerは、ハイブリッド機能空間を分析し、最終的な決定を行うためのアンサンブルコンバインとして機能する。 文字列型ベンチマークデータセットの評価と既存手法との比較により, INFUSEのFスコア0.91, 91.6%, テスト+データセット0.94, Fスコア0.91, 85.6%, テスト21データセット0.87のリコールの有効性が示された。 これらの有望な結果は、強力な一般化能力とネットワーク攻撃を検出する可能性を示している。

The digitization of different components of industry and inter-connectivity among indigenous networks have increased the risk of network attacks. Designing an intrusion detection system to ensure security of the industrial ecosystem is difficult as network traffic encompasses various attack types, including new and evolving ones with minor changes. The data used to construct a predictive model for computer networks has a skewed class distribution and limited representation of attack types, which differ from real network traffic. These limitations result in dataset shift, negatively impacting the machine learning models' predictive abilities and reducing the detection rate against novel attacks. To address the challenges, we propose a novel deep neural network based Meta-Learning framework; INformation FUsion and Stacking Ensemble (INFUSE) for network intrusion detection. First, a hybrid feature space is created by integrating decision and feature spaces. Five different classifiers are utilized to generate a pool of decision spaces. The feature space is then enriched through a deep sparse autoencoder that learns the semantic relationships between attacks. Finally, the deep Meta-Learner acts as an ensemble combiner to analyze the hybrid feature space and make a final decision. Our evaluation on stringent benchmark datasets and comparison to existing techniques showed the effectiveness of INFUSE with an F-Score of 0.91, Accuracy of 91.6%, and Recall of 0.94 on the Test+ dataset, and an F-Score of 0.91, Accuracy of 85.6%, and Recall of 0.87 on the stringent Test-21 dataset. These promising results indicate the strong generalization capability and the potential to detect network attacks.
翻訳日:2023-07-31 16:09:10 公開日:2023-07-28
# 教師なしANNベースの等化器とそのFPGA実装

Unsupervised ANN-Based Equalizer and Its Trainable FPGA Implementation ( http://arxiv.org/abs/2304.06987v2 )

ライセンス: Link先を確認
Jonas Ney, Vincent Lauinger, Laurent Schmalen, Norbert Wehn(参考訳) 近年、コミュニケーションエンジニアは、システムとそのコンポーネントの柔軟性と自律性を高めることを目的として、人工知能(ANN)ベースのアルゴリズムに重点を置いている。 この文脈では、パイロットシンボルを送信するオーバーヘッドなしに適応できるため、教師なしの訓練は特に興味深い。 本研究では、新しいANNベースの教師なし等化器とそのトレーニング可能なフィールドプログラマブルゲートアレイ(FPGA)の実装を提案する。 我々のカスタム損失関数は、ANNが様々なチャネル条件に適応し、教師付きベースラインの性能に近づくことを実証する。 さらに,実用的な通信システムに向けた第一歩として,提案アルゴリズムのFPGAによる効率的な実装を設計し,Gbit/sの順番でスループットを達成し,高性能GPUよりも大きなマージンで性能を向上する。

In recent years, communication engineers put strong emphasis on artificial neural network (ANN)-based algorithms with the aim of increasing the flexibility and autonomy of the system and its components. In this context, unsupervised training is of special interest as it enables adaptation without the overhead of transmitting pilot symbols. In this work, we present a novel ANN-based, unsupervised equalizer and its trainable field programmable gate array (FPGA) implementation. We demonstrate that our custom loss function allows the ANN to adapt for varying channel conditions, approaching the performance of a supervised baseline. Furthermore, as a first step towards a practical communication system, we design an efficient FPGA implementation of our proposed algorithm, which achieves a throughput in the order of Gbit/s, outperforming a high-performance GPU by a large margin.
翻訳日:2023-07-31 16:03:35 公開日:2023-07-28
# ランダム射影計測における自由フェルミオンの理論

Theory of free fermions under random projective measurements ( http://arxiv.org/abs/2304.03138v2 )

ライセンス: Link先を確認
Igor Poboiko, Paul P\"opperl, Igor V. Gornyi, and Alexander D. Mirlin(参考訳) ケルディッシュ経路積分形式とレプリカ・トリックに基づいて,局所的占有数のランダムな投影的測定を行う一次元自由フェルミオンの解析的手法を開発した。 希少な測定値の極限では、$\gamma / j \ll 1$(ここで$\gamma$はサイトごとの測定レートであり、$j$はタイト結合モデルにおいて定数である)、非線形シグマモデル(nlsm)を問題の有効場理論として導出する。 レプリカ対称セクターは、微分挙動を持つ$U(2) / U(1) \times U(1) \simeq S_2$ sigmaモデルで記述され、レプリカ非対称セクターは、レプリカ極限$R \to 1$ を持つ$SU(R)$多様体上で定義される二次元NLSMである。 ガウスレベルでは、極限 $\gamma / j \to 0$ において有効であり、このモデルは、サブシステム内の粒子の数と絡み合うエントロピーの第二累積の対数挙動を予測する。 しかし、一ループ再正規化群解析により、この対数成長が、領域法相に対応する稀な測定であっても、有限値$\sim (J / \gamma)^2$で飽和することを示した。 これは、自由フェルミオンに対する測定誘起エンタングルメント相転移が存在しないことを意味する。 しかし、対数成長と飽和の間の交差は指数関数的に大きなスケール、$\ln l_\text{corr} \sim j / \gamma$ で起こる。 これにより、このクロスオーバーは測定周波数 $\gamma / j$ の関数として非常に鋭く、有限サイズの数値計算において対数から領域法への遷移と容易に混同することができる。 我々は,解析予測を支援する注意深い数値解析を行った。

We develop an analytical approach to the study of one-dimensional free fermions subject to random projective measurements of local site occupation numbers, based on the Keldysh path-integral formalism and replica trick. In the limit of rare measurements, $\gamma / J \ll 1$ (where $\gamma$ is measurement rate per site and $J$ is hopping constant in the tight-binding model), we derive a non-linear sigma model (NLSM) as an effective field theory of the problem. Its replica-symmetric sector is described by a $U(2) / U(1) \times U(1) \simeq S_2$ sigma model with diffusive behavior, and the replica-asymmetric sector is a two-dimensional NLSM defined on $SU(R)$ manifold with the replica limit $R \to 1$. On the Gaussian level, valid in the limit $\gamma / J \to 0$, this model predicts a logarithmic behavior for the second cumulant of number of particles in a subsystem and for the entanglement entropy. However, the one-loop renormalization group analysis allows us to demonstrate that this logarithmic growth saturates at a finite value $\sim (J / \gamma)^2$ even for rare measurements, which corresponds to the area-law phase. This implies the absence of a measurement-induced entanglement phase transition for free fermions. The crossover between logarithmic growth and saturation, however, happens at exponentially large scale, $\ln l_\text{corr} \sim J / \gamma$. This makes this crossover very sharp as a function of the measurement frequency $\gamma / J$, which can be easily confused with a transition from the logarithmic to area law in finite-size numerical calculations. We have performed a careful numerical analysis, which supports our analytical predictions.
翻訳日:2023-07-31 16:03:20 公開日:2023-07-28
# 拡張SU(2)格子ゲージ理論における正準モーメント:定義と自由理論

Canonical Momenta in Digitized SU(2) Lattice Gauge Theory: Definition and Free Theory ( http://arxiv.org/abs/2304.02322v2 )

ライセンス: Link先を確認
Timo Jakobs and Marco Garofalo and Tobias Hartung and Karl Jansen and Johann Ostmeyer and Dominik Rolfes and Simone Romiti and Carsten Urbach(参考訳) 量子系のハミルトニアンシミュレーションはヒルベルト空間 H に作用する作用素の有限次元表現を必要とする。ここでは、SU(2)ゲージ理論のゲージリンクと正準モータについて、前者の行列表現が H において対角的であるような処方を与える。 我々は, 基本通勤関係が離散化成果物に満たされていることを示す。 さらに、Laplace-Beltrami作用素に対応するカシミール作用素を$S_3$で直接構成し、自由理論のスペクトルが再び離散化効果によって再現されることを示す。 定性的には、これらの結果は SU(2) の特定の離散化に依存しないが、実際の収束率に依存する。

Hamiltonian simulations of quantum systems require a finite-dimensional representation of the operators acting on the Hilbert space H. Here we give a prescription for gauge links and canonical momenta of an SU(2) gauge theory, such that the matrix representation of the former is diagonal in H. This is achieved by discretising the sphere $S_3$ isomorphic to SU(2) and the corresponding directional derivatives. We show that the fundamental commutation relations are fulfilled up to discretisation artefacts. Moreover, we directly construct the Casimir operator corresponding to the Laplace-Beltrami operator on $S_3$ and show that the spectrum of the free theory is reproduced again up to discretisation effects. Qualitatively, these results do not depend on the specific discretisation of SU(2), but the actual convergence rates do.
翻訳日:2023-07-31 16:02:40 公開日:2023-07-28
# キャビティ光学におけるダークモード工学によるメカニカルクイズリングの制御可能生成

Controllable generation of mechanical quadrature squeezing via dark-mode engineering in cavity optomechanics ( http://arxiv.org/abs/2304.00963v2 )

ライセンス: Link先を確認
Jian Huang, Deng-Gao Lai, and Jie-Qiao Liao(参考訳) 量子スクイージングは、量子精度測定や連続可変量子情報処理のような現代の量子技術において重要な資源である。 メカニカルモードの圧縮状態の生成は、キャビティ光学において重要な課題である。 近年のマルチモード光学への関心に触発され、マルチメカニカル共振器における二次スキューズ生成の興味深い話題となっている。 しかし、多重縮退型メカニカルモード光学系では、ダークモード効果はメカニカルモードの量子効果を強く抑制する。 本稿では, 合成ゲージ場法でダークモード効果を破り, メカニカルモード光学系におけるメカニカルスクイーズの発生について検討する。 また, 機械モードが有限温度で作用すると, ダークモード効果により機械的なスクイーズが弱くなり, 消滅するのに対し, ダークモード効果が破られると強い機械的なスクイーズが発生することがわかった。 特に、メカニカルスクイージングの熱-フォノン占有耐性は、ダークモード効果を壊さずに、それよりも約3桁大きい。 また、この手法を一般化してダークモードを破り、マルチメカニカルモードの光学系で機械的スクイーズを生成する。 本研究は, 一般の物理機構を記述し, ノイズ耐性量子リソース生成への道を開く。

Quantum squeezing is an important resource in modern quantum technologies, such as quantum precision measurement and continuous-variable quantum information processing. The generation of squeezed states of mechanical modes is a significant task in cavity optomechanics. Motivated by recent interest in multimode optomechanics, it becomes an interesting topic to create quadrature squeezing in multiple mechanical resonators. However, in the multiple-degenerate-mechanical-mode optomechanical systems, the dark-mode effect strongly suppresses the quantum effects in mechanical modes. Here we study the generation of mechanical squeezing in a two-mechanical-mode optomechanical system by breaking the dark-mode effect with the synthetic-gauge-field method. We find that when the mechanical modes work at a finite temperature, the mechanical squeezing is weak or even disappeared due to the dark-mode effect, while the strong mechanical squeezing can be generated once the dark-mode effect is broken. In particular, the thermal-phonon-occupation tolerance of the mechanical squeezing is approximately three orders of magnitude larger than that without breaking the dark-mode effect. We also generalize this method to break the dark modes and to create the mechanical squeezing in a multiple-mechanical-mode optomechanical system. Our results describe a general physical mechanism and pave the way towards the generation of noise-resistant quantum resources.
翻訳日:2023-07-31 16:02:25 公開日:2023-07-28
# 適応的メッシュリファインメントのためのSwarm強化学習

Swarm Reinforcement Learning For Adaptive Mesh Refinement ( http://arxiv.org/abs/2304.00818v2 )

ライセンス: Link先を確認
Niklas Freymuth, Philipp Dahlinger, Tobias W\"urth, Simon Reisch, Luise K\"arger, Gerhard Neumann(参考訳) 工学において重要な技術である有限要素法は、動的にメッシュ領域を洗練し、計算速度とシミュレーション精度の良好なトレードオフを可能にするAdaptive Mesh Refinement (AMR)によって支援されている。 AMRの古典的な手法はタスク固有のヒューリスティックや高価なエラー推定器に依存しており、複雑なシミュレーションでの使用を妨げる。 最近の学習されたamr法はこれらの問題に取り組むが、今のところは単純なおもちゃの例にしかスケールしない。 我々は,AMRを適応群マルコフ決定プロセスとして定式化し,メッシュを複数の新しいエージェントに分割する単純な協調エージェントのシステムとしてモデル化する。 このフレームワークは、メッセージパッシングネットワークと組み合わせて近隣のメッシュ要素間で情報を伝達する、クレジット割り当て問題を単純化する空間報酬の定式化を可能にします。 提案手法の有効性,ASMR(Adaptive Swarm Mesh Refinement)の有効性を実験的に検証し,課題の集合に対して信頼性,スケーラブル,効率的な精錬戦略を学習することを示す。 本手法は計算処理を高速化し,複雑なシミュレーションにおける一様改良に比べて最大30倍の改善を実現する。 さらに,従来のエラーベースのAMR戦略と同等の精度で,エラー信号に関する高価なオラクル情報を持たずに,学習ベースラインを上回り,精度の向上を実現している。

The Finite Element Method, an important technique in engineering, is aided by Adaptive Mesh Refinement (AMR), which dynamically refines mesh regions to allow for a favorable trade-off between computational speed and simulation accuracy. Classical methods for AMR depend on task-specific heuristics or expensive error estimators, hindering their use for complex simulations. Recent learned AMR methods tackle these problems, but so far scale only to simple toy examples. We formulate AMR as a novel Adaptive Swarm Markov Decision Process in which a mesh is modeled as a system of simple collaborating agents that may split into multiple new agents. This framework allows for a spatial reward formulation that simplifies the credit assignment problem, which we combine with Message Passing Networks to propagate information between neighboring mesh elements. We experimentally validate the effectiveness of our approach, Adaptive Swarm Mesh Refinement (ASMR), showing that it learns reliable, scalable, and efficient refinement strategies on a set of challenging problems. Our approach significantly speeds up computation, achieving up to 30-fold improvement compared to uniform refinements in complex simulations. Additionally, we outperform learned baselines and achieve a refinement quality that is on par with a traditional error-based AMR strategy without expensive oracle information about the error signal.
翻訳日:2023-07-31 16:02:01 公開日:2023-07-28
# パノVPR:パノラマを横切るスライディングウインドウによる一様視界から等角視界認識を目指して

PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place Recognition via Sliding Windows across the Panoramic View ( http://arxiv.org/abs/2303.14095v2 )

ライセンス: Link先を確認
Ze Shi, Hao Shi, Kailun Yang, Zhe Yin, Yining Lin, Kaiwei Wang(参考訳) 近年、視覚位置認識は自動運転とロボット工学において重要な技術として注目されている。 現在、ビュービュー検索(P2P)パラダイムと等方形画像検索(E2E)パラダイムの2つの主要なアプローチがある。 しかし、利用者が検索視点画像を取得し、地図提供者からパノラマデータベース画像で検索するために、消費者級のピンホールカメラのみを持っていると仮定するのは、実用的で自然なことである。 そこで本研究では,スライディングウインドウを用いてハードトリッピングによる機能停止を解消した,p2e視覚位置認識フレームワークである \textit{panovpr} を提案する。 具体的には、panovprは等角形画像全体にわたってウィンドウをスライドさせ、各ウィンドウの機能記述子を計算する。 特に、当社の統一フレームワークは、cnnだけでなくトランスフォーマーもサポートし、変更することなく、p2pメソッドからのバックボーンの直接転送を可能にします。 訓練と評価を容易にするため,pits250kからpits250k-p2eデータセットを導出し,yq360を確立した。 パノVPRはPitts250k-P2EとYQ360でそれぞれ3.8%と8.0%の性能向上を達成した。 コードとデータセットはhttps://github.com/zafirshi/PanoVPR.comで公開されている。

Visual place recognition has gained significant attention in recent years as a crucial technology in autonomous driving and robotics. Currently, the two main approaches are the perspective view retrieval (P2P) paradigm and the equirectangular image retrieval (E2E) paradigm. However, it is practical and natural to assume that users only have consumer-grade pinhole cameras to obtain query perspective images and retrieve them in panoramic database images from map providers. To address this, we propose \textit{PanoVPR}, a perspective-to-equirectangular (P2E) visual place recognition framework that employs sliding windows to eliminate feature truncation caused by hard cropping. Specifically, PanoVPR slides windows over the entire equirectangular image and computes feature descriptors for each window, which are then compared to determine place similarity. Notably, our unified framework enables direct transfer of the backbone from P2P methods without any modification, supporting not only CNNs but also Transformers. To facilitate training and evaluation, we derive the Pitts250k-P2E dataset from the Pitts250k and establish YQ360, latter is the first P2E visual place recognition dataset collected by a mobile robot platform aiming to simulate real-world task scenarios better. Extensive experiments demonstrate that PanoVPR achieves state-of-the-art performance and obtains 3.8% and 8.0% performance gain on Pitts250k-P2E and YQ360 compared to the previous best method, respectively. Code and datasets will be publicly available at https://github.com/zafirshi/PanoVPR.
翻訳日:2023-07-31 16:01:35 公開日:2023-07-28
# チャットボットのオープンドメインパラドックス:人間的な対話の基礎としての共通基盤

The Open-domain Paradox for Chatbots: Common Ground as the Basis for Human-like Dialogue ( http://arxiv.org/abs/2303.11708v2 )

ライセンス: Link先を確認
Gabriel Skantze, A. Seza Do\u{g}ru\"oz(参考訳) 大規模な言語モデルの最近の進歩によって、オープンドメインのチャットボットの開発への関心が高まっている。 対話の「開放性」は、推定された共同活動を含む、期待できる共通の基盤に関する最小限の情報を提供することによって最大化される。 しかし、その効果は逆であることを示す証拠がある。 ユーザに"何でもチャットする"ように依頼すると、非常に狭い形式の対話が出来上がり、"オープンドメインパラドックス"と呼ばれるようになる。 本稿では,このパラドックスを,人間的コミュニケーションの基盤として共通基盤の理論を用いて説明する。 さらに,オープンドメインチャットボットの背景にある仮定を疑問視し,人間とコンピュータの対話において共通基盤を実現するための経路を特定する。

There is a surge in interest in the development of open-domain chatbots, driven by the recent advancements of large language models. The "openness" of the dialogue is expected to be maximized by providing minimal information to the users about the common ground they can expect, including the presumed joint activity. However, evidence suggests that the effect is the opposite. Asking users to "just chat about anything" results in a very narrow form of dialogue, which we refer to as the "open-domain paradox". In this position paper, we explain this paradox through the theory of common ground as the basis for human-like communication. Furthermore, we question the assumptions behind open-domain chatbots and identify paths forward for enabling common ground in human-computer dialogue.
翻訳日:2023-07-31 16:01:04 公開日:2023-07-28
# 時間旅行パラドックスと絡み合ったタイムライン

Time Travel Paradoxes and Entangled Timelines ( http://arxiv.org/abs/2303.07635v2 )

ライセンス: Link先を確認
Barak Shoshany and Zipora Stober(参考訳) 時間旅行が既知の物理法則と一致するためには、結果として生じるパラドックスを解決しなければならない。 並列時間軸(すなわち複数の履歴)は解像度をもたらす可能性があると示唆されている。 しかし、これまでのところ、並列タイムラインを作成できる具体的なメカニズムは、十分に定式化されていない。 本稿では,未修正量子力学の枠組み内でのそのような機構をエベレットあるいは「マニーワールド」解釈として提案する。 私たちのモデルのタイムラインはエヴァレット解釈の「世界」のように創発的であり、タイムマシンと環境の間の量子的絡み合いによって生成される。 したがって、これらを「絡み合ったタイムライン」あるいは「E-CTC」と呼ぶ。 絡み合いが徐々に追加のシステムに広がっていくにつれて、時間軸も広がり、文学でしばしば提示される「分岐する時間軸」に対する局所的かつ明確に定義された代替手段となる。 我々のモデルは、Deutschの慣れ親しんだD-CTCモデルと異なり、いくつかの重要な方法で改善されている。

For time travel to be consistent with the known laws of physics, the resulting paradoxes must be resolved. It has been suggested that parallel timelines (a.k.a. multiple histories) may provide a resolution. However, so far, a concrete mechanism by which parallel timelines can be created has never been satisfactorily formulated. In this paper we propose such a mechanism within the framework of unmodified quantum mechanics, also known as the Everett or "many-worlds" interpretation. The timelines in our model are emergent, like the "worlds" of the Everett interpretation; they are created by quantum entanglement between the time machine and the environment. Therefore, we call them "entangled timelines" or E-CTCs. As the entanglement gradually spreads out to additional systems, the timelines spread out as well, providing a local and well-defined alternative to the naive "branching timelines" picture often presented in the literature. Our model differs from Deutsch's familiar D-CTC model and improves upon it in several important ways.
翻訳日:2023-07-31 16:00:27 公開日:2023-07-28
# 歪んだ余剰次元における絡み合いによる質量および質量重力の探索

Probing massless and massive gravitons via entanglement in a warped extra dimension ( http://arxiv.org/abs/2303.07371v3 )

ライセンス: Link先を確認
Shafaq Gulzar Elahi and Anupam Mazumdar(参考訳) 重力の量子の性質は、重力が古典的実体であれば不可能である2つの量子系の間の絡み合いを観測することで実験室で観測することができる。 本稿では、より高次元、特に5次元反ド・ジッター時空(英語版)の余剰次元(英語版)($\rm ads_5$)の効果を調べるための簡単な例を示す。 2つの量子調和振動子は、3つのブレーン(我々の4D世界)に$\rm AdS_5$に埋め込まれ、重力は5次元全てで伝播することができると仮定する。 我々は、歪んだ幾何学で伝播する無質量かつ質量の重力子による有効ポテンシャルを計算する。 静的ケースと非静的ケースの両方の位置と運動量状態の絡み合いを計算する。 エンタングルメントは4次元の質量を持たない重力子に比べて増大し、現在は$\rm AdS_5$半径に依存する。 10-14}-10^{-15}$kgと${\cal o}(20)$ micronの重ね合わせで、非ガウス的重ね合わせ状態、例えば10-14}-10^{-15}$kgの空間的重ね合わせを準備すれば、オーダー${\cal o}(0.1)$のより大きな共起が得られることも示します。

Gravity's quantum nature can be probed in a laboratory by witnessing the entanglement between the two quantum systems, which cannot be possible if gravity is a classical entity. In this paper, we will provide a simple example where we can probe the effects of higher dimensions, in particular, the warped extra dimension of five-dimensional Anti-de Sitter spacetime ($\rm AdS_5$). We assume that the two quantum harmonic oscillators are kept at a distance $d$ on a 3-brane (our 4D world) embedded in $\rm AdS_5$, while gravity can propagate in all five dimensions. We will compute the effective potential due to the massless and massive gravitons propagating in the warped geometry. We will compute the entanglement between position and momentum states for both static and non-static cases. The entanglement enhances compared to the four-dimensional massless graviton, and it depends now on the $\rm AdS_5$ radius. We will also show that if we would prepare non-Gaussian superposition states, e.g. spatial superposition of masses of order $10^{-14}-10^{-15}$kg with a superposition size of ${\cal O}(20)$ micron, we can yield larger concurrence of order ${\cal O}(0.1)$.
翻訳日:2023-07-31 16:00:10 公開日:2023-07-28
# 制限フィードバックによる余剰性能の評価

Earning Extra Performance from Restrictive Feedbacks ( http://arxiv.org/abs/2304.14831v2 )

ライセンス: Link先を確認
Jing Li, Yuangang Pan, Yueming Lyu, Yinghua Yao, Yulei Sui, and Ivor W. Tsang(参考訳) 多くの機械学習アプリケーションは、モデルプロバイダが、事前訓練されたモデルをさらに洗練して、ローカルユーザのニーズを満足させる必要がある状況に遭遇する。 この問題は、対象データがモデルに許容的に供給されると、標準モデルチューニングパラダイムに還元される。 しかし、モデルプロバイダとターゲットデータを共有していないが、一般的にはモデルに関するいくつかの評価がアクセス可能であるような、幅広いケースでは、かなり困難である。 本稿では,このモデルチューニング問題を記述するために,rerestriCTive feeddbacks} (EXPECTED) から \emph{Earning eXtra PerformancE という課題を正式に設定した。 具体的には、ローカルユーザ(あるいはユーザグループ)からのフィードバックを通じて、モデルプロバイダが複数回、候補モデルの運用パフォーマンスにアクセスすることを許可する。 モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足いくモデルを提供することです。 対象データが常にモデル勾配を計算する準備ができている既存のモデルチューニング方法とは異なり、EXPECTEDのモデルプロバイダは、推測精度や使用率など、スカラーと同じくらい単純なフィードバックしか見ていない。 この制約条件下でのチューニングを可能にするために,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。 特に、パラメータが複数の層に分散する深いモデルでは、よりクエリ効率のよいアルゴリズムがさらに設計され、より注意を払って層ごとにチューニングを行う。 様々な応用に関する広範な実験は、我々の研究が期待する問題に対する正しい解決策をもたらすことを示している。 コードはhttps://github.com/kylejingli/expectedで入手できる。

Many machine learning applications encounter a situation where model providers are required to further refine the previously trained model so as to gratify the specific need of local users. This problem is reduced to the standard model tuning paradigm if the target data is permissibly fed to the model. However, it is rather difficult in a wide range of practical cases where target data is not shared with model providers but commonly some evaluations about the model are accessible. In this paper, we formally set up a challenge named \emph{Earning eXtra PerformancE from restriCTive feEDdbacks} (EXPECTED) to describe this form of model tuning problems. Concretely, EXPECTED admits a model provider to access the operational performance of the candidate model multiple times via feedback from a local user (or a group of users). The goal of the model provider is to eventually deliver a satisfactory model to the local user(s) by utilizing the feedbacks. Unlike existing model tuning methods where the target data is always ready for calculating model gradients, the model providers in EXPECTED only see some feedbacks which could be as simple as scalars, such as inference accuracy or usage rate. To enable tuning in this restrictive circumstance, we propose to characterize the geometry of the model performance with regard to model parameters through exploring the parameters' distribution. In particular, for the deep models whose parameters distribute across multiple layers, a more query-efficient algorithm is further tailor-designed that conducts layerwise tuning with more attention to those layers which pay off better. Extensive experiments on different applications demonstrate that our work forges a sound solution to the EXPECTED problem. Code is available via https://github.com/kylejingli/EXPECTED.
翻訳日:2023-07-31 15:53:36 公開日:2023-07-28
# 形状, 材料, 照明のニューラルPBIR再構成

Neural-PBIR Reconstruction of Shape, Material, and Illumination ( http://arxiv.org/abs/2304.13445v2 )

ライセンス: Link先を確認
Cheng Sun, Guangyan Cai, Zhengqin Li, Kai Yan, Cheng Zhang, Carl Marshall, Jia-Bin Huang, Shuang Zhao, Zhao Dong(参考訳) 物体の2d画像(例えば写真)に基づく物理世界の物体の形状と空間的に変化する表面の外観の再構築は、コンピュータビジョンやグラフィックスにおいて長年の課題となっている。 本稿では,ニューラルベースオブジェクト再構成と物理ベースの逆レンダリング(pbir)を組み合わせたロバストなオブジェクト再構成パイプラインを提案する。 具体的には、パイプラインはまず神経ステージを利用して、オブジェクトの形状、反射率、照明に関する高品質だが、潜在的に不完全な予測を生成します。 そして, 神経予測によって初期化される後期段階において, pbirを行い, 初期結果を洗練し, 最終的な高品質な再構築を得る。 実験の結果,パイプラインは既存の再構築手法よりも品質,性能に優れていた。

Reconstructing the shape and spatially varying surface appearances of a physical-world object as well as its surrounding illumination based on 2D images (e.g., photographs) of the object has been a long-standing problem in computer vision and graphics. In this paper, we introduce a robust object reconstruction pipeline combining neural based object reconstruction and physics-based inverse rendering (PBIR). Specifically, our pipeline firstly leverages a neural stage to produce high-quality but potentially imperfect predictions of object shape, reflectance, and illumination. Then, in the later stage, initialized by the neural predictions, we perform PBIR to refine the initial results and obtain the final high-quality reconstruction. Experimental results demonstrate our pipeline significantly outperforms existing reconstruction methods quality-wise and performance-wise.
翻訳日:2023-07-31 15:52:48 公開日:2023-07-28
# 確率分布の近接性と$k$-wise一様性に対する付帯量子テスター

Succinct quantum testers for closeness and $k$-wise uniformity of probability distributions ( http://arxiv.org/abs/2304.12916v2 )

ライセンス: Link先を確認
Jingquan Luo and Qisheng Wang and Lvzhou Li(参考訳) 確率分布の近さ特性と$k$-wise均一性をテストする基本的な問題に対する潜在的な量子スピードアップについて検討する。 \textit{closeness testing} は、2つの n 次元分布が同一か少なくとも $\varepsilon$-far か $\ell^1$- か $\ell^2$- distance かを区別する問題である。 我々は、$\ell^1$- と $\ell^2$- の量子クエリの複雑さは $o\rbra{\sqrt{n}/\varepsilon}$ と $o\rbra{1/\varepsilon}$ であり、どちらも$\varepsilon$ への最適依存を実現し、 \hyperlink{cite.gilyen2019distributional}{gily{\'e}n と li~(2019)} の先行結果を改善する。 \textit{$k$-wise uniformity testing} は、$\cbra{0, 1}^n$ 上の分布が任意の$k$座標または$\varepsilon$-far に制限されたときに一様かどうかを区別する問題である。 この問題に対する最初の量子アルゴリズムとして,クエリ複雑性 $o\rbra{\sqrt{n^k}/\varepsilon}$ を提案し,サンプル複雑性 $o\rbra{n^k/\varepsilon^2}$ by \hyperlink{cite.o2018closeness}{o'donnell and zhao (2018)} を用いて,最先端の古典アルゴリズムの2次高速化を実現する。 さらに、$k = 2$のとき、我々の量子アルゴリズムは古典的下界$\Omega\rbra{n/\varepsilon^2}$のために古典的よりも優れる。 我々の量子アルゴリズムは、振幅推定のような基本的な量子サブルーチンのみを用いて、かなり単純で時間効率が高い。

We explore potential quantum speedups for the fundamental problem of testing the properties of closeness and $k$-wise uniformity of probability distributions. \textit{Closeness testing} is the problem of distinguishing whether two $n$-dimensional distributions are identical or at least $\varepsilon$-far in $\ell^1$- or $\ell^2$-distance. We show that the quantum query complexities for $\ell^1$- and $\ell^2$-closeness testing are $O\rbra{\sqrt{n}/\varepsilon}$ and $O\rbra{1/\varepsilon}$, respectively, both of which achieve optimal dependence on $\varepsilon$, improving the prior best results of \hyperlink{cite.gilyen2019distributional}{Gily{\'e}n and Li~(2019)}. \textit{$k$-wise uniformity testing} is the problem of distinguishing whether a distribution over $\cbra{0, 1}^n$ is uniform when restricted to any $k$ coordinates or $\varepsilon$-far from any such distributions. We propose the first quantum algorithm for this problem with query complexity $O\rbra{\sqrt{n^k}/\varepsilon}$, achieving a quadratic speedup over the state-of-the-art classical algorithm with sample complexity $O\rbra{n^k/\varepsilon^2}$ by \hyperlink{cite.o2018closeness}{O'Donnell and Zhao (2018)}. Moreover, when $k = 2$ our quantum algorithm outperforms any classical one because of the classical lower bound $\Omega\rbra{n/\varepsilon^2}$. All our quantum algorithms are fairly simple and time-efficient, using only basic quantum subroutines such as amplitude estimation.
翻訳日:2023-07-31 15:52:36 公開日:2023-07-28
# 量子有限オートマタの浅実装のためのGAP

GAPs for Shallow Implementation of Quantum Finite Automata ( http://arxiv.org/abs/2304.12868v2 )

ライセンス: Link先を確認
Mansur Ziiatdinov, Aliya Khadieva, Abuzer Yakary{\i}lmaz(参考訳) 量子フィンガープリントは古典的な入力語を量子状態にマッピングする技法である。 得られた量子状態は元の単語よりもはるかに短く、その処理はリソースを少なくし、量子アルゴリズム、通信、暗号において有用である。 量子フィンガープリントの例としては、$mod_{p}=\{a^{i\cdot p} \mid i \geq 0\}$言語のための量子オートマトンアルゴリズムがある。 しかし、このようなオートマトンを現在の量子ハードウェアに実装することは効率的ではない。 量子フィンガープリントは、$x \in \{0,1\}^{n}$ of length $n$ to a state $|\psi(x)\rangle$ of $o(\log n)$ qubits にマッピングし、$o(n)$ ユニタリ演算を使用する。 現在の量子コンピュータの利用可能な全ての量子ビットを用いた量子指紋の計算は、多数の量子演算のために不可能である。 量子フィンガープリントを実用的なものにするには、従来の研究とは対照的に、幅ではなく深さの回路を最適化する必要がある。 一般化算術進行法(gaps)などの加法コンビネータのツールに基づく量子フィンガープリントの明示的な手法を提案し,これらの手法が確率的手法に匹敵する回路深さを提供することを示す。 また,提案手法を,明示的な量子フィンガープリンティング手法の先行研究と比較した。

Quantum fingerprinting is a technique that maps classical input word to a quantum state. The obtained quantum state is much shorter than the original word, and its processing uses less resources, making it useful in quantum algorithms, communication, and cryptography. One of the examples of quantum fingerprinting is quantum automata algorithms for $MOD_{p}=\{a^{i\cdot p} \mid i \geq 0\}$ languages, where $p$ is a prime number. However, implementing such an automaton on the current quantum hardware is not efficient. Quantum fingerprinting maps a word $x \in \{0,1\}^{n}$ of length $n$ to a state $|\psi(x)\rangle$ of $O(\log n)$ qubits, and uses $O(n)$ unitary operations. Computing quantum fingerprint using all available qubits of the current quantum computers is infeasible due to a large number of quantum operations. To make quantum fingerprinting practical, we should optimize the circuit for depth instead of width in contrast to the previous works. We propose explicit methods of quantum fingerprinting based on tools from additive combinatorics, such as generalized arithmetic progressions (GAPs), and prove that these methods provide circuit depth comparable to a probabilistic method. We also compare our method to prior work on explicit quantum fingerprinting methods.
翻訳日:2023-07-31 15:51:50 公開日:2023-07-28
# 逆赤外線ブロック:物理世界における熱赤外検出器に対するマルチビューブラックボックス攻撃

Adversarial Infrared Blocks: A Multi-view Black-box Attack to Thermal Infrared Detectors in Physical World ( http://arxiv.org/abs/2304.10712v4 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi, Tingsong Jiang, Wen Yao, Ling Tian, Xiaoqian Chen(参考訳) 赤外線イメージングシステムは歩行者検出や自動運転に多くの応用可能性があり、その安全性は大きな関心事となっている。 しかし、実世界における赤外線イメージングシステムの安全性を探求する研究はほとんどない。 これまでの研究では、小さな電球や熱的なQRコードなどの物理的摂動を利用して赤外線イメージング検出器を攻撃してきたが、そのような手法は見えやすく、ステルス性に欠けていた。 他の研究者は赤外線イメージング検出器を騙すために熱いブロックや冷たいブロックを使っているが、この方法は様々な角度から攻撃を行う能力に限られている。 これらの欠点に対処するために,逆赤外線ブロック(AdvIB)と呼ばれる新しい物理的攻撃を提案する。 逆赤外ブロックの物理パラメータを最適化することにより、様々な角度から熱画像システムに対するステルスブラックボックス攻撃を実行することができる。 提案手法の有効性,ステルス性,堅牢性に基づいて評価を行った。 提案手法は,ほとんどの距離および角度条件下で80%以上の成功率を達成し,その有効性を検証した。 ステルス性には,赤外線ブロックを衣服の内側に装着し,そのステルス性を高めることが必要である。 さらに, 提案手法を先進検出器で試験し, 実験結果から平均攻撃成功率51.2%を示し, その堅牢性を示した。 全体として,提案するadvib手法は,実世界の安全とセキュリティに潜在的に影響するサーマルイメージングシステムに対して,ステルスで効果的で堅牢なブラックボックス攻撃を行うための有望な手段を提供する。

Infrared imaging systems have a vast array of potential applications in pedestrian detection and autonomous driving, and their safety performance is of great concern. However, few studies have explored the safety of infrared imaging systems in real-world settings. Previous research has used physical perturbations such as small bulbs and thermal "QR codes" to attack infrared imaging detectors, but such methods are highly visible and lack stealthiness. Other researchers have used hot and cold blocks to deceive infrared imaging detectors, but this method is limited in its ability to execute attacks from various angles. To address these shortcomings, we propose a novel physical attack called adversarial infrared blocks (AdvIB). By optimizing the physical parameters of the adversarial infrared blocks, this method can execute a stealthy black-box attack on thermal imaging system from various angles. We evaluate the proposed method based on its effectiveness, stealthiness, and robustness. Our physical tests show that the proposed method achieves a success rate of over 80% under most distance and angle conditions, validating its effectiveness. For stealthiness, our method involves attaching the adversarial infrared block to the inside of clothing, enhancing its stealthiness. Additionally, we test the proposed method on advanced detectors, and experimental results demonstrate an average attack success rate of 51.2%, proving its robustness. Overall, our proposed AdvIB method offers a promising avenue for conducting stealthy, effective and robust black-box attacks on thermal imaging system, with potential implications for real-world safety and security applications.
翻訳日:2023-07-31 15:51:16 公開日:2023-07-28
# ダウンサンプリング不分散損失と条件付きブラインドスポットネットワークを用いた自己教師あり画像の雑音化

Self-supervised Image Denoising with Downsampled Invariance Loss and Conditional Blind-Spot Network ( http://arxiv.org/abs/2304.09507v2 )

ライセンス: Link先を確認
Yeong Il Jang, Keuntek Lee, Gu Yong Park, Seyun Kim, Nam Ik Cho(参考訳) ディープニューラルネットワークを用いた画像デノイザは数多く存在し、従来のモデルベース手法を大きなマージンで上回っている。 近年,教師付き訓練のための大規模実雑音データセットの構築が大きな負担となるため,自己監督手法が注目されている。 最も代表的な自己監督型デノイザは、受信フィールドの中心ピクセルを除外する盲点ネットワークに基づいている。 しかし、入力画素を除くと、特に対応する出力位置の入力画素が除外された場合、いくつかの情報を捨てる。 さらに、標準的な盲点ネットワークは、ノイズのピクセルワイド相関による実際のカメラノイズを低減できないが、独立に分散された合成ノイズを除去することに成功した。 そこで,より実用的なデノイザーを実現するために,実雑音を除去できる新しい自己教師付き学習フレームワークを提案する。 このために、ネットワークがダウンサンプリングされたブラインド出力によって誘導される教師付き損失の理論上上限を導出する。 また,ネットワークの盲点を選択的に制御して中心画素情報を使用する条件付きブラインドスポットネットワーク(c-bsn)を設計する。 さらに,無作為なサブサンプラーを用いて雑音を空間的にデコレーションし,C-BSNはダウンサンプル方式でよく見られる視覚的アーティファクトを含まないようにした。 大規模な実験により、提案したC-BSNは、自己教師付きデノイザとして現実のデータセット上での最先端のパフォーマンスを達成し、後処理や改善なしに質的に満足な結果を示す。

There have been many image denoisers using deep neural networks, which outperform conventional model-based methods by large margins. Recently, self-supervised methods have attracted attention because constructing a large real noise dataset for supervised training is an enormous burden. The most representative self-supervised denoisers are based on blind-spot networks, which exclude the receptive field's center pixel. However, excluding any input pixel is abandoning some information, especially when the input pixel at the corresponding output position is excluded. In addition, a standard blind-spot network fails to reduce real camera noise due to the pixel-wise correlation of noise, though it successfully removes independently distributed synthetic noise. Hence, to realize a more practical denoiser, we propose a novel self-supervised training framework that can remove real noise. For this, we derive the theoretic upper bound of a supervised loss where the network is guided by the downsampled blinded output. Also, we design a conditional blind-spot network (C-BSN), which selectively controls the blindness of the network to use the center pixel information. Furthermore, we exploit a random subsampler to decorrelate noise spatially, making the C-BSN free of visual artifacts that were often seen in downsample-based methods. Extensive experiments show that the proposed C-BSN achieves state-of-the-art performance on real-world datasets as a self-supervised denoiser and shows qualitatively pleasing results without any post-processing or refinement.
翻訳日:2023-07-31 15:50:28 公開日:2023-07-28
# 限定ショット数による近接場iToF LIDAR深度改善

Near Field iToF LIDAR Depth Improvement from Limited Number of Shots ( http://arxiv.org/abs/2304.07047v2 )

ライセンス: Link先を確認
Mena Nagiub, Thorsten Beuth, Ganesh Sistu, Heinrich Gotzig, Ciar\'an Eising(参考訳) 間接飛行時間 LiDAR は、予め定義された周波数で変調された振幅で送信されたレーザ信号と受信されたレーザー信号の間の位相シフト角からシーンの深さを間接的に計算することができる。 残念ながら、この方法は位相シフト角値が2\pi$を超えると計算された深さで曖昧さを生成する。 現在の最先端手法では、2つの異なる変調周波数を用いて生成されたサンプルを用いて、あいまいさを克服している。 しかし、これはレーザー成分の応力を増大させ、温度を上昇させることで寿命を短縮し、消費電力を増大させる。 本研究では,レーザ部品の応力と消費電力を低減させるため,センサのグレースケール出力をサポートした単一変調周波数からのサンプルサンプルショットを少なくして,LiDARの全深度範囲を復元する2つの方法を検討した。

Indirect Time of Flight LiDARs can indirectly calculate the scene's depth from the phase shift angle between transmitted and received laser signals with amplitudes modulated at a predefined frequency. Unfortunately, this method generates ambiguity in calculated depth when the phase shift angle value exceeds $2\pi$. Current state-of-the-art methods use raw samples generated using two distinct modulation frequencies to overcome this ambiguity problem. However, this comes at the cost of increasing laser components' stress and raising their temperature, which reduces their lifetime and increases power consumption. In our work, we study two different methods to recover the entire depth range of the LiDAR using fewer raw data sample shots from a single modulation frequency with the support of sensor's gray scale output to reduce the laser components' stress and power consumption.
翻訳日:2023-07-31 15:49:38 公開日:2023-07-28
# CN-Celeb-AV: 人物認識のための多世代オーディオビジュアルデータセット

CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition ( http://arxiv.org/abs/2305.16049v2 )

ライセンス: Link先を確認
Lantian Li and Xiaolou Li and Haoyu Jiang and Chen Chen and Ruihai Hou and Dong Wang(参考訳) audio-visual person recognition (avpr) が注目されている。 しかし、これまでのAVPR研究に用いられるほとんどのデータセットは制約のある環境で収集されているため、実際のシナリオにおけるAVPRシステムの真のパフォーマンスを反映することはできない。 本研究では,非拘束条件下でのAVPR研究の要請に応えるため,CN-Celeb-AVという「野生」で収集された多世代AVPRデータセットを提案する。 このデータセットには、公開メディアの1,136人のビデオセグメントが419k以上含まれている。 特に,(1)複数のジャンルのデータ,(2)部分的な情報を含むセグメントという2つの現実世界の複雑さを強調する。 CN-Celeb-AVを2つのパブリックなAVPRベンチマークデータセットと比較する総合的研究を行い、その結果、CN-Celeb-AVは現実世界のシナリオと一致しており、AVPR研究の新しいベンチマークデータセットとみなすことができることを示した。 データセットには、実際の状況下でのAVPRシステムのパフォーマンス向上に使用できる開発セットも含まれている。 データセットは研究者は無料で、http://cnceleb.org/からダウンロードできる。

Audio-visual person recognition (AVPR) has received extensive attention. However, most datasets used for AVPR research so far are collected in constrained environments, and thus cannot reflect the true performance of AVPR systems in real-world scenarios. To meet the request for research on AVPR in unconstrained conditions, this paper presents a multi-genre AVPR dataset collected `in the wild', named CN-Celeb-AV. This dataset contains more than 419k video segments from 1,136 persons from public media. In particular, we put more emphasis on two real-world complexities: (1) data in multiple genres; (2) segments with partial information. A comprehensive study was conducted to compare CN-Celeb-AV with two popular public AVPR benchmark datasets, and the results demonstrated that CN-Celeb-AV is more in line with real-world scenarios and can be regarded as a new benchmark dataset for AVPR research. The dataset also involves a development set that can be used to boost the performance of AVPR systems in real-life situations. The dataset is free for researchers and can be downloaded from http://cnceleb.org/.
翻訳日:2023-07-31 15:43:51 公開日:2023-07-28
# Embrace Limited and Imperfect Training Datasets:Deep Learningを用いた植物病認識の可能性と課題

Embrace Limited and Imperfect Training Datasets: Opportunities and Challenges in Plant Disease Recognition Using Deep Learning ( http://arxiv.org/abs/2305.11533v2 )

ライセンス: Link先を確認
Mingle Xu and Hyongsuk Kim and Jucheng Yang and Alvaro Fuentes and Yao Meng and Sook Yoon and Taehyun Kim and Dong Sun Park(参考訳) 近年の深層学習の進歩は、植物疾患の認識に大きな改善をもたらした。 しかし、十分なパフォーマンスを達成するには、しばしば高品質なトレーニングデータセットが必要です。 その結果、現実世界のシナリオにおける現在のディープラーニングベースの手法の実践的応用は、高品質なデータセットの不足によって妨げられる。 本稿では,これらのデータセットの使用に関する課題を明確に定義することを目的とする。 本稿では,高品質なデータセット,すなわち大規模画像と所望のアノテーションの特徴を分析し,貧弱なデータセットの<emph{limited}>や<emph{imperfect>と対比する。 トレーニングデータセットがこれらの特徴から逸脱すると、課題が発生する。 包括的理解のために,これらの課題を分類する新規かつ情報的分類法を提案する。 さらに,これらの課題に対処する既存の研究とアプローチの概要について述べる。 われわれの論文は、貧弱なデータセットを受け入れることの重要性に光を当て、関連する課題の理解を高め、現実世界のアプリケーションにディープラーニングをデプロイするという野心的な目標に寄与すると考えている。 進展を促進するために,いくつかの優れた質問を最終的に記述し,今後の方向性を指摘する。 我々は植物病の認識に重点を置いているが、貧弱なデータセットを受け入れて分析する原則は農業を含む幅広い分野に適用可能であることを強調する。

Recent advancements in deep learning have brought significant improvements to plant disease recognition. However, achieving satisfactory performance often requires high-quality training datasets, which are challenging and expensive to collect. Consequently, the practical application of current deep learning-based methods in real-world scenarios is hindered by the scarcity of high-quality datasets. In this paper, we argue that embracing poor datasets is viable and aim to explicitly define the challenges associated with using these datasets. To delve into this topic, we analyze the characteristics of high-quality datasets, namely large-scale images and desired annotation, and contrast them with the \emph{limited} and \emph{imperfect} nature of poor datasets. Challenges arise when the training datasets deviate from these characteristics. To provide a comprehensive understanding, we propose a novel and informative taxonomy that categorizes these challenges. Furthermore, we offer a brief overview of existing studies and approaches that address these challenges. We believe that our paper sheds light on the importance of embracing poor datasets, enhances the understanding of the associated challenges, and contributes to the ambitious objective of deploying deep learning in real-world applications. To facilitate the progress, we finally describe several outstanding questions and point out potential future directions. Although our primary focus is on plant disease recognition, we emphasize that the principles of embracing and analyzing poor datasets are applicable to a wider range of domains, including agriculture.
翻訳日:2023-07-31 15:43:32 公開日:2023-07-28
# huging faceのmlモデルの炭素フットプリントの検討--レポジトリマイニングによる研究

Exploring the Carbon Footprint of Hugging Face's ML Models: A Repository Mining Study ( http://arxiv.org/abs/2305.11164v2 )

ライセンス: Link先を確認
Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch, Justus Bogner(参考訳) 機械学習(ML)システムの台頭は、能力とモデルサイズの増加により、その炭素フットプリントを悪化させた。 しかしながら、mlモデルの炭素フットプリントが実際に測定、報告、評価される方法についての知識は乏しい。 そこで本論文は,Hugging Faceにおける1,417のMLモデルと関連するデータセットの炭素フットプリントの測定を解析することを目的としている。 目標は、MLモデルの炭素効率を報告し最適化する方法に関する洞察とレコメンデーションを提供することだ。 この研究には、炭素排出量に関するHugging Face Hub APIに関する最初のリポジトリマイニング研究が含まれている。 この研究は,(1)MLモデル作成者がHugging Face Hub上でどのように二酸化炭素排出量を測定し,報告するかという2つの研究課題に答えようとしている。 トレーニングMLモデルの二酸化炭素排出量にどのような影響があるのか? この研究はいくつかの重要な発見をもたらした。 これには、炭素排出報告モデルの停滞率、過去2年間のハグ面における報告された炭素フットプリントのわずかな減少、メインアプリケーションドメインとしてのnlpの継続的な支配などが含まれる。 さらに、この研究は、二酸化炭素排出量とモデルサイズ、データセットサイズ、MLアプリケーションドメインといった様々な属性の相関関係を明らかにする。 これらの結果は、Hugging Faceコミュニティ内のエネルギーレポートのプラクティスを改善し、炭素効率の良いモデル開発を促進するためのソフトウェア測定の必要性を強調している。 この問題への対応として, 二酸化炭素排出報告に基づくモデル分類と, 炭素効率の分類の2つの分類が提案されている。 これらの分類提案の目的は、MLコミュニティにおける透明性と持続可能なモデル開発を促進することである。

The rise of machine learning (ML) systems has exacerbated their carbon footprint due to increased capabilities and model sizes. However, there is scarce knowledge on how the carbon footprint of ML models is actually measured, reported, and evaluated. In light of this, the paper aims to analyze the measurement of the carbon footprint of 1,417 ML models and associated datasets on Hugging Face, which is the most popular repository for pretrained ML models. The goal is to provide insights and recommendations on how to report and optimize the carbon efficiency of ML models. The study includes the first repository mining study on the Hugging Face Hub API on carbon emissions. This study seeks to answer two research questions: (1) how do ML model creators measure and report carbon emissions on Hugging Face Hub?, and (2) what aspects impact the carbon emissions of training ML models? The study yielded several key findings. These include a stalled proportion of carbon emissions-reporting models, a slight decrease in reported carbon footprint on Hugging Face over the past 2 years, and a continued dominance of NLP as the main application domain. Furthermore, the study uncovers correlations between carbon emissions and various attributes such as model size, dataset size, and ML application domains. These results highlight the need for software measurements to improve energy reporting practices and promote carbon-efficient model development within the Hugging Face community. In response to this issue, two classifications are proposed: one for categorizing models based on their carbon emission reporting practices and another for their carbon efficiency. The aim of these classification proposals is to foster transparency and sustainable model development within the ML community.
翻訳日:2023-07-31 15:43:07 公開日:2023-07-28
# 咽頭臓器のドメイン適応sim-to-real segmentation

Domain Adaptive Sim-to-Real Segmentation of Oropharyngeal Organs ( http://arxiv.org/abs/2305.10883v2 )

ライセンス: Link先を確認
Guankun Wang, Tian-Ao Ren, Jiewen Lai, Long Bai, and Hongliang Ren(参考訳) 経鼻的気管挿管術(ti)は,食道の代わりに気管管を声門に挿入する内視鏡を用いて行う。 ロボット支援型TIの流行は、教師付きディープラーニング技術を利用して模倣できる経験豊富な医師のような解剖学的特徴を識別する医療ロボットを必要としている。 しかし、咽頭臓器の実際のデータセットは、限られたオープンソースデータと患者のプライバシーのためにアクセスできないことが多い。 そこで本研究では,言語器官のイメージセグメンテーションのためのドメイン適応型Sim-to-RealフレームワークIoU-Ranking Blend-ArtFlow(IRB-AF)を提案する。 このフレームワークには、IoU-Ranking Blend(IRB)と呼ばれる画像ブレンディング戦略とスタイル転送メソッドArtFlowが含まれている。 ここで、IRBは、大きなデータセットのドメイン差に起因するセグメンテーション性能の低下を軽減しますが、ArtFlowはデータセット間の差異をさらに軽減するために導入されています。 意味的セグメンテーションの学習対象として、SOFAフレームワークによって生成された仮想咽頭画像データセットを用いて、実際の内視鏡画像の可用性の限界に対処する。 IRB-AFを最先端領域適応セグメンテーションモデルに適用した。 その結果, セグメンテーション精度とトレーニング安定性を向上する上で, 提案手法の優れた性能を示すことができた。

Video-assisted transoral tracheal intubation (TI) necessitates using an endoscope that helps the physician insert a tracheal tube into the glottis instead of the esophagus. The growing trend of robotic-assisted TI would require a medical robot to distinguish anatomical features like an experienced physician which can be imitated by utilizing supervised deep-learning techniques. However, the real datasets of oropharyngeal organs are often inaccessible due to limited open-source data and patient privacy. In this work, we propose a domain adaptive Sim-to-Real framework called IoU-Ranking Blend-ArtFlow (IRB-AF) for image segmentation of oropharyngeal organs. The framework includes an image blending strategy called IoU-Ranking Blend (IRB) and style-transfer method ArtFlow. Here, IRB alleviates the problem of poor segmentation performance caused by significant datasets domain differences; while ArtFlow is introduced to reduce the discrepancies between datasets further. A virtual oropharynx image dataset generated by the SOFA framework is used as the learning subject for semantic segmentation to deal with the limited availability of actual endoscopic images. We adapted IRB-AF with the state-of-the-art domain adaptive segmentation models. The results demonstrate the superior performance of our approach in further improving the segmentation accuracy and training stability.
翻訳日:2023-07-31 15:42:41 公開日:2023-07-28
# 局所スペクトル時間特性の音声解析への応用

Boosting Local Spectro-Temporal Features for Speech Analysis ( http://arxiv.org/abs/2305.10270v2 )

ライセンス: Link先を確認
Michael Guerzhoy(参考訳) 本稿では,音声認識の文脈における電話分類の問題を紹介し,電話分類に使用できる局所分光時間特徴の組について検討する。 特に,物体検出によく用いられる2種類の特徴を用いた音声分類の予備的結果として,Hear特徴とSVM分類Histograms of Gradients (HoG)を提案する。

We introduce the problem of phone classification in the context of speech recognition, and explore several sets of local spectro-temporal features that can be used for phone classification. In particular, we present some preliminary results for phone classification using two sets of features that are commonly used for object detection: Haar features and SVM-classified Histograms of Gradients (HoG).
翻訳日:2023-07-31 15:42:19 公開日:2023-07-28
# グラフニューラルネットワークと三次元トポロジー

Graph Neural Networks and 3-Dimensional Topology ( http://arxiv.org/abs/2305.05966v2 )

ライセンス: Link先を確認
Pavel Putrov and Song Jin Ri(参考訳) 低次元トポロジーにおける問題に対する幾何学的深層学習の適用効率を,ある簡単な設定で検証する。 具体的には、グラフを配管して記述した3次元多様体のクラスを考察し、グラフのペアが同相な3次元多様体を与えるかどうかを決定する問題にグラフニューラルネットワーク(GNN)を用いる。 我々は教師付き学習を用いて、そのような質問に対する回答を高精度に提供するGNNを訓練する。 さらに,gnnによる強化学習について検討し,回答が正であればグラフの対を関連付けるノイマン運動の列を求める。 この設定は、カービー図形の対が微分同相 3 あるいは 4-多様体を与えるかどうかを決定する問題のおもちゃモデルとして理解することができる。

We test the efficiency of applying Geometric Deep Learning to the problems in low-dimensional topology in a certain simple setting. Specifically, we consider the class of 3-manifolds described by plumbing graphs and use Graph Neural Networks (GNN) for the problem of deciding whether a pair of graphs give homeomorphic 3-manifolds. We use supervised learning to train a GNN that provides the answer to such a question with high accuracy. Moreover, we consider reinforcement learning by a GNN to find a sequence of Neumann moves that relates the pair of graphs if the answer is positive. The setting can be understood as a toy model of the problem of deciding whether a pair of Kirby diagrams give diffeomorphic 3- or 4-manifolds.
翻訳日:2023-07-31 15:41:51 公開日:2023-07-28
# SANTA:遠隔教師付きエンティティ認識における不正確・不完全アノテーションノイズの分離戦略

SANTA: Separate Strategies for Inaccurate and Incomplete Annotation Noise in Distantly-Supervised Named Entity Recognition ( http://arxiv.org/abs/2305.04076v2 )

ライセンス: Link先を確認
Shuzheng Si, Zefan Cai, Shuang Zeng, Guoqiang Feng, Jiaxing Lin, Baobao Chang(参考訳) Distantly-Supervised Named Entity Recognitionは、教師付き設定における時間と高価なアノテーションの負担を効果的に軽減します。 しかし、文脈自由マッチングプロセスと知識ベースの範囲の限定は、それぞれ不正確なアノテーションノイズと不完全なアノテーションノイズをもたらす。 従来の研究では、不完全なアノテーションノイズのみを考慮するか、同じ戦略で2種類のノイズを区別しない。 本稿では,2種類のノイズの異なる原因が,モデルアーキテクチャにおける異なる戦略の要件を生じさせると主張する。 そこで,この2つのノイズを,(1)不正確なアノテーションによるエンティティ曖昧性問題を軽減するために,(1)メモリスムースな焦点損失とエンティティアウェアknと,(2)不完全アノテーションと雑音耐性損失による決定境界シフト問題を軽減するための境界ミックスアップによって対処し,ロバスト性を向上させることを提案する。 個別に調整した戦略の恩恵を受け、この2つのタイプのノイズが十分に緩和されていることを実験で確認した。 また、santaは5つのパブリックデータセットで最新技術を実現している。

Distantly-Supervised Named Entity Recognition effectively alleviates the burden of time-consuming and expensive annotation in the supervised setting. But the context-free matching process and the limited coverage of knowledge bases introduce inaccurate and incomplete annotation noise respectively. Previous studies either considered only incomplete annotation noise or indiscriminately handle two types of noise with the same strategy. In this paper, we argue that the different causes of two types of noise bring up the requirement of different strategies in model architecture. Therefore, we propose the SANTA to handle these two types of noise separately with (1) Memory-smoothed Focal Loss and Entity-aware KNN to relieve the entity ambiguity problem caused by inaccurate annotation, and (2) Boundary Mixup to alleviate decision boundary shifting problem caused by incomplete annotation and a noise-tolerant loss to improve the robustness. Benefiting from our separate tailored strategies, we confirm in the experiment that the two types of noise are well mitigated. SANTA also achieves a new state-of-the-art on five public datasets.
翻訳日:2023-07-31 15:41:38 公開日:2023-07-28
# 微分量子関数近似を用いた雑音・費用ハイブリッドモデルの非拘束ベイズ最適化

No-Regret Constrained Bayesian Optimization of Noisy and Expensive Hybrid Models using Differentiable Quantile Function Approximations ( http://arxiv.org/abs/2305.03824v2 )

ライセンス: Link先を確認
Congwen Lu and Joel A. Paulson(参考訳) 本稿では、既知のホワイトボックス関数と高コストなマルチアウトプットブラックボックス関数の合成であるハイブリッドモデルの効率的な制約付き大域的最適化の問題について検討する。 そこで本研究では, 目的関数と制約関数の複合構造を直接活用し, サンプリング効率を大幅に向上させる新しい手法として, 制約付き上限量子幅境界(cuqb)を提案する。 cuqbは概念的に単純で決定論的アプローチであり、以前の手法で使われる制約近似を避ける。 CUQB の取得関数はクローズドな形では利用できないが,より効率的に最大化できる新しい微分可能なサンプル平均近似を提案する。 さらに,ブラックボックス関数の非パラメトリックベイズ表現の下での累積的後悔と制約違反の境界を導出する。 これらの境界は、いくつかの正則性仮定の下での反復数に準線形に依存するので、元の制約された問題の最適解に対する収束率の上限を推定する。 既存のほとんどの方法とは対照的に、CUQBはさらに単純な不変性検出スキームを取り入れており、元の問題が実現不可能な場合(ベイズモデルにより高い確率で)有限個の反復でトリガを証明している。 環境モデル校正やリアクトルシステムのリアルタイム最適化を含むいくつかの試験問題に関する数値実験により、CUQBは制約のあるケースと制約のないケースの両方において従来のベイズ最適化よりも著しく優れていることが示された。 さらに、複合構造を利用する他の最先端手法と比較して、CUQBは競合的な経験的性能を実現し、理論的な保証も大幅に改善した。

This paper investigates the problem of efficient constrained global optimization of hybrid models that are a composition of a known white-box function and an expensive multi-output black-box function subject to noisy observations, which often arises in real-world science and engineering applications. We propose a novel method, Constrained Upper Quantile Bound (CUQB), to solve such problems that directly exploits the composite structure of the objective and constraint functions that we show leads substantially improved sampling efficiency. CUQB is a conceptually simple, deterministic approach that avoid constraint approximations used by previous methods. Although the CUQB acquisition function is not available in closed form, we propose a novel differentiable sample average approximation that enables it to be efficiently maximized. We further derive bounds on the cumulative regret and constraint violation under a non-parametric Bayesian representation of the black-box function. Since these bounds depend sublinearly on the number of iterations under some regularity assumptions, we establis bounds on the convergence rate to the optimal solution of the original constrained problem. In contrast to most existing methods, CUQB further incorporates a simple infeasibility detection scheme, which we prove triggers in a finite number of iterations when the original problem is infeasible (with high probability given the Bayesian model). Numerical experiments on several test problems, including environmental model calibration and real-time optimization of a reactor system, show that CUQB significantly outperforms traditional Bayesian optimization in both constrained and unconstrained cases. Furthermore, compared to other state-of-the-art methods that exploit composite structure, CUQB achieves competitive empirical performance while also providing substantially improved theoretical guarantees.
翻訳日:2023-07-31 15:41:19 公開日:2023-07-28
# アノテーション不足による多領域学習

Multi-Domain Learning From Insufficient Annotations ( http://arxiv.org/abs/2305.02757v3 )

ライセンス: Link先を確認
Rui He, Shengcai Liu, Jiahao Wu, Shan He, Ke Tang(参考訳) マルチドメイン学習(MDL)とは、異なるドメインから収集されたデータセット上にモデルまたはモデルのセットを同時に構築することである。 従来のアプローチでは、共有プライベートフレームワーク(spモデル)に従って、ドメイン共有情報抽出とドメインプライベート情報保存を重視する。 しかし、各領域における注釈付きデータの限られた利用は、実世界のアプリケーションにおける従来の教師付きMDLアプローチの有効性を著しく妨げている。 本稿では,ラベル付きデータとラベル付きデータの両方から意味的情報と構造的情報の両方をキャプチャすることで,アノテーションの不足の影響を軽減するマルチドメインコントラスト学習(mdcl)と呼ばれる新しい手法を提案する。 前者は共有隠し空間内の異なるドメインから同じ意味カテゴリーの注釈付きインスタンスを整合させることを目的としており、後者は各ドメインのプライベートな隠れ空間でラベル付きインスタンスのクラスタ構造を学ぶことに焦点を当てている。 MDCLは多くのSPモデルと容易に互換性があり、追加のモデルパラメータを必要としない。 5つのテキストと画像のマルチドメインデータセットによる実験結果から、MDCLは様々なSPモデルに対して顕著な改善をもたらすことが示された。

Multi-domain learning (MDL) refers to simultaneously constructing a model or a set of models on datasets collected from different domains. Conventional approaches emphasize domain-shared information extraction and domain-private information preservation, following the shared-private framework (SP models), which offers significant advantages over single-domain learning. However, the limited availability of annotated data in each domain considerably hinders the effectiveness of conventional supervised MDL approaches in real-world applications. In this paper, we introduce a novel method called multi-domain contrastive learning (MDCL) to alleviate the impact of insufficient annotations by capturing both semantic and structural information from both labeled and unlabeled data.Specifically, MDCL comprises two modules: inter-domain semantic alignment and intra-domain contrast. The former aims to align annotated instances of the same semantic category from distinct domains within a shared hidden space, while the latter focuses on learning a cluster structure of unlabeled instances in a private hidden space for each domain. MDCL is readily compatible with many SP models, requiring no additional model parameters and allowing for end-to-end training. Experimental results across five textual and image multi-domain datasets demonstrate that MDCL brings noticeable improvement over various SP models.Furthermore, MDCL can further be employed in multi-domain active learning (MDAL) to achieve a superior initialization, eventually leading to better overall performance.
翻訳日:2023-07-31 15:40:51 公開日:2023-07-28
# 仮想解剖集団の制御可能な合成のための条件付きフロー変動オートエンコーダ

A Conditional Flow Variational Autoencoder for Controllable Synthesis of Virtual Populations of Anatomy ( http://arxiv.org/abs/2306.14680v2 )

ライセンス: Link先を確認
Haoran Dou, Nishant Ravikumar and Alejandro F. Frangi(参考訳) 解剖学の仮想集団(VP)の生成は、医療機器のシリコ試験を行う上で不可欠である。 通常、生成したVPは十分な変動を観測し、実際の集団で観察される患者の特性や人口統計を反映すべきである。 いくつかの応用において、特定の対象の個体群/特性に適合する仮想個体群を条件付きで合成するために、関連する共変量を用いるように仮想個体群を合成することが望ましい。 本研究では,条件付き変分オートエンコーダ(cVAE)に正規化フローを付与し,近似した後部学習者の柔軟性と複雑さを向上し,解剖学的構造VPの制御可能な合成の柔軟性を向上させることを提案する。 2360例の心室中左心室データを用いた条件流VAEの性能について検討し,関連する人口統計情報と臨床測定値(共変量/条件情報)を用いて検討した。 以上の結果から,心室の仮想集団をcvaeと比較して条件付き合成法が優れていることが示唆された。 条件付き合成性能は, 一般化, 特異性誤差, 臨床的に関連するバイオマーカーの保存能力, すなわち左室血流量, 心筋容積について, 実際の観察値と比較して評価した。

The generation of virtual populations (VPs) of anatomy is essential for conducting in silico trials of medical devices. Typically, the generated VP should capture sufficient variability while remaining plausible and should reflect the specific characteristics and demographics of the patients observed in real populations. In several applications, it is desirable to synthesise virtual populations in a \textit{controlled} manner, where relevant covariates are used to conditionally synthesise virtual populations that fit a specific target population/characteristics. We propose to equip a conditional variational autoencoder (cVAE) with normalising flows to boost the flexibility and complexity of the approximate posterior learnt, leading to enhanced flexibility for controllable synthesis of VPs of anatomical structures. We demonstrate the performance of our conditional flow VAE using a data set of cardiac left ventricles acquired from 2360 patients, with associated demographic information and clinical measurements (used as covariates/conditional information). The results obtained indicate the superiority of the proposed method for conditional synthesis of virtual populations of cardiac left ventricles relative to a cVAE. Conditional synthesis performance was evaluated in terms of generalisation and specificity errors and in terms of the ability to preserve clinically relevant biomarkers in synthesised VPs, that is, the left ventricular blood pool and myocardial volume, relative to the real observed population.
翻訳日:2023-07-31 15:32:15 公開日:2023-07-28
# 準周期駆動量子系における予熱と保存則

Prethermalization and conservation laws in quasi-periodically-driven quantum systems ( http://arxiv.org/abs/2306.14022v2 )

ライセンス: Link先を確認
Matteo Gallone and Beatrice Langella(参考訳) 外部時間依存準周期駆動を受ける量子多体系の一般クラスの保存則について検討する。 本研究では, 駆動周波数が十分に大きい場合, 駆動強度が十分に小さい場合には, 摂動パラメータにおいて指数関数的に長時間延長する予熱状態を示す。 さらに,非摂動ハミルトニアンの運動定数の準保存を証明し,凝縮物や統計物理学との関連の例としてそれらの物理的意味を分析する。

We study conservation laws of a general class of quantum many-body systems subjected to an external time dependent quasi-periodic driving. We show that, when the frequency of the driving is large enough or the strength of the driving is small enough, the system exhibits a prethermal state for stretched exponentially long times in the perturbative parameter. Moreover, we prove the quasi-conservation of the constants of motion of the unperturbed Hamiltonian and we analyze their physical meaning in examples of relevance to condensed matter and statistical physics.
翻訳日:2023-07-31 15:31:50 公開日:2023-07-28
# DSTC11トラック4におけるオープンドメイン対話システムのためのロバストおよび多言語自動評価指標の概観

Overview of Robust and Multilingual Automatic Evaluation Metrics\\for Open-Domain Dialogue Systems at DSTC 11 Track 4 ( http://arxiv.org/abs/2306.12794v2 )

ライセンス: Link先を確認
Mario Rodr\'iguez-Cantelar and Chen Zhang and Chengguang Tang and Ke Shi and Sarik Ghazarian and Jo\~ao Sedoc and Luis Fernando D'Haro and Alexander Rudnicky(参考訳) ニューラルネットワークの出現と急速な発展は対話システムの研究に革命をもたらし、その後、その自動評価に関する様々な課題を引き起こした。 オープンチャレンジとしてのオープンドメイン対話システムの自動評価は、多くの研究者の注目を集めている。 自動メトリクスと人的評価の相関性を改善するための一貫した努力にもかかわらず、複数の領域や次元に対する堅牢性を評価する試みはごくわずかである。 また、主に英語に焦点が当てられている。 これらの課題はすべて、さまざまなドメイン、ディメンション、言語に信頼性のある自動評価メトリクスの開発を促す。 第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進する取り組みの一環である。 本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。

The advent and fast development of neural networks have revolutionized the research on dialogue systems and subsequently have triggered various challenges regarding their automatic evaluation. Automatic evaluation of open-domain dialogue systems as an open challenge has been the center of the attention of many researchers. Despite the consistent efforts to improve automatic metrics' correlations with human evaluation, there have been very few attempts to assess their robustness over multiple domains and dimensions. Also, their focus is mainly on the English language. All of these challenges prompt the development of automatic evaluation metrics that are reliable in various domains, dimensions, and languages. This track in the 11th Dialogue System Technology Challenge (DSTC11) is part of the ongoing effort to promote robust and multilingual automatic evaluation metrics. This article describes the datasets and baselines provided to participants and discusses the submission and result details of the two proposed subtasks.
翻訳日:2023-07-31 15:31:41 公開日:2023-07-28
# 超伝導ケラーパラメトリック発振器における量子干渉の観測と操作

Observation and manipulation of quantum interference in a superconducting Kerr parametric oscillator ( http://arxiv.org/abs/2306.12299v3 )

ライセンス: Link先を確認
Daisuke Iyama, Takahiko Kamiya, Shiori Fujii, Hiroto Mukai, Yu Zhou, Toshiaki Nagase, Akiyoshi Tomonaga, Rui Wang, Jiao-Jiao Xue, Shohei Watabe, Sangil Kwon, and Jaw-Shen Tsai(参考訳) 量子トンネルは超伝導回路を「量子」にする現象である。 近年,Kerrパラメトリック発振器の位相空間における量子トンネルを量子情報処理の資源として利用することへの関心が高まっている。 本稿では、ウィグナートモグラフィによる平面超伝導回路のトンネルによる量子干渉の直接観測について報告する。 この量子干渉の全ての本質的性質、例えばフォック状態からキャット状態へのマッピング、ポンプのデチューニングによる時間的振動、そしてその特徴的なラビ振動とラムジー縞を実験的に解明する。 最後に,観測された量子干渉の操作としてゲート操作を行う。 本研究は,超伝導Kerrパラメトリック発振器の量子特性と量子情報技術への応用に関する基礎研究である。

Quantum tunneling is the phenomenon that makes superconducting circuits "quantum". Recently, there has been a renewed interest in using quantum tunneling in phase space of a Kerr parametric oscillator as a resource for quantum information processing. Here, we report a direct observation of quantum interference induced by such tunneling in a planar superconducting circuit through Wigner tomography. We experimentally elucidate all essential properties of this quantum interference, such as mapping from Fock states to cat states, a temporal oscillation due to the pump detuning, as well as its characteristic Rabi oscillations and Ramsey fringes. Finally, we perform gate operations as manipulations of the observed quantum interference. Our findings lay the groundwork for further studies on quantum properties of superconducting Kerr parametric oscillators and their use in quantum information technologies.
翻訳日:2023-07-31 15:31:26 公開日:2023-07-28
# 3dvrスケッチによる3d形状のプロトタイピングと探索

3D VR Sketch Guided 3D Shape Prototyping and Exploration ( http://arxiv.org/abs/2306.10830v3 )

ライセンス: Link先を確認
Ling Luo, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, Yulia Gryaditskaya(参考訳) 3D形状モデリングは、労働集約的で、時間がかかり、長年の専門知識を必要とする。 3次元形状モデリングを容易にするために,3次元vrスケッチを条件とする3次元形状生成ネットワークを提案する。 スケッチは初心者がアートトレーニングなしで作成し,任意のカテゴリの幾何学的リアルな3D形状を再構築することを目的としている。 スケッチの曖昧さに対処するため,本手法では,スケッチの構造に合致した複数の3次元形状を作成する。 本手法を注意深く設計し,段階的にモデルを訓練し,多モード3次元形状表現を活用し,限られたトレーニングデータによるトレーニングを支援する。 生成した3次元形状の現実性を保証するために、3次元形状の潜在空間の分布をモデル化する正規化フローを利用する。 入力スケッチに対する生成した3次元形状の忠実性を促進するために,訓練過程の異なる段階に展開する専用損失を提案する。 コードはhttps://github.com/rowl1ng/3dsketch2shapeで入手できる。

3D shape modeling is labor-intensive, time-consuming, and requires years of expertise. To facilitate 3D shape modeling, we propose a 3D shape generation network that takes a 3D VR sketch as a condition. We assume that sketches are created by novices without art training and aim to reconstruct geometrically realistic 3D shapes of a given category. To handle potential sketch ambiguity, our method creates multiple 3D shapes that align with the original sketch's structure. We carefully design our method, training the model step-by-step and leveraging multi-modal 3D shape representation to support training with limited training data. To guarantee the realism of generated 3D shapes we leverage the normalizing flow that models the distribution of the latent space of 3D shapes. To encourage the fidelity of the generated 3D shapes to an input sketch, we propose a dedicated loss that we deploy at different stages of the training process. The code is available at https://github.com/Rowl1ng/3Dsketch2shape.
翻訳日:2023-07-31 15:31:13 公開日:2023-07-28
# 多次元電子分光における振動応答関数-Duschinsky回転からマルチモード圧縮コヒーレント状態へ

Vibrational response functions for multidimensional electronic spectroscopy: from Duschinsky rotations to multimode squeezed coherent states ( http://arxiv.org/abs/2306.08886v2 )

ライセンス: Link先を確認
Frank Ernesto Quintela Rodriguez and Filippo Troiani(参考訳) 多次元分光法は、様々な分子および固体系の超高速ダイナミクスを特徴付ける原子核と電子力学の相互作用を明らかにする。 このような動力学のシミュレーションに広く用いられるモデルのクラスでは、電子状態間の場誘起遷移は振動モードの正規座標間の線形変換(ドゥシャンスキー回転)をもたらす。 本稿では,振動状態の明示的な導出に基づく応答関数の計算手法を提案する。 これは、量子光学形式の中で表現される多重モード圧縮コヒーレント状態と一致し、特に回転、変位、収縮作用素の初期状態へのシーケンシャルな応用によって示される。 提案手法は, 応答関数の数値微分を単純化し, シュリンガー方程式, ハミルトン対角化, 無限ビブロニック経路上の和の時間積分を回避する。 さらに、考慮されたモデルにおいて、振動波パケットのダイナミクスの観点から、応答関数の直感的な解釈を定量的に定式化する。

Multidimensional spectroscopy unveils the interplay of nuclear and electronic dynamics, which characterizes the ultrafast dynamics of various molecular and solid-state systems. In a class of models widely used for the simulation of such dynamics, field-induced transitions between electronic states result in linear transformations (Duschinsky rotations) between the normal coordinates of the vibrational modes. Here we present an approach for the calculation of the response functions, based on the explicit derivation of the vibrational state. This can be shown to coincide with a multimode squeezed coherent state, whose expression we derive within a quantum-optical formalism, and specifically by the sequential application to the initial state of rotation, displacement and squeeze operators. The proposed approach potentially simplifies the numerical derivation of the response functions, avoiding the time integration of the Schr\"odinger equation, the Hamiltonian diagonalization, and the sum over infinite vibronic pathways. Besides, it quantitatively substantiates in the considered models the intuitive interpretation of the response functions in terms of the vibrational wave packet dynamics.
翻訳日:2023-07-31 15:30:56 公開日:2023-07-28
# 因子グラフにおけるモデル自動比較

Automating Model Comparison in Factor Graphs ( http://arxiv.org/abs/2306.05965v3 )

ライセンス: Link先を確認
Bart van Erp, Wouter W. L. Nuijten, Thijs van de Laar, Bert de Vries(参考訳) ベイズ状態とパラメータ推定は様々な確率的プログラミング言語で効果的に自動化されている。 一方、モデル比較のプロセスは、まだエラーが発生しやすく、時間を要する手動の導出を必要とするが、その重要性にもかかわらずしばしば見過ごされる。 本稿では,Forney型因子グラフ上のメッセージパッシングによるベイズモデルの平均化,選択,組み合わせを,独自の混合ノードで効率的に自動化する。 パラメータと状態の推論とモデルの比較は、スケールファクタを持つメッセージパッシングを使って同時に実行できる。 このアプローチは、モデル設計サイクルを短縮し、複雑な時間変動プロセスのモデリングに対応するために、階層モデルと時間モデルプリエントへの簡単な拡張を可能にする。

Bayesian state and parameter estimation have been automated effectively in a variety of probabilistic programming languages. The process of model comparison on the other hand, which still requires error-prone and time-consuming manual derivations, is often overlooked despite its importance. This paper efficiently automates Bayesian model averaging, selection, and combination by message passing on a Forney-style factor graph with a custom mixture node. Parameter and state inference, and model comparison can then be executed simultaneously using message passing with scale factors. This approach shortens the model design cycle and allows for the straightforward extension to hierarchical and temporal model priors to accommodate for modeling complicated time-varying processes.
翻訳日:2023-07-31 15:30:21 公開日:2023-07-28
# SACSoN: ソーシャルナビゲーションのためのスケーラブルな自律制御

SACSoN: Scalable Autonomous Control for Social Navigation ( http://arxiv.org/abs/2306.01874v2 )

ライセンス: Link先を確認
Noriaki Hirose, Dhruv Shah, Ajay Sridhar, Sergey Levine(参考訳) 機械学習は、人間の行動の単純な予測モデルを超えて、社会に準拠したロボットシステムを構築するための強力なツールを提供する。 過去の経験から人間のインタラクションを観察し理解することで、学習はデータから直接効果的なソーシャルナビゲーション行動を可能にする。 本稿では,ロボットが人間の行動に支障を来さない方法で人間間を移動できるように,社会的に邪魔にならないナビゲーションの訓練方法を開発することを目的とする。 ロボットが空間に侵入しなかった場合、人間が同じように行動しただろうか? この反事実的摂動を最小化することで、ロボットは共有空間における人間の自然な行動を変化させない方法で振る舞うことができる。 この原則を実証するには、人間の行動への影響を最小限に抑えるためのトレーニングポリシーが必要である。 したがって、我々のアプローチは2つの重要な貢献に基づいている。 まず,屋内移動ロボットが人間の傍観者と対話する大規模データセットを収集する。 第二に、このデータセットを使用して、反現実的摂動を最小限に抑えるポリシーを訓練する。 補足ビデオを提供し、プロジェクトページ上で最大のビジュアルナビゲーションデータセットを公開しています。

Machine learning provides a powerful tool for building socially compliant robotic systems that go beyond simple predictive models of human behavior. By observing and understanding human interactions from past experiences, learning can enable effective social navigation behaviors directly from data. In this paper, our goal is to develop methods for training policies for socially unobtrusive navigation, such that robots can navigate among humans in ways that don't disturb human behavior. We introduce a definition for such behavior based on the counterfactual perturbation of the human: if the robot had not intruded into the space, would the human have acted in the same way? By minimizing this counterfactual perturbation, we can induce robots to behave in ways that do not alter the natural behavior of humans in the shared space. Instantiating this principle requires training policies to minimize their effect on human behavior, and this in turn requires data that allows us to model the behavior of humans in the presence of robots. Therefore, our approach is based on two key contributions. First, we collect a large dataset where an indoor mobile robot interacts with human bystanders. Second, we utilize this dataset to train policies that minimize counterfactual perturbation. We provide supplementary videos and make publicly available the largest-of-its-kind visual navigation dataset on our project page.
翻訳日:2023-07-31 15:30:10 公開日:2023-07-28
# FACT:Federated Adversarial Cross Training

FACT: Federated Adversarial Cross Training ( http://arxiv.org/abs/2306.00607v2 )

ライセンス: Link先を確認
Stefan Schrod, Jonas Lippl, Andreas Sch\"afer, Michael Altenbuchinger(参考訳) フェデレーション学習(fl)は、複数の機密データソースを集約する分散モデル開発を促進する。 クライアント間の情報転送は、分散差、すなわち非i.d.データによって妥協される。 特に難しいシナリオは、アノテーション付きデータにアクセスせずにターゲットクライアントにフェデレーションモデルを適用することだ。 本稿では、ソースクライアント間の暗黙的なドメイン差を利用して、対象ドメイン内のドメインシフトを特定するFACT(Federated Adversarial Cross Training)を提案する。 flの各ラウンドにおいて、ファクトクロスは一対のソースクライアントを初期化し、ドメイン特化表現を生成し、ドメイン不変データ表現を学ぶための直接の敵として使用される。 実験により、FACTは3つの人気のあるマルチソースシングルターゲットベンチマークにおいて、最先端のフェデレーション、非フェデレーション、ソースフリーのドメイン適応モデル、および単一ソースシングルターゲット実験において、最先端のUnsupervised Domain Adaptation (UDA)モデルより優れていることを示す。 さらに、通信制限や参加顧客数に関して、FACTの行動について検討する。

Federated Learning (FL) facilitates distributed model development to aggregate multiple confidential data sources. The information transfer among clients can be compromised by distributional differences, i.e., by non-i.i.d. data. A particularly challenging scenario is the federated model adaptation to a target client without access to annotated data. We propose Federated Adversarial Cross Training (FACT), which uses the implicit domain differences between source clients to identify domain shifts in the target domain. In each round of FL, FACT cross initializes a pair of source clients to generate domain specialized representations which are then used as a direct adversary to learn a domain invariant data representation. We empirically show that FACT outperforms state-of-the-art federated, non-federated and source-free domain adaptation models on three popular multi-source-single-target benchmarks, and state-of-the-art Unsupervised Domain Adaptation (UDA) models on single-source-single-target experiments. We further study FACT's behavior with respect to communication restrictions and the number of participating clients.
翻訳日:2023-07-31 15:29:54 公開日:2023-07-28
# 大規模言語モデルの感情インテリジェンス

Emotional Intelligence of Large Language Models ( http://arxiv.org/abs/2307.09042v2 )

ライセンス: Link先を確認
Xuena Wang, Xueting Li, Zi Yin, Yue Wu and Liu Jia(参考訳) 大規模言語モデル(LLM)は、言語生成、知識利用、複雑な推論といったタスクを通じて、多くの分野において顕著な能力を示してきた。 しかし、現実の応用に欠かせない人間の感情や価値観との整合は体系的に評価されていない。 そこで我々は,LLMの感情知能(EI)を評価し,効果的なコミュニケーションや社会的相互作用に必要な感情認識,解釈,理解を包含した。 具体的には、EIのコアコンポーネントである感情理解(EU)に焦点を当てた、人間とLLMの両方に適した新しい心理測定評価法を開発した。 このテストでは、現実的なシナリオにおいて複雑な感情(例えば、驚き、喜び、パズル、誇り)を評価する必要がある(例えば、パフォーマンスの低さにもかかわらず、ジョンは驚くほどトップスコアを獲得した)。 500人以上の大人から作られた参照フレームを用いて、私たちは様々な主要なLSMをテストしました。 GPT-4は、EQが117人である人の89%を超えている。 興味深いことに、多変量パターン解析により、一部のLCMは人間と質的に異なる表現パターンであるため、人間レベルのパフォーマンスを達成するための人間的なメカニズムに応答しなかったことが明らかとなった。 さらに,モデルサイズ,トレーニング方法,アーキテクチャなどの要因がllmsのeqに与える影響についても検討した。 本研究は,LLMの人間的特徴に関する最初の心理測定的評価の1つであり,高知能・感情知能の両立を目指したLCMの今後の発展に光を当てる可能性がある。 プロジェクトウェブサイト: https://emotional-intelligence.github.io/

Large Language Models (LLMs) have demonstrated remarkable abilities across numerous disciplines, primarily assessed through tasks in language generation, knowledge utilization, and complex reasoning. However, their alignment with human emotions and values, which is critical for real-world applications, has not been systematically evaluated. Here, we assessed LLMs' Emotional Intelligence (EI), encompassing emotion recognition, interpretation, and understanding, which is necessary for effective communication and social interactions. Specifically, we first developed a novel psychometric assessment focusing on Emotion Understanding (EU), a core component of EI, suitable for both humans and LLMs. This test requires evaluating complex emotions (e.g., surprised, joyful, puzzled, proud) in realistic scenarios (e.g., despite feeling underperformed, John surprisingly achieved a top score). With a reference frame constructed from over 500 adults, we tested a variety of mainstream LLMs. Most achieved above-average EQ scores, with GPT-4 exceeding 89% of human participants with an EQ of 117. Interestingly, a multivariate pattern analysis revealed that some LLMs apparently did not reply on the human-like mechanism to achieve human-level performance, as their representational patterns were qualitatively distinct from humans. In addition, we discussed the impact of factors such as model size, training method, and architecture on LLMs' EQ. In summary, our study presents one of the first psychometric evaluations of the human-like characteristics of LLMs, which may shed light on the future development of LLMs aiming for both high intellectual and emotional intelligence. Project website: https://emotional-intelligence.github.io/
翻訳日:2023-07-31 15:23:43 公開日:2023-07-28
# 1次元非エルミート格子における職業依存粒子分離

Occupation-dependent particle separation in one-dimensional non-Hermitian lattices ( http://arxiv.org/abs/2307.07964v2 )

ライセンス: Link先を確認
Yi Qin and Linhu Li(参考訳) 非エルミーティ性と多体物理学の複雑な相互作用、すなわち一方向非エルミートポンピングによって駆動される一次元格子内のハードコアボソンの職業依存粒子分離から生じるエキゾチックな現象を明らかにする。 ハードコアボソンを例として、同一の単位細胞を占有する一対の粒子は、異なる単位細胞を占有する未耕起粒子と反対の非エルミタンポンプ方向を示す。 細胞内相互作用をオンにすることで、多体固有状態は実際のエネルギーに分裂し、左、右、両極型非エルミート皮膚効果(NHSE)を持つ複素エネルギー平面に分離可能なクラスターを形成する。 多体固有状態の局所的部分格子相関と絡み合いエントロピーにより、粒子の占有に対する皮膚の蓄積方向の依存性はさらに正当化される。 動的に、この職業依存nhseは、多体初期状態に対する一方向または二方向のポンプとして現れ、ペア粒子と非ペア粒子を空間的に分離することができる。 同様の現象はフェルミイオン系にも当てはまり、サブシステム(軌道、亜格子、スピン種など)における粒子の非保存に由来する新しい非エルミート相とその空間的構成を設計および探索する可能性を明らかにしている。

We unveil an exotic phenomenon arising from the intricate interplay between non-Hermiticity and many-body physics, namely an occupation-dependent particle separation for hardcore bosons in a one-dimensional lattice driven by uni-directional non-Hermitian pumping. Taking hardcore bosons as an example, we find that a pair of particles occupying the same unit cell exhibit an opposite non-Hermitian pumping direction to that of unpaired ones occupying different unit cells. By turning on an intracell interaction, many-body eigenstates split in their real energies, forming separable clusters in the complex energy plane with either left-, right-, or bipolar-types of non-Hermitian skin effect (NHSE). The dependency of skin accumulating directions on particle occupation is further justified with local sublattice correlation and entanglement entropy of many-body eigenstates. Dynamically, this occupation-dependent NHSE manifests as uni- or bi-directional pumping for many-body initial states, allowing for spatially separating paired and unpaired particles. Similar phenomena also apply to fermionic systems, unveiling the possibility of designing and exploring novel non-Hermitian phases originated from particle non-conservation in subsystems (e.g., orbitals, sublattices, or spin species) and their spatial configurations.
翻訳日:2023-07-31 15:23:17 公開日:2023-07-28
# EmoSet: リッチ属性を備えた大規模ビジュアル感情データセット

EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes ( http://arxiv.org/abs/2307.07961v2 )

ライセンス: Link先を確認
Jingyuan Yang, Qirui Huang, Tingting Ding, Dani Lischinski, Daniel Cohen-Or, Hui Huang(参考訳) 視覚感情分析(VEA)は、視覚刺激に対する人々の感情反応を予測することを目的とする。 これは、感情コンピューティングにおける有望だが挑戦的なタスクであり、近年注目を集めている。 この分野の既存の作業のほとんどは機能設計に重点を置いているが、データセットの構築にはほとんど注目されていない。 本稿では,既存のデータセットよりも,スケール,アノテーションの豊かさ,多様性,データバランスという4つの面で優れている,リッチ属性を注釈とした最初の大規模ビジュアル感情データセットであるemosetを紹介する。 EmoSetは合計330万枚の画像で構成され、そのうち118,102枚の画像は人間のアノテーションによって慎重にラベル付けされている。 EmoSetにはソーシャルネットワークの画像と芸術的イメージが含まれており、異なる感情カテゴリー間でバランスがとれている。 心理学的な研究によって動機付けられた各画像には、感情のカテゴリに加えて、明度、カラフルネス、シーンタイプ、オブジェクトクラス、表情、人間の行動といった、視覚的な感情を正確に解釈可能な方法で理解するための一連の記述可能な感情特性が注釈付けされている。 これらの感情特性の関連性は、それらと視覚的感情の相関を解析し、また、視覚的感情認識を支援する属性モジュールを設計することによって検証される。 EmoSetはいくつかの重要な洞察をもたらし、視覚的感情分析と理解のさらなる研究を促進するだろうと考えています。 プロジェクトページ: https://vcc.tech/EmoSet.com

Visual Emotion Analysis (VEA) aims at predicting people's emotional responses to visual stimuli. This is a promising, yet challenging, task in affective computing, which has drawn increasing attention in recent years. Most of the existing work in this area focuses on feature design, while little attention has been paid to dataset construction. In this work, we introduce EmoSet, the first large-scale visual emotion dataset annotated with rich attributes, which is superior to existing datasets in four aspects: scale, annotation richness, diversity, and data balance. EmoSet comprises 3.3 million images in total, with 118,102 of these images carefully labeled by human annotators, making it five times larger than the largest existing dataset. EmoSet includes images from social networks, as well as artistic images, and it is well balanced between different emotion categories. Motivated by psychological studies, in addition to emotion category, each image is also annotated with a set of describable emotion attributes: brightness, colorfulness, scene type, object class, facial expression, and human action, which can help understand visual emotions in a precise and interpretable way. The relevance of these emotion attributes is validated by analyzing the correlations between them and visual emotion, as well as by designing an attribute module to help visual emotion recognition. We believe EmoSet will bring some key insights and encourage further research in visual emotion analysis and understanding. Project page: https://vcc.tech/EmoSet.
翻訳日:2023-07-31 15:22:51 公開日:2023-07-28
# 高性能コンピューティングコード翻訳のためのデータセットの作成:HPC FortranとC++の橋渡し

Creating a Dataset for High-Performance Computing Code Translation: A Bridge Between HPC Fortran and C++ ( http://arxiv.org/abs/2307.07686v2 )

ライセンス: Link先を確認
Bin Lei, Caiwen Ding, Le Chen, Pei-Hung Lin, Chunhua Liao(参考訳) 本研究では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルを学習するための新しいデータセットを提案する。 信頼性と適用性を保証するため、データセットはまず、微妙なコード類似性テストを使用して洗練される。 定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,データセットの有効性を評価する。 我々は、このデータセットが大規模言語モデルの翻訳能力を大幅に向上させる方法を示し、事前のコーディング知識のないモデルでは$\mathbf{\times 5.1}$、コーディングに精通したモデルでは$\mathbf{\times 9.9}$を改良した。 我々の研究は、このデータセットがハイパフォーマンスコンピューティングのためのコード翻訳分野を前進させる可能性を強調している。 データセットはhttps://github.com/bin123apple/Fortran-CPP-HPC-code-translation-datasetで公開されている。

In this study, we present a novel dataset for training machine learning models translating between OpenMP Fortran and C++ code. To ensure reliability and applicability, the dataset is initially refined using a meticulous code similarity test. The effectiveness of our dataset is assessed using both quantitative (CodeBLEU) and qualitative (human evaluation) methods. We demonstrate how this dataset can significantly improve the translation capabilities of large-scale language models, with improvements of $\mathbf{\times 5.1}$ for models with no prior coding knowledge and $\mathbf{\times 9.9}$ for models with some coding familiarity. Our work highlights the potential of this dataset to advance the field of code translation for high-performance computing. The dataset is available at https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset
翻訳日:2023-07-31 15:22:25 公開日:2023-07-28
# 医療研究における反現実的説明の爆発的展開

Beyond Known Reality: Exploiting Counterfactual Explanations for Medical Research ( http://arxiv.org/abs/2307.02131v2 )

ライセンス: Link先を確認
Toygar Tanyel, Serkan Ayvaz and Bilgin Keserci(参考訳) 本研究は, 医療研究における「もしも」のシナリオを探索するために, 既存の境界を越えて理解を深める目的で, 反事実的説明を用いる。 特に, 小児眼窩後部脳腫瘍の診断にMRIの特徴を活用することに焦点を当てた。 人工知能と説明可能性の分野は、多くの研究と学術的な関心の高まりを目撃している。 しかし、機械学習アルゴリズムの結果を説明するための人間にやさしい解釈の欠如は、臨床医によるこれらの方法の受容を著しく妨げている。 この問題に対処するため,提案手法は,代替意思決定シナリオを検証するための新しい手法を提供する。 これらの説明はパーソナライズされた文脈固有の洞察を提供し、様々な状況下での予測の検証とバリエーションの明確化を可能にする。 重要な点は, 統計学的, 臨床的に両性が維持され, 異なる腫瘍の特徴を別の現実を通して検討できることである。 さらに, 医療研究における代替手法として, データ拡張における反ファクトリアルの活用の可能性を検討する。 以上の結果から, 臨床環境におけるAI駆動手法の信頼と受容を高めるために, 対実的説明が期待できる可能性が示された。

This study employs counterfactual explanations to explore "what if?" scenarios in medical research, with the aim of expanding our understanding beyond existing boundaries. Specifically, we focus on utilizing MRI features for diagnosing pediatric posterior fossa brain tumors as a case study. The field of artificial intelligence and explainability has witnessed a growing number of studies and increasing scholarly interest. However, the lack of human-friendly interpretations in explaining the outcomes of machine learning algorithms has significantly hindered the acceptance of these methods by clinicians in their clinical practice. To address this, our approach incorporates counterfactual explanations, providing a novel way to examine alternative decision-making scenarios. These explanations offer personalized and context-specific insights, enabling the validation of predictions and clarification of variations under diverse circumstances. Importantly, our approach maintains both statistical and clinical fidelity, allowing for the examination of distinct tumor features through alternative realities. Additionally, we explore the potential use of counterfactuals for data augmentation and evaluate their feasibility as an alternative approach in medical research. The results demonstrate the promising potential of counterfactual explanations to enhance trust and acceptance of AI-driven methods in clinical settings.
翻訳日:2023-07-31 15:22:09 公開日:2023-07-28
# スパース表面圧力センシングを用いた円柱流れ制御のための動的特徴量に基づく深層補強学習

Dynamic Feature-based Deep Reinforcement Learning for Flow Control of Circular Cylinder with Sparse Surface Pressure Sensing ( http://arxiv.org/abs/2307.01995v2 )

ライセンス: Link先を確認
Qiulei Wang, Lei Yan, Gang Hu, Wenli Chen, Bernd R. Noack(参考訳) 本研究では,低抵抗・低リフト変動を目標とした閉ループシリンダウェイク制御のための自己学習アルゴリズムを提案する。 DRLの性能は、センサー信号を動的特徴(DF)に引き上げることで大幅に向上し、将来の流れ状態を予測する。 その結果、動的特徴ベースDRL(DF-DRL)は、動的モデルなしで自動的に植物内のフィードバック制御を学習する。 その結果,DF-DRLモデルの抵抗係数は直接センサフィードバックに基づいてバニラモデルよりも25%小さいことがわかった。 さらに, DF-DRLは1つの表面圧力センサのみを用いて, Re = 100 で約8%の最先端性能にドラッグ係数を低減し, 昇降係数の変動を著しく軽減することができる。 したがって、DF-DRLは制御性能を低下させることなく、流れのスパースセンシングを展開できる。 また,高レイノルズ数下の流れを制御する際のロバスト性も良好であり,re=500と1000では抵抗係数が32.2%,46.55%減少し,広い適用性を示している。 表面圧力情報は,流速情報よりも現実的なシナリオで測定しやすいため,壁面圧力信号に基づいて円柱のアクティブフロー制御を実験的に設計する上で貴重な基準を提供する。

This study proposes a self-learning algorithm for closed-loop cylinder wake control targeting lower drag and lower lift fluctuations with the additional challenge of sparse sensor information, taking deep reinforcement learning as the starting point. DRL performance is significantly improved by lifting the sensor signals to dynamic features (DF), which predict future flow states. The resulting dynamic feature-based DRL (DF-DRL) automatically learns a feedback control in the plant without a dynamic model. Results show that the drag coefficient of the DF-DRL model is 25% less than the vanilla model based on direct sensor feedback. More importantly, using only one surface pressure sensor, DF-DRL can reduce the drag coefficient to a state-of-the-art performance of about 8% at Re = 100 and significantly mitigate lift coefficient fluctuations. Hence, DF-DRL allows the deployment of sparse sensing of the flow without degrading the control performance. This method also shows good robustness in controlling flow under higher Reynolds numbers, which reduces the drag coefficient by 32.2% and 46.55% at Re = 500 and 1000, respectively, indicating the broad applicability of the method. Since surface pressure information is more straightforward to measure in realistic scenarios than flow velocity information, this study provides a valuable reference for experimentally designing the active flow control of a circular cylinder based on wall pressure signals, which is an essential step toward further developing intelligent control in realistic multi-input multi-output (MIMO) system.
翻訳日:2023-07-31 15:21:50 公開日:2023-07-28
# LPN:数ショット分類のための言語誘導型プロトタイプネットワーク

LPN: Language-guided Prototypical Network for few-shot classification ( http://arxiv.org/abs/2307.01515v2 )

ライセンス: Link先を確認
Kaihui Cheng, Chule Yang(参考訳) 少数ショット分類は、制限されたラベル付き例で新しいタスクに適応することを目的としている。 アクセス可能なデータを完全に利用するために、最近の手法では、クエリとサポートイメージの類似性、およびメタトレーニングと事前トレーニング戦略による高次元特徴の適切な測定方法が検討されている。 しかし、マルチモダリティ情報の可能性はほとんど検討されていないため、少数ショット分類に有望な改善をもたらす可能性がある。 本稿では,2つの並列分岐による視覚と言語モダリティの相補性を活用した,少数ショット分類のための言語誘導型ネットワーク (lpn) を提案する。 具体的には,視覚タスクに限られたサンプルで言語モダリティを導入するために,事前学習されたテキストエンコーダを活用して,従来の画像エンコーダで画像を処理すると同時に,クラス名から直接クラスレベルのテキスト特徴を抽出する。 次に、クラスレベルの特徴と視覚的特徴を整合させることにより、各画像に対応するテキスト特徴を得るために、言語案内デコーダを導入する。 さらに,クラスレベルの特徴とプロトタイプを活用するために,テキストブランチに頑健なプロトタイプを生成する改良されたプロトタイプヘッドを構築した。 最後に、視覚とテキストのロジットを集約し、単一のモダリティの偏差を校正する。 大規模な実験は、ベンチマークデータセットの最先端手法に対するLPNの競争力を示す。

Few-shot classification aims to adapt to new tasks with limited labeled examples. To fully use the accessible data, recent methods explore suitable measures for the similarity between the query and support images and better high-dimensional features with meta-training and pre-training strategies. However, the potential of multi-modality information has barely been explored, which may bring promising improvement for few-shot classification. In this paper, we propose a Language-guided Prototypical Network (LPN) for few-shot classification, which leverages the complementarity of vision and language modalities via two parallel branches. Concretely, to introduce language modality with limited samples in the visual task, we leverage a pre-trained text encoder to extract class-level text features directly from class names while processing images with a conventional image encoder. Then, a language-guided decoder is introduced to obtain text features corresponding to each image by aligning class-level features with visual features. In addition, to take advantage of class-level features and prototypes, we build a refined prototypical head that generates robust prototypes in the text branch for follow-up measurement. Finally, we aggregate the visual and text logits to calibrate the deviation of a single modality. Extensive experiments demonstrate the competitiveness of LPN against state-of-the-art methods on benchmark datasets.
翻訳日:2023-07-31 15:21:23 公開日:2023-07-28
# 物理科学者のためのデータ駆動前駆体を用いた近ネストサンプリング

Proximal nested sampling with data-driven priors for physical scientists ( http://arxiv.org/abs/2307.00056v2 )

ライセンス: Link先を確認
Jason D. McEwen, Tob\'ias I. Liaudat, Matthew A. Price, Xiaohao Cai and Marcelo Pereyra(参考訳) 計算画像などの高次元問題に対してベイズモデル選択を行うために,近ネストサンプリングを導入した。 このフレームワークは、画像科学においてユビキタスな対流確率を持つモデルに適している。 この記事の目的は2つある。 まず, 物理科学者の枠組みを解明するために, 近位ネストサンプリングを教育的手法で検討した。 第2に,訓練データから学習した深層ニューラルネットワークなど,データ駆動前処理をサポートする経験ベイズ設定において,近位ネストサンプリングをどのように拡張できるかを示す。

Proximal nested sampling was introduced recently to open up Bayesian model selection for high-dimensional problems such as computational imaging. The framework is suitable for models with a log-convex likelihood, which are ubiquitous in the imaging sciences. The purpose of this article is two-fold. First, we review proximal nested sampling in a pedagogical manner in an attempt to elucidate the framework for physical scientists. Second, we show how proximal nested sampling can be extended in an empirical Bayes setting to support data-driven priors, such as deep neural networks learned from training data.
翻訳日:2023-07-31 15:20:37 公開日:2023-07-28
# AMAE:胸部X線二重分布異常検出のための前訓練マスク付きオートエンコーダの適応

AMAE: Adaptation of Pre-Trained Masked Autoencoder for Dual-Distribution Anomaly Detection in Chest X-Rays ( http://arxiv.org/abs/2307.12721v3 )

ライセンス: Link先を確認
Behzad Bozorgtabar, Dwarikanath Mahapatra, Jean-Philippe Thiran(参考訳) 胸部x線写真などの医療画像における教師なし異常検出は、異常データの労働集約的かつ費用のかかる専門家による注釈の不足を軽減するため、スポットライトを浴びている。 しかしながら、既存のほとんどのメソッドは、通常のクラスからの表現のみに基づいて訓練された1クラス分類として定式化され、ラベルなしデータの潜在的重要な部分を捨てる。 本報告では, 胸部X線に対して, 正常画像と未ラベル画像の両方を含むトレーニングデータ全体を用いて, より実用的, 二重分布異常検出に着目する。 画像領域を再構成するために部分的な画像入力を用いて訓練された現代の自己教師付き視覚トランスフォーマーモデルに触発され,事前学習されたマスク付きオートエンコーダ(mae)の適応のための2段階アルゴリズムであるamaeを提案する。 MAEの初期化から始まり、AMAEはまず通常の訓練画像のみから合成異常を生成し、冷凍変圧器の特徴を軽量に分類する。 次に,異常を含むラベル付き画像を活用する適応戦略を提案する。 この適応方式は、未ラベル画像に擬似ラベルを割り当て、擬似ラベル画像の正規分布と異常分布をモデル化するために2つのmaeベースモジュールを使用する。 提案手法の有効性を,ラベルのないトレーニングセットにおいて異なる異常比で評価する。 AMAEは、競合する自己監督型および二重分布異常検出法よりも一貫したパフォーマンス向上をもたらし、RSNA、NIH-CXR、VinDr-CXRの3つの公開胸部X線ベンチマークに新しい最先端を設定した。

Unsupervised anomaly detection in medical images such as chest radiographs is stepping into the spotlight as it mitigates the scarcity of the labor-intensive and costly expert annotation of anomaly data. However, nearly all existing methods are formulated as a one-class classification trained only on representations from the normal class and discard a potentially significant portion of the unlabeled data. This paper focuses on a more practical setting, dual distribution anomaly detection for chest X-rays, using the entire training data, including both normal and unlabeled images. Inspired by a modern self-supervised vision transformer model trained using partial image inputs to reconstruct missing image regions -- we propose AMAE, a two-stage algorithm for adaptation of the pre-trained masked autoencoder (MAE). Starting from MAE initialization, AMAE first creates synthetic anomalies from only normal training images and trains a lightweight classifier on frozen transformer features. Subsequently, we propose an adaptation strategy to leverage unlabeled images containing anomalies. The adaptation scheme is accomplished by assigning pseudo-labels to unlabeled images and using two separate MAE based modules to model the normative and anomalous distributions of pseudo-labeled images. The effectiveness of the proposed adaptation strategy is evaluated with different anomaly ratios in an unlabeled training set. AMAE leads to consistent performance gains over competing self-supervised and dual distribution anomaly detection methods, setting the new state-of-the-art on three public chest X-ray benchmarks: RSNA, NIH-CXR, and VinDr-CXR.
翻訳日:2023-07-31 15:12:50 公開日:2023-07-28
# 非教師付き金属アーティファクト低減のための高密度トランスベース拡張符号化ネットワーク

Dense Transformer based Enhanced Coding Network for Unsupervised Metal Artifact Reduction ( http://arxiv.org/abs/2307.12717v2 )

ライセンス: Link先を確認
Wangduo Xie, Matthew B.Blaschko(参考訳) 金属遺物のCT画像は臨床診断に深刻な悪影響を及ぼす。 臨床現場におけるデータ収集の難しさを考えると, 金属加工物の非監督的削減法が注目されている。 しかし, 従来の非監督的手法では, 金属の非局所的な特性を処理しながら, CT画像からの構造情報を保持することは困難である。 これらの課題に対処するため,我々は新しいDense Transformer-based Enhanced Coding Network (DTEC-Net) を提案した。 具体的には,高次密度プロセスがサポートする階層型ディスタングルエンコーダと,長距離対応の高密度エンコード列を得る変換器を導入する。 次に,密度列の復号過程を改善するために,第2次不等角化法を提案する。 大規模な実験とモデルディスカッションでは、DTEC-Netの有効性が示されており、ベンチマークデータセットにおける従来の最先端メソッドよりも優れており、よりリッチなテクスチャの詳細を復元しながら、金属のアーティファクトを大幅に削減している。

CT images corrupted by metal artifacts have serious negative effects on clinical diagnosis. Considering the difficulty of collecting paired data with ground truth in clinical settings, unsupervised methods for metal artifact reduction are of high interest. However, it is difficult for previous unsupervised methods to retain structural information from CT images while handling the non-local characteristics of metal artifacts. To address these challenges, we proposed a novel Dense Transformer based Enhanced Coding Network (DTEC-Net) for unsupervised metal artifact reduction. Specifically, we introduce a Hierarchical Disentangling Encoder, supported by the high-order dense process, and transformer to obtain densely encoded sequences with long-range correspondence. Then, we present a second-order disentanglement method to improve the dense sequence's decoding process. Extensive experiments and model discussions illustrate DTEC-Net's effectiveness, which outperforms the previous state-of-the-art methods on a benchmark dataset, and greatly reduces metal artifacts while restoring richer texture details.
翻訳日:2023-07-31 15:12:21 公開日:2023-07-28
# 一次領域正規化によるディープフェイク検出の一般化に向けて

Towards Generalizable Deepfake Detection by Primary Region Regularization ( http://arxiv.org/abs/2307.12534v2 )

ライセンス: Link先を確認
Harry Cheng and Yangyang Guo and Tianyi Wang and Liqiang Nie and Mohan Kankanhalli(参考訳) 既存のディープフェイク検出手法は、目に見えない偽造と操作アプローチへの一般化においてボトルネックに達している。 ディープフェイク検出器が入力中の特定の一次領域をオーバーフィットする傾向を示すという観測に基づいて,新しい正規化の観点から一般化能力を高める。 これは、一次領域の除去によって画像を増やすことで、検出器がデータのバイアスを過大に受けることを防ぎ、簡単に達成できる。 本手法は,プライマリ領域マップの静的局在化と,プライマリ領域マスクの動的活用という2つの段階からなる。 提案手法は推論効率に影響を与えることなく,異なるバックボーンにシームレスに統合することができる。 5つのバックボーンを持つDFDC,DF-1.0,Celeb-DFの3種類のディープフェイクデータセットについて広範な実験を行った。 提案手法は,異なるバックボーン間で平均6%の性能向上を示し,最先端のベースラインと競合する性能を示す。

The existing deepfake detection methods have reached a bottleneck in generalizing to unseen forgeries and manipulation approaches. Based on the observation that the deepfake detectors exhibit a preference for overfitting the specific primary regions in input, this paper enhances the generalization capability from a novel regularization perspective. This can be simply achieved by augmenting the images through primary region removal, thereby preventing the detector from over-relying on data bias. Our method consists of two stages, namely the static localization for primary region maps, as well as the dynamic exploitation of primary region masks. The proposed method can be seamlessly integrated into different backbones without affecting their inference efficiency. We conduct extensive experiments over three widely used deepfake datasets - DFDC, DF-1.0, and Celeb-DF with five backbones. Our method demonstrates an average performance improvement of 6% across different backbones and performs competitively with several state-of-the-art baselines.
翻訳日:2023-07-31 15:12:00 公開日:2023-07-28
# sacreg:視覚局所化のためのシーン非依存座標回帰

SACReg: Scene-Agnostic Coordinate Regression for Visual Localization ( http://arxiv.org/abs/2307.11702v2 )

ライセンス: Link先を確認
Jerome Revaud, Yohann Cabon, Romain Br\'egier, JongMin Lee and Philippe Weinzaepfel(参考訳) シーン座標回帰(SCR)、すなわち、ある画像の各ピクセルの3D座標を予測することは、最近、有望な可能性を示している。 しかし、既存の手法はほとんどシーン固有のものであり、小さなシーンに限定されているため、現実的なデータセットにはスケールしにくい。 本稿では,1つの汎用SCRモデルを一度訓練して,そのスケールによらず,さらに微調整を行わずに新しいテストシーンに展開する,新しいパラダイムを提案する。 与えられた問合せ画像に対して、オフ・ザ・シェルフの画像検索技術とstructure-from-motionデータベースから入力を収集する。 このモデルはトランスアーキテクチャに基づいており、可変数の画像とスパース2D-3Dアノテーションを入力として取り込むことができる。 さまざまなデータセットでトレーニングされ、視覚的なローカライゼーションのために、シーン固有のモデルを含むいくつかのベンチマークで、他のシーン回帰アプローチを著しく上回っている。 特に、ケンブリッジのローカライゼーションベンチマークに新しい技術状況を設定し、機能マッチングベースのアプローチよりも優れています。

Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every pixel of a given image, has recently shown promising potential. However, existing methods remain mostly scene-specific or limited to small scenes and thus hardly scale to realistic datasets. In this paper, we propose a new paradigm where a single generic SCR model is trained once to be then deployed to new test scenes, regardless of their scale and without further finetuning. For a given query image, it collects inputs from off-the-shelf image retrieval techniques and Structure-from-Motion databases: a list of relevant database images with sparse pointwise 2D-3D annotations. The model is based on the transformer architecture and can take a variable number of images and sparse 2D-3D annotations as input. It is trained on a few diverse datasets and significantly outperforms other scene regression approaches on several benchmarks, including scene-specific models, for visual localization. In particular, we set a new state of the art on the Cambridge localization benchmark, even outperforming feature-matching-based approaches.
翻訳日:2023-07-31 15:11:30 公開日:2023-07-28
# 予後不良肺癌の総合的生存予測のための深層学習アプローチ

A Deep Learning Approach for Overall Survival Prediction in Lung Cancer with Missing Values ( http://arxiv.org/abs/2307.11465v3 )

ライセンス: Link先を確認
Camillo Maria Caruso, Valerio Guarrasi, Sara Ramella and Paolo Soda(参考訳) 人工知能(AI)が適用可能な最も困難な分野の1つは、肺癌の研究、特に非小細胞肺癌(NSCLC)である。 特に、診断から死亡までの生存期間(OS)は、患者の状態を示す重要な指標であり、適切な治療とOS率の向上を可能にしている。 この分析では、考慮すべき課題が2つあります。 第一に、各患者から得られる情報を効果的に活用する研究はほとんどなく、イベントの時間も考慮し、無検閲(死)と検閲(生存者)の両方を利用する。 第二に、医療分野では不完全なデータの取り扱いが一般的な問題である。 この問題は、通常、インプテーション法を用いて取り組まれる。 本研究の目的は,NSCLC患者に対するOSの予測のために,検閲および非検閲患者の双方から効果的に学習し,これらの限界を克服できるAIモデルを提供することである。 そこで本研究では,nsclcの文脈において,インプット戦略を必要とせずに利用可能な特徴のみを考慮し,トランスフォーマーアーキテクチャの強みを生かしたサバイバル解析手法を提案する。 OSのアドホックな損失を利用することで、検閲された患者と無検閲の患者の両方、そして時間の経過とともにリスクの変化を説明できる。 本手法を生存分析のための最新モデルと比較し, 異なるインプテーション戦略を併用した。 C-インデックスの時間依存性変種であるCt-index(71.97, 77.58, 80.72)を1ヶ月, 1年, 2年の時間単位で取得し, 計算方法によらず, C-indexの時間依存性の異なるCt-index(71.97, 77.58, 80.72)を経年的に評価した。

One of the most challenging fields where Artificial Intelligence (AI) can be applied is lung cancer research, specifically non-small cell lung cancer (NSCLC). In particular, overall survival (OS), the time between diagnosis and death, is a vital indicator of patient status, enabling tailored treatment and improved OS rates. In this analysis, there are two challenges to take into account. First, few studies effectively exploit the information available from each patient, leveraging both uncensored (i.e., dead) and censored (i.e., survivors) patients, considering also the events' time. Second, the handling of incomplete data is a common issue in the medical field. This problem is typically tackled through the use of imputation methods. Our objective is to present an AI model able to overcome these limits, effectively learning from both censored and uncensored patients and their available features, for the prediction of OS for NSCLC patients. We present a novel approach to survival analysis with missing values in the context of NSCLC, which exploits the strengths of the transformer architecture to account only for available features without requiring any imputation strategy. By making use of ad-hoc losses for OS, it is able to account for both censored and uncensored patients, as well as changes in risks over time. We compared our method with state-of-the-art models for survival analysis coupled with different imputation strategies. We evaluated the results obtained over a period of 6 years using different time granularities obtaining a Ct-index, a time-dependent variant of the C-index, of 71.97, 77.58 and 80.72 for time units of 1 month, 1 year and 2 years, respectively, outperforming all state-of-the-art methods regardless of the imputation method used.
翻訳日:2023-07-31 15:11:13 公開日:2023-07-28
# 古典的ジャミングに対する量子強化レンジフィンディングの実証

Demonstration of quantum-enhanced rangefinding robust against classical jamming ( http://arxiv.org/abs/2307.10794v2 )

ライセンス: Link先を確認
Mateusz P. Mrozowski, Richard J. Murchie, John Jeffers, Jonathan D. Pritchard(参考訳) 本稿では,連続励起光子対源に基づく量子増幅ライダーの動作と,信号レベルと背景レベルと目標反射率を52dB以下に5桁以上分離した条件下での簡単な検出を組み合わせて示す。 本稿では,この検出器の性能をlog-likelihood分析フレームワークを用いて特徴付け,高速かつ遅い古典的ジャミングに対するシステムの頑健性を示すとともに,高い周波数変動に対する免疫を維持しつつ,背景変化の遅い影響をなくす動的背景追跡を実現するための新しいプロトコルを導入する。 最後に,このシステムを古典的ジャミングの存在下でレンジファインディングの方式に拡張し,検出器ジッタのみに制限された11cmの空間分解能を持つターゲットを探索する。 これらの結果は、ライダーアプリケーションに対する量子相関を利用して、現実のシナリオでこのシステムを実装するための明確な経路を提供する。

In this paper we demonstrate operation of a quantum-enhanced lidar based on a continuously pumped photon pair source combined with simple detection in regimes with over 5 orders of magnitude separation between signal and background levels and target reflectivity down to -52 dB. We characterise the performance of our detector using a log-likelihood analysis framework, and crucially demonstrate the robustness of our system to fast and slow classical jamming, introducing a new protocol to implement dynamic background tracking to eliminate the impact of slow background changes whilst maintaining immunity to high frequency fluctuations. Finally, we extend this system to the regime of rangefinding in the presence of classical jamming to locate a target with an 11 cm spatial resolution limited only by the detector jitter. These results demonstrate the advantage of exploiting quantum correlations for lidar applications, providing a clear route to implementation of this system in real-world scenarios.
翻訳日:2023-07-31 15:10:39 公開日:2023-07-28
# 周波数バイアスを用いたロバストモデルの構築に向けて

Towards Building More Robust Models with Frequency Bias ( http://arxiv.org/abs/2307.09763v2 )

ライセンス: Link先を確認
Qingwen Bu, Dong Huang, Heming Cui(参考訳) 敵のサンプルに対するディープニューラルネットワークの脆弱性は、さまざまな分野での成功にもかかわらず、幅広い応用において大きな障害となっている。 近年,高ロバスト性を実現するために低周波情報の重要性が強調されている研究もある。 この周波数特性を活用する試みがいくつか行われているが、いずれも入力画像に直接ローパスフィルタを適用すると、識別情報の不可逆的損失と、異なる周波数特徴を持つデータセットへの一般化が不十分になるという問題に直面している。 本稿では、中間特徴表現の低周波成分と高周波成分を適応的に再構成し、ロバスト学習における周波数利用を向上する、周波数優先制御モジュールと呼ばれるプラグアンドプレイモジュールを提案する。 実証研究により,提案するモジュールは,任意の敵のトレーニングフレームワークに容易に組み込むことができ,異なるアーキテクチャやデータセットにわたるモデルのロバスト性がさらに向上することが示された。 さらに、ロバストモデルの周波数バイアスが敵のトレーニングプロセスとその最終的なロバスト性にどのように影響するかを調べる実験を行い、興味深い洞察を明らかにした。

The vulnerability of deep neural networks to adversarial samples has been a major impediment to their broad applications, despite their success in various fields. Recently, some works suggested that adversarially-trained models emphasize the importance of low-frequency information to achieve higher robustness. While several attempts have been made to leverage this frequency characteristic, they have all faced the issue that applying low-pass filters directly to input images leads to irreversible loss of discriminative information and poor generalizability to datasets with distinct frequency features. This paper presents a plug-and-play module called the Frequency Preference Control Module that adaptively reconfigures the low- and high-frequency components of intermediate feature representations, providing better utilization of frequency in robust learning. Empirical studies show that our proposed module can be easily incorporated into any adversarial training framework, further improving model robustness across different architectures and datasets. Additionally, experiments were conducted to examine how the frequency bias of robust models impacts the adversarial training process and its final robustness, revealing interesting insights.
翻訳日:2023-07-31 15:10:22 公開日:2023-07-28
# 自律運転のための事前学習した視覚質問応答モデルの性能分析に向けて

Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving ( http://arxiv.org/abs/2307.09329v2 )

ライセンス: Link先を確認
Kaavya Rekanar, Ciar\'an Eising, Ganesh Sistu, Martin Hayes(参考訳) 本稿では, 運転シナリオに関する質問に答える文脈において, VQA(ViLBERT, ViLT, LXMERT)モデルについて予備分析を行った。 これらのモデルの性能は,コンピュータビジョンの専門家による参照回答と応答の類似性を比較して評価する。 モデル選択はマルチモーダルアーキテクチャにおける変圧器の利用分析に先行する。 その結果, クロスモーダル・アテンションとレイト・フュージョン技術が組み合わさったモデルが, 運転視点で改善される可能性を示すことがわかった。 この最初の分析は、9つのvqaモデルを含む包括的比較研究の発射台となり、自動運転シナリオにおけるvqaモデルクエリの有効性に関するさらなる調査の場となる。 補助材料はhttps://github.com/KaavyaRekanar/Towards-a- Performance-analysis-on-trained-VQA-models-for-autonomous-drivingで入手できる。

This short paper presents a preliminary analysis of three popular Visual Question Answering (VQA) models, namely ViLBERT, ViLT, and LXMERT, in the context of answering questions relating to driving scenarios. The performance of these models is evaluated by comparing the similarity of responses to reference answers provided by computer vision experts. Model selection is predicated on the analysis of transformer utilization in multimodal architectures. The results indicate that models incorporating cross-modal attention and late fusion techniques exhibit promising potential for generating improved answers within a driving perspective. This initial analysis serves as a launchpad for a forthcoming comprehensive comparative study involving nine VQA models and sets the scene for further investigations into the effectiveness of VQA model queries in self-driving scenarios. Supplementary material is available at https://github.com/KaavyaRekanar/Towards-a-performance-analysis-on-pre-trained-VQA-models-for-autono mous-driving.
翻訳日:2023-07-31 15:10:01 公開日:2023-07-28
# トルコ語母語識別

Turkish Native Language Identification ( http://arxiv.org/abs/2307.14850v2 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu and Gerold Schneider(参考訳) 本稿では,トルコ語に対するNative Language Identification (NLI)の最初の応用について述べる。 NLIは、著者の最初の言語を様々な言語で分析することで予測する。 ほとんどのNLI研究は英語に重点を置いているが、トルコ語にまで範囲を広げている。 我々は,最近構築されたトルコ語学習者コーパスを用いて,3つの構文的特徴(CFG生成規則,助詞n-gram,関数語)とL2テキストの組み合わせを用いて,これらの課題の有効性を実証した。

In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer's first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams, and function words) with L2 texts to demonstrate their effectiveness in this task.
翻訳日:2023-07-31 15:05:08 公開日:2023-07-28
# ハイブリッドASPによる半導体製造プロセスの多目的スケジューリング(拡張バージョン)

Hybrid ASP-based multi-objective scheduling of semiconductor manufacturing processes (Extended version) ( http://arxiv.org/abs/2307.14799v2 )

ライセンス: Link先を確認
Mohammed M. S. El-Kholany, Ramsha Ali, Martin Gebser(参考訳) 現代の半導体製造では、数百の操作からなる複雑な製造プロセスが伴い、ロットの放出から完成まで数ヶ月かかる。 これらのプロセスで使用されるハイテクマシンは多種多様であり、個々のウエハ、ロット、バッチを複数段階で運用し、製品固有のセットアップと特別なメンテナンス手順を必要とする。 この状況は、複雑な生産プロセスやマシンが少ない従来のジョブショップスケジューリングシナリオと異なり、主に高度に組み合わせられるが抽象的なスケジューリング問題の解決に重点を置いている。 本研究は, フレキシブルマシン処理, セットアップ, バッチ処理, 保守操作を取り入れた, 差分論理を用いたハイブリッドアンサーセットプログラミングを用いて, 特定の要求をモデル化することにより, 現実的な半導体製造プロセスのスケジューリングに対処する。 半導体製造プロセスが局所的にグリーディ・ヒューリスティックや独立して特定の機械群割り当てを最適化する既存の手法とは異なり、複数の最適化目標を満たした大規模スケジューリングの可能性を検討する。

Modern semiconductor manufacturing involves intricate production processes consisting of hundreds of operations, which can take several months from lot release to completion. The high-tech machines used in these processes are diverse, operate on individual wafers, lots, or batches in multiple stages, and necessitate product-specific setups and specialized maintenance procedures. This situation is different from traditional job-shop scheduling scenarios, which have less complex production processes and machines, and mainly focus on solving highly combinatorial but abstract scheduling problems. In this work, we address the scheduling of realistic semiconductor manufacturing processes by modeling their specific requirements using hybrid Answer Set Programming with difference logic, incorporating flexible machine processing, setup, batching and maintenance operations. Unlike existing methods that schedule semiconductor manufacturing processes locally with greedy heuristics or by independently optimizing specific machine group allocations, we examine the potentials of large-scale scheduling subject to multiple optimization objectives.
翻訳日:2023-07-31 15:04:59 公開日:2023-07-28
# Retrieval-augmented Pseudo文生成によるアノテーションなし画像キャプションの探索

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation ( http://arxiv.org/abs/2307.14750v2 )

ライセンス: Link先を確認
Zhiyuan Li and Dongnan Liu and Heng Wang and Chaoyi Zhang and Weidong Cai(参考訳) 近年,注釈付き画像文対のない画像キャプタの訓練が注目を集めている。 以前のアプローチは、コーパスのミスマッチから文章をクロールし、与えられた画像に擬似アノテーションとしてアライメントするか、外部のテキストペアを使ってキャプションを事前トレーニングするかの2つの戦略に分類できる。 しかし、ペアの品質問題により調整設定は性能限界に達し、事前学習にはかなりの計算資源が必要である。 これらの課題に対処するため,我々は,大規模な事前学習モデル(LPM)からの事前知識を監督として活用し,その有効性を高めるために検索プロセスを統合する,新たな戦略「LPM+検索強化学習」を提案する。 具体的には,RaPSG(Retrieval-augmented Pseudo Sentence Generation)を導入し,不一致コーパスから関連性の高い短い領域記述を抽出し,異なる表現の擬似文を生成するとともに,LPMによる高品質な文を生成する。 さらに、モデル最適化を容易にするために、流速フィルタとCLIP誘導学習目標を導入する。 実験の結果,練習可能なパラメータの0.3%(1.3b vs 33m)しか利用せず,サイダースコア78.1 (+5.1) を達成することで,somaプリトレーニングモデル (flamingo3b) を上回った。 重要なことは、Flamingo3Bのための312Mイメージテキストペアの必要性など)外部データセット上での計算コストのかかる事前学習プロセスの必要性をなくすことである。 さらに,単純な拡張により,生成した擬似文を弱い監督としてデプロイすることで,1%の半教師付き画像キャプションベンチマークを93.4ciderスコア (+8.9) まで向上させることができることを示した。

Training an image captioner without annotated image-sentence pairs has gained traction in recent years. Previous approaches can be categorized into two strategies: crawling sentences from mismatching corpora and aligning them with the given images as pseudo annotations, or pre-training the captioner using external image-text pairs. However, the aligning setting seems to reach its performance limit due to the quality problem of pairs, and pre-training requires significant computational resources. To address these challenges, we propose a new strategy ``LPM + retrieval-augmented learning" where the prior knowledge from large pre-trained models (LPMs) is leveraged as supervision, and a retrieval process is integrated to further reinforce its effectiveness. Specifically, we introduce Retrieval-augmented Pseudo Sentence Generation (RaPSG), which adopts an efficient approach to retrieve highly relevant short region descriptions from the mismatching corpora and use them to generate a variety of pseudo sentences with distinct representations as well as high quality via LPMs. In addition, a fluency filter and a CLIP-guided training objective are further introduced to facilitate model optimization. Experimental results demonstrate that our method surpasses the SOTA pre-training model (Flamingo3B) by achieving a CIDEr score of 78.1 (+5.1) while utilizing only 0.3% of its trainable parameters (1.3B VS 33M). Importantly, our approach eliminates the need of computationally expensive pre-training processes on external datasets (e.g., the requirement of 312M image-text pairs for Flamingo3B). We further show that with a simple extension, the generated pseudo sentences can be deployed as weak supervision to boost the 1% semi-supervised image caption benchmark up to 93.4 CIDEr score (+8.9) which showcases the versatility and effectiveness of our approach.
翻訳日:2023-07-31 15:04:38 公開日:2023-07-28
# 非マルコフ量子ゲートセットトモグラフィ

Non-Markovian Quantum Gate Set Tomography ( http://arxiv.org/abs/2307.14696v2 )

ライセンス: Link先を確認
Ze-Tong Li, Cong-Cong Zheng, Fan-Xu Meng, Zai-Chen Zhang, Xu-Tao Yu(参考訳) 工学的量子デバイスは量子ビット、量子演算、量子ノイズを含む量子システムの信頼性の高いキャラクタリゼーションを必要とする。 近年,量子ゲート集合トモグラフィ(gst)は,量子状態,ゲートおよび測定を自己整合的に記述する手法として出現している。 しかし、量子系と環境の間の非マルコフ相関は、GSTの信頼性回帰を引き起こす。 ゲート集合と非マルコフ相関を同時に記述することが不可欠である。 そこで我々はまず,非マルコフGSTのための自己整合操作手法,ist(Insistant set tomography)を提案する。 確率的量子過程に基づいて、楽器セットは、楽器、初期状態、および非マルコフ系環境(SE)相関を記述するために定義される。 まず、楽器とSEの線形関係とゲージ自由度との相関を検知し、記述するための線形反転IST(LIST)を提案する。 しかし、LISTは制約がないため、物理的に実装可能な楽器セットを常に決定できない。 次に,MLE-IST(MLE-IST)の混合推定に基づく物理制約付き統計手法について,マルコフ次数に関するパラメータの多項式数で提案する。 モデルと制約を調整することで、ノイズの多い中間スケール量子(nisq)デバイスなど、さまざまな種類のデバイスに適した大きな柔軟性を示す。 実験結果は、楽器と非マルコフ量子系を記述することの有効性を示す。 結果として、ISTは、機器セットの側面において量子デバイスをベンチマークし、開発するための重要な方法を提供する。

Engineering quantum devices requires reliable characterization of the quantum system including qubits, quantum operations (aka instruments) and the quantum noise. Recently, quantum gate set tomography (GST) has emerged as a promissing technique to self-consistently describe the quantum states, gates and measurements. However, non-Markovian correlations between the quantum system and environment cause the reliability regression of GST. It is essential to simultaneously describe the gate set and non-Markovian correlations. To this end, we first propose a self-consistent operational method, named instrument set tomography (IST), for non-Markovian GST. Based on the stochastic quantum process, the instrument set is defined to describe instruments, the initial state, and non-Markovian system-environment (SE) correlations. First, we propose a linear inversion IST (LIST) to detect and describe the disharmony of linear relationship of instruments and SE correlations with gauge freedom. However, LIST cannot always determine physical implementable instrument set because of the absence of constraints. Then, a physically constrained statistical method based on the miximum likelihood estimation for IST (MLE-IST) is proposed with polynomial number of parameters with respect to the Markovian order. It shows significant flexibility that suit for different types of device, e.g. noisy intermediate-scale quantum (NISQ) devices, by adjusting the model and constraints. The experimental results show the effectiveness of describing instruments and the non-Markovian quantum system. As a result, the IST provides an essential method for benchmarking and developing quantum devices in the aspect of instrument set.
翻訳日:2023-07-31 15:03:37 公開日:2023-07-28
# 負の$\Delta_T$雑音を持つスピンフリップ散乱

Spin-flip scattering engendered negative $\Delta_T$ noise ( http://arxiv.org/abs/2307.14072v2 )

ライセンス: Link先を確認
Tusaradri Mohapatra, Colin Benjamin(参考訳) 帯電電流がない場合の温度勾配による$\Delta_T$ノイズは、最近多くの関心を集めている。 本稿では, スピン偏極電荷$\delta_t$ ノイズを初めて導出し, ショットノイズライクで熱雑音ライクな寄与とともにスピン$\delta_t$ ノイズを導出する。 温度勾配の2層金属接合界面におけるスピンフリップパの導入について,スピンフリップ散乱の影響について検討した。 2つの異なる温度条件に対して、電荷とスピンの$\Delta_T$ノイズを4つの異なる設定で詳細に解析する: 1つの熱い貯水池の第1ケースと、同じ温度の貯水池の第2ケース、および2つの異なるバイアス電圧条件:0バイアス電圧の第1ケースと有限バイアス電圧の第2ケースである。 これら全てのレジームにおいて、転送される正電荷電流が常にゼロであることを保証する。 負電荷$\Delta_T$は、同じ温度の貯水池に対して、別の熱い貯水池の場合、$\Delta_T$は正である。 また、スピン$\Delta_T$ノイズとスピン$\Delta_T$熱ノイズのような寄与は、ホットとコールド貯水池のケースでは負である。 スピン依存バイアスを持つスピン$\delta_t$ショットノイズに対する一般的なバウンドに関する最近の研究は、常に正であることを示している。 本稿では,スピン依存バイアスが存在しないにもかかわらず,正電荷$\delta_t$ショットノイズ寄与とは対照的に,スピン$\delta_t$ショットノイズ様寄与が負になることを示す。 スピンフリップ散乱は、電荷とスピンの両方における符号の変化の興味深い効果を示し、スピン偏極輸送を探究するのに役立つ。

$\Delta_T$ noise generated due to temperature gradient in the absence of charge current has recently attracted a lot of interest. In this paper, for the first time, we derive spin-polarized charge $\Delta_T$ noise and spin $\Delta_T$ noise along with its shot noise-like and thermal noise-like contributions. Introducing a spin flipper at the interface of a bilayer metal junction with a temperature gradient, we examine the impact of spin-flip scattering. We do a detailed analysis of charge and spin $\Delta_T$ noise in four distinct setups for two distinct temperature regimes: the first case of one hot \& the other cold reservoir and the second case of reservoirs with comparable temperatures, and also two distinct bias voltage regimes: the first case of zero bias voltage and second case of finite bias voltage. In all these regimes, we ensure that the net charge current transported is zero always. We find negative charge $\Delta_T$ noise for reservoirs at comparable temperatures while for the one hot \& another cold reservoir case, charge $\Delta_T$ noise is positive. We also see that spin $\Delta_T$ noise and spin $\Delta_T$ thermal noise-like contributions are negative for one hot and the other cold reservoir case. Recent work on the general bound for spin $\Delta_T$ shot noise with a spin-dependent bias suggests it is always positive. In this paper, we see spin $\Delta_T$ shot noise-like contribution to be negative in contrast to positive charge $\Delta_T$ shot noise contribution, although in the absence of any spin-dependent bias. Spin-flip scattering exhibits the intriguing effect of a change in sign in both charge and spin $\Delta_T$ noise, which can help probe spin-polarized transport.
翻訳日:2023-07-31 15:02:21 公開日:2023-07-28
# ARB: 大規模言語モデルのための高度な推論ベンチマーク

ARB: Advanced Reasoning Benchmark for Large Language Models ( http://arxiv.org/abs/2307.13692v2 )

ライセンス: Link先を確認
Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas, Alexander Kranias, John J. Nay, Kshitij Gupta, Aran Komatsuzaki(参考訳) 大規模言語モデル(LLM)は、様々な量的推論と知識のベンチマークで顕著な性能を示した。 しかし、これらのベンチマークの多くは、これらの領域でまだ専門家のパフォーマンスに達していないにもかかわらず、LSMが高得点を獲得するにつれて実用性を失っている。 複数の分野における高度な推論問題からなる新しいベンチマークであるarbを紹介する。 ARBは以前のベンチマークよりも難しいテストを示しており、数学、物理学、生物学、化学、法学の問題を特徴としている。 ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。 我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。 自動評価能力と補助評価能力の両方を改善するために,gpt-4が独自の中間的推論ステップをスコアリングできるように,rubricベースの評価手法を導入する。 さらに, arbの記号部分集合の人間的評価を行い, アノテーションとgpt-4ルブリック評価スコアの有望な一致を見出した。

Large Language Models (LLMs) have demonstrated remarkable performance on various quantitative reasoning and knowledge benchmarks. However, many of these benchmarks are losing utility as LLMs get increasingly high scores, despite not yet reaching expert performance in these domains. We introduce ARB, a novel benchmark composed of advanced reasoning problems in multiple fields. ARB presents a more challenging test than prior benchmarks, featuring problems in mathematics, physics, biology, chemistry, and law. As a subset of ARB, we introduce a challenging set of math and physics problems which require advanced symbolic reasoning and domain knowledge. We evaluate recent models such as GPT-4 and Claude on ARB and demonstrate that current models score well below 50% on more demanding tasks. In order to improve both automatic and assisted evaluation capabilities, we introduce a rubric-based evaluation approach, allowing GPT-4 to score its own intermediate reasoning steps. Further, we conduct a human evaluation of the symbolic subset of ARB, finding promising agreement between annotators and GPT-4 rubric evaluation scores.
翻訳日:2023-07-31 15:01:42 公開日:2023-07-28
# デュエット:効率的でスケーラブルなヒブリド・ネウラル・リレーション・アンダースタンディング

Duet: efficient and scalable hybriD neUral rElation undersTanding ( http://arxiv.org/abs/2307.13494v4 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Yabin Lu, Ziqi Li, Chang Shu, Yu Yan, Donghua Yang(参考訳) 学習された濃度推定法は従来の手法に比べて高精度である。 学習した方法の中で、クエリ駆動アプローチは、データとワークロードのドリフトの問題に長い間直面する。 クエリ駆動法とハイブリッド法の両方がこの問題を回避するために提案されているが、最先端の手法でさえ高いトレーニングと推定コスト、限られたスケーラビリティ、不安定性、高濃度および高次元テーブル上の長期分布問題に悩まされており、これは学習された濃度推定器の実践的応用に大きな影響を及ぼす。 本稿では,これらの問題のほとんどが,広く用いられているプログレッシブサンプリングによるものであることを実証する。 本稿では, 自己回帰モデルに述語情報を導入し, サンプリングや非微分不可能なプロセスなしに, 濃度を直接推定する, 安定かつ効率的でスケーラブルなハイブリッド手法であるDuetを提案し, ナルーやUAEと比較して, O(n) から O(1) への推論複雑性を低減できるだけでなく, 高濃度および高次元のテーブル上で高い精度を実現する。 実験の結果、Duetは上記のすべての設計目標を達成でき、より実用的であり、GPU上のほとんどの学習した手法よりもCPU上での推論コストが低いことがわかった。

Learned cardinality estimation methods have achieved high precision compared to traditional methods. Among learned methods, query-driven approaches face the data and workload drift problem for a long time. Although both query-driven and hybrid methods are proposed to avoid this problem, even the state-of-the-art of them suffer from high training and estimation costs, limited scalability, instability, and long-tailed distribution problem on high cardinality and high-dimensional tables, which seriously affects the practical application of learned cardinality estimators. In this paper, we prove that most of these problems are directly caused by the widely used progressive sampling. We solve this problem by introducing predicates information into the autoregressive model and propose Duet, a stable, efficient, and scalable hybrid method to estimate cardinality directly without sampling or any non-differentiable process, which can not only reduces the inference complexity from O(n) to O(1) compared to Naru and UAE but also achieve higher accuracy on high cardinality and high-dimensional tables. Experimental results show that Duet can achieve all the design goals above and be much more practical and even has a lower inference cost on CPU than that of most learned methods on GPU.
翻訳日:2023-07-31 15:01:25 公開日:2023-07-28
# 言語モデルを用いた患者とのマッチングの試み

Matching Patients to Clinical Trials with Large Language Models ( http://arxiv.org/abs/2307.15051v2 )

ライセンス: Link先を確認
Qiao Jin, Zifeng Wang, Charalampos S. Floudas, Jimeng Sun, Zhiyong Lu(参考訳) 臨床試験は医薬品開発やエビデンスに基づく医学の発展に不可欠であるが、その成功は患者採用の課題によってしばしば妨げられる。 本研究は,大規模言語モデル (llm) の患者や紹介医の適切な臨床治験の特定を支援する可能性について,広範な選択から検討する。 具体的には,詳細な説明を加えて基準レベルの適格性を予測するためのllmsを用いた新しいアーキテクチャであるtrialgptを紹介する。 以上より,TrialGPTは184例および18,238例の公用コホートで評価した。 実験の結果,TrialGPTは高い基準レベルの予測精度を忠実な説明で達成した。 第2に、総合試行レベルのトライアルgptスコアは、専門家の適格アノテーションと高い相関がある。 第三に、これらのスコアは臨床試験のランク付けに有効であり、資格のない候補を除外する。 我々の誤り分析は、現在のLLMが医療知識の制限とドメイン固有のコンテキスト理解のためにまだいくつかの誤りを犯していることを示唆している。 にもかかわらず、LLMの解説能力は非常に貴重である。 将来の研究は、こうしたaiアシスタントを現実世界の設定で通常のトライアルマッチングワークフローに統合し、効率を向上させる方法が保証されている。

Clinical trials are vital in advancing drug development and evidence-based medicine, but their success is often hindered by challenges in patient recruitment. In this work, we investigate the potential of large language models (LLMs) to assist individual patients and referral physicians in identifying suitable clinical trials from an extensive selection. Specifically, we introduce TrialGPT, a novel architecture employing LLMs to predict criterion-level eligibility with detailed explanations, which are then aggregated for ranking and excluding candidate clinical trials based on free-text patient notes. We evaluate TrialGPT on three publicly available cohorts of 184 patients and 18,238 annotated clinical trials. The experimental results demonstrate several key findings: First, TrialGPT achieves high criterion-level prediction accuracy with faithful explanations. Second, the aggregated trial-level TrialGPT scores are highly correlated with expert eligibility annotations. Third, these scores prove effective in ranking clinical trials and exclude ineligible candidates. Our error analysis suggests that current LLMs still make some mistakes due to limited medical knowledge and domain-specific context understanding. Nonetheless, we believe the explanatory capabilities of LLMs are highly valuable. Future research is warranted on how such AI assistants can be integrated into the routine trial matching workflow in real-world settings to improve its efficiency.
翻訳日:2023-07-31 14:50:38 公開日:2023-07-28
# 事前知識制約を神経odeに統合する自己適応的ペナルティ法

A Self-Adaptive Penalty Method for Integrating Prior Knowledge Constraints into Neural ODEs ( http://arxiv.org/abs/2307.14940v2 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L. L. Ferr\'as(参考訳) 自然システムの連続力学は神経常微分方程式(ニューラルオデム)を用いて効果的にモデル化されている。 しかし、正確で有意義な予測には、モデルがこれらのシステムを支配する基礎となる規則や法則に従うことが不可欠である。 本研究では,制約付き自然系のモデリングを可能にするニューラルネットワークの自己適応型ペナルティアルゴリズムを提案する。 提案する自己適応ペナルティ関数はペナルティパラメータを動的に調整することができる。 事前知識の明示的な導入は、Neural ODEベースのモデルの解釈可能性を高めるのに役立つ。 提案手法は, 人口増加, 化学反応の進化, 減衰調和振動子運動という3つの自然系を事前の知識制約でモデル化することによって検証する。 数値実験と他のペナルティニューラルODEアプローチと<emph{vanilla}ニューラルODEとの比較により,制約された自然系のモデル化におけるニューラルODEに対する自己適応ペナルティアルゴリズムの有効性が示された。 さらに、自己適応型ペナルティアプローチは、信頼性と有意義な予測を備えたより正確で堅牢なモデルを提供する。

The continuous dynamics of natural systems has been effectively modelled using Neural Ordinary Differential Equations (Neural ODEs). However, for accurate and meaningful predictions, it is crucial that the models follow the underlying rules or laws that govern these systems. In this work, we propose a self-adaptive penalty algorithm for Neural ODEs to enable modelling of constrained natural systems. The proposed self-adaptive penalty function can dynamically adjust the penalty parameters. The explicit introduction of prior knowledge helps to increase the interpretability of Neural ODE -based models. We validate the proposed approach by modelling three natural systems with prior knowledge constraints: population growth, chemical reaction evolution, and damped harmonic oscillator motion. The numerical experiments and a comparison with other penalty Neural ODE approaches and \emph{vanilla} Neural ODE, demonstrate the effectiveness of the proposed self-adaptive penalty algorithm for Neural ODEs in modelling constrained natural systems. Moreover, the self-adaptive penalty approach provides more accurate and robust models with reliable and meaningful predictions.
翻訳日:2023-07-31 14:50:16 公開日:2023-07-28
# desbordanteによるデータ品質問題を解決するデモ

Solving Data Quality Problems with Desbordante: a Demo ( http://arxiv.org/abs/2307.14935v2 )

ライセンス: Link先を確認
George Chernishev, Michael Polyntsov, Anton Chizhov, Kirill Stupakov, Ilya Shchuckin, Alexander Smirnov, Maxim Strutovsky, Alexey Shlyonskikh, Mikhail Firsov, Stepan Manannikov, Nikita Bobrov, Daniil Goncharov, Ilia Barutkin, Vladislav Shalnev, Kirill Muraviev, Anna Rakhmukova, Dmitriy Shcheka, Anton Chernikov, Mikhail Vyrodov, Yaroslav Kurbatov, Maxim Fofanov, Sergei Belokonnyi, Pavel Anosov, Arthur Saliou, Eduard Gaisin, Kirill Smirnov(参考訳) データプロファイリングは、現代のデータ駆動産業において不可欠なプロセスである。 その重要なコンポーネントの1つは、関数依存、データ制約、アソシエーションルールなどを含む複雑な統計の発見と検証である。 しかし、複雑な統計に焦点を絞った既存のデータプロファイリングシステムは、現代のデータサイエンティストが使用するツールと適切に統合されていない。 これにより、業界におけるこれらのツールの採用に大きな障壁が生まれます。 さらに、既存のシステムは産業レベルのワークロードを念頭に置いて作られていない。 最後に、なぜあるパターンが見つからないのかという記述的な説明を提供することを意図していない。 特定のパターンがデータに基づいて情報的決定を下さない理由を理解することが不可欠であるため、重要な問題である。 そのため、これらのパターンは事実上薄い空気で保たれており、適用範囲は比較的限られており、広く広く使われることは稀である。 同時に、このプレゼンテーションで示すように、多くの古典的なデータ品質問題を解決するために、複雑な統計を効率的に使うことができる。 Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。 産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。 さらに、マイニングだけでなく、様々なコストのかかる操作をc++コアにオフロードすることで、シームレスなpython統合を提供する。 このデモンストレーションでは、エンドユーザーが異なるデータ品質の問題を解決するいくつかのシナリオを示す。 具体的には,タイポ検出,データ重複,データ異常検出シナリオを紹介する。

Data profiling is an essential process in modern data-driven industries. One of its critical components is the discovery and validation of complex statistics, including functional dependencies, data constraints, association rules, and others. However, most existing data profiling systems that focus on complex statistics do not provide proper integration with the tools used by contemporary data scientists. This creates a significant barrier to the adoption of these tools in the industry. Moreover, existing systems were not created with industrial-grade workloads in mind. Finally, they do not aim to provide descriptive explanations, i.e. why a given pattern is not found. It is a significant issue as it is essential to understand the underlying reasons for a specific pattern's absence to make informed decisions based on the data. Because of that, these patterns are effectively rest in thin air: their application scope is rather limited, they are rarely used by the broader public. At the same time, as we are going to demonstrate in this presentation, complex statistics can be efficiently used to solve many classic data quality problems. Desbordante is an open-source data profiler that aims to close this gap. It is built with emphasis on industrial application: it is efficient, scalable, resilient to crashes, and provides explanations. Furthermore, it provides seamless Python integration by offloading various costly operations to the C++ core, not only mining. In this demonstration, we show several scenarios that allow end users to solve different data quality problems. Namely, we showcase typo detection, data deduplication, and data anomaly detection scenarios.
翻訳日:2023-07-31 14:49:56 公開日:2023-07-28
# 量子ビットが少ないQAOA:大規模Max-Cut問題を解決する結合フレームワーク

QAOA with fewer qubits: a coupling framework to solve larger-scale Max-Cut problem ( http://arxiv.org/abs/2307.15260v1 )

ライセンス: Link先を確認
Yiren Lu, Guojing Tian, Xiaoming Sun(参考訳) 最大カット(Max-Cut)問題は実生活における様々な応用のために最も重要な組合せ最適化問題の1つであり、最近では量子近似最適化アルゴリズム(QAOA)が広く用いられている。 しかし、問題のサイズが大きくなるにつれて、必要な量子ビットの数が増加する。 そこで本研究では,QAOA回路を設計し,より大規模なMax-Cut問題を解くための結合フレームワークを提案する。 このフレームワークは、Max-Cutの変種を近似的に解く古典的アルゴリズムに依存し、古典的アルゴリズムとQAOAの近似比を仮定して理論的に近似を保証する。 さらに、フレームワークに適合するヒューリスティックなアプローチを設計し、十分な数値実験を行い、24$-vertex erd\h{o}s-r\'enyiグラフの最大カットを解く。 我々のフレームワークは18ドルキュービットしか消費せず、平均で0.950ドル近似比を達成しており、従来の手法では0.9778ドル(同じ数のキュービットを用いた量子アルゴリズム)と0.9643ドル(古典的なアルゴリズム)を上回ります。 実験結果から, 量子古典結合フレームワークは, 量子ビットコストを低減しつつ, 良好な近似比を与え, nisqデバイスの計算能力の向上に寄与することが示唆された。

Maximum cut (Max-Cut) problem is one of the most important combinatorial optimization problems because of its various applications in real life, and recently Quantum Approximate Optimization Algorithm (QAOA) has been widely employed to solve it. However, as the size of the problem increases, the number of qubits required will become larger. With the aim of saving qubits, we propose a coupling framework for designing QAOA circuits to solve larger-scale Max-Cut problem. This framework relies on a classical algorithm that approximately solves a certain variant of Max-Cut, and we derive an approximation guarantee theoretically, assuming the approximation ratio of the classical algorithm and QAOA. Furthermore we design a heuristic approach that fits in our framework and perform sufficient numerical experiments, where we solve Max-Cut on various $24$-vertex Erd\H{o}s-R\'enyi graphs. Our framework only consumes $18$ qubits and achieves $0.9950$ approximation ratio on average, which outperforms the previous methods showing $0.9778$ (quantum algorithm using the same number of qubits) and $0.9643$ (classical algorithm). The experimental results indicate our well-designed quantum-classical coupling framework gives satisfactory approximation ratio while reduces the qubit cost, which sheds light on more potential computing power of NISQ devices.
翻訳日:2023-07-31 14:05:11 公開日:2023-07-28
# 制約学習による学習:新しい視点、解決戦略、および様々な応用

Learning with Constraint Learning: New Perspective, Solution Strategy and Various Applications ( http://arxiv.org/abs/2307.15257v1 )

ライセンス: Link先を確認
Risheng Liu, Jiaxin Gao, Xuan Liu, and Xin Fan(参考訳) GAN(Generative Adversarial Network)とその変種、マルチタスクとメタラーニング、ハイパーパラメータ学習、および様々な現実世界の視覚アプリケーションといった学習問題の複雑さは、その基盤となる結合メカニズムをより深く理解する必要がある。 既存のアプローチは、共通点を明らかにし、効果的な解決策を可能にする統一された視点を欠いている。 そこで本研究では,難題を総合的に検討し,上記の複雑な学習とビジョンの問題に対処するための統一的な方法論を提供する,LwCL(Learning with Constraint Learning)という新しいフレームワークを提案する。 具体的には、LwCLは、これらの多様な学習および視覚問題の本質を捉える一般的な階層的最適化モデルとして設計されている。 さらに、LwCLフレームワークの最適化課題を克服するために、勾配応答に基づく高速解法戦略を開発する。 提案フレームワークは,3つのカテゴリと9つの異なる問題タイプを含む,学習と視覚の幅広い応用に効果的に対処する。 人工タスクと実世界の応用に関する大規模な実験は、我々のアプローチの有効性を検証する。 LwCLフレームワークは複雑な機械学習とコンピュータビジョンの問題に対処し、理論と実践のギャップを埋めるための包括的なソリューションを提供する。

The complexity of learning problems, such as Generative Adversarial Network (GAN) and its variants, multi-task and meta-learning, hyper-parameter learning, and a variety of real-world vision applications, demands a deeper understanding of their underlying coupling mechanisms. Existing approaches often address these problems in isolation, lacking a unified perspective that can reveal commonalities and enable effective solutions. Therefore, in this work, we proposed a new framework, named Learning with Constraint Learning (LwCL), that can holistically examine challenges and provide a unified methodology to tackle all the above-mentioned complex learning and vision problems. Specifically, LwCL is designed as a general hierarchical optimization model that captures the essence of these diverse learning and vision problems. Furthermore, we develop a gradient-response based fast solution strategy to overcome optimization challenges of the LwCL framework. Our proposed framework efficiently addresses a wide range of applications in learning and vision, encompassing three categories and nine different problem types. Extensive experiments on synthetic tasks and real-world applications verify the effectiveness of our approach. The LwCL framework offers a comprehensive solution for tackling complex machine learning and computer vision problems, bridging the gap between theory and practice.
翻訳日:2023-07-31 14:04:44 公開日:2023-07-28
# マスク付きハードインスタンスマイニングによる全スライド画像分類のための複数インスタンス学習フレームワーク

Multiple Instance Learning Framework with Masked Hard Instance Mining for Whole Slide Image Classification ( http://arxiv.org/abs/2307.15254v1 )

ライセンス: Link先を確認
Wenhao Tang and Sheng Huang and Xiaoxian Zhang and Fengtao Zhou and Yi Zhang and Bo Liu(参考訳) スライド画像全体(WSI)分類は、しばしば多重インスタンス学習(MIL)問題として定式化される。 正の組織はギガピクセルWSIのごく一部に過ぎず,既存のMIL法は注意機構による正のインスタンスの同定に直感的に重点を置いている。 しかし、これは難解なインスタンスを無視しながら、分類し易いインスタンスに偏りを生じさせ、厳密な例が識別境界を正確にモデル化するのに有益であることを示す文献もあるので、そのようなアイデアをインスタンスレベルで適用することで、シームズ構造(Teacher-Student)を用いて潜在的なハードインスタンスを探索する新しいMILフレームワーク(MHIM-MIL)を精査する。 With several instance masking strategies based on attention scores, MHIM-MIL employs a momentum teacher to implicitly mine hard instances for training the student model, which can be any attention-based MIL model.This counter-intuitive strategy essentially enables the student to learn a better discriminating boundary.Moreover, the student is used to update the teacher with an exponential moving average (EMA), which in turn identifies new hard instances for subsequent training iterations and stabilizes the optimization.Experimental results on the CAMELYON-16 and TCGA Lung Cancer datasets demonstrate that MHIM-MIL outperforms other latest methods in terms of performance and training cost. コードはhttps://github.com/DearCaat/MHIM-MILで公開されている。

The whole slide image (WSI) classification is often formulated as a multiple instance learning (MIL) problem. Since the positive tissue is only a small fraction of the gigapixel WSI,existing MIL methods intuitively focus on identifying salient instances via attention mechanisms. However, this leads to a bias towards easy-to-classify instances while neglecting hard-to-classify instances.Some literature has revealed that hard examples are beneficial for modeling a discriminative boundary accurately.By applying such an idea at the instance level,we elaborate a novel MIL framework with masked hard instance mining (MHIM-MIL), which uses a Siamese structure (Teacher-Student) with a consistency constraint to explore the potential hard instances. With several instance masking strategies based on attention scores, MHIM-MIL employs a momentum teacher to implicitly mine hard instances for training the student model, which can be any attention-based MIL model.This counter-intuitive strategy essentially enables the student to learn a better discriminating boundary.Moreover, the student is used to update the teacher with an exponential moving average (EMA), which in turn identifies new hard instances for subsequent training iterations and stabilizes the optimization.Experimental results on the CAMELYON-16 and TCGA Lung Cancer datasets demonstrate that MHIM-MIL outperforms other latest methods in terms of performance and training cost. The code is available at:https://github.com/DearCaat/MHIM-MIL.
翻訳日:2023-07-31 14:04:24 公開日:2023-07-28
# 共起バイアスの解法:歩行者属性認識のための相互情報最小化による絡み合いの寄与

A Solution to Co-occurrence Bias: Attributes Disentanglement via Mutual Information Minimization for Pedestrian Attribute Recognition ( http://arxiv.org/abs/2307.15252v1 )

ライセンス: Link先を確認
Yibo Zhou, Hai-Miao Hu, Jinzuo Yu, Zhenbo Xu, Weiqing Lu, Yuran Cao(参考訳) 属性間の共起の明示的・暗黙的モデリングによる歩行者属性認識の進展に関する研究 特定のシナリオに関して、この既知の先行が非常に可変であり、予測できないことを考えると、現在の手法は、実際に、これらの適合属性を、データセットの分布からシーンやアイデンティティに相互依存性を一般化することで、属性の下位バイアスを生じさせることを示す。 そこで,実環境において頑健なモデルを実現するために,他者の存在を推論しない属性の認識を保証し,相互情報最小化問題として逐次定式化する属性不連続特徴学習を提案する。 それによってベースラインが大幅に改善され、petazsやrapzsといった現実的なデータセット上で最先端のパフォーマンスが確立される。 コードはhttps://github.com/SDret/A-Solution-to-Co-occurence-Bias-in-Pedestrian-Attribute-Recognitionで公開されている。

Recent studies on pedestrian attribute recognition progress with either explicit or implicit modeling of the co-occurrence among attributes. Considering that this known a prior is highly variable and unforeseeable regarding the specific scenarios, we show that current methods can actually suffer in generalizing such fitted attributes interdependencies onto scenes or identities off the dataset distribution, resulting in the underlined bias of attributes co-occurrence. To render models robust in realistic scenes, we propose the attributes-disentangled feature learning to ensure the recognition of an attribute not inferring on the existence of others, and which is sequentially formulated as a problem of mutual information minimization. Rooting from it, practical strategies are devised to efficiently decouple attributes, which substantially improve the baseline and establish state-of-the-art performance on realistic datasets like PETAzs and RAPzs. Code is released on https://github.com/SDret/A-Solution-to-Co-occurence-Bias-in-Pedestrian-Attribute-Recognition.
翻訳日:2023-07-31 14:03:59 公開日:2023-07-28
# d2s: カメラ再ローカライズのためのローカルディスクリプタとグローバルシーン座標の表現

D2S: Representing local descriptors and global scene coordinates for camera relocalization ( http://arxiv.org/abs/2307.15250v1 )

ライセンス: Link先を確認
Bach-Thuan Bui, Dinh-Tuan Tran, and Joo-Ho Lee(参考訳) 最先端のビジュアルローカライズ手法は主に、ローカルディスクリプタと3dポイントクラウドにマッチする複雑な手順に依存している。 しかし、これらの手順は時間とともに推論、ストレージ、更新の点でかなりのコストを発生させる可能性がある。 本研究では,ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを用いた直接学習型アプローチを提案する。 この手法は単純さとコスト効率が特徴である。 テストフェーズ中にローカライズするために単一のrgbイメージのみを利用し、複雑なスパースシーンをエンコードする軽量モデルのみを必要とする。 提案したD2Sは、単純な損失関数とグラフアテンションを組み合わせて、雲や木、いくつかの動的オブジェクトなどの領域を無視しながら、堅牢な記述子に選択的にフォーカスする。 この選択的な注意により、D2Sはスパースディスクリプタのバイナリ・セマンティック分類を効果的に行うことができる。 さらに,景観の一般化とラベルなし観察からの自己回復の観点から,視覚局所化手法の能力を評価するための新しい屋外データセットを提案する。 本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。 ラベル付きデータソースがなくても、昼から夜への移行やドメインシフトへの適応といったシナリオを含む、トレーニングデータを超えて一般化する能力を示している。 ソースコード、トレーニングされたモデル、データセット、デモビデオは以下のリンクで利用可能である。

State-of-the-art visual localization methods mostly rely on complex procedures to match local descriptors and 3D point clouds. However, these procedures can incur significant cost in terms of inference, storage, and updates over time. In this study, we propose a direct learning-based approach that utilizes a simple network named D2S to represent local descriptors and their scene coordinates. Our method is characterized by its simplicity and cost-effectiveness. It solely leverages a single RGB image for localization during the testing phase and only requires a lightweight model to encode a complex sparse scene. The proposed D2S employs a combination of a simple loss function and graph attention to selectively focus on robust descriptors while disregarding areas such as clouds, trees, and several dynamic objects. This selective attention enables D2S to effectively perform a binary-semantic classification for sparse descriptors. Additionally, we propose a new outdoor dataset to evaluate the capabilities of visual localization methods in terms of scene generalization and self-updating from unlabeled observations. Our approach outperforms the state-of-the-art CNN-based methods in scene coordinate regression in indoor and outdoor environments. It demonstrates the ability to generalize beyond training data, including scenarios involving transitions from day to night and adapting to domain shifts, even in the absence of the labeled data sources. The source code, trained models, dataset, and demo videos are available at the following link: https://thpjp.github.io/d2s
翻訳日:2023-07-31 14:03:39 公開日:2023-07-28
# このモデルはみんなに信頼できるのですか。 強い校正のためのテスト

Is this model reliable for everyone? Testing for strong calibration ( http://arxiv.org/abs/2307.15247v1 )

ライセンス: Link先を確認
Jean Feng, Alexej Gossmann, Romain Pirracchio, Nicholas Petrick, Gene Pennello, Berkman Sahiner(参考訳) well-calibrated risk prediction model では、平均予測確率は任意の部分群に対する真の事象率に近い。 このようなモデルは異種集団にわたって信頼性があり、アルゴリズム的公正性の強い概念を満たす。 しかし、強力なキャリブレーションのためのモデル監査のタスクは、潜在的なサブグループの数が多すぎるため、特に機械学習(ML)アルゴリズムでは難しいことが知られている。 そのため、事前定義された部分群に対してのみキャリブレーションを評価することが一般的である。 適合度テスト(goodness-of-fit testing)の最近の開発は、潜在的な解決策を提供するが、弱い信号を持つ設定や、不調整のサブグループが小さい設定のために設計されていない。 予測された残差によって観測を並べ替えることができれば、この系列に沿って予測された残差と観測された残差の間には、調整が不十分な部分群が存在する場合の変化があるはずである。 これにより、キャリブレーションテストの問題を、すでに強力なメソッドが存在するチェンジポイント検出の1つに再構成することができます。 まず,残差予測のための候補モデルの組をトレーニングするためにデータの一部を使用し,残りのデータをスコアベース累積和(cusum)テストに使用するサンプル分割手順を導入する。 パワーをさらに向上するため、我々はこの適応型CUSUMテストを拡張し、最小限の仮定でType Iエラー制御を維持しながら、クロスバリデーションを組み込む。 従来の手法と比較すると,提案手法はシミュレーション研究において一貫して高いパワーを達成し,死亡リスク予測モデルの監査時に2倍以上のパワーを得た。

In a well-calibrated risk prediction model, the average predicted probability is close to the true event rate for any given subgroup. Such models are reliable across heterogeneous populations and satisfy strong notions of algorithmic fairness. However, the task of auditing a model for strong calibration is well-known to be difficult -- particularly for machine learning (ML) algorithms -- due to the sheer number of potential subgroups. As such, common practice is to only assess calibration with respect to a few predefined subgroups. Recent developments in goodness-of-fit testing offer potential solutions but are not designed for settings with weak signal or where the poorly calibrated subgroup is small, as they either overly subdivide the data or fail to divide the data at all. We introduce a new testing procedure based on the following insight: if we can reorder observations by their expected residuals, there should be a change in the association between the predicted and observed residuals along this sequence if a poorly calibrated subgroup exists. This lets us reframe the problem of calibration testing into one of changepoint detection, for which powerful methods already exist. We begin with introducing a sample-splitting procedure where a portion of the data is used to train a suite of candidate models for predicting the residual, and the remaining data are used to perform a score-based cumulative sum (CUSUM) test. To further improve power, we then extend this adaptive CUSUM test to incorporate cross-validation, while maintaining Type I error control under minimal assumptions. Compared to existing methods, the proposed procedure consistently achieved higher power in simulation studies and more than doubled the power when auditing a mortality risk prediction model.
翻訳日:2023-07-31 14:03:16 公開日:2023-07-28
# 統計的不均一性実験設計におけるフェデレーション学習の実践的準備

A Practical Recipe for Federated Learning Under Statistical Heterogeneity Experimental Design ( http://arxiv.org/abs/2307.15245v1 )

ライセンス: Link先を確認
Mahdi Morafah, Weijia Wang, Bill Lin(参考訳) 近年,連合学習(fl)は活発な研究分野となっている。 FLでは、データ不均一性の存在をより成功させるために多くの研究がなされている。 しかし、多くの出版物が存在するにもかかわらず、この分野の進展状況は不明である。 多くの研究では一貫性のない実験環境が使われており、FL固有の実験変数が結果に与える影響に関する包括的な研究は行われていない。 さらに、いくつかのベンチマークと結合変数の存在は、矛盾と曖昧性の問題をさらに複雑にしている。 本研究は,FL固有の実験変数の相互関係と評価結果に対する効果に関する総合的研究であり,有意義でインセンティブの高いFL実験装置を設計するためのいくつかの洞察と勧告をもたらす。 PyTorchをベースとして22の最先端メソッドを事前実装したオープンソースライブラリであるFedZoo-Benchと、https://github.com/MMorafah/FedZoo-Benchで利用可能な、幅広い標準化およびカスタマイズ可能な機能セットをリリースすることによって、コミュニティをさらに支援します。 また、フィールドの現在の状態と既存の制限をよりよく理解するために、いくつかの最先端(SOTA)手法を包括的に比較する。

Federated Learning (FL) has been an area of active research in recent years. There have been numerous studies in FL to make it more successful in the presence of data heterogeneity. However, despite the existence of many publications, the state of progress in the field is unknown. Many of the works use inconsistent experimental settings and there are no comprehensive studies on the effect of FL-specific experimental variables on the results and practical insights for a more comparable and consistent FL experimental setup. Furthermore, the existence of several benchmarks and confounding variables has further complicated the issue of inconsistency and ambiguity. In this work, we present the first comprehensive study on the effect of FL-specific experimental variables in relation to each other and performance results, bringing several insights and recommendations for designing a meaningful and well-incentivized FL experimental setup. We further aid the community by releasing FedZoo-Bench, an open-source library based on PyTorch with pre-implementation of 22 state-of-the-art methods, and a broad set of standardized and customizable features available at https://github.com/MMorafah/FedZoo-Bench. We also provide a comprehensive comparison of several state-of-the-art (SOTA) methods to better understand the current state of the field and existing limitations.
翻訳日:2023-07-31 14:02:48 公開日:2023-07-28
# BOURNE: 統一グラフ異常検出のための自己教師付き学習フレームワーク

BOURNE: Bootstrapped Self-supervised Learning Framework for Unified Graph Anomaly Detection ( http://arxiv.org/abs/2307.15244v1 )

ライセンス: Link先を確認
Jie Liu, Mengting He, Xuequn Shang, Jieming Shi, Bin Cui, Hongzhi Yin(参考訳) グラフ異常検出(GAD)は,近年,ソーシャルネットワークや金融リスク管理,交通分析など,幅広い分野において重要な応用がなされているため,注目を集めている。 既存のgad法は、検出されるグラフオブジェクトの種類に基づいて、ノードおよびエッジ異常検出モデルに分類することができる。 しかし、これらの手法は通常、ノードとエッジの異常を別個のタスクとして扱い、それらの関連や、現実世界のグラフにおける頻繁な共起を見渡す。 その結果、ノードとエッジの異常によって提供される相補的な情報を相互検出に利用できない。 さらに、colaやsl-gadのような最先端gad法は、コントラスト学習における負のペアサンプリングに大きく依存しており、高い計算コストをもたらし、大規模グラフへのスケーラビリティを阻害している。 これらの制限に対処するために,自己教師付き学習(bourne)に基づく新しい統一グラフ異常検出フレームワークを提案する。 対象ノードを中心にしたサブグラフ(グラフビュー)をノードコンテキストとして抽出し,エッジコンテキストとしてデュアルハイパーグラフ(ハイパーグラフビュー)に変換する。 これらのビューはグラフとハイパーグラフニューラルネットワークを使用して符号化され、ノード、エッジ、および関連するコンテキストの表現をキャプチャする。 ノードとエッジ間のコンテキスト埋め込みを交換し、埋め込み空間における一致を測定することにより、ノードとエッジ異常の相互検出を可能にする。 さらに,ネガサンプリングの必要性をなくし,大規模なグラフを効率的に処理できるブートストラップトレーニング戦略を採用する。 6つのベンチマークデータセットで行った広範囲な実験は、ノードとエッジの異常を検出する上で、bourneの優れた有効性と効率を示している。

Graph anomaly detection (GAD) has gained increasing attention in recent years due to its critical application in a wide range of domains, such as social networks, financial risk management, and traffic analysis. Existing GAD methods can be categorized into node and edge anomaly detection models based on the type of graph objects being detected. However, these methods typically treat node and edge anomalies as separate tasks, overlooking their associations and frequent co-occurrences in real-world graphs. As a result, they fail to leverage the complementary information provided by node and edge anomalies for mutual detection. Additionally, state-of-the-art GAD methods, such as CoLA and SL-GAD, heavily rely on negative pair sampling in contrastive learning, which incurs high computational costs, hindering their scalability to large graphs. To address these limitations, we propose a novel unified graph anomaly detection framework based on bootstrapped self-supervised learning (named BOURNE). We extract a subgraph (graph view) centered on each target node as node context and transform it into a dual hypergraph (hypergraph view) as edge context. These views are encoded using graph and hypergraph neural networks to capture the representations of nodes, edges, and their associated contexts. By swapping the context embeddings between nodes and edges and measuring the agreement in the embedding space, we enable the mutual detection of node and edge anomalies. Furthermore, we adopt a bootstrapped training strategy that eliminates the need for negative sampling, enabling BOURNE to handle large graphs efficiently. Extensive experiments conducted on six benchmark datasets demonstrate the superior effectiveness and efficiency of BOURNE in detecting both node and edge anomalies.
翻訳日:2023-07-31 14:02:24 公開日:2023-07-28
# 熱帯サイクロンのトポロジカルロバストな物理形追跡フレームワークphy

TROPHY: A Topologically Robust Physics-Informed Tracking Framework for Tropical Cyclones ( http://arxiv.org/abs/2307.15243v1 )

ライセンス: Link先を確認
Lin Yan, Hanqi Guo, Thomas Peterka, Bei Wang, Jiali Wang(参考訳) 熱帯サイクロン(TC)は最も破壊的な気象システムの一つである。 TCのリアルタイムかつ効率的な検出と追跡は、その影響とリスクを評価する上で重要である。 近年,時変ベクトル場の臨界点を研究するために,多レベルロバストネスフレームワークが導入された。 この枠組みは、様々な地区にわたる臨界点のロバスト性を定量化する。 多レベルロバスト性と臨界点追跡を関連付けることで、このフレームワークはサイクロン追跡の可能性を実証している。 利点は、多くの追跡アルゴリズムが異なる高度で複数の動的・熱力学的変数を必要とするため、2次元の風速ベクトル場のみを用いてサイクロニックな特徴を特定することである。 欠点は、このフレームワークが大量のサイクロンを含むデータセットに対して十分にスケールしていないことである。 本稿では,TC追跡のためのトポロジカルに堅牢な物理インフォームドトラッキングフレームワーク(TROPHY)を提案する。 主な考え方は、大規模気候データセットのための多レベルロバストネスフレームワークの計算効率を大幅に改善するために、TCの物理的知識を統合することである。 まず, 予備処理中に, 短命で安定性の低い臨界点の90%をフィルタリングし, tc追跡に適した候補を保ち, 物理に変形した特徴選択戦略を提案する。 第2に,マルチレベルロバストネス計算における制約を課し,TCLの物理情報のみに焦点をあてる。 TROPHYをERA5の再解析データから30年間の2次元風洞に適用し,多数のTCトラックを生成する。 観測されたトラックと比較すると、TROPHYは複数の動的および熱力学的スカラー場を必要とするよく検証されたTC追跡アルゴリズムに匹敵するTC特性を捉えることができる。

Tropical cyclones (TCs) are among the most destructive weather systems. Realistically and efficiently detecting and tracking TCs are critical for assessing their impacts and risks. Recently, a multilevel robustness framework has been introduced to study the critical points of time-varying vector fields. The framework quantifies the robustness of critical points across varying neighborhoods. By relating the multilevel robustness with critical point tracking, the framework has demonstrated its potential in cyclone tracking. An advantage is that it identifies cyclonic features using only 2D wind vector fields, which is encouraging as most tracking algorithms require multiple dynamic and thermodynamic variables at different altitudes. A disadvantage is that the framework does not scale well computationally for datasets containing a large number of cyclones. This paper introduces a topologically robust physics-informed tracking framework (TROPHY) for TC tracking. The main idea is to integrate physical knowledge of TC to drastically improve the computational efficiency of multilevel robustness framework for large-scale climate datasets. First, during preprocessing, we propose a physics-informed feature selection strategy to filter 90% of critical points that are short-lived and have low stability, thus preserving good candidates for TC tracking. Second, during in-processing, we impose constraints during the multilevel robustness computation to focus only on physics-informed neighborhoods of TCs. We apply TROPHY to 30 years of 2D wind fields from reanalysis data in ERA5 and generate a number of TC tracks. In comparison with the observed tracks, we demonstrate that TROPHY can capture TC characteristics that are comparable to and sometimes even better than a well-validated TC tracking algorithm that requires multiple dynamic and thermodynamic scalar fields.
翻訳日:2023-07-31 14:01:56 公開日:2023-07-28
# WC-SBERT:SBERTによるウィキペディアカテゴリの自己評価によるゼロショットテキスト分類

WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for Wikipedia Categories ( http://arxiv.org/abs/2307.15293v1 )

ライセンス: Link先を確認
Te-Yu Chi, Yu-Meng Tang, Chia-Wen Lu, Qiu-Xia Zhang, Jyh-Shing Roger Jang(参考訳) 本研究は,nlpにおけるゼロショットテキスト分類問題を解決することに焦点を当て,特に革新的な自己学習戦略に着目した。 この目的を達成するために,テキストではなくラベルを用いた新たな自己学習戦略を提案し,モデルの学習時間を著しく短縮する。 具体的には、ウィキペディアのカテゴリをトレーニングセットとして使用し、SBERT事前学習モデルを利用して、同じテキスト内のカテゴリのペア間の正の相関を確立することにより、連想的トレーニングを促進する。 新しいテストデータセットでは、元のセルフトレーニングアプローチを改善し、各ターゲットデータセットからの事前トレーニングとテストデータの必要性を排除しました。 代わりに、ゼロショットシナリオをよりよく近似するために、統合トレーニングデータセットとしてwikipediaを採用しています。 この変更により、さまざまなデータセットにわたる迅速な微調整と推論が可能になり、自己学習に要する時間を大幅に削減できる。 実験により,本手法がターゲットデータセットに数分で適応できることを実証した。 他のBERTベースのトランスモデルと比較して、本手法は実際のテキストではなくラベルのみをトレーニングすることでトレーニングデータの量を大幅に削減し、統一されたトレーニングセットを利用することでトレーニング効率を大幅に向上させる。 さらに,本手法はYahoo TopicとAG Newsの双方のデータセットに対して,最先端の結果を得る。

Our research focuses on solving the zero-shot text classification problem in NLP, with a particular emphasis on innovative self-training strategies. To achieve this objective, we propose a novel self-training strategy that uses labels rather than text for training, significantly reducing the model's training time. Specifically, we use categories from Wikipedia as our training set and leverage the SBERT pre-trained model to establish positive correlations between pairs of categories within the same text, facilitating associative training. For new test datasets, we have improved the original self-training approach, eliminating the need for prior training and testing data from each target dataset. Instead, we adopt Wikipedia as a unified training dataset to better approximate the zero-shot scenario. This modification allows for rapid fine-tuning and inference across different datasets, greatly reducing the time required for self-training. Our experimental results demonstrate that this method can adapt the model to the target dataset within minutes. Compared to other BERT-based transformer models, our approach significantly reduces the amount of training data by training only on labels, not the actual text, and greatly improves training efficiency by utilizing a unified training set. Additionally, our method achieves state-of-the-art results on both the Yahoo Topic and AG News datasets.
翻訳日:2023-07-31 13:54:18 公開日:2023-07-28
# ChatHome:住宅改修のためのドメイン特化言語モデルの開発と評価

ChatHome: Development and Evaluation of a Domain-Specific Language Model for Home Renovation ( http://arxiv.org/abs/2307.15290v1 )

ライセンス: Link先を確認
Cheng Wen, Xianghui Sun, Shuaijiang Zhao, Xiaoquan Fang, Liangyu Chen, Wei Zou(参考訳) 本稿では,複雑な住宅改修分野を対象としたドメイン固有言語モデル(DSLM)ChatHomeの開発と評価について述べる。 GPT-4のような大規模言語モデル(LLM)の実証された能力と、住宅の改修に伴う魅力の増大を考えると、この研究は、住宅の改修アリーナに関連する高精度なアウトプットを高忠実に生成できる専用モデルを生成することによって、これらの側面の調整に努めている。 chathomeのノベルティは、広範囲なデータセットにドメイン適応型事前トレーニングと命令チューニングを取り入れて、その方法論を踏襲している。 このデータセットには、ホームリノベーションに関連する専門的な記事、標準文書、およびWebコンテンツが含まれている。 このデュアルプロンプト戦略は、当社のモデルが包括的なドメイン知識を統一し、ユーザの問い合わせに効果的に対応できるように設計されています。 新たに導入された"EvalHome"ドメインデータセットを含む、さまざまなデータセットに関する徹底的な実験により、ChatHomeはドメイン固有の機能を増幅するだけでなく、その汎用性も維持する、と断定する。

This paper presents the development and evaluation of ChatHome, a domain-specific language model (DSLM) designed for the intricate field of home renovation. Considering the proven competencies of large language models (LLMs) like GPT-4 and the escalating fascination with home renovation, this study endeavors to reconcile these aspects by generating a dedicated model that can yield high-fidelity, precise outputs relevant to the home renovation arena. ChatHome's novelty rests on its methodology, fusing domain-adaptive pretraining and instruction-tuning over an extensive dataset. This dataset includes professional articles, standard documents, and web content pertinent to home renovation. This dual-pronged strategy is designed to ensure that our model can assimilate comprehensive domain knowledge and effectively address user inquiries. Via thorough experimentation on diverse datasets, both universal and domain-specific, including the freshly introduced "EvalHome" domain dataset, we substantiate that ChatHome not only amplifies domain-specific functionalities but also preserves its versatility.
翻訳日:2023-07-31 13:53:56 公開日:2023-07-28
# 制約付きオートエンコーダを用いた動的システムの低次モデリングのための非線形射影学習

Learning Nonlinear Projections for Reduced-Order Modeling of Dynamical Systems using Constrained Autoencoders ( http://arxiv.org/abs/2307.15288v1 )

ライセンス: Link先を確認
Samuel E. Otto, Gregory R. Macchio, Clarence W. Rowley(参考訳) 近年,データから学習した低次元多様体上の非線形力学系を近似する低次モデリング手法が開発されている。 これは、初期条件と他の外乱の影響が崩壊したポスト遷移状態におけるダイナミクスのモデリングに有効なアプローチである。 しかし、実時間制御や予測アプリケーションに必要な基礎多様体近傍の過渡ダイナミクスのモデリングは、高速力学と非正規感度機構の影響によって複雑になる。 これらの問題に対処するために,制約付きオートエンコーダニューラルネットワークによって記述される非線形射影のパラメトリッククラスを導入し,多様体と射影ファイバーの両方をデータから学習する。 我々のアーキテクチャでは、エンコーダがデコーダの左逆であることを保証するために、可逆活性化関数と直交重み行列を用いる。 また,高速ダイナミクスと非正規性を考慮した斜め投影ファイバーの学習を促進する新しいダイナミクス認識コスト関数も導入する。 これらの方法とその具体的な課題を実証するために,流体に浸漬されたブラフ体の後流に流す渦の3状態モデルについて,解析的に計算可能な2次元スロー多様体を有する詳細なケーススタディを提供する。 また,高次元システムへの将来的な応用を期待するために,提案した非線形射影フレームワークを用いて計算効率の良い縮小次モデルを構築するためのいくつかの手法を提案する。 これには、グラスマン多様体上の計算によるデトリメンタル重み行列の縮小を避けるエンコーダに対する新しいスパルシリティ促進ペナルティが含まれる。

Recently developed reduced-order modeling techniques aim to approximate nonlinear dynamical systems on low-dimensional manifolds learned from data. This is an effective approach for modeling dynamics in a post-transient regime where the effects of initial conditions and other disturbances have decayed. However, modeling transient dynamics near an underlying manifold, as needed for real-time control and forecasting applications, is complicated by the effects of fast dynamics and nonnormal sensitivity mechanisms. To begin to address these issues, we introduce a parametric class of nonlinear projections described by constrained autoencoder neural networks in which both the manifold and the projection fibers are learned from data. Our architecture uses invertible activation functions and biorthogonal weight matrices to ensure that the encoder is a left inverse of the decoder. We also introduce new dynamics-aware cost functions that promote learning of oblique projection fibers that account for fast dynamics and nonnormality. To demonstrate these methods and the specific challenges they address, we provide a detailed case study of a three-state model of vortex shedding in the wake of a bluff body immersed in a fluid, which has a two-dimensional slow manifold that can be computed analytically. In anticipation of future applications to high-dimensional systems, we also propose several techniques for constructing computationally efficient reduced-order models using our proposed nonlinear projection framework. This includes a novel sparsity-promoting penalty for the encoder that avoids detrimental weight matrix shrinkage via computation on the Grassmann manifold.
翻訳日:2023-07-31 13:53:36 公開日:2023-07-28
# パラフレーズ生成による多言語語彙の単純化

Multilingual Lexical Simplification via Paraphrase Generation ( http://arxiv.org/abs/2307.15286v1 )

ライセンス: Link先を確認
Kang Liu, Jipeng Qiang, Yun Li, Yunhao Yuan, Yi Zhu, Kaixun Hua(参考訳) 事前学習された言語モデルに基づく語彙単純化(ls)手法は著しく進歩し、文脈的環境の分析によって複雑な単語の代替となる可能性がある。 しかし、これらの方法は異なる言語に対する個別の事前訓練モデルを必要とし、文の意味の保存を無視する。 本稿では,パラフレーズが文の意味を維持しながら単語選択の多様性を提供するため,パラフレーズ生成による多言語ls法を提案する。 パラフレーズ処理は、数百の言語をサポートする多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。 入力文をパラフレーズモデリングのエンコーダに入力した後、複雑な単語の語彙変化にのみ焦点を絞った新しいデコード戦略に基づいて置換語を生成する。 実験の結果,本手法は英語,スペイン語,ポルトガル語で,BERT法およびゼロショットGPT3法をはるかに上回ることがわかった。

Lexical simplification (LS) methods based on pretrained language models have made remarkable progress, generating potential substitutes for a complex word through analysis of its contextual surroundings. However, these methods require separate pretrained models for different languages and disregard the preservation of sentence meaning. In this paper, we propose a novel multilingual LS method via paraphrase generation, as paraphrases provide diversity in word selection while preserving the sentence's meaning. We regard paraphrasing as a zero-shot translation task within multilingual neural machine translation that supports hundreds of languages. After feeding the input sentence into the encoder of paraphrase modeling, we generate the substitutes based on a novel decoding strategy that concentrates solely on the lexical variations of the complex word. Experimental results demonstrate that our approach surpasses BERT-based methods and zero-shot GPT3-based method significantly on English, Spanish, and Portuguese.
翻訳日:2023-07-31 13:53:09 公開日:2023-07-28
# 浅層ニューラルネットワークによるゾノイドの最適近似と一様近似

Optimal Approximation of Zonoids and Uniform Approximation by Shallow Neural Networks ( http://arxiv.org/abs/2307.15285v1 )

ライセンス: Link先を確認
Jonathan W. Siegel(参考訳) 以下の2つの問題点を考察する。 1つ目は、$\mathbb{r}^{d+1}$ の任意のソノイドがどの誤差をハウスドルフ距離で、$n$ の直線セグメントの和で近似できるかを決定することである。 2つ目は、変動空間上の浅いReLU$^k$ニューラルネットワークの均一ノルムにおける最適近似率を決定することである。 これらの問題の1つは$d\neq 2,3$で解かれたが、$d=2,3$の場合、最高の上限と下限の間の対数ギャップは残る。 我々はこのギャップを閉じ、すべての次元で解を完結させる。 2つ目の問題として、k\geq 1$の既存の近似率を大幅に改善し、対象関数とその導関数の均一近似を可能にする。

We study the following two related problems. The first is to determine to what error an arbitrary zonoid in $\mathbb{R}^{d+1}$ can be approximated in the Hausdorff distance by a sum of $n$ line segments. The second is to determine optimal approximation rates in the uniform norm for shallow ReLU$^k$ neural networks on their variation spaces. The first of these problems has been solved for $d\neq 2,3$, but when $d=2,3$ a logarithmic gap between the best upper and lower bounds remains. We close this gap, which completes the solution in all dimensions. For the second problem, our techniques significantly improve upon existing approximation rates when $k\geq 1$, and enable uniform approximation of both the target function and its derivatives.
翻訳日:2023-07-31 13:52:54 公開日:2023-07-28
# AC-Norm:Affine Collaborative Normalizationによる医用画像解析のための効果的なチューニング

AC-Norm: Effective Tuning for Medical Image Analysis via Affine Collaborative Normalization ( http://arxiv.org/abs/2307.15282v1 )

ライセンス: Link先を確認
Chuyan Zhang, Yuncheng Yang, Hao Zheng, Yun Gu(参考訳) 自己教師型学習(SSL)への最新のトレンドを背景として,アノテーションを限定した臨床応用の性能向上のために,"事前学習"のパラダイムが広く研究されている。 モデルファインタニングに関するこれまでの文献は主に正規化用語と特定のポリシーモデルに焦点を合わせてきたが、ソースモデルとターゲットモデルのチャネルのミスアライメントは十分に注目されていない。 本研究では,バッチ正規化(BN)層の力学を再検討し,BNのトレーニング可能なアフィンパラメータがドメイン情報の感度指標となることを示した。 そこで,Affine Collaborative Normalization (AC-Norm) を微調整のために提案する。 シングルステップのバックプロパゲーションに基づいて、AC-Normは事前訓練されたモデルの転送可能性を測定するためにも使用できる。 糖尿病網膜症分類,網膜血管分節,CT肺結節分節/分節分類,CT肝-腫瘍分節,MRI心臓分節タスクに各種事前訓練したモデルを移行するためのバニラ微調整法と最先端微調整法について検討した。 大規模な実験により、AC-Normは、最先端の手法が利益をもたらすような大きなドメインシフトであっても、バニラ微調整を最大4%改善した。 また,高速転送可能性推定におけるAC-Normの有効性を実証する。 私たちのコードはhttps://github.com/EndoluminalSurgicalVision-IMR/ACNormで公開されています。

Driven by the latest trend towards self-supervised learning (SSL), the paradigm of "pretraining-then-finetuning" has been extensively explored to enhance the performance of clinical applications with limited annotations. Previous literature on model finetuning has mainly focused on regularization terms and specific policy models, while the misalignment of channels between source and target models has not received sufficient attention. In this work, we revisited the dynamics of batch normalization (BN) layers and observed that the trainable affine parameters of BN serve as sensitive indicators of domain information. Therefore, Affine Collaborative Normalization (AC-Norm) is proposed for finetuning, which dynamically recalibrates the channels in the target model according to the cross-domain channel-wise correlations without adding extra parameters. Based on a single-step backpropagation, AC-Norm can also be utilized to measure the transferability of pretrained models. We evaluated AC-Norm against the vanilla finetuning and state-of-the-art fine-tuning methods on transferring diverse pretrained models to the diabetic retinopathy grade classification, retinal vessel segmentation, CT lung nodule segmentation/classification, CT liver-tumor segmentation and MRI cardiac segmentation tasks. Extensive experiments demonstrate that AC-Norm unanimously outperforms the vanilla finetuning by up to 4% improvement, even under significant domain shifts where the state-of-the-art methods bring no gains. We also prove the capability of AC-Norm in fast transferability estimation. Our code is available at https://github.com/EndoluminalSurgicalVision-IMR/ACNorm.
翻訳日:2023-07-31 13:52:42 公開日:2023-07-28
# 足跡から推定したプローブ交通量の分布について

On the Distribution of Probe Traffic Volume Estimated from Their Footprints ( http://arxiv.org/abs/2307.15274v1 )

ライセンス: Link先を確認
Kentaro Iio, Gulshan Noorsumar, Dominique Lord and Yunlong Zhang(参考訳) 交通量データの収集は、交通工学と都市計画の重要かつ費用のかかる部分である。 近年,時空間情報を含む受動的に収集されたプローブデータを用いて交通量の推定が試みられている。 しかし,偽名のないプローブデータに基づく交通量推定の実現可能性と基礎原理は検討されていない。 本稿では,軌道再構成を伴わないプローブ点データに基づく道路区間を通過する推定プローブ交通量の正確な分布について述べる。 推定されたプローブトラフィックボリュームの分布は、実際のプローブトラフィックボリュームに対して必ずしもライン対称でなくても、多モード性を示すことができる。 より多くのプローブが存在すると、分布は正規分布に近づく。 分布の整合性は数値および微視的交通シミュレーションによって実証された。 理論的には、よく校正されたプローブ浸透速度では、低プローブ浸透速度でも高精度なプローブ点データを用いて道路セグメント内の交通量を推定することができる。 さらに、推定精度を最大化する局所最適コルドン長が存在することもある。 推定されたプローブトラフィック量の理論的分散は、トラフィックボリューム推定のモデル化におけるヘテロセシスティック性に対処することができる。

Collecting traffic volume data is a vital but costly piece of transportation engineering and urban planning. In recent years, efforts have been made to estimate traffic volumes using passively collected probe data that contain spatiotemporal information. However, the feasibility and underlying principles of traffic volume estimation based on probe data without pseudonyms have not been examined thoroughly. In this paper, we present the exact distribution of the estimated probe traffic volume passing through a road segment based on probe point data without trajectory reconstruction. The distribution of the estimated probe traffic volume can exhibit multimodality, without necessarily being line-symmetric with respect to the actual probe traffic volume. As more probes are present, the distribution approaches a normal distribution. The conformity of the distribution was demonstrated through numerical and microscopic traffic simulations. Theoretically, with a well-calibrated probe penetration rate, traffic volumes in a road segment can be estimated using probe point data with high precision even at a low probe penetration rate. Furthermore, sometimes there is a local optimum cordon length that maximises estimation precision. The theoretical variance of the estimated probe traffic volume can address heteroscedasticity in the modelling of traffic volume estimates.
翻訳日:2023-07-31 13:52:06 公開日:2023-07-28
# モデル駆動型ディープラーニングアーキテクチャを用いた拡散強調画像数削減による高品質fodの復元

Recovering high-quality FODs from a reduced number of diffusion-weighted images using a model-driven deep learning architecture ( http://arxiv.org/abs/2307.15273v1 )

ライセンス: Link先を確認
J Bartlett, C E Davey, L A Johnston, and J Duan(参考訳) 深層学習を用いた繊維配向分布 (FOD) 再構成は, 拡散強調画像 (DWI) から正確なFODを生成する可能性があり, 全撮影時間を短縮できる。 DWI信号の拡散取得不変表現は、一般的にこれらの手法の入力として、異なるbベクトルとb値のデータに対して柔軟に適用できることを保証するために使用されるが、これはネットワークがDWI信号に直接出力を条件付けできないことを意味する。 本研究では,ネットワークが生成する中間および出力fodが入力されたdwi信号と一致していることを保証する,モデル駆動型ディープラーニングfod再構成アーキテクチャである球面デコンボリューションネットワークを提案する。 さらに、損失関数内に固定子分類ペナルティを実装し、次に正しい固定子数に分割できるFODを生成し、下流の固定子に基づく解析を改善する。 モデルに基づくディープラーニングアーキテクチャは,最先端のFOD超解像ネットワークであるFOD-Netと比較して,競争性能が向上することを示す。 さらに,FODの正確なセグメント化に依存する指標に対して,フィクステル分類のペナルティを調整し,性能の向上を図れることを示す。 私たちのコードはhttps://github.com/Jbartlett6/SDNetで公開されています。

Fibre orientation distribution (FOD) reconstruction using deep learning has the potential to produce accurate FODs from a reduced number of diffusion-weighted images (DWIs), decreasing total imaging time. Diffusion acquisition invariant representations of the DWI signals are typically used as input to these methods to ensure that they can be applied flexibly to data with different b-vectors and b-values; however, this means the network cannot condition its output directly on the DWI signal. In this work, we propose a spherical deconvolution network, a model-driven deep learning FOD reconstruction architecture, that ensures intermediate and output FODs produced by the network are consistent with the input DWI signals. Furthermore, we implement a fixel classification penalty within our loss function, encouraging the network to produce FODs that can subsequently be segmented into the correct number of fixels and improve downstream fixel-based analysis. Our results show that the model-based deep learning architecture achieves competitive performance compared to a state-of-the-art FOD super-resolution network, FOD-Net. Moreover, we show that the fixel classification penalty can be tuned to offer improved performance with respect to metrics that rely on accurately segmented of FODs. Our code is publicly available at https://github.com/Jbartlett6/SDNet .
翻訳日:2023-07-31 13:51:51 公開日:2023-07-28
# Implicit Station Stratification を用いた胸部CTの解剖学的リンパ節検出

Anatomy-Aware Lymph Node Detection in Chest CT using Implicit Station Stratification ( http://arxiv.org/abs/2307.15271v1 )

ライセンス: Link先を確認
Ke Yan, Dakai Jin, Dazhou Guo, Minfeng Xu, Na Shen, Xian-Sheng Hua, Xianghua Ye, Le Lu(参考訳) 放射線画像における異常リンパ節の発見は、がん転移の進行や放射線治療計画などの様々な医療課題において極めて重要である。 リンパ節 (LN) は体中に散在する小さな腺である。 解剖学的位置に応じて、様々なLNステーションにグループ化または定義されている。 異なる部位におけるCT像の出現とLNのコンテキストは,特に病的LNにおいて,自動検出の課題となる。 そこで本研究では,LN検出性能向上のための新しいエンドツーエンドフレームワークを提案する。 我々はマルチヘッド検出器を設計し、各ヘッドが特定のステーションのLNと非LN構造を識別することに集中させる。 擬似駅ラベルは、学習中のマルチタスク学習の形式としてLN局分類器によって生成されるため、推論中に別の明示的なLN局予測モデルを必要としない。 対象は肺癌82例,食道癌91例であった。 提案手法は,nnunet,nndetection,lensなどの既存のベースライン技術を大きく上回る2つのデータセットにおいて,胸部リンパ節の検出感度を65.1%から71.4%に,80.3%から85.5%に向上させる。

Finding abnormal lymph nodes in radiological images is highly important for various medical tasks such as cancer metastasis staging and radiotherapy planning. Lymph nodes (LNs) are small glands scattered throughout the body. They are grouped or defined to various LN stations according to their anatomical locations. The CT imaging appearance and context of LNs in different stations vary significantly, posing challenges for automated detection, especially for pathological LNs. Motivated by this observation, we propose a novel end-to-end framework to improve LN detection performance by leveraging their station information. We design a multi-head detector and make each head focus on differentiating the LN and non-LN structures of certain stations. Pseudo station labels are generated by an LN station classifier as a form of multi-task learning during training, so we do not need another explicit LN station prediction model during inference. Our algorithm is evaluated on 82 patients with lung cancer and 91 patients with esophageal cancer. The proposed implicit station stratification method improves the detection sensitivity of thoracic lymph nodes from 65.1% to 71.4% and from 80.3% to 85.5% at 2 false positives per patient on the two datasets, respectively, which significantly outperforms various existing state-of-the-art baseline techniques such as nnUNet, nnDetection and LENS.
翻訳日:2023-07-31 13:51:27 公開日:2023-07-28
# RSGPT:リモートセンシングビジョン言語モデルとベンチマーク

RSGPT: A Remote Sensing Vision Language Model and Benchmark ( http://arxiv.org/abs/2307.15266v1 )

ライセンス: Link先を確認
Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, Xiang Li(参考訳) GPT-4が顕著な例である大規模な大規模言語モデルの出現は、人工知能の急速な進歩を促し、人工知能 2.0の革命を引き起こした。 リモートセンシング(RS)の分野では、この領域におけるデータ分析に特化して、大規模視覚言語モデル(VLM)の開発への関心が高まっている。 しかしながら、現在の研究は主に視覚認識タスクを中心に展開されており、大規模なVLMのトレーニングに適した、包括的な大規模な画像テキストデータセットが欠如しているため、RSアプリケーションのそのようなモデルを効果的にトレーニングする上で大きな課題が生じる。 コンピュータビジョンにおいて、最近の研究は、小規模で高品質なデータセット上で大きなビジョン言語モデルを微調整することは、視覚と言語理解において印象的なパフォーマンスをもたらすことを実証している。 これらの結果は、gpt-4のような大量のデータでスクラッチからトレーニングされた最先端のvlmに匹敵する。 この魅惑的なアイデアに触発されて、我々はRSフィールドにおける大きなVLMの開発を容易にする高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築した。 モデル生成キャプションまたは短い記述を使用する以前のRSデータセットとは異なり、RSICapはリッチで高品質な情報を持つ2,585の人称注釈キャプションで構成されている。 このデータセットは、シーン記述(住宅地、空港、農地など)やオブジェクト情報(色、形、量、絶対位置など)を含む、各画像の詳細な記述を提供する。 RSの分野におけるVLMの評価を容易にするため,RSIEvalと呼ばれるベンチマーク評価データセットも提供する。 このデータセットは、人間の注釈付きキャプションと視覚的質問応答ペアで構成され、RSの文脈におけるVLMの包括的な評価を可能にする。

The emergence of large-scale large language models, with GPT-4 as a prominent example, has significantly propelled the rapid advancement of artificial general intelligence and sparked the revolution of Artificial Intelligence 2.0. In the realm of remote sensing (RS), there is a growing interest in developing large vision language models (VLMs) specifically tailored for data analysis in this domain. However, current research predominantly revolves around visual recognition tasks, lacking comprehensive, large-scale image-text datasets that are aligned and suitable for training large VLMs, which poses significant challenges to effectively training such models for RS applications. In computer vision, recent research has demonstrated that fine-tuning large vision language models on small-scale, high-quality datasets can yield impressive performance in visual and language understanding. These results are comparable to state-of-the-art VLMs trained from scratch on massive amounts of data, such as GPT-4. Inspired by this captivating idea, in this work, we build a high-quality Remote Sensing Image Captioning dataset (RSICap) that facilitates the development of large VLMs in the RS field. Unlike previous RS datasets that either employ model-generated captions or short descriptions, RSICap comprises 2,585 human-annotated captions with rich and high-quality information. This dataset offers detailed descriptions for each image, encompassing scene descriptions (e.g., residential area, airport, or farmland) as well as object information (e.g., color, shape, quantity, absolute position, etc). To facilitate the evaluation of VLMs in the field of RS, we also provide a benchmark evaluation dataset called RSIEval. This dataset consists of human-annotated captions and visual question-answer pairs, allowing for a comprehensive assessment of VLMs in the context of RS.
翻訳日:2023-07-31 13:51:03 公開日:2023-07-28
# 大規模力学系に対するクープマン作用素論における部分的観察、粗粒度、等式

Partial observations, coarse graining and equivariance in Koopman operator theory for large-scale dynamical systems ( http://arxiv.org/abs/2307.15325v1 )

ライセンス: Link先を確認
Sebastian Peitz, Hans Harder, Feliks N\"uske, Friedrich Philipp, Manuel Schaller, Karl Worthmann(参考訳) クープマン作用素は、データ駆動解析、予測、複雑なシステムの制御に欠かせないツールとなり、その主な理由は、非線形力学の線型関数空間表現を計測から特定する大きな可能性である。 これまでは、大規模システムでは、私たちは 一 部分観測(実験データにおいて非常に一般的な測定)にのみアクセスすることができること又は (ii)(効率上の理由から)故意に粗粒化を行うことは、その範囲では処理されていない。 本稿では,古典的EDMDアルゴリズムが観測対象数を慎重に選択しなければ,基底系に対するクープマン演算子近似を自動で提供しないという,この状況に関連する落とし穴に対処する。 さらに,システム力学の対称性をクープマン作用素に渡すことで,モデル効率を大幅に向上させることができることを示す。 また,偏微分方程式の領域分解手法とのつながりを簡潔に描き,倉本-シヴァシンスキー方程式を用いて数値的証拠を提示する。

The Koopman operator has become an essential tool for data-driven analysis, prediction and control of complex systems, the main reason being the enormous potential of identifying linear function space representations of nonlinear dynamics from measurements. Until now, the situation where for large-scale systems, we (i) only have access to partial observations (i.e., measurements, as is very common for experimental data) or (ii) deliberately perform coarse graining (for efficiency reasons) has not been treated to its full extent. In this paper, we address the pitfall associated with this situation, that the classical EDMD algorithm does not automatically provide a Koopman operator approximation for the underlying system if we do not carefully select the number of observables. Moreover, we show that symmetries in the system dynamics can be carried over to the Koopman operator, which allows us to massively increase the model efficiency. We also briefly draw a connection to domain decomposition techniques for partial differential equations and present numerical evidence using the Kuramoto--Sivashinsky equation.
翻訳日:2023-07-31 13:45:31 公開日:2023-07-28
# TaskExpert: メモリアル・オブ・エクササイズによるマルチタスク表現を動的に組み立てる

TaskExpert: Dynamically Assembling Multi-Task Representations with Memorial Mixture-of-Experts ( http://arxiv.org/abs/2307.15324v1 )

ライセンス: Link先を確認
Hanrong Ye and Dan Xu(参考訳) 複数のタスクを同時に識別するタスク固有の特徴を学習することは、マルチタスク学習における根本的な問題である。 最近の最先端モデルでは、タスク固有の機能を共有タスクジェネリック機能(例えば、バックボーン層からの機能)から直接デコードし、慎重に設計されたデコーダを使用してマルチタスク機能を生成する。 しかし、入力機能が完全に共有され、各タスクデコーダは異なる入力サンプルのデコードパラメータも共有するので、静的な機能デコードプロセスにつながり、識別可能なタスク固有の表現が少なくなる。 この制限に対処するために、複数の代表的タスク生成特徴空間を学習し、動的にタスク固有の特徴を復号できる新しいマルチタスク・オブ・エキスパート・モデルであるTaskExpertを提案する。 具体的には、TaskExpertは、バックボーン機能をいくつかの代表的なタスクジェネリック機能に分解する専門家ネットワークのセットを紹介している。 そして、分解されたタスク生成機能で動作する動的タスク固有ゲーティングネットワークを用いてタスク固有の特徴を復号する。 さらに、TaskExpertの異なるレイヤからタスク固有の表現の長距離モデリングを確立するために、各レイヤを更新し、動的タスク固有の特徴復号のための追加機能専門家として機能するマルチタスク機能メモリを設計する。 大規模な実験により、当社のTaskExpertは、視覚的シーン理解のための2つの競合するマルチタスク学習ベンチマーク(PASCAL-ContextとNYUD-v2)の9つの指標すべてにおいて、これまでの最高のパフォーマンスメソッドよりも明らかに優れていた。 コードとモデルはhttps://github.com/prismformore/Multi-Task-Transformerで公開される。

Learning discriminative task-specific features simultaneously for multiple distinct tasks is a fundamental problem in multi-task learning. Recent state-of-the-art models consider directly decoding task-specific features from one shared task-generic feature (e.g., feature from a backbone layer), and utilize carefully designed decoders to produce multi-task features. However, as the input feature is fully shared and each task decoder also shares decoding parameters for different input samples, it leads to a static feature decoding process, producing less discriminative task-specific representations. To tackle this limitation, we propose TaskExpert, a novel multi-task mixture-of-experts model that enables learning multiple representative task-generic feature spaces and decoding task-specific features in a dynamic manner. Specifically, TaskExpert introduces a set of expert networks to decompose the backbone feature into several representative task-generic features. Then, the task-specific features are decoded by using dynamic task-specific gating networks operating on the decomposed task-generic features. Furthermore, to establish long-range modeling of the task-specific representations from different layers of TaskExpert, we design a multi-task feature memory that updates at each layer and acts as an additional feature expert for dynamic task-specific feature decoding. Extensive experiments demonstrate that our TaskExpert clearly outperforms previous best-performing methods on all 9 metrics of two competitive multi-task learning benchmarks for visual scene understanding (i.e., PASCAL-Context and NYUD-v2). Codes and models will be made publicly available at https://github.com/prismformore/Multi-Task-Transformer
翻訳日:2023-07-31 13:45:13 公開日:2023-07-28
# ロボットマニピュレーションのためのロバストビジュアル・シム・トゥ・リアルトランスファー

Robust Visual Sim-to-Real Transfer for Robotic Manipulation ( http://arxiv.org/abs/2307.15320v1 )

ライセンス: Link先を確認
Ricardo Garcia and Robin Strudel and Shizhe Chen and Etienne Arlaud and Ivan Laptev and Cordelia Schmid(参考訳) シミュレーションでバイスモータポリシーを学ぶことは、現実世界よりもずっと安全で安価です。 しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。 ビジュアルsimから実領域へのギャップを埋める一般的なアプローチは、ドメインランダム化(dr)である。 従来の研究は、ポーズ推定やオブジェクト検出などの非身体的タスクに対するDRを主に評価していたが、ここでは、視覚領域のランダム化手法を体系的に検討し、ロボット操作タスクの豊富なセットでそれらをベンチマークする。 特に,テクスチャのランダム化,照明のランダム化,物体の色やカメラのパラメータのバリエーションといったdrパラメータを選択するために,キューブローカライゼーションのオフラインプロキシタスクを提案する。 特に、DRパラメータが私たちのオフラインプロキシタスクやオンラインポリシーに同様の影響を与えることを示す。 そこで我々は,オフライン最適化DRパラメータを用いて,シミュレーションにおけるビジュモータポリシをトレーニングし,実際のロボットに直接適用する。 本手法は,多種多様な操作課題において,平均93%の成功率を達成する。 さらに,実際のシーンにおける視覚的な変動に対するポリシーの頑健性を評価し,シミュレータが訓練したポリシーが,実だが限定的なデータを用いて学習したポリシーよりも優れていることを示す。 コード、シミュレーション環境、実際のロボットデータセット、訓練されたモデルはhttps://www.di.ens.fr/willow/research/robust_s2r/で入手できる。

Learning visuomotor policies in simulation is much safer and cheaper than in the real world. However, due to discrepancies between the simulated and real data, simulator-trained policies often fail when transferred to real robots. One common approach to bridge the visual sim-to-real domain gap is domain randomization (DR). While previous work mainly evaluates DR for disembodied tasks, such as pose estimation and object detection, here we systematically explore visual domain randomization methods and benchmark them on a rich set of challenging robotic manipulation tasks. In particular, we propose an off-line proxy task of cube localization to select DR parameters for texture randomization, lighting randomization, variations of object colors and camera parameters. Notably, we demonstrate that DR parameters have similar impact on our off-line proxy task and on-line policies. We, hence, use off-line optimized DR parameters to train visuomotor policies in simulation and directly apply such policies to a real robot. Our approach achieves 93% success rate on average when tested on a diverse set of challenging manipulation tasks. Moreover, we evaluate the robustness of policies to visual variations in real scenes and show that our simulator-trained policies outperform policies learned using real but limited data. Code, simulation environment, real robot datasets and trained models are available at https://www.di.ens.fr/willow/research/robust_s2r/.
翻訳日:2023-07-31 13:44:40 公開日:2023-07-28
# docdeshadower: ドキュメントシャドー削除のための周波数対応トランスフォーマー

DocDeshadower: Frequency-aware Transformer for Document Shadow Removal ( http://arxiv.org/abs/2307.15318v1 )

ライセンス: Link先を確認
Shenghong Luo, Ruifeng Xu, Xuhang Chen, Zinuo Li, Chi-Man Pun and Shuqiang Wang(参考訳) 影の存在は、スキャンされた文書の視覚的品質に大きな影響を及ぼす。 しかし,従来のシャドー除去技術や深層学習手法にはいくつかの制限がある。 これらの手法はヒューリスティックスに大きく依存しており、結果として最適以下の性能が得られるか、あるいは影に関連した特徴を学習するために大きなデータセットを必要とする。 本研究では,ラプラシアピラミッドを用いた多周波変圧器モデルであるdocdeshadowerを提案する。 DocDeshadowerは粗い方法で異なる周波数の影を取り除くように設計されている。 これを実現するために,ラプラシアンピラミッドを用いて影像を異なる周波数帯域に分解する。 さらに,本モデルに注意集約ネットワークとゲート型マルチスケール核融合トランスという2つの新しいコンポーネントを導入する。 アテンション・アグリゲーション・ネットワークは、画像の低周波部分の影を取り除くように設計されているが、ゲート型マルチスケール・フュージョントランスフォーマは、大きな知覚野で全画像をグローバルスケールで精製する。 DocDeshadowerは定性的・定量的両面で最先端の手法より優れていることを示す。

The presence of shadows significantly impacts the visual quality of scanned documents. However, the existing traditional techniques and deep learning methods used for shadow removal have several limitations. These methods either rely heavily on heuristics, resulting in suboptimal performance, or require large datasets to learn shadow-related features. In this study, we propose the DocDeshadower, a multi-frequency Transformer-based model built on Laplacian Pyramid. DocDeshadower is designed to remove shadows at different frequencies in a coarse-to-fine manner. To achieve this, we decompose the shadow image into different frequency bands using Laplacian Pyramid. In addition, we introduce two novel components to this model: the Attention-Aggregation Network and the Gated Multi-scale Fusion Transformer. The Attention-Aggregation Network is designed to remove shadows in the low-frequency part of the image, whereas the Gated Multi-scale Fusion Transformer refines the entire image at a global scale with its large perceptive field. Our extensive experiments demonstrate that DocDeshadower outperforms the current state-of-the-art methods in both qualitative and quantitative terms.
翻訳日:2023-07-31 13:44:16 公開日:2023-07-28
# DiffKendall: Kendallのランク相関を微分可能なFew-Shot学習のための新しいアプローチ

DiffKendall: A Novel Approach for Few-Shot Learning with Differentiable Kendall's Rank Correlation ( http://arxiv.org/abs/2307.15317v1 )

ライセンス: Link先を確認
Kaipeng Zheng, Huishuai Zhang, Weiran Huang(参考訳) 少数ショット学習は、ベースデータセットでトレーニングされたモデルを、それまでモデルによってカテゴリが見られなかった新しいタスクに適応させることを目的としている。 これはしばしば、新しいクラスにおけるチャネル間の機能値の比較的均一な分布をもたらし、新しいタスクにおけるチャネルの重要性を決定する上での課題となる。 標準的少数ショット学習法では、コサイン類似度や負ユークリッド距離といった幾何学的類似度メトリクスを用いて、2つの特徴間の意味的関連度を測定する。 しかし、幾何学的類似性が高い特徴は、特に数ショット学習の文脈において、異なる意味論を持つ可能性がある。 本稿では,特徴チャネルのランク付けの重要性が,幾何学的類似度指標よりも数ショット学習の信頼性が高いことを示す。 我々は、幾何類似度メトリックをケンドールのランク相関に置き換えることにより、様々な領域のデータセットにおいて、数発学習の性能を向上させることができることを観察する。 さらに,kendallのランク相関の非微分可能性問題に対処するために,メタトレーニングにおいて注意深く設計された微分可能損失を提案する。 広範にわたる実験により,提案手法のランク相関に基づく学習性能が大幅に向上することが示された。

Few-shot learning aims to adapt models trained on the base dataset to novel tasks where the categories are not seen by the model before. This often leads to a relatively uniform distribution of feature values across channels on novel classes, posing challenges in determining channel importance for novel tasks. Standard few-shot learning methods employ geometric similarity metrics such as cosine similarity and negative Euclidean distance to gauge the semantic relatedness between two features. However, features with high geometric similarities may carry distinct semantics, especially in the context of few-shot learning. In this paper, we demonstrate that the importance ranking of feature channels is a more reliable indicator for few-shot learning than geometric similarity metrics. We observe that replacing the geometric similarity metric with Kendall's rank correlation only during inference is able to improve the performance of few-shot learning across a wide range of datasets with different domains. Furthermore, we propose a carefully designed differentiable loss for meta-training to address the non-differentiability issue of Kendall's rank correlation. Extensive experiments demonstrate that the proposed rank-correlation-based approach substantially enhances few-shot learning performance.
翻訳日:2023-07-31 13:43:55 公開日:2023-07-28
# 再利用可能な知識放送による効率的なマルチユーザAIダウンロード

Efficient Multiuser AI Downloading via Reusable Knowledge Broadcasting ( http://arxiv.org/abs/2307.15316v1 )

ライセンス: Link先を確認
Hai Wu, Qunsong Zeng, and Kaibin Huang(参考訳) 6gモバイルネットワークでは,エッジデバイス上でリアルタイム適応型人工知能を実現する上で,その場モデルダウンロードが重要なユースケースとして浮上している。 しかし、無線リンクを介して複数のデバイスに多様で高次元のモデルの同時ダウンロードは、重要な通信ボトルネックをもたらす。 このボトルネックを克服するために,タスク間の共有パラメータを参照して再利用可能な知識を活用するための最初の試みとして,モデル放送と組立(MBA)の枠組みを提案する。 MBAフレームワークは2つの重要なコンポーネントから構成される。 第一のMBAプロトコルは、モデルライブラリからのパラメータ選択、ブロードキャストのための電力制御、デバイスでのモデル組み立てを含むシステム操作を定義する。 第2のコンポーネントはパラメータ選択電力制御(PS-PC)の共同設計であり、デバイスのモデル性能の保証とダウンロード遅延の最小化を提供する。 対応する最適化問題は、その最適性を損なうことなくシーケンシャルpsおよびpcサブプロブレムに分解することにより単純化される。 PSサブプロブレムは、2つの効率的なアルゴリズムを設計することで効率よく解決される。 一方、欲求パラメータ選択の低複雑さアルゴリズムは、タスク間の最大再利用可能な知識の基準の下で設計される候補モデルセットと選択指標の構成を特徴とする。 一方、最適木探索アルゴリズムは、モデルアーキテクチャの制約とインテリジェントな分岐・境界探索を用いてprunedしたコンパクトな二分木の構築により、その効率を高める。 最適PSが与えられたとき、最適PCポリシーは閉じた形で導出される。 大規模な実験では、従来のモデルダウンロードと比較して、提案されたMBAによって達成されたダウンロード遅延が大幅に削減された。

For the 6G mobile networks, in-situ model downloading has emerged as an important use case to enable real-time adaptive artificial intelligence on edge devices. However, the simultaneous downloading of diverse and high-dimensional models to multiple devices over wireless links presents a significant communication bottleneck. To overcome the bottleneck, we propose the framework of model broadcasting and assembling (MBA), which represents the first attempt on leveraging reusable knowledge, referring to shared parameters among tasks, to enable parameter broadcasting to reduce communication overhead. The MBA framework comprises two key components. The first, the MBA protocol, defines the system operations including parameter selection from a model library, power control for broadcasting, and model assembling at devices. The second component is the joint design of parameter-selection-and-power-control (PS-PC), which provides guarantees on devices' model performance and minimizes the downloading latency. The corresponding optimization problem is simplified by decomposition into the sequential PS and PC sub-problems without compromising its optimality. The PS sub-problem is solved efficiently by designing two efficient algorithms. On one hand, the low-complexity algorithm of greedy parameter selection features the construction of candidate model sets and a selection metric, both of which are designed under the criterion of maximum reusable knowledge among tasks. On the other hand, the optimal tree-search algorithm gains its efficiency via the proposed construction of a compact binary tree pruned using model architecture constraints and an intelligent branch-and-bound search. Given optimal PS, the optimal PC policy is derived in closed form. Extensive experiments demonstrate the substantial reduction in downloading latency achieved by the proposed MBA compared to traditional model downloading.
翻訳日:2023-07-31 13:43:36 公開日:2023-07-28
# TrafficSafetyGPT: 訓練済みの大規模言語モデルを交通安全の専門家にチューニングする

TrafficSafetyGPT: Tuning a Pre-trained Large Language Model to a Domain-Specific Expert in Transportation Safety ( http://arxiv.org/abs/2307.15311v1 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Dongdong Wang, Chenzhu Wang, Shengxuan Ding(参考訳) 大規模言語モデル(LLM)は、様々な汎用自然言語処理(NLP)タスクにおいて顕著な効果を示している。 しかし、輸送安全領域の業務におけるそれらのパフォーマンスは、主に、正確な応答を生成するための専門的な交通安全専門知識の要求に起因している。 この課題に対処するため,我々は,政府による指導書とChatGPT生成した指導出力ペアからなるTrafficSafety-2Kデータセットを用いた,LAMAベースの新しいモデルであるTrafficSafetyGPTを紹介する。 提案するTrafficSafetyGPTモデルとTrafficSafety-2Kトレインデータセットはhttps://github.com/ozheng1993/TrafficSafetyGPTでアクセス可能である。

Large Language Models (LLMs) have shown remarkable effectiveness in various general-domain natural language processing (NLP) tasks. However, their performance in transportation safety domain tasks has been suboptimal, primarily attributed to the requirement for specialized transportation safety expertise in generating accurate responses [1]. To address this challenge, we introduce TrafficSafetyGPT, a novel LLAMA-based model, which has undergone supervised fine-tuning using TrafficSafety-2K dataset which has human labels from government produced guiding books and ChatGPT-generated instruction-output pairs. Our proposed TrafficSafetyGPT model and TrafficSafety-2K train dataset are accessible at https://github.com/ozheng1993/TrafficSafetyGPT.
翻訳日:2023-07-31 13:43:10 公開日:2023-07-28
# 光とシーンフローのための注意型マルチモーダル融合

Attentive Multimodal Fusion for Optical and Scene Flow ( http://arxiv.org/abs/2307.15301v1 )

ライセンス: Link先を確認
Youjie Zhou, Guofeng Mei, Yiming Wang, Fabio Poiesi, Yi Wan(参考訳) 本稿では,RGBのモダリティが雑音の影響を受け,暗黒環境下で捕獲された場合のRGBD情報を用いた光学的およびシーンフローの推定について検討する。 既存の手法は、通常、RGB画像のみに依存するか、後段のモダリティを融合させるため、RGB情報が信頼できない場合の精度が低下する可能性がある。 この問題に対処するため,我々はFusionRAFTという新しいディープニューラルネットワークアプローチを提案し,センサモード(RGBとDepth)の早期情報融合を可能にする。 当社のアプローチでは,異なるネットワークレベルでの自己および横断的なレイヤを組み込んで,両モードの強みを活用した情報的特徴を構築する。 比較実験により,本手法は,合成データセットFlyingthings3Dの性能および実世界のデータセットKITTIの一般化において,最近の手法よりも優れていることを示した。 提案手法は,RGB画像に影響を及ぼす雑音や低照度条件の存在下での堅牢性の向上を示す。 コード、モデル、データセットはhttps://github.com/jiesico/FusionRAFT.comで公開しています。

This paper presents an investigation into the estimation of optical and scene flow using RGBD information in scenarios where the RGB modality is affected by noise or captured in dark environments. Existing methods typically rely solely on RGB images or fuse the modalities at later stages, which can result in lower accuracy when the RGB information is unreliable. To address this issue, we propose a novel deep neural network approach named FusionRAFT, which enables early-stage information fusion between sensor modalities (RGB and depth). Our approach incorporates self- and cross-attention layers at different network levels to construct informative features that leverage the strengths of both modalities. Through comparative experiments, we demonstrate that our approach outperforms recent methods in terms of performance on the synthetic dataset Flyingthings3D, as well as the generalization on the real-world dataset KITTI. We illustrate that our approach exhibits improved robustness in the presence of noise and low-lighting conditions that affect the RGB images. We release the code, models and dataset at https://github.com/jiesico/FusionRAFT.
翻訳日:2023-07-31 13:42:54 公開日:2023-07-28
# 差分進化アルゴリズムに基づく負荷予測のための変圧器ニューラルネットワークモデルのハイパーパラメータ選択

Differential Evolution Algorithm based Hyper-Parameters Selection of Transformer Neural Network Model for Load Forecasting ( http://arxiv.org/abs/2307.15299v1 )

ライセンス: Link先を確認
Anuvab Sen, Arul Rhik Mazumder, Udayon Sen(参考訳) 多くの分野において、正確な負荷予測は重要な役割を果たすが、動的電力システムの複雑なダイナミクスを正確に捉えることは、伝統的な統計モデルにとって課題である。 これらの理由から、時系列モデル(ARIMA)とディープラーニングモデル(ANN、LSTM、GRUなど)が一般的にデプロイされ、しばしばより高い成功を経験する。 本稿では,最近開発されたTransformer-based Neural Network Modelの負荷予測における有効性について検討する。 トランスフォーマーモデルは、そのアテンションメカニズムから派生した長距離依存を学習できるため、ロード予測を改善する可能性がある。 本稿では,変圧器ベースニューラルネットワークの最適ハイパーパラメータを求めるために,微分進化というメタヒューリスティックスを適用した。 微分進化は、非微分可能、多目的、制約付き最適化問題に対するスケーラブルで堅牢なグローバルソリューションを提供する。 本研究では,mse(平均二乗誤差)やmape(平均絶対パーセンテージ誤差)などの数値指標に基づく負荷予測における性能と,様々なメタヒューリスティックアルゴリズムと統合したトランスフォーマティブニューラルネットワークモデルを比較した。 負荷予測におけるメタヒューリスティックなトランスフォーマーベースニューラルネットワークモデルの可能性を示し,各モデルに最適なハイパーパラメータを提供する。

Accurate load forecasting plays a vital role in numerous sectors, but accurately capturing the complex dynamics of dynamic power systems remains a challenge for traditional statistical models. For these reasons, time-series models (ARIMA) and deep-learning models (ANN, LSTM, GRU, etc.) are commonly deployed and often experience higher success. In this paper, we analyze the efficacy of the recently developed Transformer-based Neural Network model in Load forecasting. Transformer models have the potential to improve Load forecasting because of their ability to learn long-range dependencies derived from their Attention Mechanism. We apply several metaheuristics namely Differential Evolution to find the optimal hyperparameters of the Transformer-based Neural Network to produce accurate forecasts. Differential Evolution provides scalable, robust, global solutions to non-differentiable, multi-objective, or constrained optimization problems. Our work compares the proposed Transformer based Neural Network model integrated with different metaheuristic algorithms by their performance in Load forecasting based on numerical metrics such as Mean Squared Error (MSE) and Mean Absolute Percentage Error (MAPE). Our findings demonstrate the potential of metaheuristic-enhanced Transformer-based Neural Network models in Load forecasting accuracy and provide optimal hyperparameters for each model.
翻訳日:2023-07-31 13:42:34 公開日:2023-07-28
# 混在型社会対策:コミュニケーションシミュレーションに基づく組織構造の比較

Mixbiotic society measures: Comparison of organizational structures based on communication simulation ( http://arxiv.org/abs/2307.15297v1 )

ライセンス: Link先を確認
Takeshi Kato, Jyunichi Miyakoshi, Tadayuki Matsumura, Yasuyuki Kudo, Ryuji Mine, Hiroyuki Mizuno, Yasuo Deguchi(参考訳) 哲学の世界では、自由と多様な価値を持つ個人が、それぞれの「基本的無能」を認識し、社会的孤立と断片化の問題を解決するために連帯する「混合共生社会」という概念が提唱されている。 この概念に基づき,細胞オートマトンと生体現象をシミュレートする粒子反応拡散の分類に着目し,動的コミュニケーションパターンを評価するための混合生物社会尺度が提案されている。 本稿では,これらの尺度を組織構造の5つのタイプ(red:impulsive,amber:adaptive,orange: achievement,green:multipleistic,teal: evolutionary)に適用し,それらの特徴を評価した。 具体的には,5つのタイプに対応するstar,tree,tree+jumpers,tree+more jumpers,small-world type networkを形成し,これらのネットワーク上でコミュニケーションシミュレーションを行い,混合社会尺度の値を算出した。 その結果,ティール組織はコミュニケーションにおける類似性(混合)と異質性(混ざり合い)のバランスをとり,秩序と混ざり合いの中で生活と混ざり合っているという混合社会尺度の中で,混合主義的尺度の最も高い価値を持つことが示された。 混成主義以外の措置は、ティール組織では、情報は中央のリーダーに集中せず、様々なメンバーの間でコミュニケーションが行われることを示している。 この組織構造の評価は,混生社会尺度が組織変化を評価する上で有用であることを示す。 将来的には、これらの措置は、ビジネス組織だけでなく、デジタル民主組織や、情報技術と連携したプラットフォーム協力組織でも使用されるだろう。

The philosophical world has proposed the concept of "mixbiotic society," in which individuals with freedom and diverse values mix and mingle to recognize their respective "fundamental incapability" each other and sublimate into solidarity, toward solving the issues of social isolation and fragmentation. Based on this concept, the mixbiotic society measures have been proposed to evaluate dynamic communication patterns with reference to classification in cellular automata and particle reaction-diffusion that simulate living phenomena. In this paper, we applied these measures to five typologies of organizational structure (Red: impulsive, Amber: adaptive, Orange: achievement, Green: pluralistic, and Teal: evolutionary) and evaluated their features. Specifically, we formed star, tree, tree+jumpers, tree+more jumpers, and small-world type networks corresponding to each of five typologies, conducted communication simulations on these networks, and calculated values for mixbiotic society measures. The results showed that Teal organization has the highest value of the mixism measure among mixbiotic society measures, i.e., it balances similarity (mixing) and dissimilarity (mingling) in communication, and is living and mixbiotic between order and chaos. Measures other than mixism showed that in Teal organization, information is not concentrated in a central leader and that communication takes place among various members. This evaluation of organizational structures shows that the mixbiotic society measures is also useful for assessing organizational change. In the future, these measures will be used not only in business organizations, but also in digital democratic organizations and platform cooperatives in conjunction with information technology.
翻訳日:2023-07-31 13:42:10 公開日:2023-07-28
# 障害によるフラットバンド量子通信

Flat-band quantum communication induced by disorder ( http://arxiv.org/abs/2307.15360v1 )

ライセンス: Link先を確認
G. M. A. Almeida and R. F. Dutra and A. M. C. Souza and M. L. Lyra and F. A. B. F. de Moura(参考訳) 量子ビット転送プロトコルは、乱れた$XX$ spin-1/2ダイヤモンド鎖がホストする平らなバンドによって実現可能であることを示す。 障害がなければ、フラットバンドを形成するコンパクトな局在状態のために伝送が不可能になる。 対角線外障害を考慮すると、バンドの縮退は保存されるが、関連する状態はもはや単位細胞に限定されない。 送信機と受信機をフラットバンドに摂動的に結合することにより、2つのハブを持つスターネットワークモデルに似た一般的な実効ハミルトニアンを導出する。 有効結合は、フラットバンドモードに関連する波動関数に対応する。 これらのパラメータ間の特定の関係は、量子状態転移の品質を定義し、それによって平坦なバンド内の局在度と関連付けられる。 量子通信の文脈におけるフラットバンドのさらなる研究のための枠組みを確立した。

We show that a qubit transfer protocol can be realized through a flat band hosted by a disordered $XX$ spin-1/2 diamond chain. In the absence of disorder, the transmission becomes impossible due to the compact localized states forming the flat band. When off-diagonal disorder is considered, the degeneracy of the band is preserved but the associated states are no longer confined to the unit cells. By perturbatively coupling the sender and receiver to the flat band, we derive a general effective Hamiltonian resembling a star network model with two hubs. The effective couplings correspond to wavefunctions associated with the flat-band modes. Specific relationships between these parameters define the quality of the quantum-state transfer which, in turn, are related to the degree of localization in the flat band. Our findings establish a framework for further studies of flat bands in the context of quantum communication.
翻訳日:2023-07-31 13:33:25 公開日:2023-07-28
# 実データ生成による教師付きホログラフィ学習

Supervised Homography Learning with Realistic Dataset Generation ( http://arxiv.org/abs/2307.15353v1 )

ライセンス: Link先を確認
Hai Jiang, Haipeng Li, Songchen Han, Haoqiang Fan, Bing Zeng, Shuaicheng Liu(参考訳) 本稿では,生成フェーズとトレーニングフェーズという2つのフェーズからなる反復的なフレームワークを提案し,現実的なトレーニングデータを生成し,教師付きホモグラフィネットワークを生成する。 生成段階では、ラベルなしのイメージペアが与えられたとき、事前に見積もられた支配的平面マスクとペアのホモグラフィと、新たなラベル付きトレーニングペアをリアルな動きで生成するために基底真理として機能する別のサンプル化されたホモグラフィを利用する。 トレーニングフェーズでは、生成されたデータは、コンテンツ一貫性モジュールと品質評価モジュールを介してトレーニングデータを洗練した教師付きホモグラフィネットワークのトレーニングに使用される。 イテレーションが完了すると、トレーニングされたネットワークは、事前に見積もられたホモグラフィを更新するために、次のデータ生成フェーズで使用される。 このような反復戦略により、データセットの品質とネットワークの性能を徐々に同時に改善することができる。 実験の結果,本手法は最先端の性能を実現し,生成したデータセットに基づいて既存の教師あり手法も改善できることがわかった。 コードとデータセットはhttps://github.com/megvii-research/realshで入手できる。

In this paper, we propose an iterative framework, which consists of two phases: a generation phase and a training phase, to generate realistic training data and yield a supervised homography network. In the generation phase, given an unlabeled image pair, we utilize the pre-estimated dominant plane masks and homography of the pair, along with another sampled homography that serves as ground truth to generate a new labeled training pair with realistic motion. In the training phase, the generated data is used to train the supervised homography network, in which the training data is refined via a content consistency module and a quality assessment module. Once an iteration is finished, the trained network is used in the next data generation phase to update the pre-estimated homography. Through such an iterative strategy, the quality of the dataset and the performance of the network can be gradually and simultaneously improved. Experimental results show that our method achieves state-of-the-art performance and existing supervised methods can be also improved based on the generated dataset. Code and dataset are available at https://github.com/megvii-research/RealSH.
翻訳日:2023-07-31 13:33:13 公開日:2023-07-28
# Med-HALT:大規模言語モデルのための医学領域幻覚テスト

Med-HALT: Medical Domain Hallucination Test for Large Language Models ( http://arxiv.org/abs/2307.15343v1 )

ライセンス: Link先を確認
Logesh Kumar Umapathi, Ankit Pal and Malaikannan Sankarasubbu(参考訳) 本研究では,大規模言語モデル(LLM)における幻覚による課題,特に医学領域における課題に焦点を当てた。 幻覚(hallucination)は、これらのモデルが妥当で検証されていない、あるいは誤った情報を生成する場合に、医療アプリケーションにおいて深刻な結果をもたらす可能性がある。 我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。 Med-HALTは、様々な国の医学検査から派生した多様な多国籍データセットを提供し、複数の革新的な試験モダリティを含んでいる。 Med-HALTには、LSMの問題解決能力と情報検索能力を評価するために設計された、メモリベースの幻覚テストと2つのカテゴリがある。 本研究は,Text Davinci, GPT-3.5, LlaMa-2, MPT, Falconなどの主要なLCMについて検討した。 論文はデータセットに関する詳細な洞察を提供し、透明性と再現性を促進する。 本研究は,医療における安全で信頼性の高い言語モデルの開発に貢献することを目的としている。 ベンチマークは medhalt.github.io で確認できます。

This research paper focuses on the challenges posed by hallucinations in large language models (LLMs), particularly in the context of the medical domain. Hallucination, wherein these models generate plausible yet unverified or incorrect information, can have serious consequences in healthcare applications. We propose a new benchmark and dataset, Med-HALT (Medical Domain Hallucination Test), designed specifically to evaluate and reduce hallucinations. Med-HALT provides a diverse multinational dataset derived from medical examinations across various countries and includes multiple innovative testing modalities. Med-HALT includes two categories of tests reasoning and memory-based hallucination tests, designed to assess LLMs's problem-solving and information retrieval abilities. Our study evaluated leading LLMs, including Text Davinci, GPT-3.5, LlaMa-2, MPT, and Falcon, revealing significant differences in their performance. The paper provides detailed insights into the dataset, promoting transparency and reproducibility. Through this work, we aim to contribute to the development of safer and more reliable language models in healthcare. Our benchmark can be found at medhalt.github.io
翻訳日:2023-07-31 13:32:54 公開日:2023-07-28
# 私の議論スキルを改善する方法を教える: 議論におけるフィードバックに関する調査

Teach Me How to Improve My Argumentation Skills: A Survey on Feedback in Argumentation ( http://arxiv.org/abs/2307.15341v1 )

ライセンス: Link先を確認
Cam\'elia Guerraoui, Paul Reisert, Naoya Inoue, Farjana Sultana Mim, Shoichi Naito, Jungmin Choi, Irfan Robbani, Wenzhi Wang, Kentaro Inui(参考訳) 教育における議論の利用は,学生などのエンドユーザーに対する批判的思考能力の向上に寄与し,このプロセスを支援するために議論のための計算モデルが開発された。 これらのモデルは、議論の質を評価するのに有用であるが、しばしば、特定の議論がなぜ貧弱であるかを説明できないため、批判的な思考スキルを強化するために、ユーザに建設的なフィードバックを提供することが困難である。 本調査では,現在行われている議論のための計算モデルによって提供されるフィードバックの異なる次元(リッチネス,ビジュアライゼーション,対話性,パーソナライゼーション)と,そのようなモデルの説明力を高め,学習者の批判的思考能力の向上を支援することを目的とする。

The use of argumentation in education has been shown to improve critical thinking skills for end-users such as students, and computational models for argumentation have been developed to assist in this process. Although these models are useful for evaluating the quality of an argument, they oftentimes cannot explain why a particular argument is considered poor or not, which makes it difficult to provide constructive feedback to users to strengthen their critical thinking skills. In this survey, we aim to explore the different dimensions of feedback (Richness, Visualization, Interactivity, and Personalization) provided by the current computational models for argumentation, and the possibility of enhancing the power of explanations of such models, ultimately helping learners improve their critical thinking skills.
翻訳日:2023-07-31 13:32:34 公開日:2023-07-28
# ラドン符号付累積分布変換とその符号付き画像の分類への応用

The Radon Signed Cumulative Distribution Transform and its applications in classification of Signed Images ( http://arxiv.org/abs/2307.15339v1 )

ライセンス: Link先を確認
Le Gong, Shiying Li, Naqib Sad Pathan, Mohammad Shifat-E-Rabbi, Gustavo K. Rohde, Abu Hasnat Mohammad Rubaiyat and Sumati Thareja(参考訳) 本稿では,輸送と最適輸送の数学に基づく新しい画像表現手法について述べる。 この方法は、画像に対するよく知られたラドン変換と、署名累積分布変換と呼ばれる最近の信号表現法の組み合わせに依存する。 提案手法は,従来の輸送関連画像表現法を任意の関数(画像)に一般化し,より多くのアプリケーションで利用することができる。 本稿では,新しい変換とその数学的特性について述べるとともに,実データとシミュレーションデータで画像クラスを分割できることを実証する。 既存のトランスポート変換法やディープラーニングに基づく分類法と比較して、新しい変換は署名された画像の情報内容をより正確に表現し、より高い分類精度を得ることができる。 Python言語で提案されたメソッドの実装は、Githubで入手できるソフトウェアパッケージPyTransKitの一部として統合されている。

Here we describe a new image representation technique based on the mathematics of transport and optimal transport. The method relies on the combination of the well-known Radon transform for images and a recent signal representation method called the Signed Cumulative Distribution Transform. The newly proposed method generalizes previous transport-related image representation methods to arbitrary functions (images), and thus can be used in more applications. We describe the new transform, and some of its mathematical properties and demonstrate its ability to partition image classes with real and simulated data. In comparison to existing transport transform methods, as well as deep learning-based classification methods, the new transform more accurately represents the information content of signed images, and thus can be used to obtain higher classification accuracies. The implementation of the proposed method in Python language is integrated as a part of the software package PyTransKit, available on Github.
翻訳日:2023-07-31 13:32:19 公開日:2023-07-28
# skeleton-of-thought: 大きな言語モデルは並列デコードができる

Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding ( http://arxiv.org/abs/2307.15337v1 )

ライセンス: Link先を確認
Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang(参考訳) 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成遅延を低減することである。 次世代の遅延の大きな原因の1つは、ほとんどの最先端のLCMで採用されているシーケンシャルデコードアプローチである。 本研究では,人間の思考と記述のプロセスに動機づけられた「Skeleton-of-Thought (SoT)」を提案し,まずLLMを誘導して回答のスケルトンを生成し,次に並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に補完する。 SoTはかなりのスピードアップを提供するだけでなく(11種類のLLMで最大2.39倍)、多様性と関連性の観点から、いくつかの質問カテゴリの回答品質を向上させる可能性がある。 sotは、データ中心の効率最適化の最初の試みであり、llmを人間のように考えさせ、答えの品質を高める可能性を明らかにする。

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose "Skeleton-of-Thought" (SoT), which guides LLMs to first generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-up (up to 2.39x across 11 different LLMs), but it can also potentially improve the answer quality on several question categories in terms of diversity and relevance. SoT is an initial attempt at data-centric optimization for efficiency, and reveal the potential of pushing LLMs to think more like a human for answer quality.
翻訳日:2023-07-31 13:32:06 公開日:2023-07-28
# BARTPhoBEiT:ベトナムの視覚質問応答のための事前訓練されたシーケンス・ツー・シーケンスと画像トランスフォーマーモデル

BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering ( http://arxiv.org/abs/2307.15335v1 )

ライセンス: Link先を確認
Khiem Vinh Tran and Kiet Van Nguyen and Ngan Luu Thuy Nguyen(参考訳) VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合し、研究者の興味を引き付ける複雑なタスクである。 英語は豊富な資源で知られており、VQA用に設計されたデータセットとモデルの両方に顕著な進歩が見られる。 しかし、ベトナムなど特定の国をターゲットにしたモデルが不足している。 この制限に対処するために,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを導入する。 このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンスツーシーケンスと双方向エンコーダ表現を含み、ベトナムのvqaデータセットを評価する。 実験の結果,提案手法は,精度,精度,リコール,F1スコア,WUPS 0.0,WUPS 0.9の6つの指標において,強いベースラインを上回り,最先端化を実現していることがわかった。

Visual Question Answering (VQA) is an intricate and demanding task that integrates natural language processing (NLP) and computer vision (CV), capturing the interest of researchers. The English language, renowned for its wealth of resources, has witnessed notable advancements in both datasets and models designed for VQA. However, there is a lack of models that target specific countries such as Vietnam. To address this limitation, we introduce a transformer-based Vietnamese model named BARTPhoBEiT. This model includes pre-trained Sequence-to-Sequence and bidirectional encoder representation from Image Transformers in Vietnamese and evaluates Vietnamese VQA datasets. Experimental results demonstrate that our proposed model outperforms the strong baseline and improves the state-of-the-art in six metrics: Accuracy, Precision, Recall, F1-score, WUPS 0.0, and WUPS 0.9.
翻訳日:2023-07-31 13:31:49 公開日:2023-07-28
# 明示的NeRFにおける適応サンプリング微細化のための動的PlenOctree

Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF ( http://arxiv.org/abs/2307.15333v1 )

ライセンス: Link先を確認
Haotian Bai, Yiqi Lin, Yize Chen, Lin Wang(参考訳) 明示的なニューラル放射場(NeRF)は、その効率的なトレーニングと高速推論能力にかなりの関心を集めており、仮想現実やゲームのような有望な方向性となっている。 特に、明示的な階層的マルチスケールオクツリー表現であるPlenOctree(POT)[1]は、構造的かつ影響力のあるフレームワークとして現れている。 しかし、直接最適化のためのPOTの固定構造は、キャッシュされた色と密度の更新によってシーンの複雑さが継続的に進化し、信号の複雑さを捉えるためにサンプリング分布を精細化する必要があるため、サブ最適である。 そこで本稿では,シーンの複雑さの変化に対応するためにサンプル分布を適応的に洗練する動的plenoctree dotを提案する。 具体的には、反復レンダリングプロセス中に簡潔で新しい階層的特徴融合戦略を提案する。 まず、適応的かつ効率的な洗練を確保するために、トレーニング信号を通して関心領域を特定する。 次に、DOTは、価値のないノードを直接フィルタリングする代わりに、オクツリーのサンプリングとプルーニング操作を導入して、機能を集約し、高速なパラメータ学習を可能にする。 POTと比較して、私たちのDOTは、視覚的品質を高め、55.15$/$68.84\%$パラメータを削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。 プロジェクトホームページ:https://vlislab22.github.io/dot。 [1]ユー、アレックス、アルなど。 「神経放射場のリアルタイムレンダリングのためのプレノクツリー」 IEEE/CVF国際コンピュータビジョン会議に参加して 2021.

The explicit neural radiance field (NeRF) has gained considerable interest for its efficient training and fast inference capabilities, making it a promising direction such as virtual reality and gaming. In particular, PlenOctree (POT)[1], an explicit hierarchical multi-scale octree representation, has emerged as a structural and influential framework. However, POT's fixed structure for direct optimization is sub-optimal as the scene complexity evolves continuously with updates to cached color and density, necessitating refining the sampling distribution to capture signal complexity accordingly. To address this issue, we propose the dynamic PlenOctree DOT, which adaptively refines the sample distribution to adjust to changing scene complexity. Specifically, DOT proposes a concise yet novel hierarchical feature fusion strategy during the iterative rendering process. Firstly, it identifies the regions of interest through training signals to ensure adaptive and efficient refinement. Next, rather than directly filtering out valueless nodes, DOT introduces the sampling and pruning operations for octrees to aggregate features, enabling rapid parameter learning. Compared with POT, our DOT outperforms it by enhancing visual quality, reducing over $55.15$/$68.84\%$ parameters, and providing 1.7/1.9 times FPS for NeRF-synthetic and Tanks $\&$ Temples, respectively. Project homepage:https://vlislab22.github.io/DOT. [1] Yu, Alex, et al. "Plenoctrees for real-time rendering of neural radiance fields." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
翻訳日:2023-07-31 13:31:31 公開日:2023-07-28
# 事前学習言語モデルを用いたスタンス検出のチュートリアル:微細チューニングBERTと大規模言語モデル

Tutorials on Stance Detection using Pre-trained Language Models: Fine-tuning BERT and Prompting Large Language Models ( http://arxiv.org/abs/2307.15331v1 )

ライセンス: Link先を確認
Yun-Shiuan Chuang(参考訳) 本稿では,BERTファインタニングと大規模言語モデル(LLM)を用いたTwitterデータにおける姿勢検出の自己完結型チュートリアルを2つ提案する。 最初のチュートリアルではBERTアーキテクチャとトークン化を説明し、HuggingFace変換器を使用したトレーニング、チューニング、標準およびドメイン固有のBERTモデルの評価を通じてユーザを導く。 2つ目は、ChatGPTやオープンソースのFLAN-T5からのスタンスを微調整なしで引き出すプロンプトの構築と、少数の例である。 混乱行列とマクロF1スコアを用いて様々なプロンプト戦略を実装し評価する。 チュートリアルではChatGPTとFLAN-T5の長所を示すコード、視覚化、洞察が提供されている。 モデルファインチューニングとプロンプトベースの技術の両方を手軽に手動でカバーすることにより、学習者はスタンス検出のための最先端手法で応用経験を得ることができる。

This paper presents two self-contained tutorials on stance detection in Twitter data using BERT fine-tuning and prompting large language models (LLMs). The first tutorial explains BERT architecture and tokenization, guiding users through training, tuning, and evaluating standard and domain-specific BERT models with HuggingFace transformers. The second focuses on constructing prompts and few-shot examples to elicit stances from ChatGPT and open-source FLAN-T5 without fine-tuning. Various prompting strategies are implemented and evaluated using confusion matrices and macro F1 scores. The tutorials provide code, visualizations, and insights revealing the strengths of few-shot ChatGPT and FLAN-T5 which outperform fine-tuned BERTs. By covering both model fine-tuning and prompting-based techniques in an accessible, hands-on manner, these tutorials enable learners to gain applied experience with cutting-edge methods for stance detection.
翻訳日:2023-07-31 13:31:01 公開日:2023-07-28
# 検索支援画像生成を用いたオンライン広告用ステージングeコマース製品

Staging E-Commerce Products for Online Advertising using Retrieval Assisted Image Generation ( http://arxiv.org/abs/2307.15326v1 )

ライセンス: Link先を確認
Yueh-Ning Ku, Mikhail Kuznetsov, Shaunak Mishra and Paloma de Juan(参考訳) eコマース製品を示すオンライン広告は、通常、eコマースプラットフォームによって広告プラットフォームに送られたカタログの製品イメージに依存する。 幅広い広告業界では、このような広告は動的製品広告(DPA)と呼ばれる。 DPAカタログは数百万の規模(eコマースプラットフォームから購入できる製品の規模に対応する)で販売されることが一般的である。 しかし、カタログ内のすべての製品イメージが広告画像として直接利用された場合に魅力的であるとは限らないため、クリックスルー率(ctr)が低下する可能性がある。 特に、固い背景に置かれた製品は、自然の環境で実行される製品ほど魅力的で現実的ではないかもしれない。 大規模dpa画像の欠点に対処するため,製品画像の段階的背景を生成するためのgan(generative adversarial network)アプローチを提案する。 ステージ化された背景全体を生成することは幻覚に影響を受けやすい課題です。 これを回避するために,検索支援ganを用いたコピーペーストステージングというシンプルなアプローチを導入する。 コピーペースト・ステージングでは、まず、未段階の入力製品に似た(カタログから)ステージ製品を取得し、その後、検索された製品の背景を入力画像にコピー・ペーストする。 このコピーペースト操作後に残った穴を埋めるためにganベースのインペインティングモデルが使用される。 オフラインメトリクスによるコピー・ペースト・ステージング手法の有効性と人的評価を示す。 さらに,当社のステージングアプローチによって,製品イメージからビデオ広告に至る製品のアニメーション化が可能になることを示す。

Online ads showing e-commerce products typically rely on the product images in a catalog sent to the advertising platform by an e-commerce platform. In the broader ads industry such ads are called dynamic product ads (DPA). It is common for DPA catalogs to be in the scale of millions (corresponding to the scale of products which can be bought from the e-commerce platform). However, not all product images in the catalog may be appealing when directly re-purposed as an ad image, and this may lead to lower click-through rates (CTRs). In particular, products just placed against a solid background may not be as enticing and realistic as a product staged in a natural environment. To address such shortcomings of DPA images at scale, we propose a generative adversarial network (GAN) based approach to generate staged backgrounds for un-staged product images. Generating the entire staged background is a challenging task susceptible to hallucinations. To get around this, we introduce a simpler approach called copy-paste staging using retrieval assisted GANs. In copy paste staging, we first retrieve (from the catalog) staged products similar to the un-staged input product, and then copy-paste the background of the retrieved product in the input image. A GAN based in-painting model is used to fill the holes left after this copy-paste operation. We show the efficacy of our copy-paste staging method via offline metrics, and human evaluation. In addition, we show how our staging approach can enable animations of moving products leading to a video ad from a product image.
翻訳日:2023-07-31 13:30:43 公開日:2023-07-28
# 初期スクリーニング順序問題

The Initial Screening Order Problem ( http://arxiv.org/abs/2307.15398v1 )

ライセンス: Link先を確認
Jose M. Alvarez and Salvatore Ruggieri(参考訳) 本稿では, 候補スクリーニングにおける重要なステップである初期スクリーニング順序問題を提案する。 これは、最初のスクリーニング順序が与えられた候補プールの最も適した候補ではなく、最初のkに適した候補を見つける目的を持つ人間のようなスクリーニングである。 最初のスクリーニング順序は、ヒトのようなスクリーニング者がスクリーニングの前に候補プールを配置する方法を表す。 初期スクリーニング順序の選択は、選択されたk候補集合に大きな影響を与える。 我々は、不均衡な候補プール(例えば、女性よりも男性が多い)の下で、人間のようなスクリーニング者は、保護されていない、過剰に表現されたグループに対して、その決定を妨害する不公平な努力に苦しむことができることを証明した。 その他の公平性の結果は人間のようなスクリーンで証明される。 この研究は、自動化のための雇用プロセスをよりよく理解するために、大企業とのコラボレーションに基づいている。 我々の主な貢献は、初期スクリーニング順序問題の定式化であり、これは現在のランキングアルゴリズム、公正性、スクリーニング手順の自動化に関する現在の研究の今後の拡張の道を開くものであると主張する。

In this paper we present the initial screening order problem, a crucial step within candidate screening. It involves a human-like screener with an objective to find the first k suitable candidates rather than the best k suitable candidates in a candidate pool given an initial screening order. The initial screening order represents the way in which the human-like screener arranges the candidate pool prior to screening. The choice of initial screening order has considerable effects on the selected set of k candidates. We prove that under an unbalanced candidate pool (e.g., having more male than female candidates), the human-like screener can suffer from uneven efforts that hinder its decision-making over the protected, under-represented group relative to the non-protected, over-represented group. Other fairness results are proven under the human-like screener. This research is based on a collaboration with a large company to better understand its hiring process for potential automation. Our main contribution is the formalization of the initial screening order problem which, we argue, opens the path for future extensions of the current works on ranking algorithms, fairness, and automation for screening procedures.
翻訳日:2023-07-31 13:25:18 公開日:2023-07-28
# 浅自由度ReLUネットワークを用いた雑音補間学習

Noisy Interpolation Learning with Shallow Univariate ReLU Networks ( http://arxiv.org/abs/2307.15396v1 )

ライセンス: Link先を確認
Nirmit Joshi, Gal Vardi, Nathan Srebro(参考訳) 雑音下不定形回帰のための最小ノルム(2層reluネットワーク)による補間の漸近オーバーフィッティング挙動について検討した。 オーバーフィッティングは$l_1$の損失、$l_p$の損失は$p<2$だが、$p\geq 2$は破滅的である。

We study the asymptotic overfitting behavior of interpolation with minimum norm ($\ell_2$ of the weights) two-layer ReLU networks for noisy univariate regression. We show that overfitting is tempered for the $L_1$ loss, and any $L_p$ loss for $p<2$, but catastrophic for $p\geq 2$.
翻訳日:2023-07-31 13:24:43 公開日:2023-07-28
# 波形インバージョンはビッグデータから得られるか?

Does Full Waveform Inversion Benefit from Big Data? ( http://arxiv.org/abs/2307.15388v1 )

ライセンス: Link先を確認
Peng Jin, Yinan Feng, Shihang Feng, Hanchen Wang, Yinpeng Chen, Benjamin Consolvo, Zicheng Liu, Youzuo Lin(参考訳) 本稿では,FWI(Full Waveform Inversion)のためのディープラーニングモデルに対するビッグデータの影響について検討する。 ビッグデータは多くのタスクでディープラーニングモデルのパフォーマンスを高めることが知られているが、その効果はfwiでは検証されていない。 本稿では,fwiのディープラーニングモデルが,最近発表された大規模マルチストラクショナルデータセットのコレクションであるopenfwi上でトレーニングされた際にどのように振る舞うかを,実証的に検討する。 特に,470Kのデータペアを含むOpenFWIの10つの2次元サブセットの組み合わせでFWIモデルをトレーニングし,評価する。 実験により、より大きなデータセットがFWIのディープラーニングモデルの性能向上と一般化につながることが示された。 さらに,モデルのキャパシティは,最適な改善のためにデータサイズに応じてスケールする必要があることを実証する。

This paper investigates the impact of big data on deep learning models for full waveform inversion (FWI). While it is well known that big data can boost the performance of deep learning models in many tasks, its effectiveness has not been validated for FWI. To address this gap, we present an empirical study that investigates how deep learning models in FWI behave when trained on OpenFWI, a collection of large-scale, multi-structural datasets published recently. Particularly, we train and evaluate the FWI models on a combination of 10 2D subsets in OpenFWI that contain 470K data pairs in total. Our experiments demonstrate that larger datasets lead to better performance and generalization of deep learning models for FWI. We further demonstrate that model capacity needs to scale in accordance with data size for optimal improvement.
翻訳日:2023-07-31 13:24:31 公開日:2023-07-28
# AffineGlue:ジョイントマッチングとロバスト推定

AffineGlue: Joint Matching and Robust Estimation ( http://arxiv.org/abs/2307.15381v1 )

ライセンス: Link先を確認
Daniel Barath, Dmytro Mishkin, Luca Cavalli, Paul-Edouard Sarlin, Petr Hruby, Marc Pollefeys(参考訳) AffineGlueは, 単一点最小解法を用いることにより, 問題の組合せ複雑性を低減する2視点特徴マッチングとロバストな推定法である。 AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。 ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。 さらに、ホモグラフィ推定のための新しい最小解法を導出し、単一のアフィン対応 (ac) と重力前置のみを必要とする。 さらに、良いモデルにつながる可能性が低い交流を拒否するためにニューラルネットワークを訓練する。 AffineGlueは、重力方向が下向きだと仮定しても、現実世界のデータセットのSOTAよりも優れている。 PhotoTourismでは、AUC@10{\deg}スコアはSOTAに比べて6.6ポイント改善されている。 ScanNetでは、AffineGlueはSuperPointとSuperGlueを検出器フリーのLoFTRと同様の精度で実現している。

We propose AffineGlue, a method for joint two-view feature matching and robust estimation that reduces the combinatorial complexity of the problem by employing single-point minimal solvers. AffineGlue selects potential matches from one-to-many correspondences to estimate minimal models. Guided matching is then used to find matches consistent with the model, suffering less from the ambiguities of one-to-one matches. Moreover, we derive a new minimal solver for homography estimation, requiring only a single affine correspondence (AC) and a gravity prior. Furthermore, we train a neural network to reject ACs that are unlikely to lead to a good model. AffineGlue is superior to the SOTA on real-world datasets, even when assuming that the gravity direction points downwards. On PhotoTourism, the AUC@10{\deg} score is improved by 6.6 points compared to the SOTA. On ScanNet, AffineGlue makes SuperPoint and SuperGlue achieve similar accuracy as the detector-free LoFTR.
翻訳日:2023-07-31 13:24:07 公開日:2023-07-28
# 効果的なペアワイズグラフインタラクション学習のためのコアテンショングラフポーリング

Co-attention Graph Pooling for Efficient Pairwise Graph Interaction Learning ( http://arxiv.org/abs/2307.15377v1 )

ライセンス: Link先を確認
Junhyun Lee, Bumsoo Kim, Minji Jeon, Jaewoo Kang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データからの処理と学習に有効であることが証明されている。 しかし、多くの実世界のアプリケーションはグラフ構造化データ(例えば、シーングラフマッチング、コード検索、ドラッグドラッグ相互作用予測)のペアワイズ分析を必要としている。 この目的のために、最近の研究はグラフのペア間の相互作用を学ぶことに焦点を移した。 性能は向上したものの、これらの作業はノードレベルでの相互作用を考慮し、高い計算コストと低最適性能をもたらすことに制限されていた。 この問題に対処するために,グラフプーリングにおけるコアテンションを用いたインタラクション表現抽出のための,新規かつ効率的なグラフレベルアプローチを提案する。 提案手法であるCAGPool(Co-Attention Graph Pooling)は,実世界のデータセットを用いた分類タスクと回帰タスクの両方において,計算複雑性を低く保ちながら,既存の手法と競合する性能を示す。

Graph Neural Networks (GNNs) have proven to be effective in processing and learning from graph-structured data. However, previous works mainly focused on understanding single graph inputs while many real-world applications require pair-wise analysis for graph-structured data (e.g., scene graph matching, code searching, and drug-drug interaction prediction). To this end, recent works have shifted their focus to learning the interaction between pairs of graphs. Despite their improved performance, these works were still limited in that the interactions were considered at the node-level, resulting in high computational costs and suboptimal performance. To address this issue, we propose a novel and efficient graph-level approach for extracting interaction representations using co-attention in graph pooling. Our method, Co-Attention Graph Pooling (CAGPool), exhibits competitive performance relative to existing methods in both classification and regression tasks using real-world datasets, while maintaining lower computational complexity.
翻訳日:2023-07-31 13:23:30 公開日:2023-07-28
# chatgptを用いた多言語観光支援:ヒンディー語、テルグ語、カンナダ語の比較

Multilingual Tourist Assistance using ChatGPT: Comparing Capabilities in Hindi, Telugu, and Kannada ( http://arxiv.org/abs/2307.15376v1 )

ライセンス: Link先を確認
Sanjana Kolar and Rohit Kumar(参考訳) 本研究は,インドにおける多様な言語環境の観光客を支援することを目的とした,OpenAIによるAI言語モデルChatGPTの有効性を検討する。 翻訳の質を測定するために、一般的な知識、食物、旅行といった様々な分野から50の質問がかけられた。 これらのスコアは5人のボランティアによって正確さと流用度で評価され、その後BLEUスコアに変換された。 BLEUスコアは、より優れた翻訳品質を示す高いスコアで、機械が生成した翻訳の人間翻訳への近さを評価する。 ヒンディー語訳は他より優れており、精度と流布が優れており、一方でテルグ語訳は遅れを取っていた。 human evaluatorsは翻訳の正確さと流動性を評価し、言語モデルのパフォーマンスに関する包括的な視点を提供した。

This research investigates the effectiveness of ChatGPT, an AI language model by OpenAI, in translating English into Hindi, Telugu, and Kannada languages, aimed at assisting tourists in India's linguistically diverse environment. To measure the translation quality, a test set of 50 questions from diverse fields such as general knowledge, food, and travel was used. These were assessed by five volunteers for accuracy and fluency, and the scores were subsequently converted into a BLEU score. The BLEU score evaluates the closeness of a machine-generated translation to a human translation, with a higher score indicating better translation quality. The Hindi translations outperformed others, showcasing superior accuracy and fluency, whereas Telugu translations lagged behind. Human evaluators rated both the accuracy and fluency of translations, offering a comprehensive perspective on the language model's performance.
翻訳日:2023-07-31 13:22:46 公開日:2023-07-28
# レーザーネットワークにおけるラグとゼロラグ同期によるコンフリクトフリージョイント決定

Conflict-free joint decision by lag and zero-lag synchronization in laser network ( http://arxiv.org/abs/2307.15373v1 )

ライセンス: Link先を確認
Hisako Ito, Takatomo Mihana, Ryoichi Horisaki, Makoto Naruse(参考訳) ムーアの法則の終了と計算の需要の増大により、フォトニック加速器は大きな注目を集めている。 これは、高帯域幅や多重性などの光の物理的特性と、レーザー物理学の領域で現れる様々な同期現象によるものである。 コンピュータの性能が限界に近づくにつれ、これらの要因が作用する。 本研究では,光加速器として機能するレーザーネットワークの競合型マルチアームバンディット問題への応用について検討する。 この文脈では、紛争回避は環境報酬の最大化の鍵となる。 4個の半導体レーザのネットワーク内でゼロラグとラグ同期を用いた協調的意思決定実験を行った。 カオスのラグ同期は効果的な意思決定を実現し、ゼロ遅延同期は衝突回避関数の実現に寄与する。 そこで本研究では,基本的な2人プレイの2スロットシナリオにおいて,低衝突率と高い報酬を実験的に検証し,システムのスケーラビリティを示した。 このシステムアーキテクチャは、レーザー力学におけるインテリジェント機能に対する新たな可能性を開く。

With the end of Moore's Law and the increasing demand for computing, photonic accelerators are garnering considerable attention. This is due to the physical characteristics of light, such as high bandwidth and multiplicity, and the various synchronization phenomena that emerge in the realm of laser physics. These factors come into play as computer performance approaches its limits. In this study, we explore the application of a laser network, acting as a photonic accelerator, to the competitive multi-armed bandit problem. In this context, conflict avoidance is key to maximizing environmental rewards. We experimentally demonstrate cooperative decision-making using zero-lag and lag synchronization within a network of four semiconductor lasers. Lag synchronization of chaos realizes effective decision-making and zero-delay synchronization is responsible for the realization of the collision avoidance function. We experimentally verified a low collision rate and high reward in a fundamental 2-player, 2-slot scenario, and showed the scalability of this system. This system architecture opens up new possibilities for intelligent functionalities in laser dynamics.
翻訳日:2023-07-31 13:22:30 公開日:2023-07-28
# モデルベースツリーマルコフモデルを用いた透明シーケンスモデルに向けて

Toward Transparent Sequence Models with Model-Based Tree Markov Model ( http://arxiv.org/abs/2307.15367v1 )

ライセンス: Link先を確認
Chan Hsu, Wei-Chun Huang, Jun-Ting Wu, Chih-Yuan Li, Yihuang Kang(参考訳) 本研究では,シーケンスデータに適用した複雑なブラックボックス機械学習モデルにおける解釈可能性の問題に対処する。 モデルベース木隠れセミマルコフモデル(MOB-HSMM)は,高死亡リスク事象の検出と集中治療室(ICU)の死亡リスクに関連する隠れパターンの発見を目的とした,本質的に解釈可能なモデルである。 このモデルは、Deep Neural Networks (DNN)から抽出した知識を活用し、明確な説明を提供しながら予測性能を向上させる。 実験の結果,モデルベースツリー(MOB木)の性能はLSTMを用いて逐次パターンを学習し,MOB木に転送することで向上した。 MOB-HSMMでHidden Semi-Markov Model (HSMM) とMOBツリーを統合することで、利用可能な情報を用いて潜在的および説明可能なシーケンスを明らかにすることができる。

In this study, we address the interpretability issue in complex, black-box Machine Learning models applied to sequence data. We introduce the Model-Based tree Hidden Semi-Markov Model (MOB-HSMM), an inherently interpretable model aimed at detecting high mortality risk events and discovering hidden patterns associated with the mortality risk in Intensive Care Units (ICU). This model leverages knowledge distilled from Deep Neural Networks (DNN) to enhance predictive performance while offering clear explanations. Our experimental results indicate the improved performance of Model-Based trees (MOB trees) via employing LSTM for learning sequential patterns, which are then transferred to MOB trees. Integrating MOB trees with the Hidden Semi-Markov Model (HSMM) in the MOB-HSMM enables uncovering potential and explainable sequences using available information.
翻訳日:2023-07-31 13:22:14 公開日:2023-07-28
# マルチタスクディエンス予測のためのプロンプトガイド変換器

Prompt Guided Transformer for Multi-Task Dense Prediction ( http://arxiv.org/abs/2307.15362v1 )

ライセンス: Link先を確認
Yuxiang Lu, Shalayiding Sirejiding, Yue Ding, Chunlin Wang and Hongtao Lu(参考訳) タスク条件アーキテクチャはパラメータ効率に利点があるが、最先端のマルチデコーダ手法に比べて性能が劣る。 パフォーマンスとモデルのパラメータをトレードオフする方法は重要で難しい問題です。 本稿では,この課題を最適化するために, Prompt Guided Transformer (PGT) と呼ばれるシンプルで軽量なタスク条件モデルを提案する。 提案手法では,タスク固有のプロンプトを自己アテンション機構に組み込んだプロンプト条件付きトランスフォーマーブロックを設計し,グローバル依存性モデリングとパラメータ効率の高い機能適応を実現する。 このブロックは共有エンコーダとデコーダの両方に統合され、タスク内およびタスク間機能のキャプチャが向上する。 さらに,モデルパラメータ全体の2.7%を占めるパラメータ使用量を削減するために,軽量デコーダを設計した。 PASCAL-Context と NYUD-v2 という2つのマルチタスク高密度予測ベンチマークの大規模な実験により,タスク条件付き手法では,パラメータが少なく,かつ,性能とパラメータサイズの間に大きなバランスが保たれている。

Task-conditional architecture offers advantage in parameter efficiency but falls short in performance compared to state-of-the-art multi-decoder methods. How to trade off performance and model parameters is an important and difficult problem. In this paper, we introduce a simple and lightweight task-conditional model called Prompt Guided Transformer (PGT) to optimize this challenge. Our approach designs a Prompt-conditioned Transformer block, which incorporates task-specific prompts in the self-attention mechanism to achieve global dependency modeling and parameter-efficient feature adaptation across multiple tasks. This block is integrated into both the shared encoder and decoder, enhancing the capture of intra- and inter-task features. Moreover, we design a lightweight decoder to further reduce parameter usage, which accounts for only 2.7% of the total model parameters. Extensive experiments on two multi-task dense prediction benchmarks, PASCAL-Context and NYUD-v2, demonstrate that our approach achieves state-of-the-art results among task-conditional methods while using fewer parameters, and maintains a significant balance between performance and parameter size.
翻訳日:2023-07-31 13:21:58 公開日:2023-07-28
# 信頼度ランキング

Confident Feature Ranking ( http://arxiv.org/abs/2307.15361v1 )

ライセンス: Link先を確認
Bitya Neuhof, Yuval Benjamini(参考訳) 特徴の重要性の解釈は、しばしばランク付けと呼ばれる値そのものではなく、特徴の相対的な順序に依存する。 しかし、この順序は、重要値を計算するために使われる小さなサンプルサイズのため不安定である可能性がある。 本稿では,ポストホック重要度法がランキングと同時信頼区間を生成することを提案する。 特徴重要値の対数比較に基づいて、この手法は、高い確率で ``true'' (無限のサンプル) ランキングを含むことが保証され、トップk 集合を選択できる。

Interpretation of feature importance values often relies on the relative order of the features rather than on the value itself, referred to as ranking. However, the order may be unstable due to the small sample sizes used in calculating the importance values. We propose that post-hoc importance methods produce a ranking and simultaneous confident intervals for the rankings. Based on pairwise comparisons of the feature importance values, our method is guaranteed to include the ``true'' (infinite sample) ranking with high probability and allows for selecting top-k sets.
翻訳日:2023-07-31 13:21:36 公開日:2023-07-28
# 散乱の相対論的共分散

Relativistic Covariance of Scattering ( http://arxiv.org/abs/2307.15426v1 )

ライセンス: Link先を確認
Norbert Dragon(参考訳) 我々はSchr\\odinger図における相対論的量子散乱を分析する。 4モーメントの変換不変性と保存の示唆的な要件は、相互作用するハミルトン通勤と自由粒子の4モーメント$P$が相互作用の欠如を示唆していることを示している。 緩和された要求は、相互作用するハミルトニアン$H'$が 4-速度 $U= P/M$, $M=\sqrt{P^2}$ と可換であることは、非相対論的の場合と同様にポインカーの共変相互作用を許容する。 S$-行列がローレンツ不変であれば、それでも4モーメントの$P$で通勤するが、$H'$はそうではない。 シフトされたオブザーバーは4速度のu$によって翻訳され、相対位相が変化しない近質量縮退状態の重ね合わせが見られる一方、4モーメントは変化した相対位相を持つ振動重ね合わせを生成する。

We analyze relativistic quantum scattering in the Schr\"odinger picture. The suggestive requirement of translational invariance and conservation of the four-momentum, that the interacting Hamiltonian commute with the four-momentum $P$ of free particles, is shown to imply the absence of interactions. The relaxed requirement, that the interacting Hamiltonian $H'$ commute with the four-velocity $U= P/M$, $M=\sqrt{P^2}$, allows Poincar\'e covariant interactions just as in the nonrelativistic case. If the $S$-matrix is Lorentz invariant, it still commutes with the four-momentum $P$ though $H'$ does not. Shifted observers, whose translations are generated by the four-velocity $U$, just see a shifted superposition of near-mass-degenerate states with unchanged relative phases, while the four-momentum generates oscillated superpositions with changed relative phases.
翻訳日:2023-07-31 13:13:38 公開日:2023-07-28
# 大規模言語モデルの批判的レビュー:感性、バイアス、特殊化AIへの道のり

A Critical Review of Large Language Models: Sensitivity, Bias, and the Path Toward Specialized AI ( http://arxiv.org/abs/2307.15425v1 )

ライセンス: Link先を確認
Arash Hajikhani, Carolyn Cole(参考訳) 本稿では,テキストデータ中のsdgの検出における,特殊コンパイル言語モデルとopenaiのgpt-3.5のような汎用モデルの比較検討を行う。 大規模な言語モデル(LLM)について批判的なレビューを行い、バイアスと感度に関する課題に対処する。 正確で偏りのない分析のための専門訓練の必要性は下線にある。 企業説明データセットを用いたケーススタディは、gpt-3.5と特殊sdg検出モデルの違いについて洞察を与える。 GPT-3.5は広く報道されているが、SDGを企業活動に限定して特定することができる。 対照的に、特殊モデルは非常に関連するSDG上でゼロとなる。 タスク要件、コスト、複雑さ、透明性を考慮して、熟慮したモデル選択の重要性が強調される。 LLMの汎用性にもかかわらず、精度と精度を要求されるタスクには特殊モデルの使用が推奨されている。 この研究は、LLMの能力とドメイン固有の専門知識と解釈可能性の必要性のバランスを見つけるためにさらなる研究を奨励することで締めくくられる。

This paper examines the comparative effectiveness of a specialized compiled language model and a general-purpose model like OpenAI's GPT-3.5 in detecting SDGs within text data. It presents a critical review of Large Language Models (LLMs), addressing challenges related to bias and sensitivity. The necessity of specialized training for precise, unbiased analysis is underlined. A case study using a company descriptions dataset offers insight into the differences between the GPT-3.5 and the specialized SDG detection model. While GPT-3.5 boasts broader coverage, it may identify SDGs with limited relevance to the companies' activities. In contrast, the specialized model zeroes in on highly pertinent SDGs. The importance of thoughtful model selection is emphasized, taking into account task requirements, cost, complexity, and transparency. Despite the versatility of LLMs, the use of specialized models is suggested for tasks demanding precision and accuracy. The study concludes by encouraging further research to find a balance between the capabilities of LLMs and the need for domain-specific expertise and interpretability.
翻訳日:2023-07-31 13:13:18 公開日:2023-07-28
# 深層生成モデル, 合成語彙データ, 微分プライバシー : 概観と合成

Deep Generative Models, Synthetic Tabular Data, and Differential Privacy: An Overview and Synthesis ( http://arxiv.org/abs/2307.15424v1 )

ライセンス: Link先を確認
Conor Hassan, Robert Salomone, Kerrie Mengersen(参考訳) 本稿では,表層データセットに着目した深層生成モデルによる合成データ生成の最近の進展を包括的に分析する。 具体的には、プライバシーに敏感なデータにおける合成データ生成の重要性について概説する。 さらに、他の手法よりも深い生成モデルを使用することの利点を強調し、教師なし学習、ニューラルネットワーク、生成モデルなどの基礎となる概念を詳細に説明する。 本稿では,データ正規化やプライバシ問題,モデル評価など,表層データセットの深層生成モデルの利用に関する課題と考察について述べる。 このレビューは、合成データ生成とその応用に関心のある研究者や実践者に貴重なリソースを提供する。

This article provides a comprehensive synthesis of the recent developments in synthetic data generation via deep generative models, focusing on tabular datasets. We specifically outline the importance of synthetic data generation in the context of privacy-sensitive data. Additionally, we highlight the advantages of using deep generative models over other methods and provide a detailed explanation of the underlying concepts, including unsupervised learning, neural networks, and generative models. The paper covers the challenges and considerations involved in using deep generative models for tabular datasets, such as data normalization, privacy concerns, and model evaluation. This review provides a valuable resource for researchers and practitioners interested in synthetic data generation and its applications.
翻訳日:2023-07-31 13:13:02 公開日:2023-07-28
# マルチフィデリティハイパーパラメータ最適化に必要なのはエポックか?

Is One Epoch All You Need For Multi-Fidelity Hyperparameter Optimization? ( http://arxiv.org/abs/2307.15422v1 )

ライセンス: Link先を確認
Romain Egele, Isabelle Guyon, Yixuan Sun, Prasanna Balaprakash(参考訳) ハイパーパラメータ最適化(HPO)は、微調整機械学習モデルには不可欠だが、計算コストが高い。 コスト削減のため、MF-HPO(Multi-fidelity HPO)は学習プロセスの中間精度レベルを活用し、早期に低性能モデルを捨てる。 様々な代表的MF-HPO法を,古典的ベンチマークデータに基づく単純なベースラインと比較した。 ベースラインは、訓練後1時間のみトップK以外の全てのモデルを廃棄し、その後、最高のモデルを選択するためのさらなる訓練が行われた。 驚くべきことに、このベースラインは同等の結果を得たが、計算量は桁違いに減った。 ベンチマークデータの学習曲線を解析すると,いくつかの支配的な学習曲線が観察され,ベースラインの成功が説明された。 これは、研究者が(1)ベンチマークで推奨されるベースラインを常に使用し、(2)より複雑なケースを含むためにmf-hpoベンチマークの多様性を広げるべきであることを示唆している。

Hyperparameter optimization (HPO) is crucial for fine-tuning machine learning models but can be computationally expensive. To reduce costs, Multi-fidelity HPO (MF-HPO) leverages intermediate accuracy levels in the learning process and discards low-performing models early on. We compared various representative MF-HPO methods against a simple baseline on classical benchmark data. The baseline involved discarding all models except the Top-K after training for only one epoch, followed by further training to select the best model. Surprisingly, this baseline achieved similar results to its counterparts, while requiring an order of magnitude less computation. Upon analyzing the learning curves of the benchmark data, we observed a few dominant learning curves, which explained the success of our baseline. This suggests that researchers should (1) always use the suggested baseline in benchmarks and (2) broaden the diversity of MF-HPO benchmarks to include more complex cases.
翻訳日:2023-07-31 13:12:50 公開日:2023-07-28
# mlic++: 学習画像圧縮のための線形複雑性マルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v1 )

ライセンス: Link先を確認
Wei Jiang, Ronggang Wang(参考訳) 近年,チャネルワイド,局所空間,大域空間相関を捉えるマルチ参照エントロピーモデルが提案されている。 以前の研究では、グローバル相関キャプチャに注意が払われているが、二次cpmプレックス性は高解像度画像符号化の可能性を制限する。 本稿では,softmax 操作の分解を通じて,線形複雑性大域的相関をキャプチャする手法を提案する。 そこで我々はMLIC$^{++}$を提案し,マルチ参照エントロピーモデリングのための線形複雑度を持つ画像圧縮手法を提案する。 我々のMLIC$^{++}$はより効率的で、PSNRで測定した場合のVTM-17.0と比較して、KodakデータセットのBDレートを12.44%削減する。 コードはhttps://github.com/JiangWeibeta/MLICで入手できる。

Recently, multi-reference entropy model has been proposed, which captures channel-wise, local spatial, and global spatial correlations. Previous works adopt attention for global correlation capturing, however, the quadratic cpmplexity limits the potential of high-resolution image coding. In this paper, we propose the linear complexity global correlations capturing, via the decomposition of softmax operation. Based on it, we propose the MLIC$^{++}$, a learned image compression with linear complexity for multi-reference entropy modeling. Our MLIC$^{++}$ is more efficient and it reduces BD-rate by 12.44% on the Kodak dataset compared to VTM-17.0 when measured in PSNR. Code will be available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2023-07-31 13:12:33 公開日:2023-07-28
# 複数のポスト依存によるソーシャルメディアの人気予測の改善

Improving Social Media Popularity Prediction with Multiple Post Dependencies ( http://arxiv.org/abs/2307.15413v1 )

ライセンス: Link先を確認
Zhizhen Zhang, Xiaohui Xie, Mengyu Yang, Ye Tian, Yong Jiang, Yong Cui(参考訳) ソーシャルメディアの人気予測は、レコメンデーションシステムやマルチメディア広告など、さまざまなアプリケーションに大きな影響を与えているため、多くの注目を集めている。 最近のソーシャルメディア投稿のコンテンツを利用して予測精度を向上させる努力にもかかわらず、既存のモデルの多くは投稿間の複数の依存関係を十分に活用できず、投稿からコンテンツ情報を総合的に抽出することが重要である。 この問題に対処するため,我々は,ポスト間およびインポスト間の依存関係を利用したdsn(dependency-aware sequence network)と呼ばれる新しい予測フレームワークを提案する。 DSNは、画像や投稿のテキスト情報からタスク固有の表現を得るために、効率的な微調整戦略を備えたマルチモーダル特徴抽出器を採用する。 ポスト間の依存関係のために、dsnは階層的情報伝達手法を使用して、ポスト間の差異をよりよく記述できるカテゴリ表現を学習する。 DSNはまた、よりフレキシブルなローカル時間処理能力と長期依存に対するマルチヘッドアテンションのために一連のゲーティング層を持つリカレントネットワークを利用する。 実験結果は,既存の最先端モデルと比較して,提案手法の優位性を示すものである。

Social Media Popularity Prediction has drawn a lot of attention because of its profound impact on many different applications, such as recommendation systems and multimedia advertising. Despite recent efforts to leverage the content of social media posts to improve prediction accuracy, many existing models fail to fully exploit the multiple dependencies between posts, which are important to comprehensively extract content information from posts. To tackle this problem, we propose a novel prediction framework named Dependency-aware Sequence Network (DSN) that exploits both intra- and inter-post dependencies. For intra-post dependency, DSN adopts a multimodal feature extractor with an efficient fine-tuning strategy to obtain task-specific representations from images and textual information of posts. For inter-post dependency, DSN uses a hierarchical information propagation method to learn category representations that could better describe the difference between posts. DSN also exploits recurrent networks with a series of gating layers for more flexible local temporal processing abilities and multi-head attention for long-term dependencies. The experimental results on the Social Media Popularity Dataset demonstrate the superiority of our method compared to existing state-of-the-art models.
翻訳日:2023-07-31 13:12:16 公開日:2023-07-28
# 文脈内学習の学習行動の検討--教師付き学習との比較

Investigating the Learning Behaviour of In-context Learning: A Comparison with Supervised Learning ( http://arxiv.org/abs/2307.15411v1 )

ライセンス: Link先を確認
Xindi Wang, Yufei Wang, Can Xu, Xiubo Geng, Bowen Zhang, Chongyang Tao, Frank Rudzicz, Robert E. Mercer and Daxin Jiang(参考訳) 大規模言語モデル(llm)は、いくつかのトレーニング例から新しいタスクを明示的に事前学習することなく学習する、インコンテキスト学習(icl)において顕著な能力を示している。 しかし、LSMの成功にもかかわらず、ICLが与えられたプロンプトからどのように知識を学ぶかについてはほとんど理解されていない。 本稿では, iclの学習行動の理解に向けて, iclと教師付き学習(sl)を用いて, 同じ実演例を用いて同一のllmを訓練し, 分類タスクにおけるラベル摂動(雑音ラベル, ラベル不均衡)下での性能について検討する。 まず、大規模な実験により、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を及ぼすことがわかったが、不均衡なラベルはすべてのモデルサイズでICLにはほとんど影響しない。 第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。

Large language models (LLMs) have shown remarkable capacity for in-context learning (ICL), where learning a new task from just a few training examples is done without being explicitly pre-trained. However, despite the success of LLMs, there has been little understanding of how ICL learns the knowledge from the given prompts. In this paper, to make progress toward understanding the learning behaviour of ICL, we train the same LLMs with the same demonstration examples via ICL and supervised learning (SL), respectively, and investigate their performance under label perturbations (i.e., noisy labels and label imbalance) on a range of classification tasks. First, via extensive experiments, we find that gold labels have significant impacts on the downstream in-context performance, especially for large language models; however, imbalanced labels matter little to ICL across all model sizes. Second, when comparing with SL, we show empirically that ICL is less sensitive to label perturbations than SL, and ICL gradually attains comparable performance to SL as the model size increases.
翻訳日:2023-07-31 13:11:55 公開日:2023-07-28
# 顧客サポート対話におけるインテントインジェクションのための完全教師なしフレームワーク

Towards a Fully Unsupervised Framework for Intent Induction in Customer Support Dialogues ( http://arxiv.org/abs/2307.15410v1 )

ライセンス: Link先を確認
Rita Costa, Bruno Martins, S\'ergio Viana and Luisa Coheur(参考訳) 意図的誘導の最先端技術モデルは注釈付きデータセットを必要とする。 しかし、注釈付き対話は時間がかかり、手間がかかり、高価である。 本稿では,対話における意図誘導のための教師なしフレームワークを提案する。 さらに,対話コーパスを前処理することで結果が向上することを示す。 最後に、最も一般的なシーケンスを調査することにより、意図の対話フローを抽出する方法を示す。 我々は、MultiWOZデータセットで作業をテストするが、このフレームワークが事前の知識を必要としないという事実は、あらゆる可能なユースケースに適用可能であり、業界全体で現実世界のカスタマーサポートアプリケーションに非常に関係している。

State of the art models in intent induction require annotated datasets. However, annotating dialogues is time-consuming, laborious and expensive. In this work, we propose a completely unsupervised framework for intent induction within a dialogue. In addition, we show how pre-processing the dialogue corpora can improve results. Finally, we show how to extract the dialogue flows of intentions by investigating the most common sequences. Although we test our work in the MultiWOZ dataset, the fact that this framework requires no prior knowledge make it applicable to any possible use case, making it very relevant to real world customer support applications across industry.
翻訳日:2023-07-31 13:11:34 公開日:2023-07-28
# 不確かさを意識したマルチオブジェクト追跡

Uncertainty-aware Unsupervised Multi-Object Tracking ( http://arxiv.org/abs/2307.15409v1 )

ライセンス: Link先を確認
Kai Liu, Sheng Jin, Zhihang Fu, Ze Chen, Rongxin Jiang, Jieping Ye(参考訳) 手動でアノテートされたIDがなければ、教師なしマルチオブジェクトトラッカーは信頼できる特徴埋め込みを学習するよりも劣る。 類似性に基づくフレーム間関連ステージもエラーを起こし、不確実性が発生する。 フレーム単位の累積不確実性は、トラッカが時間の変動に対して一貫した特徴を学習することを妨げる。 この不確実性を回避するため、最近の自己監督技術が採用されているが、時間的関係を捉えられなかった。 フレーム間の不確実性はまだ存在する。 実際、不確実性問題は避けられないが、不確実性自体を利用して学習された一貫性を次々に改善することが可能である。 特に、リスク関連を検証・修正するために不確実性に基づく計量が開発されている。 その結果、正確な擬似トラックレットは、機能の一貫性の学習を促進する。 そして正確なトラックレットは、時間情報を空間変換に組み込むことができる。 本稿では,ハードサンプルマイニングのための階層的不確実性に基づくサンプリング機構を適用し,トラックレットの動きをシミュレートするトラックレット誘導強化手法を提案する。 究極の教師なしMOTフレームワークであるU2MOTは、MOT-ChallengesとVisDrone-MOTベンチマークで有効であることが証明されている。 U2MOTは、公表された教師なしトラッカーと教師なしトラッカーの間でSOTA性能を達成する。

Without manually annotated identities, unsupervised multi-object trackers are inferior to learning reliable feature embeddings. It causes the similarity-based inter-frame association stage also be error-prone, where an uncertainty problem arises. The frame-by-frame accumulated uncertainty prevents trackers from learning the consistent feature embedding against time variation. To avoid this uncertainty problem, recent self-supervised techniques are adopted, whereas they failed to capture temporal relations. The interframe uncertainty still exists. In fact, this paper argues that though the uncertainty problem is inevitable, it is possible to leverage the uncertainty itself to improve the learned consistency in turn. Specifically, an uncertainty-based metric is developed to verify and rectify the risky associations. The resulting accurate pseudo-tracklets boost learning the feature consistency. And accurate tracklets can incorporate temporal information into spatial transformation. This paper proposes a tracklet-guided augmentation strategy to simulate tracklets' motion, which adopts a hierarchical uncertainty-based sampling mechanism for hard sample mining. The ultimate unsupervised MOT framework, namely U2MOT, is proven effective on MOT-Challenges and VisDrone-MOT benchmark. U2MOT achieves a SOTA performance among the published supervised and unsupervised trackers.
翻訳日:2023-07-31 13:11:24 公開日:2023-07-28
# モンテカルロ過程の確率的自動微分

Stochastic automatic differentiation for Monte Carlo processes ( http://arxiv.org/abs/2307.15406v1 )

ライセンス: Link先を確認
Guilherme Catumba, Alberto Ramos, Bryan Zaldivar(参考訳) モンテカルロ法はコンピュータ科学の基盤となっている。 それらは効率的な方法で高次元分布関数をサンプリングすることができる。 本稿では,モンテカルロプロセスに対する自動微分(ad)手法の拡張について検討し,期待値の導関数(および一般にテイラー級数)を得る問題に対処する。 格子場理論のコミュニティからアイデアを借用し、2つのアプローチを検討する。 1つは再重み付けに基づいており、もう1つはHybrid Monte Carlo (HMC) と類似のアルゴリズムで一般的に使用されるハミルトンアプローチの拡張を表す。 ハミルトンのアプローチは、再重み付けアプローチの変数の変化として理解でき、結果としてテイラー級数の係数の分散が大幅に減少することを示した。 この研究は、期待値の微分に対する他の分散還元手法を見つけるための扉を開く。

Monte Carlo methods represent a cornerstone of computer science. They allow to sample high dimensional distribution functions in an efficient way. In this paper we consider the extension of Automatic Differentiation (AD) techniques to Monte Carlo process, addressing the problem of obtaining derivatives (and in general, the Taylor series) of expectation values. Borrowing ideas from the lattice field theory community, we examine two approaches. One is based on reweighting while the other represents an extension of the Hamiltonian approach typically used by the Hybrid Monte Carlo (HMC) and similar algorithms. We show that the Hamiltonian approach can be understood as a change of variables of the reweighting approach, resulting in much reduced variances of the coefficients of the Taylor series. This work opens the door to find other variance reduction techniques for derivatives of expectation values.
翻訳日:2023-07-31 13:11:08 公開日:2023-07-28
# ERCPMP:大腸ポリープの形態と病理の内視鏡画像とビデオデータセット

ERCPMP: An Endoscopic Image and Video Dataset for Colorectal Polyps Morphology and Pathology ( http://arxiv.org/abs/2307.15444v1 )

ライセンス: Link先を確認
Mojgan Forootan, Mohsen Rajabnia, Ahmad R Mafi, Hamed Azhdari Tehrani, Erfan Ghadirzadeh, Mahziar Setayeshfar, Zahra Ghaffari, Mohammad Tashakoripour, Mohammad Reza Zali, Hamidreza Bolhasani(参考訳) 近年、人工知能(AI)とその主要なサブタイプである機械学習(ML)とディープラーニング(DL)とその応用は、医療など様々な面で急速に普及している。 現在、医学予測、検出、診断、治療、予後の正確なアルゴリズムを開発する上で最も重要な課題はデータである。 ERCPMPは大腸ポリープの形態と病理の認識のための内視鏡画像とビデオデータセットである。 本データセットは,大腸ポリープ191例の人口,形態,病理像,内視鏡像,ビデオを含む。 形態データは、パリ、ピト、JNETなどの最新の国際胃腸科分類基準に基づいて記述されている。 病理データには, 管状, villous, tubulovillous, hyperplastic, serrated, inflammatory and adenocarcinoma with dysplasia grade and differentiationを含むポリープの診断が含まれる。 このデータセットの現在のバージョンはElsevier Mendeley Dataverseで公開されており、開発中であるため、最新バージョンはhttps://databiox.com.comからアクセスできる。

In the recent years, artificial intelligence (AI) and its leading subtypes, machine learning (ML) and deep learning (DL) and their applications are spreading very fast in various aspects such as medicine. Today the most important challenge of developing accurate algorithms for medical prediction, detection, diagnosis, treatment and prognosis is data. ERCPMP is an Endoscopic Image and Video Dataset for Recognition of Colorectal Polyps Morphology and Pathology. This dataset contains demographic, morphological and pathological data, endoscopic images and videos of 191 patients with colorectal polyps. Morphological data is included based on the latest international gastroenterology classification references such as Paris, Pit and JNET classification. Pathological data includes the diagnosis of the polyps including Tubular, Villous, Tubulovillous, Hyperplastic, Serrated, Inflammatory and Adenocarcinoma with Dysplasia Grade & Differentiation. The current version of this dataset is published and available on Elsevier Mendeley Dataverse and since it is under development, the latest version is accessible via: https://databiox.com.
翻訳日:2023-07-31 13:05:20 公開日:2023-07-28
# 時間的知識基盤の最適アライメント

Optimal Alignment of Temporal Knowledge Bases ( http://arxiv.org/abs/2307.15439v1 )

ライセンス: Link先を確認
Oliver Fernandez-Gil and Fabio Patrizi and Giuseppe Perelli and Anni-Yasmin Turhan(参考訳) 時間的記述論理知識ベース(TKB)に対する時間的CQの回答は、オントロジーに基づく状況認識を実現する主要な手法である。 このような知識ベースで収集されたデータが不正確である場合、重要な質問応答を見逃すことができる。 本稿では、TKBを最小限に変化させるTKBの変種を計算し、与えられた時間的CQを伴い、その意味で(コスト-)最適であるTKBアライメント問題を提案する。 ALC TKBのこの問題とLTL演算子との接続クエリについて検討し、有限トレース上の命題LTLのアライメント問題を拡張したTKBのアライメント(コスト-最適アライメント)を計算するためのソリューションテクニックを考案する。

Answering temporal CQs over temporalized Description Logic knowledge bases (TKB) is a main technique to realize ontology-based situation recognition. In case the collected data in such a knowledge base is inaccurate, important query answers can be missed. In this paper we introduce the TKB Alignment problem, which computes a variant of the TKB that minimally changes the TKB, but entails the given temporal CQ and is in that sense (cost-)optimal. We investigate this problem for ALC TKBs and conjunctive queries with LTL operators and devise a solution technique to compute (cost-optimal) alignments of TKBs that extends techniques for the alignment problem for propositional LTL over finite traces.
翻訳日:2023-07-31 13:05:00 公開日:2023-07-28
# 自律ペイロード熱制御

Autonomous Payload Thermal Control ( http://arxiv.org/abs/2307.15438v1 )

ライセンス: Link先を確認
Alejandro D. Mousist(参考訳) 小さな衛星では、熱制御機器、科学機器、電子部品のスペースは少ない。 さらに、電子機器の近さは、温度を適切に制御できず、部品寿命とミッション性能を低下させるリスクを伴い、電力散逸を困難にする。 この課題に対処するために, ソフト・アクター・クリティカル・アルゴリズムを用いた深層強化学習ベースのフレームワークである, ボード衛星のインテリジェンス向上を生かして, 搭載した熱制御ポリシーを学習する手法を提案する。 このフレームワークは、単純でシミュレートされた環境と、将来のIMAGIN-eミッションでISSにホストされる実際のスペースエッジ処理コンピュータの両方で評価される。 実験の結果,提案フレームワークは従来の熱制御システムを補完して,運用範囲の温度を維持するためにペイロード処理能力の制御を学べることがわかった。

In small satellites there is less room for heat control equipment, scientific instruments, and electronic components. Furthermore, the near proximity of the electronics makes power dissipation difficult, with the risk of not being able to control the temperature appropriately, reducing component lifetime and mission performance. To address this challenge, taking advantage of the advent of increasing intelligence on board satellites, a deep reinforcement learning based framework that uses Soft Actor-Critic algorithm is proposed for learning the thermal control policy onboard. The framework is evaluated both in a naive simulated environment and in a real space edge processing computer that will be shipped in the future IMAGIN-e mission and hosted in the ISS. The experiment results show that the proposed framework is able to learn to control the payload processing power to maintain the temperature under operational ranges, complementing traditional thermal control systems.
翻訳日:2023-07-31 13:04:43 公開日:2023-07-28
# 1光子が2つの原子を同時に励起する超強結合光マター系

One photon simultaneously excites two atoms in a ultrastrongly coupled light-matter system ( http://arxiv.org/abs/2307.15437v1 )

ライセンス: Link先を確認
Akiyoshi Tomonaga, Roberto Stassi, Hiroto Mukai, Franco Nori, Fumiki Yoshihara, and Jaw-Shen Tsai(参考訳) 2つのフラックス量子ビットからなる超伝導回路を共振器に超強結合させる実験を行った。 フラックス量子ビットのアンハーモニック性が大きいため、この系はスピンスピン相互作用項を含む一般化されたディッケ・ハミルトニアンによって正しく記述できる。 実験的に測定されたスペクトルにおいて、回避されたレベル交差は、共振器から \textit{one} 光子を吸収することによって \textit{two} 人工原子の \textit{simultaneous} 励起を可能にするエキゾチック相互作用の証拠を提供する。 この多原子超強結合系は、励起数が保存されていない非線形光学の研究の扉を開く。 これにより、チップ上の量子情報処理タスクの新しいプロセスが可能になる。

We experimentally investigate a superconducting circuit composed of two flux qubits ultrastrongly coupled to a common $LC$ resonator. Owing to the large anharmonicity of the flux qubits, the system can be correctly described by a generalized Dicke Hamiltonian containing spin-spin interaction terms. In the experimentally measured spectrum, an avoided level crossing provides evidence of the exotic interaction that allows the \textit{simultaneous} excitation of \textit{two} artificial atoms by absorbing \textit{one} photon from the resonator. This multi-atom ultrastrongly coupled system opens the door to studying nonlinear optics where the number of excitations is not conserved. This enables novel processes for quantum-information processing tasks on a chip.
翻訳日:2023-07-31 13:04:26 公開日:2023-07-28
# 光型カメラトラップによる夜間昆虫の自動視覚モニタリング

Automated Visual Monitoring of Nocturnal Insects with Light-based Camera Traps ( http://arxiv.org/abs/2307.15433v1 )

ライセンス: Link先を確認
Dimitri Korsch, Paul Bodesheim, Gunnar Brehm, Joachim Denzler(参考訳) 昆虫の個体数推定のための自動カメラモニタリングは, 昆虫の個体数減少の理解と対策に不可欠である。 本稿では,中央ヨーロッパで撮影された,夜行性昆虫の2つのデータセット,特にヒメバチ亜科(lepidoptera)の亜種(moths)について述べる。 データセットの1つであるEU-Mothsデータセットは、市民科学者によって手動で取得され、200種の種アノテーションとそれらのための境界ボックスアノテーションを含んでいる。 このデータセットを用いて昆虫検出のための2段階のパイプラインの開発と評価を行った。 さらに,視覚自動監視システムのプロトタイプについても紹介する。 この試作機は95夜に撮影された27,000以上の画像からなる2番目のデータセットを作成した。 評価とブートストラップを目的として,夜間昆虫を囲む有界箱で画像のサブセットに注釈を付けた。 最後に、これらのデータセットの最初の検出と分類基準を示し、他の科学者にこの公開データの使用を奨励する。

Automatic camera-assisted monitoring of insects for abundance estimations is crucial to understand and counteract ongoing insect decline. In this paper, we present two datasets of nocturnal insects, especially moths as a subset of Lepidoptera, photographed in Central Europe. One of the datasets, the EU-Moths dataset, was captured manually by citizen scientists and contains species annotations for 200 different species and bounding box annotations for those. We used this dataset to develop and evaluate a two-stage pipeline for insect detection and moth species classification in previous work. We further introduce a prototype for an automated visual monitoring system. This prototype produced the second dataset consisting of more than 27,000 images captured on 95 nights. For evaluation and bootstrapping purposes, we annotated a subset of the images with bounding boxes enframing nocturnal insects. Finally, we present first detection and classification baselines for these datasets and encourage other scientists to use this publicly available data.
翻訳日:2023-07-31 13:04:12 公開日:2023-07-28
# cfn-esa:対話感情認識のための感情シフト型クロスモーダル融合ネットワーク

CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition ( http://arxiv.org/abs/2307.15432v1 )

ライセンス: Link先を確認
Jiang Li, Yingjian Liu, Xiaoping Wang, and Zhigang Zeng(参考訳) 会話におけるマルチモーダル感情認識(ERC)は,様々な分野の研究コミュニティから注目を集めている。 本稿では,感情移入認識(CFN-ESA)を用いたクロスモーダル融合ネットワークを提案する。 既存のアプローチでは、感情情報の量を区別することなく、各モダリティを等しく使い、多モーダルデータから相補的で連想的な情報を適切に抽出することは困難である。 この問題に対処するため、cfn-esaでは、テキストモーダルが感情情報の一次源として扱われ、視覚と音響モーダルが二次源として扱われる。 さらに、多くのマルチモーダルercモデルは、感情シフト情報を無視し、文脈情報に重きを置き、感情シフトシナリオにおける感情認識の失敗に繋がる。 この課題に対処するために、感情シフトモジュールを詳しく説明する。 CFN-ESAは主に、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)から構成される。 RUMEは、モダリティ間のデータ分布をまとめながら、会話レベルの文脈的感情的手がかりを抽出し、ACMEはテキストのモダリティを中心としたマルチモーダルインタラクション、LESMは感情変化をモデル化し、関連する情報をキャプチャするために、そして、メインタスクの学習を導く。 実験の結果,CFN-ESAはERCの性能を効果的に向上し,最先端モデルよりも優れていた。

Multimodal Emotion Recognition in Conversation (ERC) has garnered growing attention from research communities in various fields. In this paper, we propose a cross-modal fusion network with emotion-shift awareness (CFN-ESA) for ERC. Extant approaches employ each modality equally without distinguishing the amount of emotional information, rendering it hard to adequately extract complementary and associative information from multimodal data. To cope with this problem, in CFN-ESA, textual modalities are treated as the primary source of emotional information, while visual and acoustic modalities are taken as the secondary sources. Besides, most multimodal ERC models ignore emotion-shift information and overfocus on contextual information, leading to the failure of emotion recognition under emotion-shift scenario. We elaborate an emotion-shift module to address this challenge. CFN-ESA mainly consists of the unimodal encoder (RUME), cross-modal encoder (ACME), and emotion-shift module (LESM). RUME is applied to extract conversation-level contextual emotional cues while pulling together the data distributions between modalities; ACME is utilized to perform multimodal interaction centered on textual modality; LESM is used to model emotion shift and capture related information, thereby guide the learning of the main task. Experimental results demonstrate that CFN-ESA can effectively promote performance for ERC and remarkably outperform the state-of-the-art models.
翻訳日:2023-07-31 13:03:57 公開日:2023-07-28
# キャビティ強化三部体相互作用による真空変動と非古典状態

Unveiling Vacuum Fluctuations and Nonclassical States with Cavity-Enhanced Tripartite Interactions ( http://arxiv.org/abs/2307.15430v1 )

ライセンス: Link先を確認
Jing Tang and Yuangang Deng(参考訳) ライトマッター相互作用の強化と調整は、様々な科学分野における幅広い応用を伴う顕著な非線形資源を提供する。 本研究では, スピン光子・フォノン自由度内におけるキャビティエンハンスド非線形アンチストーク(ストークス)散乱を利用して, 強固で決定論的な三成分「beamsplitter」 (squeeze) 相互作用の構成について検討した。 高精細な光学キャビティ内の単一原子の閉じ込められた運動に伴うエキゾチックな動的および定常な性質について検討する。 特に、ハイゼンベルクの不確実性原理に固有の光子とフォノンの真空揺らぎを直接抽出し、自由パラメータを必要としないことを示した。 さらに,本手法では,高い平均光子(フォノン)占有率を持つ高品質な単一量子源の実現を可能にする。 非古典的量子エミッタの生成に関わる物理メカニズムは、減衰した単一量子の封鎖と長寿命の運動フォノンの利用によって引き起こされ、強い非線形性をもたらす。 この研究は、未発見の物理現象を研究する重要な機会を明らかにし、強い三部体相互作用に支配される基礎物理学に関する新しい視点を提供する。

Enhancing and tailoring light-matter interactions offer remarkable nonlinear resources with wide-ranging applications in various scientific disciplines. In this study, we investigate the construction of strong and deterministic tripartite `beamsplitter' (`squeeze') interactions by utilizing cavity-enhanced nonlinear anti-Stokes (Stokes) scattering within the spin-photon-phonon degrees of freedom. We explore the exotic dynamical and steady-state properties associated with the confined motion of a single atom within a high-finesse optical cavity. Notably, we demonstrate the direct extraction of vacuum fluctuations of photons and phonons, which are inherent in Heisenberg's uncertainty principle, without requiring any free parameters. Moreover, our approach enables the realization of high-quality single-quanta sources with large average photon (phonon) occupancies. The underlying physical mechanisms responsible for generating nonclassical quantum emitters are attributed to decay-enhanced single-quanta blockade and the utilization of long-lived motional phonons, resulting in strong nonlinearity. This work unveils significant opportunities for studying hitherto unexplored physical phenomena and provides novel perspectives on fundamental physics dominated by strong tripartite interactions.
翻訳日:2023-07-31 13:03:30 公開日:2023-07-28
# マルチタスク学習のためのギャップバランスの改善

Improvable Gap Balancing for Multi-Task Learning ( http://arxiv.org/abs/2307.15429v1 )

ライセンス: Link先を確認
Yanqi Dai, Nanyi Fei, Zhiwu Lu(参考訳) MTL(Multi-task Learning)では、近年、損失分散よりもグラデーションバランスが研究の関心を惹きつけている。 しかし、損失バランスは勾配バランスよりもはるかに効率的であり、MTLにおけるさらなる探索の価値がある。 従来の研究では、複数のタスクに様々な即興的なギャップが存在し、そこではタスクごとの即興的なギャップが現在のトレーニングの進捗と望ましい最終トレーニングの進捗の間の距離として定義される。 したがって、損失バランスの後も性能不均衡が発生することが多い。 本稿では、損失分散フレームワークに倣って、MTLのための2つの新しい即効性ギャップ分散(IGB)アルゴリズムを提案し、一方は単純なヒューリスティックを、もう一方は(初めて)MTLのための深層強化学習を展開させる。 特に、MTLの損失を直接バランスする代わりに、両アルゴリズムは即効性のギャップバランスのためにタスク重みを動的に割り当てる。 さらに,2種類のアルゴリズム間の相補性を示すために,igbと勾配バランスを組み合わせる。 2つのベンチマークデータセットに対する大規模な実験により、我々の IGB アルゴリズムは損失分散を通じて MTL の最良の結果をもたらし、勾配分散と組み合わせることでさらなる改善が達成されることを示した。 コードはhttps://github.com/YanqiDai/IGB4MTLで入手できる。

In multi-task learning (MTL), gradient balancing has recently attracted more research interest than loss balancing since it often leads to better performance. However, loss balancing is much more efficient than gradient balancing, and thus it is still worth further exploration in MTL. Note that prior studies typically ignore that there exist varying improvable gaps across multiple tasks, where the improvable gap per task is defined as the distance between the current training progress and desired final training progress. Therefore, after loss balancing, the performance imbalance still arises in many cases. In this paper, following the loss balancing framework, we propose two novel improvable gap balancing (IGB) algorithms for MTL: one takes a simple heuristic, and the other (for the first time) deploys deep reinforcement learning for MTL. Particularly, instead of directly balancing the losses in MTL, both algorithms choose to dynamically assign task weights for improvable gap balancing. Moreover, we combine IGB and gradient balancing to show the complementarity between the two types of algorithms. Extensive experiments on two benchmark datasets demonstrate that our IGB algorithms lead to the best results in MTL via loss balancing and achieve further improvements when combined with gradient balancing. Code is available at https://github.com/YanqiDai/IGB4MTL.
翻訳日:2023-07-31 13:03:11 公開日:2023-07-28
# 変化検出のための入射神経表現

Implicit neural representation for change detection ( http://arxiv.org/abs/2307.15428v1 )

ライセンス: Link先を確認
Peter Naylor, Diego Di Carlo, Arianna Traviglia, Makoto Yamada and Marco Fiorucci(参考訳) 同じ地理的領域で2つの異なる頻度で獲得された2つの3次元空中ライダーポイント雲で発生した変化の検出は、空間的サポートと取得システムのノイズの一致を欠いたため、難しい課題である。 ポイントクラウド上の変更を検出する最も最近の試みは、実世界のアプリケーションでは利用できない大きなラベル付きデータを必要とする教師付きメソッドに基づいている。 これらの問題に対処するために、連続的な形状再構成のためのニューラルフィールド(NF)と変化を分類するためのガウス混合モデルという2つのコンポーネントからなる教師なしアプローチを提案する。 NFは、2時間点雲を非整合空間サポートで符号化するグリッドに依存しない表現を提供する。 各タイムスタンプでの再構成は任意の空間スケールで比較され、検出能力が大幅に向上する。 本手法を都市スプロールのためのシミュレーションLiDAR点雲のベンチマークデータセットに適用する。 データセットは異なる解像度、入力モード、ノイズレベルを持つさまざまな課題シナリオを提供しており、この方法と現在の状態を比較することができる。 我々は、このデータセットの以前の手法を、ユニオンメトリック上の交叉率の10%のマージンで誇っている。 さらに,本手法を現実のシナリオに適用して,遺跡の不法な発掘(略奪)を識別し,現場専門家の知見と一致することを確認した。

Detecting changes that occurred in a pair of 3D airborne LiDAR point clouds, acquired at two different times over the same geographical area, is a challenging task because of unmatching spatial supports and acquisition system noise. Most recent attempts to detect changes on point clouds are based on supervised methods, which require large labelled data unavailable in real-world applications. To address these issues, we propose an unsupervised approach that comprises two components: Neural Field (NF) for continuous shape reconstruction and a Gaussian Mixture Model for categorising changes. NF offer a grid-agnostic representation to encode bi-temporal point clouds with unmatched spatial support that can be regularised to increase high-frequency details and reduce noise. The reconstructions at each timestamp are compared at arbitrary spatial scales, leading to a significant increase in detection capabilities. We apply our method to a benchmark dataset of simulated LiDAR point clouds for urban sprawling. The dataset offers different challenging scenarios with different resolutions, input modalities and noise levels, allowing a multi-scenario comparison of our method with the current state-of-the-art. We boast the previous methods on this dataset by a 10% margin in intersection over union metric. In addition, we apply our methods to a real-world scenario to identify illegal excavation (looting) of archaeological sites and confirm that they match findings from field experts.
翻訳日:2023-07-31 13:02:48 公開日:2023-07-28
# 視覚自動モニタリングのための深層学習パイプライン:昆虫の局在と種分類

Deep Learning Pipeline for Automated Visual Moth Monitoring: Insect Localization and Species Classification ( http://arxiv.org/abs/2307.15427v1 )

ライセンス: Link先を確認
Dimitri Korsch, Paul Bodesheim, Joachim Denzler(参考訳) 生物多様性モニタリングは、人口変動の悪さの追跡と対策に不可欠である。 しかし, 自動認識システムはほとんど適用されず, 専門家は手動で生成したデータ量を評価する。 特に、視覚監視のためのディープラーニング手法のサポートは、広告やエンターテイメントといった他の分野と比較して、生物多様性研究にはまだ確立されていない。 本稿では,AMMODプロジェクト内で開発されたマウスの自動視覚モニタリングシステムであるモーススキャナーによる画像解析のためのディープラーニングパイプラインを提案する。 まず, 個体をマス検出器で同定し, その後, 分類器を用いて検出された昆虫の種類を判定する。 この検出器は平均平均精度99.01%に達し、分類器は1匹の昆虫を描写した画像カットアウトの精度93.13%で200種を識別する。 両者をパイプラインに組み合わせることで、モーススキャナの画像中の種同定の精度が79.62%から88.05%に向上する。

Biodiversity monitoring is crucial for tracking and counteracting adverse trends in population fluctuations. However, automatic recognition systems are rarely applied so far, and experts evaluate the generated data masses manually. Especially the support of deep learning methods for visual monitoring is not yet established in biodiversity research, compared to other areas like advertising or entertainment. In this paper, we present a deep learning pipeline for analyzing images captured by a moth scanner, an automated visual monitoring system of moth species developed within the AMMOD project. We first localize individuals with a moth detector and afterward determine the species of detected insects with a classifier. Our detector achieves up to 99.01% mean average precision and our classifier distinguishes 200 moth species with an accuracy of 93.13% on image cutouts depicting single insects. Combining both in our pipeline improves the accuracy for species identification in images of the moth scanner from 79.62% to 88.05%.
翻訳日:2023-07-31 13:02:23 公開日:2023-07-28
# 量子状態ストロボスコピック安定化のためのフロッケ作用素工学

Floquet operator engineering for quantum state stroboscopic stabilization ( http://arxiv.org/abs/2307.15476v1 )

ライセンス: Link先を確認
Floriane Arrouas, Lucas Gabardos, Nicolas Ombredane, Etienne Dionis, Nathan Dupont, Juliette Billy, Bruno Peaudecerf, Dominique Sugny and David Gu\'ery Odelin(参考訳) 最適制御は量子シミュレーションにとって貴重なツールであり、量子状態の作成、操作、測定を最適化することができる。 時間依存制御パラメータの最適化により、ターゲット状態は特定の量子力学を初期化し、設計することができる。 本研究では,光格子中のボース・アインシュタイン凝縮体の量子状態の分光安定化につながるユニタリ進化の調整に焦点を当てた。 空間的・時間的対称性を持つ状態の場合、そのような進化は初期状態準備制御から導出することができるが、一般のターゲット状態では量子最適制御を用いて安定化フロッケ演算子を直接生成する。 数値最適化は, この安定化過程における量子速度限界の存在を強調し, 実験により格子内の幅広い量子状態の効率的な安定化を実証した。

Optimal control is a valuable tool for quantum simulation, allowing for the optimized preparation, manipulation, and measurement of quantum states. Through the optimization of a time-dependent control parameter, target states can be prepared to initialize or engineer specific quantum dynamics. In this work, we focus on the tailoring of a unitary evolution leading to the stroboscopic stabilization of quantum states of a Bose-Einstein condensate in an optical lattice. We show how, for states with space and time symmetries, such an evolution can be derived from the initial state-preparation controls; while for a general target state we make use of quantum optimal control to directly generate a stabilizing Floquet operator. Numerical optimizations highlight the existence of a quantum speed limit for this stabilization process, and our experimental results demonstrate the efficient stabilization of a broad range of quantum states in the lattice.
翻訳日:2023-07-31 12:54:04 公開日:2023-07-28
# feedbacklogs: ステークホルダのフィードバックをマシンラーニングパイプラインに記録および組み込む

FeedbackLogs: Recording and Incorporating Stakeholder Feedback into Machine Learning Pipelines ( http://arxiv.org/abs/2307.15475v1 )

ライセンス: Link先を確認
Matthew Barker, Emma Kallina, Dhananjay Ashok, Katherine M. Collins, Ashley Casovan, Adrian Weller, Ameet Talwalkar, Valerie Chen and Umang Bhatt(参考訳) 機械学習(ML)パイプラインは利害関係者の増加に影響を及ぼすが、利害関係者からのインプットが記録され、組み込まれているかはほとんどわかっていない。 我々は、複数の利害関係者の入力を追跡するために、既存のMLパイプラインのドキュメントへの追加であるFeedbackLogsを提案する。 各ログには、フィードバック収集プロセス、フィードバックそのもの、mlパイプラインの更新にフィードバックがどのように使用されるかに関する重要な詳細が記録されている。 本稿では,フィードバックログを収集するプロセスを紹介し,形式化する。 また、フィードバックログをアルゴリズムによる監査の証拠として、またステークホルダーのフィードバックに基づいて更新を記録するツールとして使用できる具体的なユースケースも提供します。

Even though machine learning (ML) pipelines affect an increasing array of stakeholders, there is little work on how input from stakeholders is recorded and incorporated. We propose FeedbackLogs, addenda to existing documentation of ML pipelines, to track the input of multiple stakeholders. Each log records important details about the feedback collection process, the feedback itself, and how the feedback is used to update the ML pipeline. In this paper, we introduce and formalise a process for collecting a FeedbackLog. We also provide concrete use cases where FeedbackLogs can be employed as evidence for algorithmic auditing and as a tool to record updates based on stakeholder feedback.
翻訳日:2023-07-31 12:53:51 公開日:2023-07-28
# LUCID-GAN:不公平を判断するための条件付き生成モデル

LUCID-GAN: Conditional Generative Models to Locate Unfairness ( http://arxiv.org/abs/2307.15466v1 )

ライセンス: Link先を確認
Andres Algaba, Carmen Mazijn, Carina Prunkl, Jan Danckaert, Vincent Ginis(参考訳) ほとんどの集団フェアネス概念は、モデルの出力に対する統計パリティ指標を計算して非倫理バイアスを検出する。 しかし、このアプローチには哲学的な不一致、相互の非互換性、解釈可能性の欠如などいくつかの欠点がある。 これらの欠点は、差別の源泉にさらなる透明性を提供する補完的バイアス検出方法の研究を刺激し、公正性の定義と保護された特徴の選択に関する事前決定に無知である。 この方向の最近の提案はlucid(正準逆設計による不公平さの特定)であり、入力空間上で勾配降下を行い、望ましい出力が与えられたモデルの所望の入力を明らかにすることで正準集合が生成される。 このモデル機構、すなわち特定の出力を得るために特徴値が不可欠であるこの情報は、内部論理における潜在的な非倫理的バイアスを露呈する。 本稿では,勾配に基づく逆設計の代わりに条件付き生成モデルを用いて標準入力を生成するLUCID-GANを提案する。 LUCID-GANは、非微分可能モデルに適用し、標準集合が現実的な入力から成り立つことを保証し、プロキシと交叉識別を評価することができるなど、いくつかの利点がある。 UCIアダルトデータセットとCompASデータセット上でLUCID-GANを実験的に評価し、トレーニングデータにアクセスすることなくブラックボックスモデルにおける非倫理的バイアスを検出することができることを示す。

Most group fairness notions detect unethical biases by computing statistical parity metrics on a model's output. However, this approach suffers from several shortcomings, such as philosophical disagreement, mutual incompatibility, and lack of interpretability. These shortcomings have spurred the research on complementary bias detection methods that offer additional transparency into the sources of discrimination and are agnostic towards an a priori decision on the definition of fairness and choice of protected features. A recent proposal in this direction is LUCID (Locating Unfairness through Canonical Inverse Design), where canonical sets are generated by performing gradient descent on the input space, revealing a model's desired input given a preferred output. This information about the model's mechanisms, i.e., which feature values are essential to obtain specific outputs, allows exposing potential unethical biases in its internal logic. Here, we present LUCID-GAN, which generates canonical inputs via a conditional generative model instead of gradient-based inverse design. LUCID-GAN has several benefits, including that it applies to non-differentiable models, ensures that canonical sets consist of realistic inputs, and allows to assess proxy and intersectional discrimination. We empirically evaluate LUCID-GAN on the UCI Adult and COMPAS data sets and show that it allows for detecting unethical biases in black-box models without requiring access to the training data.
翻訳日:2023-07-31 12:53:39 公開日:2023-07-28
# 潜在空間における補間と外挿によるぼかしのデフォーカス合成とデブラリング

Defocus Blur Synthesis and Deblurring via Interpolation and Extrapolation in Latent Space ( http://arxiv.org/abs/2307.15461v1 )

ライセンス: Link先を確認
Ioana Mazilu, Shunxin Wang, Sven Dummer, Raymond Veldhuis, Christoph Brune, and Nicola Strisciuglio(参考訳) 現代の顕微鏡には、最適な焦点を確保するためのオートフォーカスシステムがあるが、媒体内の細胞がすべて同じ焦点平面にない場合にも、アウト・オブ・フォーカス画像が生じる可能性がある。 画像のデブラリングとデフォーカスのぼかしの合成を行う方法を提案する。 我々は暗黙的かつ明示的な正規化手法でオートエンコーダを訓練し、潜在空間における異なるブラーレベルの表現間の線形性関係を強制する。 これにより、異なる焦点平面で撮影された画像の潜在表現を線形補間・補間することにより、物体の異なるぼやけレベルを探索することができる。 既存の作品と比較すると,リニア潜在空間を活用し,フレキシブルなぼかしレベルを持つ画像合成にシンプルなアーキテクチャを用いる。 我々の正規化オートエンコーダは、ブラーとデブロを効果的に模倣し、データ拡張技術としてデータの多様性を高め、顕微鏡画像の品質を改善し、さらなる処理と解析に有用である。

Though modern microscopes have an autofocusing system to ensure optimal focus, out-of-focus images can still occur when cells within the medium are not all in the same focal plane, affecting the image quality for medical diagnosis and analysis of diseases. We propose a method that can deblur images as well as synthesize defocus blur. We train autoencoders with implicit and explicit regularization techniques to enforce linearity relations among the representations of different blur levels in the latent space. This allows for the exploration of different blur levels of an object by linearly interpolating/extrapolating the latent representations of images taken at different focal planes. Compared to existing works, we use a simple architecture to synthesize images with flexible blur levels, leveraging the linear latent space. Our regularized autoencoders can effectively mimic blur and deblur, increasing data variety as a data augmentation technique and improving the quality of microscopic images, which would be beneficial for further processing and analysis.
翻訳日:2023-07-31 12:53:13 公開日:2023-07-28
# 視覚言語モデルのクロスモーダル概念学習と推論

Cross-Modal Concept Learning and Inference for Vision-Language Models ( http://arxiv.org/abs/2307.15460v1 )

ライセンス: Link先を確認
Yi Zhang, Ce Zhang, Yushun Tang, Zhihai He(参考訳) クリップなどの大規模事前学習された視覚言語モデル(vlms)は、テキストと画像の相関関係を確立し、微調整によって下流の様々なタスクで顕著な成功を収める。 既存の微調整メソッドでは、クラス固有のテキスト記述が画像全体にマッチする。 同一クラスの画像は、しばしば異なるセマンティックオブジェクトのセットを含み、オブジェクトはさらにセマンティックな部分や概念のセットで構成されているため、この全体マッチングは効果がないと認識する。 個々の意味部分や概念は、異なるクラスの画像サンプルに現れる。 この問題に対処するため,本稿では,クロスモデル概念学習・推論(ccli)と呼ばれる新しい手法を開発した。 提案手法は,CLIPの強力なテキスト画像相関機能を用いて,画像から特徴的視覚概念の集合を,意味的テキスト概念の集合を用いて自動的に学習する。 これらの視覚概念に基づき、画像の識別表現を構築し、概念推論ネットワークを学習し、少数ショット学習やドメイン一般化といった下流画像分類タスクを実行する。 広範な実験結果から,ccli法は,例えば,小数点学習における最大8.0%の改善や,最大1.3%のドメイン一般化によって,現在の最先端手法の性能を向上させることができることが示された。

Large-scale pre-trained Vision-Language Models (VLMs), such as CLIP, establish the correlation between texts and images, achieving remarkable success on various downstream tasks with fine-tuning. In existing fine-tuning methods, the class-specific text description is matched against the whole image. We recognize that this whole image matching is not effective since images from the same class often contain a set of different semantic objects, and an object further consists of a set of semantic parts or concepts. Individual semantic parts or concepts may appear in image samples from different classes. To address this issue, in this paper, we develop a new method called cross-model concept learning and inference (CCLI). Using the powerful text-image correlation capability of CLIP, our method automatically learns a large set of distinctive visual concepts from images using a set of semantic text concepts. Based on these visual concepts, we construct a discriminative representation of images and learn a concept inference network to perform downstream image classification tasks, such as few-shot learning and domain generalization. Extensive experimental results demonstrate that our CCLI method is able to improve the performance upon the current state-of-the-art methods by large margins, for example, by up to 8.0% improvement on few-shot learning and by up to 1.3% for domain generalization.
翻訳日:2023-07-31 12:52:54 公開日:2023-07-28
# ニューラルネットワーク制御系のWorrisome特性とその記号表現

Worrisome Properties of Neural Network Controllers and Their Symbolic Representations ( http://arxiv.org/abs/2307.15456v1 )

ライセンス: Link先を確認
Jacek Cyranka and Kevin E M Church and Jean-Philippe Lessard(参考訳) 単純な強化学習ベンチマーク問題におけるコントローラの堅牢性に関する懸念を提起する。 ニューラルネットワークコントローラとその低ニューロンおよびシンボル抽象化に焦点を当てる。 高平均戻り値に到達した典型的なコントローラは、敵に容易に悪用できる非常に望ましくない性質である、持続的な低リターン解を大量に生成する。 単純なコントローラはより永続的な悪い解決策を認める。 系統的ロバストネス研究のためのアルゴリズムを提供し,永続解の存在を証明し,場合によっては,コンピュータ支援の証明手法を用いて周期軌道を求める。

We raise concerns about controllers' robustness in simple reinforcement learning benchmark problems. We focus on neural network controllers and their low neuron and symbolic abstractions. A typical controller reaching high mean return values still generates an abundance of persistent low-return solutions, which is a highly undesirable property, easily exploitable by an adversary. We find that the simpler controllers admit more persistent bad solutions. We provide an algorithm for a systematic robustness study and prove existence of persistent solutions and, in some cases, periodic orbits, using a computer-assisted proof methodology.
翻訳日:2023-07-31 12:52:32 公開日:2023-07-28
# Trie-NLG: パーソナライズされたクエリ自動補完を改善するためのコンテキスト拡張の試み

Trie-NLG: Trie Context Augmentation to Improve Personalized Query Auto-Completion for Short and Unseen Prefixes ( http://arxiv.org/abs/2307.15455v1 )

ライセンス: Link先を確認
Kaushal Kumar Maurya, Maunendra Sankar Desarkar, Manish Gupta, Puneet Agrawal(参考訳) query auto-completion (qac) は、与えられたクエリプレフィックスの適切な補完を提案することを目的としている。 伝統的に、QACシステムは、最も一般的な完了を示唆するために、過去のクエリログからキュレートされた試みを活用している。 この文脈では、どんなQACシステムでも扱うのが難しい2つの特定のシナリオがある:短いプレフィックス(本質的に曖昧である)と見えないプレフィックス。 近年,この2つの課題に対処するためのコンテキストとして,これまでのセッションクエリを活用するために,パーソナライズド自然言語生成(nlg)モデルが提案されている。 しかしながら,(1) 従来のセッションクエリのいくつかは,現在のプレフィックスに対するユーザの意図とは無関係であり,(2) NLGモデルは過去のクエリの人気を直接組み込むことはできない。 これにより、従来のセッションクエリからの人気信号とパーソナライズ信号とを併用した、QACのための新しいNLGモデルであるTrie-NLGを提案する。 我々は最近のセッションクエリとトップトライ補完からなるリッチコンテキストでプレフィックスを拡張することで、Trie-NLGモデルを訓練する。 この単純なモデリングアプローチは、トリエベースおよびNLGベースのアプローチの限界を克服し、最先端のパフォーマンスをもたらす。 2つの大きなQACデータセットを用いてTrie-NLGモデルを評価する。 提案モデルでは, 平均57%, 約14%のMRRが, 人気トレーベース・ルックアップおよびBARTベース・ベースライン法よりも大きく向上した。 コードを公開しています。

Query auto-completion (QAC) aims at suggesting plausible completions for a given query prefix. Traditionally, QAC systems have leveraged tries curated from historical query logs to suggest most popular completions. In this context, there are two specific scenarios that are difficult to handle for any QAC system: short prefixes (which are inherently ambiguous) and unseen prefixes. Recently, personalized Natural Language Generation (NLG) models have been proposed to leverage previous session queries as context for addressing these two challenges. However, such NLG models suffer from two drawbacks: (1) some of the previous session queries could be noisy and irrelevant to the user intent for the current prefix, and (2) NLG models cannot directly incorporate historical query popularity. This motivates us to propose a novel NLG model for QAC, Trie-NLG, which jointly leverages popularity signals from trie and personalization signals from previous session queries. We train the Trie-NLG model by augmenting the prefix with rich context comprising of recent session queries and top trie completions. This simple modeling approach overcomes the limitations of trie-based and NLG-based approaches and leads to state-of-the-art performance. We evaluate the Trie-NLG model using two large QAC datasets. On average, our model achieves huge ~57% and ~14% boost in MRR over the popular trie-based lookup and the strong BART-based baseline methods, respectively. We make our code publicly available.
翻訳日:2023-07-31 12:52:23 公開日:2023-07-28
# 確率的プログラミングから複雑性に基づくプログラミングへ

From Probabilistic Programming to Complexity-based Programming ( http://arxiv.org/abs/2307.15453v1 )

ライセンス: Link先を確認
Giovanni Sileno, Jean-Louis Dessalles(参考訳) 本稿では,CompLogという新しい計算フレームワークの主な特徴と実装について述べる。 ProbLogのような確率的プログラミングシステムにインスパイアされたCompLogは、Simplicity Theoryによって提案された推論メカニズムに基づいて、確率的推論ではなく2つのコルモゴロフ複雑性(以下、ASPプログラムを介してミニパスサーチとして実装されている)の計算に依存する。 提案システムでは,ある状況の予期せぬ確率を,後部および前部の主観的確率にそれぞれマッピングして,元ポストと前アンティーを計算できる。 この計算は、複雑性によって重み付けられた述語間の因果関係と記述関係による世界モデルとメンタルモデルの仕様に基づいている。 関連した記述を生成し、切断と否定に対する別のアプローチを提供する。

The paper presents the main characteristics and a preliminary implementation of a novel computational framework named CompLog. Inspired by probabilistic programming systems like ProbLog, CompLog builds upon the inferential mechanisms proposed by Simplicity Theory, relying on the computation of two Kolmogorov complexities (here implemented as min-path searches via ASP programs) rather than probabilistic inference. The proposed system enables users to compute ex-post and ex-ante measures of unexpectedness of a certain situation, mapping respectively to posterior and prior subjective probabilities. The computation is based on the specification of world and mental models by means of causal and descriptive relations between predicates weighted by complexity. The paper illustrates a few examples of application: generating relevant descriptions, and providing alternative approaches to disjunction and to negation.
翻訳日:2023-07-31 12:51:54 公開日:2023-07-28
# OECDからインドへ:AIと人間の専門家の信頼、責任、信頼の相互文化的相違を探る

From OECD to India: Exploring cross-cultural differences in perceived trust, responsibility and reliance of AI and human experts ( http://arxiv.org/abs/2307.15452v1 )

ライセンス: Link先を確認
Vishakha Agrawal, Serhiy Kandul, Markus Kneer, Markus Christen(参考訳) AIは、以前は人間に割り当てられていたタスクに、より深く関与している。 これらの領域におけるAIの認識と社会的受容性に関する研究の大部分は、主に西洋世界に限られている。 本研究では,OECDとインドにおけるAIと人間専門家の信頼度,責任感,信頼度を比較した。 OECDの参加者は、人間はAIよりも能力が低いが道徳的に信頼でき、責任があると考えている。 対照的に、インドの参加者はAIよりも人間を信頼しているが、どちらのタイプの専門家にも平等な責任を負う。 本稿では,アルゴリズム倫理と人間とコンピュータの相互作用の相違点について論じる。

AI is getting more involved in tasks formerly exclusively assigned to humans. Most of research on perceptions and social acceptability of AI in these areas is mainly restricted to the Western world. In this study, we compare trust, perceived responsibility, and reliance of AI and human experts across OECD and Indian sample. We find that OECD participants consider humans to be less capable but more morally trustworthy and more responsible than AI. In contrast, Indian participants trust humans more than AI but assign equal responsibility for both types of experts. We discuss implications of the observed differences for algorithmic ethics and human-computer interaction.
翻訳日:2023-07-31 12:51:37 公開日:2023-07-28
# DELPHIC:可能性による実用的なDEL計画(拡張版)

DELPHIC: Practical DEL Planning via Possibilities (Extended Version) ( http://arxiv.org/abs/2307.15451v1 )

ライセンス: Link先を確認
Alessandro Burigana, Paolo Felli and Marco Montali(参考訳) 動的てんかん論理(Dynamic Epistemic Logic, DEL)は、非決定論的行動、部分的観察可能性、高次知識、事実的および認識的変化を表現できるてんかん計画のための枠組みを提供する。 delの高表現性は、フレームワーク全体の制限された断片のみを処理できる既存の認識型プランナーに挑戦する。 本研究の目的は,DEL が提供する機能の全範囲に対応することを目的とした,実践的な DEL 計画の展開を推し進めることである。 この目標に向けて、Kripkeモデルで定義されたDELの伝統的な意味論を疑問視する。 特に, 主構成要素として定義される, いわゆる可能性: 世界の事実的性質と, エージェントが考えられるものの両方を表現する, well-ground objects という, 等価な意味論を提案する。 このフレームワークをDELPHICと呼ぶ。 DELPHICは確かに、よりコンパクトなてんかん状態の表現を提供する。 この主張を裏付けるために、ASPで両方のアプローチを実装し、DELPHICと従来のKripkeベースのアプローチを比較する実験的な評価を設定した。 DELPHICは時間と空間において従来の手法よりも優れていた。

Dynamic Epistemic Logic (DEL) provides a framework for epistemic planning that is capable of representing non-deterministic actions, partial observability, higher-order knowledge and both factual and epistemic change. The high expressivity of DEL challenges existing epistemic planners, which typically can handle only restricted fragments of the whole framework. The goal of this work is to push the envelop of practical DEL planning, ultimately aiming for epistemic planners to be able to deal with the full range of features offered by DEL. Towards this goal, we question the traditional semantics of DEL, defined in terms on Kripke models. In particular, we propose an equivalent semantics defined using, as main building block, so-called possibilities: non well-founded objects representing both factual properties of the world, and what agents consider to be possible. We call the resulting framework DELPHIC. We argue that DELPHIC indeed provides a more compact representation of epistemic states. To substantiate this claim, we implement both approaches in ASP and we set up an experimental evaluation to compare DELPHIC with the traditional, Kripke-based approach. The evaluation confirms that DELPHIC outperforms the traditional approach in space and time.
翻訳日:2023-07-31 12:51:28 公開日:2023-07-28
# 連続時間定式化から離散化スキーム:BSDEと放物型PDEのテンソルトレインとロバスト回帰

From continuous-time formulations to discretization schemes: tensor trains and robust regression for BSDEs and parabolic PDEs ( http://arxiv.org/abs/2307.15496v1 )

ライセンス: Link先を確認
Lorenz Richter, Leon Sallandt, Nikolas N\"usken(参考訳) 偏微分方程式(PDE)の数値近似は、古典的格子法がいわゆる次元性の呪いに苦しむため、高次元において重大な問題を引き起こす。 近年の試みは、関数近似にニューラルネットワークを用いるモンテカルロ法と変分定式化の組み合わせに依存している。 先行研究(richter et al., 2021)を拡張して、テンソルトレインは放物型pdesの魅力ある枠組みを提供していると論じている: 逆確率微分方程式と回帰型手法による再構成の組み合わせは、潜在低ランク構造の活用を約束し、圧縮と効率的な計算を可能にしている。 連続時間視点を重視し,計算効率とロバスト性の観点から異なる反復スキームを開発した。 本手法が精度と計算効率のトレードオフを良好に達成できることを理論的および数値的に実証する。 従来の手法は正確か高速かのどちらかであったが,これら2つの側面を組み合わせることが可能な,新しい数値戦略を見出した。

The numerical approximation of partial differential equations (PDEs) poses formidable challenges in high dimensions since classical grid-based methods suffer from the so-called curse of dimensionality. Recent attempts rely on a combination of Monte Carlo methods and variational formulations, using neural networks for function approximation. Extending previous work (Richter et al., 2021), we argue that tensor trains provide an appealing framework for parabolic PDEs: The combination of reformulations in terms of backward stochastic differential equations and regression-type methods holds the promise of leveraging latent low-rank structures, enabling both compression and efficient computation. Emphasizing a continuous-time viewpoint, we develop iterative schemes, which differ in terms of computational efficiency and robustness. We demonstrate both theoretically and numerically that our methods can achieve a favorable trade-off between accuracy and computational efficiency. While previous methods have been either accurate or fast, we have identified a novel numerical strategy that can often combine both of these aspects.
翻訳日:2023-07-31 12:45:30 公開日:2023-07-28
# 雑音乱数行列モデルに対するクリロフ複雑性とスペクトル形状因子

Krylov Complexity and Spectral Form Factor for Noisy Random Matrix Models ( http://arxiv.org/abs/2307.15495v1 )

ライセンス: Link先を確認
Arpan Bhattacharyya, S. Shajidul Haque, Ghadir Jafari, Jeff Murugan, Dimakatso Rapotu(参考訳) 擬似ポテンシャルを持つ非ガウス RMT とガウス雑音を持つ RMT の2種類のランダム行列モデルのスペクトル特性について検討した。 我々は、量子クリロフの複雑性と、これらの両方のモデルのスペクトル形式因子を計算および解析する。 両モデルともデコヒーレンス効果により短時間でスペクトル形成因子の抑制効果を示すが,長期間の挙動が異なることが判明した。 特に、非ガウス RMT と RMT のノイズを伴うクリロフ複雑性がガウス RMT のノイズから逸脱することを示し、この偏差を物理的に解釈する。 オープン量子システムにおける量子カオスと量子情報に対する結果の意味と限界について議論する。 本研究は,スペクトル形状因子と非ガウス性および雑音に対する複雑性の異なる感性を示し,異なる時間領域における観察された違いに寄与する。

We study the spectral properties of two classes of random matrix models: non-Gaussian RMT with quartic and sextic potentials, and RMT with Gaussian noise. We compute and analyze the quantum Krylov complexity and the spectral form factor for both of these models. We find that both models show suppression of the spectral form factor at short times due to decoherence effects, but they differ in their long-time behavior. In particular, we show that the Krylov complexity for the non-Gaussian RMT and RMT with noise deviates from that of a Gaussian RMT, and provide a physical interpretation of this deviation. We discuss the implications and limitations of our results for quantum chaos and quantum information in open quantum systems. Our study reveals the distinct sensitivities of the spectral form factor and complexity to non-Gaussianity and noise, which contribute to the observed differences in the different time domains.
翻訳日:2023-07-31 12:45:09 公開日:2023-07-28
# ether: 先見性リプレイのための創発的コミュニケーションの調整

ETHER: Aligning Emergent Communication for Hindsight Experience Replay ( http://arxiv.org/abs/2307.15494v1 )

ライセンス: Link先を確認
Kevin Denamgana\"i, Daniel Hernandez, Ozan Vardal, Sondess Missaoui, James Alfred Walker(参考訳) 自然言語による指示は、人工エージェントと人間との協調を可能にするために最重要である。 自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。 Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。 しかし、彼女のように、higherはoracleの述語関数に依存し、どの言語記述がどの状態に対して有効であるかを示すフィードバック信号を提供する。 このoracleへの依存はアプリケーションを制限する。 さらに、HIGhERはRL軌道に含まれる言語情報のみを活用し、最終的な性能とデータ効率を損なう。 初期の軌道が成功しなかったため、HIGhERはDQNに勝っている。 本稿では,より高次に構築され,両者の限界に対処できる創発的後見体験リプレイ(ether)エージェントを提案する。 i)エマージェント・コミュニケーション(EC)のサブフィールドで一般的に研究されている識別的視覚的参照ゲームであって、非監督的補助業務として用いられるもの (ii)命令追従ベンチマークの自然言語と創発言語を整合させるための意味的接地方式。 本研究では,参照ゲームのエージェントが,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語を出現させるとともに,RLの軌道の失敗を記述できるほど表現力があり,RLエージェントにフィードバックを与えて,すべての軌道に含まれる言語的,構造化された情報を活用することを示す。 我々の研究は、ECがRLの有効な教師なし補助タスクであり、HERをより広く適用するための欠片を提供することを示している。

Natural language instruction following is paramount to enable collaboration between artificial agents and human beings. Natural language-conditioned reinforcement learning (RL) agents have shown how natural languages' properties, such as compositionality, can provide a strong inductive bias to learn complex policies. Previous architectures like HIGhER combine the benefit of language-conditioning with Hindsight Experience Replay (HER) to deal with sparse rewards environments. Yet, like HER, HIGhER relies on an oracle predicate function to provide a feedback signal highlighting which linguistic description is valid for which state. This reliance on an oracle limits its application. Additionally, HIGhER only leverages the linguistic information contained in successful RL trajectories, thus hurting its final performance and data-efficiency. Without early successful trajectories, HIGhER is no better than DQN upon which it is built. In this paper, we propose the Emergent Textual Hindsight Experience Replay (ETHER) agent, which builds on HIGhER and addresses both of its limitations by means of (i) a discriminative visual referential game, commonly studied in the subfield of Emergent Communication (EC), used here as an unsupervised auxiliary task and (ii) a semantic grounding scheme to align the emergent language with the natural language of the instruction-following benchmark. We show that the referential game's agents make an artificial language emerge that is aligned with the natural-like language used to describe goals in the BabyAI benchmark and that it is expressive enough so as to also describe unsuccessful RL trajectories and thus provide feedback to the RL agent to leverage the linguistic, structured information contained in all trajectories. Our work shows that EC is a viable unsupervised auxiliary task for RL and provides missing pieces to make HER more widely applicable.
翻訳日:2023-07-31 12:44:53 公開日:2023-07-28
# タイミングボトルネック:対話型ユーザインタフェース、音声認識、対話システムにおいてタイミングと重複がミッションクリティカルな理由

The timing bottleneck: Why timing and overlap are mission-critical for conversational user interfaces, speech recognition and dialogue systems ( http://arxiv.org/abs/2307.15493v1 )

ライセンス: Link先を確認
Andreas Liesenfeld, Alianda Lopez, Mark Dingemanse(参考訳) 音声認識システムは、音声駆動型人間とコンピュータの相互作用において重要な中間体である。 音声認識は単調なモノロジーオーディオには有効だが、オープンエンドの対話環境における実生活のユースケースには多くの課題がある。 我々は、対話システムにとってタイミングはミッションクリティカルであり、対話型および多言語対応のための主要なASRシステム5つを評価する。 6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である(研究1)。 これは特に会話言葉の認識に影響を及ぼし(研究2)、ダウンストリーム意図認識に恐ろしい結果をもたらす(研究3)。 本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。

Speech recognition systems are a key intermediary in voice-driven human-computer interaction. Although speech recognition works well for pristine monologic audio, real-life use cases in open-ended interactive settings still present many challenges. We argue that timing is mission-critical for dialogue systems, and evaluate 5 major commercial ASR systems for their conversational and multilingual support. We find that word error rates for natural conversational data in 6 languages remain abysmal, and that overlap remains a key challenge (study 1). This impacts especially the recognition of conversational words (study 2), and in turn has dire consequences for downstream intent recognition (study 3). Our findings help to evaluate the current state of conversational ASR, contribute towards multidimensional error analysis and evaluation, and identify phenomena that need most attention on the way to build robust interactive speech technologies.
翻訳日:2023-07-31 12:44:19 公開日:2023-07-28
# 量子スケーリング原子超ヘテロダイン受信機

Quantum scaling atomic superheterodyne receiver ( http://arxiv.org/abs/2307.15492v1 )

ライセンス: Link先を確認
Peng Zhang, Mingyong Jing, Zheng Wang, Yan Peng, Shaoxin Yuan, Hao Zhang, Liantuan Xiao, Suotang Jia, Linjie Zhang(参考訳) 測定感度は、Rydberg原子ラジオ受信機にとって重要な指標の1つである。 この研究は、原子超ヘテロダイン受信機の感度と測定にかかわる原子数との関係を定量的に研究している。 相互作用領域の長さを調整して原子番号を変更する。 その結果、理想的な場合、原子超ヘテロダイン受信機の感度は量子スケーリングを示し、出力信号の振幅は原子数に比例し、読み出し雑音の振幅は原子数の平方根に比例することを示した。 したがって、その感度は原子番号の平方根に逆比例する。 この研究は、原子受信機におけるトランジットノイズの特性と、感度スケーリングに対するいくつかの非理想的要因の影響についても詳細に議論する。 この研究は原子ベースの量子精度測定の分野で重要である。

Measurement sensitivity is one of the critical indicators for Rydberg atomic radio receivers. This work quantitatively studies the relationship between the atomic superheterodyne receiver's sensitivity and the number of atoms involved in the measurement. The atom number is changed by adjusting the length of the interaction area. The results show that for the ideal case, the sensitivity of the atomic superheterodyne receiver exhibits a quantum scaling: the amplitude of its output signal is proportional to the atom number, and the amplitude of its read-out noise is proportional to the square root of the atom number. Hence, its sensitivity is inversely proportional to the square root of the atom number. This work also gives a detailed discussion of the properties of transit noise in atomic receivers and the influence of some non-ideal factors on sensitivity scaling. This work is significant in the field of atom-based quantum precision measurements.
翻訳日:2023-07-31 12:44:02 公開日:2023-07-28
# 疫学計画における決定可能性に関する意味論的アプローチ(拡張版)

A Semantic Approach to Decidability in Epistemic Planning (Extended Version) ( http://arxiv.org/abs/2307.15485v1 )

ライセンス: Link先を確認
Alessandro Burigana, Paolo Felli, Marco Montali and Nicolas Troquard(参考訳) マルチエージェント計画における動的疫学論理(DEL)の使用は、非決定論、部分観測可能性、任意の知識のネストを扱える行動形式主義を広く採用するに至った。 このような表現力は決定不能なコストで現れるため、いくつかの決定可能な断片が分離され、主に行動形式主義の構文的制約に基づいている。 本稿では,決定可能性を実現するための新しいセマンティックアプローチを提案する。 すなわち、構文的制約を課すのではなく、セマンティックアプローチは、エピステミック計画のための論理の公理に焦点を当てる。 具体的には、知識の論理S5$_n$と(知識)可換性(knowledge commutativity)と呼ばれる相互作用公理を拡張し、エージェントが他のエージェントの知識に基づいて無制限に推論する能力を制御する。 それから3倍の貢献をしました。 まず,結果として生じる認識計画問題は決定可能であることを示す。 そうすることで、我々のフレームワークが共通の知識の有限の非固定点を特徴付けることを証明します。 第二に、より表現力のある DEL 断片に対する決定可能性を求めるために、可換性公理の異なる一般化について研究する。 最後に,行動テンプレートに基づく2つのよく知られたてんかん計画系が,知識の設定の下で解釈された場合,可換性公理に従って決定可能性を示す。

The use of Dynamic Epistemic Logic (DEL) in multi-agent planning has led to a widely adopted action formalism that can handle nondeterminism, partial observability and arbitrary knowledge nesting. As such expressive power comes at the cost of undecidability, several decidable fragments have been isolated, mainly based on syntactic restrictions of the action formalism. In this paper, we pursue a novel semantic approach to achieve decidability. Namely, rather than imposing syntactical constraints, the semantic approach focuses on the axioms of the logic for epistemic planning. Specifically, we augment the logic of knowledge S5$_n$ and with an interaction axiom called (knowledge) commutativity, which controls the ability of agents to unboundedly reason on the knowledge of other agents. We then provide a threefold contribution. First, we show that the resulting epistemic planning problem is decidable. In doing so, we prove that our framework admits a finitary non-fixpoint characterization of common knowledge, which is of independent interest. Second, we study different generalizations of the commutativity axiom, with the goal of obtaining decidability for more expressive fragments of DEL. Finally, we show that two well-known epistemic planning systems based on action templates, when interpreted under the setting of knowledge, conform to the commutativity axiom, hence proving their decidability.
翻訳日:2023-07-31 12:43:50 公開日:2023-07-28
# 条件拡散モデルと言語モデルを用いた最小教師付き音声合成:意味的符号化の比較

Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding ( http://arxiv.org/abs/2307.15484v1 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Hao Ni, He Qu, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang(参考訳) 近年,2種類の離散音声表現と2つのシーケンシャル・ツー・シーケンス・タスクを用いてTSを分離することにより,最小限の監督で訓練できるTTS(text-to-Speech)手法への関心が高まっている。 離散表現における高次元と波形歪みに関連する課題に対処するために,拡散モデルに基づくメル・スペクトログラムへの意味埋め込みをモデル化し,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入するdiff-lm-speechを提案する。 自己回帰型言語モデルは、しばしば単語の欠落と繰り返しに苦しむが、非自己回帰型フレームワークは、持続時間予測モデルによる表現平均問題に直面している。 そこで本稿では,様々な韻律表現を実現するために,持続時間拡散モデルを設計するtetra-diff-speechを提案する。 セマンティックコーディングの情報内容はテキストと音響符号化の間にあると期待するが、既存のモデルは多くの冗長な情報と次元の爆発でセマンティックコーディングを抽出する。 セマンティックコーディングが不要であることを示すために,Tri-Diff-Speechを提案する。 実験の結果,提案手法はベースライン法よりも優れていた。 オーディオサンプルをWebサイトに提供する。

Recently, there has been a growing interest in text-to-speech (TTS) methods that can be trained with minimal supervision by combining two types of discrete speech representations and using two sequence-to-sequence tasks to decouple TTS. To address the challenges associated with high dimensionality and waveform distortion in discrete representations, we propose Diff-LM-Speech, which models semantic embeddings into mel-spectrogram based on diffusion models and introduces a prompt encoder structure based on variational autoencoders and prosody bottlenecks to improve prompt representation capabilities. Autoregressive language models often suffer from missing and repeated words, while non-autoregressive frameworks face expression averaging problems due to duration prediction models. To address these issues, we propose Tetra-Diff-Speech, which designs a duration diffusion model to achieve diverse prosodic expressions. While we expect the information content of semantic coding to be between that of text and acoustic coding, existing models extract semantic coding with a lot of redundant information and dimensionality explosion. To verify that semantic coding is not necessary, we propose Tri-Diff-Speech. Experimental results show that our proposed methods outperform baseline methods. We provide a website with audio samples.
翻訳日:2023-07-31 12:43:26 公開日:2023-07-28
# Gaborフィルタを用いた非侵襲糖尿病検出:異なるカメラの比較分析

Non-invasive Diabetes Detection using Gabor Filter: A Comparative Analysis of Different Cameras ( http://arxiv.org/abs/2307.15480v1 )

ライセンス: Link先を確認
Christina A. Garcia, Patricia Angela R. Abu, Rosula SJ. Reyes(参考訳) 本稿では,顔ブロックテクスチャ特徴を用いた糖尿病(dm)の非侵襲的検出のための画像撮影のための便利なツールとして,モバイルデバイスカメラとラップトップカメラの性能を比較し,検討する。 20~79歳の年齢層内の参加者がデータセットに選ばれた。 12mpと7mpのモバイルカメラと、通常の照明下での撮影にはラップトップカメラが使用された。 抽出した顔ブロックはk-Nearest Neighbors (k-NN) と Support Vector Machine (SVM) を用いて分類した。 100枚の画像をキャプチャし、前処理し、Gaborを使ってフィルタリングし、反復処理した。 システムの性能は,精度,特異度,感度で測定した。 最高の96.7%の精度、100%感度、93%の特異性をsvmと100画像を用いて12メガピクセルのバックカメラで達成した。

This paper compares and explores the performance of both mobile device camera and laptop camera as convenient tool for capturing images for non-invasive detection of Diabetes Mellitus (DM) using facial block texture features. Participants within age bracket 20 to 79 years old were chosen for the dataset. 12mp and 7mp mobile cameras, and a laptop camera were used to take the photo under normal lighting condition. Extracted facial blocks were classified using k-Nearest Neighbors (k-NN) and Support Vector Machine (SVM). 100 images were captured, preprocessed, filtered using Gabor, and iterated. Performance of the system was measured in terms of accuracy, specificity, and sensitivity. Best performance of 96.7% accuracy, 100% sensitivity, and 93% specificity were achieved from 12mp back camera using SVM with 100 images.
翻訳日:2023-07-31 12:43:02 公開日:2023-07-28
# 一次元有限サイズイジングモデルにおける熱遷移

Thermal transitions in a one-dimensional, finite-size Ising model ( http://arxiv.org/abs/2307.15479v1 )

ライセンス: Link先を確認
Varazdat Stepanyan, Andreas F. Tzortzakakis, David Petrosyan and Armen E. Allahverdyan(参考訳) 有限個のスピンと周期境界を持つ一次元強磁性イジングスピン鎖を再検討し、解析的に導出し、異なる温度で様々な定常および動的特性を数値的に検証する。 特に, 磁化の確率分布, 磁壁数, 鎖長と磁場の差による居住時間を決定する。 有限系を熱平衡で研究しながら、一階相転移に類似したいくつかの臨界温度を同定する。 臨界温度$T_{cr}^{(1)}$では強磁性状態が準安定状態として現れ、$T_{cr}^{(2)}\leq T_{cr}^{(1)}$では常磁性状態と同じ確率を得る。 これら2つの臨界温度はスピンを分極する十分に強い磁場のために融合する。 また、強磁性状態が滞留時間よりも長く、従って常磁性状態よりも動的に安定な動的臨界温度 $t_{cr}^{(\mathrm{d})}> t_{cr}^{(1)}$ を同定する。 非自明な中間平衡状態を持つ生体高分子の構造遷移に応用することで,本研究の有用性を概説する。

We revisit the one-dimensional ferromagnetic Ising spin-chain with a finite number of spins and periodic boundaries and derive analytically and verify numerically its various stationary and dynamical properties at different temperatures. In particular, we determine the probability distributions of magnetization, the number of domain walls, and the corresponding residence times for different chain lengths and magnetic fields. While we study finite systems at thermal equilibrium, we identify several critical temperatures similar to those for first-order phase transitions. At critical temperature $T_{cr}^{(1)}$ the ferromagnetic state emerges as a metastable state, while at $T_{cr}^{(2)}\leq T_{cr}^{(1)}$ it acquires the same probability as the paramagnetic state. These two critical temperature merge for sufficiently strong magnetic field that polarizes the spins. We also identify a dynamical critical temperature $T_{cr}^{(\mathrm{d})}> T_{cr}^{(1)}$ below which the ferromagnetic state has longer residence time, and thus is dynamically more stable, than the paramagnetic state. We illustrate the utility of our results by their application to structural transitions in biopolymers having non-trivial intermediate equilibrium states.
翻訳日:2023-07-31 12:42:49 公開日:2023-07-28
# 鉄道線路の障害物検出における局所的・グローバル的情報

Local and Global Information in Obstacle Detection on Railway Tracks ( http://arxiv.org/abs/2307.15478v1 )

ライセンス: Link先を確認
Matthias Brucker, Andrei Cramariuc, Cornelius von Einem, Roland Siegwart, and Cesar Cadena(参考訳) 鉄道での信頼できる障害物検出は、負傷や列車の損傷や脱線を引き起こす衝突を防ぐのに役立つ。 残念なことに、汎用オブジェクト検出器には可能なすべてのシナリオを考慮した十分なクラスがなく、鉄道上のオブジェクトを特徴とするデータセットは取得が難しい。 鉄道画像から線路分割を学習するための浅層ネットワークの利用を提案する。 ネットワークの限られた受容領域は、過密な予測を防止し、ネットワークが鉄道環境の局所的かつ反復的なパターンに焦点を合わせることを可能にする。 さらに,障害のない画像の提示を学習することで,グローバル情報の包含性について検討する。 本手法は, 人工的な障害物を有する鉄道画像を含むカスタムデータセット上で評価する。 提案手法は他の学習ベースライン法よりも優れている。

Reliable obstacle detection on railways could help prevent collisions that result in injuries and potentially damage or derail the train. Unfortunately, generic object detectors do not have enough classes to account for all possible scenarios, and datasets featuring objects on railways are challenging to obtain. We propose utilizing a shallow network to learn railway segmentation from normal railway images. The limited receptive field of the network prevents overconfident predictions and allows the network to focus on the locally very distinct and repetitive patterns of the railway environment. Additionally, we explore the controlled inclusion of global information by learning to hallucinate obstacle-free images. We evaluate our method on a custom dataset featuring railway images with artificially augmented obstacles. Our proposed method outperforms other learning-based baseline methods.
翻訳日:2023-07-31 12:42:27 公開日:2023-07-28
# インダクティブ・コンストラクションの計算におけるOracleの計算可能性とチューリング低減性

Oracle Computability and Turing Reducibility in the Calculus of Inductive Constructions ( http://arxiv.org/abs/2307.15543v1 )

ライセンス: Link先を確認
Yannick Forster, Dominik Kirst, Niklas M\"uck(参考訳) 我々は,coq 証明アシスタントの基礎となる構成型理論である inductive constructions (cic) において,oracle の計算可能性とチューリングの還元可能性に関する合成概念を開発する。 通常の合成手法では、CICのような構成系では、すべての定義可能な関数が構成によって計算可能であるという事実に依拠し、オブジェクトレベルの計算モデルではなくメタレベルの関数に基づくオラクル計算の定義を用いる。 このようなアプローチは、coqで実行するマシンチェックされた証明に適しています。 オラクル計算可能性という高次概念の優れた合成レンダリングを見つけるには緊張がある。 一方で、すべての概念が忠実に捉えられるように、中心的な結果を証明するのに十分な情報が必要である。 一方、合成計算可能性のための公理の恩恵を受けるには十分な制限が必要であり、これは通常一階のオブジェクトに関係している。 効果的な topos における連続関数に基づく andrej bauer の定義から着想を得て,oracle の有効な計算を特徴付けるシーケンシャル連続性の概念を用いた。 主な技術的結果として、チューリングの再現性は上半ラッチを形成し、決定性を持ち、真理値よりも厳密に表現され、述語$p$とその補語の両方がオラクル$q$に対して半決定可能であれば、$p$チューリングの還元は$q$となることを示す。

We develop synthetic notions of oracle computability and Turing reducibility in the Calculus of Inductive Constructions (CIC), the constructive type theory underlying the Coq proof assistant. As usual in synthetic approaches, we employ a definition of oracle computations based on meta-level functions rather than object-level models of computation, relying on the fact that in constructive systems such as CIC all definable functions are computable by construction. Such an approach lends itself well to machine-checked proofs, which we carry out in Coq. There is a tension in finding a good synthetic rendering of the higher-order notion of oracle computability. On the one hand, it has to be informative enough to prove central results, ensuring that all notions are faithfully captured. On the other hand, it has to be restricted enough to benefit from axioms for synthetic computability, which usually concern first-order objects. Drawing inspiration from a definition by Andrej Bauer based on continuous functions in the effective topos, we use a notion of sequential continuity to characterise valid oracle computations. As main technical results, we show that Turing reducibility forms an upper semilattice, transports decidability, and is strictly more expressive than truth-table reducibility, and prove that whenever both a predicate $p$ and its complement are semi-decidable relative to an oracle $q$, then $p$ Turing-reduces to $q$.
翻訳日:2023-07-31 12:36:13 公開日:2023-07-28
# 非敵バックドアによるバックドア防御

Backdoor Defense with Non-Adversarial Backdoor ( http://arxiv.org/abs/2307.15539v1 )

ライセンス: Link先を確認
Min Liu, Alberto Sangiovanni-Vincentelli, Xiangyu Yue(参考訳) ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であり、クリーンデータに対するネットワークのパフォーマンスに影響せず、トリガーパターンが追加されるとネットワークの動作を操作する。 既存の防御手法は攻撃成功率を大幅に低下させたが、クリーンなデータの予測精度は依然としてクリーンなモデルに大きく遅れている。 背後攻撃のステルス性や有効性に着想を得て,有害サンプルを標的とした非敵バックドアを注入する,単純かつ高効率な防御フレームワークを提案する。 バックドア攻撃の一般的な手順に従い、疑わしいサンプルの小さなセットを検出し、それらを毒殺戦略を適用する。 非敵のバックドアは一度起動すると、毒物データに対する攻撃者のバックドアを抑制するが、クリーンデータへの影響は限られている。 防御は、データ前処理中に、標準のエンドツーエンドトレーニングパイプラインを変更することなく行うことができる。 我々は、異なるアーキテクチャと代表的攻撃を持つ複数のベンチマークで広範な実験を行う。 その結果, クリーンデータに対する性能低下が最も低く, 最先端の防御効果が得られた。 我々の枠組みが示す驚くべき防御能力を考えると、バックドアの防御にもっと注意を払う必要がある。 コードはhttps://github.com/damianliumin/non-adversarial_backdoorで入手できる。

Deep neural networks (DNNs) are vulnerable to backdoor attack, which does not affect the network's performance on clean data but would manipulate the network behavior once a trigger pattern is added. Existing defense methods have greatly reduced attack success rate, but their prediction accuracy on clean data still lags behind a clean model by a large margin. Inspired by the stealthiness and effectiveness of backdoor attack, we propose a simple but highly effective defense framework which injects non-adversarial backdoors targeting poisoned samples. Following the general steps in backdoor attack, we detect a small set of suspected samples and then apply a poisoning strategy to them. The non-adversarial backdoor, once triggered, suppresses the attacker's backdoor on poisoned data, but has limited influence on clean data. The defense can be carried out during data preprocessing, without any modification to the standard end-to-end training pipeline. We conduct extensive experiments on multiple benchmarks with different architectures and representative attacks. Results demonstrate that our method achieves state-of-the-art defense effectiveness with by far the lowest performance drop on clean data. Considering the surprising defense ability displayed by our framework, we call for more attention to utilizing backdoor for backdoor defense. Code is available at https://github.com/damianliumin/non-adversarial_backdoor.
翻訳日:2023-07-31 12:35:44 公開日:2023-07-28
# 段階的機械学習に基づくマイナショット画像分類

Few-shot Image Classification based on Gradual Machine Learning ( http://arxiv.org/abs/2307.15524v1 )

ライセンス: Link先を確認
Na Chen, Xianming Kuang, Feiyu Liu, Kehao Wang and Qun Chen(参考訳) 少ないショット画像分類は、ラベル付きサンプルのみを使用してラベル付きイメージを正確に分類することを目的としている。 最先端のソリューションは、ますます複雑な深いバックボーンの設計に焦点を当てたディープラーニングによって構築される。 残念ながら、トレーニングクラスで学んだ知識を新しいものに移すことが難しいため、タスクは非常に難しいままです。 本稿では、段階的機械学習(GML)の非i.dパラダイムに基づく新しいアプローチを提案する。 わずかにラベル付けされた観測結果から始まり、因子グラフの反復係数推論によって、目標画像を徐々に硬度順にラベル付けする。 具体的には,提案手法は深部骨による表現的特徴表現を抽出し,抽出した特徴に基づいて一意的特徴と二元的要因の両方を構築し,段階的学習を容易にする。 単項因子は埋め込み空間内のクラス中心距離に基づいて構成され、二項因子はk-ネアレスト近傍に基づいて構成される。 比較研究により,提案手法のベンチマークデータセットにおける性能を実証的に検証した。 提案手法は精度でSOTAの性能を1-5%向上できることを示す。 さらに注目すべきは、既存のディープモデルよりも堅牢であり、クエリセットのサイズが増大する一方、ディープモデルのパフォーマンスが本質的にフラットになるか、さらに悪化するにつれて、そのパフォーマンスが一貫して向上する。

Few-shot image classification aims to accurately classify unlabeled images using only a few labeled samples. The state-of-the-art solutions are built by deep learning, which focuses on designing increasingly complex deep backbones. Unfortunately, the task remains very challenging due to the difficulty of transferring the knowledge learned in training classes to new ones. In this paper, we propose a novel approach based on the non-i.i.d paradigm of gradual machine learning (GML). It begins with only a few labeled observations, and then gradually labels target images in the increasing order of hardness by iterative factor inference in a factor graph. Specifically, our proposed solution extracts indicative feature representations by deep backbones, and then constructs both unary and binary factors based on the extracted features to facilitate gradual learning. The unary factors are constructed based on class center distance in an embedding space, while the binary factors are constructed based on k-nearest neighborhood. We have empirically validated the performance of the proposed approach on benchmark datasets by a comparative study. Our extensive experiments demonstrate that the proposed approach can improve the SOTA performance by 1-5% in terms of accuracy. More notably, it is more robust than the existing deep models in that its performance can consistently improve as the size of query set increases while the performance of deep models remains essentially flat or even becomes worse.
翻訳日:2023-07-31 12:35:23 公開日:2023-07-28
# ニューラルネットワーク量子状態を用いたスケーラブルな想像時間発展

Scalable Imaginary Time Evolution with Neural Network Quantum States ( http://arxiv.org/abs/2307.15521v1 )

ライセンス: Link先を確認
Eimantas Ledinauskas and Egidijus Anisimovas(参考訳) ニューラルネットワーク量子状態(NQS)としての量子波関数の表現は、多体量子系の基底状態を見つけるための強力な変分アンサッツを提供する。 しかし、複雑な変動環境のため、伝統的な手法は確率再構成(SR)アプローチを用いることが多く、計量テンソルを計算・反転する必要があるため、スケーラビリティと計算効率が制限される。 本稿では,一階勾配勾配のみに依存する計量テンソルの計算を回避し,より大規模なニューラルネットワークアーキテクチャの利用を容易にする手法を提案する。 提案手法は,シュロディンガー方程式から導かれるターゲット波動関数を構築し,ニューラルネットワークを用いて目標関数を近似することにより,想像時間進化の原理を利用する。 反復最適化により、近似状態は基底状態に向かって漸進収束する。 本手法の利点は, 2次元J1-J2ハイゼンベルクモデルを用いて数値実験を行い, 従来のエネルギー損失最小化よりも安定性とエネルギー精度が向上したことを示す。 提案手法は, 密度行列再正規化法とSRを用いたNQS最適化との競合性を示す。 より大きなニューラルネットワークの利用を可能にすることで、我々のアプローチは、多粒子量子システムのコンテキスト内で、これまで難解だった問題に取り組む可能性を開くかもしれない。

The representation of a quantum wave function as a neural network quantum state (NQS) provides a powerful variational ansatz for finding the ground states of many-body quantum systems. Nevertheless, due to the complex variational landscape, traditional methods often employ the stochastic reconfiguration (SR) approach, resulting in limited scalability and computational efficiency because of the need to compute and invert the metric tensor. We introduce a method that circumvents the computation of the metric tensor, relying solely on first-order gradient descent, thereby facilitating the use of significantly larger neural network architectures. Our approach leverages the principle of imaginary time evolution by constructing a target wave function derived from the Schrodinger equation, and then training the neural network to approximate this target function. Through iterative optimization, the approximated state converges progressively towards the ground state. The advantages of our method are demonstrated through numerical experiments with 2D J1-J2 Heisenberg model, revealing enhanced stability and energy accuracy compared to conventional energy loss minimization. Importantly, our approach displays competitiveness with the well-established density matrix renormalization group method and NQS optimization with SR. By allowing the use of larger neural networks, our approach might open up possibilities for tackling previously intractable problems within the context of many-particle quantum systems.
翻訳日:2023-07-31 12:35:00 公開日:2023-07-28
# ヘキサゴナル指向自己集合パターンの欠陥検査のためのYOLOv8:データ中心アプローチ

YOLOv8 for Defect Inspection of Hexagonal Directed Self-Assembly Patterns: A Data-Centric Approach ( http://arxiv.org/abs/2307.15516v1 )

ライセンス: Link先を確認
Enrique Dehaerne, Bappaditya Dey, Hossein Esfandiar, Lander Verstraete, Hyo Seon Suh, Sandip Halder, Stefan De Gendt(参考訳) パターン寸法の縮小は半導体デバイスにおける様々な欠陥タイプをもたらす。 これは従来の自動欠陥検査ソフトウェアが存在しないdirected self-assembly(dsa)のようなパターン化アプローチの革新を促した。 機械学習に基づくSEM画像解析は、しばしば最高のパフォーマンスを示す教師付きMLモデルによる欠陥検査において、ますます人気のある研究トピックとなっている。 しかし、これらの教師付きモデルの高品質なラベル付きデータセットを得るための研究はほとんど行われていない。 本研究では,DSAの専門家による最小品質制御を必要としながら,六角形接触孔DSAパターンのデータセットのコヒーレントかつ完全ラベルを得る手法を提案する。 最新のニューラルネットワークであるYOLOv8は,DSAの専門家による欠陥ラベル付け期待を反映した最終データセット上で0.9mAP以上の欠陥検出精度を実現する。 提案手法の長所と短所について考察し,データ中心MLに基づく欠陥検査における今後の課題を提案する。

Shrinking pattern dimensions leads to an increased variety of defect types in semiconductor devices. This has spurred innovation in patterning approaches such as Directed self-assembly (DSA) for which no traditional, automatic defect inspection software exists. Machine Learning-based SEM image analysis has become an increasingly popular research topic for defect inspection with supervised ML models often showing the best performance. However, little research has been done on obtaining a dataset with high-quality labels for these supervised models. In this work, we propose a method for obtaining coherent and complete labels for a dataset of hexagonal contact hole DSA patterns while requiring minimal quality control effort from a DSA expert. We show that YOLOv8, a state-of-the-art neural network, achieves defect detection precisions of more than 0.9 mAP on our final dataset which best reflects DSA expert defect labeling expectations. We discuss the strengths and limitations of our proposed labeling approach and suggest directions for future work in data-centric ML-based defect inspection.
翻訳日:2023-07-31 12:34:38 公開日:2023-07-28
# 対象6次元ポーズ推定のための完全畳み込み幾何学的特徴の再検討

Revisiting Fully Convolutional Geometric Features for Object 6D Pose Estimation ( http://arxiv.org/abs/2307.15514v1 )

ライセンス: Link先を確認
Jaime Corsetti, Davide Boscaini, Fabio Poiesi(参考訳) 近年の6次元オブジェクトポーズ推定では,画像とオブジェクトモデル間のキーポイント対応の学習に焦点が当てられ,RANSACに基づくアルゴリズムでオブジェクトポーズを決定するか,エンドツーエンドの最適化で直接ポーズを回帰させることでオブジェクトポーズを決定する。 ポイントレベルの差別的特徴の学習は文献で見過ごされていると論じる。 この目的のために、我々はFCGF (Fully Convolutional Geometric Features) を再検討し、オブジェクト6Dポーズ推定のための調整を行い、最先端の性能を達成する。 FCGFはスパース畳み込みを採用し、コントラスト損失を最適化することで完全畳み込みネットワークを用いてポイントレベルの特徴を学習する。 学習戦略を慎重に調整し,基礎となる問題に適したデータ拡張を行うことにより,損失や入力データ表現に対する重要な修正を適用することにより,人気のあるベンチマークにおいて,最近の競争相手を上回ることができる。 我々は各修正の貢献を研究するために徹底的にアブレーションを行う。

Recent works on 6D object pose estimation focus on learning keypoint correspondences between images and object models, and then determine the object pose through RANSAC-based algorithms or by directly regressing the pose with end-to-end optimisations. We argue that learning point-level discriminative features is overlooked in the literature. To this end, we revisit Fully Convolutional Geometric Features (FCGF) and tailor it for object 6D pose estimation to achieve state-of-the-art performance. FCGF employs sparse convolutions and learns point-level features using a fully-convolutional network by optimising a hardest contrastive loss. We can outperform recent competitors on popular benchmarks by adopting key modifications to the loss and to the input data representations, by carefully tuning the training strategies, and by employing data augmentations suitable for the underlying problem. We carry out a thorough ablation to study the contribution of each modification.
翻訳日:2023-07-31 12:34:08 公開日:2023-07-28
# 品質への道は良いリビジョンで舗装されている:インクリメンタルシーケンスラベリングにおけるリビジョン政策の詳細な評価手法

The Road to Quality is Paved with Good Revisions: A Detailed Evaluation Methodology for Revision Policies in Incremental Sequence Labelling ( http://arxiv.org/abs/2307.15508v1 )

ライセンス: Link先を確認
Brielen Madureira, Patrick Kahardipraja, David Schlangen(参考訳) インクリメンタル対話モデルコンポーネントは、入力に基づいて出力プレフィックスのシーケンスを生成する。 誤りは、ローカルな曖昧さや誤った仮説によって起こり、過去のアウトプットを修正できる能力は、ポリシーによって制御できる望ましい特性となる。 本研究では,インクリメンタルシーケンスラベリングにおける編集とリビジョンの形式化と特徴付けを行い,リビジョンポリシーの評価基準を提案する。 次に,様々なタスクにおける3つのトランスフォーマベースのエンコーダのインクリメンタルな動作をプロファイリングするために,提案手法を適用した。

Incremental dialogue model components produce a sequence of output prefixes based on incoming input. Mistakes can occur due to local ambiguities or to wrong hypotheses, making the ability to revise past outputs a desirable property that can be governed by a policy. In this work, we formalise and characterise edits and revisions in incremental sequence labelling and propose metrics to evaluate revision policies. We then apply our methodology to profile the incremental behaviour of three Transformer-based encoders in various tasks, paving the road for better revision policies.
翻訳日:2023-07-31 12:33:41 公開日:2023-07-28
# 畳み込みニューラルネットワークを用いた肺がんCT画像のスパースビュー画質の向上

Improving Image Quality of Sparse-view Lung Cancer CT Images with a Convolutional Neural Network ( http://arxiv.org/abs/2307.15506v1 )

ライセンス: Link先を確認
Annika Ries, Tina Dorosti, Johannes Thalhammer, Daniel Sasse, Andreas Sauter, Felix Meurer, Ashley Benne, Franz Pfeiffer, Daniela Pfeiffer(参考訳) 目的: 肺癌検出用u-netを用いたsparse-view ct(ct)画像の画質向上と, 画像数, 画像品質, 診断信頼度との間の最善のトレードオフを判定すること。 方法:41名(肺癌34名,健康7名)のct画像の振り返り(01.2016-12.2018)を2048ビューシンノグラムに投影した。 16, 32, 64, 18, 256, 512 ビューのフィルターバックプロジェクションを用いて, 種々のアンダーサンプリングレベルの6つのスパルスビューCTデータサブセットをシノグラムから再構成した。 2フレームのU-Netを訓練し,22名の疾患患者の8,658枚の画像から各サブサンプリングレベルについて評価した。 19名 (病型12名, 健康7名) を対象に, 単一盲検者調査を行った。 選択されたスライスは、u-netモデルによる後処理を伴う全てのレベルのサブサンプリングに対して、3つの読者に提示された。 画像品質と診断信頼度は予め定義されたスケールでランク付けされた。 主観的結節分節は95%信頼区間(ci)の感度(se)とdice類似度係数(dsc)を用いて評価した。 結果: 64射影のスパースビュー画像はSe = 0.89, DSC = 0.81 [0.75,0.86] となり, U-Netで処理した画像は改善された(Se = 0.94, DSC = 0.85 [0.82,0.87])。 低い視点は診断の目的に不十分な品質をもたらす。 視野の増大については、スパースビューと後処理画像の間にはかなりの差はなかった。 結論: プロジェクションビューは, 画像品質と放射線科医の信頼を満足のいくレベルで維持しながら, 2048 から 64 に削減できる。

Purpose: To improve the image quality of sparse-view computed tomography (CT) images with a U-Net for lung cancer detection and to determine the best trade-off between number of views, image quality, and diagnostic confidence. Methods: CT images from 41 subjects (34 with lung cancer, seven healthy) were retrospectively selected (01.2016-12.2018) and forward projected onto 2048-view sinograms. Six corresponding sparse-view CT data subsets at varying levels of undersampling were reconstructed from sinograms using filtered backprojection with 16, 32, 64, 128, 256, and 512 views, respectively. A dual-frame U-Net was trained and evaluated for each subsampling level on 8,658 images from 22 diseased subjects. A representative image per scan was selected from 19 subjects (12 diseased, seven healthy) for a single-blinded reader study. The selected slices, for all levels of subsampling, with and without post-processing by the U-Net model, were presented to three readers. Image quality and diagnostic confidence were ranked using pre-defined scales. Subjective nodule segmentation was evaluated utilizing sensitivity (Se) and Dice Similarity Coefficient (DSC) with 95% confidence intervals (CI). Results: The 64-projection sparse-view images resulted in Se = 0.89 and DSC = 0.81 [0.75,0.86] while their counterparts, post-processed with the U-Net, had improved metrics (Se = 0.94, DSC = 0.85 [0.82,0.87]). Fewer views lead to insufficient quality for diagnostic purposes. For increased views, no substantial discrepancies were noted between the sparse-view and post-processed images. Conclusion: Projection views can be reduced from 2048 to 64 while maintaining image quality and the confidence of the radiologists on a satisfactory level.
翻訳日:2023-07-31 12:33:00 公開日:2023-07-28
# 命令チューニングのためのフォーマット一貫性の探求

Exploring Format Consistency for Instruction Tuning ( http://arxiv.org/abs/2307.15504v1 )

ライセンス: Link先を確認
Shihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun(参考訳) 命令チューニングは、人間の指示に従う大きな言語モデルを強化するための有望なアプローチとして現れてきた。 トレーニングデータにおける多様性と命令数の増加は、連続的に一般化性能を高め、最近の取り組みにより、様々な命令を収集し、既存の命令チューニングデータセットをより大きなコレクションに統合することが可能になる。 しかし、異なるユーザは独自の命令の表現方法を持っており、命令スタイルやフォーマット、すなわちフォーマットの矛盾など、さまざまなデータセットにまたがるバリエーションが存在することが多い。 本研究では,フォーマットの不整合が命令チューニングの性能に与える影響について検討する。 我々は,異なる命令チューニングデータセット間で自動フォーマット転送を行うために,OpenAI APIをコールする"Unified Instruction Tuning"(UIT)というフレームワークを提案する。 UITは,命令チューニングにおけるフォーマット整合性の重要性を強調し,未知の命令に対する一般化性能の向上に成功していることを示す。 uitフレームワークをより実用的なものにするため,我々はさらに,自動フォーマット転送のノイズを低減するための新しいパープレキシティに基づくデノージング手法を提案する。 また、実際にコストを削減するために、OpenAI APIと同等のフォーマット転送機能を実現する、より小さなオフラインモデルをトレーニングしています。

Instruction tuning has emerged as a promising approach to enhancing large language models in following human instructions. It is shown that increasing the diversity and number of instructions in the training data can consistently enhance generalization performance, which facilitates a recent endeavor to collect various instructions and integrate existing instruction tuning datasets into larger collections. However, different users have their unique ways of expressing instructions, and there often exist variations across different datasets in the instruction styles and formats, i.e., format inconsistency. In this work, we study how format inconsistency may impact the performance of instruction tuning. We propose a framework called "Unified Instruction Tuning" (UIT), which calls OpenAI APIs for automatic format transfer among different instruction tuning datasets. We show that UIT successfully improves the generalization performance on unseen instructions, which highlights the importance of format consistency for instruction tuning. To make the UIT framework more practical, we further propose a novel perplexity-based denoising method to reduce the noise of automatic format transfer. We also train a smaller offline model that achieves comparable format transfer capability than OpenAI APIs to reduce costs in practice.
翻訳日:2023-07-31 12:32:27 公開日:2023-07-28
# 公式統計へのフェデレーション学習の適用性

The Applicability of Federated Learning to Official Statistics ( http://arxiv.org/abs/2307.15503v1 )

ライセンス: Link先を確認
Joshua Stock, Oliver Hauke, Julius Wei{\ss}mann, Hannes Federrath(参考訳) 本研究では,公式統計におけるフェデレーション学習(fl)の可能性を調査し,flモデルの性能が集中型学習手法にどの程度適合するかを示す。 同時に、その利用はデータ保有者のプライバシーを保護し、幅広いデータへのアクセスを容易にし、最終的には公式統計を強化します。 3つの異なるユースケースをシミュレートすることで、技術の適用性に関する重要な洞察が得られる。 ユースケースは、医療保険データセット、微粒子汚染データセット、移動無線カバレッジデータセットに基づいており、これらはすべて、公式統計に近いドメインのものだ。 各シミュレーションにおける集中型アルゴリズムとflアルゴリズムの性能の比較を含む、結果の詳細な分析を行う。 3つのユースケースすべてにおいて、集中型モデルベンチマークに非常に近いパフォーマンスに達するFLを介してモデルをトレーニングすることができました。 シミュレーションを実践に移す上で重要な観察と意義について概説する。 我々は、flが将来の公式統計のユースケースにおいて重要な技術として現れる可能性を持っているという結論に達した。

This work investigates the potential of Federated Learning (FL) for official statistics and shows how well the performance of FL models can keep up with centralized learning methods. At the same time, its utilization can safeguard the privacy of data holders, thus facilitating access to a broader range of data and ultimately enhancing official statistics. By simulating three different use cases, important insights on the applicability of the technology are gained. The use cases are based on a medical insurance data set, a fine dust pollution data set and a mobile radio coverage data set - all of which are from domains close to official statistics. We provide a detailed analysis of the results, including a comparison of centralized and FL algorithm performances for each simulation. In all three use cases, we were able to train models via FL which reach a performance very close to the centralized model benchmarks. Our key observations and their implications for transferring the simulations into practice are summarized. We arrive at the conclusion that FL has the potential to emerge as a pivotal technology in future use cases of official statistics.
翻訳日:2023-07-31 12:32:05 公開日:2023-07-28
# 時間領域におけるテンソルネットワークによる近似非マルコフ力学

A bound on approximating non-Markovian dynamics by tensor networks in the time domain ( http://arxiv.org/abs/2307.15592v1 )

ライセンス: Link先を確認
Ilya Vilkoviskiy and Dmitry A. Abanin(参考訳) スピンボーソン(sb)モデルは、その概念的重要性と多くの物理系との関係から、散逸量子力学の研究において中心的な役割を果たす。 ここでは,ゼロ温度オーミック浴の物理的に関連する場合に対して,sbモデルの計算複雑性の厳密な境界を与える。 まず、スピンの軌道の空間上のテンソルであるファインマン・ヴァーノン影響汎関数(if)を介してボソニック浴の記述から始める。 IF関数の核を崩壊指数の和で拡張することにより、有限個の減衰ボゾンモードによる連続浴の解析的近似が得られる。 我々は、ボソニックヒルベルト空間を小さなボソン数を持つ有限次元部分空間に制限することで引き起こされる誤差を束縛し、IFの行列積状態(MPS)表現の解析形式を生成する。 我々はMPS結合次元$D$が物理観測値$\epsilon$の誤差と進化時間$T$,$D\propto T^4/\epsilon^2$の誤差で多項式的にスケールすることを示した。 この境界は、スピンボソンモデルが時間計算資源の多項式を用いて効率的にシミュレートできることを示している。

Spin-boson (SB) model plays a central role in studies of dissipative quantum dynamics, both due its conceptual importance and relevance to a number of physical systems. Here we provide rigorous bounds of the computational complexity of the SB model for the physically relevant case of a zero temperature Ohmic bath. We start with the description of the bosonic bath via its Feynman-Vernon influence functional (IF), which is a tensor on the space of spin's trajectories. By expanding the kernel of the IF functional via a sum of decaying exponentials, we obtain an analytical approximation of the continuous bath by a finite number of damped bosonic modes. We bound the error induced by restricting bosonic Hilbert spaces to a finite-dimensional subspace with small boson numbers, which yields an analytical form of a matrix-product state (MPS) representation of the IF. We show that the MPS bond dimension $D$ scales polynomially in the error on physical observables $\epsilon$, as well as in the evolution time $T$, $D\propto T^4/\epsilon^2$. This bound indicates that the spin-boson model can be efficiently simulated using polynomial in time computational resources.
翻訳日:2023-07-31 12:26:27 公開日:2023-07-28
# OAFuser:Omni-Aperture Fusionによる道路シーンの光場セマンティックセマンティックセグメンテーション

OAFuser: Towards Omni-Aperture Fusion for Light Field Semantic Segmentation of Road Scenes ( http://arxiv.org/abs/2307.15588v1 )

ライセンス: Link先を確認
Fei Teng, Jiaming Zhang, Kunyu Peng, Kailun Yang, Yaonan Wang, Rainer Stiefelhagen(参考訳) 光界カメラは、自律運転の分野におけるシーン理解のためのイメージセマンティックセグメンテーションを強化するために、リッチな角情報と空間情報を提供することができる。 しかし、ライトフィールドカメラの広範囲な角情報には大量の冗長データが含まれており、インテリジェントな車両の限られたハードウェア資源では圧倒的である。 さらに、不適切な圧縮は情報の腐敗とデータ損失につながる。 代表情報を探索するために,中央から密集したコンテキストを利用して,サブアパーチャ画像から角情報を発見し,意味的に一貫性のある結果を生成するOmni-Aperture Fusion Model (OAFuser)を提案する。 ネットワーク伝搬時の特徴損失を回避し,光界カメラからの冗長情報を同時に合理化するために,サブアパーチャイメージを追加のメモリコストを伴わない角度特徴に埋め込むための,シンプルなサブアパーチャ・フュージョン・モジュール(SAFM)を提案する。 さらに,不整合空間情報に対して,非対称情報による特徴の排除と特徴の活用を実現したCARM(Central Angular Rectification Module)を提案する。 提案したOAFuserは,UrbanLF-RealデータセットとSynデータセットの最先端性能を達成し,UrbanLF-Real Extendedデータセットの84.93%の新記録を+4.53%のアップで設定した。 OAFuserのソースコードはhttps://github.com/FeiBryantkit/OAFuserで公開されている。

Light field cameras can provide rich angular and spatial information to enhance image semantic segmentation for scene understanding in the field of autonomous driving. However, the extensive angular information of light field cameras contains a large amount of redundant data, which is overwhelming for the limited hardware resource of intelligent vehicles. Besides, inappropriate compression leads to information corruption and data loss. To excavate representative information, we propose an Omni-Aperture Fusion model (OAFuser), which leverages dense context from the central view and discovers the angular information from sub-aperture images to generate a semantically-consistent result. To avoid feature loss during network propagation and simultaneously streamline the redundant information from the light field camera, we present a simple yet very effective Sub-Aperture Fusion Module (SAFM) to embed sub-aperture images into angular features without any additional memory cost. Furthermore, to address the mismatched spatial information across viewpoints, we present Center Angular Rectification Module (CARM) realized feature resorting and prevent feature occlusion caused by asymmetric information. Our proposed OAFuser achieves state-of-the-art performance on the UrbanLF-Real and -Syn datasets and sets a new record of 84.93% in mIoU on the UrbanLF-Real Extended dataset, with a gain of +4.53%. The source code of OAFuser will be made publicly available at https://github.com/FeiBryantkit/OAFuser.
翻訳日:2023-07-31 12:26:04 公開日:2023-07-28
# ピア・チュータリング相互作用におけるヘッジの生成

When to generate hedges in peer-tutoring interactions ( http://arxiv.org/abs/2307.15582v1 )

ライセンス: Link先を確認
Alafate Abulimiti, Chlo\'e Clavel, Justine Cassell(参考訳) 本稿では,ピアツーリングインタラクションにおけるヘッジ発生の予測のための機械学習手法の応用について検討する。 この研究は、自然言語転換、会話戦略、指導戦略、非言語行動に注釈をつけた、自然主義的な対面データセットを使用している。 これらの要素は前回のターンのベクトル表現に処理され、複数の機械学習モデルへの入力となる。 その結果、前のターンのセマンティック情報をキャプチャする埋め込み層は、モデルの性能を著しく向上させることがわかった。 さらに、この研究は、シャープリー値を用いた特徴説明によるヘッジ予測において、対人ラプポートや非言語行動など、様々な特徴の重要性に関する洞察を提供する。 教師の視線とタテの視線がヘッジ予測に大きく影響していることが判明した。 我々は、この観察をフォローアップアブレーション研究によりさらに検証する。

This paper explores the application of machine learning techniques to predict where hedging occurs in peer-tutoring interactions. The study uses a naturalistic face-to-face dataset annotated for natural language turns, conversational strategies, tutoring strategies, and nonverbal behaviours. These elements are processed into a vector representation of the previous turns, which serves as input to several machine learning models. Results show that embedding layers, that capture the semantic information of the previous turns, significantly improves the model's performance. Additionally, the study provides insights into the importance of various features, such as interpersonal rapport and nonverbal behaviours, in predicting hedges by using Shapley values for feature explanation. We discover that the eye gaze of both the tutor and the tutee has a significant impact on hedge prediction. We further validate this observation through a follow-up ablation study.
翻訳日:2023-07-31 12:25:35 公開日:2023-07-28
# 点雲は特殊画像である:3次元理解のための知識伝達アプローチ

Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding ( http://arxiv.org/abs/2307.15569v1 )

ライセンス: Link先を確認
Jiachen Kang, Wenjing Jia, Xiangjian He, Kin Man Lam(参考訳) 自己教師付き表現学習(SSRL)は,3次元データ不足と高アノテーションコストによる課題に対処するため,ポイントクラウド理解において注目を集めている。 本稿では,点雲を「特殊化画像」として再解釈する新しいSSRL手法であるPCExpertを提案する。 この概念シフトにより、PCExpertは、マルチウェイトランスフォーマーアーキテクチャでトレーニング済みの画像エンコーダとパラメータを広範囲に共有することで、大規模画像モダリティから派生した知識をより直接的、より深く活用することができる。 パラメータ共有戦略と、事前学習のための新しいプリテキストタスク、すなわち変換推定とを組み合わせることで、pcexpertは、トレーニング可能なパラメータの数を著しく削減しながら、さまざまなタスクで芸術の状態を上回らせることができる。 特に、LINEARファインチューニング(例えば、ScanObjectNNの90.02%の精度)におけるPCExpertのパフォーマンスは、FULLモデルファインチューニング(92.66%)の結果にすでにアプローチしており、その効果的で堅牢な表現能力を示している。

Self-supervised representation learning (SSRL) has gained increasing attention in point cloud understanding, in addressing the challenges posed by 3D data scarcity and high annotation costs. This paper presents PCExpert, a novel SSRL approach that reinterprets point clouds as "specialized images". This conceptual shift allows PCExpert to leverage knowledge derived from large-scale image modality in a more direct and deeper manner, via extensively sharing the parameters with a pre-trained image encoder in a multi-way Transformer architecture. The parameter sharing strategy, combined with a novel pretext task for pre-training, i.e., transformation estimation, empowers PCExpert to outperform the state of the arts in a variety of tasks, with a remarkable reduction in the number of trainable parameters. Notably, PCExpert's performance under LINEAR fine-tuning (e.g., yielding a 90.02% overall accuracy on ScanObjectNN) has already approached the results obtained with FULL model fine-tuning (92.66%), demonstrating its effective and robust representation capability.
翻訳日:2023-07-31 12:25:21 公開日:2023-07-28
# 私たちはみな個人である: 信頼に値する相互作用におけるロボットの個性と人格の役割

We are all Individuals: The Role of Robot Personality and Human Traits in Trustworthy Interaction ( http://arxiv.org/abs/2307.15568v1 )

ライセンス: Link先を確認
Mei Yii Lim, Jos\'e David Aguas Lopes, David A. Robb, Bruce W. Wilson, Meriam Moujahid, Emanuele De Pellegrin and Helen Hastie(参考訳) ロボットが社会での役割を担っているため、その外見、行動、性格が与えられた仕事に適しており、交流する人々によって好意的に認識されていることが重要である。 本稿では,ロボットの個性について,人間の個性について,定量的・質的研究を行った。 まず,音声の手がかりと言語的特徴を用いた外向-内向性の観点から,社会ロボットの個性を正確に表現できることを示す。 第2に,これら異なるロボットの個性に対する選好や信頼度を収集することにより,ロボットバリスタに対して,ロボットの個性によらず,内向ロボットよりも外向ロボットが好まれ,信頼されていることを示す。 第3に,ロボットに対する個人的態度や偏見がロボ・バリスタの信頼に影響を与え,ロボットの個性や役割,人間とロボットのインタラクション研究を設計する上で重要な考慮事項となる。

As robots take on roles in our society, it is important that their appearance, behaviour and personality are appropriate for the job they are given and are perceived favourably by the people with whom they interact. Here, we provide an extensive quantitative and qualitative study exploring robot personality but, importantly, with respect to individual human traits. Firstly, we show that we can accurately portray personality in a social robot, in terms of extroversion-introversion using vocal cues and linguistic features. Secondly, through garnering preferences and trust ratings for these different robot personalities, we establish that, for a Robo-Barista, an extrovert robot is preferred and trusted more than an introvert robot, regardless of the subject's own personality. Thirdly, we find that individual attitudes and predispositions towards robots do impact trust in the Robo-Baristas, and are therefore important considerations in addition to robot personality, roles and interaction context when designing any human-robot interaction study.
翻訳日:2023-07-31 12:24:59 公開日:2023-07-28
# セマンティクス-プロトタイプ学習によるパノプティクスシーングラフ生成

Panoptic Scene Graph Generation with Semantics-prototype Learning ( http://arxiv.org/abs/2307.15567v1 )

ライセンス: Link先を確認
Li Li, Wei Ji, Yiming Wu, Mengze Li, You Qin, Lina Wei, Roger Zimmermann(参考訳) panoptic scene graph generation (psg)はオブジェクトを解析し、人間の言語と視覚シーンを接続するための関係(述語)を予測する。 しかし、アノテータの異なる言語選好と述語間の意味的重複はデータセット内の偏りのある述語アノテーション、すなわち同じオブジェクト対に対する述語を導く。 バイアス付き述語アノテーションにより、PSGモデルは述語間の明確な決定平面を構築するのに苦労する。 上記の本質的バイアスに対処するため,ADTransという新しいフレームワークを提案し,バイアス付き述語アノテーションを情報的かつ統一的なアノテーションに適応的に変換する。 転送過程における一貫性と正確性を約束するため,各述語クラスにおける表現の不分散を計測し,異なる強度を持つ述語の偏りのないプロトタイプを学習する。 一方,各プレゼンテーションとプロトタイプ間の分布変化を連続的に計測し,バイアスのあるデータを常に表示する。 最後に、バイアスのない述語-原型表現埋め込み空間により、バイアス付きアノテーションを容易に識別できる。 実験により、ADTransはベンチマークモデルの性能を著しく改善し、新しい最先端のパフォーマンスを実現し、複数のデータセットに対して非常に一般化と有効性を示すことが示された。

Panoptic Scene Graph Generation (PSG) parses objects and predicts their relationships (predicate) to connect human language and visual scenes. However, different language preferences of annotators and semantic overlaps between predicates lead to biased predicate annotations in the dataset, i.e. different predicates for same object pairs. Biased predicate annotations make PSG models struggle in constructing a clear decision plane among predicates, which greatly hinders the real application of PSG models. To address the intrinsic bias above, we propose a novel framework named ADTrans to adaptively transfer biased predicate annotations to informative and unified ones. To promise consistency and accuracy during the transfer process, we propose to measure the invariance of representations in each predicate class, and learn unbiased prototypes of predicates with different intensities. Meanwhile, we continuously measure the distribution changes between each presentation and its prototype, and constantly screen potential biased data. Finally, with the unbiased predicate-prototype representation embedding space, biased annotations are easily identified. Experiments show that ADTrans significantly improves the performance of benchmark models, achieving a new state-of-the-art performance, and shows great generalization and effectiveness on multiple datasets.
翻訳日:2023-07-31 12:24:39 公開日:2023-07-28
# グラフ上のk中心の動的アルゴリズム

Dynamic algorithms for k-center on graphs ( http://arxiv.org/abs/2307.15557v1 )

ライセンス: Link先を確認
Emilio Cruciani, Sebastian Forster, Gramoz Goranci, Yasamin Nazari, Antonis Skarlatos(参考訳) 本稿では、エッジ更新中の動的グラフにおける$k$-center問題に対する最初の効率的なアルゴリズムを提案する。 この問題では、任意のデータポイントから最寄りのセンターまでの最大距離が最小になるように、$k$センターを選択することで入力を$k$に分割する。 この問題に対して2ドル以上の近似を得ることはNPハードであることが知られている。 多くのアプリケーションでは、インプットは自然にグラフとしてモデル化されるが、動的セッティングにおける$k$-centerの問題は全てメトリクスに当てはまる。 本稿では,重み付きグラフに対して,決定論的漸近的$(2+\epsilon)$近似アルゴリズムとランダム化インクリメンタル$(4+\epsilon)$近似アルゴリズムと,償却更新時間$kn^{o(1)}$を与える。 さらに,$k$-center問題の完全動的$(2+\epsilon)$近似アルゴリズムと,$(1+\epsilon)$-approximate single-source distances in graphsを維持するための最先端上限の$k$以内の最悪のケース更新時間を示す。 なぜなら、各頂点から中心への近似距離はグラフの直径の$(2+\epsilon)$近似であり、そのような直径近似の最速のアルゴリズムは、近似的な単元距離の維持にも依存しているからである。

In this paper we give the first efficient algorithms for the $k$-center problem on dynamic graphs undergoing edge updates. In this problem, the goal is to partition the input into $k$ sets by choosing $k$ centers such that the maximum distance from any data point to the closest center is minimized. It is known that it is NP-hard to get a better than $2$ approximation for this problem. While in many applications the input may naturally be modeled as a graph, all prior works on $k$-center problem in dynamic settings are on metrics. In this paper, we give a deterministic decremental $(2+\epsilon)$-approximation algorithm and a randomized incremental $(4+\epsilon)$-approximation algorithm, both with amortized update time $kn^{o(1)}$ for weighted graphs. Moreover, we show a reduction that leads to a fully dynamic $(2+\epsilon)$-approximation algorithm for the $k$-center problem, with worst-case update time that is within a factor $k$ of the state-of-the-art upper bound for maintaining $(1+\epsilon)$-approximate single-source distances in graphs. Matching this bound is a natural goalpost because the approximate distances of each vertex to its center can be used to maintain a $(2+\epsilon)$-approximation of the graph diameter and the fastest known algorithms for such a diameter approximation also rely on maintaining approximate single-source distances.
翻訳日:2023-07-31 12:24:18 公開日:2023-07-28
# all-for-one and one-for-all: 合成音声検出のためのディープラーニングに基づく特徴融合

All-for-One and One-For-All: Deep learning-based feature fusion for Synthetic Speech Detection ( http://arxiv.org/abs/2307.15555v1 )

ライセンス: Link先を確認
Daniele Mari, Davide Salvi, Paolo Bestagini, and Simone Milani(参考訳) 近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上にアクセスしやすくなり、悪意のあるユーザによる脅威や危険が生じた。 音声分野では,不正行為や個人情報盗難などの誤用を防止するための合成音声検出アルゴリズムの開発を提唱する,音声ディープフェイク生成技術の発達を目の当たりにしている。 本稿では,合成音声検出タスクの文献で提案されている3つの特徴セットについて考察し,それらと融合するモデルを提案する。 このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。

Recent advances in deep learning and computer vision have made the synthesis and counterfeiting of multimedia content more accessible than ever, leading to possible threats and dangers from malicious users. In the audio field, we are witnessing the growth of speech deepfake generation techniques, which solicit the development of synthetic speech detection algorithms to counter possible mischievous uses such as frauds or identity thefts. In this paper, we consider three different feature sets proposed in the literature for the synthetic speech detection task and present a model that fuses them, achieving overall better performances with respect to the state-of-the-art solutions. The system was tested on different scenarios and datasets to prove its robustness to anti-forensic attacks and its generalization capabilities.
翻訳日:2023-07-31 12:23:44 公開日:2023-07-28
# 「何のことですか。」 プロセスの明確化のための多モード対話モデルの能力評価

'What are you referring to?' Evaluating the Ability of Multi-Modal Dialogue Models to Process Clarificational Exchanges ( http://arxiv.org/abs/2307.15554v1 )

ライセンス: Link先を確認
Javier Chiyah-Garcia and Alessandro Suglia and Arash Eshghi and Helen Hastie(参考訳) 参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。 宛先は通常、そのような曖昧さを直ちに検出し、話者と協力し、メタコミュニケーション、明確化交換(ce)、明確化要求(cr)、応答を用いて修復する。 ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。 私たちは、simmc 2.0データセットを使用して、cesを処理するためのさまざまな最先端モデルアーキテクチャの能力を評価する。 我々は、言語ベースのモデルは単純なマルチモーダルな意味情報をエンコードし、いくつかのcesを処理し、対話履歴に関連するものよりも優れていることを見出し、マルチモーダルモデルは追加の学習目的を用いて、全体的なモダリティの複雑な参照あいまいさを扱うために不可欠となる異角形オブジェクト表現を得ることができる。

Referential ambiguities arise in dialogue when a referring expression does not uniquely identify the intended referent for the addressee. Addressees usually detect such ambiguities immediately and work with the speaker to repair it using meta-communicative, Clarificational Exchanges (CE): a Clarification Request (CR) and a response. Here, we argue that the ability to generate and respond to CRs imposes specific constraints on the architecture and objective functions of multi-modal, visually grounded dialogue models. We use the SIMMC 2.0 dataset to evaluate the ability of different state-of-the-art model architectures to process CEs, with a metric that probes the contextual updates that arise from them in the model. We find that language-based models are able to encode simple multi-modal semantic information and process some CEs, excelling with those related to the dialogue history, whilst multi-modal models can use additional learning objectives to obtain disentangled object representations, which become crucial to handle complex referential ambiguities across modalities overall.
翻訳日:2023-07-31 12:23:28 公開日:2023-07-28
# 神経抽象化の効率性と精度のトレードオフについて

On the Trade-off Between Efficiency and Precision of Neural Abstraction ( http://arxiv.org/abs/2307.15546v1 )

ライセンス: Link先を確認
Alec Edwards, Mirco Giacobbe, Alessandro Abate(参考訳) ニューラル抽象化は、複雑な非線形力学モデルの形式近似として最近導入された。 それらは、抽象ニューラルネットワークと具体的力学モデルの間の誤差について、ニューラルネットワークodeと認定された上限から構成されている。 これまでの神経抽象化は、すべて$ReLU$アクティベーション関数からなるニューラルネットワークとしてのみ得られており、結果として、断片的なアフィンダイナミクスを持ち、等価に線形ハイブリッドオートマトンとして解釈できるニューラルODEモデルが得られる。 シナリオによっては、分析が容易な粗い抽象化が必要な場合もありますが、他のシナリオではより複雑で洗練された抽象化が必要な場合もあります。 したがって、別の形状の神経的抽象化、すなわち、断片的定数または非線形非ポリノミカル(特にシグモダル活性化によって得られる)を考える。 我々は形式的帰納的合成法を用いて、これらのセマンティクスを用いた動的モデルをもたらすニューラル抽象化を生成する。 経験的に、これらの異なるニューラルネットワーク抽象化テンプレートが、その正確性と合成時間、および安全性検証に必要な時間(到達可能性計算による)を持っているというトレードオフを実証する。 高次元モデルの抽象化を可能にする既存の合成技術を改善し、さらにこれらのモデルの到達可能性解析の効率を向上させるために複雑なニューラルネットワークのodeの抽象化についても論じる。

Neural abstractions have been recently introduced as formal approximations of complex, nonlinear dynamical models. They comprise a neural ODE and a certified upper bound on the error between the abstract neural network and the concrete dynamical model. So far neural abstractions have exclusively been obtained as neural networks consisting entirely of $ReLU$ activation functions, resulting in neural ODE models that have piecewise affine dynamics, and which can be equivalently interpreted as linear hybrid automata. In this work, we observe that the utility of an abstraction depends on its use: some scenarios might require coarse abstractions that are easier to analyse, whereas others might require more complex, refined abstractions. We therefore consider neural abstractions of alternative shapes, namely either piecewise constant or nonlinear non-polynomial (specifically, obtained via sigmoidal activations). We employ formal inductive synthesis procedures to generate neural abstractions that result in dynamical models with these semantics. Empirically, we demonstrate the trade-off that these different neural abstraction templates have vis-a-vis their precision and synthesis time, as well as the time required for their safety verification (done via reachability computation). We improve existing synthesis techniques to enable abstraction of higher-dimensional models, and additionally discuss the abstraction of complex neural ODEs to improve the efficiency of reachability analysis for these models.
翻訳日:2023-07-31 12:23:11 公開日:2023-07-28
# triadnet:3次元脳mr画像における病変容積のサンプリングフリー予測間隔

TriadNet: Sampling-free predictive intervals for lesional volume in 3D brain MR images ( http://arxiv.org/abs/2307.15638v1 )

ライセンス: Link先を確認
Benjamin Lambert, Florence Forbes, Senan Doyle and Michel Dojat(参考訳) 脳病変(脳梗塞や腫瘍など)の体積は、患者の予後を示す強力な指標であり、治療戦略の導出に用いられる。 相対体積推定は通常、現在最先端のアプローチであるディープ畳み込みニューラルネットワーク(CNN)によるセグメント化によって行われる。 しかし, 十分な量的予測間隔を持つボリュームセグメンテーションツールの装着は, 臨床実践における有用性や受容を阻害する研究は, これまでにほとんど行われていない。 本研究では,マルチヘッドCNNアーキテクチャをベースとしたセグメンテーション手法であるTriadNetを提案する。 大規模なMRIグリオーマ画像データベースBraTS 2021の他のソリューションよりも優れていることを示す。

The volume of a brain lesion (e.g. infarct or tumor) is a powerful indicator of patient prognosis and can be used to guide the therapeutic strategy. Lesional volume estimation is usually performed by segmentation with deep convolutional neural networks (CNN), currently the state-of-the-art approach. However, to date, few work has been done to equip volume segmentation tools with adequate quantitative predictive intervals, which can hinder their usefulness and acceptation in clinical practice. In this work, we propose TriadNet, a segmentation approach relying on a multi-head CNN architecture, which provides both the lesion volumes and the associated predictive intervals simultaneously, in less than a second. We demonstrate its superiority over other solutions on BraTS 2021, a large-scale MRI glioblastoma image database.
翻訳日:2023-07-31 12:15:47 公開日:2023-07-28
# 7.0kmを超える分散量子コンピューティング

Distributed quantum computing over 7.0 km ( http://arxiv.org/abs/2307.15634v1 )

ライセンス: Link先を確認
Xiao Liu, Xiao-Min Hu, Tian-Xiang Zhu, Chao Zhang, Yi-Xin Xiao, Jia-Le Miao, Zhong-Wen Ou, Bi-Heng Liu, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo(参考訳) 分散量子コンピューティングは、遠隔の量子ノードを接続するために非局所量子ゲートに依存するスケーラブルな量子計算への実行可能なアプローチを提供する。 しかし、そのようなアプローチは単一ノードや数メートルで区切られたノード間でのみ実現されており、大規模量子ネットワークにおける計算資源の活用を目標としない。 本稿では,多重量子メモリに基づく定常量子ビット,通信波長での飛行量子ビット,フィールド配置ファイバに基づくアクティブフィードフォワード制御を用いて,空間的に7.0km離れた2ノード間の分散量子コンピューティングを実証する。 具体的には,deutsch-jozsaアルゴリズムと量子位相推定アルゴリズムを実装し,量子並列性を説明する。 これらの結果は、メトロポリタン距離における分散量子コンピューティングの最初の実証であり、既存のファイバーチャネルに依存する大規模量子コンピューティングネットワークの構築の基礎となった。

Distributed quantum computing provides a viable approach towards scalable quantum computation, which relies on nonlocal quantum gates to connect distant quantum nodes, to overcome the limitation of a single device. However, such an approach has only been realized within single nodes or between nodes separated by a few tens of meters, preventing the target of harnessing computing resources in large-scale quantum networks. Here, we demonstrate distributed quantum computing between two nodes spatially separated by 7.0 km, using stationary qubits based on multiplexed quantum memories, flying qubits at telecom wavelengths, and active feedforward control based on field-deployed fiber. Specifically, we illustrate quantum parallelism by implementing Deutsch-Jozsa algorithm and quantum phase estimation algorithm between the two remote nodes. These results represent the first demonstration of distributed quantum computing over metropolitan-scale distances and lay the foundation for the construction of large-scale quantum computing networks relying on existing fiber channels.
翻訳日:2023-07-31 12:15:32 公開日:2023-07-28
# 車両軌跡データを用いた車線変更意図認識のための機械学習手法の比較分析

A Comparative Analysis of Machine Learning Methods for Lane Change Intention Recognition Using Vehicle Trajectory Data ( http://arxiv.org/abs/2307.15625v1 )

ライセンス: Link先を確認
Renteng Yuan(参考訳) LCプロセスの正確な検出と予測は、自動運転車が周囲の環境をよりよく理解し、潜在的な安全リスクを認識し、交通安全を改善するのに役立つ。 本稿では,LCプロセスに着目し,異なる機械学習手法の性能を比較し,高次元時系列データからLC意図を認識する。 提案モデルの性能を検証するため,CitySimデータセットから1023台の車両軌跡を抽出した。 LC意図認識では,分類精度の98%で,アンサンブル法はII型,III型の分類誤差の影響を減少させることが示された。 認識精度を犠牲にすることなく、LightGBMはXGBoostアルゴリズムよりもモデルのトレーニング効率が6倍改善されている。

Accurately detecting and predicting lane change (LC)processes can help autonomous vehicles better understand their surrounding environment, recognize potential safety hazards, and improve traffic safety. This paper focuses on LC processes and compares different machine learning methods' performance to recognize LC intention from high-dimensionality time series data. To validate the performance of the proposed models, a total number of 1023 vehicle trajectories is extracted from the CitySim dataset. For LC intention recognition issues, the results indicate that with ninety-eight percent of classification accuracy, ensemble methods reduce the impact of Type II and Type III classification errors. Without sacrificing recognition accuracy, the LightGBM demonstrates a sixfold improvement in model training efficiency than the XGBoost algorithm.
翻訳日:2023-07-31 12:15:15 公開日:2023-07-28
# マイクロカノニカル以外のアンサンブルの正典型性

Canonical Typicality For Other Ensembles Than Micro-Canonical ( http://arxiv.org/abs/2307.15624v1 )

ライセンス: Link先を確認
Stefan Teufel, Roderich Tumulka, Cornelia Vogel(参考訳) Canonical typicality is the known fact in quantum statistical mechanics that for most wave functions $\psi$ from the unit sphere in a high-dimensional subspace $\mathscr{H}_R$ (such as a micro-canonical subspace) of the Hilbert space $\mathscr{H}_S=\mathscr{H}_a \otimes \mathscr{H}_b$ of a macroscopic quantum system $S$ consisting of two subsystems $a$ and $b$, the reduced density matrix $\rho_a^\psi := tr_b |\psi\rangle\langle\psi|$ is close to $tr_b \rho_R$ and thus nearly deterministic, provided that $a$ is not too large. ここで、$\rho_r$ は$\mathscr{h}_r$ の射影であり、$`most' という言葉は、古典統計力学におけるマイクロカノニカルアンサンブルの類似と見なすことができる$\mathscr{h}_r$ における単位球面上の一様分布を指す。 本稿では,他のアンサンブル,特にカノニカルアンサンブルに類似したアンサンブルに対する正準の典型性を一般化する。 一般密度行列 $\rho$ に対して、一様測度のアナログを形成するが密度行列 $\rho$ を持つ単位球面上の測度は GAP$(\rho)$ として知られている。 任意の密度行列 $\rho$ on $\mathscr{H}_S$ に対して、GAP$(\rho)$ によるほとんどの波動関数 $\psi$ は、$\rho_a^\psi$ が $tr_b \rho$ に近いものであることを示す。 我々の証明は、レヴィの補題(測度集中)をGAP$(\rho)$に一般化したものである。 また、gap$(\rho)$-typical$\psi_0$ を持つ$\rho_a^{\psi_t}$ の力学特性の変種を証明し、条件付き波動関数 $\psi_a$ は$\mathscr{h}_b$ および gap$(\rho)$-typical $\psi$ の典型的な基底に対して gap$(tr_b \rho)$ に近い分布を持つことを証明した。

Canonical typicality is the known fact in quantum statistical mechanics that for most wave functions $\psi$ from the unit sphere in a high-dimensional subspace $\mathscr{H}_R$ (such as a micro-canonical subspace) of the Hilbert space $\mathscr{H}_S=\mathscr{H}_a \otimes \mathscr{H}_b$ of a macroscopic quantum system $S$ consisting of two subsystems $a$ and $b$, the reduced density matrix $\rho_a^\psi := tr_b |\psi\rangle\langle\psi|$ is close to $tr_b \rho_R$ and thus nearly deterministic, provided that $a$ is not too large. Here $\rho_R$ is the projection to $\mathscr{H}_R$ normalized to trace $1$, and the word ``most'' refers to the uniform distribution over the unit sphere in $\mathscr{H}_R$, which for a micro-canonical subspace can be regarded as an analog of the micro-canonical ensemble in classical statistical mechanics. In this paper, we generalize canonical typicality to other ensembles, in particular to an analog of the canonical ensemble, so our result expresses a kind of equivalence of ensembles. For a general density matrix $\rho$, the measure over the unit sphere that forms the analog of the uniform measure but has density matrix $\rho$ is known as GAP$(\rho)$. We show that for any density matrix $\rho$ on $\mathscr{H}_S$ with small eigenvalues, most wave functions $\psi$ according to GAP$(\rho)$ are such that $\rho_a^\psi$ is close to $tr_b \rho$. Our proof is based on a generalization of Levy's lemma (concentration of measure) to GAP$(\rho)$. We also prove a variant of dynamical typicality for $\rho_a^{\psi_t}$ with GAP$(\rho)$-typical $\psi_0$ and that the conditional wave function $\psi_a$ has distribution close to GAP$(tr_b \rho)$ for typical bases of $\mathscr{H}_b$ and GAP$(\rho)$-typical $\psi$.
翻訳日:2023-07-31 12:15:02 公開日:2023-07-28
# Shrink-Perturbはニューラルアーキテクチャ検索のための人口ベーストレーニング中のアーキテクチャ混合を改善する

Shrink-Perturb Improves Architecture Mixing during Population Based Training for Neural Architecture Search ( http://arxiv.org/abs/2307.15621v1 )

ライセンス: Link先を確認
Alexander Chebykin, Arkadiy Dushatskiy, Tanja Alderliesten, Peter A. N. Bosman(参考訳) 本研究では,ニューラルネットワークの同時学習と混合が,ニューラルネットワーク探索(NAS)を実現する上で有望な方法であることを示す。 ハイパーパラメータ最適化のために、部分的にトレーニングされた重みを再利用することで、以前PBTアルゴリズムで実証されたように、効率的な探索が可能になる。 PBT-NAS は PBT-NAS をNAS に適応させる手法であり,低性能なネットワークを個体群で置き換えることでアーキテクチャを改良し,良好な性能のネットワークを混合し,縮小パーターブ法を用いて重みを継承する手法を提案する。 PBT-NASが終了すると、ネットワークは再トレーニングなしで直接使用できる。 PBT-NASは、課題(画像生成と強化学習)において、ベースライン(ランダム検索と突然変異に基づくPBT)よりも優れた性能を達成する。

In this work, we show that simultaneously training and mixing neural networks is a promising way to conduct Neural Architecture Search (NAS). For hyperparameter optimization, reusing the partially trained weights allows for efficient search, as was previously demonstrated by the Population Based Training (PBT) algorithm. We propose PBT-NAS, an adaptation of PBT to NAS where architectures are improved during training by replacing poorly-performing networks in a population with the result of mixing well-performing ones and inheriting the weights using the shrink-perturb technique. After PBT-NAS terminates, the created networks can be directly used without retraining. PBT-NAS is highly parallelizable and effective: on challenging tasks (image generation and reinforcement learning) PBT-NAS achieves superior performance compared to baselines (random search and mutation-based PBT).
翻訳日:2023-07-31 12:14:08 公開日:2023-07-28
# Rydberg-atom 電子計の標準量子限界へのアプローチ

Approaching the standard quantum limit of a Rydberg-atom microwave electrometer ( http://arxiv.org/abs/2307.15617v1 )

ライセンス: Link先を確認
Hai-Tao Tu, Kai-Yu Liao, Guo-Dong He, Yi-Fei Zhu, Si-Yuan Qiu, Hao Jiang, Wei Huang, Wu Bian, Hui Yan, Shi-Liang Zhu(参考訳) 極端限界に近づく固有の不確実性を持つマイクロ波電磁計の開発は、基本的および技術的に重要な意味を持つ。 近年、ライドバーグ・エレクトロメーターは、非常に感度が高く、小型で幅広い波長性のため、かなりの注目を集めている。 この特定の量子センサーは、低エントロピーレーザービームを使用して原子内部状態の乱れを検知し、古典的な8,9で発生する固有の熱ノイズを回避する。 しかし、原子10の熱運動のため、先進的なrydberg-atom電子電計は標準の量子限界を3桁以上も超えている。 本研究では、約5.2e5レーザー冷却原子11を用いた光学媒体を用いてヘテロダイン検出を行う。 様々なノイズを緩和し、リドベルク電気計のパラメータを戦略的に最適化することにより、100Hzの繰り返し速度で10.0 nV/cm/Hz^1/2の電場感度を達成し、標準量子限界の2.6倍、最小検出可能磁場の540 pV cmに達する。 また,ノイズ機構の詳細な解析を行い,Rydberg-atom センサの性能向上のための最適パラメータを決定する。 我々の研究は、rydberg電計の固有容量と限界について洞察を与え、多くの応用において弱いマイクロ波信号の検出に優れた感度を提供する。

The development of a microwave electrometer with inherent uncertainty approaching its ultimate limit carries both fundamental and technological significance. Recently, the Rydberg electrometer has garnered considerable attention due to its exceptional sensitivity, small-size, and broad tunability. This specific quantum sensor utilizes low-entropy laser beams to detect disturbances in atomic internal states, thereby circumventing the intrinsic thermal noise encountered by its classical counterparts8,9. However, due to the thermal motion of atoms10, the advanced Rydberg-atom microwave electrometer falls considerably short of the standard quantum limit by over three orders of magnitude. In this study, we utilize an optically thin medium with approximately 5.2e5 laser-cooled atoms11 to implement heterodyne detection. By mitigating a variety of noises and strategically optimizing the parameters of the Rydberg electrometer, our study achieves an electric-field sensitivity of 10.0 nV/cm/Hz^1/2 at a 100 Hz repetition rate, reaching a factor of 2.6 above the standard quantum limit and a minimum detectable field of 540 pV cm. We also provide an in-depth analysis of noise mechanisms and determine optimal parameters to bolster the performance of Rydberg-atom sensors. Our work provides insights into the inherent capacities and limitations of Rydberg electrometers, while offering superior sensitivity for detecting weak microwave signals in numerous applications.
翻訳日:2023-07-31 12:13:46 公開日:2023-07-28
# 医用画像登録における深層学習に関する調査:新しい技術、不確かさ、評価基準など

A Survey on Deep Learning in Medical Image Registration: New Technologies, Uncertainty, Evaluation Metrics, and Beyond ( http://arxiv.org/abs/2307.15615v1 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Shuwen Wei, Zhangxing Bian, Shalini Subramanian, Aaron Carass, Jerry L. Prince, Yong Du(参考訳) 過去10年間で、深層学習技術は医療画像登録の分野を大きく進歩させてきた。 ResNetベースのネットワークやU-Netベースのネットワークといった初期の開発は、ディープラーニングによる画像登録の基礎を築いた。 その後、類似度測定、変形正則化、不確実性推定など、深層学習に基づく登録の様々な面で進展が見られた。 これらの進歩は、変形可能な画像登録の分野を豊かにするだけでなく、アトラス構築、マルチアトラスセグメンテーション、モーション推定、および2d-3d登録を含む幅広いタスクでその応用を促進する。 本稿では,ディープラーニングに基づく画像登録の最近の進歩を総合的に概観する。 まず、深層学習に基づく画像登録のコアコンセプトの簡潔な紹介から始める。 次に,革新的なネットワークアーキテクチャ,登録に特有の損失関数,登録の不確かさを推定する手法について考察する。 さらに,登録タスクにおけるディープラーニングモデルの性能を評価するための適切な評価指標について検討する。 最後に,これらの新しい医療画像技術の実践的応用を強調し,深層学習に基づく画像登録の今後の展望について考察する。

Over the past decade, deep learning technologies have greatly advanced the field of medical image registration. The initial developments, such as ResNet-based and U-Net-based networks, laid the groundwork for deep learning-driven image registration. Subsequent progress has been made in various aspects of deep learning-based registration, including similarity measures, deformation regularizations, and uncertainty estimation. These advancements have not only enriched the field of deformable image registration but have also facilitated its application in a wide range of tasks, including atlas construction, multi-atlas segmentation, motion estimation, and 2D-3D registration. In this paper, we present a comprehensive overview of the most recent advancements in deep learning-based image registration. We begin with a concise introduction to the core concepts of deep learning-based image registration. Then, we delve into innovative network architectures, loss functions specific to registration, and methods for estimating registration uncertainty. Additionally, this paper explores appropriate evaluation metrics for assessing the performance of deep learning models in registration tasks. Finally, we highlight the practical applications of these novel techniques in medical imaging and discuss the future prospects of deep learning-based image registration.
翻訳日:2023-07-31 12:13:21 公開日:2023-07-28
# マクロ量子同期効果

Macroscopic quantum synchronization effects ( http://arxiv.org/abs/2307.15613v1 )

ライセンス: Link先を確認
Tobias Nadolny, Christoph Bruder(参考訳) 理論上、全対全結合量子リミットサイクル発振器のネットワークで発生するマクロ量子同期効果を記述する。 この結合は、大域位相コヒーレンスの存在によって示される同期への移行を引き起こす。 発振器の微視的量子特性は、巨視的に大きい系の同期挙動を定性的に形成する。 結果として生じる力学は、2つの結合振動子のレベルでは見えない普遍的挙動、量子効果、創発的挙動を特徴とする。

We theoretically describe macroscopic quantum synchronization effects occurring in a network of all-to-all coupled quantum limit-cycle oscillators. The coupling causes a transition to synchronization as indicated by the presence of global phase coherence. We demonstrate that the microscopic quantum properties of the oscillators qualitatively shape the synchronization behavior in a macroscopically large system. The resulting dynamics features universal behavior, quantum effects, and emergent behavior not visible at the level of two coupled oscillators.
翻訳日:2023-07-31 12:12:59 公開日:2023-07-28
# 溶接部品のデジタル再構築 : 疲労寿命予測の改善支援

Integrated Digital Reconstruction of Welded Components: Supporting Improved Fatigue Life Prediction ( http://arxiv.org/abs/2307.15604v1 )

ライセンス: Link先を確認
Anders Faarb{\ae}k Mikkelstrup and Morten Kristiansen(参考訳) オフショアジャケットの基礎設計では、疲労寿命が重要である。 溶接継手の疲労性能を向上させるために,特に高周波機械衝撃(hfmi)処理が提案されている。 HFMIの自動処理は品質保証を改善し、正確な疲労寿命予測と組み合わせることでコスト効率の高い設計につながる。 しかし、有限要素法(FEM)は、複合または多軸接合部の疲労寿命を予測するのに一般的に用いられ、溶接部のCADによる基本的な描写に依存し、実際の溶接形状や欠陥を考慮できなかった。 FEモデルに実際の溶接形状を含めると疲労寿命予測と亀裂位置予測が向上するが、溶接部のデジタル再構成が必要である。 現在のデジタル・リコンストラクションは時間を要するか、特殊な走査装置と潜在的な部品の移転を必要とする。 提案するフレームワークは, 産業用マニピュレータとラインスキャナを組み合わせることで, HFMI自動処理装置の一部としてディジタル再構成を統合する。 このアプローチは、標準画像処理、単純なフィルタリング技術、重なり合うスキャンの整列とマージのための非線形最適化を適用する。 スクリーニングされたポアソン表面の再構成は、メッシュ面を作るために3Dモデルを完成させる。 この結果は、部品設計、全体的な品質保証、HFMI処理の文書化など、溶接部品の汎用的なデジタル再構築を可能にする汎用的、費用対効果、柔軟性、迅速な方法である。

In the design of offshore jacket foundations, fatigue life is crucial. Post-weld treatment has been proposed to enhance the fatigue performance of welded joints, where particularly high-frequency mechanical impact (HFMI) treatment has been shown to improve fatigue performance significantly. Automated HFMI treatment has improved quality assurance and can lead to cost-effective design when combined with accurate fatigue life prediction. However, the finite element method (FEM), commonly used for predicting fatigue life in complex or multi-axial joints, relies on a basic CAD depiction of the weld, failing to consider the actual weld geometry and defects. Including the actual weld geometry in the FE model improves fatigue life prediction and possible crack location prediction but requires a digital reconstruction of the weld. Current digital reconstruction methods are time-consuming or require specialised scanning equipment and potential component relocation. The proposed framework instead uses an industrial manipulator combined with a line scanner to integrate digital reconstruction as part of the automated HFMI treatment setup. This approach applies standard image processing, simple filtering techniques, and non-linear optimisation for aligning and merging overlapping scans. A screened Poisson surface reconstruction finalises the 3D model to create a meshed surface. The outcome is a generic, cost-effective, flexible, and rapid method that enables generic digital reconstruction of welded parts, aiding in component design, overall quality assurance, and documentation of the HFMI treatment.
翻訳日:2023-07-31 12:12:52 公開日:2023-07-28
# 言語モデルに対するロバストな歪みのない透かし

Robust Distortion-free Watermarks for Language Models ( http://arxiv.org/abs/2307.15593v1 )

ライセンス: Link先を確認
Rohith Kuditipudi and John Thickstun and Tatsunori Hashimoto and Percy Liang(参考訳) 本稿では,テキスト上の分布を最大生成予算に変化させることなく,摂動に頑健な自動回帰言語モデルからテキストに透かしを植え付ける手法を提案する。 我々は、ランダム化された透かしキーを用いて計算するランダム数の列を言語モデルからのサンプルにマッピングすることで、透かし付きテキストを生成する。 透かし付きテキストを検出するには、鍵を知っている任意の当事者がランダム数列にテキストを合わせることができる。 ウォーターマーク法を逆変換サンプリングと指数最小サンプリングの2つのサンプリングスキームでインスタンス化する。 我々はこれらの透かしをOPT-1.3B、LLaMA-7B、Alpaca-7Bの3つの言語モデルに適用し、様々なパラフレーズ攻撃に対する統計的パワーとロバスト性を実験的に検証する。 特に、OPT-1.3B と LLaMA-7B のモデルでは、ランダムな編集(置換、挿入、削除など)によってトークンの 40$-$50$\% を破損した後でも、$35$トークンから確実にウォーターマークされたテキスト(p \leq 0.01$)を検出できる。 Alpaca-7Bモデルでは、典型的なユーザ指示に対する透かし応答の実現可能性についてケーススタディを行う。 応答のエントロピーが低くなっているため、検出はより困難である: 平均的な応答の長さが約100ドルである約25\%$のレスポンスは、$p \leq 0.01$で検出可能であり、ウォーターマークは、我々が実装している特定の自動パラフレージング攻撃に対して頑健ではない。

We propose a methodology for planting watermarks in text from an autoregressive language model that are robust to perturbations without changing the distribution over text up to a certain maximum generation budget. We generate watermarked text by mapping a sequence of random numbers -- which we compute using a randomized watermark key -- to a sample from the language model. To detect watermarked text, any party who knows the key can align the text to the random number sequence. We instantiate our watermark methodology with two sampling schemes: inverse transform sampling and exponential minimum sampling. We apply these watermarks to three language models -- OPT-1.3B, LLaMA-7B and Alpaca-7B -- to experimentally validate their statistical power and robustness to various paraphrasing attacks. Notably, for both the OPT-1.3B and LLaMA-7B models, we find we can reliably detect watermarked text ($p \leq 0.01$) from $35$ tokens even after corrupting between $40$-$50$\% of the tokens via random edits (i.e., substitutions, insertions or deletions). For the Alpaca-7B model, we conduct a case study on the feasibility of watermarking responses to typical user instructions. Due to the lower entropy of the responses, detection is more difficult: around $25\%$ of the responses -- whose median length is around $100$ tokens -- are detectable with $p \leq 0.01$, and the watermark is also less robust to certain automated paraphrasing attacks we implement.
翻訳日:2023-07-31 12:12:29 公開日:2023-07-28
# 単純視覚刺激を頭蓋内神経活動から復号するベイジアン時系列分類器

Bayesian Time-Series Classifier for Decoding Simple Visual Stimuli from Intracranial Neural Activity ( http://arxiv.org/abs/2307.15672v1 )

ライセンス: Link先を確認
Navid Ziaei, Reza Saadatifard, Ali Yousefi, Behzad Nazari, Sydney S. Cash, Angelique C. Paulk(参考訳) 外部刺激がどのように分散神経活動にコードされているかを理解することは、臨床および基礎神経科学において重要な関心事である。 このニーズに対処するためには、限られたデータと、神経データに存在する内在的な確率を扱う分析ツールを開発することが不可欠である。 本研究では,高レベルの解釈性を維持しつつ,これらの課題に取り組むベイズ時系列分類器(btsc)モデルを提案する。 本稿では,視覚タスクで色をデコードするためにニューラルデータを利用することにより,このアプローチの分類能力を示す。 このモデルは、4人の患者のデータセット上で75.55%の一貫性のある平均パフォーマンスを示し、最先端の機械学習技術を約3.0%改善している。 高い分類精度に加えて、提案したBTsCモデルは解釈可能な結果を提供し、様々なタスクやカテゴリで神経活動を研究する上で貴重なツールとなる。 提案手法は,様々なタスクに記録されたニューラルネットワークに適用可能であり,解釈可能な結果と正確な分類精度が必要となる。

Understanding how external stimuli are encoded in distributed neural activity is of significant interest in clinical and basic neuroscience. To address this need, it is essential to develop analytical tools capable of handling limited data and the intrinsic stochasticity present in neural data. In this study, we propose a straightforward Bayesian time series classifier (BTsC) model that tackles these challenges whilst maintaining a high level of interpretability. We demonstrate the classification capabilities of this approach by utilizing neural data to decode colors in a visual task. The model exhibits consistent and reliable average performance of 75.55% on 4 patients' dataset, improving upon state-of-the-art machine learning techniques by about 3.0 percent. In addition to its high classification accuracy, the proposed BTsC model provides interpretable results, making the technique a valuable tool to study neural activity in various tasks and categories. The proposed solution can be applied to neural data recorded in various tasks, where there is a need for interpretable results and accurate classification accuracy.
翻訳日:2023-07-31 12:06:19 公開日:2023-07-28
# trackagent:強化学習による6dオブジェクト追跡

TrackAgent: 6D Object Tracking via Reinforcement Learning ( http://arxiv.org/abs/2307.15671v1 )

ライセンス: Link先を確認
Konstantin R\"ohrl, Dominik Bauer, Timothy Patten, and Markus Vincze(参考訳) オブジェクトの6Dポーズを追跡することは、オブジェクト自体や監視カメラが動いている一方で、多くのロボティクスや拡張現実アプリケーションにとって重要である。 時間的事前の活用はこの問題を緩和するが、トラッキングが失われるとオブジェクト固有の知識が回復する必要がある。 追跡タスクの厳密な時間制約の下では、RGB(D)ベースの手法はしばしば概念的に複雑であり、ヒューリスティックな運動モデルに依存している。 比較として,強化ポイントクラウド(奥行きのみ)アライメントタスクに対するオブジェクト追跡の簡略化を提案する。 これにより、以前の作業で必要とされる多様なRGBDシーケンスの大きなデータセットと比較して、スクラッチからスパース3Dポイントクラウドで合理化されたアプローチをトレーニングすることができます。 両目的を共同で解決する強化学習(RL)エージェントを用いて,フレーム・ツー・モデル改良による時間的フレーム・ツー・フレーム登録とオブジェクトベースリカバリを組み込んだ。 また,rlエージェントの不確実性とレンダリングベースマスクの伝播が効果的な再活性化トリガーであることを示す。

Tracking an object's 6D pose, while either the object itself or the observing camera is moving, is important for many robotics and augmented reality applications. While exploiting temporal priors eases this problem, object-specific knowledge is required to recover when tracking is lost. Under the tight time constraints of the tracking task, RGB(D)-based methods are often conceptionally complex or rely on heuristic motion models. In comparison, we propose to simplify object tracking to a reinforced point cloud (depth only) alignment task. This allows us to train a streamlined approach from scratch with limited amounts of sparse 3D point clouds, compared to the large datasets of diverse RGBD sequences required in previous works. We incorporate temporal frame-to-frame registration with object-based recovery by frame-to-model refinement using a reinforcement learning (RL) agent that jointly solves for both objectives. We also show that the RL agent's uncertainty and a rendering-based mask propagation are effective reinitialization triggers.
翻訳日:2023-07-31 12:06:02 公開日:2023-07-28
# CoRe Optimizer: マシンラーニングのためのオールインワンソリューション

CoRe Optimizer: An All-in-One Solution for Machine Learning ( http://arxiv.org/abs/2307.15663v1 )

ライセンス: Link先を確認
Marco Eckhoff and Markus Reiher(参考訳) 最適化アルゴリズムとそのハイパーパラメータは、機械学習アプリケーションにおけるトレーニング速度とモデル精度に大きな影響を与える可能性がある。 理想的なオプティマイザの希望リストには、高速でスムーズな低エラー収束、低計算要求、一般応用性が含まれている。 当社が最近導入したcontinual resilient (core)オプティマイザは他の最先端の1次勾配ベースオプティマイザと比較して、生涯にわたるマシンラーニングポテンシャルをトレーニングする上で優れたパフォーマンスを示しました。 本稿では,さまざまな機械学習タスクに対して,コアオプティマイザとadamオプティマイザとresilient backpropagation(rprop)を含む9つの最適化アルゴリズムの広範なパフォーマンス比較を行う。 我々は、異なるハイパーパラメータの影響を分析し、一般に適用可能な値を提供する。 コアオプティマイザは、調査対象のアプリケーション毎に最高の性能または競合性能を提供するが、ミニバッチやバッチ学習によっては、1つのハイパーパラメータのみを変更する必要がある。

The optimization algorithm and its hyperparameters can significantly affect the training speed and resulting model accuracy in machine learning applications. The wish list for an ideal optimizer includes fast and smooth convergence to low error, low computational demand, and general applicability. Our recently introduced continual resilient (CoRe) optimizer has shown superior performance compared to other state-of-the-art first-order gradient-based optimizers for training lifelong machine learning potentials. In this work we provide an extensive performance comparison of the CoRe optimizer and nine other optimization algorithms including the Adam optimizer and resilient backpropagation (RPROP) for diverse machine learning tasks. We analyze the influence of different hyperparameters and provide generally applicable values. The CoRe optimizer yields best or competitive performance in every investigated application, while only one hyperparameter needs to be changed depending on mini-batch or batch learning.
翻訳日:2023-07-31 12:05:42 公開日:2023-07-28
# スワップ演算子の代数構造による量子マックスカットの緩和と厳密解

Relaxations and Exact Solutions to Quantum Max Cut via the Algebraic Structure of Swap Operators ( http://arxiv.org/abs/2307.15661v1 )

ライセンス: Link先を確認
Adam Bene Watts, Anirban Chowdhury, Aidan Epperly, J. William Helton, Igor Klep(参考訳) 量子マックスカット(qmc)問題は、局所ハミルトニアン問題の近似アルゴリズムを設計するためのテストプロブレムとして現れた。 本稿では、QMCの代数構造、特に量子マックスカットハミルトニアンと対称群の表現理論の関係を用いてこの問題に対処する。 この論文の最初の大きな貢献は、量子マックスカットに緩和の新たな階層を与えるために非可換な正方形最適化手法(ncSoS)の拡張である。 現在の階層は、キュービットスワップ作用素の多項式に対する最適化に基づいている。 これは、パウリ行列の項で表される多項式に基づく「標準」量子ラッサール階層とは対照的である。 この階層の正しさを証明するために、キュービットスワップ作用素によって生成される代数の有限表現を与える。 このプレゼンテーションは、スワップ演算子を使って記述された多項式を操作するためにコンピュータ代数的手法を使うことを可能にし、独立した興味を持つかもしれない。 驚くべきことに、この新しい階層のレベル2は、最大8頂点のグラフ上の一様エッジ重みを持つすべてのqmcインスタンスにおいて、正確に(10^{-7}$)である。 この論文の2番目の大きな貢献は、あるグラフに対してQMCハミルトンの最大固有値を正確に計算する多項式時間アルゴリズムである。 後者の特別なケースは、一様辺重みを持つ完備二部グラフであり、リーブとマティスの業績から正確な解が知られている。 この手法は対称群の表現論を用いており、リーブ・マティス結果の一般化と見なすことができる。

The Quantum Max Cut (QMC) problem has emerged as a test-problem for designing approximation algorithms for local Hamiltonian problems. In this paper we attack this problem using the algebraic structure of QMC, in particular the relationship between the quantum max cut Hamiltonian and the representation theory of the symmetric group. The first major contribution of this paper is an extension of non-commutative Sum of Squares (ncSoS) optimization techniques to give a new hierarchy of relaxations to Quantum Max Cut. The hierarchy we present is based on optimizations over polynomials in the qubit swap operators. This is contrast to the ``standard'' quantum Lasserre Hierarchy, which is based on polynomials expressed in terms of the Pauli matrices. To prove correctness of this hierarchy, we give a finite presentation of the algebra generated by the qubit swap operators. This presentation allows for the use of computer algebraic techniques to manipulate simplify polynomials written in terms of the swap operators, and may be of independent interest. Surprisingly, we find that level-2 of this new hierarchy is exact (up to tolerance $10^{-7}$) on all QMC instances with uniform edge weights on graphs with at most 8 vertices. The second major contribution of this paper is a polynomial-time algorithm that exactly computes the maximum eigenvalue of the QMC Hamiltonian for certain graphs, including graphs that can be ``decomposed'' as a signed combination of cliques. A special case of the latter are complete bipartite graphs with uniform edge-weights, for which exact solutions are known from the work of Lieb and Mattis. Our methods, which use representation theory of the symmetric group, can be seen as a generalization of the Lieb-Mattis result.
翻訳日:2023-07-31 12:05:28 公開日:2023-07-28
# 2つの遠い超伝導スピン量子ビット間の強い可変結合

Strong tunable coupling between two distant superconducting spin qubits ( http://arxiv.org/abs/2307.15654v1 )

ライセンス: Link先を確認
Marta Pita-Vidal, Jaap J. Wesdorp, Lukas J. Splitthoff, Arno Bargerbos, Yu Liu, Leo P. Kouwenhoven, Christian Kraglund Andersen(参考訳) 超伝導(andreev)スピン量子ビットは、半導体-超導体ハイブリッドナノワイヤで実現される代替量子ビットプラットフォームとして最近登場した。 これらの量子ビットでは、スピンの自由度はスピン-軌道相互作用を介してジョセフソン接合の超電流と本質的に結合し、回路量子力学技術を用いて高速で高忠実なスピン読み出しを促進する。 さらに、このスピン超電流結合は誘導性多ビット結合を促進すると予測されている。 本研究では、2つの離れたアンドレーフスピン量子ビット間の強い超電流媒介結合を実証する。 このqubit-qubit相互作用は長手型であり、178MHzの結合強度までゲートおよびフラックスチューナブルであることを示す。 最後に、磁気フラックスを用いて、結合をその場で切り離すことができる。 本研究は, 半導体と超伝導回路の両方の利点を組み合わせ, 遠隔スピン間の2量子ゲートの高速化を図り, マイクロスピン状態の超伝導量子ビットアーキテクチャへの統合を実証するものである。

Superconducting (or Andreev) spin qubits have recently emerged as an alternative qubit platform with realizations in semiconductor-superconductor hybrid nanowires. In these qubits, the spin degree of freedom is intrinsically coupled to the supercurrent across a Josephson junction via the spin-orbit interaction, which facilitates fast, high-fidelity spin readout using circuit quantum electrodynamics techniques. Moreover, this spin-supercurrent coupling has been predicted to facilitate inductive multi-qubit coupling. In this work, we demonstrate a strong supercurrent-mediated coupling between two distant Andreev spin qubits. This qubit-qubit interaction is of the longitudinal type and we show that it is both gate- and flux-tunable up to a coupling strength of 178 MHz. Finally, we find that the coupling can be switched off in-situ using a magnetic flux. Our results demonstrate that integrating microscopic spin states into a superconducting qubit architecture can combine the advantages of both semiconductors and superconducting circuits and pave the way to fast two-qubit gates between remote spins.
翻訳日:2023-07-31 12:05:00 公開日:2023-07-28
# 特徴量に基づくOOD検出の鍵としての多層凝集

Multi-layer Aggregation as a key to feature-based OOD detection ( http://arxiv.org/abs/2307.15647v1 )

ライセンス: Link先を確認
Benjamin Lambert, Florence Forbes, Senan Doyle and Michel Dojat(参考訳) ディープラーニングモデルは、トレーニング段階で観察されなかった入力画像のバリエーションによって容易に妨げられ、予測不可能な予測をもたらす。 このようなアウト・オブ・ディストリビューション(OOD)画像の検出は医療画像解析の文脈において特に重要である。 近年,訓練されたモデルの中間的特徴の分析に基づいて,新しい手法のカテゴリが出現している。 これらの方法は、固定された慎重に選択された層で得られた特徴写像を考える単層法と、モデルによって生成された特徴写像のアンサンブルを考える多層法である。 有望ではあるが、これらのアルゴリズムの適切な比較はまだ不十分だ。 本研究では,約7800個の3次元MRI画像を表すOOD(20種類の大スペクトル)の様々な特徴量に基づくOOD検出手法を比較した。 我々の実験は2つの現象に光を当てた。 第一に、多層法は単層法よりも一貫して優れており、異常の種類によっては矛盾する振る舞いをする傾向がある。 第二に、OOD検出性能は基盤となるニューラルネットワークのアーキテクチャに大きく依存する。

Deep Learning models are easily disturbed by variations in the input images that were not observed during the training stage, resulting in unpredictable predictions. Detecting such Out-of-Distribution (OOD) images is particularly crucial in the context of medical image analysis, where the range of possible abnormalities is extremely wide. Recently, a new category of methods has emerged, based on the analysis of the intermediate features of a trained model. These methods can be divided into 2 groups: single-layer methods that consider the feature map obtained at a fixed, carefully chosen layer, and multi-layer methods that consider the ensemble of the feature maps generated by the model. While promising, a proper comparison of these algorithms is still lacking. In this work, we compared various feature-based OOD detection methods on a large spectra of OOD (20 types), representing approximately 7800 3D MRIs. Our experiments shed the light on two phenomenons. First, multi-layer methods consistently outperform single-layer approaches, which tend to have inconsistent behaviour depending on the type of anomaly. Second, the OOD detection performance highly depends on the architecture of the underlying neural network.
翻訳日:2023-07-31 12:04:42 公開日:2023-07-28
# 肺結節と大量分節に対するスケール認識テスト時クリック適応

Scale-aware Test-time Click Adaptation for Pulmonary Nodule and Mass Segmentation ( http://arxiv.org/abs/2307.15645v1 )

ライセンス: Link先を確認
Zhihao Li, Jiancheng Yang, Yongchao Xu, Li Zhang, Wenhui Dong, and Bo Du(参考訳) 肺癌検診において肺結節と腫瘤は重要な画像像であり,臨床診断に注意を要する。 深層学習による医用画像分割は成功したが,結節や腫瘤の病変の大きさによるロバストな評価はいまだに困難である。 本稿では,この課題に対処するために,スケールアウェアテスト時間適応型マルチスケールニューラルネットワークを提案する。 具体的には,特に大きな病変に対してセグメント化性能を向上させるために,無力に取得可能な病変クリックをテストタイムキューとして,適応型スケールアウェアテスト時間クリック適応法を提案する。 提案手法は既存のネットワークにシームレスに統合できる。 オープンソースのデータセットと社内のデータセットの両方に関する広範な実験は、cnnおよびtransformerベースのセグメンテーション法に対して提案手法の有効性を一貫して実証している。 私たちのコードはhttps://github.com/SplinterLi/SaTTCAで利用可能です。

Pulmonary nodules and masses are crucial imaging features in lung cancer screening that require careful management in clinical diagnosis. Despite the success of deep learning-based medical image segmentation, the robust performance on various sizes of lesions of nodule and mass is still challenging. In this paper, we propose a multi-scale neural network with scale-aware test-time adaptation to address this challenge. Specifically, we introduce an adaptive Scale-aware Test-time Click Adaptation method based on effortlessly obtainable lesion clicks as test-time cues to enhance segmentation performance, particularly for large lesions. The proposed method can be seamlessly integrated into existing networks. Extensive experiments on both open-source and in-house datasets consistently demonstrate the effectiveness of the proposed method over some CNN and Transformer-based segmentation methods. Our code is available at https://github.com/SplinterLi/SaTTCA
翻訳日:2023-07-31 12:04:23 公開日:2023-07-28
# 視覚・言語ナビゲーションにおけるデータ生成のスケーリング

Scaling Data Generation in Vision-and-Language Navigation ( http://arxiv.org/abs/2307.15644v1 )

ライセンス: Link先を確認
Zun Wang, Jialu Li, Yicong Hong, Yi Wang, Qi Wu, Mohit Bansal, Stephen Gould, Hao Tan, Yu Qiao(参考訳) 近年、言語誘導視覚ナビゲーションの研究により、トラバーサブル環境の多様性と一般化エージェントの訓練のための監督の量に対する大きな需要が示されている。 本稿では,HM3DとGibsonのデータセットから1200以上の写真リアル環境を適用し,Web上の完全アクセス可能なリソースを用いて490万の命令軌道対を合成する,大規模学習用データを生成するための効果的なパラダイムを提案する。 重要なことに,このパラダイムにおける各コンポーネントがエージェントの性能に及ぼす影響を調査し,エージェントの事前訓練と微調整に拡張データを適切に適用する方法を検討する。 我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。 目視環境と目視環境の間の長期にわたる一般化のギャップも1%未満に縮める(以前のベストメソッドでは8%)。 さらに,本パラダイムは, CVDN, REVERIE, R2Rにおける新しい最先端ナビゲーション結果を実現するために, 連続環境において異なるモデルを容易にする。

Recent research in language-guided visual navigation has demonstrated a significant demand for the diversity of traversable environments and the quantity of supervision for training generalizable agents. To tackle the common data scarcity issue in existing vision-and-language navigation datasets, we propose an effective paradigm for generating large-scale data for learning, which applies 1200+ photo-realistic environments from HM3D and Gibson datasets and synthesizes 4.9 million instruction trajectory pairs using fully-accessible resources on the web. Importantly, we investigate the influence of each component in this paradigm on the agent's performance and study how to adequately apply the augmented data to pre-train and fine-tune an agent. Thanks to our large-scale dataset, the performance of an existing agent can be pushed up (+11% absolute with regard to previous SoTA) to a significantly new best of 80% single-run success rate on the R2R test split by simple imitation learning. The long-lasting generalization gap between navigating in seen and unseen environments is also reduced to less than 1% (versus 8% in the previous best method). Moreover, our paradigm also facilitates different models to achieve new state-of-the-art navigation results on CVDN, REVERIE, and R2R in continuous environments.
翻訳日:2023-07-31 12:04:12 公開日:2023-07-28
# QbC: 構成による量子精度

QbC: Quantum Correctness by Construction ( http://arxiv.org/abs/2307.15641v1 )

ライセンス: Link先を確認
Anurudh Peduri, Ina Schaefer, Michael Walter(参考訳) 量子アルゴリズムの急速な進歩と複雑さの増大により、量子プログラムの正確性が大きな関心事となっている。 過去数年間の研究で、量子ホア論理のような証明システムを用いて量子プログラムを正式に検証するための様々なアプローチが提案されている。 これらの以前のアプローチはすべてポストホックで、まず完全なプログラムを実装し、その正しさを検証します。 本稿では, 量子プログラムの仕様から, 正確性を保証する方法で構築する手法として, 構成による量子正当性(QbC)を提案する。 我々は,プログラム特性の指定にプリ条件とポスト条件を用い,量子ビット言語で正しいプログラムを構築するための改良規則を提案する。 本稿では,2つの慣用問題,テレポーテーションとサーチの量子プログラムを構築することでQbCを検証する。 このアプローチは、プログラムの詳細を導出する方法を自然に示唆し、その過程で重要な設計選択を強調する。 このように、QbCは量子アルゴリズムとソフトウェアの設計と分類を支援する上で重要な役割を果たすと信じている。

Thanks to the rapid progress and growing complexity of quantum algorithms, correctness of quantum programs has become a major concern. Pioneering research over the past years has proposed various approaches to formally verify quantum programs using proof systems such as quantum Hoare logic. All these prior approaches are post-hoc: one first implements a complete program and only then verifies its correctness. In this work, we propose Quantum Correctness by Construction (QbC): an approach to constructing quantum programs from their specification in a way that ensures correctness. We use pre- and postconditions to specify program properties, and propose a set of refinement rules to construct correct programs in a quantum while language. We validate QbC by constructing quantum programs for two idiomatic problems, teleportation and search, from their specification. We find that the approach naturally suggests how to derive program details, highlighting key design choices along the way. As such, we believe that QbC can play an important role in supporting the design and taxonomization of quantum algorithms and software.
翻訳日:2023-07-31 12:03:52 公開日:2023-07-28
# CLIPがビジュアル美学学習者により良い機能を提供

CLIP Brings Better Features to Visual Aesthetics Learners ( http://arxiv.org/abs/2307.15640v1 )

ライセンス: Link先を確認
Liwu Xu, Jinjin Xu, Yuzhe Yang, Yijie Huang, Yanchun Xie, Yaqian Li(参考訳) 様々な下流タスクにおける事前学習アプローチの成功は、コンピュータビジョンの分野を活性化させた。 画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。 本研究では、統一的で柔軟な2相 \textbf{C}LIP ベースの \textbf{S}emi-supervised \textbf{K}nowledge \textbf{D}istillation パラダイム、すなわち \textbf{\textit{CSKD}} を提案する。 具体的には、まずマルチソースのラベルなしデータセットを統合して、所定のビジュアルエンコーダとオフザシェルのCLIPイメージエンコーダ間のリッチな特徴を特徴アライメントロスを介して整列させる。 特に、与えられた視覚エンコーダはサイズや構造によって制限されず、十分に訓練された後、学生と教師の両方にとってより優れた視覚的美学学習者としてシームレスに機能する。 第2段階では、ラベルなしデータは半教師付きIAA学習にも利用され、レイテンシに敏感な生産シナリオに適用した場合、学生モデルの性能をさらに向上させる。 特徴のアライメント前後の注意距離とエントロピーを分析することで,特徴の崩壊を緩和し,クリップ画像エンコーダに基づいて直接訓練するのではなく,特徴のアライメントの必要性を示す。 複数の広く使用されているIAAベンチマークで最先端の性能を達成するCSKDの優位性を示している。

The success of pre-training approaches on a variety of downstream tasks has revitalized the field of computer vision. Image aesthetics assessment (IAA) is one of the ideal application scenarios for such methods due to subjective and expensive labeling procedure. In this work, an unified and flexible two-phase \textbf{C}LIP-based \textbf{S}emi-supervised \textbf{K}nowledge \textbf{D}istillation paradigm is proposed, namely \textbf{\textit{CSKD}}. Specifically, we first integrate and leverage a multi-source unlabeled dataset to align rich features between a given visual encoder and an off-the-shelf CLIP image encoder via feature alignment loss. Notably, the given visual encoder is not limited by size or structure and, once well-trained, it can seamlessly serve as a better visual aesthetic learner for both student and teacher. In the second phase, the unlabeled data is also utilized in semi-supervised IAA learning to further boost student model performance when applied in latency-sensitive production scenarios. By analyzing the attention distance and entropy before and after feature alignment, we notice an alleviation of feature collapse issue, which in turn showcase the necessity of feature alignment instead of training directly based on CLIP image encoder. Extensive experiments indicate the superiority of CSKD, which achieves state-of-the-art performance on multiple widely used IAA benchmarks.
翻訳日:2023-07-31 12:03:36 公開日:2023-07-28
# odtlearn: 予測と処方のための最適決定木を学ぶためのパッケージ

ODTlearn: A Package for Learning Optimal Decision Trees for Prediction and Prescription ( http://arxiv.org/abs/2307.15691v1 )

ライセンス: Link先を確認
Patrick Vossler, Sina Aghaei, Nathan Justin, Nathanael Jo, Andr\'es G\'omez, Phebe Vayanos(参考訳) odtlearnはオープンソースのpythonパッケージで、aghaei et al.(2019)で提案されているmixed-integer optimization(mio)フレームワークといくつかの拡張に基づいて、高度な予測および規範タスクのための最適な決定木を学ぶ方法を提供する。 現在のバージョンでは、最適分類木、最適フェア分類木、分布シフトに頑健な最適分類木、観測データから最適規範木を学ぶための実装を提供している。 我々は,新しい最適決定木問題クラス,再構成戦略,解法アルゴリズムの導入により,メンテナンスや拡張が容易になるようにパッケージを設計した。 この目的のために、パッケージはオブジェクト指向の設計原則に従い、商用(Gurobi)とオープンソース(COIN-ORブランチとカット)の2つをサポートする。 パッケージドキュメンテーションと広範なユーザーガイドはhttps://d3m-research-group.github.io/odtlearn/にある。 さらに、ユーザはパッケージのソースコードを閲覧し、https://github.com/d3m-research-group/odtlearn.comを訪問することで機能要求やバグレポートを送信できる。

ODTLearn is an open-source Python package that provides methods for learning optimal decision trees for high-stakes predictive and prescriptive tasks based on the mixed-integer optimization (MIO) framework proposed in Aghaei et al. (2019) and several of its extensions. The current version of the package provides implementations for learning optimal classification trees, optimal fair classification trees, optimal classification trees robust to distribution shifts, and optimal prescriptive trees from observational data. We have designed the package to be easy to maintain and extend as new optimal decision tree problem classes, reformulation strategies, and solution algorithms are introduced. To this end, the package follows object-oriented design principles and supports both commercial (Gurobi) and open source (COIN-OR branch and cut) solvers. The package documentation and an extensive user guide can be found at https://d3m-research-group.github.io/odtlearn/. Additionally, users can view the package source code and submit feature requests and bug reports by visiting https://github.com/D3M-Research-Group/odtlearn.
翻訳日:2023-07-31 11:54:52 公開日:2023-07-28
# 実機ハードウェアにおけるオフライン強化学習のベンチマーク

Benchmarking Offline Reinforcement Learning on Real-Robot Hardware ( http://arxiv.org/abs/2307.15690v1 )

ライセンス: Link先を確認
Nico G\"urtler, Sebastian Blaes, Pavel Kolev, Felix Widmaier, Manuel W\"uthrich, Stefan Bauer, Bernhard Sch\"olkopf and Georg Martius(参考訳) 以前記録されたデータからの学習ポリシーは、オンライン学習がしばしば実現不可能であるため、現実世界のロボット工学タスクにとって有望な方向である。 特にデクサラスな操作は、一般には未解決の問題である。 しかし、オフライン強化学習と多種多様なデータセットの組み合わせは、近年の教師あり学習の急速な進歩と類似して、この挑戦的な領域におけるブレークスルーにつながる可能性がある。 この問題に取り組むための研究コミュニティの努力を調整するために,我々は以下のベンチマークを提案する。 一 シミュレーションにより訓練された有能なrlエージェントにより得られた2つのタスクのデクスタース操作プラットフォームからオフライン学習のための大量のデータ 二 現実世界のロボットシステムにおいて学習方針を実行するオプション及び効率的なデバッグのためのシミュレーション 本研究では,データセット上でのオフライン強化学習アルゴリズムの評価を行い,実システム上でのオフライン強化学習のための再現可能な実験セットアップを提供する。

Learning policies from previously recorded data is a promising direction for real-world robotics tasks, as online learning is often infeasible. Dexterous manipulation in particular remains an open problem in its general form. The combination of offline reinforcement learning with large diverse datasets, however, has the potential to lead to a breakthrough in this challenging domain analogously to the rapid progress made in supervised learning in recent years. To coordinate the efforts of the research community toward tackling this problem, we propose a benchmark including: i) a large collection of data for offline learning from a dexterous manipulation platform on two tasks, obtained with capable RL agents trained in simulation; ii) the option to execute learned policies on a real-world robotic system and a simulation for efficient debugging. We evaluate prominent open-sourced offline reinforcement learning algorithms on the datasets and provide a reproducible experimental setup for offline reinforcement learning on real systems.
翻訳日:2023-07-31 11:54:30 公開日:2023-07-28
# 時空間変調計測による工学的絡み合い幾何学

Engineering entanglement geometry via spacetime-modulated measurements ( http://arxiv.org/abs/2307.15689v1 )

ライセンス: Link先を確認
Aditya Cowsik, Matteo Ippoliti, Xiao-Liang Qi(参考訳) 本稿では, 観測力学によるホログラフィックエンタングルメント構造を持つ量子状態を実現するための一般手法を提案する。 1+1$次元のランダムなユニタリ回路から始めて、時空間変調密度の測定を導入する。 測定によって引き起こされる絡み合い遷移の既知の臨界特性を利用して、(固定位相を持つ)バルク空間の任意の幾何学を設計できる。 これらのジオメトリは、境界(アウトプット)状態の絡み合い構造を制御する。 我々は,双曲型半平面とBTZブラックホールの空間断面という,2次元の関心領域に対する具体的なプロトコルを提供することによって,我々のアプローチを実証する。 局所的エンタングルド参照量子ビットを用いて、エンタングルメントウェッジの直接イメージングを含む、基礎となるエンタングルメント幾何のシグネチャを数値的に検証する。 本研究は,短期量子シミュレータ上で幾何学的絡み合い構造を実現するための具体的プラットフォームを提供する。

We introduce a general approach to realize quantum states with holographic entanglement structure via monitored dynamics. Starting from random unitary circuits in $1+1$ dimensions, we introduce measurements with a spatiotemporally-modulated density. Exploiting the known critical properties of the measurement-induced entanglement transition, this allows us to engineer arbitrary geometries for the bulk space (with a fixed topology). These geometries in turn control the entanglement structure of the boundary (output) state. We demonstrate our approach by giving concrete protocols for two geometries of interest in two dimensions: the hyperbolic half-plane and a spatial section of the BTZ black hole. We numerically verify signatures of the underlying entanglement geometry, including a direct imaging of entanglement wedges by using locally-entangled reference qubits. Our results provide a concrete platform for realizing geometric entanglement structures on near-term quantum simulators.
翻訳日:2023-07-31 11:54:14 公開日:2023-07-28
# 量子マックスカットのためのSU(2)対称半定値計画階層

An SU(2)-symmetric Semidefinite Programming Hierarchy for Quantum Max Cut ( http://arxiv.org/abs/2307.15688v1 )

ライセンス: Link先を確認
Jun Takahashi, Chaithanya Rayudu, Cunlu Zhou, Robbie King, Kevin Thompson and Ojas Parekh(参考訳) 局所ハミルトンの極端エネルギー状態の理解と近似は、量子物理学と複雑性理論の中心的な問題である。 最近の研究は、局所ハミルトニアンの近似アルゴリズム、特に反強磁性ハイゼンベルクモデルと密接に関連する「量子マックスカット」(QMax-Cut)問題の開発に焦点を当てている。 本稿では,Su(2)対称性を考慮したQMaxCutに適したNavascues-Pironio-Acin(NPA)階層に基づく半定値プログラミング(SDP)緩和のファミリを紹介する。 この階層構造は、SWAP作用素の代数の新たな特徴づけに基づく有限レベルでの最適QMaxCut値に収束することを示す。 いくつかの重要なグラフの族上で、階層の正確さと不完全性を示すいくつかの解析的証明と計算結果を与える。 また, 凝縮体物理学におけるQMaxCutのSDPアプローチとフラストレーションフリーネスの関係を考察し, SDP解法がフラストレーションフリーネスの効率よく計算可能な一般化となることを数値的に示す。 さらに,数値シミュレーションにより,フラストレーションのない領域から離れても,物理量計算やハイゼンベルク型統計力学モデルの物理的特徴を捉える近似手法としてのsdpアルゴリズムの可能性を示す。

Understanding and approximating extremal energy states of local Hamiltonians is a central problem in quantum physics and complexity theory. Recent work has focused on developing approximation algorithms for local Hamiltonians, and in particular the ``Quantum Max Cut'' (QMax-Cut) problem, which is closely related to the antiferromagnetic Heisenberg model. In this work, we introduce a family of semidefinite programming (SDP) relaxations based on the Navascues-Pironio-Acin (NPA) hierarchy which is tailored for QMaxCut by taking into account its SU(2) symmetry. We show that the hierarchy converges to the optimal QMaxCut value at a finite level, which is based on a new characterization of the algebra of SWAP operators. We give several analytic proofs and computational results showing exactness/inexactness of our hierarchy at the lowest level on several important families of graphs. We also discuss relationships between SDP approaches for QMaxCut and frustration-freeness in condensed matter physics and numerically demonstrate that the SDP-solvability practically becomes an efficiently-computable generalization of frustration-freeness. Furthermore, by numerical demonstration we show the potential of SDP algorithms to perform as an approximate method to compute physical quantities and capture physical features of some Heisenberg-type statistical mechanics models even away from the frustration-free regions.
翻訳日:2023-07-31 11:53:59 公開日:2023-07-28
# 緊急脱出経路問題に対する教師付きハイブリッド量子機械学習ソリューション

A supervised hybrid quantum machine learning solution to the emergency escape routing problem ( http://arxiv.org/abs/2307.15682v1 )

ライセンス: Link先を確認
Nathan Haboury, Mo Kordzanganeh, Sebastian Schmitt, Ayush Joshi, Igor Tokarev, Lukas Abdallah, Andrii Kurkin, Basil Kyriacou, Alexey Melnikov(参考訳) 自然災害への対応を効果的に行うことは、その壊滅的な影響を著しく軽減する。 本研究は,自然災害時の車両の緊急避難計画を最適化するために,教師付きハイブリッド量子機械学習を利用する可能性を検討する。 この研究は地震の緊急性に着目し、地震が都市の地域を損傷する動的計算グラフとして問題をモデル化する。 住民は交通渋滞が発生する出口に到達して街を避難させようとする。 この状況は不確実で動的に進化する地図上の最短経路問題としてモデル化される。 本研究では,新しいハイブリッド型教師付き学習手法を提案し,具体的な都市グラフ上で仮定した状況で検証する。 このアプローチは、古典的なFiLMネットワークと平行な新しい量子特徴量線形変調(FiLM)ニューラルネットワークを用いて、決定論的動的グラフ上のダイクストラのノード幅の短いパスアルゴリズムを模倣する。 量子ニューラルネットワークを並列に加えることで、データセットの高調波と非調和の特徴を量子成分と古典成分に分割することで、モデル全体の表現性が向上する。 ハイブリッド教師付き学習エージェントは、Dijkstraの最短経路のデータセットに基づいてトレーニングされ、ナビゲーションタスクをうまく学習することができる。 ハイブリッド量子ネットワークは、純粋に古典的な教師付き学習アプローチを7%精度で改善する。 量子部分は予測に45.(3)%の有意な寄与を示し、そのネットワークはイオンベースの量子コンピュータ上で実行可能であることを示した。 その結果,自然災害時の緊急避難計画を改善するために,ハイブリッド量子機械学習が有効である可能性が示唆された。

Managing the response to natural disasters effectively can considerably mitigate their devastating impact. This work explores the potential of using supervised hybrid quantum machine learning to optimize emergency evacuation plans for cars during natural disasters. The study focuses on earthquake emergencies and models the problem as a dynamic computational graph where an earthquake damages an area of a city. The residents seek to evacuate the city by reaching the exit points where traffic congestion occurs. The situation is modeled as a shortest-path problem on an uncertain and dynamically evolving map. We propose a novel hybrid supervised learning approach and test it on hypothetical situations on a concrete city graph. This approach uses a novel quantum feature-wise linear modulation (FiLM) neural network parallel to a classical FiLM network to imitate Dijkstra's node-wise shortest path algorithm on a deterministic dynamic graph. Adding the quantum neural network in parallel increases the overall model's expressivity by splitting the dataset's harmonic and non-harmonic features between the quantum and classical components. The hybrid supervised learning agent is trained on a dataset of Dijkstra's shortest paths and can successfully learn the navigation task. The hybrid quantum network improves over the purely classical supervised learning approach by 7% in accuracy. We show that the quantum part has a significant contribution of 45.(3)% to the prediction and that the network could be executed on an ion-based quantum computer. The results demonstrate the potential of supervised hybrid quantum machine learning in improving emergency evacuation planning during natural disasters.
翻訳日:2023-07-31 11:53:33 公開日:2023-07-28
# リカレントニューラルネットワークのための動的解析と固有初期化器

Dynamic Analysis and an Eigen Initializer for Recurrent Neural Networks ( http://arxiv.org/abs/2307.15679v1 )

ライセンス: Link先を確認
Ran Dou and Jose Principe(参考訳) リカレントニューラルネットワークでは、長期依存を学習することが、勾配問題の解消と爆発の主な困難である。 多くの研究者がこの問題を解決し、多くのアルゴリズムを提案した。 これらのアルゴリズムは大きな成功を収めたが、情報の崩壊の仕方を理解することは依然として未解決の問題である。 本稿では,リカレントニューラルネットワークにおける隠れ状態のダイナミクスについて検討する。 本研究では,重み行列の固有分解に基づく隠れ状態空間の解析のための新しい視点を提案する。 線形状態空間モデルによる解析を開始し、活性化関数における情報保存機能を説明する。 本稿では,固有解析に基づく長期依存の説明を行う。 また,回帰タスクと分類タスクに対する固有値の異なる挙動を指摘する。 そこで本研究では,よく訓練されたリカレントニューラルネットワークの観測から,リカレントニューラルネットワークの新たな初期化手法を提案する。 バニラ-RNN、LSTM、GRUにも適用可能である。 トミタ文法、ピクセル単位のmnistデータセット、機械翻訳データセット(multi30k)など、多くのデータセットをテストする。 Xavierイニシャライザやカイミングイニシャライザ、IRNNやsp-RNNといった他のRNNオンリーイニシャライザよりもパフォーマンスが優れている。

In recurrent neural networks, learning long-term dependency is the main difficulty due to the vanishing and exploding gradient problem. Many researchers are dedicated to solving this issue and they proposed many algorithms. Although these algorithms have achieved great success, understanding how the information decays remains an open problem. In this paper, we study the dynamics of the hidden state in recurrent neural networks. We propose a new perspective to analyze the hidden state space based on an eigen decomposition of the weight matrix. We start the analysis by linear state space model and explain the function of preserving information in activation functions. We provide an explanation for long-term dependency based on the eigen analysis. We also point out the different behavior of eigenvalues for regression tasks and classification tasks. From the observations on well-trained recurrent neural networks, we proposed a new initialization method for recurrent neural networks, which improves consistently performance. It can be applied to vanilla-RNN, LSTM, and GRU. We test on many datasets, such as Tomita Grammars, pixel-by-pixel MNIST datasets, and machine translation datasets (Multi30k). It outperforms the Xavier initializer and kaiming initializer as well as other RNN-only initializers like IRNN and sp-RNN in several tasks.
翻訳日:2023-07-31 11:53:10 公開日:2023-07-28
# ITモニタリング時系列からの因果発見のケーススタディ

Case Studies of Causal Discovery from IT Monitoring Time Series ( http://arxiv.org/abs/2307.15678v1 )

ライセンス: Link先を確認
Ali A\"it-Bachir, Charles K. Assaad, Christophe de Bignicourt, Emilie Devijver, Simon Ferreira, Eric Gaussier, Hosein Mohanna, Lei Zan(参考訳) 情報技術(IT)システムは、データストレージ、通信、プロセス自動化を扱う現代ビジネスにとって不可欠である。 これらのシステムのモニタリングは、分析のために広範囲の観測時系列データを集めることができるため、適切な機能と効率に欠かせない。 因果発見への関心は、it監視システムにおいて、itシステムのさまざまなコンポーネント間の因果関係を知ることがダウンタイムの低減、システムパフォーマンスの向上、異常やインシデントの根本原因の特定に役立つため、増大している。 また、過去のデータ分析によって将来の問題を積極的に予測できる。 その潜在的な利点にもかかわらず、IT監視データに因果発見アルゴリズムを適用することは、データの複雑さのために課題を生じさせる。 例えば、IT監視データには、不整合時系列、睡眠時系列、タイムスタンプエラー、欠落した値が含まれていることが多い。 本稿では,さまざまなit監視データセットに因果発見アルゴリズムを適用する場合のケーススタディについて述べる。

Information technology (IT) systems are vital for modern businesses, handling data storage, communication, and process automation. Monitoring these systems is crucial for their proper functioning and efficiency, as it allows collecting extensive observational time series data for analysis. The interest in causal discovery is growing in IT monitoring systems as knowing causal relations between different components of the IT system helps in reducing downtime, enhancing system performance and identifying root causes of anomalies and incidents. It also allows proactive prediction of future issues through historical data analysis. Despite its potential benefits, applying causal discovery algorithms on IT monitoring data poses challenges, due to the complexity of the data. For instance, IT monitoring data often contains misaligned time series, sleeping time series, timestamp errors and missing values. This paper presents case studies on applying causal discovery algorithms to different IT monitoring datasets, highlighting benefits and ongoing challenges.
翻訳日:2023-07-31 11:52:52 公開日:2023-07-28
# 攻撃伝播を伴う表データに対するadversarial training

Adversarial training for tabular data with attack propagation ( http://arxiv.org/abs/2307.15677v1 )

ライセンス: Link先を確認
Tiago Leon Melo, Jo\~ao Bravo, Marco O. P. Sampaio, Paolo Romano, Hugo Ferreira, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) 悪意のあるアクターが機械学習(ML)モデルを誤って不正行為を合法的に分類しようとするのに対して、システムメンテナはそれらを阻止しようとする。 このような攻撃に対して堅牢なMLモデルを適応的にトレーニングすることは、ビジネス上の損失を防止し、システムメンテナの作業負荷を低減します。 このようなアプリケーションでは、データは表形式で表示され、攻撃者が複雑な機能エンジニアリング変換を操作でき、モデルトレーニングに有用な信号を提供するため、スペース攻撃者はアクセスできない。 そこで本研究では,訓練ループ内の2つの空間間に攻撃が伝播する新しい形態の敵訓練を提案する。 次に、この手法を実世界のクレジットカード不正検出領域のデータセット上で実証的にテストする。 本手法は,中程度の攻撃で約30%のパフォーマンス低下を防止でき,かつ攻撃が7%未満で性能のトレードオフが失われる非常に攻撃的な攻撃では必須であることを示す。

Adversarial attacks are a major concern in security-centered applications, where malicious actors continuously try to mislead Machine Learning (ML) models into wrongly classifying fraudulent activity as legitimate, whereas system maintainers try to stop them. Adversarially training ML models that are robust against such attacks can prevent business losses and reduce the work load of system maintainers. In such applications data is often tabular and the space available for attackers to manipulate undergoes complex feature engineering transformations, to provide useful signals for model training, to a space attackers cannot access. Thus, we propose a new form of adversarial training where attacks are propagated between the two spaces in the training loop. We then test this method empirically on a real world dataset in the domain of credit card fraud detection. We show that our method can prevent about 30% performance drops under moderate attacks and is essential under very aggressive attacks, with a trade-off loss in performance under no attacks smaller than 7%.
翻訳日:2023-07-31 11:52:35 公開日:2023-07-28
# 非コヒーレントな量子ノイズチャネルの存在下での量子位相推定アルゴリズムのシミュレーションと解析

Simulation and ananlysis of quantum phase estimation algorithm in the presence of incoherent quantum noise channels ( http://arxiv.org/abs/2307.15675v1 )

ライセンス: Link先を確認
Muhammad Faizan and Muhammad Faryad(参考訳) 量子位相推定(QPE)は量子フーリエ変換(QFT)に基づく基本アルゴリズムの1つである。 順序探索、分解、ユニタリ作用素の固有値の探索に応用できる。 QPEや他の量子アルゴリズムを実行する際の大きな課題は、量子コンピュータのノイズである。 このノイズは、キュービットと環境の相互作用と、ゲート操作の故障によるものである。 本研究では,qpeに対する非一貫性雑音の影響を,トレース保存と完全正の量子チャネルとしてモデル化した。 ノイズの存在下でのQPEの性能を理解するために、脱分極、位相フリップ、ビット相フリップ、ビット相フリップなどの異なるノイズモデルを用いる。 シミュレーションの結果,単位作用素の固有値の標準偏差は個々の量子ビットの誤差確率に強い指数的依存性を持つことが示された。 さらに、固定誤差確率の量子ビット数によって標準偏差が増加する。

The quantum phase estimation (QPE) is one of the fundamental algorithms based on the quantum Fourier transform (QFT). It has applications in order-finding, factoring, and finding the eigenvalues of unitary operators. The major challenge in running QPE and other quantum algorithms is the noise in quantum computers. This noise is due to the interactions of qubits with the environment and due to the faulty gate operations. In the present work, we study the impact of incoherent noise on QPE, modeled as trace-preserving and completely positive quantum channels. Different noise models such as depolarizing, phase flip, bit flip, and bit-phase flip are taken to understand the performance of the QPE in the presence of noise. The simulation results indicate that the standard deviation of the eigenvalue of the unitary operator has strong exponential dependence upon the error probability of individual qubits. Furthermore, the standard deviation increases with the number of qubits for fixed error probability.
翻訳日:2023-07-31 11:52:17 公開日:2023-07-28
# RydIQule: RydbergとAtomic Systemsをモデリングするためのグラフベースのパラダイム

RydIQule: A Graph-based Paradigm for Modelling Rydberg and Atomic Systems ( http://arxiv.org/abs/2307.15673v1 )

ライセンス: Link先を確認
Benjamin N. Miller, David H. Meyer, Teemu Virtanen, Christopher M. O'Brien, and Kevin C. Cox(参考訳) 本稿では,オープンソースのpythonソフトウェアパッケージであるrydiquleについて述べる。 RydIQuleは、多レベル原子系に対するハミルトニアンを生成するために、隣接行列とパスフィニングに依存する方向グラフを使用する。 その後、RydIQule は半古典的な運動方程式 (Bloch equations) をテンソルに構成し、様々なシステムパラメータからなるシミュレーション全体を格納することができる。 このフレームワークを使用すると、RydIQuleは解釈型プログラミング言語の通常よりもはるかに高速にソリューションを返す。 RydIQuleは、現在利用可能なツールの能力を超えて、原子分光法とRydberg分光法の迅速な開発を促進する。 その有用性を実証するために、我々はRydIQuleを用いて1.7から116GHzの5つのrf音を同時に分解するドップラーブロードされたRydberg原子センサーをシミュレートした。 RydIQuleを使用することで、市販の市販デスクトップコンピュータ上で数時間でこのシミュレーションを解くことができる。

We describe a numerical technique and accompanying open-source Python software package called RydIQule. RydIQule uses a directional graph, relying on adjacency matrices and path-finding to generate a Hamiltonian for multi-level atomic systems. RydIQule then constructs semi-classical equations of motion (Bloch equations) into a tensor which can store an entire simulation consisting of varied system parameters. Using this framework, RydIQule returns solutions significantly faster than typical for interpreted programming languages. RydIQule extends beyond the capabilities of currently-available tools, facilitating rapid development in atomic and Rydberg spectroscopy. To demonstrate its utility, we use RydIQule to simulate a Doppler-broadened Rydberg atomic sensor that simultaneously demodulates five rf tones spanning from 1.7 to 116 GHz. Using RydIQule, this simulation can be solved in several hours on a commercial off-the-shelf desktop computer.
翻訳日:2023-07-31 11:52:03 公開日:2023-07-28
# アクティベーション当たり数量子で動作する量子ノイズ制限型光ニューラルネットワーク

Quantum-noise-limited optical neural networks operating at a few quanta per activation ( http://arxiv.org/abs/2307.15712v1 )

ライセンス: Link先を確認
Shi-Yuan Ma, Tianyu Wang, J\'er\'emie Laydevant, Logan G. Wright and Peter L. McMahon(参考訳) アナログ物理ニューラルネットワークは、デジタル電子ニューラルネットワークと比較してエネルギー効率と速度の向上を約束するが、通常、信号対雑音比(SNR)が大きくなるように、比較的高出力な状態で運用される(>10)。 アナログシステムの動作が高度に確率的になり、ノイズが信号の小さな摂動ではないような、超低消費電力のシステムで操作されたらどうなるのか? 本稿では,ある層が単一光子のみを用いてニューロンを活性化させる極限で動作する光ニューラルネットワークの設定において,この問題を考察する。 この限界におけるニューロンの活性化は、弱い光信号の単一光子検出の根本的な確率的性質から生じる量子ノイズによって支配される。 超高ノイズ(snr~1)にもかかわらず、光検出の確率的振舞いを直接モデル化する訓練手順を用いて、確率的光ニューラルネットワークを高い精度で決定論的画像分類タスクに訓練することが可能であることを示す。 単一光子系で動作する隠蔽層を有する光ニューラルネットワークを用いて,テスト精度98%のMNIST分類を実験的に実証し,その分類に使用する光エネルギーは,光エネルギー0.003 attojoules per MAC(MAC)演算あたり0.008 Photonsに相当することを示した。 実験では、従来の低光エネルギー実験よりも40倍少ない光子を用いて、90%の精度を実現した。 我々の研究は、量子ノイズが支配する極限で動作しているものを含む、非常に確率的なアナログシステムが、適切な訓練を受けた場合、決定的に高い精度で分類タスクを実行するニューラルネットワークの層として使用できることを示している。

Analog physical neural networks, which hold promise for improved energy efficiency and speed compared to digital electronic neural networks, are nevertheless typically operated in a relatively high-power regime so that the signal-to-noise ratio (SNR) is large (>10). What happens if an analog system is instead operated in an ultra-low-power regime, in which the behavior of the system becomes highly stochastic and the noise is no longer a small perturbation on the signal? In this paper, we study this question in the setting of optical neural networks operated in the limit where some layers use only a single photon to cause a neuron activation. Neuron activations in this limit are dominated by quantum noise from the fundamentally probabilistic nature of single-photon detection of weak optical signals. We show that it is possible to train stochastic optical neural networks to perform deterministic image-classification tasks with high accuracy in spite of the extremely high noise (SNR ~ 1) by using a training procedure that directly models the stochastic behavior of photodetection. We experimentally demonstrated MNIST classification with a test accuracy of 98% using an optical neural network with a hidden layer operating in the single-photon regime; the optical energy used to perform the classification corresponds to 0.008 photons per multiply-accumulate (MAC) operation, which is equivalent to 0.003 attojoules of optical energy per MAC. Our experiment used >40x fewer photons per inference than previous state-of-the-art low-optical-energy demonstrations, to achieve the same accuracy of >90%. Our work shows that some extremely stochastic analog systems, including those operating in the limit where quantum noise dominates, can nevertheless be used as layers in neural networks that deterministically perform classification tasks with high accuracy if they are appropriately trained.
翻訳日:2023-07-31 11:47:07 公開日:2023-07-28
# オープンワールドにおける半監督対象検出

Semi-Supervised Object Detection in the Open World ( http://arxiv.org/abs/2307.15710v1 )

ライセンス: Link先を確認
Garvita Allabadi, Ana Lucic, Peter Pao-Huang, Yu-Xiong Wang and Vikram Adve(参考訳) 既存の半教師対象検出のアプローチでは、トレーニングやラベルなしデータセット、すなわちIDデータに存在するクラスの固定セットを仮定する。 これらの技術の性能は、これらの技術がオープンワールドに展開されたときに著しく低下する。これは、未ラベルおよびテストデータにはトレーニング中に見られなかったオブジェクト、すなわちアウト・オブ・ディストリビューション(OOD)データが含まれているためである。 この論文で検討する2つの重要な質問は、これらのOODサンプルを検出でき、もしそうなら、それらから学べるだろうか? これらの考察を念頭に、OODデータを効果的に検出するOpen World Semi-supervised Detection framework(OWSSD)と、IDデータとOODデータの両方から学習する半教師付き学習パイプラインを提案する。 我々は、IDデータのみに基づいて訓練された軽量自動エンコーダネットワークからなるアンサンブルベースのOOD検出器を提案する。 広範な評価を通じて,本手法は最先端のood検出アルゴリズムと競合する性能を示すとともに,オープンワールドシナリオにおける半教師付き学習性能を著しく向上させる。

Existing approaches for semi-supervised object detection assume a fixed set of classes present in training and unlabeled datasets, i.e., in-distribution (ID) data. The performance of these techniques significantly degrades when these techniques are deployed in the open-world, due to the fact that the unlabeled and test data may contain objects that were not seen during training, i.e., out-of-distribution (OOD) data. The two key questions that we explore in this paper are: can we detect these OOD samples and if so, can we learn from them? With these considerations in mind, we propose the Open World Semi-supervised Detection framework (OWSSD) that effectively detects OOD data along with a semi-supervised learning pipeline that learns from both ID and OOD data. We introduce an ensemble based OOD detector consisting of lightweight auto-encoder networks trained only on ID data. Through extensive evalulation, we demonstrate that our method performs competitively against state-of-the-art OOD detection algorithms and also significantly boosts the semi-supervised learning performance in open-world scenarios.
翻訳日:2023-07-31 11:46:35 公開日:2023-07-28
# 量子状態の最大固有ランダム性

Maximal intrinsic randomness of a quantum state ( http://arxiv.org/abs/2307.15708v1 )

ライセンス: Link先を確認
Shuyang Meng, Fionnuala Curran, Gabriel Senno, Victoria J. Wright, M\'at\'e Farkas, Valerio Scarani, Antonio Ac\'in(参考訳) 量子論の最も直観に反する側面の1つは、物理界に「内在的」ランダム性が存在するという主張である。 量子情報科学は、過去10年間に固有の秘密の量子ランダム性の研究で大きく進歩してきた。 デバイス非依存とセミデバイス非依存の境界に重点が置かれているため、最も基本的な問題の1つに注意が払われていない。 この疑問に答えるのは、条件最小エントロピーと条件フォン・ノイマンエントロピーの2つの異なるランダム性定量化器である。 前者に対しては、盗聴者の最大推定確率を最小化する測定値を求めるmin-max問題を解く。 その結果、条件付きmin-entropy $H^{*}_{\textrm{min}}=-\log_{2}P^{*}_{\textrm{guess}}(\rho)$ with $P^{*}_{\textrm{guess}}(\rho)=\frac{1}{d}\,(\textrm{tr} \sqrt{\rho})^2$ を適切な射影測定によって保証できる。 後者の場合、最大値は$h^{*}= \log_{2}d-s(\rho)$であり、$s(\rho)$はフォン・ノイマンのエントロピーである。 H^{*}_{\textrm{min}}$ および $H^{*}$ の最適値は、$\rho$ の固有基底に偏らない任意の基底で測定し、その他の直感的な測定によって得られる。

One of the most counterintuitive aspects of quantum theory is its claim that there is 'intrinsic' randomness in the physical world. Quantum information science has greatly progressed in the study of intrinsic, or secret, quantum randomness in the past decade. With much emphasis on device-independent and semi-device-independent bounds, one of the most basic questions has escaped attention: how much intrinsic randomness can be extracted from a given state $\rho$, and what measurements achieve this bound? We answer this question for two different randomness quantifiers: the conditional min-entropy and the conditional von Neumann entropy. For the former, we solve the min-max problem of finding the measurement that minimises the maximal guessing probability of an eavesdropper. The result is that one can guarantee an amount of conditional min-entropy $H^{*}_{\textrm{min}}=-\log_{2}P^{*}_{\textrm{guess}}(\rho)$ with $P^{*}_{\textrm{guess}}(\rho)=\frac{1}{d}\,(\textrm{tr} \sqrt{\rho})^2$ by performing suitable projective measurements. For the latter, we find that its maximal value is $H^{*}= \log_{2}d-S(\rho)$, with $S(\rho)$ the von Neumann entropy of $\rho$. Optimal values for $H^{*}_{\textrm{min}}$ and $H^{*}$ are achieved by measuring in any basis that is unbiased to the eigenbasis of $\rho$, as well as by other less intuitive measurements.
翻訳日:2023-07-31 11:46:17 公開日:2023-07-28
# 自然言語生成の不確実性:理論から応用へ

Uncertainty in Natural Language Generation: From Theory to Applications ( http://arxiv.org/abs/2307.15703v1 )

ライセンス: Link先を確認
Joris Baan, Nico Daheim, Evgenia Ilia, Dennis Ulmer, Haau-Sing Li, Raquel Fern\'andez, Barbara Plank, Rico Sennrich, Chrysoula Zerva, Wilker Aziz(参考訳) 近年の強力な言語モデルの発展により、自然言語生成(NLG)は、要約や翻訳といった従来のタスクだけでなく、さまざまなアプリケーションに対する自然言語インタフェースとしても機能する重要な技術として登場した。 そのため、NLGシステムは、いつ間違っているかを示すこと、複数のビュー、バックグラウンド、書き込みスタイルをサポートすることで、多様な人間のサブ人口を反映して、信頼性が高く信頼性が高いことが重要である。 本稿では,不確実性に対する原則的対処が,これらの目標に適合したシステムや評価プロトコルの創出を支援することを論じる。 まず,不確実性を表現するのに必要な基本理論,フレームワーク,語彙について述べる。 そこで我々は,言語学的観点から,NLGの主な不確実性源を特徴付け,一般的なアレタリック/エピステミック二分法よりも情報的かつ忠実な2次元分類法を提案する。 最後に, 理論から応用へ移行し, 不確かさを活用し, パワーデコード, 制御可能な生成, 自己評価, 選択応答, アクティブ学習などを行う, エキサイティングな研究方向を強調する。

Recent advances of powerful Language Models have allowed Natural Language Generation (NLG) to emerge as an important technology that can not only perform traditional tasks like summarisation or translation, but also serve as a natural language interface to a variety of applications. As such, it is crucial that NLG systems are trustworthy and reliable, for example by indicating when they are likely to be wrong; and supporting multiple views, backgrounds and writing styles -- reflecting diverse human sub-populations. In this paper, we argue that a principled treatment of uncertainty can assist in creating systems and evaluation protocols better aligned with these goals. We first present the fundamental theory, frameworks and vocabulary required to represent uncertainty. We then characterise the main sources of uncertainty in NLG from a linguistic perspective, and propose a two-dimensional taxonomy that is more informative and faithful than the popular aleatoric/epistemic dichotomy. Finally, we move from theory to applications and highlight exciting research directions that exploit uncertainty to power decoding, controllable generation, self-assessment, selective answering, active learning and more.
翻訳日:2023-07-31 11:45:44 公開日:2023-07-28
# MeMOTR:マルチオブジェクト追跡のための長期メモリ拡張トランス

MeMOTR: Long-Term Memory-Augmented Transformer for Multi-Object Tracking ( http://arxiv.org/abs/2307.15700v1 )

ライセンス: Link先を確認
Ruopeng Gao, Limin Wang(参考訳) ビデオタスクとして、マルチオブジェクト追跡(MOT)は、ターゲットの時間的情報を効果的に捉えることが期待されている。 残念ながら、既存のほとんどのメソッドは、隣接するフレーム間のオブジェクトの特徴を明示的に活用するだけで、長期の時間情報をモデル化する能力は欠如している。 本稿では,マルチオブジェクト追跡のための長期メモリ拡張トランスであるMeMOTRを提案する。 本手法は,メモリアテンション層をカスタマイズした長期メモリインジェクションを利用することにより,同一オブジェクトのトラック埋め込みをより安定かつ識別可能にする。 これにより,モデルの目標関連性が大幅に向上する。 DanceTrack 実験の結果,MeMOTR は HOTA と AssA でそれぞれ 7.9 % と 13.0 % の精度で最先端の手法を著しく上回っていることがわかった。 さらに,本モデルは,MOT17上でのアソシエーション性能の他のトランスフォーマー方式よりも優れ,BDD100K上での一般化を実現している。 コードは \href{https://github.com/MCG-NJU/MeMOTR}{https://github.com/MCG-NJU/MeMOTR} で公開されている。

As a video task, Multi-Object Tracking (MOT) is expected to capture temporal information of targets effectively. Unfortunately, most existing methods only explicitly exploit the object features between adjacent frames, while lacking the capacity to model long-term temporal information. In this paper, we propose MeMOTR, a long-term memory-augmented Transformer for multi-object tracking. Our method is able to make the same object's track embedding more stable and distinguishable by leveraging long-term memory injection with a customized memory-attention layer. This significantly improves the target association ability of our model. Experimental results on DanceTrack show that MeMOTR impressively surpasses the state-of-the-art method by 7.9\% and 13.0\% on HOTA and AssA metrics, respectively. Furthermore, our model also outperforms other Transformer-based methods on association performance on MOT17 and generalizes well on BDD100K. Code is available at \href{https://github.com/MCG-NJU/MeMOTR}{https://github.com/MCG-NJU/MeMOTR}.
翻訳日:2023-07-31 11:45:24 公開日:2023-07-28
# SimDETR: DETRのための自己教師型事前トレーニングの簡易化

SimDETR: Simplifying self-supervised pretraining for DETR ( http://arxiv.org/abs/2307.15697v1 )

ライセンス: Link先を確認
Ioannis Maniadis Metaxas, Adrian Bulat, Ioannis Patras, Brais Martinez, Georgios Tzimiropoulos(参考訳) DETRベースの物体検出器は優れた性能を達成しているが、サンプル非効率であり、収束が遅い。 教師なしの事前訓練はこれらの障害を軽減するのに役立ち、大量のラベルのないデータによるトレーニングによって検出器の性能を向上させることができる。 しかし、既存の方法には、性能低下を避けるために検出器のバックボーンを凍結しておくことや、下流タスクとミスマッチする事前学習目標を利用することなど、独自の制限がある。 これらの制限を克服するために,3つの単純かつ重要な要素からなるDETRベースの検出器のための簡単な事前学習フレームワークを提案する。 (i)高レベル特徴マップから派生した、よりリッチでセマンティクスに基づく初期提案 (II)クラスタリングによる擬似ラベルを用いた識別訓練 (iii) 検知器が学習した改良対象の提案を生かして自己学習すること。 1)DTR前訓練における事前訓練の成績は,全データと低データの両方において,有意な差がみられた。 2) COCOのような複雑な画像データセット上で,DeTRをスクラッチ(バックボーンを含む)から直接事前訓練し,DeTRを直接使用して教師なし表現学習を行う方法を示す。

DETR-based object detectors have achieved remarkable performance but are sample-inefficient and exhibit slow convergence. Unsupervised pretraining has been found to be helpful to alleviate these impediments, allowing training with large amounts of unlabeled data to improve the detector's performance. However, existing methods have their own limitations, like keeping the detector's backbone frozen in order to avoid performance degradation and utilizing pretraining objectives misaligned with the downstream task. To overcome these limitations, we propose a simple pretraining framework for DETR-based detectors that consists of three simple yet key ingredients: (i) richer, semantics-based initial proposals derived from high-level feature maps, (ii) discriminative training using object pseudo-labels produced via clustering, (iii) self-training to take advantage of the improved object proposals learned by the detector. We report two main findings: (1) Our pretraining outperforms prior DETR pretraining works on both the full and low data regimes by significant margins. (2) We show we can pretrain DETR from scratch (including the backbone) directly on complex image datasets like COCO, paving the path for unsupervised representation learning directly using DETR.
翻訳日:2023-07-31 11:45:07 公開日:2023-07-28
# ボストン地域50kmファイバ量子ネットワークテストベッドの開発

Development of a Boston-area 50-km fiber quantum network testbed ( http://arxiv.org/abs/2307.15696v1 )

ライセンス: Link先を確認
Eric Bersin, Matthew Grein, Madison Sutula, Ryan Murphy, Yan Qi Huan, Mark Stevens, Aziza Suleymanzade, Catherine Lee, Ralf Riedinger, David J. Starling, Pieter-Jan Stas, Can M. Knaut, Neil Sinclair, Daniel R. Assumpcao, Yan-Cheng Wei, Erik N. Knall, Bartholomeus Machielse, Denis D. Sukachev, David S. Levonian, Mihir K. Bhaskar, Marko Lon\v{c}ar, Scott Hamilton, Mikhail Lukin, Dirk Englund, and P. Benjamin Dixon(参考訳) リモートシステム間で量子情報を分散することは、新興の量子コンポーネントと既存の通信基盤の統合を必要とする。 これは、古典的な通信システムにおける典型的な特徴付け手法を超えて、伝送された量子信号のチャネル誘起劣化を理解する必要がある。 本稿では、送信信号に付与される飛行時間、偏波、位相雑音を測定する、ボストン地域量子ネットワーク(barqnet)通信ファイバーテストベッドの包括的特性について報告する。 我々はさらに,これらのノイズ源に耐性を持ち,デプロイされたリンク上の新たな量子メモリコンポーネントの統合と互換性のある補償システムの設計と実証を行う。 これらの結果は、BARQNETや開発中の他の量子ネットワークテストベッドにおける将来の作業に有効であり、短期的な量子ネットワークのデモンストレーションを可能にし、将来のシステム機能に最も影響を与える技術開発分野を通知する。

Distributing quantum information between remote systems will necessitate the integration of emerging quantum components with existing communication infrastructure. This requires understanding the channel-induced degradations of the transmitted quantum signals, beyond the typical characterization methods for classical communication systems. Here we report on a comprehensive characterization of a Boston-Area Quantum Network (BARQNET) telecom fiber testbed, measuring the time-of-flight, polarization, and phase noise imparted on transmitted signals. We further design and demonstrate a compensation system that is both resilient to these noise sources and compatible with integration of emerging quantum memory components on the deployed link. These results have utility for future work on the BARQNET as well as other quantum network testbeds in development, enabling near-term quantum networking demonstrations and informing what areas of technology development will be most impactful in advancing future system capabilities.
翻訳日:2023-07-31 11:44:25 公開日:2023-07-28
# 多モード超伝導リング共振器による人工原子間の絡み合い相互作用

Entangling interactions between artificial atoms mediated by a multimode left-handed superconducting ring resonator ( http://arxiv.org/abs/2307.15695v1 )

ライセンス: Link先を確認
T. McBroom-Carroll, A. Schlabes, X. Xu, J. Ku, B. Cole, S. Indrajeet, M. D. LaHaye, M. H. Ansari, B. L. T. Plourde(参考訳) 集中回路素子で実装された超伝導メタマテリアル伝送線は、超伝導人工原子に関連する周波数範囲において、群と位相速度が反対符号を持つ左利き分散を示すことができる。 このようなメタマテリアル伝送路をリングに形成し、リングの周りの異なる点で量子ビットに結合すると、コンパクトなフットプリントを持つマルチモードバス共振器となる。 フラックス可変量子ビットを用いて、2つの量子ビットとリング共振器モードの結合強度の変動を特徴づけ、理論的にモデル化する。 量子ビット間の直接結合は無視できるが、多モードリング共振器との相互作用は、逆交換結合と、量子ビット間のより高次の$ZZ$相互作用の両方をもたらす。 リング共振器モードと比較して量子ビットと周波数のデチューニングが異なるため、ゼロ交差や符号の変化を含む量子ビット間相互作用の両方において有意な変化が観察される。 量子ビット周波数の小さな変化に対して、ゼロ値と大値の間のZZ$スケールのような相互作用項を変調する能力は、多くの量子ビットをホストできるシステムでエンタングゲートを実装するための有望な経路を提供する。

Superconducting metamaterial transmission lines implemented with lumped circuit elements can exhibit left-handed dispersion, where the group and phase velocity have opposite sign, in a frequency range relevant for superconducting artificial atoms. Forming such a metamaterial transmission line into a ring and coupling it to qubits at different points around the ring results in a multimode bus resonator with a compact footprint. Using flux-tunable qubits, we characterize and theoretically model the variation in the coupling strength between the two qubits and each of the ring resonator modes. Although the qubits have negligible direct coupling between them, their interactions with the multimode ring resonator result in both a transverse exchange coupling and a higher order $ZZ$ interaction between the qubits. As we vary the detuning between the qubits and their frequency relative to the ring resonator modes, we observe significant variations in both of these inter-qubit interactions, including zero crossings and changes of sign. The ability to modulate interaction terms such as the $ZZ$ scale between zero and large values for small changes in qubit frequency provides a promising pathway for implementing entangling gates in a system capable of hosting many qubits.
翻訳日:2023-07-31 11:43:58 公開日:2023-07-28
# ストリーミングデータのためのユニバーサルリカレントイベントメモリ

Universal Recurrent Event Memories for Streaming Data ( http://arxiv.org/abs/2307.15694v1 )

ライセンス: Link先を確認
Ran Dou and Jose Principe(参考訳) 本稿では,スカラー,マルチ変数,シンボリックなどの時系列データの種類に共通な,リカレントニューラルネットワークのための新しいイベントメモリアーキテクチャ(MemNet)を提案する。 他の外部のニューラルメモリアーキテクチャとは異なり、キーと値のペアを格納しており、デジタルアーチタイプのように、アドレスとコンテンツのための情報を分離して表現を改善する。 さらに、キーと値のペアは、モデル状態によって構築されたメモリに適用されるメモリ深さと解像度の妥協を回避する。 MemNetキーの特徴の1つは、入力データに非線形演算を実装しながら線形適応写像関数のみを必要とすることである。 memnetアーキテクチャは、スカラー時系列、文字列の論理演算子、自然言語処理、カオス時系列、シンボリック操作タスク、質問応答タスク(babi)といったすべてのアプリケーションドメインで最先端の結果を提供するなど、変更を加えることなく適用することができる。 最後に、5つの線形層によって制御されるMemNetは、他の外部メモリネットワークやトランスフォーマーネットワークよりもはるかに少ないトレーニングパラメータを必要とする。 MemNetの空間複雑性は単一の自己アテンション層と等しい。 注意機構の効率を大幅に改善し、IoTアプリケーションの扉を開く。

In this paper, we propose a new event memory architecture (MemNet) for recurrent neural networks, which is universal for different types of time series data such as scalar, multivariate or symbolic. Unlike other external neural memory architectures, it stores key-value pairs, which separate the information for addressing and for content to improve the representation, as in the digital archetype. Moreover, the key-value pairs also avoid the compromise between memory depth and resolution that applies to memories constructed by the model state. One of the MemNet key characteristics is that it requires only linear adaptive mapping functions while implementing a nonlinear operation on the input data. MemNet architecture can be applied without modifications to scalar time series, logic operators on strings, and also to natural language processing, providing state-of-the-art results in all application domains such as the chaotic time series, the symbolic operation tasks, and the question-answering tasks (bAbI). Finally, controlled by five linear layers, MemNet requires a much smaller number of training parameters than other external memory networks as well as the transformer network. The space complexity of MemNet equals a single self-attention layer. It greatly improves the efficiency of the attention mechanism and opens the door for IoT applications.
翻訳日:2023-07-31 11:43:37 公開日:2023-07-28
# PatchMixer:3Dポイントクラウド理解の一般化を促進するためにネットワーク設計を再考

PatchMixer: Rethinking network design to boost generalization for 3D point cloud understanding ( http://arxiv.org/abs/2307.15692v1 )

ライセンス: Link先を確認
Davide Boscaini, Fabio Poiesi(参考訳) 3Dポイントクラウド理解のためのディープラーニング手法の最近のトレンドは、より洗練されたアーキテクチャを提案して、3Dジオメトリをよりよく捉えるか、あるいは望ましくない帰納的バイアスを導入することである。 さらに、新しいアーキテクチャを導入する以前の作業は、同じドメインでのパフォーマンスを比較し、他のドメインへの一般化への注意を減らした。 我々は、学習した知識を異なるドメインに転送するモデルの能力は、ディープネットワークアーキテクチャの品質を徹底的に評価するために評価すべき重要な特徴であると主張している。 本稿では,最近のMLP-Mixer論文の背景にあるアイデアを3Dポイントクラウドに拡張する,シンプルで効果的なアーキテクチャであるPatchMixerを提案する。 提案手法の斬新さは,部分点雲へのロバスト性を促進するため,局所パッチの全体ではなく,局所パッチの処理であり,従来のグラフ畳み込みや注意機構の簡易な代替として,MLPを用いたパッチワイズ特徴の集約である。 形状分類と部分分割タスクについて評価を行い,最も関連する深層アーキテクチャの選択と比較して,優れた一般化性能を得た。

The recent trend in deep learning methods for 3D point cloud understanding is to propose increasingly sophisticated architectures either to better capture 3D geometries or by introducing possibly undesired inductive biases. Moreover, prior works introducing novel architectures compared their performance on the same domain, devoting less attention to their generalization to other domains. We argue that the ability of a model to transfer the learnt knowledge to different domains is an important feature that should be evaluated to exhaustively assess the quality of a deep network architecture. In this work we propose PatchMixer, a simple yet effective architecture that extends the ideas behind the recent MLP-Mixer paper to 3D point clouds. The novelties of our approach are the processing of local patches instead of the whole shape to promote robustness to partial point clouds, and the aggregation of patch-wise features using an MLP as a simpler alternative to the graph convolutions or the attention mechanisms that are used in prior works. We evaluated our method on the shape classification and part segmentation tasks, achieving superior generalization performance compared to a selection of the most relevant deep architectures.
翻訳日:2023-07-31 11:43:17 公開日:2023-07-28