このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230725となっている論文です。

PDF登録状況(公開日: 20230725)

TitleAuthorsAbstract論文公表日・翻訳日
# Ge-on-Si光エミッタによる全シリコンDV-QKD伝送

Towards an All-Silicon DV-QKD Transmitter Sourced by a Ge-on-Si Light Emitter ( http://arxiv.org/abs/2311.10714v1 )

ライセンス: Link先を確認
Florian Honz (1), Nemanja Voki\'c (1), Philip Walther (2), Hannes H\"ubel (1), Bernhard Schrenk (1) ((1) AIT Austrian Institute of Technology, (2) University of Vienna, Faculty of Physics)(参考訳) 本稿では,Ge-on-Si光源の動作を調査し,BB84プロトコルに従って偏光符号化された離散可変量子鍵分布の実現可能性を示す。

We investigate the behavior of a Ge-on-Si light source and demonstrate its feasibility for polarization-encoded discrete-variable quantum key distribution following the BB84 protocol, enabling a potential "all-silicon" QKD scheme which can operate well below the necessary QBER limit and successfully generate secret keys.
翻訳日:2024-01-15 16:12:10 公開日:2023-07-25
# LLMベースの汎用バグ再現を探求する大規模言語モデル

Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction ( http://arxiv.org/abs/2209.11515v3 )

ライセンス: Link先を確認
Sungmin Kang, Juyeon Yoon, Shin Yoo(参考訳) 開発者がテストを書くのを助けるために、多くの自動テスト生成技術が開発されている。 完全な自動化を容易にするため、既存のほとんどの技術はカバレッジを増やすか、探索的なインプットを生成することを目指している。 しかし、既存のテスト生成技術は、与えられたバグレポートを再現するためのテスト生成のような、よりセマンティックな目的を達成するには不足している。 私たちの実証的な調査によると、問題によってオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートの約28%でした。 一方、バグレポートの期待されるプログラムセマンティクスをテストオーラクルに変換するのが難しいため、既存の障害再現技術は、バグレポートのごく一部であるプログラムクラッシュにのみ対処する傾向にある。 一般的なバグレポートからテスト生成を自動化するために,大規模な言語モデル(llms)を使用するフレームワークであるlibroを提案する。 LLM自体が対象のバギーコードを実行することができないため、LLMが有効であるかどうかを判断するための後処理ステップに焦点を合わせ、その妥当性に応じて生成されたテストをランク付けする。 LIBROの評価は,広く研究されているDefects4Jベンチマークを用いて,全症例の33%(750件中251件)の障害再現テストケースを生成可能であるとともに,149件のバグに対して,バグ再現テストが第一に提案されている。 LLMトレーニングデータの収集終了後に提出された31件のバグレポートに対して,データ汚染を軽減するため,LIBROは32%のバグレポートに対して,バグ再現テストを生成する。 その結果,LIBROはバグレポートから自動でテストを生成することにより,開発者の効率を大幅に向上する可能性が示唆された。

Many automated test generation techniques have been developed to aid developers with writing tests. To facilitate full automation, most existing techniques aim to either increase coverage, or generate exploratory inputs. However, existing test generation techniques largely fall short of achieving more semantic objectives, such as generating tests to reproduce a given bug report. Reproducing bugs is nonetheless important, as our empirical study shows that the number of tests added in open source repositories due to issues was about 28% of the corresponding project test suite size. Meanwhile, due to the difficulties of transforming the expected program semantics in bug reports into test oracles, existing failure reproduction techniques tend to deal exclusively with program crashes, a small subset of all bug reports. To automate test generation from general bug reports, we propose LIBRO, a framework that uses Large Language Models (LLMs), which have been shown to be capable of performing code-related tasks. Since LLMs themselves cannot execute the target buggy code, we focus on post-processing steps that help us discern when LLMs are effective, and rank the produced tests according to their validity. Our evaluation of LIBRO shows that, on the widely studied Defects4J benchmark, LIBRO can generate failure reproducing test cases for 33% of all studied cases (251 out of 750), while suggesting a bug reproducing test in first place for 149 bugs. To mitigate data contamination, we also evaluate LIBRO against 31 bug reports submitted after the collection of the LLM training data terminated: LIBRO produces bug reproducing tests for 32% of the studied bug reports. Overall, our results show LIBRO has the potential to significantly enhance developer efficiency by automatically generating tests from bug reports.
翻訳日:2023-10-24 15:07:56 公開日:2023-07-25
# DRIVE: Dockerfileルールマイニングと違反検出

DRIVE: Dockerfile Rule Mining and Violation Detection ( http://arxiv.org/abs/2212.05648v3 )

ライセンス: Link先を確認
Yu Zhou, Weilin Zhan, Zi Li, Tingting Han, Taolue Chen, Harald Gall(参考訳) DockerfileはDockerイメージを構築するための一連の命令を定義し、コンテナ化されたアプリケーションをサポートするためにインスタンス化することができる。 最近の研究は、Dockerfileのかなりの品質問題を明らかにしている。 本稿では,暗黙のルールをマイニングし,そのようなルールの潜在的な違反を検出するための新しいアプローチドライブ(dockerfiles rule mining and violation detection)を提案する。 DRIVEはまずDockerfileを解析し、中間表現に変換する。 次に、効率的なシーケンシャルパターンマイニングアルゴリズムを利用して潜在的なパターンを抽出する。 ヒューリスティックに基づく削減と適度な人間の介入により、潜在的なルールが特定され、dockerfileの潜在的な違反を検出するために使用することができる。 driveは34のセマンティックルールと19の構文ルールを特定し、他に報告されていない9つの新しいセマンティックルールを含む。 実世界のdockerfilesに関する広範な実験は、このアプローチの有効性を示しています。

A Dockerfile defines a set of instructions to build Docker images, which can then be instantiated to support containerized applications. Recent studies have revealed a considerable amount of quality issues with Dockerfiles. In this paper, we propose a novel approach DRIVE (Dockerfiles Rule mIning and Violation dEtection) to mine implicit rules and detect potential violations of such rules in Dockerfiles. DRIVE firstly parses Dockerfiles and transforms them to an intermediate representation. It then leverages an efficient sequential pattern mining algorithm to extract potential patterns. With heuristic-based reduction and moderate human intervention, potential rules are identified, which can then be utilized to detect potential violations of Dockerfiles. DRIVE identifies 34 semantic rules and 19 syntactic rules including 9 new semantic rules which have not been reported elsewhere. Extensive experiments on real-world Dockerfiles demonstrate the efficacy of our approach.
翻訳日:2023-10-24 13:56:05 公開日:2023-07-25
# ニューラルマシン翻訳におけるコード構造を活用したソフトウェアバグの説明

Explaining Software Bugs Leveraging Code Structures in Neural Machine Translation ( http://arxiv.org/abs/2212.04584v4 )

ライセンス: Link先を確認
Parvez Mahbub, Ohiduzzaman Shuvo, Mohammad Masudur Rahman(参考訳) ソフトウェアバグは開発時間の約50%を占め、世界経済に何十億ドルものコストがかかる。 バグが報告されると、割り当てられた開発者はバグの原因となるソースコードを特定して理解し、修正する。 過去50年間、ソフトウェアバグの自動発見や修正に関する重要な研究が続けられてきた。 しかし、開発者に対してバグを自動的に説明する研究はほとんど行われていない。 本稿では,ソフトウェアバグに対する自然言語の説明を大量のバグ修正コミットから学習することで生成する,トランスフォーマーに基づく生成モデルであるBugsplainerを提案する。 bugplainerはソースコードから構造情報とバギーパターンを利用してバグの説明を生成することができる。 3つのパフォーマンス指標を用いて評価したところ、BugsplainerはGoogleの標準に従って理解しやすく良い説明を生成でき、文献から複数のベースラインを上回ります。 また、bugsplainerの説明がベースラインよりも正確で、より正確で、簡潔で、より有用な20人の参加者による開発者調査も行いました。

Software bugs claim approximately 50% of development time and cost the global economy billions of dollars. Once a bug is reported, the assigned developer attempts to identify and understand the source code responsible for the bug and then corrects the code. Over the last five decades, there has been significant research on automatically finding or correcting software bugs. However, there has been little research on automatically explaining the bugs to the developers, which is essential but a highly challenging task. In this paper, we propose Bugsplainer, a transformer-based generative model, that generates natural language explanations for software bugs by learning from a large corpus of bug-fix commits. Bugsplainer can leverage structural information and buggy patterns from the source code to generate an explanation for a bug. Our evaluation using three performance metrics shows that Bugsplainer can generate understandable and good explanations according to Google's standard, and can outperform multiple baselines from the literature. We also conduct a developer study involving 20 participants where the explanations from Bugsplainer were found to be more accurate, more precise, more concise and more useful than the baselines.
翻訳日:2023-10-24 13:55:50 公開日:2023-07-25
# 変異解析によるファジィの系統評価

Systematic Assessment of Fuzzers using Mutation Analysis ( http://arxiv.org/abs/2212.03075v3 )

ライセンス: Link先を確認
Philipp G\"orz and Bj\"orn Mathis and Keno Hassler and Emre G\"uler and Thorsten Holz and Andreas Zeller and Rahul Gopinath(参考訳) ファジィングはプログラムの脆弱性を発見する重要な方法である。 この領域ではここ数年でかなりの進歩があったが、ファジッターの有効性の測定と比較は依然としてオープンな研究課題である。 ソフトウェアテストにおいて、テスト品質を評価するための金の基準は突然変異解析であり、これはテストが合成バグを検出する能力を評価することである。 変異解析は様々なカバレッジ対策を仮定し、多種多様な障害セットを提供するが、それは任意にトリガーと検出が困難であり、飽和と過度な適合の問題を防いでいる。 残念ながら、従来の突然変異解析のコストは、突然変異が独立した評価を必要とするため、ファジィングには不適である。 本稿では,複数の突然変異をプールする近代的突然変異解析手法を適用し,初めてフザーと突然変異解析を比較・比較した。 ファジィアの評価ベンチを導入し,多くの人気ファジィアや被験者に適用する。 包括的評価において,この手法を用いてファザーの性能評価を行い,改良手法の効果を評価できることを示す。 4.09 CPU年月は、7つの被験者のファザーの分析に必要であり、合計141,278の突然変異がある。 現在のファジィザは少数の突然変異しか検出できないが、これは将来の研究の課題と見なされるべきである。特に、(1) 一般的なクラッシュを超えた障害を検出すること、(2) 突然変異を引き起こすこと(つまり、欠陥)。

Fuzzing is an important method to discover vulnerabilities in programs. Despite considerable progress in this area in the past years, measuring and comparing the effectiveness of fuzzers is still an open research question. In software testing, the gold standard for evaluating test quality is mutation analysis, which evaluates a test's ability to detect synthetic bugs: If a set of tests fails to detect such mutations, it is expected to also fail to detect real bugs. Mutation analysis subsumes various coverage measures and provides a large and diverse set of faults that can be arbitrarily hard to trigger and detect, thus preventing the problems of saturation and overfitting. Unfortunately, the cost of traditional mutation analysis is exorbitant for fuzzing, as mutations need independent evaluation. In this paper, we apply modern mutation analysis techniques that pool multiple mutations and allow us -- for the first time -- to evaluate and compare fuzzers with mutation analysis. We introduce an evaluation bench for fuzzers and apply it to a number of popular fuzzers and subjects. In a comprehensive evaluation, we show how we can use it to assess fuzzer performance and measure the impact of improved techniques. The required CPU time remains manageable: 4.09 CPU years are needed to analyze a fuzzer on seven subjects and a total of 141,278 mutations. We find that today's fuzzers can detect only a small percentage of mutations, which should be seen as a challenge for future research -- notably in improving (1) detecting failures beyond generic crashes (2) triggering mutations (and thus faults).
翻訳日:2023-10-24 13:55:32 公開日:2023-07-25
# Defectors: 欠陥予測のための大規模なPythonデータセット

Defectors: A Large, Diverse Python Dataset for Defect Prediction ( http://arxiv.org/abs/2303.04738v4 )

ライセンス: Link先を確認
Parvez Mahbub and Ohiduzzaman Shuvo and Mohammad Masudur Rahman(参考訳) 欠陥予測は、機械学習(ML)とディープラーニング(DL)が多くの応用を見出した、人気のある研究トピックである。 しかしながら、これらのML/DLベースの欠陥予測モデルは、データセットの品質とサイズによって制限されることが多い。 本稿では,ジャストインタイムおよびラインレベルの欠陥予測のための大規模データセットであるDefectorsを提案する。 defectorは、24の人気のあるpythonプロジェクトにわたって、約213kのソースコードファイル(約93kの欠陥と約120kの欠陥なし)で構成されている。 これらのプロジェクトは、機械学習、自動化、モノのインターネットを含む18の異なるドメインから成り立っている。 このようなスケールと多様性は、DefectorをML/DLモデルのトレーニングに適したデータセット、特に大規模で多様なデータセットを必要とするトランスフォーマーモデルにします。 また、欠陥予測や欠陥説明など、データセットのいくつかのアプリケーション領域も予測しています。 データセットリンク:https://doi.org/10.5281/zenodo.7708984

Defect prediction has been a popular research topic where machine learning (ML) and deep learning (DL) have found numerous applications. However, these ML/DL-based defect prediction models are often limited by the quality and size of their datasets. In this paper, we present Defectors, a large dataset for just-in-time and line-level defect prediction. Defectors consists of $\approx$ 213K source code files ($\approx$ 93K defective and $\approx$ 120K defect-free) that span across 24 popular Python projects. These projects come from 18 different domains, including machine learning, automation, and internet-of-things. Such a scale and diversity make Defectors a suitable dataset for training ML/DL models, especially transformer models that require large and diverse datasets. We also foresee several application areas of our dataset including defect prediction and defect explanation. Dataset link: https://doi.org/10.5281/zenodo.7708984
翻訳日:2023-10-24 13:06:50 公開日:2023-07-25
# BETプロジェクト: ビヘイビア対応IoT

The BET project: Behavior-enabled IoT ( http://arxiv.org/abs/2307.13186v1 )

ライセンス: Link先を確認
Henry Muccini and Barbara Russo and Eugenio Zimeo(参考訳) IoTは、毎日のライフオブジェクトからタイムリーに収集される大量のデータを利用できるため、インターネットの使い方を変えつつある。 この新しいシナリオでアプリケーションを設計することは、新しい課題をもたらす。 この拡張された抽象化は、行動対応IoTシステムやアプリケーションを設計するためのリファレンスアーキテクチャ、概念フレームワーク、関連技術の導入を主な目的とするBeTプロジェクトの目的を議論し、提示する。

IoT is changing the way Internet is used due to the availability of a large amount of data timely collected from every-day life objects. Designing applications in this new scenario poses new challenges. This extended abstract discusses them and presents the objective of the BeT project whose main aim is to introduce a reference architecture, a conceptual framework, and related techniques to design behavior-enabled IoT systems and applications.
翻訳日:2023-10-23 16:22:37 公開日:2023-07-25
# シナリオの活用と教育におけるAI活用の実践例

Use Scenarios & Practical Examples of AI Use in Education ( http://arxiv.org/abs/2309.12320v1 )

ライセンス: Link先を確認
Dara Cassidy, Yann-A\"el Le Borgne, Francisco Bellas, Riina Vuorikari, Elise Rondin, Madhumalti Sharma, Jessica Niewint-Gori, Johanna Gr\"opler, Anne Gilleran and Lidija Kralj(参考訳) 本報告では,教員が自力で構築するためのインスピレーションとして利用できる既存のリソースをベースとした,大学以前のさまざまなレベルに人工知能(AI)を導入し,異なる目標を掲げる。 人工知能教育分野(AIEd)は非常に活発で、新たなリソースとツールが継続的に生まれている。 この文書に含まれているものは、すでに学生によってテストされ、現場の専門家によって選択されているが、教師の創造性を導くための実践的な例として取り上げなければならない。

This report presents a set of use scenarios based on existing resources that teachers can use as inspiration to create their own, with the aim of introducing artificial intelligence (AI) at different pre-university levels, and with different goals. The Artificial Intelligence Education field (AIEd) is very active, with new resources and tools arising continuously. Those included in this document have already been tested with students and selected by experts in the field, but they must be taken just as practical examples to guide and inspire teachers creativity.
翻訳日:2023-10-23 06:59:11 公開日:2023-07-25
# 現実世界における薬物特性予測の現状と課題

Current Methods for Drug Property Prediction in the Real World ( http://arxiv.org/abs/2309.17161v1 )

ライセンス: Link先を確認
Jacob Green, Cecilia Cabrera Diaz, Maximilian A. H. Jakobs, Andrea Dimitracopoulos, Mark van der Wilk, Ryan D. Greenhalgh(参考訳) 薬物特性の予測は、高価な臨床試験の前に資産の破壊を可能とし、より早く高い活性化合物を見つけるために、薬物発見の鍵となる。 機械学習コミュニティからの関心は、さまざまなベンチマークデータセットと提案されたメソッドのリリースにつながった。 しかし、異なる論文が異なるデータセットとメソッドをベンチマークしているため、どの方法やアプローチが最も適しているかは、いまだに不明であり、比較が容易ではない結論に繋がる。 我々の大規模な実証的研究は、さまざまなデータセットとメソッドに関する多くの初期の研究を結びつけ、既存のプロパティクラス、データセット、および異なるメソッドとのインタラクションに関する包括的な概要を提供する。 我々は、医薬品開発意思決定サイクルにおいて、不確実性定量化の重要性と時間とコストを強調する。 最良の方法はデータセットに依存しており、古典的なMLメソッドで構築された機能は、ディープラーニングよりも優れていることが分かりました。 特に、qsarデータセットは典型的にはガウス過程のような古典的手法で分析され、アドメットデータセットは木やグラフニューラルネットワークや言語モデルのようなディープラーニング手法によって記述される。 私たちの研究は、実践者が頼りにする単純でブラックボックスな手順をまだ持っていないことを強調し、実践者が関連するベンチマークを作成する前例を定めています。 深層学習のアプローチは、これらのベンチマークで証明され、薬物特性予測の実用的な選択方法となる必要がある。

Predicting drug properties is key in drug discovery to enable de-risking of assets before expensive clinical trials, and to find highly active compounds faster. Interest from the Machine Learning community has led to the release of a variety of benchmark datasets and proposed methods. However, it remains unclear for practitioners which method or approach is most suitable, as different papers benchmark on different datasets and methods, leading to varying conclusions that are not easily compared. Our large-scale empirical study links together numerous earlier works on different datasets and methods; thus offering a comprehensive overview of the existing property classes, datasets, and their interactions with different methods. We emphasise the importance of uncertainty quantification and the time and therefore cost of applying these methods in the drug development decision-making cycle. We discover that the best method depends on the dataset, and that engineered features with classical ML methods often outperform deep learning. Specifically, QSAR datasets are typically best analysed with classical methods such as Gaussian Processes while ADMET datasets are sometimes better described by Trees or Deep Learning methods such as Graph Neural Networks or language models. Our work highlights that practitioners do not yet have a straightforward, black-box procedure to rely on, and sets the precedent for creating practitioner-relevant benchmarks. Deep learning approaches must be proven on these benchmarks to become the practical method of choice in drug property prediction.
翻訳日:2023-10-23 05:39:20 公開日:2023-07-25
# 摂動に基づく非摂動法

Perturbation-based Non-perturbative Method ( http://arxiv.org/abs/2308.10996v1 )

ライセンス: Link先を確認
Chang Liu, Wen-Du Li, and Wu-Sheng Dai(参考訳) 本稿では,固有問題を解く非摂動的手法を提案する。 この方法は、ほとんど全てのポテンシャルに適用され、あらゆるエネルギー準位に対する非摂動近似を与える。 この方法は固有プロブレムを摂動問題に変換し、標準摂動理論を通じて摂動解を取得し、解析的に摂動解を非摂動解へと継続する。

This paper presents a non-perturbative method for solving eigenproblems. This method applies to almost all potentials and provides non-perturbative approximations for any energy level. The method converts an eigenproblem into a perturbation problem, obtains perturbation solutions through standard perturbation theory, and then analytically continues the perturbative solution into a non-perturbative solution.
翻訳日:2023-08-27 05:08:28 公開日:2023-07-25
# 強化学習に基づくマルチソースDASHの適応とスケジューリング手法

Reinforcement Learning -based Adaptation and Scheduling Methods for Multi-source DASH ( http://arxiv.org/abs/2308.11621v1 )

ライセンス: Link先を確認
Nghia T. Nguyen, Long Luu, Phuong L. Vo, Thi Thanh Sang Nguyen, Cuong T. Do, Ngoc-thanh Nguyen(参考訳) HTTP(DASH)上の動的適応ストリーミングは、最近ビデオストリーミングで広く使われている。 dashでは、クライアントはサーバから順番にビデオチャンクをダウンロードする。 ビデオクライアントのレート適応機能は、ネットワーク条件に基づいてダウンロードするビデオチャンク毎の適切な品質レベルを選択することにより、ユーザのqoe(quality-of-experience)を高める。 今日、コンテンツ配信ネットワーク、エッジキャッシュネットワーク、コンテンツ中心ネットワークなどのネットワークは、通常、複数のキャッシュノードでビデオコンテンツを複製する。 本研究では,複数のソースからの映像ストリーミングについて検討する。 マルチソースストリーミングでは、ネットワークパスの条件が異なるため、ビデオチャンクが順序を外れる可能性がある。 したがって、高いqoeを保証するために、ビデオクライアントはレート適応だけでなくチャンクスケジューリングも必要である。 近年, 各種分野における最先端制御手法として強化学習(RL)が登場している。 本稿では,複数のソースからストリーミングを行うための2つのアルゴリズムを提案する。rl-based adaptation with greedy scheduling (rlags) とrl-based adaptation and scheduling (rlas) である。 トレーニングや評価のためのシミュレーション環境も構築しています。 提案アルゴリズムの効率は,実測データを用いた広範囲なシミュレーションにより証明された。

Dynamic adaptive streaming over HTTP (DASH) has been widely used in video streaming recently. In DASH, the client downloads video chunks in order from a server. The rate adaptation function at the video client enhances the user's quality-of-experience (QoE) by choosing a suitable quality level for each video chunk to download based on the network condition. Today networks such as content delivery networks, edge caching networks, content-centric networks,... usually replicate video contents on multiple cache nodes. We study video streaming from multiple sources in this work. In multi-source streaming, video chunks may arrive out of order due to different conditions of the network paths. Hence, to guarantee a high QoE, the video client needs not only rate adaptation but also chunk scheduling. Reinforcement learning (RL) has emerged as the state-of-the-art control method in various fields in recent years. This paper proposes two algorithms for streaming from multiple sources: RL-based adaptation with greedy scheduling (RLAGS) and RL-based adaptation and scheduling (RLAS). We also build a simulation environment for training and evaluating. The efficiency of the proposed algorithms is proved via extensive simulations with real-trace data.
翻訳日:2023-08-27 04:58:33 公開日:2023-07-25
# 触媒水蒸気改質による有害揮発性物質化合物の燃料化:進化的機械学習アプローチ

Turning hazardous volatile matter compounds into fuel by catalytic steam reforming: An evolutionary machine learning approach ( http://arxiv.org/abs/2308.05750v1 )

ライセンス: Link先を確認
Alireza Shafizadeh, Hossein Shahbeik, Mohammad Hossein Nadian, Vijai Kumar Gupta, Abdul-Sattar Nizami, Su Shiung Lam, Wanxi Peng, Junting Pan, Meisam Tabatabaei, Mortaza Aghbashlo(参考訳) 化学およびバイオマス処理システムは、揮発性物質化合物を毎日環境に放出する。 触媒改質はこれらの化合物を貴重な燃料に変えることができるが、安定で効率的な触媒の開発は困難である。 マシンラーニングは、ビッグデータにおける複雑な関係を処理し、リアクション条件を最適化することで、前述の問題に対処するための効果的なソリューションになります。 本研究は,揮発性物質化合物の触媒的蒸気改質をモデル化,理解,最適化するための機械学習に基づく研究フレームワークを初めて開発した。 トルエン触媒蒸気改質は、化学/テクスチャ解析(例えばx線回折分析)を用いて機械学習モデルの入力特性を得る方法を示すケーススタディとして用いられる。 文学は、様々な触媒特性と反応条件をカバーするデータベースのコンパイルに使用される。 6つの機械学習モデルによってモデル化され、粒子群最適化アルゴリズムを用いて最適化される。 エンサンブル機械学習はトルエン変換と製品分布に最適な予測性能(R2 > 0.976)を提供する。 最適なタール変換(77.2%以上)は637.44から725.62 {\deg}cの温度で得られ、蒸気対炭素モル比5.81-7.15と触媒ベット表面面積476.03-638.55 m2/gである。 特徴量分析は,入力記述子のモデル予測への影響を良好に明らかにする。 運転条件(50.9%)と触媒特性(49.1%)はモデリングにおいて等しく重要である。 触媒化学処理のみならず, 関連研究分野においても, 最適な触媒特性と反応条件の探索を迅速に行うことができる。

Chemical and biomass processing systems release volatile matter compounds into the environment daily. Catalytic reforming can convert these compounds into valuable fuels, but developing stable and efficient catalysts is challenging. Machine learning can handle complex relationships in big data and optimize reaction conditions, making it an effective solution for addressing the mentioned issues. This study is the first to develop a machine-learning-based research framework for modeling, understanding, and optimizing the catalytic steam reforming of volatile matter compounds. Toluene catalytic steam reforming is used as a case study to show how chemical/textural analyses (e.g., X-ray diffraction analysis) can be used to obtain input features for machine learning models. Literature is used to compile a database covering a variety of catalyst characteristics and reaction conditions. The process is thoroughly analyzed, mechanistically discussed, modeled by six machine learning models, and optimized using the particle swarm optimization algorithm. Ensemble machine learning provides the best prediction performance (R2 > 0.976) for toluene conversion and product distribution. The optimal tar conversion (higher than 77.2%) is obtained at temperatures between 637.44 and 725.62 {\deg}C, with a steam-to-carbon molar ratio of 5.81-7.15 and a catalyst BET surface area 476.03-638.55 m2/g. The feature importance analysis satisfactorily reveals the effects of input descriptors on model prediction. Operating conditions (50.9%) and catalyst properties (49.1%) are equally important in modeling. The developed framework can expedite the search for optimal catalyst characteristics and reaction conditions, not only for catalytic chemical processing but also for related research areas.
翻訳日:2023-08-20 16:47:10 公開日:2023-07-25
# 時系列変換器を用いたハイブリッドモデリングの導入:バッチ結晶化におけるシリーズおよび並列アプローチの比較検討

Introducing Hybrid Modeling with Time-series-Transformers: A Comparative Study of Series and Parallel Approach in Batch Crystallization ( http://arxiv.org/abs/2308.05749v1 )

ライセンス: Link先を確認
Niranjan Sitapure, and Joseph S Kwon(参考訳) 既存のデジタル双生児のほとんどがデータ駆動のブラックボックスモデルに依存しており、主にディープ・ニューラル・リカレントと畳み込みニューラルネットワーク(dnn、rnn、cnn)を使用して化学系のダイナミクスを捉える。 しかしこれらのモデルは、安全と運用上の問題から、ブラックボックスツールを実際に直接デプロイすることをためらうため、日の目を見ていない。 この問題を解決するために、第一原理物理学に基づくダイナミクスと機械学習(ML)モデルを組み合わせたハイブリッドモデルは、「両方の世界のベスト」なアプローチとして人気が高まっている。 とはいえ、既存の単純なDNNモデルは、時系列予測やプロセスダイナミクスの軌跡に関する文脈情報の利用には適していない。 近年,多面的注意機構と位置符号化を利用してプロセス状態の長期的・短期的な変化を捉えた注目型時系列変換器(TST)は,高い予測性能を示した。 従来のブラックボックスモデルよりも精度と解釈性が向上したバッチ結晶化のための,tstベースの最初のハイブリッドフレームワークが開発されている。 具体的には、TSTベースのハイブリッドモデルの2つの異なる構成(シリーズと並列)を構築し比較し、[10, 50]\times10^{-4}$と0.99以上のR^2$$の範囲で正規化平均二乗誤差(NMSE)を示す。 デジタル双生児の普及を考えると、次世代の注目ベースのハイブリッドモデルは化学製造の未来を形作る上で重要な役割を果たすことが期待される。

Most existing digital twins rely on data-driven black-box models, predominantly using deep neural recurrent, and convolutional neural networks (DNNs, RNNs, and CNNs) to capture the dynamics of chemical systems. However, these models have not seen the light of day, given the hesitance of directly deploying a black-box tool in practice due to safety and operational issues. To tackle this conundrum, hybrid models combining first-principles physics-based dynamics with machine learning (ML) models have increased in popularity as they are considered a 'best of both worlds' approach. That said, existing simple DNN models are not adept at long-term time-series predictions and utilizing contextual information on the trajectory of the process dynamics. Recently, attention-based time-series transformers (TSTs) that leverage multi-headed attention mechanism and positional encoding to capture long-term and short-term changes in process states have shown high predictive performance. Thus, a first-of-a-kind, TST-based hybrid framework has been developed for batch crystallization, demonstrating improved accuracy and interpretability compared to traditional black-box models. Specifically, two different configurations (i.e., series and parallel) of TST-based hybrid models are constructed and compared, which show a normalized-mean-square-error (NMSE) in the range of $[10, 50]\times10^{-4}$ and an $R^2$ value over 0.99. Given the growing adoption of digital twins, next-generation attention-based hybrid models are expected to play a crucial role in shaping the future of chemical manufacturing.
翻訳日:2023-08-20 16:46:41 公開日:2023-07-25
# 製造における人工知能の応用と社会的な意味:システムレビュー

Applications and Societal Implications of Artificial Intelligence in Manufacturing: A Systematic Review ( http://arxiv.org/abs/2308.02025v1 )

ライセンス: Link先を確認
John P. Nelson, Justin B. Biddle, Philip Shapira(参考訳) 本稿では,製造におけるAIの成長が社会に与える影響を考察するために,関連文献の体系的レビューを行う。 我々は、この領域における広範囲なAIアプリケーション、例えば、相互のロジスティクス調整、企業調達管理、予測保守、プロセス、機械、労働者の店頭監視と制御などを分析します。 さらに、労働力への影響、仕事のスキルアップとデスクイリング、サイバーセキュリティの脆弱性、環境影響など、産業AIの不確実な社会的影響についても検討する。 製造においてAIアプリケーションのタイプロジを構築した後、さまざまなスケールやアプリケーションタイプでのAIの実装の可能性を強調します。 経済繁栄, 株式, 環境健康, コミュニティの安全と安全を包含して, 個々の企業と社会全体の両方にAIがもたらす意味を考察することの重要性について論じる。 この研究は、AIが企業に与える影響に関する以前の文献には概ね楽観的な見通しがあるが、悪影響とAIの社会的含意の性質についてかなりの議論と論争がある。 この論文は、産業aiの潜在的社会的影響に関する文脈的視点を提供するために、歴史的事例や他の例と類似している。 最終的に、製造におけるAIの有益な統合は、企業やそのマネージャ、オーナー、技術開発者、市民社会組織、政府など、さまざまな利害関係者の選択と優先順位に依存する。 利害関係者間の機会とリスクに対する広範かつバランスの取れた認識は、成功と安全な技術的実装だけでなく、AI時代の製造において社会的に有益で持続可能な未来を構築するためにも不可欠である。

This paper undertakes a systematic review of relevant extant literature to consider the potential societal implications of the growth of AI in manufacturing. We analyze the extensive range of AI applications in this domain, such as interfirm logistics coordination, firm procurement management, predictive maintenance, and shop-floor monitoring and control of processes, machinery, and workers. Additionally, we explore the uncertain societal implications of industrial AI, including its impact on the workforce, job upskilling and deskilling, cybersecurity vulnerability, and environmental consequences. After building a typology of AI applications in manufacturing, we highlight the diverse possibilities for AI's implementation at different scales and application types. We discuss the importance of considering AI's implications both for individual firms and for society at large, encompassing economic prosperity, equity, environmental health, and community safety and security. The study finds that there is a predominantly optimistic outlook in prior literature regarding AI's impact on firms, but that there is substantial debate and contention about adverse effects and the nature of AI's societal implications. The paper draws analogies to historical cases and other examples to provide a contextual perspective on potential societal effects of industrial AI. Ultimately, beneficial integration of AI in manufacturing will depend on the choices and priorities of various stakeholders, including firms and their managers and owners, technology developers, civil society organizations, and governments. A broad and balanced awareness of opportunities and risks among stakeholders is vital not only for successful and safe technical implementation but also to construct a socially beneficial and sustainable future for manufacturing in the age of AI.
翻訳日:2023-08-14 02:08:48 公開日:2023-07-25
# 多重保護属性による公平性向上に関する実証的研究

An Empirical Study on Fairness Improvement with Multiple Protected Attributes ( http://arxiv.org/abs/2308.01923v1 )

ライセンス: Link先を確認
Zhenpeng Chen and Jie M. Zhang and Federica Sarro and Mark Harman(参考訳) 既存の研究は、一度に1つの保護属性に関する機械学習(ML)ソフトウェアの公平性を大幅に改善していますが、多くのユーザが複数の保護属性を持っているため、これは現実的ではありません。 本稿では,複数の保護属性に関する公平性改善に関する広範な研究を行い,11の公正性改善手法について述べる。 複数の保護属性を考慮した場合、これらの手法の有効性を異なるデータセット、メトリクス、MLモデルで分析する。 その結果、単一の保護属性の公平性を改善することは、未検討の保護属性に対する公平性を大幅に低下させることが判明した。 この減少は88.3%のシナリオで観察される(平均57.5%)。 より驚くべきことに、単一属性と複数の保護属性を考えると、精度損失の差はほとんど見られず、多重属性パラダイムでは精度が維持できることを示している。 しかし、複数の保護属性を扱う場合の精度とリコールへの影響は、1つの属性の約5倍と8倍である。 これは将来の公正性研究に重要な意味を持ち、現在文献で一般的なMLパフォーマンス指標としてのみ正確さを報告することは不十分である。

Existing research mostly improves the fairness of Machine Learning (ML) software regarding a single protected attribute at a time, but this is unrealistic given that many users have multiple protected attributes. This paper conducts an extensive study of fairness improvement regarding multiple protected attributes, covering 11 state-of-the-art fairness improvement methods. We analyze the effectiveness of these methods with different datasets, metrics, and ML models when considering multiple protected attributes. The results reveal that improving fairness for a single protected attribute can largely decrease fairness regarding unconsidered protected attributes. This decrease is observed in up to 88.3% of scenarios (57.5% on average). More surprisingly, we find little difference in accuracy loss when considering single and multiple protected attributes, indicating that accuracy can be maintained in the multiple-attribute paradigm. However, the effect on precision and recall when handling multiple protected attributes is about 5 times and 8 times that of a single attribute. This has important implications for future fairness research: reporting only accuracy as the ML performance metric, which is currently common in the literature, is inadequate.
翻訳日:2023-08-14 02:07:48 公開日:2023-07-25
# サイバーセキュリティとプライバシのためのナレッジエンハンスドニューロシンボリックai

Knowledge-enhanced Neuro-Symbolic AI for Cybersecurity and Privacy ( http://arxiv.org/abs/2308.02031v1 )

ライセンス: Link先を確認
Aritran Piplai, Anantaa Kotal, Seyedreza Mohseni, Manas Gaur, Sudip Mittal, Anupam Joshi(参考訳) ニューロシンボリック人工知能(ai:neuro-symbolic artificial intelligence)は、(深い)ニューラルネットワークの副シンボリックな強みと、知識グラフに含まれる明示的で象徴的な知識を組み合わせて、aiシステムの説明可能性と安全性を高める、新興かつ迅速な分野である。 このアプローチは、現在のシステムに対する重要な批判、すなわち、その結果について人間の理解可能な説明を生成し、安全な行動を保証することができないこと、特に \textit{unknown unknowns}(サイバーセキュリティ、プライバシなど)のシナリオに対処している。 複雑なデータ空間の探索に長けたニューラルネットワークと、ドメイン知識を表すシンボリックナレッジグラフの統合により、AIシステムは専門家が理解できる方法で推論、学習、一般化することができる。 この記事では、複雑な環境で高度に正確でありながらAIを説明する必要性という点で、最も要求される2つのドメインであるサイバーセキュリティとプライバシのアプリケーションが、Neuro-Symbolic AIの恩恵を受ける方法について説明する。

Neuro-Symbolic Artificial Intelligence (AI) is an emerging and quickly advancing field that combines the subsymbolic strengths of (deep) neural networks and explicit, symbolic knowledge contained in knowledge graphs to enhance explainability and safety in AI systems. This approach addresses a key criticism of current generation systems, namely their inability to generate human-understandable explanations for their outcomes and ensure safe behaviors, especially in scenarios with \textit{unknown unknowns} (e.g. cybersecurity, privacy). The integration of neural networks, which excel at exploring complex data spaces, and symbolic knowledge graphs, which represent domain knowledge, allows AI systems to reason, learn, and generalize in a manner understandable to experts. This article describes how applications in cybersecurity and privacy, two most demanding domains in terms of the need for AI to be explainable while being highly accurate in complex environments, can benefit from Neuro-Symbolic AI.
翻訳日:2023-08-14 01:57:19 公開日:2023-07-25
# Deep CNNとGramian Angular Fieldを用いた心電図分類

ECG classification using Deep CNN and Gramian Angular Field ( http://arxiv.org/abs/2308.02395v1 )

ライセンス: Link先を確認
Youssef Elmir, Yassine Himeur and Abbes Amira(参考訳) 本稿では,ECG信号の新たな特徴表現法を導入することにより,ECG信号解析における信号処理分野とDLに新たな貢献をもたらす。 提案手法は,グラム角場変換を用いた時間周波数1Dベクトルを2次元画像に変換することに基づく。 次に、変換されたECG信号の分類を畳み込みニューラルネットワーク(CNN)を用いて行う。 その結果,異常検出では97.47%,98.65%の分類精度が得られた。 したがって、最先端と比較して分類性能を向上させることに加えて、特徴表現は、元の信号では見えない心拍数、リズム、形態の変化など、心電図信号の時間的パターンを識別・可視化するのに役立つ。 これは心血管疾患の診断と治療と異常の検出に重要な意味を持つ。

This paper study provides a novel contribution to the field of signal processing and DL for ECG signal analysis by introducing a new feature representation method for ECG signals. The proposed method is based on transforming time frequency 1D vectors into 2D images using Gramian Angular Field transform. Moving on, the classification of the transformed ECG signals is performed using Convolutional Neural Networks (CNN). The obtained results show a classification accuracy of 97.47% and 98.65% for anomaly detection. Accordingly, in addition to improving the classification performance compared to the state-of-the-art, the feature representation helps identify and visualize temporal patterns in the ECG signal, such as changes in heart rate, rhythm, and morphology, which may not be apparent in the original signal. This has significant implications in the diagnosis and treatment of cardiovascular diseases and detection of anomalies.
翻訳日:2023-08-14 01:47:43 公開日:2023-07-25
# NLP と TM が支持する公共部門における A.I. 開発と適用の主な課題

A short review of the main concerns in A.I. development and application within the public sector supported by NLP and TM ( http://arxiv.org/abs/2308.02042v1 )

ライセンス: Link先を確認
Carlos Ferreira(参考訳) 人工知能は新しいテーマではなく、ビジネス、産業、公共セクターは異なる方法で利用し、複数の関心事を考慮してきた。 本研究は, 自然言語処理(NLP)とテキストマイニング(TM)の基本概念に支えられた過去2年間のACM Digital LibraryとIEEE Xploreカンファレンスの手続きで発表された研究論文をレビューした。 目的は、データプライバシ、倫理、解釈可能性、説明可能性、信頼性、公共セクターの公平性に関する洞察を捉えることである。 この手法は分析時間を節約し、関連する情報を含む論文を検索することができる。 その結果,公平性が最も高い関心事であった。 最も目立った話題はデータプライバシ(ほとんどの記事に埋め込まれているが)であり、最も目立ったトピックは信頼性だった。 最後に、公共部門におけるa.i.アプリケーションに関するこれらの懸念に関する有益な洞察の収集も可能であった。

Artificial Intelligence is not a new subject, and business, industry and public sectors have used it in different ways and contexts and considering multiple concerns. This work reviewed research papers published in ACM Digital Library and IEEE Xplore conference proceedings in the last two years supported by fundamental concepts of Natural Language Processing (NLP) and Text Mining (TM). The objective was to capture insights regarding data privacy, ethics, interpretability, explainability, trustworthiness, and fairness in the public sector. The methodology has saved analysis time and could retrieve papers containing relevant information. The results showed that fairness was the most frequent concern. The least prominent topic was data privacy (although embedded in most articles), while the most prominent was trustworthiness. Finally, gathering helpful insights about those concerns regarding A.I. applications in the public sector was also possible.
翻訳日:2023-08-14 01:46:27 公開日:2023-07-25
# オープンエンド応答に対するフィードバックを提供する大規模言語モデル支援教育ツール

A large language model-assisted education tool to provide feedback on open-ended responses ( http://arxiv.org/abs/2308.02439v1 )

ライセンス: Link先を確認
Jordan K. Matelsky, Felipe Parodi, Tony Liu, Richard D. Lange, Konrad P. Kording(参考訳) オープンエンド質問は、学生の理解度を評価し、コース教材の批判的探索を促すインストラクターの間で好まれるツールである。 このような回答に対するフィードバックの提供は、圧倒的なインストラクターとフィードバック品質の低下につながる時間のかかる作業である。 多くのインストラクターは、直感的なフィードバックを提供するが、パーソナライズされ、洞察に富んだコメントを犠牲にして、より単純な質問形式を利用する。 本稿では,大規模言語モデル(LLM)をインストラクター定義基準でガイドし,オープンエンド質問に対する応答を自動化するツールを提案する。 本ツールでは,素早いパーソナライズされたフィードバックを提供することで,学生が知識を迅速にテストし,改善すべき領域を特定できる。 我々は、ウェブアプリケーションとJupyter Notebookウィジェットの両方としてオープンソースのリファレンス実装を提供し、命令型コーディングや数学ノートブックで使用できる。 インストラクター指導により、LLMは生徒の学習成果を高め、指導方法を高めることを約束する。

Open-ended questions are a favored tool among instructors for assessing student understanding and encouraging critical exploration of course material. Providing feedback for such responses is a time-consuming task that can lead to overwhelmed instructors and decreased feedback quality. Many instructors resort to simpler question formats, like multiple-choice questions, which provide immediate feedback but at the expense of personalized and insightful comments. Here, we present a tool that uses large language models (LLMs), guided by instructor-defined criteria, to automate responses to open-ended questions. Our tool delivers rapid personalized feedback, enabling students to quickly test their knowledge and identify areas for improvement. We provide open-source reference implementations both as a web application and as a Jupyter Notebook widget that can be used with instructional coding or math notebooks. With instructor guidance, LLMs hold promise to enhance student learning outcomes and elevate instructional methodologies.
翻訳日:2023-08-14 01:27:27 公開日:2023-07-25
# 単調制約によるエッセイコヒーレンス評価における一般化能力の向上

Improving the Generalization Ability in Essay Coherence Evaluation through Monotonic Constraints ( http://arxiv.org/abs/2308.02506v1 )

ライセンス: Link先を確認
Chen Zheng, Huan Zhang, Yan Zhao, Yuxuan Lai(参考訳) コヒーレンスはテキストの可読性を評価する上で重要な側面であり、スコアリングシナリオにおいてエッセイを評価する際に2つの主要な要因を通して評価することができる。 第1の要因は論理コヒーレンスであり、会話接続詞の適切な使用と文間の論理関係の確立が特徴である。 第二の要因は句読点の適切性であり、不適切な句読点が文構造を混乱させる可能性がある。 これらの問題に対処するため、局所的コヒーレンス判別モデルと句読点補正モデルという2つの特徴抽出器を持つ回帰モデルからなるコヒーレンススコアリングモデルを提案する。 回帰モデルとして勾配ブースト回帰木を用い,入力特性に単調性制約を課す。 その結果,提案モデルが未発見データをより一般化できることが判明した。 このモデルはnlpcc 2023共有タスク7のトラック1で3位を達成した。 また、残りの線路について簡単な解法を紹介し、3番線と4番線の両方で第2位、第1位となる。

Coherence is a crucial aspect of evaluating text readability and can be assessed through two primary factors when evaluating an essay in a scoring scenario. The first factor is logical coherence, characterized by the appropriate use of discourse connectives and the establishment of logical relationships between sentences. The second factor is the appropriateness of punctuation, as inappropriate punctuation can lead to confused sentence structure. To address these concerns, we propose a coherence scoring model consisting of a regression model with two feature extractors: a local coherence discriminative model and a punctuation correction model. We employ gradient-boosting regression trees as the regression model and impose monotonicity constraints on the input features. The results show that our proposed model better generalizes unseen data. The model achieved third place in track 1 of NLPCC 2023 shared task 7. Additionally, we briefly introduce our solution for the remaining tracks, which achieves second place for track 2 and first place for both track 3 and track 4.
翻訳日:2023-08-14 01:18:39 公開日:2023-07-25
# 分散型組織運用による統合交通制御に向けて

Towards Integrated Traffic Control with Operating Decentralized Autonomous Organization ( http://arxiv.org/abs/2308.03769v1 )

ライセンス: Link先を確認
Shengyue Yao, Jingru Yu, Yi Yu, Jia Xu, Xingyuan Dai, Honghai Li, Fei-Yue Wang, Yilun Lin(参考訳) 知的交通システム(ITS)の複雑化に伴い,多種多様な知的エージェントを考慮したITSの統合制御が望まれる。 しかし,集中型あるいは分散型スキームに基づく既存の制御手法では,最適性とスケーラビリティを同時に考慮する能力は示されていない。 この問題に対処するために,分散自律組織(dao)の枠組みに基づく統合制御手法を提案する。 提案手法は, エネルギー消費効率(ECE)に関する世界的コンセンサスを達成し, コンセンサスとインセンティブ機構を通じて, 全知的エージェントの局所的な目的を最適化する。 さらに,DAOの構造剛性問題に関して,演算アルゴリズムを提案する。 具体的には、DAOにおけるスマートコントラクトを実行するクリティカルエージェントを特定し、最終的にDAOベースの制御能力を拡張する。 さらに,提案手法の性能を検討するために,数値実験を設計した。 実験の結果, 既存の分散制御法と比較して, 提案手法による局所目標の改善により, 制御エージェントはグローバル目標のコンセンサスをより早く達成できることが示唆された。 一般に,提案手法はITSにおける統合制御システムの開発において大きな可能性を示す。

With a growing complexity of the intelligent traffic system (ITS), an integrated control of ITS that is capable of considering plentiful heterogeneous intelligent agents is desired. However, existing control methods based on the centralized or the decentralized scheme have not presented their competencies in considering the optimality and the scalability simultaneously. To address this issue, we propose an integrated control method based on the framework of Decentralized Autonomous Organization (DAO). The proposed method achieves a global consensus on energy consumption efficiency (ECE), meanwhile to optimize the local objectives of all involved intelligent agents, through a consensus and incentive mechanism. Furthermore, an operation algorithm is proposed regarding the issue of structural rigidity in DAO. Specifically, the proposed operation approach identifies critical agents to execute the smart contract in DAO, which ultimately extends the capability of DAO-based control. In addition, a numerical experiment is designed to examine the performance of the proposed method. The experiment results indicate that the controlled agents can achieve a consensus faster on the global objective with improved local objectives by the proposed method, compare to existing decentralized control methods. In general, the proposed method shows a great potential in developing an integrated control system in the ITS
翻訳日:2023-08-14 00:41:03 公開日:2023-07-25
# geotransformer:幾何トランスフォーマーによる高速でロバストなポイントクラウド登録

GeoTransformer: Fast and Robust Point Cloud Registration with Geometric Transformer ( http://arxiv.org/abs/2308.03768v1 )

ライセンス: Link先を確認
Zheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng, Slobodan Ilic, Dewen Hu, Kai Xu(参考訳) 点雲登録のための正確な対応を抽出する問題について検討する。 最近のキーポイントフリー手法は、特に低オーバーラップシナリオでは難しい繰り返し可能なキーポイントの検出をバイパスすることで大きな可能性を秘めている。 彼らはダウンサンプリングされたスーパーポイント上の対応を求め、それを密度のある点に伝播する。 スーパーポイントは、隣のパッチが重なり合うかどうかで一致します。 このようなスパースでゆるやかなマッチングは、点雲の幾何学的構造を捉える文脈的特徴を必要とする。 そこで我々は,Geometric Transformer (Geo Transformer) を略して提案し,ロバストなスーパーポイントマッチングのための幾何学的特徴を学習する。 双対距離と三重項角を符号化し、低オーバーラップの場合の剛性変換やロバストに不変である。 単純化された設計は驚くほど高いマッチング精度を達成し、アライメント変換の推定にはransacを必要とせず、100ドルの高速化をもたらす。 屋内、屋外、合成、マルチウェイおよび非剛性を含むリッチなベンチマークに関する広範な実験は、GeoTransformerの有効性を実証している。 特に,本手法では,18{\sim}31$%,登録リコールを7ドル以上で行うことで,不整合率を1,8{\sim}31$%改善する。 我々のコードとモデルは \url{https://github.com/qinzheng93/GeoTransformer} で利用可能です。

We study the problem of extracting accurate correspondences for point cloud registration. Recent keypoint-free methods have shown great potential through bypassing the detection of repeatable keypoints which is difficult to do especially in low-overlap scenarios. They seek correspondences over downsampled superpoints, which are then propagated to dense points. Superpoints are matched based on whether their neighboring patches overlap. Such sparse and loose matching requires contextual features capturing the geometric structure of the point clouds. We propose Geometric Transformer, or GeoTransformer for short, to learn geometric feature for robust superpoint matching. It encodes pair-wise distances and triplet-wise angles, making it invariant to rigid transformation and robust in low-overlap cases. The simplistic design attains surprisingly high matching accuracy such that no RANSAC is required in the estimation of alignment transformation, leading to $100$ times acceleration. Extensive experiments on rich benchmarks encompassing indoor, outdoor, synthetic, multiway and non-rigid demonstrate the efficacy of GeoTransformer. Notably, our method improves the inlier ratio by $18{\sim}31$ percentage points and the registration recall by over $7$ points on the challenging 3DLoMatch benchmark. Our code and models are available at \url{https://github.com/qinzheng93/GeoTransformer}.
翻訳日:2023-08-14 00:40:43 公開日:2023-07-25
# フェデレーション学習のためのブロックチェーンベースの最適化クライアント選択とプライバシ保護フレームワーク

Blockchain-based Optimized Client Selection and Privacy Preserved Framework for Federated Learning ( http://arxiv.org/abs/2308.04442v1 )

ライセンス: Link先を確認
Attia Qammar, Abdenacer Naouri, Jianguo Ding, Huansheng Ning(参考訳) フェデレートラーニング(Federated Learning)は、大規模なニューラルネットワークモデルをトレーニングした分散メカニズムで、複数のクライアントとデータがデバイスに残っており、ローカルモデルのアップデートを共有するのみである。 この機能により、フェデレーション学習はデータのプライバシー問題に対するセキュアなソリューションとみなされる。 しかし、典型的なFL構造は、単一障害点攻撃(SPoF)につながるクライアントサーバに依存しており、モデルトレーニングのためのクライアントのランダムな選択はモデルの精度を損なう。 さらに、敵は推論攻撃を試み、すなわちプライバシーに対する攻撃は勾配リーク攻撃につながる。 この文脈でブロックチェーンベースの最適化クライアント選択とプライバシ保護フレームワークを提案しました。 私たちは3種類のスマートコントラクトを設計しました。 1)クライアントの登録 2)flモデルトレーニングに最適化したクライアントの選択への事前入札 3)支払いの決済とスマートコントラクトの報酬。 さらに,ローカルモデル更新をサーバに送信する前に,Cheon,Kim,Kim,Song(CKKS)メソッドによる完全同型暗号を実装した。 最後に,提案手法をベンチマークデータセット上で評価し,最先端の研究と比較した。 その結果、分散した性質を持つ高い精度とプライバシー保護のFLフレームワークを実現した。

Federated learning is a distributed mechanism that trained large-scale neural network models with the participation of multiple clients and data remains on their devices, only sharing the local model updates. With this feature, federated learning is considered a secure solution for data privacy issues. However, the typical FL structure relies on the client-server, which leads to the single-point-of-failure (SPoF) attack, and the random selection of clients for model training compromised the model accuracy. Furthermore, adversaries try for inference attacks i.e., attack on privacy leads to gradient leakage attacks. We proposed the blockchain-based optimized client selection and privacy-preserved framework in this context. We designed the three kinds of smart contracts such as 1) registration of clients 2) forward bidding to select optimized clients for FL model training 3) payment settlement and reward smart contracts. Moreover, fully homomorphic encryption with Cheon, Kim, Kim, and Song (CKKS) method is implemented before transmitting the local model updates to the server. Finally, we evaluated our proposed method on the benchmark dataset and compared it with state-of-the-art studies. Consequently, we achieved a higher accuracy rate and privacy-preserved FL framework with decentralized nature.
翻訳日:2023-08-14 00:29:26 公開日:2023-07-25
# 独立変数としての立場と量子力学における1/2$-time fractional derivativeの出現

Position as an independent variable and the emergence of the $1/2$-time fractional derivative in quantum mechanics ( http://arxiv.org/abs/2307.15081v1 )

ライセンス: Link先を確認
Marcus W Beims and Arlans JS Lara(参考訳) この位置を独立変数とし、時間を依存変数として使うと、函数 ${\cal P}^{(\pm)}$ が導出され、これはポテンシャル ${\cal V}(q)$ とハミルトニアン ${\cal H}$ の下で空間発展を生成する。 正準共役変数はハミルトニアンの時間と最小である。 古典力学は変化しないが、対応する量子作用素は自然に1/2-$fractional time evolutionをもたらし、最近提案された量子力学の時空対称形式と一致する。 ディラックの手順を用いて変数の分離が可能であり、結合された位置非依存のディラック方程式は1/2$-fractional derivativeに依存するが、結合された時間非依存のディラック方程式(TIDE)は力に比例して電位の正と負のシフトをもたらす。 どちらの方程式も${\cal \hat P}^{(\pm)}$の($\pm$)解と${\cal K}_0$の運動エネルギーは結合強度である。 有限力を持つ系に対する一対の結合状態を得る。 調和振動子(HO)のポテンシャルシフトは$\pm\hbar\omega/2$で、対応する状態のペアは${\cal K}_0\ne 0$で結合される。 時間発展は、${\cal k}_0=0$ に対して存在せず、エネルギー $\hbar\omega/2$ の基底状態は安定である。 ${\cal K}_0>0$ の場合、基底状態はエネルギー $-\hbar\omega/2$ で状態に結合し、 \textit{this coupling} はより高い励起状態を記述することができる。 HOのエネルギー量子化は${\cal K}_0=k\hbar\omega$$k=1,2,\ldots$の量子化につながる。 1次元水素原子では、ポテンシャルシフトは想像力と位置依存になる。 分離ケース ${\cal K}_0=0$ は、しきい値における平面波のような解をもたらす。 しきい値を超えると、平面波状溶液が得られ、境界状態の場合、波動関数は正確な解と似ているが、核に近づいた。

Using the position as an independent variable, and time as the dependent variable, we derive the function ${\cal P}^{(\pm)}$, which generates the space evolution under the potential ${\cal V}(q)$ and Hamiltonian ${\cal H}$. Canonically conjugated variables are the time and minus the Hamiltonian. While the classical dynamics do not change, the corresponding quantum operator naturally leads to a $1/2-$fractional time evolution, consistent with a recently proposed spacetime symmetric formalism of quantum mechanics. Using Dirac's procedure, separation of variables is possible, and while the coupled position-independent Dirac equations depend on the $1/2$-fractional derivative, the coupled time-independent Dirac equations (TIDE) lead to positive and negative shifts in the potential, proportional to the force. Both equations couple the ($\pm$) solutions of ${\cal \hat P}^{(\pm)}$ and the kinetic energy ${\cal K}_0$ is the coupling strength. We obtain a pair of coupled states for systems with finite forces. The potential shifts for the harmonic oscillator (HO) are $\pm\hbar\omega/2$, and the corresponding pair of states are coupled for ${\cal K}_0\ne 0$. No time evolution is present for ${\cal K}_0=0$, and the ground state with energy $\hbar\omega/2$ is stable. For ${\cal K}_0>0$, the ground state becomes coupled to the state with energy $-\hbar\omega/2$, and \textit{this coupling} allows to describe higher excited states. Energy quantization of the HO leads to quantization of ${\cal K}_0=k\hbar\omega$ ($k=1,2,\ldots$). For the one-dimensional Hydrogen atom, the potential shifts become imaginary and position-dependent. Decoupled case ${\cal K}_0=0$ leads to plane-waves-like solutions at the threshold. Above the threshold, we obtain a plane-wave-like solution, and for the bounded states the wave-function becomes similar to the exact solutions but squeezed closer to the nucleus.
翻訳日:2023-08-06 11:34:24 公開日:2023-07-25
# 最小支配集合問題の解法のための2モード局所探索アルゴリズム

A Dual-mode Local Search Algorithm for Solving the Minimum Dominating Set Problem ( http://arxiv.org/abs/2307.16815v1 )

ライセンス: Link先を確認
Enqiang Zhu, Yu Zhang, Shengzhi Wang, Darren Strash, and Chanjuan Liu(参考訳) グラフが与えられたとき、最小支配集合(MinDS)問題は、$D$にないすべての頂点が$D$の少なくとも1つの頂点に隣接しているような最小セットの頂点を識別することである。 MinDS問題は古典的な$\mathcal{NP}$-hard問題であり、ネットワーク解析における多くの異なる応用のために広く研究されている。 この問題を効率的に解くために、許容時間内に良い解を得るための多くのヒューリスティックなアプローチが提案されている。 しかし、既存のMinDSヒューリスティックアルゴリズムは、アルゴリズムの有効性を遅くする頂点を選択する際に、常に様々なタイブリングケースによって制限される。 本稿では,2つの異なる頂点スワッピング方式を確率的に選択するデュアルモード局所探索フレームワークであるDmDSという,MinDS問題の効率的な局所探索アルゴリズムを設計する。 さらに, 解に付加される頂点の頻度に基づく頂点選択基準を導入することで, 他のアルゴリズムの限界にも対処し, 摂動と統合した欲望に基づく戦略を通じて初期解の品質を向上させる新たな戦略を提案する。 最大数千万の頂点を持つ346のインスタンス(または家族)からなる7つのデータセット上で、最先端のアルゴリズムに対してDmDSを評価する。 実験結果から,DmDSの精度は,ほぼすべての事例において最良であり,大規模な実世界のグラフ上での最先端のMinDSアルゴリズムよりもはるかに優れた解が得られた。

Given a graph, the minimum dominating set (MinDS) problem is to identify a smallest set $D$ of vertices such that every vertex not in $D$ is adjacent to at least one vertex in $D$. The MinDS problem is a classic $\mathcal{NP}$-hard problem and has been extensively studied because of its many disparate applications in network analysis. To solve this problem efficiently, many heuristic approaches have been proposed to obtain a good solution within an acceptable time limit. However, existing MinDS heuristic algorithms are always limited by various tie-breaking cases when selecting vertices, which slows down the effectiveness of the algorithms. In this paper, we design an efficient local search algorithm for the MinDS problem, named DmDS -- a dual-mode local search framework that probabilistically chooses between two distinct vertex-swapping schemes. We further address limitations of other algorithms by introducing vertex selection criterion based on the frequency of vertices added to solutions to address tie-breaking cases, and a new strategy to improve the quality of the initial solution via a greedy-based strategy integrated with perturbation. We evaluate DmDS against the state-of-the-art algorithms on seven datasets, consisting of 346 instances (or families) with up to tens of millions of vertices. Experimental results show that DmDS obtains the best performance in accuracy for almost all instances and finds much better solutions than state-of-the-art MinDS algorithms on a broad range of large real-world graphs.
翻訳日:2023-08-06 11:22:01 公開日:2023-07-25
# 内陸水路における船舶の2段階強化学習

2-Level Reinforcement Learning for Ships on Inland Waterways ( http://arxiv.org/abs/2307.16769v1 )

ライセンス: Link先を確認
Martin Waltz, Niklas Paulig, Ostap Okhrin(参考訳) 本稿では、深部強化学習(DRL)に基づく内陸水路(IW)における自動表面車両(ASV)制御のための現実的なモジュール化フレームワークを提案する。 高レベルローカルパス計画(LPP)ユニットと低レベルパス追従(PF)ユニットの2つのレベルで構成され、それぞれDRLエージェントで構成されている。 LPPエージェントは、近くの船舶、交通規則、水路の幾何学を考慮に入れた経路を計画する責任がある。 これにより,最近提案されている空間-時間的リカレントニューラルネットワークアーキテクチャを,連続的な動作空間に転送する。 PFエージェントは、船舶および環境力の風、波、電流に対する浅い水の影響を考慮しつつ、低レベルのアクチュエータ制御を担っている。 どちらのエージェントもシミュレーションで徹底的に検証されており、ドイツ北部のエルベ低地を例に挙げ、実際のAIS軌道を用いて他の船の挙動をモデル化している。

This paper proposes a realistic modularized framework for controlling autonomous surface vehicles (ASVs) on inland waterways (IWs) based on deep reinforcement learning (DRL). The framework comprises two levels: a high-level local path planning (LPP) unit and a low-level path following (PF) unit, each consisting of a DRL agent. The LPP agent is responsible for planning a path under consideration of nearby vessels, traffic rules, and the geometry of the waterway. We thereby leverage a recently proposed spatial-temporal recurrent neural network architecture, which is transferred to continuous action spaces. The PF agent is responsible for low-level actuator control while accounting for shallow water influences on the marine craft and the environmental forces winds, waves, and currents. Both agents are thoroughly validated in simulation, employing the lower Elbe in northern Germany as an example case and using real AIS trajectories to model the behavior of other ships.
翻訳日:2023-08-06 11:21:18 公開日:2023-07-25
# ニューロシンボリックダーツゲームとしての単語感覚の曖昧さ

Word Sense Disambiguation as a Game of Neurosymbolic Darts ( http://arxiv.org/abs/2307.16663v1 )

ライセンス: Link先を確認
Tiansi Dong, Rafet Sifa(参考訳) Word Sense Disambiguation (WSD)は、自然言語の理解と知識工学において最も難しいタスクの1つである。 F1スコアの80%のガラス天井は、様々な知識グラフによって強化された教師付きディープラーニングによって最近達成されている。 本稿では、F1スコアを90%以上押し上げることができる新しいニューロシンボリック手法を提案する。 我々の方法論の核心は、n-次元空間におけるネスト球の配置という観点から、ニューロシンボリックな感覚埋め込みである。 ボールの中心点は単語埋め込みを保存し、ボールの位置を部分的に固定する。 ボール間の包含関係は感覚間のシンボリックハイパーニム関係を正確にエンコードし、以前に実現できない感覚埋め込み間の単純な論理推論を可能にする。 私たちは、ダーツゲーム(ダーツボードにダーツを撃ち込むゲーム)のように、コンテキスト化された単語埋め込みからセンスボール埋め込みへのマッピングを学ぶためにトランスフォーマーを訓練しました。 ベンチマークWSDコーパスに約70%のトレーニングデータと75%のテストデータを含む,事前学習したn-ball埋め込みを利用して,一連の実験を行う。 実験におけるf1のスコアは、6つのテストデータセットの90.1%から100.0%である(各グループは、nボール埋め込みのサイズが異なる4つのテストデータを持っている)。 我々の新しいニューロシンボリック手法は、WSDの深層学習アプローチの天井を破る可能性を秘めている。 現在の作品の限界と拡張がリストアップされている。

Word Sense Disambiguation (WSD) is one of the hardest tasks in natural language understanding and knowledge engineering. The glass ceiling of 80% F1 score is recently achieved through supervised deep-learning, enriched by a variety of knowledge graphs. Here, we propose a novel neurosymbolic methodology that is able to push the F1 score above 90%. The core of our methodology is a neurosymbolic sense embedding, in terms of a configuration of nested balls in n-dimensional space. The centre point of a ball well-preserves word embedding, which partially fix the locations of balls. Inclusion relations among balls precisely encode symbolic hypernym relations among senses, and enable simple logic deduction among sense embeddings, which cannot be realised before. We trained a Transformer to learn the mapping from a contextualized word embedding to its sense ball embedding, just like playing the game of darts (a game of shooting darts into a dartboard). A series of experiments are conducted by utilizing pre-training n-ball embeddings, which have the coverage of around 70% training data and 75% testing data in the benchmark WSD corpus. The F1 scores in experiments range from 90.1% to 100.0% in all six groups of test data-sets (each group has 4 testing data with different sizes of n-ball embeddings). Our novel neurosymbolic methodology has the potential to break the ceiling of deep-learning approaches for WSD. Limitations and extensions of our current works are listed.
翻訳日:2023-08-06 11:20:40 公開日:2023-07-25
# 大規模言語モデルによる子ども物語の信頼性

Trustworthiness of Children Stories Generated by Large Language Models ( http://arxiv.org/abs/2308.00073v1 )

ライセンス: Link先を確認
Prabin Bhandari and Hannah Marie Brennan(参考訳) 大規模言語モデル(llm)は、文学的テキストを生成する能力が非常に大きい。 しかし,子どもの物語を創出する効果については,まだ十分に検証されていない。 本研究では,LSMが生み出す子どもの物語の信頼度を,様々な尺度を用いて評価し,その結果と旧来の子どもの物語とを比較して,その意義をよりよく評価する。 以上の結果から, LLMは実話の質やニュアンスレベルにおいて, 子どもの物語の生成に苦慮していることが示唆された。

Large Language Models (LLMs) have shown a tremendous capacity for generating literary text. However, their effectiveness in generating children's stories has yet to be thoroughly examined. In this study, we evaluate the trustworthiness of children's stories generated by LLMs using various measures, and we compare and contrast our results with both old and new children's stories to better assess their significance. Our findings suggest that LLMs still struggle to generate children's stories at the level of quality and nuance found in actual stories
翻訳日:2023-08-06 11:12:19 公開日:2023-07-25
# 音声表現学習:シングルビュー、マルチビュー、マルチタスク法による双方向エンコーダの学習

Speech representation learning: Learning bidirectional encoders with single-view, multi-view, and multi-task methods ( http://arxiv.org/abs/2308.00129v1 )

ライセンス: Link先を確認
Qingming Tang(参考訳) 本論文は,時系列データの時間的あるいは空間的表現学習に着目し,学習表現を用いて下流系列予測タスクを改善することを目的としている。 教師付き学習は、適切なシーケンシャル表現を学習するためにディープニューラルネットワークをトレーニングするための最も有力なアプローチである。 しかし、教師付き学習をスケールするための制限要因の1つは、十分な注釈付きデータがないことである。 この課題によって動機付けられた、大量のラベル付きおよび弱いラベル付きデータと追加のデータモダリティを活用できる表現学習手法を検討することは自然である。 音声データに対する表現学習の幅広い研究について述べる。 この論文では、補助的な損失を伴う教師あり学習、教師なし学習、半教師あり学習、多視点学習など、複数の設定について研究している。 さまざまな学習問題に加えて,表現学習に対する複数のアプローチも検討しています。 音声データに焦点をあてるが、この論文に記載されている手法は他の領域にも適用できる。 全体として、表現学習の分野は急速に発展している。 音声関連タスクの最先端結果は通常、大規模な自己教師付き学習で事前訓練されたトランスフォーマーに基づいており、複数の下流タスクに利益をもたらす汎用表現を学習することを目的としている。 2020年以降、大規模な事前トレーニングは、優れたパフォーマンスを達成するためのデファクトな選択となっている。 この遅延論文は、音声表現学習の最新結果を要約して比較しようとはせず、複数の学習設定をカバーするトランスフォーマー時代以前の音声表現学習に関するユニークな研究を示す。 この論文のいくつかの発見は今日でも有用である。

This thesis focuses on representation learning for sequence data over time or space, aiming to improve downstream sequence prediction tasks by using the learned representations. Supervised learning has been the most dominant approach for training deep neural networks for learning good sequential representations. However, one limiting factor to scale supervised learning is the lack of enough annotated data. Motivated by this challenge, it is natural to explore representation learning methods that can utilize large amounts of unlabeled and weakly labeled data, as well as an additional data modality. I describe my broad study of representation learning for speech data. Unlike most other works that focus on a single learning setting, this thesis studies multiple settings: supervised learning with auxiliary losses, unsupervised learning, semi-supervised learning, and multi-view learning. Besides different learning problems, I also explore multiple approaches for representation learning. Though I focus on speech data, the methods described in this thesis can also be applied to other domains. Overall, the field of representation learning is developing rapidly. State-of-the-art results on speech related tasks are typically based on Transformers pre-trained with large-scale self-supervised learning, which aims to learn generic representations that can benefit multiple downstream tasks. Since 2020, large-scale pre-training has been the de facto choice to achieve good performance. This delayed thesis does not attempt to summarize and compare with the latest results on speech representation learning; instead, it presents a unique study on speech representation learning before the Transformer era, that covers multiple learning settings. Some of the findings in this thesis can still be useful today.
翻訳日:2023-08-06 11:01:27 公開日:2023-07-25
# コンテキストのパワーを解き放つ:コンテキストに基づく予測モデルによる大規模レコメンデーションシステムの拡張

Unleash the Power of Context: Enhancing Large-Scale Recommender Systems with Context-Based Prediction Models ( http://arxiv.org/abs/2308.01231v1 )

ライセンス: Link先を確認
Jan Hartman, Assaf Klein, Davorin Kopi\v{c}, Natalia Silberstein(参考訳) 本稿では,文脈に基づく予測モデルの概念を紹介する。 コンテキストベースの予測モデルは、アイテム自体の特定の特徴を考慮せずに、ユーザとコンテキストの機能のみに依存することによって、ユーザのアクション(クリックや変換など)の確率を決定する。 我々は,クリック確率を推定するための補助的コンテキストベースモデルのトレーニングや,ctr予測モデルの特徴としてその予測を組み込むなど,このモデリング手法に多くの有用な応用方法を見出した。 この強化は、オフラインとオンラインのビジネスメトリクスを大幅に改善すると同時に、サービスコストに最小限の影響を与えます。 全体として、私たちの研究は、大規模商用レコメンデーションシステムのパフォーマンスを向上させるための、シンプルでスケーラブルで強力なアプローチを提供しています。

In this work, we introduce the notion of Context-Based Prediction Models. A Context-Based Prediction Model determines the probability of a user's action (such as a click or a conversion) solely by relying on user and contextual features, without considering any specific features of the item itself. We have identified numerous valuable applications for this modeling approach, including training an auxiliary context-based model to estimate click probability and incorporating its prediction as a feature in CTR prediction models. Our experiments indicate that this enhancement brings significant improvements in offline and online business metrics while having minimal impact on the cost of serving. Overall, our work offers a simple and scalable, yet powerful approach for enhancing the performance of large-scale commercial recommender systems, with broad implications for the field of personalized recommendations.
翻訳日:2023-08-06 10:53:29 公開日:2023-07-25
# GNN4FR: 失われたGNNベースのFederated Recommendationフレームワーク

GNN4FR: A Lossless GNN-based Federated Recommendation Framework ( http://arxiv.org/abs/2308.01197v1 )

ライセンス: Link先を確認
Guowei Wu and Weike Pan and Zhong Ming(参考訳) グラフニューラルネットワーク(GNN)は,ユーザやアイテムのノード間の高次構造情報をキャプチャする能力によって,レコメンデーションシステムで広く普及している。 しかし、これらの手法では、ユーザーと対応するアイテム間の個人間のインタラクションデータを収集し、それらを中央サーバーでモデル化し、GDPRのようなプライバシー法を破る必要がある。 これまでのところ、各ユーザのプライベートなインタラクションデータ(すなわち、自身のサブグラフ)をリークすることなく、グローバルグラフを構築することはできない。 本稿では,完全高次構造情報を用いたフルグラフ学習を実現するgnnに基づく新しいフェデレーション推奨フレームワークを最初に設計し,それに対応する非フェデレーションと等価なトレーニングプロセスを実現する。 さらに、LightGCNを使ってフレームワークの例をインスタンス化し、その等価性を示す。

Graph neural networks (GNNs) have gained wide popularity in recommender systems due to their capability to capture higher-order structure information among the nodes of users and items. However, these methods need to collect personal interaction data between a user and the corresponding items and then model them in a central server, which would break the privacy laws such as GDPR. So far, no existing work can construct a global graph without leaking each user's private interaction data (i.e., his or her subgraph). In this paper, we are the first to design a novel lossless federated recommendation framework based on GNN, which achieves full-graph training with complete high-order structure information, enabling the training process to be equivalent to the corresponding un-federated counterpart. In addition, we use LightGCN to instantiate an example of our framework and show its equivalence.
翻訳日:2023-08-06 10:53:01 公開日:2023-07-25
# Sparse と Noisy アノテーションを用いた能動学習用ラベルのロバストアサインメント

Robust Assignment of Labels for Active Learning with Sparse and Noisy Annotations ( http://arxiv.org/abs/2307.14380v1 )

ライセンス: Link先を確認
Daniel Ka{\l}u\.za and Andrzej Janusz and Dominik \'Sl\k{e}zak(参考訳) 教師付き分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。 彼らのパフォーマンスは、トレーニングで使用されるラベルの品質と密接に関連している。 残念なことに、多くのタスクで良質なアノテーションを取得するのは、実現不可能か、実際に実施するには高価すぎる。 この課題に取り組むために、アクティブラーニングアルゴリズムは、ラベル付けの最も関連するデータのみを選択するために一般的に用いられる。 しかし、これは専門家から取得したラベルの品質と量で十分である場合に限られる。 残念なことに、多くのアプリケーションでは、ラベルの品質を高めるために複数のアノテータによる個々のサンプルのアノテートと、ラベル付きインスタンスの総数を増やすために新しいサンプルのアノテートとのトレードオフが必要である。 本稿では,アクティブラーニングの文脈において,データアノテーションの不備の問題に対処する。 特に,サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。 提案手法は, 異なる専門家によって注釈付けされたサンプル間の交叉をほとんど必要としない。 提案手法のロバスト性と優越性,アノテータの信頼性の推定,および現状のアルゴリズムと単純多数決に対する実際のラベルの割り当てについて,4つの公開データセットを用いた実験を行った。

Supervised classification algorithms are used to solve a growing number of real-life problems around the globe. Their performance is strictly connected with the quality of labels used in training. Unfortunately, acquiring good-quality annotations for many tasks is infeasible or too expensive to be done in practice. To tackle this challenge, active learning algorithms are commonly employed to select only the most relevant data for labeling. However, this is possible only when the quality and quantity of labels acquired from experts are sufficient. Unfortunately, in many applications, a trade-off between annotating individual samples by multiple annotators to increase label quality vs. annotating new samples to increase the total number of labeled instances is necessary. In this paper, we address the issue of faulty data annotations in the context of active learning. In particular, we propose two novel annotation unification algorithms that utilize unlabeled parts of the sample space. The proposed methods require little to no intersection between samples annotated by different experts. Our experiments on four public datasets indicate the robustness and superiority of the proposed methods in both, the estimation of the annotator's reliability, and the assignment of actual labels, against the state-of-the-art algorithms and the simple majority voting.
翻訳日:2023-07-28 17:18:30 公開日:2023-07-25
# 大規模言語モデルは設計と製造にどのように役立つか?

How Can Large Language Models Help Humans in Design and Manufacturing? ( http://arxiv.org/abs/2307.14377v1 )

ライセンス: Link先を確認
Liane Makatura, Michael Foshey, Bohan Wang, Felix H\"ahnLein, Pingchuan Ma, Bolei Deng, Megan Tjandrasuwita, Andrew Spielberg, Crystal Elaine Owens, Peter Yichen Chen, Allan Zhao, Amy Zhu, Wil J Norton, Edward Gu, Joshua Jacob, Yifei Li, Adriana Schulz, Wojciech Matusik(参考訳) GPT-4を含むLLM(Large Language Models)の進歩は、生成設計にエキサイティングな新しい機会をもたらす。 設計および製造ワークフロー全体にわたるこのツールの適用について検討する。 具体的には,テキストベースのプロンプトを設計仕様に変換する,設計を製造手順に変換する,設計スペースと設計バリエーションを生成する,設計のパフォーマンスを計算する,パフォーマンスに先行する設計を探索する,といったタスクにおけるllmの有用性を精査する。 一連の例を通して、現在のLLMの利点と限界の両方を強調します。 これらの制限を明らかにすることで、これらのモデルの継続的な改善と進歩を触媒することを目指している。

The advancement of Large Language Models (LLMs), including GPT-4, provides exciting new opportunities for generative design. We investigate the application of this tool across the entire design and manufacturing workflow. Specifically, we scrutinize the utility of LLMs in tasks such as: converting a text-based prompt into a design specification, transforming a design into manufacturing instructions, producing a design space and design variations, computing the performance of a design, and searching for designs predicated on performance. Through a series of examples, we highlight both the benefits and the limitations of the current LLMs. By exposing these limitations, we aspire to catalyze the continued improvement and progression of these models.
翻訳日:2023-07-28 17:18:05 公開日:2023-07-25
# DBGSA: 新たなデータ適応型ブレグマンクラスタリングアルゴリズム

DBGSA: A Novel Data Adaptive Bregman Clustering Algorithm ( http://arxiv.org/abs/2307.14375v1 )

ライセンス: Link先を確認
Ying Xiao, Hou-biao Li, Yu-pu Zhang(参考訳) ビッグデータ技術の発展に伴い、データ分析はますます重要になっている。 k-meansのような従来のクラスタリングアルゴリズムは、初期のcentroid選択に非常に敏感であり、非凸データセットでは性能が悪い。 本稿では,ユニバーサル重力アルゴリズムを組み合わせたデータ駆動ブレグマン分岐パラメータ最適化クラスタリングアルゴリズム(dbgsa)を提案する。 反復が進行するにつれて影響係数を徐々に減少させる特殊特性を持つ重力係数方程式を構築する。 さらに,クラスタセンタを識別するためにbregman divergence一般化パワー平均情報損失最小化を導入し,改良データセットにおける手動調整や不確実性の問題を効果的に解決するハイパーパラメータ識別最適化モデルを構築した。 4つのシミュレーションデータセットと6つの実際のデータセットで大規模な実験を行う。 その結果、dbgsaはクラスタリングアルゴリズムの強化やデータセットの改善といった他の類似のアプローチと比較して、様々なクラスタリングアルゴリズムの精度を平均63.8\%向上させた。 さらに,閾値条件におけるパラメータ値の影響を比較するために3次元グリッド探索が確立され,本モデルで設定したパラメータが最適であることが判明した。 この発見は、アルゴリズムの精度と頑健さの強い証拠を提供する。

With the development of Big data technology, data analysis has become increasingly important. Traditional clustering algorithms such as K-means are highly sensitive to the initial centroid selection and perform poorly on non-convex datasets. In this paper, we address these problems by proposing a data-driven Bregman divergence parameter optimization clustering algorithm (DBGSA), which combines the Universal Gravitational Algorithm to bring similar points closer in the dataset. We construct a gravitational coefficient equation with a special property that gradually reduces the influence factor as the iteration progresses. Furthermore, we introduce the Bregman divergence generalized power mean information loss minimization to identify cluster centers and build a hyperparameter identification optimization model, which effectively solves the problems of manual adjustment and uncertainty in the improved dataset. Extensive experiments are conducted on four simulated datasets and six real datasets. The results demonstrate that DBGSA significantly improves the accuracy of various clustering algorithms by an average of 63.8\% compared to other similar approaches like enhanced clustering algorithms and improved datasets. Additionally, a three-dimensional grid search was established to compare the effects of different parameter values within threshold conditions, and it was discovered the parameter set provided by our model is optimal. This finding provides strong evidence of the high accuracy and robustness of the algorithm.
翻訳日:2023-07-28 17:17:52 公開日:2023-07-25
# 二酸化炭素の予測・捕捉・活性化(CO$_2$):時系列分析・機械学習・材料設計の統合

Forecasting, capturing and activation of carbon-dioxide (CO$_2$): Integration of Time Series Analysis, Machine Learning, and Material Design ( http://arxiv.org/abs/2307.14374v1 )

ライセンス: Link先を確認
Suchetana Sadhukhan and Vivek Kumar Yadav(参考訳) 本研究は,2019年1月から2023年2月までの日次産業別,国別CO$_2排出の時系列分析を行う。 この研究は欧州諸国(eu27、イギリス、イタリア、ドイツ、スペイン)とインドにおける電力、産業、地上輸送、国内航空、国際航空部門に焦点を当て、カーボンモニター研究イニシアチブのほぼリアルタイムな活動データを利用している。 通常の排出パターンを特定するため、新型コロナウイルスのパンデミックによる破壊的な影響により、2020年のデータは除外される。 この研究は、CO$_2$排出の主要な寄与要因を決定するための主成分分析(PCA)を実行する。 この分析は、電力、産業、地上輸送部門がデータセットのばらつきの大部分を占めていることを示している。 強固な予測を容易にするために、さらなる分析のために7日間の移動平均データセットが使用される。 このデータセットは、短期トレンドと長期トレンドの両方をキャプチャし、予測目的のデータの品質を高める。 この研究は、7日間の移動平均データセット上のLong Short-Term Memory(LSTM)モデルを使用して、エミッションを効果的に予測し、政策決定、緩和戦略、気候変動の取り組みに関する洞察を提供する。 トレーニングフェーズでは、LSTMモデルの安定性と収束が保証され、テストフェーズにおける信頼性が保証される。 損失関数の評価はこの信頼性を示す。 このモデルは、様々な国やセクターで0.8242から0.995のR^2$の値で示されるように、高い効率を達成する。 さらに, スカンジウムおよびホウ素/アルミニウム系薄膜をCO$2$(結合エネルギーは-3.0から-3.5eV)を捕捉するための極めて効率的な材料として用いることを提案する。 これらの材料はグラフェンおよび窒化ホウ素シートの親和性を超えることが示されている。

This study provides a comprehensive time series analysis of daily industry-specific, country-wise CO$_2$ emissions from January 2019 to February 2023. The research focuses on the Power, Industry, Ground Transport, Domestic Aviation, and International Aviation sectors in European countries (EU27 & UK, Italy, Germany, Spain) and India, utilizing near-real-time activity data from the Carbon Monitor research initiative. To identify regular emission patterns, the data from the year 2020 is excluded due to the disruptive effects caused by the COVID-19 pandemic. The study then performs a principal component analysis (PCA) to determine the key contributors to CO$_2$ emissions. The analysis reveals that the Power, Industry, and Ground Transport sectors account for a significant portion of the variance in the dataset. A 7-day moving averaged dataset is employed for further analysis to facilitate robust predictions. This dataset captures both short-term and long-term trends and enhances the quality of the data for prediction purposes. The study utilizes Long Short-Term Memory (LSTM) models on the 7-day moving averaged dataset to effectively predict emissions and provide insights for policy decisions, mitigation strategies, and climate change efforts. During the training phase, the stability and convergence of the LSTM models are ensured, which guarantees their reliability in the testing phase. The evaluation of the loss function indicates this reliability. The model achieves high efficiency, as demonstrated by $R^2$ values ranging from 0.8242 to 0.995 for various countries and sectors. Furthermore, there is a proposal for utilizing scandium and boron/aluminium-based thin films as exceptionally efficient materials for capturing CO$_2$ (with a binding energy range from -3.0 to -3.5 eV). These materials are shown to surpass the affinity of graphene and boron nitride sheets in this regard.
翻訳日:2023-07-28 17:17:32 公開日:2023-07-25
# Infinite Width Shallow ReLU Neural Networkで表現可能な方向線形関数

Piecewise Linear Functions Representable with Infinite Width Shallow ReLU Neural Networks ( http://arxiv.org/abs/2307.14373v1 )

ライセンス: Link先を確認
Sarah McCarty(参考訳) 本稿では, 固定化線形ユニット(ReLU)を活性化関数として, 無限幅, 有限コスト浅層ニューラルネットワークを用いた連続片方向線形関数の表現を解析する。 その積分表現を通じて、浅いニューラルネットワークを適切なパラメータ空間上の対応する符号付き有限測度で識別することができる。 パラメータ空間上のこれらの測度を射影 $n$-sphere cross $\mathbb{R}$ の測度にマッピングし、パラメータ空間内の点を函数の領域内の超平面に全射写像することができる。 この種の無限幅ニューラルネットワークで表現可能な全ての連続的区分線形関数は有限幅の浅いreluニューラルネットワークとして表現可能である。

This paper analyzes representations of continuous piecewise linear functions with infinite width, finite cost shallow neural networks using the rectified linear unit (ReLU) as an activation function. Through its integral representation, a shallow neural network can be identified by the corresponding signed, finite measure on an appropriate parameter space. We map these measures on the parameter space to measures on the projective $n$-sphere cross $\mathbb{R}$, allowing points in the parameter space to be bijectively mapped to hyperplanes in the domain of the function. We prove a conjecture of Ongie et al. that every continuous piecewise linear function expressible with this kind of infinite width neural network is expressible as a finite width shallow ReLU neural network.
翻訳日:2023-07-28 17:16:57 公開日:2023-07-25
# Naive Bayes分類器を用いた機械学習モデルを用いた大学生の抑うつ状態の予測

Prediction of depression status in college students using a Naive Bayes classifier based machine learning model ( http://arxiv.org/abs/2307.14371v1 )

ライセンス: Link先を確認
Fred Torres Cruz, Evelyn Eliana Coaquira Flores, Sebastian Jarom Condori Quispe(参考訳) This study presents a machine learning model based on the Naive Bayes classifier for predicting the level of depression in university students, the objective was to improve prediction accuracy using a machine learning model involving 70% training data and 30% validation data based on the Naive Bayes classifier, the collected data includes factors associated with depression from 519 university students, the results showed an accuracy of 78.03%, high sensitivity in detecting positive cases of depression, especially at moderate and severe levels, and significant specificity in correctly classifying negative cases, these findings highlight the effectiveness of the model in early detection and treatment of depression, benefiting vulnerable sectors and contributing to the improvement of mental health in the student population.

This study presents a machine learning model based on the Naive Bayes classifier for predicting the level of depression in university students, the objective was to improve prediction accuracy using a machine learning model involving 70% training data and 30% validation data based on the Naive Bayes classifier, the collected data includes factors associated with depression from 519 university students, the results showed an accuracy of 78.03%, high sensitivity in detecting positive cases of depression, especially at moderate and severe levels, and significant specificity in correctly classifying negative cases, these findings highlight the effectiveness of the model in early detection and treatment of depression, benefiting vulnerable sectors and contributing to the improvement of mental health in the student population.
翻訳日:2023-07-28 17:16:44 公開日:2023-07-25
# 決定論的遷移系に対する手続きモデルの合成

Synthesis of Procedural Models for Deterministic Transition Systems ( http://arxiv.org/abs/2307.14368v1 )

ライセンス: Link先を確認
Javier Segovia-Aguas, Jonathan Ferrer-Mestres, Sergio Jim\'enez(参考訳) 本稿では、与えられた離散システムの状態遷移の手続きモデルを合成するための一般的なアプローチを紹介する。 このアプローチは一般的に、離散システムの状態遷移をモデル化するために異なるターゲット言語を受け入れます。ストリップアクションモデルの合成やセルオートマトンのアップデートルールなど、異なるターゲット言語を持つ異なるモデル獲得タスクは、我々の一般的なアプローチの特定の例に適合します。 合成への帰納的アプローチは、(pre-state, action, post-state)タプルとして表される状態遷移の一連の例が入力として与えられることを意味する。 目標は、所定の前状態上で実行されると、関連する後状態を出力する構造化プログラムを合成することである。 提案手法は,Random-Access Machine (RAM) と最小限の命令セットと有限量のメモリを用いて構築可能な,構造化された終了プログラムの空間における組合せ探索を実装した。 コンビネート検索は、候補プログラムの複雑さや、与えられた入力セットへの適合度を評価する関数によって導かれる。

This paper introduces a general approach for synthesizing procedural models of the state-transitions of a given discrete system. The approach is general in that it accepts different target languages for modeling the state-transitions of a discrete system; different model acquisition tasks with different target languages, such as the synthesis of STRIPS action models, or the update rule of a cellular automaton, fit as particular instances of our general approach. We follow an inductive approach to synthesis meaning that a set of examples of state-transitions, represented as (pre-state, action, post-state) tuples, are given as input. The goal is to synthesize a structured program that, when executed on a given pre-state, outputs its associated post-state. Our synthesis method implements a combinatorial search in the space of well-structured terminating programs that can be built using a Random-Access Machine (RAM), with a minimalist instruction set, and a finite amount of memory. The combinatorial search is guided with functions that asses the complexity of the candidate programs, as well as their fitness to the given input set of examples.
翻訳日:2023-07-28 17:16:35 公開日:2023-07-25
# Prot2Text:GNNとトランスフォーマーを用いたマルチモーダルタンパク質の機能生成

Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers ( http://arxiv.org/abs/2307.14367v1 )

ライセンス: Link先を確認
Hadi Abdine, Michail Chatzianastasis, Costas Bouyioukos, Michalis Vazirgiannis(参考訳) ビッグバイオシステムの複雑な性質により、一部の科学者はその理解を想像もつかないミッションで分類した。 異なるレベルの課題がこのタスクを複雑にしており、その1つはタンパク質の機能の予測である。 近年,様々な機械学習手法の開発を通じて,この分野において大きな進歩を遂げている。 しかし、既存のほとんどの手法はタスクを多分類問題として定式化し、事前に定義されたラベルをタンパク質に割り当てる。 本研究では,従来の二分分類やカテゴリ分類を超越して,タンパク質関数を自由テキスト形式で予測する新しい手法である \textbf{prot2text} を提案する。 エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることで,タンパク質の配列,構造,テキストアノテーションなど,さまざまなデータタイプを効果的に統合する。 このマルチモーダルアプローチはタンパク質の機能の全体的表現を可能にし、詳細で正確な記述を生成できる。 本モデルを評価するために,swissprotからマルチモーダルタンパク質データセットを抽出し,prot2textの有効性を実証した。 これらの結果は、マルチモーダルモデル、特にGNNとLLMの融合による変換効果を強調し、タンパク質の機能をより正確に予測するための強力なツールを研究者に提供する。 コード、モデル、デモは公開される予定だ。

The complex nature of big biological systems pushed some scientists to classify its understanding under the inconceivable missions. Different leveled challenges complicated this task, one of is the prediction of a protein's function. In recent years, significant progress has been made in this field through the development of various machine learning approaches. However, most existing methods formulate the task as a multi-classification problem, i.e assigning predefined labels to proteins. In this work, we propose a novel approach, \textbf{Prot2Text}, which predicts a protein function's in a free text style, moving beyond the conventional binary or categorical classifications. By combining Graph Neural Networks(GNNs) and Large Language Models(LLMs), in an encoder-decoder framework, our model effectively integrates diverse data types including proteins' sequences, structures, and textual annotations. This multimodal approach allows for a holistic representation of proteins' functions, enabling the generation of detailed and accurate descriptions. To evaluate our model, we extracted a multimodal protein dataset from SwissProt, and demonstrate empirically the effectiveness of Prot2Text. These results highlight the transformative impact of multimodal models, specifically the fusion of GNNs and LLMs, empowering researchers with powerful tools for more accurate prediction of proteins' functions. The code, the models and a demo will be publicly released.
翻訳日:2023-07-28 17:16:13 公開日:2023-07-25
# 効率的な公正ランキングのための説明可能な格差補償

Explainable Disparity Compensation for Efficient Fair Ranking ( http://arxiv.org/abs/2307.14366v1 )

ライセンス: Link先を確認
Abraham Gale, Am\'Elie Marian(参考訳) 意思決定システムで使用されるランキング関数は、基礎となるデータにバイアスがあるため、異なる集団に対して異なる結果を生み出すことが多い。 これらの異なる結果に対処し、補償することは、公平な意思決定にとって重要な問題である。 近年の補償措置は、公平性保証を満たすためのランク関数の不透明な変換や、少数グループのメンバに最小の肯定的な結果を保証するためのクォータやセットアシドの使用に重点を置いている。 本稿では,ランキング関数に対するデータ駆動型補償法を提案する。 本手法は,ランク関数の相違に対処するために,少数グループのメンバに与えられるボーナスポイントの生成に依存する。 ボーナスポイントは事前に設定でき、組み合わせることができ、表現の交点を考慮し、利害関係者への透明性を高めることができる。 分散度を最小限に抑えるために,効率的なサンプリングベースアルゴリズムを提案する。 我々は,実世界の学校入試とレシディビズムデータセットを用いてアルゴリズムを検証し,既存の公正ランキングアルゴリズムと比較した。

Ranking functions that are used in decision systems often produce disparate results for different populations because of bias in the underlying data. Addressing, and compensating for, these disparate outcomes is a critical problem for fair decision-making. Recent compensatory measures have mostly focused on opaque transformations of the ranking functions to satisfy fairness guarantees or on the use of quotas or set-asides to guarantee a minimum number of positive outcomes to members of underrepresented groups. In this paper we propose easily explainable data-driven compensatory measures for ranking functions. Our measures rely on the generation of bonus points given to members of underrepresented groups to address disparity in the ranking function. The bonus points can be set in advance, and can be combined, allowing for considering the intersections of representations and giving better transparency to stakeholders. We propose efficient sampling-based algorithms to calculate the number of bonus points to minimize disparity. We validate our algorithms using real-world school admissions and recidivism datasets, and compare our results with that of existing fair ranking algorithms.
翻訳日:2023-07-28 17:15:46 公開日:2023-07-25
# 非凸対象による分散ロバスト最適化:アルゴリズムと解析

Federated Distributionally Robust Optimization with Non-Convex Objectives: Algorithm and Analysis ( http://arxiv.org/abs/2307.14364v1 )

ライセンス: Link先を確認
Yang Jiao, Kai Yang, Dongjin Song(参考訳) 分布的ロバスト最適化(DRO)は、確率分布のあいまいさセットよりも最悪のケースコストを最小限に抑える最適な決定を行うことを目的としており、ネットワークの挙動分析、リスク管理など様々な用途に広く適用されている。 しかし、既存のDRO技術は3つの大きな課題に直面している。 1) 分散環境における非同期更新の扱い方 2) 事前分布を効果的に活用する方法 3) 異なるシナリオに応じてロバスト性の程度を適切に調整する方法。 そこで本研究では,非同期分散アルゴリズムであるAsynchronous Single-looP alternatIve gRadient projEction (ASPIRE) と itErative Active SEt method (EASE) を提案し,FDRO (Federated Distributionally robust optimization) 問題に対処する。 さらに、制約付きD-ノルムの不確実性集合と呼ばれる新しい不確実性集合が、事前分布を効果的に活用し、強靭性の度合いを柔軟に制御するために開発された。 最後に,提案アルゴリズムが収束することが保証され,繰り返しの複雑さも解析されることを示す。 実世界のデータセットに関する広範囲な実証研究は、提案手法が高速収束を達成できるだけでなく、データの不均一性や悪意のある攻撃にも頑健であり続けることを証明している。

Distributionally Robust Optimization (DRO), which aims to find an optimal decision that minimizes the worst case cost over the ambiguity set of probability distribution, has been widely applied in diverse applications, e.g., network behavior analysis, risk management, etc. However, existing DRO techniques face three key challenges: 1) how to deal with the asynchronous updating in a distributed environment; 2) how to leverage the prior distribution effectively; 3) how to properly adjust the degree of robustness according to different scenarios. To this end, we propose an asynchronous distributed algorithm, named Asynchronous Single-looP alternatIve gRadient projEction (ASPIRE) algorithm with the itErative Active SEt method (EASE) to tackle the federated distributionally robust optimization (FDRO) problem. Furthermore, a new uncertainty set, i.e., constrained D-norm uncertainty set, is developed to effectively leverage the prior distribution and flexibly control the degree of robustness. Finally, our theoretical analysis elucidates that the proposed algorithm is guaranteed to converge and the iteration complexity is also analyzed. Extensive empirical studies on real-world datasets demonstrate that the proposed method can not only achieve fast convergence, and remain robust against data heterogeneity as well as malicious attacks, but also tradeoff robustness with performance.
翻訳日:2023-07-28 17:15:29 公開日:2023-07-25
# マルチタスク学習が部分的スーパービジョンに出会ったとき:コンピュータビジョンレビュー

When Multi-Task Learning Meets Partial Supervision: A Computer Vision Review ( http://arxiv.org/abs/2307.14382v1 )

ライセンス: Link先を確認
Maxime Fontana, Michael Spratling, Miaojing Shi(参考訳) マルチタスク学習(MTL)は,相互関係を利用して複数のタスクを同時に学習することを目的としている。 共有リソースを使用して複数のアウトプットを同時に計算することにより、この学習パラダイムは、各タスクに別々のメソッドを使用する従来のアプローチに比べて、メモリ要件と推論時間が少なくなる可能性がある。 タスク関係は、これらのメソッドのデータ依存性のレベルを下げるだけでなく、パフォーマンスも改善できるため、MTLのこれまでの作業は主に、完全に教師されたメソッドに焦点を当ててきた。 しかし、mtlは複雑な最適化スキームとより高いラベリング要求のために、いくつかの課題を導入する。 このレビューは、これらの課題に対処するために、異なる部分的な監視設定の下でMTLをどのように活用するかに焦点を当てる。 まず,MTLは従来,タスク間の知識伝達に異なるパラメータ共有技術を用いてきた。 第二に、このような多目的最適化スキームから生じる異なる課題を示す。 第3に、タスク関係を分析してタスクグループ化を実現する方法を紹介している。 第4に、MTLに適用された部分的教師付き手法が、上記の課題にどのように対処できるかに焦点を当てる。 最後に,このような手法の利用可能なデータセット,ツール,ベンチマーク結果を紹介する。

Multi-Task Learning (MTL) aims to learn multiple tasks simultaneously while exploiting their mutual relationships. By using shared resources to simultaneously calculate multiple outputs, this learning paradigm has the potential to have lower memory requirements and inference times compared to the traditional approach of using separate methods for each task. Previous work in MTL has mainly focused on fully-supervised methods, as task relationships can not only be leveraged to lower the level of data-dependency of those methods but they can also improve performance. However, MTL introduces a set of challenges due to a complex optimisation scheme and a higher labeling requirement. This review focuses on how MTL could be utilised under different partial supervision settings to address these challenges. First, this review analyses how MTL traditionally uses different parameter sharing techniques to transfer knowledge in between tasks. Second, it presents the different challenges arising from such a multi-objective optimisation scheme. Third, it introduces how task groupings can be achieved by analysing task relationships. Fourth, it focuses on how partially supervised methods applied to MTL can tackle the aforementioned challenges. Lastly, this review presents the available datasets, tools and benchmarking results of such methods.
翻訳日:2023-07-28 17:06:25 公開日:2023-07-25
# EdgeConvEns: エッジインテリジェンスのための畳み込み学習

EdgeConvEns: Convolutional Ensemble Learning for Edge Intelligence ( http://arxiv.org/abs/2307.14381v1 )

ライセンス: Link先を確認
Ilkay Sikdokur, \.Inci M. Bayta\c{s}, Arda Yurdakul(参考訳) deep edge intelligenceは、計算能力に制限のあるエッジネットワークに計算コストの高いトレーニングを要求するディープラーニングモデルを展開することを目指している。 さらに、多くのディープエッジインテリジェンスアプリケーションは、プライバシ上の懸念から中央サーバに転送できない分散データを処理する必要がある。 連合学習のような分散学習手法は、学習重量を交換することでモデルを集合的に学習するソリューションを提供する。 しかし、エッジデバイスが扱えない複雑なモデルや、最先端の性能を達成するために複数のラウンドのネットワーク通信を必要とすることが多い。 本研究では,エッジ上の不均質な弱モデルをトレーニングし,エッジ上のデータが異種に分散した場所でのアンサンブルを学習するための,畳み込み型アンサンブル学習手法であるedgeconvensを提案する。 エッジモデルは、様々な計算能力を持つフィールドプログラミング可能なゲートアレイ(FPGA)デバイス上で独立に実装され、訓練される。 学習データ表現は、エッジデバイスから受信した学習機能を用いてアンサンブルモデルをトレーニングした中央サーバに転送され、全体的な予測性能が向上する。 大規模な実験により、EdgeConvEnsは、さまざまなトレーニングシナリオにおいて、コミュニケーションを減らし、データが少なくして最先端のパフォーマンスを上回ります。

Deep edge intelligence aims to deploy deep learning models that demand computationally expensive training in the edge network with limited computational power. Moreover, many deep edge intelligence applications require handling distributed data that cannot be transferred to a central server due to privacy concerns. Decentralized learning methods, such as federated learning, offer solutions where models are learned collectively by exchanging learned weights. However, they often require complex models that edge devices may not handle and multiple rounds of network communication to achieve state-of-the-art performances. This study proposes a convolutional ensemble learning approach, coined EdgeConvEns, that facilitates training heterogeneous weak models on edge and learning to ensemble them where data on edge are heterogeneously distributed. Edge models are implemented and trained independently on Field-Programmable Gate Array (FPGA) devices with various computational capacities. Learned data representations are transferred to a central server where the ensemble model is trained with the learned features received from the edge devices to boost the overall prediction performance. Extensive experiments demonstrate that the EdgeConvEns can outperform the state-of-the-art performance with fewer communications and less data in various training scenarios.
翻訳日:2023-07-28 17:06:08 公開日:2023-07-25
# 開量子システム制御におけるkrotov法の有効性

Effectiveness of the Krotov method in controlling open quantum systems ( http://arxiv.org/abs/2208.03114v3 )

ライセンス: Link先を確認
Marllos E. Fonseca, Felipe F. Fanchini, Emanuel F. de Lima, and Leonardo K. Castelano(参考訳) クロットフ法を開閉量子系に適用し,外部環境下での量子ビット/量子系の操作に最適化された制御を求める。 ユニタリ最適化の場合、クロトフ法は環境との相互作用を無視した量子系に最初に適用される。 ユニタリ最適化の結果の制御は、環境騒音とともにシステムを駆動するために使用される。 非ユニタリ最適化の場合、krotov法は最適化プロセス中のノイズを既に考慮している。 我々は,ターゲット状態生成と量子ゲート実装という2つの異なる計算タスクを考える。 これらのタスクは単純なqubit/qutritシステムや、漏洩状態を示すシステムで実行される。 状態準備の場合、非単項最適化による制御は、単項最適化による制御よりも優れる。 しかし、ここで示すように、これは必ずしも量子ゲートの実装に当てはまるとは限らない。 ユニタリ最適化が非ユニタリ最適化と同等に機能する状況もある。 これらの状況は、漏洩状態の欠如や、非計算レベルを含むシステム全体に均一に散布される散逸の影響に対応するか検証する。 そのような場合、量子ゲートの実装はヒルベルト空間全体をカバーする必要があり、散逸を抑える方法はない。 一方、計算レベルとその補数を含む部分空間が散逸によって異なる影響を受ける場合、非ユニタリ最適化が有効である。

We apply the Krotov method for open and closed quantum systems with the objective of finding optimized controls to manipulate qubit/qutrit systems in the presence of the external environment. In the case of unitary optimization, the Krotov method is first applied to a quantum system neglecting its interaction with the environment. The resulting controls from the unitary optimization are then used to drive the system along with the environmental noise. In the case of non-unitary optimization, the Krotov method already takes into account the noise during the optimization process. We consider two distinct computational task: target-state preparation and quantum gate implementation. These tasks are carried out in simple qubit/qutrit systems and also in systems presenting leakage states. For the state-preparation cases, the controls from the non-unitary optimization outperform the controls from the unitary optimization. However, as we show here, this is not always true for the implementation of quantum gates. There are some situations where the unitary optimization performs equally well compared to the non-unitary optimization. We verify that these situations corresponds to either the absence of leakage states or to the effects of dissipation being spread uniformly over the system, including non-computational levels. For such cases, the quantum gate implementation must cover the entire Hilbert space and there is no way to dodge dissipation. On the other hand, if the subspace containing the computational levels and its complement are differently affected by dissipation, the non-unitary optimization becomes effective.
翻訳日:2023-07-27 16:34:04 公開日:2023-07-25
# SHAP-XRT: 条件付き独立テストを実現するShapley Value

SHAP-XRT: The Shapley Value Meets Conditional Independence Testing ( http://arxiv.org/abs/2207.07038v4 )

ライセンス: Link先を確認
Jacopo Teneggi, Beepul Bharti, Yaniv Romano and Jeremias Sulam(参考訳) ニューラルネットワークの複雑な性質は、現実世界のシナリオにおける信頼性、信頼性、公平性に関する懸念を引き起こす。 ゲーム理論のソリューション概念であるShapley値は、機械学習モデルの最も一般的な説明方法の1つである。 より伝統的に、統計的観点から、特徴の重要性は条件付き独立の観点で定義される。 これまでのところ、解釈可能性と特徴の重要性の2つのアプローチは別々に検討されてきた。 本研究では,shapleyに基づく説明手法と条件付き独立性テストが密接な関係にあることを示す。 条件付きランダム化テスト(CRT)にインスパイアされたテスト手順である、ローカル(例:サンプル)条件独立性の特定の概念に対して、$\textbf{SHAP}$ley-E$\textbf{X}$planation $\textbf{R}$andomization $\textbf{T}$est (SHAP-XRT)を導入する。 これにより、二分分類問題において、shapley値の限界寄与は、それぞれのテストの$p$-valuesに対して下限と上限を与えることが証明される。 さらに、Shapley値自体が大域(つまり全体)のnull仮説の$p$-値に上限を与えることを示す。 その結果,新たな視点からシェープリーに基づく説明手法の理解を深め,シャプリー値を用いて特徴量に関する統計的に妥当な主張をすることができる条件を特徴付けることができた。

The complex nature of artificial neural networks raises concerns on their reliability, trustworthiness, and fairness in real-world scenarios. The Shapley value -- a solution concept from game theory -- is one of the most popular explanation methods for machine learning models. More traditionally, from a statistical perspective, feature importance is defined in terms of conditional independence. So far, these two approaches to interpretability and feature importance have been considered separate and distinct. In this work, we show that Shapley-based explanation methods and conditional independence testing are closely related. We introduce the $\textbf{SHAP}$ley-E$\textbf{X}$planation $\textbf{R}$andomization $\textbf{T}$est (SHAP-XRT), a testing procedure inspired by the Conditional Randomization Test (CRT) for a specific notion of local (i.e., on a sample) conditional independence. With it, we prove that for binary classification problems, the marginal contributions in the Shapley value provide lower and upper bounds to the $p$-values of their respective tests. Furthermore, we show that the Shapley value itself provides an upper bound to the $p$-value of a global (i.e., overall) null hypothesis. As a result, we further our understanding of Shapley-based explanation methods from a novel perspective and characterize under which conditions one can make statistically valid claims about feature importance via the Shapley value.
翻訳日:2023-07-27 16:33:08 公開日:2023-07-25
# 伝達可能な畳み込みニューラルネットワークによるマルチターゲット追跡

Multi-Target Tracking with Transferable Convolutional Neural Networks ( http://arxiv.org/abs/2210.15539v4 )

ライセンス: Link先を確認
Damian Owerko, Charilaos I. Kanatsoulis, Jennifer Bondarchuk, Donald J. Bucci Jr, Alejandro Ribeiro(参考訳) マルチターゲットトラッキング(multi-target tracking, mtt)は、ノイズセンサ計測から未知数の移動目標の状態を推定することを目的とした、古典的な信号処理タスクである。 本稿では、深層学習の観点からMTTを再検討し、それに取り組むための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 ターゲット状態とセンサ計測を画像として表現し,画像間予測タスクとして再放送する。 そして、小さな追跡領域で完全な畳み込みモデルを訓練し、多数のターゲットとセンサーを持つより広い領域に転送する。 この伝達学習アプローチは、MTTを大規模に実現し、また一般化誤差を束縛する新しい解析によって理論的に支持される。 実際に提案した転送可能なCNNアーキテクチャは、MTTタスクのランダム有限集合フィルタを10のターゲットで上回り、250のターゲットで29%の性能改善を施したMTTタスクに再トレーニングすることなく転送を行う。

Multi-target tracking (MTT) is a classical signal processing task, where the goal is to estimate the states of an unknown number of moving targets from noisy sensor measurements. In this paper, we revisit MTT from a deep learning perspective and propose a convolutional neural network (CNN) architecture to tackle it. We represent the target states and sensor measurements as images and recast the problem as an image-to-image prediction task. Then we train a fully convolutional model at small tracking areas and transfer it to much larger areas with numerous targets and sensors. This transfer learning approach enables MTT at a large scale and is also theoretically supported by our novel analysis that bounds the generalization error. In practice, the proposed transferable CNN architecture outperforms random finite set filters on the MTT task with 10 targets and transfers without re-training to a larger MTT task with 250 targets with a 29% performance improvement.
翻訳日:2023-07-27 16:24:08 公開日:2023-07-25
# ガウス過程を用いた不確かさ推定における単調性と二重降下

Monotonicity and Double Descent in Uncertainty Estimation with Gaussian Processes ( http://arxiv.org/abs/2210.07612v2 )

ライセンス: Link先を確認
Liam Hodgkinson, Chris van der Heide, Fred Roosta, Michael W. Mahoney(参考訳) 予測の信頼性を評価する重要性にもかかわらず、機械学習モデルに対する不確実性定量化(uq)対策が厳密に特徴付けられるようになったのはごく最近である。 1つの顕著な問題は次元の呪いであり、周縁の確率は相互評価の指標を思い起こさせるべきであり、両者はより大きな入力次元で劣化するべきであると一般に信じられている。 実験的なベイズ法(ベイズ法)を最大化するためにハイパーパラメータをチューニングすることにより、その性能が入力次元とともに単調に向上することを証明する。 一方,交叉評価指標が二重降下の特徴である定性的に異なる挙動を示すことを証明した。 寒冷な後部は、特定の環境での性能向上により最近関心を惹きつけており、これらの現象が悪化しているようである。 我々は,結果が実データに対して成り立つことを実証的に検証し,合成共変量を含む結果について検討する。

Despite their importance for assessing reliability of predictions, uncertainty quantification (UQ) measures for machine learning models have only recently begun to be rigorously characterized. One prominent issue is the curse of dimensionality: it is commonly believed that the marginal likelihood should be reminiscent of cross-validation metrics and that both should deteriorate with larger input dimensions. We prove that by tuning hyperparameters to maximize marginal likelihood (the empirical Bayes procedure), the performance, as measured by the marginal likelihood, improves monotonically} with the input dimension. On the other hand, we prove that cross-validation metrics exhibit qualitatively different behavior that is characteristic of double descent. Cold posteriors, which have recently attracted interest due to their improved performance in certain settings, appear to exacerbate these phenomena. We verify empirically that our results hold for real data, beyond our considered assumptions, and we explore consequences involving synthetic covariates.
翻訳日:2023-07-27 16:23:00 公開日:2023-07-25
# 自動置換のための直接音声翻訳

Direct Speech Translation for Automatic Subtitling ( http://arxiv.org/abs/2209.13192v2 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Alina Karakanta, Mauro Cettolo, Matteo Negri, Marco Turchi(参考訳) 自動サブタイリング(英: Automatic Subtitling)とは、オーディオヴィジュアルコンテンツの音声を短いテキスト、すなわち字幕とその対応するタイムスタンプに自動翻訳するタスクである。 生成された字幕は、空間と時間要件に準拠し、音声と同期し、理解を容易にする方法でセグメント化される必要がある。 相当な複雑さから、このタスクはこれまで、テキストの字幕への変換、翻訳、セグメンテーション、タイムスタンプの予測を別々に処理するコンポーネントのパイプラインを通じて対処されてきた。 本稿では,対象言語のサブタイトルとタイムスタンプを1つのモデルで生成する,自動サブタイピングのための最初の直接STモデルを提案する。 7つの言語ペアに関する実験では、同じデータ条件でカスケードシステムを上回っており、また、新しいシナリオをカバーするドメイン内ベンチマークと新しくリリースされたドメイン外ベンチマークの両方で運用ツールと競合することが示されています。

Automatic subtitling is the task of automatically translating the speech of audiovisual content into short pieces of timed text, i.e. subtitles and their corresponding timestamps. The generated subtitles need to conform to space and time requirements, while being synchronised with the speech and segmented in a way that facilitates comprehension. Given its considerable complexity, the task has so far been addressed through a pipeline of components that separately deal with transcribing, translating, and segmenting text into subtitles, as well as predicting timestamps. In this paper, we propose the first direct ST model for automatic subtitling that generates subtitles in the target language along with their timestamps with a single model. Our experiments on 7 language pairs show that our approach outperforms a cascade system in the same data condition, also being competitive with production tools on both in-domain and newly-released out-domain benchmarks covering new scenarios.
翻訳日:2023-07-27 16:22:16 公開日:2023-07-25
# 量子化学習のための部分スクラッチオフロッキーチケットの爆発

Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware Training ( http://arxiv.org/abs/2211.08544v4 )

ライセンス: Link先を確認
Yunshan Zhong, Gongrui Nan, Yuxin Zhang, Fei Chao, Rongrong Ji(参考訳) 量子化アウェアトレーニング(qat)は、量子化ネットワークのパフォーマンスを保ちながら広く普及している。 現代のQATでは、全ての量子化重量がトレーニングプロセス全体に対して更新される。 本稿では,我々が観察した興味深い現象をもとに,この経験に挑戦する。 具体的には、量子化された重みの大部分が、いくつかのトレーニング期間を経て最適な量子化レベルに達します。 この単純で価値の高い観測は、無意味な更新を避けるために、残りのトレーニング期間でこれらの重みの勾配計算をゼロにするきっかけとなりました。 このチケットを効果的に見つけるために、フル精度のチケットと量子化レベルの距離が制御可能な閾値よりも小さい場合、重量を凍結する「抽選チケットスクラッカー」(LTS)と呼ばれるヒューリスティック手法を開発した。 驚いたことに、提案されたLTSは一般的に、50%-70%の重量更新と25%-35%のFLOPを後方パスから排除するが、それでも比較したベースラインと同等またはそれ以上のパフォーマンスを達成している。 例えば、LTSはベースラインと比較して2ビットのMobileNetV2を5.05%改善し、重量更新の46%と後方パスの23%のFLOPを排除した。 コードは url{https://github.com/zysxmu/LTS} にある。

Quantization-aware training (QAT) receives extensive popularity as it well retains the performance of quantized networks. In QAT, the contemporary experience is that all quantized weights are updated for an entire training process. In this paper, this experience is challenged based on an interesting phenomenon we observed. Specifically, a large portion of quantized weights reaches the optimal quantization level after a few training epochs, which we refer to as the partly scratch-off lottery ticket. This straightforward-yet-valuable observation naturally inspires us to zero out gradient calculations of these weights in the remaining training period to avoid meaningless updating. To effectively find the ticket, we develop a heuristic method, dubbed lottery ticket scratcher (LTS), which freezes a weight once the distance between the full-precision one and its quantization level is smaller than a controllable threshold. Surprisingly, the proposed LTS typically eliminates 50%-70% weight updating and 25%-35% FLOPs of the backward pass, while still resulting on par with or even better performance than the compared baseline. For example, compared with the baseline, LTS improves 2-bit MobileNetV2 by 5.05%, eliminating 46% weight updating and 23% FLOPs of the backward pass. Code is at url{https://github.com/zysxmu/LTS}.
翻訳日:2023-07-27 16:11:42 公開日:2023-07-25
# 3次元マルチクラスセグメンテーションにおける拡散モデル評価のための調整訓練戦略の重要性

Importance of Aligning Training Strategy with Evaluation for Diffusion Models in 3D Multiclass Segmentation ( http://arxiv.org/abs/2303.06040v2 )

ライセンス: Link先を確認
Yunguan Fu and Yiwen Li and Shaheer U. Saeed and Matthew J. Clarkson and Yipeng Hu(参考訳) 近年,画像に条件づけられたセグメンテーションマスクを生成させることにより,画像セグメンテーションに分散拡散確率モデル(ddpm)が適用されている。 本研究では,2つの大規模マルチクラスデータセット(前立腺mr,腹部ct)上でのddpmを用いた3次元マルチクラスセグメンテーションモデルについて検討した。 その結果,既存のDDPM法では訓練方法と試験方法の違いが劣ることがわかった。 この不整合を緩和するため,本研究では,地中真実を使わずに,前段階のモデル予測に基づいて劣化マスクを生成するリサイクル手法を提案する。 提案手法は既存のDDPMと比較して,マスク予測やDice損失,トレーニング中の拡散時間ステップの削減など,列車試験の相違を解消するための多くの技術とは無関係に,統計的に有意に向上した。 拡散モデルの性能は競争力があり、同じ計算予算内では非拡散ベースのU-netと視覚的に類似していた。 JAXベースの拡散フレームワークがhttps://github.com/mathpluscode/ImgX-DiffSegでリリースされた。

Recently, denoising diffusion probabilistic models (DDPM) have been applied to image segmentation by generating segmentation masks conditioned on images, while the applications were mainly limited to 2D networks without exploiting potential benefits from the 3D formulation. In this work, we studied the DDPM-based segmentation model for 3D multiclass segmentation on two large multiclass data sets (prostate MR and abdominal CT). We observed that the difference between training and test methods led to inferior performance for existing DDPM methods. To mitigate the inconsistency, we proposed a recycling method which generated corrupted masks based on the model's prediction at a previous time step instead of using ground truth. The proposed method achieved statistically significantly improved performance compared to existing DDPMs, independent of a number of other techniques for reducing train-test discrepancy, including performing mask prediction, using Dice loss, and reducing the number of diffusion time steps during training. The performance of diffusion models was also competitive and visually similar to non-diffusion-based U-net, within the same compute budget. The JAX-based diffusion framework has been released at https://github.com/mathpluscode/ImgX-DiffSeg.
翻訳日:2023-07-27 16:05:42 公開日:2023-07-25
# VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]

VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report] ( http://arxiv.org/abs/2303.04068v3 )

ライセンス: Link先を確認
Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, and Magdalena Balazinska(参考訳) VOCALExploreは,ビデオデータセット上でのドメイン固有モデル構築を支援するシステムである。 VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。 VOCALExploreは、収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。 また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。 最後に、VOCALExploreはモデル性能を犠牲にすることなく低レイテンシを実現する最適化を実装している。 VOCALExploreは、候補取得関数と特徴抽出器が与えられたモデル品質に最も近い性能で、可視遅延が低く(イテレーション1秒あたり約1秒)、高価な前処理が不要であることを示す。

We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
翻訳日:2023-07-27 16:05:02 公開日:2023-07-25
# マルチモーダルインタラクションの定量化とモデル化:情報分解フレームワーク

Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework ( http://arxiv.org/abs/2302.12247v2 )

ライセンス: Link先を確認
Paul Pu Liang, Yun Cheng, Xiang Fan, Chun Kai Ling, Suzanne Nie, Richard Chen, Zihao Deng, Nicholas Allen, Randy Auerbach, Faisal Mahmood, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 近年のマルチモーダルアプリケーションへの関心の高まりにより、様々なモダリティから情報を表現・統合するためのデータセットや手法が広く選択された。 これらの経験的な進歩にもかかわらず、基礎的な研究の疑問が残る: マルチモーダルなタスクを解決するのに必要な相互作用をどのように定量化できるか? その後、これらの相互作用を捉えるのに最も適したマルチモーダルモデルは何ですか? これらの質問に答えるために,入力モダリティと出力タスクを関連付ける冗長性,特異性,相乗効果の程度を定量化する情報理論的手法を提案する。 これら3つの測度をマルチモーダル分布(略してPID)のPID統計と呼び、高次元分布にスケールするこれらのPID統計に対する2つの新しい推定値を導入する。 PID推定を検証するために、PIDが知られている合成データセットと、PID推定を人間のアノテーションと比較する大規模マルチモーダルベンチマークの両方で広範な実験を行う。 最後に,(1)マルチモーダルデータセット内のインタラクションの定量化,(2)マルチモーダルモデルでキャプチャされたインタラクションの定量化,(3)モデル選択のための原則的アプローチ,(4)病理学,ムード予測,ロボット知覚における3つの実世界のケーススタディにおいて有用性を示す。

The recent explosion of interest in multimodal applications has resulted in a wide selection of datasets and methods for representing and integrating information from different modalities. Despite these empirical advances, there remain fundamental research questions: How can we quantify the interactions that are necessary to solve a multimodal task? Subsequently, what are the most suitable multimodal models to capture these interactions? To answer these questions, we propose an information-theoretic approach to quantify the degree of redundancy, uniqueness, and synergy relating input modalities with an output task. We term these three measures as the PID statistics of a multimodal distribution (or PID for short), and introduce two new estimators for these PID statistics that scale to high-dimensional distributions. To validate PID estimation, we conduct extensive experiments on both synthetic datasets where the PID is known and on large-scale multimodal benchmarks where PID estimations are compared with human annotations. Finally, we demonstrate their usefulness in (1) quantifying interactions within multimodal datasets, (2) quantifying interactions captured by multimodal models, (3) principled approaches for model selection, and (4) three real-world case studies engaging with domain experts in pathology, mood prediction, and robotic perception where our framework helps to recommend strong multimodal models for each application.
翻訳日:2023-07-27 16:03:44 公開日:2023-07-25
# 分散型製造システムにおけるオンラインプロセスモニタリングのための知識蒸留に基づく情報共有

Knowledge Distillation-based Information Sharing for Online Process Monitoring in Decentralized Manufacturing System ( http://arxiv.org/abs/2302.12004v2 )

ライセンス: Link先を確認
Zhangyue Shi, Yuxuan Li, Chenang Liu(参考訳) 先進的な製造において,センサ技術の導入は,機械学習を用いた効率的なプロセス監視を実現する機会を提供する。 一方、情報技術の進歩により、製造システムの接続された分散環境が実現され、システム内の異なる製造ユニットがより緊密に連携するようになる。 分散製造システムでは、関連するユニットは同一または類似の製品を製作し、オンラインプロセス監視のために独自の機械学習モデルをデプロイすることができる。 しかし、操作中のタスク進行の不整合性のため、一部のユニットがより情報的なデータを持っている一方、情報的なデータが少ないことも一般的である。 したがって、各ユニットの機械学習モデルの監視性能は大きく異なる可能性がある。 したがって, 分散化製造システムにおいて, 性能の悪いモデルを構築するために, ユニット間の効率よく, セキュアな知識共有を実現することは極めて貴重である。 そこで本研究では, 優れたモデルから情報的知識を抽出し, 不十分なモデルのモニタリング性能を向上させる新しい知識蒸留情報共有(KD-IS)フレームワークを提案する。 本手法の有効性を検証するため,FFF (Connected Fused Filament fabrication)-based Additive Manufacturing (AM) platformにおいて実世界のケーススタディを行った。 実験結果から,本手法はモデル監視性能の向上に極めて有効であり,潜在的なデータプライバシをしっかりと保護できることがわかった。

In advanced manufacturing, the incorporation of sensing technology provides an opportunity to achieve efficient in-situ process monitoring using machine learning methods. Meanwhile, the advances of information technologies also enable a connected and decentralized environment for manufacturing systems, making different manufacturing units in the system collaborate more closely. In a decentralized manufacturing system, the involved units may fabricate same or similar products and deploy their own machine learning model for online process monitoring. However, due to the possible inconsistency of task progress during the operation, it is also common that some units have more informative data while some have less informative data. Thus, the monitoring performance of machine learning model for each unit may highly vary. Therefore, it is extremely valuable to achieve efficient and secured knowledge sharing among the units in a decentralized manufacturing system for enhancement of poorly performed models. To realize this goal, this paper proposes a novel knowledge distillation-based information sharing (KD-IS) framework, which could distill informative knowledge from well performed models to improve the monitoring performance of poorly performed models. To validate the effectiveness of this method, a real-world case study is conducted in a connected fused filament fabrication (FFF)-based additive manufacturing (AM) platform. The experimental results show that the developed method is very efficient in improving model monitoring performance at poorly performed models, with solid protection on potential data privacy.
翻訳日:2023-07-27 16:03:19 公開日:2023-07-25
# 正方格子量子ハードウェア上のフェルミオン系の低深さシミュレーション

Low-depth simulations of fermionic systems on square-grid quantum hardware ( http://arxiv.org/abs/2302.01862v2 )

ライセンス: Link先を確認
Manuel G. Algaba, P. V. Sriluckshmy, Martin Leib, Fedor \v{S}imkovic IV(参考訳) 本稿では,2量子ビットfsimゲート数を数える低深さ量子回路を生成する正方形量子ビット接続を持つ量子ハードウェアにフェルミイオン系をマッピングする一般的な戦略を提案する。 本研究では,新しい演算子分解と回路圧縮技術と,選択した低深度フェルミオン-量子マッピングを組み合わせて実現し,高いゲートキャンセルと並列性を実現する。 我々の写像は、キュービット数やキュービット演算子重みを同時に最適化する柔軟性を保ち、任意のフェルミオン格子ジオメトリを調べるために使用できる。 我々は、強結合モデル、フェルミ・ハバードモデル、および多軌道ハバード・カナモリモデルについて検討することで、このアプローチを示す。 従来に比べてトロッター層1層あたりの回路深度は前例のないほど低く,70 %以上の改善が見られた。 我々の圧縮技術は、2量子ゲートの大幅な削減をもたらす。 DKマッピングにXYZ形式を適用する際に最も低いゲート数を求める。 さらに, ネイティブパラメータ化2ビットゲートが存在しない場合でも, 分解および圧縮形式が有利な回路を生成することを示す。

We present a general strategy for mapping fermionic systems to quantum hardware with square qubit connectivity which yields low-depth quantum circuits, counted in the number of native two-qubit fSIM gates. We achieve this by leveraging novel operator decomposition and circuit compression techniques paired with specifically chosen low-depth fermion-to-qubit mappings and allow for a high degree of gate cancellations and parallelism. Our mappings retain the flexibility to simultaneously optimize for qubit counts or qubit operator weights and can be used to investigate arbitrary fermionic lattice geometries. We showcase our approach by investigating the tight-binding model, the Fermi-Hubbard model as well as the multi-orbital Hubbard-Kanamori model. We report unprecedentedly low circuit depths per single Trotter layer with up to a $70 \%$ improvement upon previous state-of-the-art. Our compression technique also results in significant reduction of two-qubit gates. We find the lowest gate-counts when applying the XYZ-formalism to the DK mapping. Additionally, we show that our decomposition and compression formalism produces favourable circuits even when no native parameterized two-qubit gates are available.
翻訳日:2023-07-27 16:02:39 公開日:2023-07-25
# swiftformer:transformerベースのリアルタイムモバイルビジョンアプリケーションのための効率的な付加的注意

SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications ( http://arxiv.org/abs/2303.15446v2 )

ライセンス: Link先を確認
Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan(参考訳) セルフアテンションは、様々なビジョンアプリケーションにおけるグローバルなコンテキストを捉えるためのデファクトの選択肢となっている。 しかしながら、画像解像度に関する2次計算の複雑さは、リアルタイムアプリケーション、特にリソース制約のあるモバイルデバイスへのデプロイにおいての使用を制限する。 畳み込みと自己アテンションの利点を併用して、より高速なトレードオフを実現するハイブリッドアプローチが提案されているが、自己アテンションにおける高価な行列乗算演算はボトルネックのままである。 本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。 我々の設計では、キーと値の相互作用は精度を犠牲にすることなく線形層に置き換えることができる。 従来の最先端手法とは異なり,ネットワークのあらゆる段階において,効率的な自己注意の定式化が可能となる。 提案する効率的な付加的注意を駆使して,精度とモバイル推論速度の両面で最先端のパフォーマンスを実現する"swiftformer"と呼ばれるモデルを構築した。 私たちの小さなバージョンは、iphone 14でわずか0.8msのレイテンシで78.5%のimagenet-1k精度を達成し、mobilevit-v2よりも2倍高速です。 コード: https://github.com/amshaker/swiftformer

Self-attention has become a defacto choice for capturing global context in various vision applications. However, its quadratic computational complexity with respect to image resolution limits its use in real-time applications, especially for deployment on resource-constrained mobile devices. Although hybrid approaches have been proposed to combine the advantages of convolutions and self-attention for a better speed-accuracy trade-off, the expensive matrix multiplication operations in self-attention remain a bottleneck. In this work, we introduce a novel efficient additive attention mechanism that effectively replaces the quadratic matrix multiplication operations with linear element-wise multiplications. Our design shows that the key-value interaction can be replaced with a linear layer without sacrificing any accuracy. Unlike previous state-of-the-art methods, our efficient formulation of self-attention enables its usage at all stages of the network. Using our proposed efficient additive attention, we build a series of models called "SwiftFormer" which achieves state-of-the-art performance in terms of both accuracy and mobile inference speed. Our small variant achieves 78.5% top-1 ImageNet-1K accuracy with only 0.8 ms latency on iPhone 14, which is more accurate and 2x faster compared to MobileViT-v2. Code: https://github.com/Amshaker/SwiftFormer
翻訳日:2023-07-27 15:52:48 公開日:2023-07-25
# ポリシー勾配アルゴリズムは継続によって暗黙的に最適化する

Policy Gradient Algorithms Implicitly Optimize by Continuation ( http://arxiv.org/abs/2305.06851v2 )

ライセンス: Link先を確認
Adrien Bolland, Gilles Louppe, Damien Ernst(参考訳) 強化学習における直接ポリシー最適化は通常、確率勾配上昇によるポリシーパラメータを最適化するポリシー勾配アルゴリズムで解決される。 本稿では,これらのアルゴリズムの理論的解釈と正当化について述べる。 まず、継続フレームワークによる最適化において、直接ポリシー最適化を定式化する。 後者は非凸関数を最適化するためのフレームワークであり、連続体と呼ばれる対象関数列が局所的に最適化される。 第二に、アフィンガウス政策の最適化とエントロピー正規化の実行は、継続による決定主義政策の暗黙の最適化として解釈できることを示す。 これらの理論的な結果に基づき、政策段階的アルゴリズムの探索は、目の前の政策の回帰の継続を計算することと、政策の回帰を最大化するよりも、局所的な過度を避けるためにポリシーの分散が履歴に依存した機能であるべきだと論じる。

Direct policy optimization in reinforcement learning is usually solved with policy-gradient algorithms, which optimize policy parameters via stochastic gradient ascent. This paper provides a new theoretical interpretation and justification of these algorithms. First, we formulate direct policy optimization in the optimization by continuation framework. The latter is a framework for optimizing nonconvex functions where a sequence of surrogate objective functions, called continuations, are locally optimized. Second, we show that optimizing affine Gaussian policies and performing entropy regularization can be interpreted as implicitly optimizing deterministic policies by continuation. Based on these theoretical results, we argue that exploration in policy-gradient algorithms consists in computing a continuation of the return of the policy at hand, and that the variance of policies should be history-dependent functions adapted to avoid local extrema rather than to maximize the return of the policy.
翻訳日:2023-07-27 15:45:54 公開日:2023-07-25
# SimFBO: シンプルでフレキシブルでコミュニケーション効率の良い双方向学習を目指して

SimFBO: Towards Simple, Flexible and Communication-efficient Federated Bilevel Learning ( http://arxiv.org/abs/2305.19442v3 )

ライセンス: Link先を確認
Yifan Yang, Peiyao Xiao and Kaiyi Ji(参考訳) fbo(federated bilevel optimization)は、メタラーニングや微調整、ハイパーパラメータチューニングといった新たなネスト最適化構造によって、マシンラーニングやエッジコンピューティングにおいて、近年大きな可能性を秘めている。 しかし、既存のFBOアルゴリズムは複雑な計算を伴い、1イテレーションごとに複数のサブループが必要であり、それぞれが複数の通信ラウンドを含む。 本稿では,サブループなしで実装が容易で,汎用的なサーバ側アグリゲーションと通信効率向上のための更新を含む,シンプルで柔軟なFBOフレームワークSimFBOを提案する。 さらに,不均一局所計算に対する強いレジリエンスを持つSimFBOの変種として,システムレベルの不均質FBO(ShroFBO)を提案する。 我々は,SimFBO と ShroFBO がリニアコンバージェンス・スピードアップを実現し,部分的なクライアント参加とクライアントサンプリングを置き換えることなく実現し,サンプルと通信の複雑さを改善したことを示す。 実験は既存のfboアルゴリズムに対する提案手法の有効性を実証する。

Federated bilevel optimization (FBO) has shown great potential recently in machine learning and edge computing due to the emerging nested optimization structure in meta-learning, fine-tuning, hyperparameter tuning, etc. However, existing FBO algorithms often involve complicated computations and require multiple sub-loops per iteration, each of which contains a number of communication rounds. In this paper, we propose a simple and flexible FBO framework named SimFBO, which is easy to implement without sub-loops, and includes a generalized server-side aggregation and update for improving communication efficiency. We further propose System-level heterogeneity robust FBO (ShroFBO) as a variant of SimFBO with stronger resilience to heterogeneous local computation. We show that SimFBO and ShroFBO provably achieve a linear convergence speedup with partial client participation and client sampling without replacement, as well as improved sample and communication complexities. Experiments demonstrate the effectiveness of the proposed methods over existing FBO algorithms.
翻訳日:2023-07-27 15:35:08 公開日:2023-07-25
# Productive Crop Field Detection: 新たなデータセットとディープラーニングベンチマーク結果

Productive Crop Field Detection: A New Dataset and Deep Learning Benchmark Results ( http://arxiv.org/abs/2305.11990v2 )

ライセンス: Link先を確認
Eduardo Nascimento, John Just, Jurandy Almeida, and Tiago Almeida(参考訳) 精密農業では、農夫が個別に作業性能を評価し、異なる種子品種、農薬、肥料を比較できるようにするため、生産作物の検出が不可欠である。 しかし、生産的フィールドを手動で識別することは、しばしば時間を要する、エラーを起こしやすいタスクである。 従来の研究では、先進的な機械学習アルゴリズムを用いて作物の畑を検出する様々な方法が検討されていたが、良質なラベル付きデータを欠いていることが多い。 そこで本研究では,sentinel-2画像とマシン操作によって生成された高品質なデータセットを提案する。 私たちが知る限りでは、この手法を用いてラベル付きサンプルの欠如を克服するのはこれが初めてである。 本研究では,ラベルなしデータの半教師付き分類と,最先端の教師付き・自己教師付き深層学習手法を適用し,生産農地を自動的に検出する。 最後に, 正の未ラベル学習において, 正のサンプルに高い信頼感を持つ問題に完全に適合していることを示す。 Triplet Loss Siameseでは、正確なデータセットの存在と、包括的なラベル付きデータセットが利用できない状況を考慮して、Contrastive Learningが提供されている。

In precision agriculture, detecting productive crop fields is an essential practice that allows the farmer to evaluate operating performance separately and compare different seed varieties, pesticides, and fertilizers. However, manually identifying productive fields is often a time-consuming and error-prone task. Previous studies explore different methods to detect crop fields using advanced machine learning algorithms, but they often lack good quality labeled data. In this context, we propose a high-quality dataset generated by machine operation combined with Sentinel-2 images tracked over time. As far as we know, it is the first one to overcome the lack of labeled samples by using this technique. In sequence, we apply a semi-supervised classification of unlabeled data and state-of-the-art supervised and self-supervised deep learning methods to detect productive crop fields automatically. Finally, the results demonstrate high accuracy in Positive Unlabeled learning, which perfectly fits the problem where we have high confidence in the positive samples. Best performances have been found in Triplet Loss Siamese given the existence of an accurate dataset and Contrastive Learning considering situations where we do not have a comprehensive labeled dataset available.
翻訳日:2023-07-27 15:32:51 公開日:2023-07-25
# fednoisy:federated noise label learningベンチマーク

FedNoisy: Federated Noisy Label Learning Benchmark ( http://arxiv.org/abs/2306.11650v2 )

ライセンス: Link先を確認
Siqi Liang, Jintao Huang, Junyuan Hong, Dun Zeng, Jiayu Zhou and Zenglin Xu(参考訳) フェデレーション学習は、クライアントからセンシティブなデータを集約することなく、分散学習で人気を集めている。 しかし、データ分離の分散的で分離された性質は、データ品質によって複雑になり、ノイズの多いラベルに対してより脆弱になる。 集中的または連合的設定におけるノイズラベルの悪影響を防御する多くの取り組みが存在する。 しかし、様々な典型的なfl設定におけるノイズラベルの影響を包括的に考慮したベンチマークが欠如している。 この研究は、研究者が有意なノイズ設定を十分に探求するのに役立つ最初の標準ベンチマークを提供する。 また,これらのデータ設定の特徴について総合的な実験を行い,今後の手法開発を導く可能性のある,連合型雑音ラベル学習における難解なシナリオを明らかにする。 本ベンチマークで提案する5つ以上のデータセットの20の基本的な設定と,連合型雑音ラベル学習のための標準シミュレーションパイプラインについて紹介する。 このベンチマークが、ノイズラベルによる連合学習におけるアイデア検証を促進することを願っている。 \texttt{FedNoisy} は \codeword{https://github.com/SMILELab-FL/FedNoisy} で入手できる。

Federated learning has gained popularity for distributed learning without aggregating sensitive data from clients. But meanwhile, the distributed and isolated nature of data isolation may be complicated by data quality, making it more vulnerable to noisy labels. Many efforts exist to defend against the negative impacts of noisy labels in centralized or federated settings. However, there is a lack of a benchmark that comprehensively considers the impact of noisy labels in a wide variety of typical FL settings. In this work, we serve the first standardized benchmark that can help researchers fully explore potential federated noisy settings. Also, we conduct comprehensive experiments to explore the characteristics of these data settings and unravel challenging scenarios on the federated noisy label learning, which may guide method development in the future. We highlight the 20 basic settings for more than 5 datasets proposed in our benchmark and standardized simulation pipeline for federated noisy label learning. We hope this benchmark can facilitate idea verification in federated learning with noisy labels. \texttt{FedNoisy} is available at \codeword{https://github.com/SMILELab-FL/FedNoisy}.
翻訳日:2023-07-27 15:24:45 公開日:2023-07-25
# 情報ボトルネックの常微分方程式:ibの1次ルート追跡

The Information Bottleneck's Ordinary Differential Equation: First-Order Root-Tracking for the IB ( http://arxiv.org/abs/2306.09790v2 )

ライセンス: Link先を確認
Shlomi Agmon(参考訳) Information Bottleneck (IB) は、関連する情報の失われた圧縮方法である。 そのRD曲線は、入力圧縮と入力に埋め込まれた関連情報の保存との間の基本的なトレードオフを記述する。 しかし、最適入力符号化の基盤となるダイナミクスを隠蔽する。 最近RDで示されているように、入力情報が圧縮されている場合、これらは典型的にはスムーズな軌跡に従う。 これらの滑らかなダイナミクスは、最適エンコーディングが定性的に変化するとき、分岐時に中断される。 ib と rd との密接な関係を利用することで、その解構造に実質的な洞察を与え、有限次元の処理における注意点を強調する。 準最適解はその分岐で衝突または交換最適性を示す。 ibとその応用は受け入れられているが、分布が知られている有限問題であっても、数値的に解く技術は驚くほど少ない。 IBの1次正規微分方程式は、その最適トレードオフ曲線の根底にあるダイナミクスを記述する。 これらのダイナミクスを活用すべく、我々はib分岐を検知するだけでなく、それに対応するためにそれらのタイプを識別する。 IB の最適曲線に準最適方向から近づくのではなく、後者は弱仮定の下で最適曲線に沿って解の軌道に従うことができる。 これにより、ib分岐の理解を驚くほど正確な数値アルゴリズムに翻訳する。

The Information Bottleneck (IB) is a method of lossy compression of relevant information. Its rate-distortion (RD) curve describes the fundamental tradeoff between input compression and the preservation of relevant information embedded in the input. However, it conceals the underlying dynamics of optimal input encodings. We argue that these typically follow a piecewise smooth trajectory when input information is being compressed, as recently shown in RD. These smooth dynamics are interrupted when an optimal encoding changes qualitatively, at a bifurcation. By leveraging the IB's intimate relations with RD, we provide substantial insights into its solution structure, highlighting caveats in its finite-dimensional treatments. Sub-optimal solutions are seen to collide or exchange optimality at its bifurcations. Despite the acceptance of the IB and its applications, there are surprisingly few techniques to solve it numerically, even for finite problems whose distribution is known. We derive anew the IB's first-order Ordinary Differential Equation, which describes the dynamics underlying its optimal tradeoff curve. To exploit these dynamics, we not only detect IB bifurcations but also identify their type in order to handle them accordingly. Rather than approaching the IB's optimal curve from sub-optimal directions, the latter allows us to follow a solution's trajectory along the optimal curve under mild assumptions. We thereby translate an understanding of IB bifurcations into a surprisingly accurate numerical algorithm.
翻訳日:2023-07-27 15:24:29 公開日:2023-07-25
# 多様体フィルタ結合ネットワーク

Manifold Filter-Combine Networks ( http://arxiv.org/abs/2307.04056v2 )

ライセンス: Link先を確認
Joyce Chew and Edward De Brouwer and Smita Krishnaswamy and Deanna Needell and Michael Perlmutter(参考訳) グラフニューラルネットワーク(GNN)の理解にどのように役立つかに類似した,MNNの理解を深めることを目的とした,MFCN(Manifold Filter-Combine Networks)と呼ばれる多様体ニューラルネットワークのクラスを紹介した。 このクラスは多種多様なサブクラスを含み、様々な人気のあるGNNの多様体類似と見なすことができる。 次に、そのようなネットワークを実装するためのデータ駆動グラフを構築する手法について、多様体の全体的知識を持たないが有限個のサンプル点へのアクセスしか持たない場合を考える。 サンプル点の数が無限になりがちであるため,ネットワークはその連続限界に確実に収束するのに十分な条件を与える。 特定のグラフ構成に焦点を当てた以前の作業とは異なり、我々の収束率は、使用するフィルタの数に直接依存しない。 さらに,従来得られた指数的依存よりもネットワークの深さに線形依存を示す。 さらに、MFCNの興味深い部分クラスと、特定のグラフ構造の下で得られる収束率のいくつかの例を示す。

We introduce a class of manifold neural networks (MNNs) that we call Manifold Filter-Combine Networks (MFCNs), that aims to further our understanding of MNNs, analogous to how the aggregate-combine framework helps with the understanding of graph neural networks (GNNs). This class includes a wide variety of subclasses that can be thought of as the manifold analog of various popular GNNs. We then consider a method, based on building a data-driven graph, for implementing such networks when one does not have global knowledge of the manifold, but merely has access to finitely many sample points. We provide sufficient conditions for the network to provably converge to its continuum limit as the number of sample points tends to infinity. Unlike previous work (which focused on specific graph constructions), our rate of convergence does not directly depend on the number of filters used. Moreover, it exhibits linear dependence on the depth of the network rather than the exponential dependence obtained previously. Additionally, we provide several examples of interesting subclasses of MFCNs and of the rates of convergence that are obtained under specific graph constructions.
翻訳日:2023-07-27 15:12:48 公開日:2023-07-25
# 自由フェルミオン演算が支配する量子回路の高性能シミュレーション

Improved simulation of quantum circuits dominated by free fermionic operations ( http://arxiv.org/abs/2307.12702v2 )

ライセンス: Link先を確認
Oliver Reardon-Smith, Micha{\l} Oszmaniec, Kamil Korzekwa(参考訳) 本稿では,「自由」最寄りのマッチゲートあるいは同値なフェルミオン線形光学ゲートと「資源に富む」非ガウスゲートからなる普遍量子回路をシミュレートする古典的なアルゴリズムを提案する。 非ガウス資源状態を用いた任意の位相で制御相ゲートをガジェット化することにより、効率よくシミュレーション可能なFLOサブセトリを普遍量子計算に昇格させる。 我々の重要な貢献は、FLO回路をシミュレートする新しい位相感受性アルゴリズムの開発である。 これにより、ガジェット化から生じる資源状態を、密度行列ではなく状態ベクトルのレベルで自由状態に分解することができる。 与えられた量子回路のボルンルール確率を推定するアルゴリズムの実行時コストは、制御相ゲート数と指数関数的にスケールする新しく導入されたFLO範囲への線形依存を除いて、全ての回路パラメータで多項式的にスケールする。 より正確には、関連するリソース状態の最適な分解を見つける結果、ランタイムは最大にリソースに富んだゲート(例えばswapまたはcz)ごとに倍になる。 このコストは、各スワップゲートが約9倍のシミュレーションコストを増大させる、最もよく知られた事前アルゴリズムと比較して非常に好ましい。 任意のFLOユニタリーと$k$制御Zゲートを含む量子回路に対して、先行状態よりも指数関数的に$O(4.5^k)$を得る。

We present a classical algorithm for simulating universal quantum circuits composed of "free" nearest-neighbour matchgates or equivalently fermionic-linear-optical (FLO) gates, and "resourceful" non-Gaussian gates. We achieve the promotion of the efficiently simulable FLO subtheory to universal quantum computation by gadgetizing controlled phase gates with arbitrary phases employing non-Gaussian resource states. Our key contribution is the development of a novel phase-sensitive algorithm for simulating FLO circuits. This allows us to decompose the resource states arising from gadgetization into free states at the level of statevectors rather than density matrices. The runtime cost of our algorithm for estimating the Born-rule probability of a given quantum circuit scales polynomially in all circuit parameters, except for a linear dependence on the newly introduced FLO extent, which scales exponentially with the number of controlled-phase gates. More precisely, as a result of finding optimal decompositions of relevant resource states, the runtime doubles for every maximally resourceful (e.g., swap or CZ) gate added. Crucially, this cost compares very favourably with the best known prior algorithm, where each swap gate increases the simulation cost by a factor of approximately 9. For a quantum circuit containing arbitrary FLO unitaries and $k$ controlled-Z gates, we obtain an exponential improvement $O(4.5^k)$ over the prior state-of-the-art.
翻訳日:2023-07-27 15:06:05 公開日:2023-07-25
# Learn to Compress (LtC): 効率的な学習ベースのストリーミングビデオ分析

Learn to Compress (LtC): Efficient Learning-based Streaming Video Analytics ( http://arxiv.org/abs/2307.12171v2 )

ライセンス: Link先を確認
Quazi Mishkatul Alam, Israat Haque, Nael Abu-Ghazaleh(参考訳) ビデオ分析は、主にオフロード計算や、ビデオセンサーで直接消費されない状況において、エッジ設定のクラウドサービスとして実行されることが多い。 エッジデバイスから高品質なビデオデータを送信することは、帯域幅と電力使用の両方でコストがかかる。 これらのリソースを効率的に利用するストリーミングビデオ分析パイプラインを構築するためには、ビデオストリームのサイズを減らすことが不可欠である。 従来のビデオ圧縮アルゴリズムは、ビデオの意味を知らないため、分析性能に非効率かつ有害である可能性がある。 本稿では,ビデオソースと分析サーバの協調的なフレームワークであるLtCを紹介する。 特に、ltcは、教師としてサーバーの本格的な分析アルゴリズムを使用して、軽量な学生ニューラルネットワークをトレーニングし、ビデオソースにデプロイする。 学生ネットワークは、ビデオ内の様々な領域の意味的意義を理解するように訓練され、残りの領域が攻撃的な圧縮を受ける間、重要な領域を高品質に保存するために使用される。 さらに、LtCは、新しい情報を提供しない送信フレームを省略するために、特徴差に基づく新しい時間フィルタリングアルゴリズムも組み込んでいる。 全体として、LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較すると、レスポンス遅延が最大で45%短い。

Video analytics are often performed as cloud services in edge settings, mainly to offload computation, and also in situations where the results are not directly consumed at the video sensors. Sending high-quality video data from the edge devices can be expensive both in terms of bandwidth and power use. In order to build a streaming video analytics pipeline that makes efficient use of these resources, it is therefore imperative to reduce the size of the video stream. Traditional video compression algorithms are unaware of the semantics of the video, and can be both inefficient and harmful for the analytics performance. In this paper, we introduce LtC, a collaborative framework between the video source and the analytics server, that efficiently learns to reduce the video streams within an analytics pipeline. Specifically, LtC uses the full-fledged analytics algorithm at the server as a teacher to train a lightweight student neural network, which is then deployed at the video source. The student network is trained to comprehend the semantic significance of various regions within the videos, which is used to differentially preserve the crucial regions in high quality while the remaining regions undergo aggressive compression. Furthermore, LtC also incorporates a novel temporal filtering algorithm based on feature-differencing to omit transmitting frames that do not contribute new information. Overall, LtC is able to use 28-35% less bandwidth and has up to 45% shorter response delay compared to recently published state of the art streaming frameworks while achieving similar analytics performance.
翻訳日:2023-07-27 15:05:11 公開日:2023-07-25
# CoachAI Badminton Challenge 2023: Advanced ShuttleNet for Shot Predictions

Team Intro to AI team8 at CoachAI Badminton Challenge 2023: Advanced ShuttleNet for Shot Predictions ( http://arxiv.org/abs/2307.13715v1 )

ライセンス: Link先を確認
Shih-Hong Chen, Pin-Hsuan Chou, Yong-Fu Liu and Chien-An Han(参考訳) 本稿では,過去のストロークを利用してバドミントンショットのタイプや位置を予測することで,既存のフレームワークである shuttlenet の性能を向上させることを目的とする。 我々は,IJCAI 2023のCoachAI Badminton Challengeに参加し,ベースラインと比較して有意に優れた結果を得た。 最終的に、私たちのチームはコンペで最初のポジションを獲得し、コードを利用可能にしました。

In this paper, our objective is to improve the performance of the existing framework ShuttleNet in predicting badminton shot types and locations by leveraging past strokes. We participated in the CoachAI Badminton Challenge at IJCAI 2023 and achieved significantly better results compared to the baseline. Ultimately, our team achieved the first position in the competition and we made our code available.
翻訳日:2023-07-27 14:56:59 公開日:2023-07-25
# 多様性と言語技術:テクノ言語バイアスが認識論的不正をいかに引き起こすか

Diversity and Language Technology: How Techno-Linguistic Bias Can Cause Epistemic Injustice ( http://arxiv.org/abs/2307.13714v1 )

ライセンス: Link先を確認
Paula Helm, G\'abor Bella, Gertraud Koch, Fausto Giunchiglia(参考訳) AIベースの言語技術 -- 大規模言語モデル、機械翻訳システム、多言語辞書、コーポラ -- が、現在、世界で最も広く話され、経済的、政治的に最も支持された言語の2%から3%に制限されていることはよく知られている。 これに対し、最近の研究は、AI技術の到達範囲を 'underserved language' にまで広げようとしている。 この論文では、これらの試みの多くは、特定の言語に対する厳密な表現的嗜好に固執する欠陥のあるソリューションを生み出していることを示す。 技術的言語バイアスは、言語バイアスの確立した現象とは異なっている。 論文を通じて示すように、テクノ言語バイアスは、支配的な力の言語や文化の一部である概念のみを表現でき、他のコミュニティの概念を正しく表現できないシステムをもたらす可能性がある。 この問題の根底にあるのは、多様性をシンプルに理解する技術開発コミュニティの体系的な傾向であり、それは言語のより深い違い、そして最終的にはそれらについて話すコミュニティに公平ではない、と我々は主張する。 疫学的不正の概念に基づいて、我々が特定したバイアスのより広範な社会政治学的帰結を指摘し、それが多様性の貴重な側面を軽視するだけでなく、言語コミュニティのニーズと多様な世界観の過小評価に繋がることを示す。

It is well known that AI-based language technology -- large language models, machine translation systems, multilingual dictionaries, and corpora -- is currently limited to 2 to 3 percent of the world's most widely spoken and/or financially and politically best supported languages. In response, recent research efforts have sought to extend the reach of AI technology to ``underserved languages.'' In this paper, we show that many of these attempts produce flawed solutions that adhere to a hard-wired representational preference for certain languages, which we call techno-linguistic bias. Techno-linguistic bias is distinct from the well-established phenomenon of linguistic bias as it does not concern the languages represented but rather the design of the technologies. As we show through the paper, techno-linguistic bias can result in systems that can only express concepts that are part of the language and culture of dominant powers, unable to correctly represent concepts from other communities. We argue that at the root of this problem lies a systematic tendency of technology developer communities to apply a simplistic understanding of diversity which does not do justice to the more profound differences that languages, and ultimately the communities that speak them, embody. Drawing on the concept of epistemic injustice, we point to the broader sociopolitical consequences of the bias we identify and show how it can lead not only to a disregard for valuable aspects of diversity but also to an under-representation of the needs and diverse worldviews of marginalized language communities.
翻訳日:2023-07-27 14:56:53 公開日:2023-07-25
# 時間非依存方程式からの時間依存schr\"odinger方程式の導出

Derivation of the Time-Dependent Schr\"odinger Equation from the Time-Independent One ( http://arxiv.org/abs/2307.13711v1 )

ライセンス: Link先を確認
Nikolay A. Vinokurov(参考訳) 時間非依存方程式からの時間依存schr\"odinger方程式の導出が考えられる。 時間の代わりに、追加の自由度、すなわち時計の座標は、時間に依存しないシュリンガー方程式に導入される。 半古典時計のみに対して標準時依存のSchr\"odinger方程式が得られることが示されている。 この方法で得られる方程式の物理的意味を解明するために、様々な種類のクロックについて論じる。 さらに、密度行列の対応する方程式と演算子の平均値の式を導出する。

A derivation of the time-dependent Schr\"odinger equation from the time-independent one is considered. Instead of time, the coordinate of an additional degree of freedom, the clock, is introduced into the original time-independent Schr\"odinger equation. It is shown that the standard time-dependent Schr\"odinger equation can be obtained for the semiclassical clock only. For elucidation of the physical meaning of the equation obtained in this way, various types of clocks are discussed. In addition, the corresponding equation for the density matrix and formulas for the mean values of operators are derived.
翻訳日:2023-07-27 14:56:24 公開日:2023-07-25
# 離散正則化を伴う時変マルコフ確率場の解経路

Solution Path of Time-varying Markov Random Fields with Discrete Regularization ( http://arxiv.org/abs/2307.13750v1 )

ライセンス: Link先を確認
Salar Fattahi and Andres Gomez(参考訳) パラメータの離散的および時間的正則化が異なるsparse time-varying markov random fields (mrfs) を推定する問題について検討する。 離散正則化の難しさのため、この問題のほとんどのアプローチは、緩和された正則化を伴ういわゆる最大準正則推定(MLE)に依存しており、これは理想的な統計的性質や、現実的な環境で遭遇する次元へのスケールにはならない。 本稿では、MLEパラダイムから脱却し、推定パラメータの空間性を促進するために、厳密な離散正規化を伴う制約付き最適化問題に頼り、これらの課題に対処する。 我々の定式化の非凸性と離散性にもかかわらず、全ての空間レベルに対して効率的にパラメトリックに解けることを示す。 より具体的には、すべての空間レベルに対する時間変化MRFの解パス全体は、$\mathcal{O}(pT^3)$で得られ、$T$は時間ステップの数、$p$は任意の時間における未知のパラメータの数である。 解経路の効率的かつパラメトリックなキャラクタリゼーションは,正規化値の変動にパラメータ推定が必要となるクロスバリデーションに適した手法である。 その単純さと効率性にもかかわらず,提案手法は,ガウス型と離散型 MRF の異なるクラス,すなわちガウス型と離散型 MRF に対して,1時間に1つのサンプルで確実に小さな推定誤差を達成できることを示す。 このアルゴリズムを用いることで、標準のラップトップコンピュータで112分以内で3000万以上の変数を持つ時間変化型MRFの完全な解経路を復元できる。 私たちのコードは \url{https://sites.google.com/usc.edu/gomez/data} で利用可能です。

We study the problem of inferring sparse time-varying Markov random fields (MRFs) with different discrete and temporal regularizations on the parameters. Due to the intractability of discrete regularization, most approaches for solving this problem rely on the so-called maximum-likelihood estimation (MLE) with relaxed regularization, which neither results in ideal statistical properties nor scale to the dimensions encountered in realistic settings. In this paper, we address these challenges by departing from the MLE paradigm and resorting to a new class of constrained optimization problems with exact, discrete regularization to promote sparsity in the estimated parameters. Despite the nonconvex and discrete nature of our formulation, we show that it can be solved efficiently and parametrically for all sparsity levels. More specifically, we show that the entire solution path of the time-varying MRF for all sparsity levels can be obtained in $\mathcal{O}(pT^3)$, where $T$ is the number of time steps and $p$ is the number of unknown parameters at any given time. The efficient and parametric characterization of the solution path renders our approach highly suitable for cross-validation, where parameter estimation is required for varying regularization values. Despite its simplicity and efficiency, we show that our proposed approach achieves provably small estimation error for different classes of time-varying MRFs, namely Gaussian and discrete MRFs, with as few as one sample per time. Utilizing our algorithm, we can recover the complete solution path for instances of time-varying MRFs featuring over 30 million variables in less than 12 minutes on a standard laptop computer. Our code is available at \url{https://sites.google.com/usc.edu/gomez/data}.
翻訳日:2023-07-27 14:47:49 公開日:2023-07-25
# ChildGAN:StyleGANにおけるドメイン適応を用いた大規模合成顔データ

ChildGAN: Large Scale Synthetic Child Facial Data Using Domain Adaptation in StyleGAN ( http://arxiv.org/abs/2307.13746v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Wang Yao, Gabriel Costache, Peter Corcoran(参考訳) 本研究では,合成男子と女児の顔データを生成するための一対のganネットワークであるchildganを提案する。 ChildGANは、転写学習を用いてスムーズなドメイン転送を実行することで構築される。 フォトリアリスティックで高品質なデータサンプルを提供する。 大規模なデータセットは、表情、年齢の進行、点眼効果、頭部ポーズ、肌と髪の色の変化、様々な照明条件など、さまざまなスマートな顔変換によってレンダリングされる。 データセットは300万以上の異なるデータサンプルで構成されている。 さらに、cnnベースの児童性別分類器、顔位置推定および顔ランドマーク検出テスト、arcfaceを用いた同一性類似性評価、最後にアイ検出およびアイアスペクト比テストを含む異なるコンピュータビジョンアプリケーションテストを実行し、レンダリングされた顔特徴の特異性と特性を検証する。 その結果,高画質の合成顔データにより,実子から大規模データセットを収集するコストと複雑さの代替効果が示された。

In this research work, we proposed a novel ChildGAN, a pair of GAN networks for generating synthetic boys and girls facial data derived from StyleGAN2. ChildGAN is built by performing smooth domain transfer using transfer learning. It provides photo-realistic, high-quality data samples. A large-scale dataset is rendered with a variety of smart facial transformations: facial expressions, age progression, eye blink effects, head pose, skin and hair color variations, and variable lighting conditions. The dataset comprises more than 300k distinct data samples. Further, the uniqueness and characteristics of the rendered facial features are validated by running different computer vision application tests which include CNN-based child gender classifier, face localization and facial landmarks detection test, identity similarity evaluation using ArcFace, and lastly running eye detection and eye aspect ratio tests. The results demonstrate that synthetic child facial data of high quality offers an alternative to the cost and complexity of collecting a large-scale dataset from real children.
翻訳日:2023-07-27 14:47:16 公開日:2023-07-25
# mL-BFGS:分散大規模ニューラルネットワーク最適化のためのモーメントベースL-BFGS

mL-BFGS: A Momentum-based L-BFGS for Distributed Large-Scale Neural Network Optimization ( http://arxiv.org/abs/2307.13744v1 )

ライセンス: Link先を確認
Yue Niu, Zalan Fabian, Sunwoo Lee, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) 準ニュートン法は、ヘッセン計算の計算コストと確率的トレーニングにおける不安定性の問題により、大規模ニューラルネットワークのトレーニングにおいて依然として重要な課題に直面している。 履歴パラメータと勾配変化を用いてヘッセンを効率的に近似するよく知られたL-BFGSは、確率的トレーニングにおいて収束不安定を被る。 これまでのところ、L-BFGSを大規模確率的訓練に適応させる試みは、その収束効果をウォールクロック時間で相殺するかなりのオーバーヘッドをもたらす。 本稿では、大規模分散ディープニューラルネットワーク(DNN)最適化における準ニュートン法(QN)の道筋を舗装する軽量運動量に基づくL-BFGSアルゴリズムであるmL-BFGSを提案する。 mL-BFGSはL-BFGS更新にほぼ無償の運動量スキームを導入し、ヘッセンの確率ノイズを大幅に低減し、確率最適化時の収束を安定化させる。 大規模なモデルトレーニングでは、mL-BFGSはブロックワイズヘシアンを近似し、計算とメモリのコストを全ての計算ノードに分散させる。 確率的設定におけるmL-BFGSの収束解析を支援する。 大規模DNNトレーニングにおけるmL-BFGSの可能性を調べるため,mL-BFGSを用いてベンチマークニューラルネットワークを訓練し,ベースライン(SGD,Adam,その他の準ニュートン法)と比較した。 その結果,ml-bfgsは反復的および壁時計的スピードアップを達成できた。

Quasi-Newton methods still face significant challenges in training large-scale neural networks due to additional compute costs in the Hessian related computations and instability issues in stochastic training. A well-known method, L-BFGS that efficiently approximates the Hessian using history parameter and gradient changes, suffers convergence instability in stochastic training. So far, attempts that adapt L-BFGS to large-scale stochastic training incur considerable extra overhead, which offsets its convergence benefits in wall-clock time. In this paper, we propose mL-BFGS, a lightweight momentum-based L-BFGS algorithm that paves the way for quasi-Newton (QN) methods in large-scale distributed deep neural network (DNN) optimization. mL-BFGS introduces a nearly cost-free momentum scheme into L-BFGS update and greatly reduces stochastic noise in the Hessian, therefore stabilizing convergence during stochastic optimization. For model training at a large scale, mL-BFGS approximates a block-wise Hessian, thus enabling distributing compute and memory costs across all computing nodes. We provide a supporting convergence analysis for mL-BFGS in stochastic settings. To investigate mL-BFGS potential in large-scale DNN training, we train benchmark neural models using mL-BFGS and compare performance with baselines (SGD, Adam, and other quasi-Newton methods). Results show that mL-BFGS achieves both noticeable iteration-wise and wall-clock speedup.
翻訳日:2023-07-27 14:46:58 公開日:2023-07-25
# 半デバイス非依存な測定数認証

Semi-device-independent certification of number of measurements ( http://arxiv.org/abs/2307.13737v1 )

ライセンス: Link先を確認
Isadora Veeren, Martin Pl\'avala, Leevi Lepp\"aj\"arvi, and Roope Uola(参考訳) 半デバイスに依存しない測定値の認証手法を開発した。 我々は、ボブの操舵等価可観測器(SEO)がk測定によってシミュレートできるかどうかを検証し、これらが分離可能な関節可観測器とk互換であるかどうかをテストする。 このテストは半定値プログラムの階層の助けを借りて行うことができ、失敗するとアリスは少なくとも k + 1 個の非互換な測定値にアクセスできなければならないと結論付けることができる。

We develop a method for semi-device-independent certification of number of measurements. We achieve this by testing whether Bob's steering equivalent observables (SEO) can be simulated by k measurements, which we do by testing whether they are k-compatible with separable joint observable. This test can be performed with the aid of hierarchy of semidefinite programs, and whenever it fails one can conclude that Alice must have access to at least k + 1 incompatible measurements.
翻訳日:2023-07-27 14:46:33 公開日:2023-07-25
# ボゾン振動子の幾何学的量子複雑性

Geometric quantum complexity of bosonic oscillator systems ( http://arxiv.org/abs/2307.13736v1 )

ライセンス: Link先を確認
Satyaki Chowdhury, Martin Bojowald and Jakub Mielczarek(参考訳) ニールセンと共同研究者の先駆的業績によれば、適切な作用素空間の幾何学的実現における極小測地線の長さは、演算の量子複雑性の尺度を与える。 積として所望の操作を構築するのに必要な最小のゲート数に基づく元の複雑性の概念と比較すると、幾何学的アプローチはより具体的で計算可能な定義に等しいが、高次元のヒルベルト空間を持つ系ではその評価は非自明である。 幾何学的定式化は、システムの少数の関連する作用素によって生成される適切な有限次元群に付随する幾何を考えることにより、より容易に評価できる。 このようにして本手法は,本論文でも注目されている高調波発振器に応用されている。 しかし、群論の微妙で以前に認識されていなかった問題は予期せぬ複雑化を招き、基礎となるリー代数のほとんどの必要なステップのレベルに残る新しい定式化を動機付ける。 したがって、複雑性に関する新しい洞察は、高次元への体系的な拡張や相互作用の可能性とともに、低次元の設定で見つけることができる。 具体的には、高調波発振器、反転高調波発振器、結合高調波発振器に関連する様々なユニタリ作用素の量子複雑性がある。 このアプローチの一般性は、立方項のアンハーモニック発振器への応用によって証明される。

According to the pioneering work of Nielsen and collaborators, the length of the minimal geodesic in a geometric realization of a suitable operator space provides a measure of the quantum complexity of an operation. Compared with the original concept of complexity based on the minimal number of gates required to construct the desired operation as a product, this geometrical approach amounts to a more concrete and computable definition, but its evaluation is nontrivial in systems with a high-dimensional Hilbert space. The geometrical formulation can more easily be evaluated by considering the geometry associated with a suitable finite-dimensional group generated by a small number of relevant operators of the system. In this way, the method has been applied in particular to the harmonic oscillator, which is also of interest in the present paper. However, subtle and previously unrecognized issues of group theory can lead to unforeseen complications, motivating a new formulation that remains on the level of the underlying Lie algebras for most of the required steps. Novel insights about complexity can thereby be found in a low-dimensional setting, with the potential of systematic extensions to higher dimensions as well as interactions. Specific examples include the quantum complexity of various target unitary operators associated with a harmonic oscillator, inverted harmonic oscillator, and coupled harmonic oscillators. The generality of this approach is demonstrated by an application to an anharmonic oscillator with a cubic term.
翻訳日:2023-07-27 14:46:22 公開日:2023-07-25
# 自明な低エネルギー状態を持たないフェルミオンハミルトニアン

Fermionic Hamiltonians without trivial low-energy states ( http://arxiv.org/abs/2307.13730v1 )

ライセンス: Link先を確認
Yaroslav Herasymenko, Anurag Anshu, Barbara Terhal, Jonas Helsen(参考訳) 低エネルギー自明な状態 (NLTS) を持たない局所フェルミオンハミルトニアンを構築し、NLTS定理に反するフェルミオンを与える。 キュービットの場合とは対照的に、有限深度$\textit{fermionic}$量子回路を介して自明な状態を定義する。 さらに、少なくとも$O(n)$ ancillary fermionsを含むガウスのフェルミオン演算への自由アクセスを許可する。 所望のフェルミオンハミルトニアンは、[Anshu, Breuckmann, Nirkhe, STOC 2023] の構成のように、ビットストリング上のよくスプレッド分布を通して NLTS の性質を持つ任意のクビットハミルトニアンを用いて構築することができる。 我々は、クラス量子PCPのフェルミオンアナログを定義し、量子ビットバージョンとの関係を議論する。

We construct local fermionic Hamiltonians with no low-energy trivial states (NLTS), providing a fermionic counterpart to the NLTS theorem. Distinctly from the qubit case, we define trivial states via finite-depth $\textit{fermionic}$ quantum circuits. We furthermore allow free access to Gaussian fermionic operations, provided they involve at most $O(n)$ ancillary fermions. The desired fermionic Hamiltonian can be constructed using any qubit Hamiltonian which itself has the NLTS property via well-spread distributions over bitstrings, such as the construction in [Anshu, Breuckmann, Nirkhe, STOC 2023]. We define a fermionic analogue of the class quantum PCP and discuss its relation with the qubit version.
翻訳日:2023-07-27 14:45:59 公開日:2023-07-25
# ビジョンの新しい時代を定義する基礎モデル:調査と展望

Foundational Models Defining a New Era in Vision: A Survey and Outlook ( http://arxiv.org/abs/2307.13721v1 )

ライセンス: Link先を確認
Muhammad Awais, Muzammal Naseer, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal, Mubarak Shah, Ming-Hsuan Yang, Fahad Shahbaz Khan(参考訳) 視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。 オブジェクトとその位置、あいまいさ、および実世界の環境の変化の間の複雑な関係は、自然に文法的な規則やオーディオや深さといった他のモダリティによって支配される人間の言語でよりよく説明できる。 これらのモダリティと大規模トレーニングデータとのギャップを橋渡しするために学んだモデルは、テスト時のコンテキスト推論、一般化、迅速な機能を促進する。 これらのモデルは基礎モデルと呼ばれる。 このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。 本稿では,様々なモダリティ(視覚,テキスト,音声など),トレーニング目標(推移的,生成的),事前学習データセット,微調整機構,一般的なプロンプトパターン(テクスト的,視覚的,異種的)を組み合わせた,典型的なアーキテクチャ設計を含む,新たな基礎モデルに関する包括的レビューを提供する。 コンピュータビジョンにおける基礎モデルのオープンな課題と研究の方向性について,評価とベンチマークの難しさ,実世界の理解のギャップ,文脈理解の限界,バイアス,敵対的攻撃に対する脆弱性,解釈可能性の問題などについて論じる。 この分野での最近の展開を概観し、基礎モデルの幅広い応用を体系的かつ包括的に取り上げる。 この研究で研究された基礎モデルの包括的なリストは、 \url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models} にある。

Vision systems to see and reason about the compositional nature of visual scenes are fundamental to understanding our world. The complex relations between objects and their locations, ambiguities, and variations in the real-world environment can be better described in human language, naturally governed by grammatical rules and other modalities such as audio and depth. The models learned to bridge the gap between such modalities coupled with large-scale training data facilitate contextual reasoning, generalization, and prompt capabilities at test time. These models are referred to as foundational models. The output of such models can be modified through human-provided prompts without retraining, e.g., segmenting a particular object by providing a bounding box, having interactive dialogues by asking questions about an image or video scene or manipulating the robot's behavior through language instructions. In this survey, we provide a comprehensive review of such emerging foundational models, including typical architecture designs to combine different modalities (vision, text, audio, etc), training objectives (contrastive, generative), pre-training datasets, fine-tuning mechanisms, and the common prompting patterns; textual, visual, and heterogeneous. We discuss the open challenges and research directions for foundational models in computer vision, including difficulties in their evaluations and benchmarking, gaps in their real-world understanding, limitations of their contextual understanding, biases, vulnerability to adversarial attacks, and interpretability issues. We review recent developments in this field, covering a wide range of applications of foundation models systematically and comprehensively. A comprehensive list of foundational models studied in this work is available at \url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}.
翻訳日:2023-07-27 14:45:42 公開日:2023-07-25
# Composite Diffusion | whole >= \Sigma part

Composite Diffusion | whole >= \Sigma parts ( http://arxiv.org/abs/2307.13720v1 )

ライセンス: Link先を確認
Vikram Jamwal and Ramaneswaran S(参考訳) アーティストやグラフィックデザイナーにとって、シーンの空間的レイアウトは重要なデザイン選択である。 しかし,既存のテキスト・画像拡散モデルでは空間情報を組み込むためのサポートが限られている。 本稿では,アーティストがサブシーンから合成して高品質な画像を生成する手段として,複合拡散を導入する。 アーティストはフレキシブルなフリーフォームセグメントレイアウトを通じて、これらのサブシーンの配置を指定できる。 彼らは、主に自然のテキストを用いて各サブシーンの内容を記述することができ、また、ラインアート、スクリブル、人間のポーズ、キャニーエッジなどの参照画像や制御入力を利用する。 サブシーンの生成、合成、および調和の代替方法を可能にする複合拡散の包括的かつモジュラーな方法を提供する。 さらに,画像の質とアーティストの意図を両立させるため,合成画像の評価を行おうとする。 既存の画像品質指標は、画像合成の全体的評価を欠いている。 そこで本稿では,合成生成に関連する新しい品質基準を提案する。 われわれのアプローチは直感的なアート制作方法を提供すると考えている。 広範なユーザ調査,定量的,質的分析を通じて,画像生成に対する空間的,意味的,創造的な制御を実現する方法を示す。 さらに,本手法では,ベース拡散モデルのアーキテクチャを再構成・変更する必要がなく,微調整モデルを用いてプラグアンドプレイで動作することができる。

For an artist or a graphic designer, the spatial layout of a scene is a critical design choice. However, existing text-to-image diffusion models provide limited support for incorporating spatial information. This paper introduces Composite Diffusion as a means for artists to generate high-quality images by composing from the sub-scenes. The artists can specify the arrangement of these sub-scenes through a flexible free-form segment layout. They can describe the content of each sub-scene primarily using natural text and additionally by utilizing reference images or control inputs such as line art, scribbles, human pose, canny edges, and more. We provide a comprehensive and modular method for Composite Diffusion that enables alternative ways of generating, composing, and harmonizing sub-scenes. Further, we wish to evaluate the composite image for effectiveness in both image quality and achieving the artist's intent. We argue that existing image quality metrics lack a holistic evaluation of image composites. To address this, we propose novel quality criteria especially relevant to composite generation. We believe that our approach provides an intuitive method of art creation. Through extensive user surveys, quantitative and qualitative analysis, we show how it achieves greater spatial, semantic, and creative control over image generation. In addition, our methods do not need to retrain or modify the architecture of the base diffusion models and can work in a plug-and-play manner with the fine-tuned models.
翻訳日:2023-07-27 14:45:13 公開日:2023-07-25
# ファジィマッチング器の漏洩に関する包括的解析

A Comprehensive Analysis on the Leakage of Fuzzy Matchers ( http://arxiv.org/abs/2307.13717v1 )

ライセンス: Link先を確認
Axel Durbet, Paul-Marie Grollemund, Kevin Thiry-Atighehchi(参考訳) 本稿では,しきい値に基づく難読化距離(ファジィマッチング)に着目し,距離評価における潜在的な情報漏洩の包括的解析を行う。 これには、潜在的な情報漏洩に関連する様々な状況の詳細な説明と、セキュリティへの影響に特定の注意が払われる。 各シナリオに対応するジェネリックアタックを概説し、その複雑さを評価する。 この研究の主な貢献は、ファジィ・マッチラーから追加の情報漏洩があるシナリオにおいてファジィ・マッチラーのセキュリティに関する上限を提供することであり、達成可能なセキュリティの最大レベルとそのデータのプライバシとセキュリティに対する潜在的な影響を直接理解することである。

The present paper presents a comprehensive analysis of potential information leakage in distance evaluation, with a specific emphasis on threshold-based obfuscated distance (i.e. Fuzzy Matcher). It includes detailed descriptions of various situations related to potential information leakage and specific attention is given to their consequences on security. Generic attacks corresponding to each scenario are outlined, and their complexities are assessed. The main contribution of this work lies in providing an upper bound on the security of a fuzzy matcher in scenarios where there is additional information leakage from the matcher, providing a straightforward understanding of the maximum level of achievable security and its potential implications for data privacy and security.
翻訳日:2023-07-27 14:44:53 公開日:2023-07-25
# feddrl:段階的強化学習に基づく信頼度の高いフェデレーション学習モデル融合法

FedDRL: A Trustworthy Federated Learning Model Fusion Method Based on Staged Reinforcement Learning ( http://arxiv.org/abs/2307.13716v1 )

ライセンス: Link先を確認
Leiming Chen, Cihao Dong, Sibo Qiao, Ziling Huang, Kai Wang, Yuming Nie, Zhaoxiang Hou, Cheewei Tan(参考訳) 従来の連合学習では、各クライアントモデルの重みを計算するためにサンプル数を使用し、この固定重み値を使ってグローバルモデルを融合する。 しかし、現実的なシナリオでは、各クライアントのデバイスとデータの均一性は、各クライアントのモデルの品質に違いをもたらす。 したがって、グローバルモデルへの貢献は、サンプルサイズによって完全には決定されない。 さらに、クライアントが意図的に低品質または悪意のあるモデルをアップロードした場合、集約にこれらのモデルを使用することで、グローバルモデルの精度が大幅に低下する。 従来のフェデレーション学習アルゴリズムはこれらの問題に対処しない。 本稿では,2段階のアプローチに基づく強化学習を用いたモデル融合手法であるFedDRLを提案する。 最初の段階では、悪意あるモデルをフィルタリングし、信頼されたクライアントモデルを選択してモデル融合に参加する。 第2段階では、FedDRLアルゴリズムは信頼されたクライアントモデルの重みを適応的に調整し、最適なグローバルモデルを集約する。 また,5つのモデル融合シナリオを定義し,それらのシナリオにおける2つのベースラインアルゴリズムとの比較を行った。 実験結果から,本アルゴリズムは精度を維持しつつ,他のアルゴリズムよりも信頼性が高いことがわかった。

Traditional federated learning uses the number of samples to calculate the weights of each client model and uses this fixed weight value to fusion the global model. However, in practical scenarios, each client's device and data heterogeneity leads to differences in the quality of each client's model. Thus the contribution to the global model is not wholly determined by the sample size. In addition, if clients intentionally upload low-quality or malicious models, using these models for aggregation will lead to a severe decrease in global model accuracy. Traditional federated learning algorithms do not address these issues. To solve this probelm, we propose FedDRL, a model fusion approach using reinforcement learning based on a two staged approach. In the first stage, Our method could filter out malicious models and selects trusted client models to participate in the model fusion. In the second stage, the FedDRL algorithm adaptively adjusts the weights of the trusted client models and aggregates the optimal global model. We also define five model fusion scenarios and compare our method with two baseline algorithms in those scenarios. The experimental results show that our algorithm has higher reliability than other algorithms while maintaining accuracy.
翻訳日:2023-07-27 14:44:40 公開日:2023-07-25
# 離散的ロジスティック回帰における精度増幅--事前学習アプローチ

Accuracy Amplification in Differentially Private Logistic Regression: A Pre-Training Approach ( http://arxiv.org/abs/2307.13771v1 )

ライセンス: Link先を確認
Mohammad Hoseinpour, Milad Hoseinpour, Ali Aghagolzadeh(参考訳) 機械学習(ML)モデルは、トレーニングデータセットを記憶することができる。 その結果、プライベートデータセット上でのmlモデルのトレーニングは、個人のプライバシを侵害する可能性がある。 差分プライバシー(DP)は、MLモデルにおける基礎となるトレーニングデータセットのプライバシーを維持するための厳格なプライバシー概念である。 しかし、DPフレームワークでのMLモデルのトレーニングは通常、MLモデルの精度を低下させる。 本稿では,DP-MLモデル,特にロジスティック回帰モデルの事前学習モジュールによる精度向上を目的とする。 より詳しくは、当社のモデルを公開トレーニングデータセットで事前トレーニングすることで、プライバシーに関する懸念はありません。 次に、プライベートデータセットでdpロジスティック回帰を通じてモデルを微調整する。 その結果,事前学習モジュールの追加により,dpロジスティック回帰の精度が大幅に向上することがわかった。

Machine learning (ML) models can memorize training datasets. As a result, training ML models over private datasets can violate the privacy of individuals. Differential privacy (DP) is a rigorous privacy notion to preserve the privacy of underlying training datasets in ML models. Yet, training ML models in a DP framework usually degrades the accuracy of ML models. This paper aims to boost the accuracy of a DP-ML model, specifically a logistic regression model, via a pre-training module. In more detail, we initially pre-train our model on a public training dataset that there is no privacy concern about it. Then, we fine-tune our model via the DP logistic regression with the private dataset. In the numerical results, we show that adding a pre-training module significantly improves the accuracy of the DP logistic regression.
翻訳日:2023-07-27 14:36:54 公開日:2023-07-25
# E^2VPT:ビジュアルプロンプトチューニングの効果的かつ効率的なアプローチ

E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning ( http://arxiv.org/abs/2307.13770v1 )

ライセンス: Link先を確認
Cheng Han, Qifan Wang, Yiming Cui, Zhiwen Cao, Wenguan Wang, Siyuan Qi, Dongfang Liu(参考訳) トランスフォーマーベースモデルのサイズが拡大するにつれ、これらの大規模事前学習型視覚モデルを微調整する作業がパラメータ集約化されつつある。 微調整時の可変パラメータ数を減らすためにパラメータ効率のよい学習が開発されている。 これらの手法は有望な結果を示すが、完全な微調整に比べてまだ大きな性能差がある。 この課題に対処するために、大規模トランスフォーマーモデル適応のための効果的で効率的なビジュアルプロンプトチューニング(E^2VPT)手法を提案する。 具体的には,学習可能なキー値プロンプトと視覚的プロンプトをそれぞれ自己注意層と入力層に導入し,モデル微調整の有効性を向上させる。 さらに,モデル性能を保ちながら,低重要プロンプトを体系的にプルーンプルーンするプロンプトプルーニング手法を設計し,モデルの効率を大幅に向上させる。 実験結果から,本手法は2つのベンチマークで最先端のベースラインを上回っており,パラメータ使用率がかなり低い(vtab-1kのモデルパラメータの0.32%など)。 私たちのコードはhttps://github.com/chenghan111/e2vptで利用可能です。

As the size of transformer-based models continues to grow, fine-tuning these large-scale pretrained vision models for new tasks has become increasingly parameter-intensive. Parameter-efficient learning has been developed to reduce the number of tunable parameters during fine-tuning. Although these methods show promising results, there is still a significant performance gap compared to full fine-tuning. To address this challenge, we propose an Effective and Efficient Visual Prompt Tuning (E^2VPT) approach for large-scale transformer-based model adaptation. Specifically, we introduce a set of learnable key-value prompts and visual prompts into self-attention and input layers, respectively, to improve the effectiveness of model fine-tuning. Moreover, we design a prompt pruning procedure to systematically prune low importance prompts while preserving model performance, which largely enhances the model's efficiency. Empirical results demonstrate that our approach outperforms several state-of-the-art baselines on two benchmarks, with considerably low parameter usage (e.g., 0.32% of model parameters on VTAB-1k). Our code is available at https://github.com/ChengHan111/E2VPT.
翻訳日:2023-07-27 14:36:41 公開日:2023-07-25
# ClusterSeq: クラスタリングに基づくメタラーニングによるシーケンスレコメンダシステムの強化

ClusterSeq: Enhancing Sequential Recommender Systems with Clustering based Meta-Learning ( http://arxiv.org/abs/2307.13766v1 )

ライセンス: Link先を確認
Mohammmadmahdi Maheri, Reza Abdollahzadeh, Bardia Mohammadi, Mina Rafiei, Jafar Habibi, Hamid R. Rabiee(参考訳) 実際のシナリオでは、ユーザの好みを正確に決定するためのインタラクションが限られているため、シーケンシャルレコメンデーションシステムの有効性は、ユーザコールドスタート問題によって妨げられる。 これまでの研究では、メタラーニングとユーザとアイテムサイドの情報を組み合わせることでこの問題に対処しようと試みている。 しかし、これらのアプローチは、より一般的なユーザーや「主要なユーザー」に比べて異なる好みを示す「マイナーユーザー」に対して、ユーザーの嗜好のダイナミクスをモデル化する固有の課題に直面している。 これらの制約を克服するために,メタラーニングクラスタリングに基づくシーケンスレコメンダシステムであるClusterSeqを提案する。 ClusterSeqはユーザシーケンスの動的情報を活用し、サイド情報がない場合でもアイテムの予測精度を向上させる。 このモデルは、主要なユーザによって隠蔽されることなく、マイナーユーザの嗜好を保ち、同一クラスタ内のユーザの集合的知識を活用する。 さまざまなベンチマークデータセットで実施された大規模な実験は、ClusterSeqの有効性を検証する。 実証的な結果は、ClusterSeqがいくつかの最先端のメタ学習レコメンデータを上回っていることを一貫して示している。 特に,既存のメタラーニング手法と比較して,提案手法は平均相反ランク(MRR)において16~39%の大幅な改善を実現している。

In practical scenarios, the effectiveness of sequential recommendation systems is hindered by the user cold-start problem, which arises due to limited interactions for accurately determining user preferences. Previous studies have attempted to address this issue by combining meta-learning with user and item-side information. However, these approaches face inherent challenges in modeling user preference dynamics, particularly for "minor users" who exhibit distinct preferences compared to more common or "major users." To overcome these limitations, we present a novel approach called ClusterSeq, a Meta-Learning Clustering-Based Sequential Recommender System. ClusterSeq leverages dynamic information in the user sequence to enhance item prediction accuracy, even in the absence of side information. This model preserves the preferences of minor users without being overshadowed by major users, and it capitalizes on the collective knowledge of users within the same cluster. Extensive experiments conducted on various benchmark datasets validate the effectiveness of ClusterSeq. Empirical results consistently demonstrate that ClusterSeq outperforms several state-of-the-art meta-learning recommenders. Notably, compared to existing meta-learning methods, our proposed approach achieves a substantial improvement of 16-39% in Mean Reciprocal Rank (MRR).
翻訳日:2023-07-27 14:36:20 公開日:2023-07-25
# 改良型ニューラルネットワークアルゴリズムによる洋上風力タービンのリアルタイム材料破壊検出

A real-time material breakage detection for offshore wind turbines based on improved neural network algorithm ( http://arxiv.org/abs/2307.13765v1 )

ライセンス: Link先を確認
Yantong Liu(参考訳) 持続可能エネルギーの源である沖合風力タービンの完全性は、しばしば表面物質欠陥によって損なわれる。 様々な検出技術が利用可能であるにもかかわらず、コスト効率、効率、適用性に関する制限は続く。 これらの欠点に対処するため, 改良された特徴認識のために, CBAM (Convolutional Block Attention Module) を付加した YOLOv8 オブジェクト検出モデルの高度なバージョンを活用する新しいアプローチを提案する。 最適化された損失関数は学習プロセスをさらに洗練する。 saemangeumのオフショア風力発電所から得られた5,432枚の画像と公開データセットを用いて,厳密な試験を行った。 この結果, 欠陥検出安定性が著しく向上し, タービンの効率向上に向けた重要な歩みが示された。 この研究の貢献は将来の研究への道のりを示し、持続可能なエネルギープラクティスに革命をもたらす可能性がある。

The integrity of offshore wind turbines, pivotal for sustainable energy generation, is often compromised by surface material defects. Despite the availability of various detection techniques, limitations persist regarding cost-effectiveness, efficiency, and applicability. Addressing these shortcomings, this study introduces a novel approach leveraging an advanced version of the YOLOv8 object detection model, supplemented with a Convolutional Block Attention Module (CBAM) for improved feature recognition. The optimized loss function further refines the learning process. Employing a dataset of 5,432 images from the Saemangeum offshore wind farm and a publicly available dataset, our method underwent rigorous testing. The findings reveal a substantial enhancement in defect detection stability, marking a significant stride towards efficient turbine maintenance. This study's contributions illuminate the path for future research, potentially revolutionizing sustainable energy practices.
翻訳日:2023-07-27 14:35:58 公開日:2023-07-25
# 暗黙の正規化 明示的な正規化密度推定

Implicitly Normalized Explicitly Regularized Density Estimation ( http://arxiv.org/abs/2307.13763v1 )

ライセンス: Link先を確認
Mark Kozdoba, Binyamin Perets, Shie Mannor(参考訳) 本研究では,密度のソボレフノルムを正則化する非パラメトリック密度推定法を提案する。 この方法はカーネル密度推定と明らかに異なり、モデルのバイアスを明確かつ解釈可能である。 関連するカーネルに対して閉解析形式は存在しないが、サンプリングを用いて近似できることを示す。 密度を決定するのに必要な最適化問題は非凸であり、標準勾配法はうまく機能しない。 しかし, 適切な初期化と自然勾配を用いることで, 良好な解が得られることを示す。 最後に,この手法は非正規化密度を提供するため,クロスバリデーションにログライクリフを使用できないが,代わりにFisher Divergenceに基づくスコアマッチング手法を適用可能であることを示す。 提案手法は,近年のanomaly detection benchmark suite (adbench) を包括的に評価し,15以上のアルゴリズムの中で第2位であることを確認した。

We propose a new approach to non-parametric density estimation, that is based on regularizing a Sobolev norm of the density. This method is provably different from Kernel Density Estimation, and makes the bias of the model clear and interpretable. While there is no closed analytic form for the associated kernel, we show that one can approximate it using sampling. The optimization problem needed to determine the density is non-convex, and standard gradient methods do not perform well. However, we show that with an appropriate initialization and using natural gradients, one can obtain well performing solutions. Finally, while the approach provides unnormalized densities, which prevents the use of log-likelihood for cross validation, we show that one can instead adapt Fisher Divergence based Score Matching methods for this task. We evaluate the resulting method on the comprehensive recent Anomaly Detection benchmark suite, ADBench, and find that it ranks second best, among more than 15 algorithms.
翻訳日:2023-07-27 14:35:43 公開日:2023-07-25
# Loihi 2ニューロモルフィックプロセッサ上での局所競合アルゴリズムの実装とベンチマーク

Implementing and Benchmarking the Locally Competitive Algorithm on the Loihi 2 Neuromorphic Processor ( http://arxiv.org/abs/2307.13762v1 )

ライセンス: Link先を確認
Gavin Parpart, Sumedh R. Risbud, Garrett T. Kenyon, Yijing Watkins(参考訳) ニューロモルフィックプロセッサは、エネルギー効率と高速コンピューティングのポテンシャルのために近年かなりの関心を集めている。 Locally Competitive Algorithm (LCA)は、最初のLoihiプロセッサを含むニューロモルフィックプロセッサ上での効率的なスパース符号化に利用されている。 カスタムニューロンモデルとグレードスパイク通信を可能にするloihi 2プロセッサにより、lcaのより複雑な実装が可能になる。 本稿では,Loihi 2 プロセッサ用に設計された LCA の実装を提案し,CPU および GPU デバイス上で LCA との比較を行う。 これらの実験では、Loihi 2上のLCAは、同様の再現品質を維持しながら、大規模なペナルティに対して、桁違いに効率的かつ高速である。 lcaパラメータがより大きな表現スパーシティに向けて調整されるにつれて、このパフォーマンス改善が見られます。 我々の研究は、特にLoihi 2のようなニューロモルフィックプロセッサが、小型ロボットやSWaP(小型で軽量で低電力)の厳しい衛星でインテリジェントで自律的なリアルタイム処理を可能にする可能性を強調している。 Loihi 2 の LCA 性能を従来の計算装置と比較して向上させることにより,本研究は Loihi 2 がこれらの応用の進展に有用であることを示す。 本研究は,資源制約デバイス上での高速かつ正確なデータ処理のためのニューロモルフィックプロセッサの可能性を明らかにする。

Neuromorphic processors have garnered considerable interest in recent years for their potential in energy-efficient and high-speed computing. The Locally Competitive Algorithm (LCA) has been utilized for power efficient sparse coding on neuromorphic processors, including the first Loihi processor. With the Loihi 2 processor enabling custom neuron models and graded spike communication, more complex implementations of LCA are possible. We present a new implementation of LCA designed for the Loihi 2 processor and perform an initial set of benchmarks comparing it to LCA on CPU and GPU devices. In these experiments LCA on Loihi 2 is orders of magnitude more efficient and faster for large sparsity penalties, while maintaining similar reconstruction quality. We find this performance improvement increases as the LCA parameters are tuned towards greater representation sparsity. Our study highlights the potential of neuromorphic processors, particularly Loihi 2, in enabling intelligent, autonomous, real-time processing on small robots, satellites where there are strict SWaP (small, lightweight, and low power) requirements. By demonstrating the superior performance of LCA on Loihi 2 compared to conventional computing device, our study suggests that Loihi 2 could be a valuable tool in advancing these types of applications. Overall, our study highlights the potential of neuromorphic processors for efficient and accurate data processing on resource-constrained devices.
翻訳日:2023-07-27 14:35:27 公開日:2023-07-25
# 量子記憶を伴わない固有混合状態位相秩序

Intrinsic Mixed-state Topological Order Without Quantum Memory ( http://arxiv.org/abs/2307.13758v1 )

ライセンス: Link先を確認
Zijian Wang, Zhengzhi Wu, Zhong Wang(参考訳) デコヒーレンス(decoherence)は、ノイズの多い中間スケール量子デバイスにおけるトポロジカル秩序の調製における大きな障害である。 ここでは、デコヒーレンスが新しいタイプの位相秩序を生み出すことも示している。 具体的には、2次元トーリック符号モデルにおけるフェルミオン性エノンの増殖と、特定の局所的な量子チャネルを通して北エフハニカムモデルを構築する。 結果として生じる混合状態は、非ゼロトポロジカルエンタングルメントの負性性を示す長距離エンタングルメントを保持するが、トポロジカル量子メモリはデコヒーレンスによって破壊される。 これらの性質は摂動に対して安定であると主張する。 したがって、同定された状態は、純粋な状態にはない新しい固有の混合状態の量子トポロジー秩序を表す。

Decoherence is a major obstacle to the preparation of topological order in noisy intermediate-scale quantum devices. Here, we show that decoherence can also give rise to new types of topological order. Specifically, we construct two such examples by proliferating fermionic anyons in the two-dimensional toric code model and the Kitaev honeycomb model through certain local quantum channels. The resulting mixed states retain long-range entanglement, which manifests in the nonzero topological entanglement negativity, though the topological quantum memory is destroyed by decoherence. We argue that these properties are stable against perturbations. Therefore, the identified states represent a novel intrinsic mixed-state quantum topological order, which has no counterpart in pure states.
翻訳日:2023-07-27 14:35:00 公開日:2023-07-25
# UPREVE: エンドツーエンドの因果発見ベンチマークシステム

UPREVE: An End-to-End Causal Discovery Benchmarking System ( http://arxiv.org/abs/2307.13757v1 )

ライセンス: Link先を確認
Suraj Jyothi Unni, Paras Sheth, Kaize Ding, Huan Liu, and K. Selcuk Candan(参考訳) 複雑な社会行動システムにおける因果関係の発見は困難であるが、インフォームド・意思決定には不可欠である。 我々は,因果発見プロセスの簡略化を目的とした,ユーザフレンドリな web ベースのグラフィカルユーザインタフェース (gui) である upload, preprocess, visualize, and evaluation (upreve) を提案する。 UPREVEは複数のアルゴリズムを同時に実行し、因果関係を視覚化し、学習した因果グラフの精度を評価する。 アクセス可能なインターフェースとカスタマイズ可能な機能により、UPREVEは社会コンピューティングや行動文化モデリング(その他)の研究者や実践者に因果関係を効果的に探求し理解させる。 提案するソリューションは,因果発見をよりアクセスしやすく,ユーザフレンドリにすることを目的としている。

Discovering causal relationships in complex socio-behavioral systems is challenging but essential for informed decision-making. We present Upload, PREprocess, Visualize, and Evaluate (UPREVE), a user-friendly web-based graphical user interface (GUI) designed to simplify the process of causal discovery. UPREVE allows users to run multiple algorithms simultaneously, visualize causal relationships, and evaluate the accuracy of learned causal graphs. With its accessible interface and customizable features, UPREVE empowers researchers and practitioners in social computing and behavioral-cultural modeling (among others) to explore and understand causal relationships effectively. Our proposed solution aims to make causal discovery more accessible and user-friendly, enabling users to gain valuable insights for better decision-making.
翻訳日:2023-07-27 14:34:45 公開日:2023-07-25
# PlaneRecTR: 単一視点からの3次元平面復元のための統一クエリ学習

PlaneRecTR: Unified Query learning for 3D Plane Recovery from a Single View ( http://arxiv.org/abs/2307.13756v1 )

ライセンス: Link先を確認
Jingjia Shi, Shuaifeng Zhi, Kai Xu(参考訳) 単一画像からの3次元平面復元は通常、平面検出、セグメンテーション、パラメータ推定、そしておそらく深さ推定のいくつかのサブタスクに分けられる。 これまでの作業では、RCNNベースのセグメンテーションネットワークを拡張するか、あるいは高密度ピクセル埋め込みベースのクラスタリングフレームワークを拡張することで、この問題を解決する傾向にあった。 しかし、それらのいずれも、上記のサブタスクを統一されたフレームワークに統合しようとはしていませんが、それらを別々に、そして順次処理します。 この発見と、セマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、トランスフォーマーベースのアーキテクチャであるPlaneRecTRを提案し、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを初めて統一する。 大規模な定量的および定性的な実験により、提案した統合学習がサブタスク間の相互利益を達成し、パブリックScanNetとNYUv2-Planeデータセット上で新しい最先端のパフォーマンスを得ることを示した。 コードはhttps://github.com/SJingjia/PlaneRecTRで入手できる。

3D plane recovery from a single image can usually be divided into several subtasks of plane detection, segmentation, parameter estimation and possibly depth estimation. Previous works tend to solve this task by either extending the RCNN-based segmentation network or the dense pixel embedding-based clustering framework. However, none of them tried to integrate above related subtasks into a unified framework but treat them separately and sequentially, which we suspect is potentially a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR, a Transformer-based architecture, which for the first time unifies all subtasks related to single-view plane recovery with a single compact model. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across subtasks, obtaining a new state-of-the-art performance on public ScanNet and NYUv2-Plane datasets. Codes are available at https://github.com/SJingjia/PlaneRecTR.
翻訳日:2023-07-27 14:34:30 公開日:2023-07-25
# TMR-RD:セミスーパービジョンオブジェクト検出のためのトレーニングベースモデル再構成と表現分離

TMR-RD: Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection ( http://arxiv.org/abs/2307.13755v1 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Nilanjan Ray, Nadir Erbilgin(参考訳) 半教師付きオブジェクト検出(SSOD)は、既存のオブジェクト検出器の性能と一般化を改善するために、限られたラベル付きデータと大量のラベル付きデータを組み込むことができる。 多くの進歩にもかかわらず、最近のSSOD法は、ノイズ/ミスリードの擬似ラベル、古典的指数移動平均(EMA)戦略、および訓練後期における教師・学生モデルのコンセンサスによって未だに挑戦されている。 本稿では,従来のEMAの限界とコンセンサス問題に対処するための,新しいトレーニングベースモデル改良(TMR)ステージと,シンプルで効果的な表現不一致(RD)戦略を提案する。 Teacher-StudentモデルのTMRステージは、軽量なスケーリング操作を最適化し、モデルの重みを洗練し、学習パターンがラベルなしのデータから過度に適合したり忘れたりするのを防ぐ。 一方、RD戦略はこれらのモデルを分散させ、学生モデルに補完的な表現を探求するよう促すのに役立つ。 さらに、カスケード回帰を用いて、学生モデルを監視するための信頼性の高い擬似ラベルを生成する。 SSOD法に対する我々のアプローチの優れた性能を示す大規模な実験を行った。 具体的には,ms-cocoデータセット上の部分ラベルデータと完全ラベルデータを用いた場合,平均マップマージンは4.6%,5.3%であった。

Semi-supervised object detection (SSOD) can incorporate limited labeled data and large amounts of unlabeled data to improve the performance and generalization of existing object detectors. Despite many advances, recent SSOD methods are still challenged by noisy/misleading pseudo-labels, classical exponential moving average (EMA) strategy, and the consensus of Teacher-Student models in the latter stages of training. This paper proposes a novel training-based model refinement (TMR) stage and a simple yet effective representation disagreement (RD) strategy to address the limitations of classical EMA and the consensus problem. The TMR stage of Teacher-Student models optimizes the lightweight scaling operation to refine the model's weights and prevent overfitting or forgetting learned patterns from unlabeled data. Meanwhile, the RD strategy helps keep these models diverged to encourage the student model to explore complementary representations. In addition, we use cascade regression to generate more reliable pseudo-labels for supervising the student model. Extensive experiments demonstrate the superior performance of our approach over state-of-the-art SSOD methods. Specifically, the proposed approach outperforms the Unbiased-Teacher method by an average mAP margin of 4.6% and 5.3% when using partially-labeled and fully-labeled data on the MS-COCO dataset, respectively.
翻訳日:2023-07-27 14:34:08 公開日:2023-07-25
# forestmonkey:aiに基づく欠陥検出と分類モデルを用いた推論用ツールキット

ForestMonkey: Toolkit for Reasoning with AI-based Defect Detection and Classification Models ( http://arxiv.org/abs/2307.13815v1 )

ライセンス: Link先を確認
Jiajun Zhang, Georgina Cosma, Sarah Bugby, Jason Watkins(参考訳) 人工知能(AI)推論と説明可能なAI(XAI)タスクが最近人気となり、ユーザーはAIモデルの予測や決定プロセスを説明することができる。 本稿では,aiに基づく欠陥検出および/または分類モデルの出力をデータ説明性で推論するツールキットであるforest monkey (fm)を提案する。 Pythonパッケージとして実装されたFMは、データセットフォルダパス(オリジナル画像、グラウンドの真理ラベル、予測ラベルを含む)の形式で入力を取得し、推論結果を説明するためのチャートとテキストファイルのセットを提供し、改善の可能性を提案する。 FMツールキットは、予測から推論対象への特徴抽出、画像から欠陥特徴への特徴抽出、決定木に基づくAI-Reasonerなどのプロセスで構成されている。 さらに,異なるデータセットを持つ4つのAIモデルに適用した場合のFMツールキットの時間特性について検討する。 最後に、FMツールキットを使用した推論タスクのユーザガイドのためのチュートリアルが提供される。

Artificial intelligence (AI) reasoning and explainable AI (XAI) tasks have gained popularity recently, enabling users to explain the predictions or decision processes of AI models. This paper introduces Forest Monkey (FM), a toolkit designed to reason the outputs of any AI-based defect detection and/or classification model with data explainability. Implemented as a Python package, FM takes input in the form of dataset folder paths (including original images, ground truth labels, and predicted labels) and provides a set of charts and a text file to illustrate the reasoning results and suggest possible improvements. The FM toolkit consists of processes such as feature extraction from predictions to reasoning targets, feature extraction from images to defect characteristics, and a decision tree-based AI-Reasoner. Additionally, this paper investigates the time performance of the FM toolkit when applied to four AI models with different datasets. Lastly, a tutorial is provided to guide users in performing reasoning tasks using the FM toolkit.
翻訳日:2023-07-27 14:27:20 公開日:2023-07-25
# EMAのスケール方法

How to Scale Your EMA ( http://arxiv.org/abs/2307.13813v1 )

ライセンス: Link先を確認
Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb(参考訳) バッチサイズ間のトレーニングダイナミクスを維持することは、バッチサイズとウォールクロック時間のトレードオフを可能にするため、実用的な機械学習にとって重要なツールである。 このトレードオフは通常、例えば確率的勾配勾配勾配において、バッチサイズと線形に学習率をスケールするスケーリングルールによって実現される。 実用的な機械学習のためのもう1つの重要なツールは、指数移動平均(Exponential moving Average, EMA)モデルである。 このモデルEMAは、教師付き学習の堅牢性と一般化性を改善し、擬似ラベルを安定化させ、自己監督学習(SSL)のための学習信号を提供する。 以前の作業では、モデルのemaを最適化から切り離して扱い、バッチサイズとモデルパフォーマンスの異なるトレーニングダイナミクスを生み出した。 本研究では、モデルEMAの存在下での最適化のためのスケーリングルールを提供し、その妥当性を様々なアーキテクチャ、最適化、データモダリティにわたって示す。 また、モデルEMAがターゲットモデルの最適化に寄与するルールの有効性を示し、EMAベースの擬似ラベルとSSLメソッドを小規模かつ大規模なバッチサイズで訓練することを可能にする。 SSLでは、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にします。

Preserving training dynamics across batch sizes is an important tool for practical machine learning as it enables the trade-off between batch size and wall-clock time. This trade-off is typically enabled by a scaling rule, for example, in stochastic gradient descent, one should scale the learning rate linearly with the batch size. Another important tool for practical machine learning is the model Exponential Moving Average (EMA), which is a model copy that does not receive gradient information, but instead follows its target model with some momentum. This model EMA can improve the robustness and generalization properties of supervised learning, stabilize pseudo-labeling, and provide a learning signal for Self-Supervised Learning (SSL). Prior works have treated the model EMA separately from optimization, leading to different training dynamics across batch sizes and lower model performance. In this work, we provide a scaling rule for optimization in the presence of model EMAs and demonstrate its validity across a range of architectures, optimizers, and data modalities. We also show the rule's validity where the model EMA contributes to the optimization of the target model, enabling us to train EMA-based pseudo-labeling and SSL methods at small and large batch sizes. For SSL, we enable training of BYOL up to batch size 24,576 without sacrificing performance, optimally a 6$\times$ wall-clock time reduction.
翻訳日:2023-07-27 14:27:02 公開日:2023-07-25
# AI検出のための透かし条件付きテキスト生成:解答課題とセマンティックな透かし対策

Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy ( http://arxiv.org/abs/2307.13808v1 )

ライセンス: Link先を確認
Yu Fu, Deyi Xiong, Yue Dong(参考訳) 言語モデルに関連する潜在的なリスクを軽減するため、近年のAI検出研究は、ランダムな語彙制限を通じて透かしを機械生成テキストに組み込むことを提案し、この情報を用いて検出する。 これらの透かしはパープレキシティをわずかに低下させるだけだが,条件付きテキスト生成の性能に有意な障害があることが明らかとなった。 この問題に対処するために,条件付きテキスト生成と入力コンテキストの特性を考慮した,シンプルで効果的な意味認識型透かしアルゴリズムを提案する。 提案手法は,検出能力を維持しつつ要約やデータ対テキスト生成などのタスクにおいて,bart や flan-t5 など様々なテキスト生成モデルにおいて大幅に改善することを示す。

To mitigate potential risks associated with language models, recent AI detection research proposes incorporating watermarks into machine-generated text through random vocabulary restrictions and utilizing this information for detection. While these watermarks only induce a slight deterioration in perplexity, our empirical investigation reveals a significant detriment to the performance of conditional text generation. To address this issue, we introduce a simple yet effective semantic-aware watermarking algorithm that considers the characteristics of conditional text generation and the input context. Experimental results demonstrate that our proposed method yields substantial improvements across various text generation models, including BART and Flan-T5, in tasks such as summarization and data-to-text generation while maintaining detection ability.
翻訳日:2023-07-27 14:26:39 公開日:2023-07-25
# ボソニック系のエネルギー保存進化

Energy preserving evolutions over Bosonic systems ( http://arxiv.org/abs/2307.13801v1 )

ライセンス: Link先を確認
Paul Gondolf, Tim M\"obus, Cambyse Rouz\'e(参考訳) 量子マルコフ半群の不変部分空間への指数収束は、量子情報理論において重要な役割を果たす。 例えば、ボソニックなエラー訂正スキームでは、あるタイプのエラーに対して保護された不変部分空間であるコード空間に状態を戻すために消散を使用する。 本稿では,連続変数(CV)システム上での量子力学半群の摂動について検討し,不変部分空間を許容する。 まず、物理仮定の下でCV系上の量子マルコフ半群の生成定理を証明する。 i)生成元は、消滅演算子と生成演算子の多項式として定義された対応するジャンプ演算子を持つGKSL形式を有する。 (ii)(多分無界)発生器は、制御された方法ですべてのモーメントを増加させる。 さらに、有界な第一モーメントを持つ作用素のレベル集合が進化の許容部分空間であることを示し、摂動解析の基礎を提供する。 結果は時間依存半群にも及んでいる。 我々は,連続変数量子情報処理に関心のある2つの設定に汎用フレームワークを適用する。 まず、量子力学半群のマルコフ摂動のエネルギー制約付き容量の連続性境界を導出する新しいスキームを提供する。 第二に、コード空間外のCAT量子ビットの普遍ゲートセットを生成する連続時間進化の減衰の定量的解析を行う。

The exponential convergence to invariant subspaces of quantum Markov semigroups plays a crucial role in quantum information theory. One such example is in bosonic error correction schemes, where dissipation is used to drive states back to the code-space -- an invariant subspace protected against certain types of errors. In this paper, we investigate perturbations of quantum dynamical semigroups that operate on continuous variable (CV) systems and admit an invariant subspace. First, we prove a generation theorem for quantum Markov semigroups on CV systems under the physical assumptions that (i) the generator has GKSL form with corresponding jump operators defined as polynomials of annihilation and creation operators; and (ii) the (possibly unbounded) generator increases all moments in a controlled manner. Additionally, we show that the level sets of operators with bounded first moments are admissible subspaces of the evolution, providing the foundations for a perturbative analysis. Our results also extend to time-dependent semigroups. We apply our general framework to two settings of interest in continuous variables quantum information processing. First, we provide a new scheme for deriving continuity bounds on the energy-constrained capacities of Markovian perturbations of Quantum dynamical semigroups. Second, we provide a quantitative analysis of the dampening of continuous-time evolutions generating a universal gate set for CAT-qubits outside their code-space.
翻訳日:2023-07-27 14:26:24 公開日:2023-07-25
# 逆問題の関数に対するソース条件二重ロバスト推論

Source Condition Double Robust Inference on Functionals of Inverse Problems ( http://arxiv.org/abs/2307.13793v1 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Xiaojie Mao, Whitney Newey, Vasilis Syrgkanis, Masatoshi Uehara(参考訳) 線形逆問題に対する解の線形汎関数として定義されるパラメータを推定する。 そのようなパラメータは双対線型逆問題に対する解に依存する二重ロバスト表現を許容し、双対解は逆汎関数の一般化と考えることができる。 本稿では、主元問題と二重逆問題のいずれかが十分にうまく当てはまる限り、利子パラメータの周囲の漸近正規性を保証するための、逆問題とよりよく当てはまるような知識のない第1のソース条件二重ロバスト推論法を提案する。 この結果は、独立利害関係の発展である一般仮説空間上の線形逆問題に対する反復的ティホノフ正規化逆推定子に対する新しい保証によって実現される。

We consider estimation of parameters defined as linear functionals of solutions to linear inverse problems. Any such parameter admits a doubly robust representation that depends on the solution to a dual linear inverse problem, where the dual solution can be thought as a generalization of the inverse propensity function. We provide the first source condition double robust inference method that ensures asymptotic normality around the parameter of interest as long as either the primal or the dual inverse problem is sufficiently well-posed, without knowledge of which inverse problem is the more well-posed one. Our result is enabled by novel guarantees for iterated Tikhonov regularized adversarial estimators for linear inverse problems, over general hypothesis spaces, which are developments of independent interest.
翻訳日:2023-07-27 14:26:04 公開日:2023-07-25
# 受動ソナー分類のためのヒストグラム層時間遅延ニューラルネットワーク

Histogram Layer Time Delay Neural Networks for Passive Sonar Classification ( http://arxiv.org/abs/2307.13788v1 )

ライセンス: Link先を確認
Jarin Ritu, Ethan Barnes, Riley Martell, Alexandra Van Dine, Joshua Peeples(参考訳) 海洋リモートセンシングにおける水中音響ターゲット検出は,複雑な音波伝搬のため困難である。 ソナーシステムの信頼性は高いが、目標認識は依然として難しい問題である。 様々な手法が目標認識を改善した。 しかし、ほとんどが観測対象記録の高次元の非線形パターンを絡み合うのに苦労している。 本研究では,時間遅延ニューラルネットワークとヒストグラム層を組み合わせて,特徴学習の改善と水中音響目標分類のための統計的コンテキストを組み込む手法を提案する。 提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。 この作業のコードは公開されている。

Underwater acoustic target detection in remote marine sensing operations is challenging due to complex sound wave propagation. Despite the availability of reliable sonar systems, target recognition remains a difficult problem. Various methods address improved target recognition. However, most struggle to disentangle the high-dimensional, non-linear patterns in the observed target recordings. In this work, a novel method combines a time delay neural network and histogram layer to incorporate statistical contexts for improved feature learning and underwater acoustic target classification. The proposed method outperforms the baseline model, demonstrating the utility in incorporating statistical contexts for passive sonar target recognition. The code for this work is publicly available.
翻訳日:2023-07-27 14:25:49 公開日:2023-07-25
# ガンファーザー:防衛システムを改善するための悪質な活動の制御可能な生成

The GANfather: Controllable generation of malicious activity to improve defence systems ( http://arxiv.org/abs/2307.13787v1 )

ライセンス: Link先を確認
Ricardo Ribeiro Pereira, Jacopo Bono, Jo\~ao Tiago Ascens\~ao, David Apar\'icio, Pedro Ribeiro, Pedro Bizarro(参考訳) 悪意のある活動を検出するための防衛システムを支援する機械学習手法は通常ラベル付きデータに依存する。 一部のドメインでは、ラベル付きデータは利用できないか不完全である。 実際には、これは低い検出率と高い偽陽性率につながり、例えば、反マネーロンダリングシステムの特徴となる。 実際、1.7-4兆ユーロは毎年洗浄され、検出されないと推定されている。 ラベルの要求を伴わずに悪意のある活動の属性を持つサンプルを生成する手法であるganfatherを提案する。 本稿では,GAN(Generative Adversarial Networks)の損失に余分な目的を導入することで,悪意のあるサンプルの生成に報いる。 最終目標は,識別器ネットワークを新規かつ堅牢な防衛システムとして利用し,不正行為の検出を強化することである。 オプションとして、ジェネレータに既存の検出システムをバイパスするよう促すかもしれない。 この設定は、差別者が修正する防御的弱点を明らかにする。 提案手法を,マネーロンダリングとレコメンデーションシステムという2つの実世界のユースケースで評価する。 前者では,既存のシステムによって検出されることなく,累積金額を350万ドル近い口座ネットワークに移動させる。 後者では、ターゲットアイテムを30人程度の合成攻撃者を含む幅広いユーザベースに推奨する。 どちらの場合も、我々は合成攻撃を捉えるために新しい防衛システムを訓練する。

Machine learning methods to aid defence systems in detecting malicious activity typically rely on labelled data. In some domains, such labelled data is unavailable or incomplete. In practice this can lead to low detection rates and high false positive rates, which characterise for example anti-money laundering systems. In fact, it is estimated that 1.7--4 trillion euros are laundered annually and go undetected. We propose The GANfather, a method to generate samples with properties of malicious activity, without label requirements. We propose to reward the generation of malicious samples by introducing an extra objective to the typical Generative Adversarial Networks (GANs) loss. Ultimately, our goal is to enhance the detection of illicit activity using the discriminator network as a novel and robust defence system. Optionally, we may encourage the generator to bypass pre-existing detection systems. This setup then reveals defensive weaknesses for the discriminator to correct. We evaluate our method in two real-world use cases, money laundering and recommendation systems. In the former, our method moves cumulative amounts close to 350 thousand dollars through a network of accounts without being detected by an existing system. In the latter, we recommend the target item to a broad user base with as few as 30 synthetic attackers. In both cases, we train a new defence system to capture the synthetic attacks.
翻訳日:2023-07-27 14:25:40 公開日:2023-07-25
# GPTは感情の計算モデルか? 詳細な分析

Is GPT a Computational Model of Emotion? Detailed Analysis ( http://arxiv.org/abs/2307.13779v1 )

ライセンス: Link先を確認
Ala N. Tak and Jonathan Gratch(参考訳) 本稿では,大規模言語モデルにおけるGPTファミリーの感情的推論能力について,コンポーネントの観点から検討する。 本稿ではまず,自伝的記憶のモデル要因について考察する。 第二に、感情の強さと対処傾向に影響を与える状況の側面を体系的に変化させる。 プロンプトエンジニアリングを使わなくても、gptの予測は、人間の評価や感情的ラベルと著しく一致することが示されている。 しかし、GPTは感情の強さと対処反応を予測するのが困難である。 gpt-4は初期の研究で最高の性能を示したが、小さなプロンプトエンジニアリングの結果は優れていたものの、第2段階では不足していた。 この評価は、強点を効果的に活用し、これらのモデルの弱い領域、特に応答変動性に対処する方法について疑問を投げかける。 これらの研究は、構成的観点からモデルを評価するメリットを強調している。

This paper investigates the emotional reasoning abilities of the GPT family of large language models via a component perspective. The paper first examines how the model reasons about autobiographical memories. Second, it systematically varies aspects of situations to impact emotion intensity and coping tendencies. Even without the use of prompt engineering, it is shown that GPT's predictions align significantly with human-provided appraisals and emotional labels. However, GPT faces difficulties predicting emotion intensity and coping responses. GPT-4 showed the highest performance in the initial study but fell short in the second, despite providing superior results after minor prompt engineering. This assessment brings up questions on how to effectively employ the strong points and address the weak areas of these models, particularly concerning response variability. These studies underscore the merits of evaluating models from a componential perspective.
翻訳日:2023-07-27 14:25:22 公開日:2023-07-25
# PyTorch内部のバグに関する実証的研究

An Empirical Study on Bugs Inside PyTorch: A Replication Study ( http://arxiv.org/abs/2307.13777v1 )

ライセンス: Link先を確認
Vahid Majdinasab and Sharon Chee Yin Ho and Mohayeminul Islam and Diego Elias Costa and Emad Shihab and Foutse Khomh and Sarah Nadi and Muhammad Raza(参考訳) ソフトウェアシステムは、複雑なデータパターンを識別し、インテリジェントな振る舞いをパワーアップする際、ますますディープラーニングコンポーネントに依存している。 ソフトウェア開発におけるこの変更の主要な実現要因は、簡単に使えるディープラーニングライブラリの提供である。 PyTorchやTensorFlowといったライブラリは、さまざまなインテリジェントシステムに権限を与え、さまざまなアルゴリズムと設定オプションを提供し、多数のシステムのドメインに適用できる。 しかし、これらの人気のあるディープラーニングライブラリのバグは、それらを可能にするシステムの品質に希少な結果をもたらす可能性があるため、それらのライブラリでどのようにバグが特定され、修正されるかを理解することが重要である。 TensorFlowのバグ識別と修正プロセスを調査するJiaらの研究に触発されて、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けました。 PyTorchの開発中に発見されたバグの原因と症状を調査し,プロジェクトの局所性を評価し,バグ修正のパターンを抽出する。 結果は、pytorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに似ていることを強調する。 最後に、私たちの結果とTensorFlowの研究を比較し、バグ識別と修正プロセスの類似点と相違点を強調します。

Software systems are increasingly relying on deep learning components, due to their remarkable capability of identifying complex data patterns and powering intelligent behaviour. A core enabler of this change in software development is the availability of easy-to-use deep learning libraries. Libraries like PyTorch and TensorFlow empower a large variety of intelligent systems, offering a multitude of algorithms and configuration options, applicable to numerous domains of systems. However, bugs in those popular deep learning libraries also may have dire consequences for the quality of systems they enable; thus, it is important to understand how bugs are identified and fixed in those libraries. Inspired by a study of Jia et al., which investigates the bug identification and fixing process at TensorFlow, we characterize bugs in the PyTorch library, a very popular deep learning framework. We investigate the causes and symptoms of bugs identified during PyTorch's development, and assess their locality within the project, and extract patterns of bug fixes. Our results highlight that PyTorch bugs are more like traditional software projects bugs, than related to deep learning characteristics. Finally, we also compare our results with the study on TensorFlow, highlighting similarities and differences across the bug identification and fixing process.
翻訳日:2023-07-27 14:25:10 公開日:2023-07-25
# 余分な文脈表現による言語間WSDの多言語性曲線の圧縮

Combating the Curse of Multilinguality in Cross-Lingual WSD by Aligning Sparse Contextualized Word Representations ( http://arxiv.org/abs/2307.13776v1 )

ライセンス: Link先を確認
G\'abor Berend(参考訳) 本稿では,言語横断的なゼロショット・ワードセンス曖昧化(WSD)と文脈対応型マッピング機構を併用した,大規模単言語モデルの実現を提唱する。 また,辞書学習手順で得られた文脈化単語表現のスパース化の有効性を示す厳密な実験を報告する。 実験の結果,17種類の多種多様な対象言語の集合に対して,f-scoreの平均値が62.0から68.5に約6.5ポイント向上することがわかった。 実験を複製するためのソースコードをhttps://github.com/begab/sparsity_makes_senseでリリースします。

In this paper, we advocate for using large pre-trained monolingual language models in cross lingual zero-shot word sense disambiguation (WSD) coupled with a contextualized mapping mechanism. We also report rigorous experiments that illustrate the effectiveness of employing sparse contextualized word representations obtained via a dictionary learning procedure. Our experimental results demonstrate that the above modifications yield a significant improvement of nearly 6.5 points of increase in the average F-score (from 62.0 to 68.5) over a collection of 17 typologically diverse set of target languages. We release our source code for replicating our experiments at https://github.com/begab/sparsity_makes_sense.
翻訳日:2023-07-27 14:24:51 公開日:2023-07-25
# WebArena: 自律エージェント構築のための現実的なWeb環境

WebArena: A Realistic Web Environment for Building Autonomous Agents ( http://arxiv.org/abs/2307.13854v1 )

ライセンス: Link先を確認
Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig(参考訳) 生成AIの進歩により、自律エージェントが自然言語コマンドを介して日々のタスクを管理するエキサイティングな可能性が高まっている。 しかし、カーレンタルエージェントは主に単純な合成環境で作成・テストされ、現実のシナリオ表現を実質的に制限している。 本稿では,エージェントコマンドと制御のための環境を構築し,その環境を高度に現実的かつ再現可能とした。 具体的には,Webサイト上でのタスクを実行するエージェントに着目し,eコマース,ソーシャルフォーラム議論,共同ソフトウェア開発,コンテンツ管理という4つの共通ドメインから,完全に機能するWebサイトを備えた環境を構築する。 私たちの環境は、人間のようなタスク解決を促進するツール(地図など)と外部知識ベース(ユーザマニュアルなど)で豊かになっています。 私たちの環境に基づいて、タスク完了の機能的正確性を評価することに焦点を当てた一連のベンチマークタスクをリリースします。 私たちのベンチマークのタスクは多様で、長い水平で、人間が日常的にインターネット上で実行するタスクをエミュレートするように設計されています。 我々はいくつかの自律エージェントを設計し実装し、行動前に推論のような最近の技術を統合する。 GPT-4をベースとしたエージェントは、エンドツーエンドのタスク成功率10.59%しか達成できません。 これらの結果から,より堅牢なエージェントの開発の必要性,最先端のLMがこれらの実生活タスクにおける完璧なパフォーマンスには程遠いこと,WebArenaがそのような進歩を測定するために使用できること,などが浮かび上がっている。 私たちのコード、データ、環境再生リソース、ビデオデモはhttps://webarena.dev/.com/で公開されています。

With generative AI advances, the exciting potential for autonomous agents to manage daily tasks via natural language commands has emerged. However, cur rent agents are primarily created and tested in simplified synthetic environments, substantially limiting real-world scenario representation. In this paper, we build an environment for agent command and control that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on websites, and we create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and are designed to emulate tasks that humans routinely perform on the internet. We design and implement several autonomous agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 10.59%. These results highlight the need for further development of robust agents, that current state-of-the-art LMs are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress. Our code, data, environment reproduction resources, and video demonstrations are publicly available at https://webarena.dev/.
翻訳日:2023-07-27 14:17:34 公開日:2023-07-25
# SplitFedのパケットロスに対するレジリエンス:どこで分割するか、それが問題だ

SplitFed resilience to packet loss: Where to split, that is the question ( http://arxiv.org/abs/2307.13851v1 )

ライセンス: Link先を確認
Chamani Shiranthika, Zahra Hafezi Kafshgari, Parvaneh Saeedi, Ivan V. Baji\'c(参考訳) 分散機械学習は、最近、フェデレートラーニング(FL)、スプリットラーニング(SL)、そしてそれらのハイブリッドであるSplit Federated Learning(SplitFed、SFL)の発明により、その範囲を広げた。 SFLの目標は、FL内の各クライアントに必要な計算パワーを削減し、プライバシーを維持しながらSLを並列化することである。 本稿では,SFLの通信リンクにおけるパケット損失に対する堅牢性について検討する。 各種SFLアグリゲーション戦略の性能は, モデルが浅分割と深分割の2点で分割し, 分割点が最終モデルの精度に統計的に有意な差を与えるかどうかを調べることによって検証する。 ヒト胚画像のセグメンテーションモデルを用いて実験を行い、より深い分割点の統計的に有意な利点を示す。

Decentralized machine learning has broadened its scope recently with the invention of Federated Learning (FL), Split Learning (SL), and their hybrids like Split Federated Learning (SplitFed or SFL). The goal of SFL is to reduce the computational power required by each client in FL and parallelize SL while maintaining privacy. This paper investigates the robustness of SFL against packet loss on communication links. The performance of various SFL aggregation strategies is examined by splitting the model at two points -- shallow split and deep split -- and testing whether the split point makes a statistically significant difference to the accuracy of the final model. Experiments are carried out on a segmentation model for human embryo images and indicate the statistically significant advantage of a deeper split point.
翻訳日:2023-07-27 14:17:07 公開日:2023-07-25
# MAEA: Embodied AIのマルチモーダル属性

MAEA: Multimodal Attribution for Embodied AI ( http://arxiv.org/abs/2307.13850v1 )

ライセンス: Link先を確認
Vidhi Jain, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Yonatan Bisk(参考訳) 具体化されたaiに対するマルチモーダルな知覚を理解することは、そのような入力はタスクの冗長な情報だけでなく、非常に補完的な情報を含む可能性があるため、オープンな疑問である。 マルチモーダル政策の関連する方向は、融合層における各モダリティのグローバルな傾向を理解することである。 この目的のために、ALFREDデータセットでトレーニングされたさまざまなポリシーにまたがって、視覚、言語、過去のアクションインプットに対する属性を分離する。 属性分析は、障害シナリオのランク付けとグループ化、モデリングとデータセットバイアスの調査、デプロイメント前の堅牢性とユーザ信頼のためのマルチモーダルEAIポリシの批判的分析に利用することができる。 差別化可能な政策のモダリティごとのグローバル属性を計算するためのフレームワークであるMAEAを提案する。 また,言語および視覚的属性に対するEAIポリシにおいて,属性が低レベルな行動分析を可能にすることを示す。

Understanding multimodal perception for embodied AI is an open question because such inputs may contain highly complementary as well as redundant information for the task. A relevant direction for multimodal policies is understanding the global trends of each modality at the fusion layer. To this end, we disentangle the attributions for visual, language, and previous action inputs across different policies trained on the ALFRED dataset. Attribution analysis can be utilized to rank and group the failure scenarios, investigate modeling and dataset biases, and critically analyze multimodal EAI policies for robustness and user trust before deployment. We present MAEA, a framework to compute global attributions per modality of any differentiable policy. In addition, we show how attributions enable lower-level behavior analysis in EAI policies for language and visual attributions.
翻訳日:2023-07-27 14:16:49 公開日:2023-07-25
# CosSIF: 合成医用画像データセットのクラス間変動を克服するコサイン類似画像フィルタリング

CosSIF: Cosine similarity-based image filtering to overcome low inter-class variation in synthetic medical image datasets ( http://arxiv.org/abs/2307.13842v1 )

ライセンス: Link先を確認
Mominul Islam, Hasib Zunair, Nabeel Mohammed(参考訳) 医用画像分析のための効果的なディープラーニングモデルの作成は複雑な作業であり、特に医用画像データセットがクラス間の大きな変動を欠く場合である。 この課題は、GAN(Generative Adversarial Network)を用いて合成画像を生成するためにそのようなデータセットを使用する場合、GANの出力が入力データに大きく依存するため、さらに増大する。 本研究では,Cosine similarity-based Image Filtering (CosSIF) と呼ばれる新しいフィルタリングアルゴリズムを提案する。 我々はCosSIFを利用して、FBGT前フィルタリング(FBGT)とFAGT後フィルタリング(FAGT)の2つの異なるフィルタリング手法を開発した。 FBGTは、GANのトレーニングデータセットとして利用する前に、他のクラスのイメージと類似性を示す実際のイメージを削除する。 一方、FAGTは、GANの訓練に使用する実画像と比較して、識別性の低い合成画像の除去に重点を置いている。 実験結果から,FAGT法とFBGT法を現代の変圧器と畳み込み型ネットワークで併用することにより,各種評価指標においてかなりの性能向上が得られた。 ISIC-2016データセット上のFAGTの実装は、感度が1.59 %、AUCが1.88 %のベースラインメソッドを超えている。 さらに、HAM10000データセットでは、FABTの適用は13.75\%のリコール率でベースラインアプローチよりも優れており、FAGTの唯一の実装により、94.44\%の最大精度が得られる。

Crafting effective deep learning models for medical image analysis is a complex task, particularly in cases where the medical image dataset lacks significant inter-class variation. This challenge is further aggravated when employing such datasets to generate synthetic images using generative adversarial networks (GANs), as the output of GANs heavily relies on the input data. In this research, we propose a novel filtering algorithm called Cosine Similarity-based Image Filtering (CosSIF). We leverage CosSIF to develop two distinct filtering methods: Filtering Before GAN Training (FBGT) and Filtering After GAN Training (FAGT). FBGT involves the removal of real images that exhibit similarities to images of other classes before utilizing them as the training dataset for a GAN. On the other hand, FAGT focuses on eliminating synthetic images with less discriminative features compared to real images used for training the GAN. Experimental results reveal that employing either the FAGT or FBGT method with modern transformer and convolutional-based networks leads to substantial performance gains in various evaluation metrics. FAGT implementation on the ISIC-2016 dataset surpasses the baseline method in terms of sensitivity by 1.59\% and AUC by 1.88\%. Furthermore, for the HAM10000 dataset, applying FABT outperforms the baseline approach in terms of recall by 13.75\%, and with the sole implementation of FAGT, achieves a maximum accuracy of 94.44\%.
翻訳日:2023-07-27 14:16:32 公開日:2023-07-25
# 確率的プログラムにおける整数演算のスケーリング

Scaling Integer Arithmetic in Probabilistic Programs ( http://arxiv.org/abs/2307.13837v1 )

ライセンス: Link先を確認
William X. Cao, Poorva Garg, Ryan Tjoa, Steven Holtzen, Todd Millstein, Guy Van den Broeck(参考訳) 整数上の分布は確率的モデリングにおいてユビキタスであるが、今日の確率的プログラミング言語(PPL)の多くでは依然として困難である。 今日のPL推論戦略の多くは、拡大するために列挙、サンプリング、微分に依存しており、これは整数を含む高次元の複素離散分布では失敗する。 我々の洞察では、これらのアプローチが使用していない構造がある。 本稿では,集計や比較といった整数演算の豊富な論理構造を利用する離散分布のバイナリ符号化戦略を提案する。 我々は、この構造化符号化を知識コンパイルで活用し、正確な確率的推論を行い、この手法が演算によるより大きい整数分布に拡大することを示す。

Distributions on integers are ubiquitous in probabilistic modeling but remain challenging for many of today's probabilistic programming languages (PPLs). The core challenge comes from discrete structure: many of today's PPL inference strategies rely on enumeration, sampling, or differentiation in order to scale, which fail for high-dimensional complex discrete distributions involving integers. Our insight is that there is structure in arithmetic that these approaches are not using. We present a binary encoding strategy for discrete distributions that exploits the rich logical structure of integer operations like summation and comparison. We leverage this structured encoding with knowledge compilation to perform exact probabilistic inference, and show that this approach scales to much larger integer distributions with arithmetic.
翻訳日:2023-07-27 14:16:05 公開日:2023-07-25
# アルミジョ線探索による確率勾配降下の非凸最適化に必要なバッチサイズとステップ数の関係

Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search ( http://arxiv.org/abs/2307.13831v1 )

ライセンス: Link先を確認
Yuki Tsukada, Hideaki Iiduka(参考訳) 確率勾配降下(SGD)は、ディープニューラルネットワークをトレーニングする最も単純なディープラーニングオプティマイザである。 SGDは、定数や減少率などの様々な学習率を使用することができるが、以前の数値結果は、ラインサーチ法で与えられた学習率を使用する場合、他のディープラーニングオプティマイザよりも優れた性能を示した。 本稿では,非凸最適化のためのArmijoライン探索によって与えられる学習率を用いて,SGDの収束解析を行う。 解析の結果,ステップ数とバッチサイズが大きいと,全勾配の2乗ノルムの期待値の上限が小さくなることがわかった。 次に、Armijo-line-search 学習率を持つSGDの場合、非凸最適化に必要なステップの数は、バッチサイズの単調減少凸関数であり、非凸最適化に必要なステップの数は、バッチサイズが大きくなるにつれて減少することを示す。 さらに、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性は、バッチサイズの凸関数であり、すなわち、SFOの複雑性を最小限に抑える重要なバッチサイズが存在することを示す。 最後に、理論的結果を支持する数値結果を提供する。 計算結果から,ディープニューラルネットワークの訓練に必要なステップ数は,バッチサイズの増加に伴って減少し,理論結果から推定可能なクリティカルバッチサイズが存在することが示された。

Stochastic gradient descent (SGD) is the simplest deep learning optimizer with which to train deep neural networks. While SGD can use various learning rates, such as constant or diminishing rates, the previous numerical results showed that SGD performs better than other deep learning optimizers using when it uses learning rates given by line search methods. In this paper, we perform a convergence analysis on SGD with a learning rate given by an Armijo line search for nonconvex optimization. The analysis indicates that the upper bound of the expectation of the squared norm of the full gradient becomes small when the number of steps and the batch size are large. Next, we show that, for SGD with the Armijo-line-search learning rate, the number of steps needed for nonconvex optimization is a monotone decreasing convex function of the batch size; that is, the number of steps needed for nonconvex optimization decreases as the batch size increases. Furthermore, we show that the stochastic first-order oracle (SFO) complexity, which is the stochastic gradient computation cost, is a convex function of the batch size; that is, there exists a critical batch size that minimizes the SFO complexity. Finally, we provide numerical results that support our theoretical results. The numerical results indicate that the number of steps needed for training deep neural networks decreases as the batch size increases and that there exist the critical batch sizes that can be estimated from the theoretical results.
翻訳日:2023-07-27 14:15:54 公開日:2023-07-25
# マルチモーダルヘイト音声イベント検出2023におけるARC-NLP: 学習, 構文, 実体特徴によるマルチモーダル手法

ARC-NLP at Multimodal Hate Speech Event Detection 2023: Multimodal Methods Boosted by Ensemble Learning, Syntactical and Entity Features ( http://arxiv.org/abs/2307.13829v1 )

ライセンス: Link先を確認
Umitcan Sahin, Izzet Emre Kucukkaya, Oguzhan Ozcelik, Cagri Toraman(参考訳) テキスト埋め込み画像はヘイトスピーチ、プロパガンダ、過激主義的信念を広める手段として機能する。 ロシア・ウクライナ戦争中、両派はプロパガンダやヘイトスピーチを広める手段としてテキスト埋め込み画像に大きく依存していた。 ヘイトスピーチとプロパガンダを効果的に検出することは、ヘイトスピーチの普及のネガティブな影響を軽減するために最も重要である。 本稿では,マルチモーダルヘイト音声イベント検出2023の2つのサブタスクについて概説する。 最初のサブタスクであるヘイトスピーチ検出では、アンサンブル学習と構文テキスト属性によって強化されたマルチモーダルディープラーニングモデルを利用する。 第2のサブタスクであるターゲット検出では、名前付きエンティティ機能によって強化されたマルチモーダルディープラーニングモデルを採用する。 実験により,マルチモーダルヘイトスピーチ検出に使用されるすべてのテキストベースライン,視覚ベースライン,テキスト・ビジュアルベースラインと比較して,モデルの優れた性能を示す。 さらに、我々のモデルは、共有タスクの最終リーダーボードにおいて、両方のサブタスクで第一位を獲得します。

Text-embedded images can serve as a means of spreading hate speech, propaganda, and extremist beliefs. Throughout the Russia-Ukraine war, both opposing factions heavily relied on text-embedded images as a vehicle for spreading propaganda and hate speech. Ensuring the effective detection of hate speech and propaganda is of utmost importance to mitigate the negative effect of hate speech dissemination. In this paper, we outline our methodologies for two subtasks of Multimodal Hate Speech Event Detection 2023. For the first subtask, hate speech detection, we utilize multimodal deep learning models boosted by ensemble learning and syntactical text attributes. For the second subtask, target detection, we employ multimodal deep learning models boosted by named entity features. Through experimentation, we demonstrate the superior performance of our models compared to all textual, visual, and text-visual baselines employed in multimodal hate speech detection. Furthermore, our models achieve the first place in both subtasks on the final leaderboard of the shared task.
翻訳日:2023-07-27 14:15:30 公開日:2023-07-25
# オンポリシーq関数正規化によるオフライン強化学習

Offline Reinforcement Learning with On-Policy Q-Function Regularization ( http://arxiv.org/abs/2307.13824v1 )

ライセンス: Link先を確認
Laixi Shi, Robert Dadashi, Yuejie Chi, Pablo Samuel Castro, Matthieu Geist(参考訳) オフライン強化学習(RL)の中核的な課題は、履歴データセットと所望のポリシーの間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差を扱うことである。 事前の作業の大部分は、実際に確実に見積もることの難しい行動方針に対して、学習方針を暗黙的かつ明示的に規則化することで、この課題に対処する。 本研究では,行動方針自体ではなく行動方針のQ関数を規則化し,SARSA型推定によりQ関数をより確実かつ容易に推定でき,外挿誤差をより容易に処理することができることを前提として提案する。 正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。

The core challenge of offline reinforcement learning (RL) is dealing with the (potentially catastrophic) extrapolation error induced by the distribution shift between the history dataset and the desired policy. A large portion of prior work tackles this challenge by implicitly/explicitly regularizing the learning policy towards the behavior policy, which is hard to estimate reliably in practice. In this work, we propose to regularize towards the Q-function of the behavior policy instead of the behavior policy itself, under the premise that the Q-function can be estimated more reliably and easily by a SARSA-style estimate and handles the extrapolation error more straightforwardly. We propose two algorithms taking advantage of the estimated Q-function through regularizations, and demonstrate they exhibit strong performance on the D4RL benchmarks.
翻訳日:2023-07-27 14:15:14 公開日:2023-07-25
# 多分解能ニューラルネットワークによる聴覚フィルタバンクの適合

Fitting Auditory Filterbanks with Multiresolution Neural Networks ( http://arxiv.org/abs/2307.13821v1 )

ライセンス: Link先を確認
Vincent Lostanlen, Daniel Haider, Han Han, Mathieu Lagrange, Peter Balazs, Martin Ehler(参考訳) 波形ベースのディープラーニングは、非パラメトリックアプローチとパラメトリックアプローチのジレンマに直面します。 一方、畳み込みニューラルネットワーク(畳み込みニューラルネットワーク)は任意の線形時間不変系を近似することができるが、実際には、受容場が成長するにつれて周波数応答がより不規則になる。 一方、LEAFのようなパラメトリックモデルではガボルフィルタが得られることが保証され、したがって時間周波数の局所化が最適となるが、この強い帰納バイアスは表現能力の低下に起因している。 本稿では,このジレンマを克服するために,マルチレゾリューションニューラルネットワーク(murenn)と呼ばれるニューラルオーディオモデルを導入する。 MuReNNの鍵となるアイデアは、離散ウェーブレット変換(DWT)のオクターブサブバンド上で、分離した畳み込み演算子を訓練することである。 DWT原子のスケールはオクターブ間で指数関数的に増大するので、その後の MuReNN における学習可能な畳み込みの受容場が拡張される。 実世界のデータセットでは、よく確立された聴覚フィルタバンク(音声用ガンマトイン、音楽用CQT、都市音用3オクターブ)にMuReNNの大きさの応答を合わせる。 これは知識蒸留(KD)の一種であり、フィルターバンクの'教師'はドメイン知識によって設計され、ニューラルネットワークの'学生'はデータから最適化される。 我々はMuReNNをホールドアウトセットにおけるKD後の適合の良さとハイゼンベルク時間周波数の局所化の観点から比較した。 コンブネットやGaborの畳み込みと比較して、MuReNNは3つの最適化問題すべてにおいて最先端の性能に達する。

Waveform-based deep learning faces a dilemma between nonparametric and parametric approaches. On one hand, convolutional neural networks (convnets) may approximate any linear time-invariant system; yet, in practice, their frequency responses become more irregular as their receptive fields grow. On the other hand, a parametric model such as LEAF is guaranteed to yield Gabor filters, hence an optimal time-frequency localization; yet, this strong inductive bias comes at the detriment of representational capacity. In this paper, we aim to overcome this dilemma by introducing a neural audio model, named multiresolution neural network (MuReNN). The key idea behind MuReNN is to train separate convolutional operators over the octave subbands of a discrete wavelet transform (DWT). Since the scale of DWT atoms grows exponentially between octaves, the receptive fields of the subsequent learnable convolutions in MuReNN are dilated accordingly. For a given real-world dataset, we fit the magnitude response of MuReNN to that of a well-established auditory filterbank: Gammatone for speech, CQT for music, and third-octave for urban sounds, respectively. This is a form of knowledge distillation (KD), in which the filterbank ''teacher'' is engineered by domain knowledge while the neural network ''student'' is optimized from data. We compare MuReNN to the state of the art in terms of goodness of fit after KD on a hold-out set and in terms of Heisenberg time-frequency localization. Compared to convnets and Gabor convolutions, we find that MuReNN reaches state-of-the-art performance on all three optimization problems.
翻訳日:2023-07-27 14:15:01 公開日:2023-07-25
# ランダムドット積グラフの勾配に基づくスペクトル埋め込み

Gradient-Based Spectral Embeddings of Random Dot Product Graphs ( http://arxiv.org/abs/2307.13818v1 )

ライセンス: Link先を確認
Marcelo Fiori, Bernardo Marenco, Federico Larroca, Paola Bermolen, Gonzalo Mateos(参考訳) Random Dot Product Graph (RDPG) は関係データの生成モデルであり、ノードは低次元ユークリッド空間の潜在ベクトルを介して表現される。 RDPGは、エッジ形成確率が対応する潜伏位置のドット積によって与えられることを決定的に仮定する。 したがって、これらのベクトルを観測グラフから推定する埋め込みタスクは、一般に低ランク行列分解問題として表される。 ワークホースの隣接スペクトル埋め込み(ASE)は、固体統計的性質を享受するが、公式には代理問題を解き、計算に重きを置くことができる。 本稿では,非凸最適化の最近の進歩に対処し,RDPG推論への影響を実証する。 本稿では, 組込み問題をよりよく解くための一階勾配降下法を提案し, 実用的妥当性の広いネットワーク埋込み応用を有機的に適応する。 特に、係数行列が直交列を持つことに制約されない限り、有向グラフのRDPG埋め込みはゆるやかに解釈可能であると論じる。 そこで我々は, 結果の多様体において, 実現可能な新しい最適化手法を開発した。 グラフ表現学習フレームワークの有効性を,合成データと実ネットワークデータの両方を用いて再現可能な実験で実証した。 私たちのオープンソースアルゴリズムの実装はスケーラブルで、ASEとは異なりエッジデータに欠ける堅牢で、ストリーミンググラフからゆっくりと変化する潜在位置を追跡することができます。

The Random Dot Product Graph (RDPG) is a generative model for relational data, where nodes are represented via latent vectors in low-dimensional Euclidean space. RDPGs crucially postulate that edge formation probabilities are given by the dot product of the corresponding latent positions. Accordingly, the embedding task of estimating these vectors from an observed graph is typically posed as a low-rank matrix factorization problem. The workhorse Adjacency Spectral Embedding (ASE) enjoys solid statistical properties, but it is formally solving a surrogate problem and can be computationally intensive. In this paper, we bring to bear recent advances in non-convex optimization and demonstrate their impact to RDPG inference. We advocate first-order gradient descent methods to better solve the embedding problem, and to organically accommodate broader network embedding applications of practical relevance. Notably, we argue that RDPG embeddings of directed graphs loose interpretability unless the factor matrices are constrained to have orthogonal columns. We thus develop a novel feasible optimization method in the resulting manifold. The effectiveness of the graph representation learning framework is demonstrated on reproducible experiments with both synthetic and real network data. Our open-source algorithm implementations are scalable, and unlike the ASE they are robust to missing edge data and can track slowly-varying latent positions from streaming graphs.
翻訳日:2023-07-27 14:14:28 公開日:2023-07-25
# 網膜 OCT を用いた高効率予測モデルのための事前訓練深部2.5Dモデル

Pretrained Deep 2.5D Models for Efficient Predictive Modeling from Retinal OCT ( http://arxiv.org/abs/2307.13865v1 )

ライセンス: Link先を確認
Taha Emre, Marzieh Oghbaie, Arunava Chakravarty, Antoine Rivail, Sophie Riedl, Julia Mai, Hendrik P.N. Scholl, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, and Hrvoje Bogunovi\'c(参考訳) 医用画像の分野では、3次元深層学習モデルが病気進行の強力な予測モデルを構築する上で重要な役割を果たしている。 しかし、これらのモデルのサイズは計算資源とデータ要求の両方の観点から大きな課題を呈している。 さらに、3Dモデルの高品質な事前訓練を実現することは、さらに困難であることが証明されている。 これらの問題に対処するために、ハイブリッド2.5Dアプローチは、2Dモデルを用いて3次元ボリュームデータを効率的に利用するための効果的なソリューションを提供する。 2D技術と3D技術を組み合わせることで、メモリ要件を最小化しながらパフォーマンスを最適化できる。 本稿では,畳み込みニューラルネットワーク(cnns),long short-term memory(lstm),transformersを組み合わせた2.5dアーキテクチャについて検討する。 さらに,最近の2Dにおける非競合事前学習手法の利点を活用し,2.5D技術の性能とデータ効率をさらに向上させた。 湿潤加齢関連黄斑変性(AMD)の進行を6ヶ月以内に予測する作業において,アーキテクチャの有効性と関連する事前訓練を2つの大長手OCTデータセットで示す。

In the field of medical imaging, 3D deep learning models play a crucial role in building powerful predictive models of disease progression. However, the size of these models presents significant challenges, both in terms of computational resources and data requirements. Moreover, achieving high-quality pretraining of 3D models proves to be even more challenging. To address these issues, hybrid 2.5D approaches provide an effective solution for utilizing 3D volumetric data efficiently using 2D models. Combining 2D and 3D techniques offers a promising avenue for optimizing performance while minimizing memory requirements. In this paper, we explore 2.5D architectures based on a combination of convolutional neural networks (CNNs), long short-term memory (LSTM), and Transformers. In addition, leveraging the benefits of recent non-contrastive pretraining approaches in 2D, we enhanced the performance and data efficiency of 2.5D techniques even further. We demonstrate the effectiveness of architectures and associated pretraining on a task of predicting progression to wet age-related macular degeneration (AMD) within a six-month period on two large longitudinal OCT datasets.
翻訳日:2023-07-27 14:06:46 公開日:2023-07-25
# 閾値仕様を満たすためのアナログ回路設計の学習

Learning to Design Analog Circuits to Meet Threshold Specifications ( http://arxiv.org/abs/2307.13861v1 )

ライセンス: Link先を確認
Dmitrii Krylov, Pooya Khajeh, Junhan Ouyang, Thomas Reeves, Tongkai Liu, Hiba Ajmal, Hamidreza Aghasi, Roy Fox(参考訳) 近年,手動設計の代替として,シミュレーションデータからの教師付きあるいは強化学習を用いたアナログ回路と無線回路の自動設計が研究されている。 設計エージェントが所望のパフォーマンス指標から回路パラメータへの逆関数を学習するのは簡単である。 しかし、実行可能性能測定の正確な目標ベクトルよりも、ユーザがしきい値のパフォーマンス基準を持つことが一般的である。 本研究では,教師付き学習によりシステムが訓練可能なデータセットをシミュレーションデータから生成し,しきい値仕様を満たした回路を設計する手法を提案する。 さらに,従来よりもはるかに多種多様な回路を試作し,線形回路,非線形回路,自律回路の構成を網羅し,提案手法の精度を5%誤差マージンで90%以上向上させるとともに,データ効率を桁違いに向上させるなど,従来のアナログ回路設計の最も広範な評価を行う。 このシステムのデモは circuits.streamlit.app で公開されている。

Automated design of analog and radio-frequency circuits using supervised or reinforcement learning from simulation data has recently been studied as an alternative to manual expert design. It is straightforward for a design agent to learn an inverse function from desired performance metrics to circuit parameters. However, it is more common for a user to have threshold performance criteria rather than an exact target vector of feasible performance measures. In this work, we propose a method for generating from simulation data a dataset on which a system can be trained via supervised learning to design circuits to meet threshold specifications. We moreover perform the to-date most extensive evaluation of automated analog circuit design, including experimenting in a significantly more diverse set of circuits than in prior work, covering linear, nonlinear, and autonomous circuit configurations, and show that our method consistently reaches success rate better than 90% at 5% error margin, while also improving data efficiency by upward of an order of magnitude. A demo of this system is available at circuits.streamlit.app
翻訳日:2023-07-27 14:06:30 公開日:2023-07-25
# 画像復元のためのトランスフォーマーの不合理な脆弱性と簡単な修正について

On the unreasonable vulnerability of transformers for image restoration -- and an easy fix ( http://arxiv.org/abs/2307.13856v1 )

ライセンス: Link先を確認
Shashank Agnihotri, Kanchana Vaishnavi Gandikota, Julia Grabinski, Paramanand Chandramouli, Margret Keuper(参考訳) 視覚認識タスクの成功に続いて、視覚変換器(ViT)は画像復元にますます利用されている。 画像分類のためのViTsは、より優れたロバスト性を持つと主張する最近の研究で、改良されたViTsの対角ロバスト性が画像復元に有効かどうかを考察する。 我々は最近提案されたRestormerモデルとNAFNetとRestormerの簡易版である"Baseline network"を検討する。 我々は,最近提案された,ピクセル単位の予測タスクに適した逆攻撃であるprojected gradient descent (pgd) と cospgd を用いてロバスト性評価を行った。 実験は,goproデータセットの実際の画像を用いて画像デブラリングを行う。 画像分類作業におけるViTsの主張とは裏腹に,これらのモデルは非常に敵対的な攻撃を受けやすいことを示す。 私たちは敵の訓練を通じて彼らの堅牢性を向上しようと試みる。 これはRestormerのロバスト性を大幅に向上させるが、他のネットワークでの結果は期待できない。 興味深いことに、nafnetとベースラインの設計上の選択は、ロバストな一般化ではなく、iidパフォーマンスに基づいており、モデルのロバスト性とは相反しているようだ。 そこで、この問題をさらに調査し、修正を見いだす。

Following their success in visual recognition tasks, Vision Transformers(ViTs) are being increasingly employed for image restoration. As a few recent works claim that ViTs for image classification also have better robustness properties, we investigate whether the improved adversarial robustness of ViTs extends to image restoration. We consider the recently proposed Restormer model, as well as NAFNet and the "Baseline network" which are both simplified versions of a Restormer. We use Projected Gradient Descent (PGD) and CosPGD, a recently proposed adversarial attack tailored to pixel-wise prediction tasks for our robustness evaluation. Our experiments are performed on real-world images from the GoPro dataset for image deblurring. Our analysis indicates that contrary to as advocated by ViTs in image classification works, these models are highly susceptible to adversarial attacks. We attempt to improve their robustness through adversarial training. While this yields a significant increase in robustness for Restormer, results on other networks are less promising. Interestingly, the design choices in NAFNet and Baselines, which were based on iid performance, and not on robust generalization, seem to be at odds with the model robustness. Thus, we investigate this further and find a fix.
翻訳日:2023-07-27 14:06:12 公開日:2023-07-25
# シャープ化コサイン類似性を探る

Exploring the Sharpened Cosine Similarity ( http://arxiv.org/abs/2307.13855v1 )

ライセンス: Link先を確認
Skyler Wu, Fred Lu, Edward Raff, James Holt(参考訳) 畳み込み層は長い間、画像分類の主要な作業馬として機能してきた。 近年、より優れた特徴検出器として機能するシャープニング・コサイン類似性(SCS)を用いて畳み込みの代替案が提案されている。 複数の情報源が有望な結果を報告しているが、これら新しいレイヤを使用してニューラルネットワークのパフォーマンスをフルスケールで実証分析することはない。 本研究では,CIFAR-10 上でベンチマークした複数の CNN アーキテクチャにおける畳み込みの代替として SCS のパラメータ挙動と可能性について検討する。 SCSは精度が大幅に向上しないかもしれないが、より解釈可能な表現を学ぶことができる。 また, 状況によっては, SCS は敵の強靭性をわずかに増加させる可能性がある。

Convolutional layers have long served as the primary workhorse for image classification. Recently, an alternative to convolution was proposed using the Sharpened Cosine Similarity (SCS), which in theory may serve as a better feature detector. While multiple sources report promising results, there has not been to date a full-scale empirical analysis of neural network performance using these new layers. In our work, we explore SCS's parameter behavior and potential as a drop-in replacement for convolutions in multiple CNN architectures benchmarked on CIFAR-10. We find that while SCS may not yield significant increases in accuracy, it may learn more interpretable representations. We also find that, in some circumstances, SCS may confer a slight increase in adversarial robustness.
翻訳日:2023-07-27 14:05:38 公開日:2023-07-25
# ゆるやかな凸関数上のアクティブなスリットサッフルの確率的下行性退化

Stochastic Subgradient Descent Escapes Active Strict Saddles on Weakly Convex Functions ( http://arxiv.org/abs/2108.02072v4 )

ライセンス: Link先を確認
Pascal Bianchi, Walid Hachem and Sholom Schechtman(参考訳) 非スムース確率最適化では、davis と drusvyatskiy によって最近 active strict saddles と呼ばれる臨界点への確率的劣次降 (sgd) の非収束性を確立する。 そのような点は、函数 $f$ が二階負曲率の方向を持つ多様体 $M$ 上にある。 この多様体の外では、クラーク部分微分$f$のノルムは下界である。 $f$の条件が2つ必要です。 最初の仮定はverdier stratification conditionであり、これは人気のあるwhitney stratificationの改良である。 これにより Bolte \emph{et.al の射影公式の強化版を確立することができる。 ホイットニーの階層化関数で、独立した関心を持つ関数である。 2つ目の仮定は、角度条件と呼ばれ、反復体の距離を$M$に制御することができる。 f$ が弱凸であるとき、我々の仮定は一般的である。 したがって、定義可能な弱凸函数のクラスにおいて、SGDは局所最小化に収束する。

In non-smooth stochastic optimization, we establish the non-convergence of the stochastic subgradient descent (SGD) to the critical points recently called active strict saddles by Davis and Drusvyatskiy. Such points lie on a manifold $M$ where the function $f$ has a direction of second-order negative curvature. Off this manifold, the norm of the Clarke subdifferential of $f$ is lower-bounded. We require two conditions on $f$. The first assumption is a Verdier stratification condition, which is a refinement of the popular Whitney stratification. It allows us to establish a reinforced version of the projection formula of Bolte \emph{et.al.} for Whitney stratifiable functions, and which is of independent interest. The second assumption, termed the angle condition, allows to control the distance of the iterates to $M$. When $f$ is weakly convex, our assumptions are generic. Consequently, generically in the class of definable weakly convex functions, the SGD converges to a local minimizer.
翻訳日:2023-07-26 22:11:32 公開日:2023-07-25
# 拡張パウリ原理を探究するための実験的提案

Experimental proposal to probe the extended Pauli principle ( http://arxiv.org/abs/2107.05961v3 )

ライセンス: Link先を確認
Lucas Hackl, Dayang Li, Nika Akopian, Matthias Christandl(参考訳) すべての物質はフェルミオン(自然界の素粒子の1つ)で構成されている。 フェルミオンはパウリの排他原理に従い、2つ以上の同一のフェルミオンは同じ量子状態を占めることができない。 しかし、フェルミオン波動関数の反対称性は、自然占有数にさらなる制約を与える。 これらの制約はシステムの次元と純度に依存しており、これまで実験的に検討されていない。 本稿では,これらの制約が支配的になり,探索可能な状態に達するために必要な強絡フェルミオン状態を生成することのできる,複数の量子ドット系の実験を提案する。 要求されるマルチフェルミオンエンタングルメントの種類と強度は、このレジームの奥深くに到達するための障壁となる。 したがって、これらの障壁を超越することは、将来のフェルミオン量子情報処理の能力とフェルミオン状態に基づく量子コンピュータアーキテクチャの試験場となる。

All matter is made up of fermions -- one of the fundamental type of particles in nature. Fermions follow the Pauli exclusion principle, stating that two or more identical fermions cannot occupy the same quantum state. Antisymmetry of the fermionic wavefunction, however, implies additional constraints on the natural occupation numbers. These constraints depend on the dimensionality and purity of the system and have so far not been explored experimentally. Here, we propose an experiment in a system of multiple quantum dots capable of producing the highly entangled fermionic states necessary to reach the regime, where these additional constraints become dominant and can be probed. The type and strength of the required multi-fermion entanglement provides barriers to reaching deep into this regime. Transcending these barriers thus serves as a testing ground for the capabilities of future fermionic quantum information processing as well as quantum computer architectures based on fermionic states.
翻訳日:2023-07-26 22:11:17 公開日:2023-07-25
# 破損測定による低ランク行列回復問題に対するシャープ制限等尺特性境界

Sharp Restricted Isometry Property Bounds for Low-rank Matrix Recovery Problems with Corrupted Measurements ( http://arxiv.org/abs/2105.08232v4 )

ライセンス: Link先を確認
Ziye Ma, Yingjie Bi, Javad Lavaei, Somayeh Sojoudi(参考訳) 本稿では,雑音による線形測定による一般的な低ランク行列回復問題について検討する。 本研究の目的は,局所探索手法の制限等尺性(RIP)の条件が,誤差の少ない基底真理を見つけることができるかを理解することである。 非凸問題の景観を解析することにより、RIP定数が1/2$より小さいという仮定の下で、任意の局所最小化器と基底真理の間の最大距離に関する大域的保証を提案する。 ノイズの強度が減少するにつれて、この距離がゼロに縮まることを示す。 我々の新しい保証は、RIP定数の点で鋭く、既存の結果よりもはるかに強い。 次に、任意の RIP 定数を持つ問題に対する局所的な保証を示し、任意の局所最小化器は基底的真理にかなり近いか、それから遠く離れていることを示す。 次に,摂動勾配降下法の多項式時間での大域収束を保証する厳密な鞍の性質を証明する。 本研究は, 騒音強度とRIP定数が, 問題の景観に与える影響を実証するものである。

In this paper, we study a general low-rank matrix recovery problem with linear measurements corrupted by some noise. The objective is to understand under what conditions on the restricted isometry property (RIP) of the problem local search methods can find the ground truth with a small error. By analyzing the landscape of the non-convex problem, we first propose a global guarantee on the maximum distance between an arbitrary local minimizer and the ground truth under the assumption that the RIP constant is smaller than $1/2$. We show that this distance shrinks to zero as the intensity of the noise reduces. Our new guarantee is sharp in terms of the RIP constant and is much stronger than the existing results. We then present a local guarantee for problems with an arbitrary RIP constant, which states that any local minimizer is either considerably close to the ground truth or far away from it. Next, we prove the strict saddle property, which guarantees the global convergence of the perturbed gradient descent method in polynomial time. The developed results demonstrate how the noise intensity and the RIP constant of the problem affect the landscape of the problem.
翻訳日:2023-07-26 22:10:05 公開日:2023-07-25
# 非定常計算流体力学の加速のための有限体積法ネットワーク:非反応と反応流

Finite volume method network for acceleration of unsteady computational fluid dynamics: non-reacting and reacting flows ( http://arxiv.org/abs/2105.03332v2 )

ライセンス: Link先を確認
Joongoo Jeon, Juhyeong Lee, Sung Joong Kim(参考訳) 中央処理ユニット (CPU) の性能は急速に向上したが, CFD を用いた化学反応流のシミュレーションに要する計算コストは, 多くの場合不可能である。 流れ場予測における画像処理に特化した畳み込みニューラルネットワーク(CNN)の適用が研究されているが,近年,CFDに適合したニューラルネットウェアク設計の開発の必要性が高まっている。 本研究では,有限体積法(FVM)を独自のネットワークアーキテクチャと物理インフォームド損失関数で導入し,CFDシミュレーションを高速化するニューラルネットワークモデルを開発した。 同一の制御方程式が全ての格子に適用されるCFD流れ場の性質を考慮し,CNNとは異なり,従来の2つのフィールドのみを用いて将来のフィールドを予測することができる(>10,000)。 非反応流のCFD時系列データと反応流シミュレーション,20種の詳細な化学薬品を用いた対向流と水素火炎を用いて,本モデルの性能評価を行った。 その結果,(1)fvmベースのネットワークアーキテクチャは,従来のmlpモデルと比較して,多段階時系列予測の精度が向上し,(2)物理的な損失関数は非物理的な過剰フィッティングを防止し,(3)教師なしの方法で計算残差を観測することでネットワーク精度を間接的に推定できることを示した。 さらに,反応フローデータセットでは,このネットワークモデルの計算速度はCFDソルバの約10倍の速さで測定された。

Despite rapid improvements in the performance of central processing unit (CPU), the calculation cost of simulating chemically reacting flow using CFD remains infeasible in many cases. The application of the convolutional neural networks (CNNs) specialized in image processing in flow field prediction has been studied, but the need to develop a neural netweork design fitted for CFD is recently emerged. In this study, a neural network model introducing the finite volume method (FVM) with a unique network architecture and physics-informed loss function was developed to accelerate CFD simulations. The developed network model, considering the nature of the CFD flow field where the identical governing equations are applied to all grids, can predict the future fields with only two previous fields unlike the CNNs requiring many field images (>10,000). The performance of this baseline model was evaluated using CFD time series data from non-reacting flow and reacting flow simulation; counterflow and hydrogen flame with 20 detailed chemistries. Consequently, we demonstrated that (1) the FVM-based network architecture provided improved accuracy of multistep time series prediction compared to the previous MLP model (2) the physic-informed loss function prevented non-physical overfitting problem and ultimately reduced the error in time series prediction (3) observing the calculated residuals in an unsupervised manner could indirectly estimate the network accuracy. Additionally, under the reacting flow dataset, the computational speed of this network model was measured to be about 10 times faster than that of the CFD solver.
翻訳日:2023-07-26 22:09:46 公開日:2023-07-25
# マルコフ信号または隠れマルコフ信号を用いた線形モデルのレプリカ解析

Replica Analysis of the Linear Model with Markov or Hidden Markov Signal Priors ( http://arxiv.org/abs/2009.13370v5 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) 本稿では,線形モデルの自由エネルギー,平均的相互情報,最小平均二乗誤差(MMSE)を,(1)ソースはマルコフ連鎖によって生成され,(2)ソースは隠れマルコフモデルを介して生成されるという仮定の下で推定する。 我々の推定は統計物理学におけるレプリカ法に基づいている。 後平均推定器の下では、マルコフ源または隠れマルコフ源を持つ線形モデルは、マルコフ連鎖の確率行列のマンハッタンノルムを持つ左のペロン・フロベニウス固有ベクトルに従う状態分布がエンコーダとデコーダの両方で利用可能な状態情報を持つ単一入力のawgnチャネルに分解される。 その結果,レプリカ法で得られた自由エネルギーとmsesは,metropolis-hastingsアルゴリズムやよく知られた近似メッセージパッシングアルゴリズムによって達成されたものに近いことがわかった。

This paper estimates free energy, average mutual information, and minimum mean square error (MMSE) of a linear model under two assumptions: (1) the source is generated by a Markov chain, (2) the source is generated via a hidden Markov model. Our estimates are based on the replica method in statistical physics. We show that under the posterior mean estimator, the linear model with Markov sources or hidden Markov sources is decoupled into single-input AWGN channels with state information available at both encoder and decoder where the state distribution follows the left Perron-Frobenius eigenvector with unit Manhattan norm of the stochastic matrix of Markov chains. Numerical results show that the free energies and MSEs obtained via the replica method are closely approximate to their counterparts achieved by the Metropolis-Hastings algorithm or some well-known approximate message passing algorithms in the research literature.
翻訳日:2023-07-26 22:09:19 公開日:2023-07-25
# ヒト様アピカルデンドライト活性を有する非線形ニューロン

Non-linear Neurons with Human-like Apical Dendrite Activations ( http://arxiv.org/abs/2003.03229v4 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Nicolae-Catalin Ristea, Nicu Sebe(参考訳) 線形に分離できないデータを分類するために、ニューロンは通常、少なくとも1つの隠れ層を持つ多層ニューラルネットワークに編成される。 神経科学の最近の発見に触発されて,単一ニューロンを用いた非線形決定境界の学習を可能にする新しい活性化関数とともに,人工ニューロンの新しいモデルを提案する。 標準ニューロンの次に,新しいapical dendrite activation (ada) が100%精度でxor論理関数を学習できることが示されている。 Furthermore, we conduct experiments on six benchmark data sets from computer vision, signal processing and natural language processing, i.e. MOROCO, UTKFace, CREMA-D, Fashion-MNIST, Tiny ImageNet and ImageNet, showing that the ADA and the leaky ADA functions provide superior results to Rectified Linear Units (ReLU), leaky ReLU, RBF and Swish, for various neural network architectures, e.g. one-hidden-layer or two-hidden-layer multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) such as LeNet, VGG, ResNet and Character-level CNN. 錐体ニューロンと円錐状樹状突起活性化(PyNADA)を併用してニューロンの標準モデルを変更することにより,さらなる性能向上が期待できる。 コードはhttps://github.com/raduionescu/pynada.com/。

In order to classify linearly non-separable data, neurons are typically organized into multi-layer neural networks that are equipped with at least one hidden layer. Inspired by some recent discoveries in neuroscience, we propose a new model of artificial neuron along with a novel activation function enabling the learning of nonlinear decision boundaries using a single neuron. We show that a standard neuron followed by our novel apical dendrite activation (ADA) can learn the XOR logical function with 100% accuracy. Furthermore, we conduct experiments on six benchmark data sets from computer vision, signal processing and natural language processing, i.e. MOROCO, UTKFace, CREMA-D, Fashion-MNIST, Tiny ImageNet and ImageNet, showing that the ADA and the leaky ADA functions provide superior results to Rectified Linear Units (ReLU), leaky ReLU, RBF and Swish, for various neural network architectures, e.g. one-hidden-layer or two-hidden-layer multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) such as LeNet, VGG, ResNet and Character-level CNN. We obtain further performance improvements when we change the standard model of the neuron with our pyramidal neuron with apical dendrite activations (PyNADA). Our code is available at: https://github.com/raduionescu/pynada.
翻訳日:2023-07-26 22:08:31 公開日:2023-07-25
# コンパクトリーマン多様体上の幾何学ウェーブレット散乱ネットワーク

Geometric Wavelet Scattering Networks on Compact Riemannian Manifolds ( http://arxiv.org/abs/1905.10448v4 )

ライセンス: Link先を確認
Michael Perlmutter and Feng Gao and Guy Wolf and Matthew Hirn(参考訳) ユークリッド散乱変換は10年近く前に導入され、畳み込みニューラルネットワークの数学的理解を改善した。 畳み込みニューラルネットワークを多様体およびグラフ構造領域に一般化することを目的とした幾何学的深層学習への近年の関心に触発され、多様体上の幾何学的散乱変換を定義する。 ユークリッド散乱変換と同様に、幾何学的散乱変換はウェーブレットフィルタとポイントワイズ非線形性のカスケードに基づいている。 局所同型に不変であり、ある種の微分同型に安定である。 実験結果は幾何学習タスクにおいてその有用性を示す。 本研究では, ユークリッド散乱の変形安定性と局所変換不変性を一般化し, 使用済みフィルタ構造とデータの基底形状とのリンクの重要性を実証する。

The Euclidean scattering transform was introduced nearly a decade ago to improve the mathematical understanding of convolutional neural networks. Inspired by recent interest in geometric deep learning, which aims to generalize convolutional neural networks to manifold and graph-structured domains, we define a geometric scattering transform on manifolds. Similar to the Euclidean scattering transform, the geometric scattering transform is based on a cascade of wavelet filters and pointwise nonlinearities. It is invariant to local isometries and stable to certain types of diffeomorphisms. Empirical results demonstrate its utility on several geometric learning tasks. Our results generalize the deformation stability and local translation invariance of Euclidean scattering, and demonstrate the importance of linking the used filter structures to the underlying geometry of the data.
翻訳日:2023-07-26 22:08:11 公開日:2023-07-25
# 最適な公平分類木を学習する:解釈可能性、公正性、正確性の間のトレードオフ

Learning Optimal Fair Classification Trees: Trade-offs Between Interpretability, Fairness, and Accuracy ( http://arxiv.org/abs/2201.09932v5 )

ライセンス: Link先を確認
Nathanael Jo, Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos(参考訳) 人々の生活に影響を及ぼす高い領域における機械学習の利用の増加は、解釈可能で公平で高精度なアルゴリズムに対する緊急の必要性を生み出します。 これらのニーズを念頭に、任意の公正性制約で拡張可能な最適分類木(最も解釈可能なモデルの一つ)を学習するための混合整数最適化(MIO)フレームワークを提案する。 また,「解釈可能性の価格」をより定量化するために,機械学習モデルの異なるクラス間の比較を可能にする決定複雑性と呼ばれるモデル解釈可能性の新しい尺度を提案する。 一般的なデータセットの公正な分類のための最先端のアプローチに対して,本手法をベンチマークし,解釈可能性,公平性,予測精度のトレードオフを包括的に分析した。 定値差の閾値が与えられた場合、本手法は、最も高性能で複雑なモデルと比較して、サンプル外精度で約4.2ポイントの解釈性を持つ。 しかし,本手法は,ほぼ同値な決定を常に見つけ出すが,他の手法では行わない。

The increasing use of machine learning in high-stakes domains -- where people's livelihoods are impacted -- creates an urgent need for interpretable, fair, and highly accurate algorithms. With these needs in mind, we propose a mixed integer optimization (MIO) framework for learning optimal classification trees -- one of the most interpretable models -- that can be augmented with arbitrary fairness constraints. In order to better quantify the "price of interpretability", we also propose a new measure of model interpretability called decision complexity that allows for comparisons across different classes of machine learning models. We benchmark our method against state-of-the-art approaches for fair classification on popular datasets; in doing so, we conduct one of the first comprehensive analyses of the trade-offs between interpretability, fairness, and predictive accuracy. Given a fixed disparity threshold, our method has a price of interpretability of about 4.2 percentage points in terms of out-of-sample accuracy compared to the best performing, complex models. However, our method consistently finds decisions with almost full parity, while other methods rarely do.
翻訳日:2023-07-26 22:00:53 公開日:2023-07-25
# Schr\\odinger-Heisenberg変分量子アルゴリズム

Schr\"odinger-Heisenberg Variational Quantum Algorithms ( http://arxiv.org/abs/2112.07881v5 )

ライセンス: Link先を確認
Zhong-Xia Shang, Ming-Cheng Chen, Xiao Yuan, Chao-Yang Lu, Jian-Wei Pan(参考訳) 近年のブレークスルーは、数十から数百量子ビットの中間規模の量子コンピューティングの可能性を開き、化学や凝縮物質物理学のような古典的課題を解決する可能性を示した。 しかし、古典的コンピュータを超越するのに非常に高い精度が要求されるため、回路の奥行きが著しく制限され、現在は0.1-1%程度である。 そこで,量子ハードウェア上で現実的に実装される仮想ハイゼンベルク回路を,測定可観測性に効果的に作用する仮想ハイゼンベルク回路と,実際の浅いシュランガー回路を組み込むことにより,この問題を解決するためのシュランガー・ハイゼンベルク変分量子アルゴリズムのパラダイムを提案する。 我々はクリフォード仮想回路を選択し、そのハミルトニアンに対する効果はゴッテマン・クニルの定理に従って効率よく古典的に実装できる。 しかし、これは状態表現性を大幅に拡大し、より大きなユニタリt-設計を実現する。 本手法は、従来より深く正確な回路でしか実現できない正確な量子シミュレーションと計算を可能にする。 このことは, XXZモデルの基底状態エネルギーに対して, ランダム状態のより良い近似と高忠実解を求める数値実験で検証されている。 効果的な量子エラー緩和と共に、我々の研究は、近距離量子デバイスを用いた正確な量子コンピューティングアルゴリズムを実現する方法を広げている。

Recent breakthroughs have opened the possibility to intermediate-scale quantum computing with tens to hundreds of qubits, and shown the potential for solving classical challenging problems, such as in chemistry and condensed matter physics. However, the extremely high accuracy needed to surpass classical computers poses a critical demand to the circuit depth, which is severely limited by the non-negligible gate infidelity, currently around 0.1-1%. Here, by incorporating a virtual Heisenberg circuit, which acts effectively on the measurement observables, to a real shallow Schr\"odinger circuit, which is implemented realistically on the quantum hardware, we propose a paradigm of Schr\"odinger-Heisenberg variational quantum algorithms to resolve this problem. We choose a Clifford virtual circuit, whose effect on the Hamiltonian can be efficiently and classically implemented according to the Gottesman-Knill theorem. Yet, it greatly enlarges the state expressivity, realizing much larger unitary t-designs. Our method enables accurate quantum simulation and computation that otherwise is only achievable with much deeper and more accurate circuits conventionally. This has been verified in our numerical experiments for a better approximation of random states and a higher-fidelity solution to the ground state energy of the XXZ model. Together with effective quantum error mitigation, our work paves the way for realizing accurate quantum computing algorithms with near-term quantum devices.
翻訳日:2023-07-26 21:59:48 公開日:2023-07-25
# 意味的提案生成による全画像におけるテキストベース人物検索

Text-based Person Search in Full Images via Semantic-Driven Proposal Generation ( http://arxiv.org/abs/2109.12965v2 )

ライセンス: Link先を確認
Shizhou Zhang, De Cheng, Wenlong Luo, Yinghui Xing, Duo Long, Hao Li, Kai Niu, Guoqiang Liang, Yanning Zhang(参考訳) テキスト記述のクエリによるフルシーン画像中の対象人物の検索は、インテリジェントなビデオ監視において重要な実用的応用であるが、バウンディングボックスが利用できない現実のシナリオとは違い、既存のテキストベースの人物検索手法は主に、クエリテキスト記述と収穫した歩行者画像のギャラリーとの相互マッチングに焦点を当てている。 このギャップを埋めるために,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化する新しいエンドツーエンド学習フレームワークを提案することによって,全画像におけるテキストベースの人物検索の問題を研究する。 クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。 また、クロススケールなビジュアル・セマンティックな埋め込み機構を利用して性能を向上させる。 提案手法を検証するために,広く採用されている画像ベース人物検索データセットCUHK-SYSUとPRWに基づいて,大規模なベンチマークデータセットを2つ収集し,注釈付けする。 2つのデータセット上で総合的な実験を行い,ベースライン法と比較し,最先端の性能を実現する。

Finding target persons in full scene images with a query of text description has important practical applications in intelligent video surveillance.However, different from the real-world scenarios where the bounding boxes are not available, existing text-based person retrieval methods mainly focus on the cross modal matching between the query text descriptions and the gallery of cropped pedestrian images. To close the gap, we study the problem of text-based person search in full images by proposing a new end-to-end learning framework which jointly optimize the pedestrian detection, identification and visual-semantic feature embedding tasks. To take full advantage of the query text, the semantic features are leveraged to instruct the Region Proposal Network to pay more attention to the text-described proposals. Besides, a cross-scale visual-semantic embedding mechanism is utilized to improve the performance. To validate the proposed method, we collect and annotate two large-scale benchmark datasets based on the widely adopted image-based person search datasets CUHK-SYSU and PRW. Comprehensive experiments are conducted on the two datasets and compared with the baseline methods, our method achieves the state-of-the-art performance.
翻訳日:2023-07-26 21:57:59 公開日:2023-07-25
# フェルミオンに対する量子支援モンテカルロアルゴリズム

Quantum-assisted Monte Carlo algorithms for fermions ( http://arxiv.org/abs/2205.14903v2 )

ライセンス: Link先を確認
Xiaosi Xu and Ying Li(参考訳) 量子コンピューティングは、多体フェルミオン系の基底状態である長期の計算問題を体系的に解く有望な方法である。 この問題においてある種の量子優位性、例えば変分量子アルゴリズムの開発を実現するために多くの努力がなされている。 hugginsらによる最近の研究は、新しい候補である量子古典的ハイブリッドモンテカルロアルゴリズムを報告している。 本稿では,量子コンピュータを最小限のコストで利用し,バイアスを低減できるスケーラブルな量子支援モンテカルロアルゴリズムのファミリーを提案する。 ベイズ推定手法を取り入れることで、振幅推定において経験的な平均値を取るよりもはるかに少ない量子計算コストで、この量子化バイアス低減を実現することができる。 さらに,ハイブリッドモンテカルロフレームワークは,古典的アルゴリズムから得られた基底状態の誤差を抑制する一般的な方法であることを示す。 我々の研究は、短期量子デバイス上でのフェルミオンシステムの量子化計算を実現するためのモンテカルロツールキットを提供する。

Quantum computing is a promising way to systematically solve the longstanding computational problem, the ground state of a many-body fermion system. Many efforts have been made to realise certain forms of quantum advantage in this problem, for instance, the development of variational quantum algorithms. A recent work by Huggins et al. reports a novel candidate, i.e. a quantum-classical hybrid Monte Carlo algorithm with a reduced bias in comparison to its fully-classical counterpart. In this paper, we propose a family of scalable quantum-assisted Monte Carlo algorithms where the quantum computer is used at its minimal cost and still can reduce the bias. By incorporating a Bayesian inference approach, we can achieve this quantum-facilitated bias reduction with a much smaller quantum-computing cost than taking empirical mean in amplitude estimation. Besides, we show that the hybrid Monte Carlo framework is a general way to suppress errors in the ground state obtained from classical algorithms. Our work provides a Monte Carlo toolkit for achieving quantum-enhanced calculation of fermion systems on near-term quantum devices.
翻訳日:2023-07-26 21:51:36 公開日:2023-07-25
# 測定値の少ないQAOA

The QAOA with Few Measurements ( http://arxiv.org/abs/2205.06845v5 )

ライセンス: Link先を確認
Anthony M. Polloreno and Graeme Smith(参考訳) 量子近似最適化アルゴリズム(quantum approximation optimization algorithm,qaoa)は、当初組合せ最適化問題を解くために開発されたが、量子コンピュータの性能評価の標準となっている。 完全な記述型ベンチマーク技術は、多くの量子ビット(n \gtrsim 10$)に対して禁止的に高価であるため、QAOAは実際に計算ベンチマークとして機能することが多い。 qaoaは、量子サブルーチンの最適なパラメータを見つけようとする古典的な最適化サブルーチンを含む。 残念ながら、QAOAで使用される多くのオプティマイザは、最小化されるエネルギーの信頼できる推定を得るためにパラメータ空間の点当たりの多くのショット(N \gtrsim 1000$)を必要とする。 しかしながら、中性原子量子コンピュータのような実験的な量子コンピューティングプラットフォームは、これらのシステムで使用される古典的な最適化サブルーチンに固有の要件を課している。 本稿では,QAOAの2つの勾配のない古典最適化器の性能について検討し,N=1$とn=16$であっても最適化が可能であることを実証する。

The Quantum Approximate Optimization Algorithm (QAOA) was originally developed to solve combinatorial optimization problems, but has become a standard for assessing the performance of quantum computers. Fully descriptive benchmarking techniques are often prohibitively expensive for large numbers of qubits ($n \gtrsim 10$), so the QAOA often serves in practice as a computational benchmark. The QAOA involves a classical optimization subroutine that attempts to find optimal parameters for a quantum subroutine. Unfortunately, many optimizers used for the QAOA require many shots ($N \gtrsim 1000$) per point in parameter space to get a reliable estimate of the energy being minimized. However, some experimental quantum computing platforms such as neutral atom quantum computers have slow repetition rates, placing unique requirements on the classical optimization subroutine used in the QAOA in these systems. In this paper we investigate the performance of two choices of gradient-free classical optimizer for the QAOA - dual annealing and natural evolution strategies - and demonstrate that optimization is possible even with $N=1$ and $n=16$.
翻訳日:2023-07-26 21:51:19 公開日:2023-07-25
# 相対論的ベクトルボソン系のベル型不等式

Bell-type inequalities for systems of relativistic vector bosons ( http://arxiv.org/abs/2204.11063v2 )

ライセンス: Link先を確認
Alan J. Barr, Pawel Caban, Jakub Rembieli\'nski(参考訳) ベクトルボソン対と反ボソン対の系に対するベル型不等式違反の可能性について詳細な解析を行った。 二成分系全体のスカラー状態の一般的な場合を考えると、これらの状態の2つの異なるクラスを特定し、それぞれのスピン測定結果の合同確率を決定する。 我々は,chsh,mermin,cglmpの不等式に対する期待値を計算し,一般化されたchsh不等式がスカラー状態のいずれかに違反するとは考えられないが,merminとcglmpの不等式の場合は状況が異なることを見出した。 さらに、違反の程度は2つの粒子の相対速度に依存する。

We perform a detailed analysis of the possible violation of various Bell-type inequalities for systems of vector boson-antiboson pairs. Considering the general case of an overall scalar state of the bipartite system, we identify two distinct classes of such states, and determine the joint probabilities of spin measurement outcomes for each them. We calculate the expectation values of the CHSH, Mermin and CGLMP inequalities and find that while the generalised CHSH inequality is not expected to be violated for any of the scalar states, in the case of the Mermin and CGLMP inequalities the situation is different -- these inequalities can be violated in certain scalar states while they cannot be violated in others. Moreover, the degree of violation depends on the relative speed of the two particles.
翻訳日:2023-07-26 21:50:19 公開日:2023-07-25
# ROI:個人データを受け取る組織を特定する方法

ROI: A method for identifying organizations receiving personal data ( http://arxiv.org/abs/2204.09495v2 )

ライセンス: Link先を確認
David Rodriguez, Jose M. Del Alamo, Miguel Cozar and Boni Garcia(参考訳) 多くの研究が、ウェブサイト、モバイルアプリ、スマートデバイスなどを通じて、デジタルエコシステムにおける個人情報の大量収集を暴露している。 この事実は、コレクターが世界中の多くの異なる組織と自分の個人データを共有していることに気づいていない多くのユーザーによって気付かれていない。 本稿では,この個人データを受け取る組織を特定する技術について検討する。 本研究は,個人データを受信した組織を特定するために,異なる手法を組み合わせて95.71%の精度スコアを得る完全自動化手法であるROI(Receiver Organization Identifier)を提案する。 1万のAndroidアプリを評価し,ユーザの個人情報を受信した組織を公開することによって,我々の手法を実証する。

Many studies have exposed the massive collection of personal data in the digital ecosystem through, for instance, websites, mobile apps, or smart devices. This fact goes unnoticed by most users, who are also unaware that the collectors are sharing their personal data with many different organizations around the globe. This paper assesses techniques available in the state of the art to identify the organizations receiving this personal data. Based on our findings, we propose ROI (Receiver Organization Identifier), a fully automated method that combines different techniques to achieve a 95.71% precision score in identifying an organization receiving personal data. We demonstrate our method in the wild by evaluating 10,000 Android apps and exposing the organizations that receive users' personal data.
翻訳日:2023-07-26 21:50:03 公開日:2023-07-25
# universal (floquet) quench dynamics としての格子上のホーキング放射

Hawking radiation on the lattice as universal (Floquet) quench dynamics ( http://arxiv.org/abs/2204.06583v2 )

ライセンス: Link先を確認
Daan Maertens, Nick Bultinck, Karel Van Acoleyen(参考訳) ホーキング対生成を示す2つの自由フェルミオン格子モデルを構築する。 特に、d=1+1の質量を持たないディラックフェルミオンの最も単純な場合を考えると、ホーキング効果は、反対のキラル性を持つモードと相互作用する非一様ハミルトニアンを持つ一様真空状態のクエンチで理解することができる。 どちらのモデルも、格子の離散化から生じる追加モードは、ホーキング放射のバルク貯留層として重要な役割を果たす。 我々の最初のモデルは、局所ホッピングダイナミクスと1つの格子上の翻訳を結合し、その結果のフロケダイナミクスは、地平線外の領域からフェルミ粒子を散乱させて因果地平線を実現する。 2つ目のモデルは、純粋に局所的なホッピングハミルトニアンに依存しており、内側から散乱するフェルミオンを見つけます。 どちらの場合も、逆格子間隔までのホーキング温度に対して、得られたホーキングスペクトルはフェルミ・ディラック量子場理論の予測と完全に一致している。

We construct two free fermion lattice models exhibiting Hawking pair creation. Specifically, we consider the simplest case of a d=1+1 massless Dirac fermion, for which the Hawking effect can be understood in terms of a quench of the uniform vacuum state with a non-uniform Hamiltonian that interfaces modes with opposite chirality. For both our models we find that additional modes arising from the lattice discretization play a crucial role, as they provide the bulk reservoir for the Hawking radiation: the Hawking pairs emerge from fermions deep inside the Fermi sea scattering off the effective black hole horizon. Our first model combines local hopping dynamics with a translation over one lattice site, and we find the resulting Floquet dynamics to realize a causal horizon, with fermions scattering from the region outside the horizon. For our second model, which relies on a purely local hopping Hamiltonian, we find the fermions to scatter from the inside. In both cases, for Hawking temperatures up to the inverse lattice spacing we numerically find the resulting Hawking spectrum to be in perfect agreement with the Fermi-Dirac quantum field theory prediction.
翻訳日:2023-07-26 21:49:49 公開日:2023-07-25
# リアルタイムニューラルMPC:クアドロレータとアジャイルロボットプラットフォームのためのディープラーニングモデル予測制御

Real-time Neural-MPC: Deep Learning Model Predictive Control for Quadrotors and Agile Robotic Platforms ( http://arxiv.org/abs/2203.07747v5 )

ライセンス: Link先を確認
Tim Salzmann, Elia Kaufmann, Jon Arrizabalaga, Marco Pavone, Davide Scaramuzza, Markus Ryll(参考訳) モデル予測制御(MPC)は、高性能自律システムの組込み制御において一般的なフレームワークとなっている。 しかし, MPCを用いた制御性能向上のためには, 正確な力学モデルが重要である。 リアルタイム操作を維持するため、組込みシステムで使用されるダイナミクスモデルは単純な第一原理モデルに制限されており、その代表力を実質的に制限している。 このような単純なモデルとは対照的に、機械学習アプローチ、特にニューラルネットワークは、複雑な動的効果を正確にモデル化することが示されているが、その大きな計算複雑性は、高速なリアルタイム反復ループと組み合わせるのを妨げている。 本研究では,モデル予測制御パイプライン内の動的モデルとして,大規模で複雑なニューラルネットワークアーキテクチャを効率的に統合するフレームワークであるReal-time Neural MPCを提案する。 我々の実験は、シミュレーションと、高度にアジャイルな四元数プラットフォーム上で実世界で行われ、グラデーションベースのオンライン最適化MPCを用いて、以前不可能だった大規模なモデリング能力を用いて、学習モデルを実行するための記述されたシステムの能力を実証した。 オンライン最適化mpcにおけるニューラルネットワークの以前の実装と比較して、組み込みプラットフォーム上の50hzリアルタイムウィンドウでは、4000倍以上のパラメトリックキャパシティのモデルを活用できる。 さらに,ニューラルネットワークのダイナミクスを伴わない最先端mpcアプローチと比較して,位置追跡誤差を最大82%低減することで,実世界問題に対するフレームワークの実現可能性を示す。

Model Predictive Control (MPC) has become a popular framework in embedded control for high-performance autonomous systems. However, to achieve good control performance using MPC, an accurate dynamics model is key. To maintain real-time operation, the dynamics models used on embedded systems have been limited to simple first-principle models, which substantially limits their representative power. In contrast to such simple models, machine learning approaches, specifically neural networks, have been shown to accurately model even complex dynamic effects, but their large computational complexity hindered combination with fast real-time iteration loops. With this work, we present Real-time Neural MPC, a framework to efficiently integrate large, complex neural network architectures as dynamics models within a model-predictive control pipeline. Our experiments, performed in simulation and the real world onboard a highly agile quadrotor platform, demonstrate the capabilities of the described system to run learned models with, previously infeasible, large modeling capacity using gradient-based online optimization MPC. Compared to prior implementations of neural networks in online optimization MPC we can leverage models of over 4000 times larger parametric capacity in a 50Hz real-time window on an embedded platform. Further, we show the feasibility of our framework on real-world problems by reducing the positional tracking error by up to 82% when compared to state-of-the-art MPC approaches without neural network dynamics.
翻訳日:2023-07-26 21:49:26 公開日:2023-07-25
# スピン環境における非マルコフ量子状態拡散

Non-Markovian Quantum State Diffusion for Spin Environments ( http://arxiv.org/abs/2203.02417v3 )

ライセンス: Link先を確認
Valentin Link, Kimmo Luoma, Walter T. Strunz(参考訳) 中心スピン系のようなスピンを構成する特定の種類の環境に強く結びついている量子系の力学を記述するための正確な開系法を導入する。 我々の理論は確立された非マルコフ量子状態拡散(NMQSD)理論と似ているが、ガウス浴の代わりにスピン浴である。 提案手法により,システムの時間的変化の低減状態を,確率的に進化する純粋状態のアンサンブル平均として表現することができる。 ゼロ温度と有限温度の両方における任意の線形スピン環境に対する包括的理論を提案する。 さらに, 確率的純粋状態の時間発展を数値計算できる階層的拡張法を提案し, 関連する強結合系における開システム問題の数値解法を提案する。

We introduce an exact open system method to describe the dynamics of quantum systems that are strongly coupled to specific types of environments comprising of spins, such as central spin systems. Our theory is similar to the established non-Markovian quantum state diffusion (NMQSD) theory, but for a spin bath instead of a Gaussian bath. The method allows us to represent the time-evolved reduced state of the system as an ensemble average of stochastically evolving pure states. We present a comprehensive theory for arbitrary linear spin environments at both zero and finite temperatures. Furthermore, we introduce a hierarchical expansion method that enables the numerical computation of the time evolution of the stochastic pure states, facilitating a numerical solution of the open system problem in relevant strong coupling regimes.
翻訳日:2023-07-26 21:49:05 公開日:2023-07-25
# トランスフォーマーを用いた医用画像解析の最近の進歩

Recent Progress in Transformer-based Medical Image Analysis ( http://arxiv.org/abs/2208.06643v4 )

ライセンス: Link先を確認
Zhaoshan Liu and Qiujie Lv and Ziduo Yang and Yifan Li and Chau Hung Lee and Lei Shen(参考訳) 変換器は主に自然言語処理の分野で使われている。 近年,コンピュータビジョン(CV)分野において採用され,将来性を示している。 医療画像解析(MIA)はCVの重要な分野であり、この最先端技術から大きな恩恵を受けている。 本稿では,まずトランスのコアコンポーネント,アテンション機構,およびトランスの詳細な構造について紹介する。 その後、MIA分野における変圧器の最近の進歩について述べる。 分類,セグメンテーション,キャプション,登録,検出,エンハンスメント,ローカライゼーション,合成など,さまざまなタスクでアプリケーションを整理する。 主流の分類とセグメンテーションタスクは、さらに11の医療画像モダリティに分けられる。 本稿では,複数の評価指標との比較により,トランスフォーマティブ法が既存の手法よりも優れていることを示す。 最後に、この分野におけるオープンチャレンジと今後の機会について論じる。 このタスク・モダリティ・レビューは、最新の内容、詳細な情報、包括的な比較によって、幅広いMIAコミュニティに大きな利益をもたらす可能性がある。

The transformer is primarily used in the field of natural language processing. Recently, it has been adopted and shows promise in the computer vision (CV) field. Medical image analysis (MIA), as a critical branch of CV, also greatly benefits from this state-of-the-art technique. In this review, we first recap the core component of the transformer, the attention mechanism, and the detailed structures of the transformer. After that, we depict the recent progress of the transformer in the field of MIA. We organize the applications in a sequence of different tasks, including classification, segmentation, captioning, registration, detection, enhancement, localization, and synthesis. The mainstream classification and segmentation tasks are further divided into eleven medical image modalities. A large number of experiments studied in this review illustrate that the transformer-based method outperforms existing methods through comparisons with multiple evaluation metrics. Finally, we discuss the open challenges and future opportunities in this field. This task-modality review with the latest contents, detailed information, and comprehensive comparison may greatly benefit the broad MIA community.
翻訳日:2023-07-26 21:41:22 公開日:2023-07-25
# 需要学習と資源消費バランスを考慮したネットワーク収益管理

Network Revenue Management with Demand Learning and Fair Resource-Consumption Balancing ( http://arxiv.org/abs/2207.11159v2 )

ライセンス: Link先を確認
Xi Chen, Jiameng Lyu, Yining Wang, Yuan Zhou(参考訳) 総収入の最大化に加えて、多くの業界の意思決定者は、異なるリソース間でのバランスのとれた消費を保証したいと考えている。 例えば、小売業界では、異なるサプライヤからのリソースのバランスの取れた消費を確保することが公平性を高め、良いチャネル関係をもたらす。 そこで本研究では,需要学習と資源消費バランスの両面で,価格に基づくネットワーク収益管理(NRM)の問題について検討する。 我々は、公平な資源消費バランスを収益の最大化目標に組み込むことを目的として、正規化収益、すなわちバランスの取れた総収益を導入する。 正規化収益を最大化するために,UCB (Upper-Confidence-Bound) 要求学習手法を用いた原始二重型オンラインポリシーを提案する。 我々は,アルゴリズムを連続的な価格設定のための統一的で計算効率のよいフレームワークにするために,いくつかの革新的な手法を採用する。 我々のアルゴリズムは、$\widetilde O(N^{5/2}\sqrt{T})$, $N$は製品数を表し、$T$は期間数を表す。 いくつかのnrm例における数値実験は、収益の最大化と公平な資源消費バランスを同時に達成するアルゴリズムの有効性を実証する。

In addition to maximizing the total revenue, decision-makers in lots of industries would like to guarantee balanced consumption across different resources. For instance, in the retailing industry, ensuring a balanced consumption of resources from different suppliers enhances fairness and helps main a good channel relationship; in the cloud computing industry, resource-consumption balance helps increase customer satisfaction and reduce operational costs. Motivated by these practical needs, this paper studies the price-based network revenue management (NRM) problem with both demand learning and fair resource-consumption balancing. We introduce the regularized revenue, i.e., the total revenue with a balancing regularization, as our objective to incorporate fair resource-consumption balancing into the revenue maximization goal. We propose a primal-dual-type online policy with the Upper-Confidence-Bound (UCB) demand learning method to maximize the regularized revenue. We adopt several innovative techniques to make our algorithm a unified and computationally efficient framework for the continuous price set and a wide class of balancing regularizers. Our algorithm achieves a worst-case regret of $\widetilde O(N^{5/2}\sqrt{T})$, where $N$ denotes the number of products and $T$ denotes the number of time periods. Numerical experiments in a few NRM examples demonstrate the effectiveness of our algorithm in simultaneously achieving revenue maximization and fair resource-consumption balancing
翻訳日:2023-07-26 21:41:05 公開日:2023-07-25
# 作曲学習行動学習のためのメタレファレンシャルゲーム

Meta-Referential Games to Learn Compositional Learning Behaviours ( http://arxiv.org/abs/2207.08012v2 )

ライセンス: Link先を確認
Kevin Denamgana\"i, Sondess Missaoui, and James Alfred Walker(参考訳) 人間は構成性を使って過去の経験から新しい経験へと一般化する。 我々は、経験を基本原子要素に分離し、新しい経験に携わる能力を支援するために、新しい方法で組み換えることができると仮定する。 我々は、これを作曲を一般化する能力として捉え、これを作曲学習行動(CLB)として活用する行動について述べる。 CLBの学習における中心的な問題は、結合問題(BP)の解決である。 人間は容易に行動できるという別の知能の偉業であるが、最先端の人工エージェントには当てはまらない。 そこで我々は,人間と協調できる人工エージェントを構築するために,BPのドメインに依存しないバージョンを解くことにより,CLBを展示するエージェントの能力を調べる新しいベンチマークを開発することを提案する。 我々は,参照ゲームの言語台頭と基盤フレームワークからインスピレーションを得て,メタ参照ゲーム(Meta-Referential Games)というメタラーニングゲームの拡張を提案し,このフレームワークを用いてベンチマークを構築し,シンボリックビヘイビアベンチマーク(S2B)と名付ける。 私たちのベンチマークは魅力的な課題であり、研究コミュニティがより有能な人工エージェントを開発することを促すことを期待しています。

Human beings use compositionality to generalise from past experiences to novel experiences. We assume a separation of our experiences into fundamental atomic components that can be recombined in novel ways to support our ability to engage with novel experiences. We frame this as the ability to learn to generalise compositionally, and we will refer to behaviours making use of this ability as compositional learning behaviours (CLBs). A central problem to learning CLBs is the resolution of a binding problem (BP). While it is another feat of intelligence that human beings perform with ease, it is not the case for state-of-the-art artificial agents. Thus, in order to build artificial agents able to collaborate with human beings, we propose to develop a novel benchmark to investigate agents' abilities to exhibit CLBs by solving a domain-agnostic version of the BP. We take inspiration from the language emergence and grounding framework of referential games and propose a meta-learning extension of referential games, entitled Meta-Referential Games, and use this framework to build our benchmark, that we name Symbolic Behaviour Benchmark (S2B). We provide baseline results showing that our benchmark is a compelling challenge that we hope will spur the research community towards developing more capable artificial agents.
翻訳日:2023-07-26 21:40:32 公開日:2023-07-25
# トポロジカルデータ分析と機械学習

Topological data analysis and machine learning ( http://arxiv.org/abs/2206.15075v3 )

ライセンス: Link先を確認
Daniel Leykam and Dimitris G. Angelakis(参考訳) トポロジカルデータ分析(トポロジカルデータ解析)とは、複雑なデータセットの抽象的な ``shapes'' を体系的かつ確実に計算するためのアプローチである。 生命科学やデータ科学におけるトポロジカルデータ分析には様々な応用があり、物理学者の間で関心が高まっている。 我々は、位相遷移の検出を含む物理学におけるトポロジカルデータ解析の物理学および機械学習問題への応用について、簡潔かつ包括的なレビューを行う。 今後の研究に期待できる方向のプレビューで締めくくります。

Topological data analysis refers to approaches for systematically and reliably computing abstract ``shapes'' of complex data sets. There are various applications of topological data analysis in life and data sciences, with growing interest among physicists. We present a concise yet (we hope) comprehensive review of applications of topological data analysis to physics and machine learning problems in physics including the detection of phase transitions. We finish with a preview of anticipated directions for future research.
翻訳日:2023-07-26 21:39:50 公開日:2023-07-25
# 電力市場におけるロバストな短期事業需要予測のための深層強化学習支援フェデレーションラーニング

Deep Reinforcement Learning-Assisted Federated Learning for Robust Short-term Utility Demand Forecasting in Electricity Wholesale Markets ( http://arxiv.org/abs/2206.11715v2 )

ライセンス: Link先を確認
Chenghao Huang, Weilong Chen, Shengrong Bu, Yanru Zhang(参考訳) 短期負荷予測(STLF)は電気取引市場の運営において重要な役割を果たしている。 データプライバシの懸念が高まる中、近年の研究では、federated learning (fl) がユーティリティ企業(ucs)向けのstlfモデルのトレーニングに採用されている。 問屋市場では、電力プラント(PP)がUCのデータに直接アクセスするのは現実的ではないので、FLは確実にPPの正確なSTLFモデルを得るための実現可能なソリューションである。 しかし、FLの分散性とUC間の激しい競争により、欠陥がますます発生し、STLFモデルの性能が低下し、単にFLを採用するだけでは不十分であることが示されている。 本稿では,ppsのstlモデルを正確に学習し,短時間の電力需要を高精度に予測するための,drl支援型フェデレート・ソフト・アクタ・クリティック(dearfsac)を提案する。 まず第一に 従来の負荷データと時間データのみを用いて,長期記憶(LSTM)に基づくSTLFモデルを設計する。 さらに、欠陥発生の不確実性を考慮すると、欠陥によるモデル劣化を緩和してFLを支援するディープ強化学習(DRL)アルゴリズムを採用する。 さらに,FLトレーニングの高速化のために,アップロードしたモデルの次元の縮小と品質評価のために自動エンコーダを設計した。 シミュレーションでは,2019年のヘルシンキのUCの実データに対するアプローチを検証する。 その結果,DearFSACは欠陥の発生の有無に関わらず,他のアプローチよりも優れていることがわかった。

Short-term load forecasting (STLF) plays a significant role in the operation of electricity trading markets. Considering the growing concern of data privacy, federated learning (FL) is increasingly adopted to train STLF models for utility companies (UCs) in recent research. Inspiringly, in wholesale markets, as it is not realistic for power plants (PPs) to access UCs' data directly, FL is definitely a feasible solution of obtaining an accurate STLF model for PPs. However, due to FL's distributed nature and intense competition among UCs, defects increasingly occur and lead to poor performance of the STLF model, indicating that simply adopting FL is not enough. In this paper, we propose a DRL-assisted FL approach, DEfect-AwaRe federated soft actor-critic (DearFSAC), to robustly train an accurate STLF model for PPs to forecast precise short-term utility electricity demand. Firstly. we design a STLF model based on long short-term memory (LSTM) using just historical load data and time data. Furthermore, considering the uncertainty of defects occurrence, a deep reinforcement learning (DRL) algorithm is adopted to assist FL by alleviating model degradation caused by defects. In addition, for faster convergence of FL training, an auto-encoder is designed for both dimension reduction and quality evaluation of uploaded models. In the simulations, we validate our approach on real data of Helsinki's UCs in 2019. The results show that DearFSAC outperforms all the other approaches no matter if defects occur or not.
翻訳日:2023-07-26 21:39:25 公開日:2023-07-25
# 社会と記憶誘導を持つ人工航海者における累積的文化の自然発生

Cumulative culture spontaneously emerges in artificial navigators who are social and memory-guided ( http://arxiv.org/abs/2206.06281v3 )

ライセンス: Link先を確認
Edwin S. Dalmaijer(参考訳) 累積的な文化的進化は、適応的な革新が社会学習を通じて連続的に受け継がれるときに起こる。 このプロセスは人間の技術革新を形成するが、人間以外の種にも起こる。 累積文化は高忠実な社会的伝達と高度な認知能力に依存していると伝統的に主張されているが、ここではより単純なシステムが十分であることを示している。 累積的文化は、目標指向、社会的近接、ルート記憶の最小限の認知アーキテクチャでナビゲートする人工エージェントで自然に現れる。 それぞれの世代で、経験豊富なナビゲーターとペアになることの恩恵を受けることができた。 重要なことに、経験豊富なナビゲーターは、目標への回帰を通じて、素直な個人の存在から恩恵を受けた。 経験豊富なエージェントが記憶された道を辿ると、(ルート記憶によって妨げられていない)素なエージェントは目標から遠ざかる傾向があり、それによってペアをその方向に偏った。 これにより、各世代の経路効率が向上した。 制御実験では,エージェントの社会的近接性や経路記憶が損傷した場合に累積培養が抑制され,目標方向の除去は効率を低下させた。 これらの結果は、高度なコミュニケーションや思考がなくても累積的な文化的進化が起こることを示している。 この発見の1つの解釈は、現在の定義はゆるすぎ、狭めるべきであるということである。 別の結論として、基本的な累積文化は、社会的近さを求め、不正確な記憶能力を持つシステムの創発的な特性であり、伝統的な進化のメカニズムを柔軟に補完するものである。

Cumulative cultural evolution occurs when adaptive innovations are passed down to consecutive generations through social learning. This process has shaped human technological innovation, but also occurs in non-human species. While it is traditionally argued that cumulative culture relies on high-fidelity social transmission and advanced cognitive skills, here I show that a much simpler system suffices. Cumulative culture spontaneously emerged in artificial agents who navigate with a minimal cognitive architecture of goal-direction, social proximity, and route memory. Within each generation, naive individuals benefitted from being paired with experienced navigators because they could follow previously established routes. Crucially, experienced navigators also benefitted from the presence of naive individuals through regression to the goal. As experienced agents followed their memorised path, their naive counterparts (unhindered by route memory) were more likely to err towards than away from the goal, and thus biased the pair in that direction. This improved route efficiency within each generation. In control experiments, cumulative culture was attenuated when agents' social proximity or route memory were lesioned, whereas eliminating goal-direction only reduced efficiency. These results demonstrate that cumulative cultural evolution occurs even in the absence of sophisticated communication or thought. One interpretation of this finding is that current definitions are too loose, and should be narrowed. An alternative conclusion is that rudimentary cumulative culture is an emergent property of systems that seek social proximity and have an imprecise memory capacity, providing a flexible complement to traditional evolutionary mechanisms.
翻訳日:2023-07-26 21:38:58 公開日:2023-07-25
# グラウバー・スダルシャン$P$関数正規化のためのフィルタ関数

Filter functions for the Glauber-Sudarshan $P$-function regularization ( http://arxiv.org/abs/2206.05594v2 )

ライセンス: Link先を確認
Mani Zartab, Ezad Shojaee, Saleh Rahimi-Keshari(参考訳) 量子状態を表す位相空間準確率分布形式は、量子状態の非古典性を特定するなどの量子光学における様々な応用のための実用的なツールを提供する。 グラウバー・スダルシャン関数を正規化するために導入されたフィルタ関数について検討する。 フィルタ関数に付随する量子マップが完全正でトレース保存であるため、この関数のフーリエ変換が確率密度分布である場合に限り物理的に実現可能であることを示す。 また、物理量子フィルタリングマップの入力状態と出力状態の忠実度に低い境界を導出する。 したがって、これらの結果に基づいて、任意の量子状態は任意の精度で、正規のグラウバー・スダルシャン$p$関数を持つ量子状態によって近似できることを示した。 本稿では、未知の量子過程の出力状態を推定し、量子測定結果の確率を推定するための結果の応用を提案する。

The phase-space quasi-probability distribution formalism for representing quantum states provides practical tools for various applications in quantum optics such as identifying the nonclassicality of quantum states. We study filter functions that are introduced to regularize the Glauber-Sudarshan $P$ function. We show that the quantum map associated with a filter function is completely positive and trace preserving and hence physically realizable if and only if the Fourier transform of this function is a probability density distribution. We also derive a lower bound on the fidelity between the input and output states of a physical quantum filtering map. Therefore, based on these results, we show that any quantum state can be approximated, to arbitrary accuracy, by a quantum state with a regular Glauber-Sudarshan $P$ function. We propose applications of our results for estimating the output state of an unknown quantum process and estimating the outcome probabilities of quantum measurements.
翻訳日:2023-07-26 21:38:30 公開日:2023-07-25
# 量子近似最適化アルゴリズムの量子利用のためのサンプリング周波数閾値

Sampling Frequency Thresholds for Quantum Advantage of Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2206.03579v2 )

ライセンス: Link先を確認
Danylo Lykov, Jonathan Wurtz, Cody Poole, Mark Saffman, Tom Noel, Yuri Alexeev(参考訳) 本研究では, 量子近似最適化アルゴリズム (qaoa) の性能と, gurobi や mqlib のような最先端の古典的解法との比較を行い, 3次元正則グラフ上での組合せ最適化問題maxcut を解く。 ゴールは、QAOAが古典的なアルゴリズムよりも「量子優位性」が得られる条件を、ソリューションの品質と解決までの時間の両方の観点から特定することである。 10khzの周波数でqaoa状態をサンプリングすることで、数百キュービットと適度な深さのp$で量子優位が得られるかもしれない。 しかし、古典的ヒューリスティック解法は線形時間複雑性において高品質な近似解を生成することができる。 この品質を$\textit{large}$グラフサイズ$n$に合わせるためには、量子デバイスは深さ$p>11$をサポートする必要がある。 さもなくば、必要なサンプルの数は、$N$で指数関数的に増加し、$p\leq11$でQAOAのスケーラビリティを妨げることが示される。 これらの結果から、3つの正則グラフ上のQAOA MaxCutに対する量子優位性の実現に挑戦的な限界が得られた。 他の問題、例えば異なるグラフ、重み付きマックスカット、最大独立集合、および3satは、近距離量子デバイスでの量子優位を達成するのに適しているかもしれない。

In this work, we compare the performance of the Quantum Approximate Optimization Algorithm (QAOA) with state-of-the-art classical solvers such as Gurobi and MQLib to solve the combinatorial optimization problem MaxCut on 3-regular graphs. The goal is to identify under which conditions QAOA can achieve "quantum advantage" over classical algorithms, in terms of both solution quality and time to solution. One might be able to achieve quantum advantage on hundreds of qubits and moderate depth $p$ by sampling the QAOA state at a frequency of order 10 kHz. We observe, however, that classical heuristic solvers are capable of producing high-quality approximate solutions in linear time complexity. In order to match this quality for $\textit{large}$ graph sizes $N$, a quantum device must support depth $p>11$. Otherwise, we demonstrate that the number of required samples grows exponentially with $N$, hindering the scalability of QAOA with $p\leq11$. These results put challenging bounds on achieving quantum advantage for QAOA MaxCut on 3-regular graphs. Other problems, such as different graphs, weighted MaxCut, maximum independent set, and 3-SAT, may be better suited for achieving quantum advantage on near-term quantum devices.
翻訳日:2023-07-26 21:38:15 公開日:2023-07-25
# シャッフルとバッチクリッピングによるDP-SGDの一般化

Generalizing DP-SGD with Shuffling and Batch Clipping ( http://arxiv.org/abs/2212.05796v3 )

ライセンス: Link先を確認
Marten van Dijk, Phuong Ha Nguyen, Toan N. Nguyen and Lam M. Nguyen(参考訳) 古典的な差分DP-SGDは、ランダムサブサンプリングによる個々のクリッピングを実装し、ミニバッチSGDアプローチを強制する。 DP-SGDを超越した一般微分プライベートアルゴリズムフレームワークを提供し、バッチクリッピングと組み合わせて一階最適化(古典的なSGDや運動量に基づくSGDアプローチなど)を可能とし、クリッピングされた勾配を(個々のクリッピングで行うように)要約するのではなく、計算された勾配の集合をクリッピングする。 このフレームワークはまた、シャッフルのようなランダムなサブサンプリング以外のサンプリング技術も認めている。 我々のDP分析は、$f$-DPアプローチに従い、簡単なクローズドフォーム式を導出し、グループプライバシの分析を可能にする新しい証明手法を導入する。 特に、e$ epochs の作業とサイズ $g$ のグループに対して、シャッフル付きバッチクリッピング用の$\sqrt{g e}$ dp 依存性を示します。

Classical differential private DP-SGD implements individual clipping with random subsampling, which forces a mini-batch SGD approach. We provide a general differential private algorithmic framework that goes beyond DP-SGD and allows any possible first order optimizers (e.g., classical SGD and momentum based SGD approaches) in combination with batch clipping, which clips an aggregate of computed gradients rather than summing clipped gradients (as is done in individual clipping). The framework also admits sampling techniques beyond random subsampling such as shuffling. Our DP analysis follows the $f$-DP approach and introduces a new proof technique which allows us to derive simple closed form expressions and to also analyse group privacy. In particular, for $E$ epochs work and groups of size $g$, we show a $\sqrt{g E}$ DP dependency for batch clipping with shuffling.
翻訳日:2023-07-26 21:32:26 公開日:2023-07-25
# Hu-Paz-Zhangマスター方程式の係数の解析的評価:オーミックスペクトル密度、零温度、整合性チェック

Analytical evaluation of the coefficients of the Hu-Paz-Zhang master equation: Ohmic spectral density, zero temperature, and consistency check ( http://arxiv.org/abs/2211.15722v2 )

ライセンス: Link先を確認
G. Homa, J. Z. Bern\'ad, A. Csord\'as(参考訳) ローレンツドロード型オーミックスペクトル密度を持つゼロ温度の量子高調波発振器に対するhu,paz,zhangの厳密なマスター方程式について検討した。 このマスター方程式は量子ブラウン運動の研究や様々な応用において重要な役割を果たす。 本稿では,この非マルコフマスター方程式の係数をリンドブラッド形式を用いずに解析的に評価し,解の構成度,定常密度作用素の正解率,モデルのパラメータの境界について検討する。

We investigate the exact master equation of Hu, Paz, and Zhang for a quantum harmonic oscillator at zero temperature with a Lorentz-Drude type Ohmic spectral density. This master equation plays an important role in the study of quantum Brownian motion and in various applications. In this paper, we give an analytical evaluation of the coefficients of this non-Markovian master equation without Lindblad form, which allows us to investigate consistencies of the solutions, the positivity of the stationary density operator, and the boundaries of the model's parameters.
翻訳日:2023-07-26 21:32:05 公開日:2023-07-25
# FedTracker: フェデレーション学習モデルのオーナシップ検証とトレーサビリティ向上

FedTracker: Furnishing Ownership Verification and Traceability for Federated Learning Model ( http://arxiv.org/abs/2211.07160v2 )

ライセンス: Link先を確認
Shuo Shao, Wenyuan Yang, Hanlin Gu, Zhan Qin, Lixin Fan, Qiang Yang and Kui Ren(参考訳) Federated Learning(FL)は、複数のクライアントがローカルデータを共有せずにグローバルモデルを共同でトレーニングできる分散機械学習パラダイムである。 しかし、flは様々な参加者にモデルを公開することを伴う。 これは悪意のあるクライアントによる不正なモデル配布や再販のリスクをもたらし、flグループの知的財産権を侵害する。 このような誤動作を防止するためには,モデルの所有権を検証し,その起源をfl参加者の漏洩者まで遡るメカニズムを確立することが不可欠である。 本稿では,オーナシップ検証とトレーサビリティを提供する最初のflモデル保護フレームワークであるfeedtrackerを提案する。 fedtrackerは、グローバルウォーターマーク機構とローカル指紋機構からなるbiレベルの保護スキームを採用している。 前者はグローバルモデルの所有権を認証し、後者はモデルから派生したクライアントを特定する。 FedTrackerは継続学習(CL)の原則を活用して、原始的なタスクと透かしタスクの両方にFLモデルの実用性を保存する方法で透かしを埋め込む。 FedTrackerはまた、異なる指紋を識別する新しい指標も考案している。 実験の結果,feedtrackerはオーナシップの検証やトレーサビリティに有効であり,様々なウォーターマーク除去攻撃に対する忠実性と堅牢性を維持していることがわかった。

Federated learning (FL) is a distributed machine learning paradigm allowing multiple clients to collaboratively train a global model without sharing their local data. However, FL entails exposing the model to various participants. This poses a risk of unauthorized model distribution or resale by the malicious client, compromising the intellectual property rights of the FL group. To deter such misbehavior, it is essential to establish a mechanism for verifying the ownership of the model and as well tracing its origin to the leaker among the FL participants. In this paper, we present FedTracker, the first FL model protection framework that provides both ownership verification and traceability. FedTracker adopts a bi-level protection scheme consisting of global watermark mechanism and local fingerprint mechanism. The former authenticates the ownership of the global model, while the latter identifies which client the model is derived from. FedTracker leverages Continual Learning (CL) principles to embedding the watermark in a way that preserves the utility of the FL model on both primitive task and watermark task. FedTracker also devises a novel metric to better discriminate different fingerprints. Experimental results show FedTracker is effective in ownership verification, traceability, and maintains good fidelity and robustness against various watermark removal attacks.
翻訳日:2023-07-26 21:31:22 公開日:2023-07-25
# Revision Transformers: 価値を変えるために言語モデルを教える

Revision Transformers: Instructing Language Models to Change their Values ( http://arxiv.org/abs/2210.10332v3 )

ライセンス: Link先を確認
Felix Friedrich, Wolfgang Stammer, Patrick Schramowski, Kristian Kersting(参考訳) 現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。 これらは様々なタスクで高いパフォーマンスを提供するが、近道学習やバイアスの傾向も示されている。 このようなパラメータ調整による誤ったモデル動作への対処は非常にコストがかかる。 これは、文化的または対人的に異なる道徳的価値観のような動的な概念を更新する際に特に問題となる。 本稿では,すべての情報をモデルパラメータに格納する現在の一般的な手法に疑問を呈し,モデル更新を容易にするためのリビジョントランスフォーマティブ(rit)を提案する。 明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。 本稿では、モラルデータセット上のritを例示し、小さなデータでもモデルリビジョンの強いパフォーマンスを示すユーザーフィードバックをシミュレートする。 これにより、ユーザーは好みに関するモデルを簡単に設計でき、より透明なAIモデルへの道を開くことができる。

Current transformer language models (LM) are large-scale models with billions of parameters. They have been shown to provide high performances on a variety of tasks but are also prone to shortcut learning and bias. Addressing such incorrect model behavior via parameter adjustments is very costly. This is particularly problematic for updating dynamic concepts, such as moral values, which vary culturally or interpersonally. In this work, we question the current common practice of storing all information in the model parameters and propose the Revision Transformer (RiT) to facilitate easy model updating. The specific combination of a large-scale pre-trained LM that inherently but also diffusely encodes world knowledge with a clear-structured revision engine makes it possible to update the model's knowledge with little effort and the help of user interaction. We exemplify RiT on a moral dataset and simulate user feedback demonstrating strong performance in model revision even with small data. This way, users can easily design a model regarding their preferences, paving the way for more transparent AI models.
翻訳日:2023-07-26 21:30:39 公開日:2023-07-25
# TEFL: 信頼できるゼロタッチネットワークスライシングのためのターボ説明可能なフェデレーションラーニング

TEFL: Turbo Explainable Federated Learning for 6G Trustworthy Zero-Touch Network Slicing ( http://arxiv.org/abs/2210.10147v2 )

ライセンス: Link先を確認
Swastika Roy, Hatim Chergui, and Christos Verikoukis(参考訳) 第6世代(6G)ネットワークは、様々な垂直ユースケースに関連する多数の共存スライスと異種スライスを知的にサポートすることを期待している。 このような状況は、エンドツーエンド(E2E)スライスにおけるAI駆動のゼロタッチ管理とオーケストレーション(MANO)を、SLA(stringent Service Level Agreements)の下で採用することを促す。 具体的には、実際のデプロイメントにおけるAIブラックボックスの信頼性は、テナントやインフラストラクチャプロバイダ、オペレータといったスライシングエコシステム内の相互作用するアクター間の透明性を構築するための、説明可能なAI(XAI)ツールによって達成できる。 本稿では,制約付き資源配分モデルと \emph{Explainer} 交換を閉ループ (CL) 方式で適用し,非独立分散型 (非IID) データセット下でのRAN-Edge セットアップにおいて,6G ネットワークスライスの透過的かつSLA 対応ゼロタッチサービス管理 (ZSM) を実現するための,特徴のソフトな属性と推論予測を行う,新しい反復的説明可能なフェデレーションラーニング (FL) 手法を提案する。 特に、実行時のfl最適化タスクに制約として含まれる、いわゆる帰属ベース \emph{confidence metric} による説明の忠実さを定量的に検証する。 この点において、Integrated-Gradient (IG) およびInput $\times$ Gradient および SHAP はターボ説明可能なFL (TEFL) の属性を生成するために使用され、異なる方法によるシミュレーション結果により、制約のないIntegrated-Gradient \emph{post-hoc} FL ベースラインよりも優位性が確認される。

Sixth-generation (6G) networks anticipate intelligently supporting a massive number of coexisting and heterogeneous slices associated with various vertical use cases. Such a context urges the adoption of artificial intelligence (AI)-driven zero-touch management and orchestration (MANO) of the end-to-end (E2E) slices under stringent service level agreements (SLAs). Specifically, the trustworthiness of the AI black-boxes in real deployment can be achieved by explainable AI (XAI) tools to build transparency between the interacting actors in the slicing ecosystem, such as tenants, infrastructure providers and operators. Inspired by the turbo principle, this paper presents a novel iterative explainable federated learning (FL) approach where a constrained resource allocation model and an \emph{explainer} exchange -- in a closed loop (CL) fashion -- soft attributions of the features as well as inference predictions to achieve a transparent and SLA-aware zero-touch service management (ZSM) of 6G network slices at RAN-Edge setup under non-independent identically distributed (non-IID) datasets. In particular, we quantitatively validate the faithfulness of the explanations via the so-called attribution-based \emph{confidence metric} that is included as a constraint in the run-time FL optimization task. In this respect, Integrated-Gradient (IG) as well as Input $\times$ Gradient and SHAP are used to generate the attributions for the turbo explainable FL (TEFL), wherefore simulation results under different methods confirm its superiority over an unconstrained Integrated-Gradient \emph{post-hoc} FL baseline.
翻訳日:2023-07-26 21:30:22 公開日:2023-07-25
# 自己教師付き映像事前学習による視覚表現

Self-supervised video pretraining yields human-aligned visual representations ( http://arxiv.org/abs/2210.06433v2 )

ライセンス: Link先を確認
Nikhil Parthasarathy, S. M. Ali Eslami, Jo\~ao Carreira, Olivier J. H\'enaff(参考訳) 人間は時間とともにどのように進化するかを観察して、オブジェクトやシーンの強力な表現を学ぶ。 しかし、明示的な時間的理解を必要とする特定のタスク以外では、静的画像事前学習は、視覚基礎モデルを学ぶための主要なパラダイムである。 我々はこのミスマッチに疑問を呈し、ビデオ事前学習が人間の知覚の目印となる視覚的表現をもたらすかどうかを問う:タスク間の一般化、摂動に対する堅牢性、人間の判断との整合性。 そこで我々は,ビデオのキュレーションのための新しい手法を提案し,複雑な変換から学習するコントラストフレームワークを開発した。 vitoと呼ばれるビデオから知識を蒸留するこの単純なパラダイムは、画像理解タスクの事前学習方法や、ビデオ理解タスクにおける画像事前学習方法よりもはるかに優れている一般的な表現をもたらす。 さらに,vito表現は,画像,映像,敵対的に訓練された表現よりも自然変形や合成変形に対して有意に頑健である。 最後に、ヴィトーの予測は人間の判断と強く一致し、その目的のために特別に訓練されたモデルを上回る。 これらの結果から,映像事前学習は視覚世界の統一的・強固・人道的表現を学習するための簡便な方法である可能性が示唆された。

Humans learn powerful representations of objects and scenes by observing how they evolve over time. Yet, outside of specific tasks that require explicit temporal understanding, static image pretraining remains the dominant paradigm for learning visual foundation models. We question this mismatch, and ask whether video pretraining can yield visual representations that bear the hallmarks of human perception: generalisation across tasks, robustness to perturbations, and consistency with human judgements. To that end we propose a novel procedure for curating videos, and develop a contrastive framework which learns from the complex transformations therein. This simple paradigm for distilling knowledge from videos, called VITO, yields general representations that far outperform prior video pretraining methods on image understanding tasks, and image pretraining methods on video understanding tasks. Moreover, VITO representations are significantly more robust to natural and synthetic deformations than image-, video-, and adversarially-trained ones. Finally, VITO's predictions are strongly aligned with human judgements, surpassing models that were specifically trained for that purpose. Together, these results suggest that video pretraining could be a simple way of learning unified, robust, and human-aligned representations of the visual world.
翻訳日:2023-07-26 21:29:46 公開日:2023-07-25
# スコアベース条件モデルの概念代数

Concept Algebra for Score-Based Conditional Models ( http://arxiv.org/abs/2302.03693v2 )

ライセンス: Link先を確認
Zihao Wang, Lin Gui, Jeffrey Negrea, Victor Veitch(参考訳) 本稿では,テキスト誘導生成モデルにおける学習表現の構造を,スコアベースモデルに焦点をあてる。 ここでは、ある表現空間の部分空間(あるいは方向)として概念が符号化されるという考えに焦点を当てる。 我々は、この概念の数学的形式化を開発し、この形式化を用いて、この性質による表現の自然な選択を示し、与えられた概念に対応する表現の一部を識別する簡単な方法を開発する。 特に、表現の代数的操作を通じてモデルによって表現される概念を操作することができる。 本稿では,安定拡散を用いたテキスト誘導画像生成の例を示す。

This paper concerns the structure of learned representations in text-guided generative models, focusing on score-based models. Here, we focus on the idea that concepts are encoded as subspaces (or directions) of some representation space. We develop a mathematical formalization of this idea.Using this formalism, we show there's a natural choice of representation with this property, and we develop a simple method for identifying the part of the representation corresponding to a given concept. In particular, this allows us to manipulate the concepts expressed by the model through algebraic manipulation of the representation. We demonstrate the idea with examples text-guided image generation, using Stable Diffusion.
翻訳日:2023-07-26 21:21:48 公開日:2023-07-25
# cadモデルからソフトポイントクラウドラベルへ:安価な教師付き3dセマンティックセグメンテーションのための自動アノテーションパイプライン

From CAD models to soft point cloud labels: An automatic annotation pipeline for cheaply supervised 3D semantic segmentation ( http://arxiv.org/abs/2302.03114v3 )

ライセンス: Link先を確認
Galadrielle Humblot-Renaux, Simon Buus Jensen, Andreas M{\o}gelmose(参考訳) そこで本研究では,一組のCADモデルで生の3Dポイントクラウドを入力とし,ポイントクラウドセグメンテーションのための安価なトレーニングデータとして使用できる説得力のあるポイントワイドラベルを出力する,完全自動アノテーション方式を提案する。 手動アノテーションと比較して,アノテーション時間を大幅に削減し,手動介入やデータセット固有のパラメータを不要にしながら,自動ラベルが正確であることを示す。 我々のラベル付けパイプラインはセマンティッククラスとソフトポイントのオブジェクトスコアを出力し、標準的な1ホットコードラベルに二項化して、あいまいな点を残した弱いラベルに閾値付けするか、トレーニング中にソフトラベルとして直接使用するかのどちらかである。 本研究では,実産業用点雲のデータセットと屋内シーンの公開データセットであるScan2CADを用いて,PointNet++のラベル品質とセグメンテーション性能を評価する。 その結果,各点にハードな「最良の推測」ラベルを割り当てる従来の手法に比べて,自動ラベル付けが難しい領域での監督の削減が有益であることが示された。

We propose a fully automatic annotation scheme that takes a raw 3D point cloud with a set of fitted CAD models as input and outputs convincing point-wise labels that can be used as cheap training data for point cloud segmentation. Compared with manual annotations, we show that our automatic labels are accurate while drastically reducing the annotation time and eliminating the need for manual intervention or dataset-specific parameters. Our labeling pipeline outputs semantic classes and soft point-wise object scores, which can either be binarized into standard one-hot-encoded labels, thresholded into weak labels with ambiguous points left unlabeled, or used directly as soft labels during training. We evaluate the label quality and segmentation performance of PointNet++ on a dataset of real industrial point clouds and Scan2CAD, a public dataset of indoor scenes. Our results indicate that reducing supervision in areas that are more difficult to label automatically is beneficial compared with the conventional approach of naively assigning a hard "best guess" label to every point.
翻訳日:2023-07-26 21:21:37 公開日:2023-07-25
# 自己再生による多様性誘導型環境設計

Diversity Induced Environment Design via Self-Play ( http://arxiv.org/abs/2302.02119v4 )

ライセンス: Link先を確認
Dexun Li, Wenjun Li, Pradeep Varakantham(参考訳) 環境の適切な分布を設計する最近の研究は、効果的な汎用エージェントの訓練を約束していることを示している。 その成功の一部は、エージェントの能力の最前線で環境インスタンス(またはレベル)を生成する適応的なカリキュラム学習の形式が原因である。 しかし、このような環境設計フレームワークは、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労し、環境とのコストのかかる相互作用を必要とする。 本稿では,Unsupervised Environment Design (UED) フレームワークに多様性を導入することを目的とする。 具体的には,与えられたレベルを表す観測/隠蔽状態を特定するタスク非依存の手法を提案する。 この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。 さらに, サンプリング効率を向上させるため, 環境生成装置が学習エージェントにとって非常に有益な環境を自動的に生成できるセルフプレイ技術も取り入れた。 提案手法は,DivSP(DivSP)による環境設計であり,既存の手法よりも優れた性能を示す。

Recent work on designing an appropriate distribution of environments has shown promise for training effective generally capable agents. Its success is partly because of a form of adaptive curriculum learning that generates environment instances (or levels) at the frontier of the agent's capabilities. However, such an environment design framework often struggles to find effective levels in challenging design spaces and requires costly interactions with the environment. In this paper, we aim to introduce diversity in the Unsupervised Environment Design (UED) framework. Specifically, we propose a task-agnostic method to identify observed/hidden states that are representative of a given level. The outcome of this method is then utilized to characterize the diversity between two levels, which as we show can be crucial to effective performance. In addition, to improve sampling efficiency, we incorporate the self-play technique that allows the environment generator to automatically generate environments that are of great benefit to the training agent. Quantitatively, our approach, Diversity-induced Environment Design via Self-Play (DivSP), shows compelling performance over existing methods.
翻訳日:2023-07-26 21:21:12 公開日:2023-07-25
# Davis-Yin 分割による予測と最適化の高速化

Faster Predict-and-Optimize with Davis-Yin Splitting ( http://arxiv.org/abs/2301.13395v2 )

ライセンス: Link先を確認
Daniel McKenzie, Samy Wu Fung, Howard Heaton(参考訳) 多くの応用において、組合せ問題は類似するが異なるパラメータで繰り返し解かなければならない。 しかしパラメータ$w$は直接観測されておらず、$w$と相関するコンテキストデータ$d$のみが利用可能である。 ニューラルネットワークを使用して$d$の予測を行う傾向がありますが、そのようなモデルのトレーニングには、ニューラルネットワークのトレーニングに使用される勾配ベースのフレームワークと組み合わせ最適化の独立した性質の調整が必要です。 問題となるのが整数線形計画 (ILP) の場合、この問題を克服するための一つのアプローチは、組合せ問題の継続的な緩和を考えることである。 このアプローチを用いた既存手法は小さな問題(10-100変数)に対して非常に有効であることが示されているが、大きな問題に対してうまくスケールしない。 本研究では,現代的な凸最適化から,何千もの変数を持つ問題に対して無益にスケール可能なネットワークおよびトレーニングスキームを設計する手法を提案する。

In many applications, a combinatorial problem must be repeatedly solved with similar, but distinct parameters. Yet, the parameters $w$ are not directly observed; only contextual data $d$ that correlates with $w$ is available. It is tempting to use a neural network to predict $w$ given $d$, but training such a model requires reconciling the discrete nature of combinatorial optimization with the gradient-based frameworks used to train neural networks. When the problem in question is an Integer Linear Program (ILP), one approach to overcoming this issue is to consider a continuous relaxation of the combinatorial problem. While existing methods utilizing this approach have shown to be highly effective on small problems (10-100 variables), they do not scale well to large problems. In this work, we draw on ideas from modern convex optimization to design a network and training scheme which scales effortlessly to problems with thousands of variables.
翻訳日:2023-07-26 21:20:39 公開日:2023-07-25
# マルチアームバンドと量子チャネルオラクル

Multi-Armed Bandits and Quantum Channel Oracles ( http://arxiv.org/abs/2301.08544v2 )

ライセンス: Link先を確認
Simon Buchholz, Jonas M. K\"ubler, Bernhard Sch\"olkopf(参考訳) 多腕バンディットは強化学習の理論的柱の1つである。 近年,マルチアームバンディット問題に対する量子アルゴリズムの研究が開始され,腕と腕の報酬のランダム性が重ね合わせで問合せ可能な場合,二次的なスピードアップ(クエリ複雑性)が可能であることが判明した。 ここでは,報酬のランダム性への限定的なアクセスしかできないが,重ね合わせで腕を照会できる,さらなるバンディットモデルを紹介する。 クエリの複雑さは古典的なアルゴリズムと同じであることを示す。 これにより、オラクルが正の故障確率を持つ場合、非構造化探索ではスピードアップができないという事前結果が一般化される。

Multi-armed bandits are one of the theoretical pillars of reinforcement learning. Recently, the investigation of quantum algorithms for multi-armed bandit problems was started, and it was found that a quadratic speed-up (in query complexity) is possible when the arms and the randomness of the rewards of the arms can be queried in superposition. Here we introduce further bandit models where we only have limited access to the randomness of the rewards, but we can still query the arms in superposition. We show that then the query complexity is the same as for classical algorithms. This generalizes the prior result that no speed-up is possible for unstructured search when the oracle has positive failure probability.
翻訳日:2023-07-26 21:20:01 公開日:2023-07-25
# SST : 空間的・時間的疎結合による実時間終端モノクロ3次元再構成

SST: Real-time End-to-end Monocular 3D Reconstruction via Sparse Spatial-Temporal Guidance ( http://arxiv.org/abs/2212.06524v2 )

ライセンス: Link先を確認
Chenyangguang Zhang, Zhiqiang Lou, Yan Di, Federico Tombari and Xiangyang Ji(参考訳) 実時間単眼3次元再構成は未解決の課題である。 最近のエンド・ツー・エンドの手法は有望な結果を示しているが、空間的詳細を無視し、時間的手がかりを無視する過度に単純化された特徴融合のため、小さな構造や幾何学的境界はほとんど捉えられない。 この問題を解決するために,視覚SLAMシステムからのスパース推定点を付加空間誘導として利用し,新たなモーダルアテンション機構により時間的特徴を融合し,より詳細な再構築結果を得る,エンドツーエンド3D再構築ネットワークSSTを提案する。 我々は,多視点カラー情報やスパース先行情報からより情報的空間時間的手がかりを利用するローカル空間時間フュージョンモジュールと,世界フレームモデルを用いて局所TSDF量を粗大から微少に改善するグローバル空間時間フュージョンモジュールを提案する。 ScanNetと7-Scenesの大規模な実験は、SSTが59FPSで高い推論速度を維持しながら、すべての最先端の競合より優れていることを示した。

Real-time monocular 3D reconstruction is a challenging problem that remains unsolved. Although recent end-to-end methods have demonstrated promising results, tiny structures and geometric boundaries are hardly captured due to their insufficient supervision neglecting spatial details and oversimplified feature fusion ignoring temporal cues. To address the problems, we propose an end-to-end 3D reconstruction network SST, which utilizes Sparse estimated points from visual SLAM system as additional Spatial guidance and fuses Temporal features via a novel cross-modal attention mechanism, achieving more detailed reconstruction results. We propose a Local Spatial-Temporal Fusion module to exploit more informative spatial-temporal cues from multi-view color information and sparse priors, as well a Global Spatial-Temporal Fusion module to refine the local TSDF volumes with the world-frame model from coarse to fine. Extensive experiments on ScanNet and 7-Scenes demonstrate that SST outperforms all state-of-the-art competitors, whilst keeping a high inference speed at 59 FPS, enabling real-world applications with real-time requirements.
翻訳日:2023-07-26 21:18:49 公開日:2023-07-25
# 非対角距離におけるスケーラブル確率勾配リーマンランゲインダイナミクス

Scalable Stochastic Gradient Riemannian Langevin Dynamics in Non-Diagonal Metrics ( http://arxiv.org/abs/2303.05101v2 )

ライセンス: Link先を確認
Hanlin Yu, Marcelo Hartmann, Bernardo Williams and Arto Klami(参考訳) 確率勾配サンプリング法は、ニューラルネットワーク上でベイズ推論を行うためにしばしば用いられる。 微分幾何学の概念を包含する手法は、リーマン計量が局所曲率を計算して後方探索を改善することにより、より優れた性能を持つ傾向があることが観察されている。 しかし、既存の手法は計算効率を維持するために単純な対角法を用いることが多い。 これは多少の利益を失う。 本稿では,2つの非対角的メトリクスを確率勾配サンプリング器で使用して収束と探索を改善するが,対角的メトリクスに対する計算オーバーヘッドはわずかである。 完全接続型ニューラルネットワーク(NN)と疎結合型プリエントと、相関したプリエントを持つ畳み込みNNでは、これらのメトリクスを用いることで改善が期待できることを示す。 他の選択肢では、後部は単純なメトリクスに対しても十分簡単である。

Stochastic-gradient sampling methods are often used to perform Bayesian inference on neural networks. It has been observed that the methods in which notions of differential geometry are included tend to have better performances, with the Riemannian metric improving posterior exploration by accounting for the local curvature. However, the existing methods often resort to simple diagonal metrics to remain computationally efficient. This loses some of the gains. We propose two non-diagonal metrics that can be used in stochastic-gradient samplers to improve convergence and exploration but have only a minor computational overhead over diagonal metrics. We show that for fully connected neural networks (NNs) with sparsity-inducing priors and convolutional NNs with correlated priors, using these metrics can provide improvements. For some other choices the posterior is sufficiently easy also for the simpler metrics.
翻訳日:2023-07-26 21:12:23 公開日:2023-07-25
# 線形CNNは最も支配的な周波数のみを用いてデータセットの統計的構造を明らかにする

Linear CNNs Discover the Statistical Structure of the Dataset Using Only the Most Dominant Frequencies ( http://arxiv.org/abs/2303.02034v2 )

ライセンス: Link先を確認
Hannah Pinson, Joeri Lenaerts, Vincent Ginis(参考訳) ここでは、線形CNNにおける学習理論の形で、畳み込みニューラルネットワーク(CNN)の深い理解に向けて、ステップストーンを提示する。 勾配降下方程式の解析により,学習中のネットワークの進化は,データセット構造と畳み込みネットワーク構造との相互作用によって決定されることがわかった。 線形cnnは,非線形,順序,ステージ様遷移を伴うデータセットの統計的構造を発見し,データセットと畳み込みネットワーク構造の関係によって発見速度が変化することを示す。 さらに、この相互作用は「主周波数バイアス」と呼ばれるものの中心にあり、リニアcnnはデータセットに存在する異なる構造部分の優占周波数のみを使用してこれらの発見に到達している。 さらに、我々の理論が実際に使用される深い非線形CNNとどのように関係しているかを示す実験も提供する。 われわれは,CNNの内部動作に新たな光を当て,そのショートカット学習と,形状よりもテクスチャに頼っている傾向を説明するのに役立てることができた。

We here present a stepping stone towards a deeper understanding of convolutional neural networks (CNNs) in the form of a theory of learning in linear CNNs. Through analyzing the gradient descent equations, we discover that the evolution of the network during training is determined by the interplay between the dataset structure and the convolutional network structure. We show that linear CNNs discover the statistical structure of the dataset with non-linear, ordered, stage-like transitions, and that the speed of discovery changes depending on the relationship between the dataset and the convolutional network structure. Moreover, we find that this interplay lies at the heart of what we call the ``dominant frequency bias'', where linear CNNs arrive at these discoveries using only the dominant frequencies of the different structural parts present in the dataset. We furthermore provide experiments that show how our theory relates to deep, non-linear CNNs used in practice. Our findings shed new light on the inner working of CNNs, and can help explain their shortcut learning and their tendency to rely on texture instead of shape.
翻訳日:2023-07-26 21:12:10 公開日:2023-07-25
# 進化的なルックアップテーブルによるオンラインストリーミングビデオの超解法

Online Streaming Video Super-Resolution with Convolutional Look-Up Table ( http://arxiv.org/abs/2303.00334v4 )

ライセンス: Link先を確認
Guanghao Yin, Zefan Qu, Xinyang Jiang, Shan Jiang, Zhenhua Han, Ningxin Zheng, Xiaohong Liu, Huan Yang, Yuqing Yang, Dongsheng Li, Lili Qiu(参考訳) オンラインビデオストリーミングは伝送帯域幅と計算容量に根本的な制限があり、スーパーレゾリューションは有望な解決策である。 しかし、既存のビデオ超解像法をオンラインストリーミングに適用することは簡単ではない。 既存のビデオコーデックとストリーミングプロトコル(\eg, WebRTC)は、ビデオの品質を空間的にも時間的にも動的に変化させ、多様な動的劣化をもたらす。 さらに、オンラインストリーミングには、既存のほとんどのメソッドが適用できないようなレイテンシの厳しい要件がある。 その結果,オンライン・ストリーミング・ビデオの超解像の難解な問題設定に焦点をあてた。 この問題の研究を容易にするため、LDV-WebRTCと呼ばれる新しいベンチマークデータセットが、実世界のオンラインストリーミングシステムに基づいて構築されている。 新しいベンチマークデータセットを活用することで、コンボリューションとLook-Up Table(LUT)ハイブリッドモデルを含むオンラインビデオストリーミングに特化した新しい手法を提案し、パフォーマンスとレイテンシのトレードオフを改善する。 劣化変化に対処するため, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて異なる劣化に対処する, 実験用LUTモジュールを提案する。 提案手法は720pビデオsrを約100fpsで達成すると同時に,既存のlutベースの手法を大幅に上回り,効率的なcnnベースの手法と比較して競合性能を提供する。

Online video streaming has fundamental limitations on the transmission bandwidth and computational capacity and super-resolution is a promising potential solution. However, applying existing video super-resolution methods to online streaming is non-trivial. Existing video codecs and streaming protocols (\eg, WebRTC) dynamically change the video quality both spatially and temporally, which leads to diverse and dynamic degradations. Furthermore, online streaming has a strict requirement for latency that most existing methods are less applicable. As a result, this paper focuses on the rarely exploited problem setting of online streaming video super resolution. To facilitate the research on this problem, a new benchmark dataset named LDV-WebRTC is constructed based on a real-world online streaming system. Leveraging the new benchmark dataset, we proposed a novel method specifically for online video streaming, which contains a convolution and Look-Up Table (LUT) hybrid model to achieve better performance-latency trade-off. To tackle the changing degradations, we propose a mixture-of-expert-LUT module, where a set of LUT specialized in different degradations are built and adaptively combined to handle different degradations. Experiments show our method achieves 720P video SR around 100 FPS, while significantly outperforms existing LUT-based methods and offers competitive performance compared to efficient CNN-based methods.
翻訳日:2023-07-26 21:11:52 公開日:2023-07-25
# 時空間変換器誘導拡散に基づく効率的な骨格型行動認識のためのデータ拡張

Spatial-temporal Transformer-guided Diffusion based Data Augmentation for Efficient Skeleton-based Action Recognition ( http://arxiv.org/abs/2302.13434v2 )

ライセンス: Link先を確認
Yifan Jiang, Han Chen, Hanseok Ko(参考訳) 近年、ヒト骨格のコンパクトな表現が新しい血液をこの研究領域にもたらすため、ヒトの骨格に基づく行動が熱い研究トピックとなっている。 その結果、研究者らはRGBや他のセンサーを使って骨格情報を抽出することで人間の行動を分析することの重要性に気づき始めた。 近年, 深層学習(DL)の急速な発展にともない, 骨格を基盤とした人為的行動のアプローチが, 細かな設計のDL構造で提示されている。 しかし、十分に訓練されたdlモデルは、常に高品質で十分なデータを要求するが、高いコストと人的労力を犠牲にすることなく取得することは困難である。 本稿では,高品質かつ多様な逐次動作を効果的に生成できるスケルトンベース行動認識タスクのための新しいデータ拡張手法を提案する。 自然および現実的な動作系列を得るために, 一連の合成動作系列を生成できる非接触拡散確率モデル (ddpms) を提案し, それらの生成過程を空間-時空間トランスフォーマ (st-trans) により精度良く導出する。 実験の結果,本手法は自然性および多様性の異なる指標に対して,最先端(SOTA)モーション生成手法よりも優れていた。 高品質な合成データが既存の行動認識モデルに効果的に展開でき、性能が大幅に向上することを示した。

Recently, skeleton-based human action has become a hot research topic because the compact representation of human skeletons brings new blood to this research domain. As a result, researchers began to notice the importance of using RGB or other sensors to analyze human action by extracting skeleton information. Leveraging the rapid development of deep learning (DL), a significant number of skeleton-based human action approaches have been presented with fine-designed DL structures recently. However, a well-trained DL model always demands high-quality and sufficient data, which is hard to obtain without costing high expenses and human labor. In this paper, we introduce a novel data augmentation method for skeleton-based action recognition tasks, which can effectively generate high-quality and diverse sequential actions. In order to obtain natural and realistic action sequences, we propose denoising diffusion probabilistic models (DDPMs) that can generate a series of synthetic action sequences, and their generation process is precisely guided by a spatial-temporal transformer (ST-Trans). Experimental results show that our method outperforms the state-of-the-art (SOTA) motion generation approaches on different naturality and diversity metrics. It proves that its high-quality synthetic data can also be effectively deployed to existing action recognition models with significant performance improvement.
翻訳日:2023-07-26 21:11:30 公開日:2023-07-25
# 一般的なニューラルネットワークアクティベーション機能の統一化

Unification of popular artificial neural network activation functions ( http://arxiv.org/abs/2302.11007v2 )

ライセンス: Link先を確認
Mohammad Mostafanejad(参考訳) 本稿では,最もポピュラーなニューラルネットワークアクティベーション関数の統一表現を提案する。 分数計算のmittag-leffler関数を採用することで,様々なアクティベーション関数間の補間や,勾配の消失や爆発といったニューラルネットワークのトレーニングにおける一般的な問題を軽減できる,柔軟でコンパクトな関数形式を提案する。 提示されたゲート表現は、トレーニングデータから形状を学習可能な適応型に固定形活性化関数の範囲を広げる。 提案された関数形式の導関数は、勾配に基づくバックプロパゲーションアルゴリズムの候補として適切なmittag-leffler関数を用いて表現することもできる。 異なるサイズのデータセット上で異なる複雑な複数のニューラルネットワークをトレーニングすることにより、アクティベーション関数の統一的なゲート表現を採用することで、従来の機械学習フレームワークにおけるアクティベーション関数の個別実装に対する、有望で安価な代替手段が提供されることを示す。

We present a unified representation of the most popular neural network activation functions. Adopting Mittag-Leffler functions of fractional calculus, we propose a flexible and compact functional form that is able to interpolate between various activation functions and mitigate common problems in training neural networks such as vanishing and exploding gradients. The presented gated representation extends the scope of fixed-shape activation functions to their adaptive counterparts whose shape can be learnt from the training data. The derivatives of the proposed functional form can also be expressed in terms of Mittag-Leffler functions making it a suitable candidate for gradient-based backpropagation algorithms. By training multiple neural networks of different complexities on various datasets with different sizes, we demonstrate that adopting a unified gated representation of activation functions offers a promising and affordable alternative to individual built-in implementations of activation functions in conventional machine learning frameworks.
翻訳日:2023-07-26 21:10:49 公開日:2023-07-25
# エネルギー貯蔵量子系の電池容量

The battery capacity of energy-storing quantum systems ( http://arxiv.org/abs/2302.09905v3 )

ライセンス: Link先を確認
Xue Yang, Yan-Han Yang, Mir Alimuddin, Raffaele Salvia, Shao-Ming Fei, Li-Ming Zhao, Stefan Nimmrichter, Ming-Xing Luo(参考訳) 量子バッテリ容量は、エネルギーを蓄え供給する量子システムのポテンシャルを表わすメリットの象徴としてこの手紙で紹介される。 これは、系のユニタリ進化によって到達できる最高エネルギーと最低エネルギーの差として定義される。 この関数はエルゴトロピーと密接に結びついているが、系の一時的なエネルギーレベルには依存しない。 量子バッテリの容量は、バッテリ状態のエントロピーや、コヒーレンスや絡み合いの尺度と直接リンクすることができる。

The quantum battery capacity is introduced in this letter as a figure of merit that expresses the potential of a quantum system to store and supply energy. It is defined as the difference between the highest and the lowest energy that can be reached by means of the unitary evolution of the system. This function is closely connected to the ergotropy, but it does not depend on the temporary level of energy of the system. The capacity of a quantum battery can be directly linked with the entropy of the battery state, as well as with measures of coherence and entanglement.
翻訳日:2023-07-26 21:10:33 公開日:2023-07-25
# オンライン学習ガイド曲率近似:大域的非漸近超線形収束を伴う準ニュートン法

Online Learning Guided Curvature Approximation: A Quasi-Newton Method with Global Non-Asymptotic Superlinear Convergence ( http://arxiv.org/abs/2302.08580v2 )

ライセンス: Link先を確認
Ruichen Jiang, Qiujiang Jin, Aryan Mokhtari(参考訳) 準ニュートンアルゴリズムは、制約のない最小化問題を解くための最も一般的な反復法の一つである。 しかし、これらのアルゴリズムの既存の結果は、どちらかを提供するため限られている。 (i)漸近的な超線形収束率を持つ大域収束保証、又は 2)初期点と初期ヘッセン近似が適切に選択された場合の局所的非漸近性超線形速度。 特に、準ニュートン法の電流解析は、明示的な超線形収束率で大域収束を保証する。 本稿では,このギャップを埋め,非漸近性超線形収束率を明示した最初のグローバル収束準ニュートン法を示す。 古典的準ニュートン法とは異なり, ハイブリッドな近位勾配法に基づくアルゴリズムを構築し, ヘッセン近似行列を更新するための新しいオンライン学習フレームワークを提案する。 具体的には、収束解析により、行列空間におけるオンライン凸最適化問題としてヘッセン近似更新を定式化し、オンライン問題における無関係な後悔と我々の方法の超線形収束を関連づける。

Quasi-Newton algorithms are among the most popular iterative methods for solving unconstrained minimization problems, largely due to their favorable superlinear convergence property. However, existing results for these algorithms are limited as they provide either (i) a global convergence guarantee with an asymptotic superlinear convergence rate, or (ii) a local non-asymptotic superlinear rate for the case that the initial point and the initial Hessian approximation are chosen properly. In particular, no current analysis for quasi-Newton methods guarantees global convergence with an explicit superlinear convergence rate. In this paper, we close this gap and present the first globally convergent quasi-Newton method with an explicit non-asymptotic superlinear convergence rate. Unlike classical quasi-Newton methods, we build our algorithm upon the hybrid proximal extragradient method and propose a novel online learning framework for updating the Hessian approximation matrices. Specifically, guided by the convergence analysis, we formulate the Hessian approximation update as an online convex optimization problem in the space of matrices, and we relate the bounded regret of the online problem to the superlinear convergence of our method.
翻訳日:2023-07-26 21:10:22 公開日:2023-07-25
# 界面欠陥を持つ自由共形理論の完全数え上げ統計と対称性解決絡み合い

Full counting statistics and symmetry resolved entanglement for free conformal theories with interface defects ( http://arxiv.org/abs/2302.08209v2 )

ライセンス: Link先を確認
Luca Capizzi, Sara Murciano, and Pasquale Calabrese(参考訳) 我々は、一次元臨界自由理論の2つの種が共形インターフェースを介して結合した基底状態を考える。 これらは内部にu(1)$大域的対称性を持ち、不純物を越えた電荷の量子揺らぎを調べ、全計数統計、還元密度行列の荷電モーメント、r\'enyiエントロピーの解析的予測を与える。 本手法は, 欠陥のある幾何学と均質な幾何学との関係を基礎とし, 相関関数のスペクトル特性を2種の1つに限定する手法を提供する。 解析的予測を数値的に検証し,完全な一致を見いだす。

We consider the ground state of two species of one-dimensional critical free theories coupled together via a conformal interface. They have an internal $U(1)$ global symmetry and we investigate the quantum fluctuations of the charge across the impurity, giving analytical predictions for the full counting statistics, the charged moments of the reduced density matrix and the symmetry resolved R\'enyi entropies. Our approach is based on the relation between the geometry with the defect and the homogeneous one, and it provides a way to characterise the spectral properties of the correlation functions restricted to one of the two species. Our analytical predictions are tested numerically, finding a perfect agreement.
翻訳日:2023-07-26 21:10:05 公開日:2023-07-25
# nerfstudio:neural radiance field developmentのためのモジュラーフレームワーク

Nerfstudio: A Modular Framework for Neural Radiance Field Development ( http://arxiv.org/abs/2302.04264v3 )

ライセンス: Link先を確認
Matthew Tancik, Ethan Weber, Evonne Ng, Ruilong Li, Brent Yi, Justin Kerr, Terrance Wang, Alexander Kristoffersen, Jake Austin, Kamyar Salahi, Abhik Ahuja, David McAllister, and Angjoo Kanazawa(参考訳) Neural Radiance Fields (NeRF) は、コンピュータビジョン、グラフィックス、ロボティクスなどの幅広い応用分野において急速に成長している研究分野である。 nerf研究の開発と展開を効率化するために,我々はモジュール型pytorchフレームワークであるnerfstudioを提案する。 我々のフレームワークにはNeRFベースの手法を実装するためのプラグイン・アンド・プレイコンポーネントが含まれており、研究者や実践者が彼らのプロジェクトにNeRFを簡単に組み込むことができる。 さらにモジュール設計では、広範なリアルタイム可視化ツールのサポート、取得したデータをインポートするためのパイプラインの合理化、ビデオやポイントクラウド、メッシュ表現へのエクスポートが可能になる。 nerfstudioのモジュール性により、最近の論文のコンポーネントを組み合わせることで、速度と品質のバランスを保ちつつ、将来の修正にも柔軟性を保ちながら、nerfactoの開発が可能になる。 コミュニティ主導の開発を促進するため、すべての関連コードとデータはhttps://nerf.studio.comでオープンソースライセンスで公開されている。

Neural Radiance Fields (NeRF) are a rapidly growing area of research with wide-ranging applications in computer vision, graphics, robotics, and more. In order to streamline the development and deployment of NeRF research, we propose a modular PyTorch framework, Nerfstudio. Our framework includes plug-and-play components for implementing NeRF-based methods, which make it easy for researchers and practitioners to incorporate NeRF into their projects. Additionally, the modular design enables support for extensive real-time visualization tools, streamlined pipelines for importing captured in-the-wild data, and tools for exporting to video, point cloud and mesh representations. The modularity of Nerfstudio enables the development of Nerfacto, our method that combines components from recent papers to achieve a balance between speed and quality, while also remaining flexible to future modifications. To promote community-driven development, all associated code and data are made publicly available with open-source licensing at https://nerf.studio.
翻訳日:2023-07-26 21:09:53 公開日:2023-07-25
# 半局所結合型ポテンシャルエネルギー面を用いた機械反応研究のためのマルチレベルプロトコル

Multi-level Protocol for Mechanistic Reaction Studies Using Semi-local Fitted Potential Energy Surfaces ( http://arxiv.org/abs/2304.00942v2 )

ライセンス: Link先を確認
Tomislav Piskor, Peter Pinski, Thilo Mast, Vladimir V. Rybkin(参考訳) 本研究では,化学反応機構の日常的理論的研究のためのマルチスケールプロトコルを提案する。 安価な電子構造法により駆動されるNudged-Elastic Band (NEB) 法を用いて, 本システムの初期反応経路をサンプリングした。 経路上の一組の点に対するより正確な電子構造理論で再計算された力は、半局所反応性ポテンシャルエネルギー表面(PES)を生成するための機械学習技術(この場合、対称勾配領域機械学習またはsGDML)を装着し、反応体、生成物、遷移状態(TS)領域を受け入れる。 このアプローチは単分子(エンジインのベルグマン環化)と双分子(S$_\text{N}$2置換)反応にうまく適用されている。 特に, 正確な参照法(casscfとccsd)を用いた50~150のエネルギー-力評価では, 静止点ジオメトリ, 固有反応-配位, バリアに対して定性的合意を与える半局所的pesを構築することが可能である。 さらに, 振動周波数と反応速度係数の定性的な一致を見出した。 この手法の性能の重要な側面は、計算の労力を省くだけでなく、反応経路に沿って有意義な情報を抽出することを可能にするマルチスケールな性質である。 TSの性質や計算経済によらず、このプロトコルは容易に自動化され、機械的反応の研究に日常的に利用できる。

In this work, we propose a multi-scale protocol for routine theoretical studies of chemical reaction mechanisms. The initial reaction paths of our investigated systems are sampled using the Nudged-Elastic Band (NEB) method driven by a cheap electronic structure method. Forces recalculated at the more accurate electronic structure theory for a set of points on the path are fitted with a machine-learning technique (in our case symmetric gradient domain machine learning or sGDML) to produce a semi-local reactive Potential Energy Surface (PES), embracing reactants, products and transition state (TS) regions. This approach has been successfully applied to a unimolecular (Bergman cyclization of enediyne) and a bimolecular (S$_\text{N}$2 substitution) reaction. In particular, we demonstrate that with only 50 to 150 energy-force evaluations with the accurate reference methods (here CASSCF and CCSD) it is possible to construct a semi-local PES giving qualitative agreement for stationary-point geometries, intrinsic reaction-coordinates and barriers. Furthermore, we find a qualitative agreement in vibrational frequencies and reaction rate coefficients. The key aspect of the method's performance is its multi-scale nature, which not only saves computational effort but also allows extracting meaningful information along the reaction path, characterized by zero gradients in all but one direction. Agnostic to the nature of the TS and computationally economic, the protocol can be readily automated and routinely used for mechanistic reaction studies.
翻訳日:2023-07-26 21:02:31 公開日:2023-07-25
# fairgen: 公正グラフ生成に向けて

FairGen: Towards Fair Graph Generation ( http://arxiv.org/abs/2303.17743v2 )

ライセンス: Link先を確認
Lecheng Zheng, Dawei Zhou, Hanghang Tong, Jiejun Xu, Yada Zhu, Jingrui He(参考訳) 過去数十年にわたり、ソーシャルネットワークからコンピュータネットワーク、遺伝子規制ネットワークからオンライントランザクションネットワークまで、さまざまなドメインにおける現実的なグラフの生成に力を入れてきた。 顕著な成功にもかかわらず、これらの作品の大部分は本質的に教師なしであり、通常、期待されたグラフ再構成の損失を最小限に抑えるように訓練されており、結果として生成されたグラフにおける表現格差、すなわち保護されたグループ(少数派)は目的にあまり貢献せず、体系的に高いエラーに苦しむことになる。 本稿では,ラベル情報とユーザの予測したパリティ制約を利用して,ダウンストリームマイニングタスクにグラフ生成を合わせることを目的とする。 特に,グラフ生成モデルの文脈における表現格差の研究から始める。 この格差を軽減するために,FairGen というグラフ生成モデルを提案する。 本モデルでは,'easy'概念から'hard'概念まで,保護群と非保護群の振る舞いを段階的に学習することにより,ラベル付きグラフ生成モジュールと公平表現学習モジュールを共同で学習する。 さらに,グラフ生成モデルに対する一般的なコンテキストサンプリング戦略を提案し,高い確率で各グループのコンテキスト情報を正確に把握できることが証明された。 webベースのグラフを含む7つの実世界のデータセットにおける実験の結果は、fairgen (1) が6つのネットワーク特性にわたる最先端グラフ生成モデルと同等のパフォーマンスを得られること、 (2) 生成されたグラフにおける表現格差の軽減、(3) データ拡張によるダウンストリームタスクの最大17%のモデル性能向上を実証している。

There have been tremendous efforts over the past decades dedicated to the generation of realistic graphs in a variety of domains, ranging from social networks to computer networks, from gene regulatory networks to online transaction networks. Despite the remarkable success, the vast majority of these works are unsupervised in nature and are typically trained to minimize the expected graph reconstruction loss, which would result in the representation disparity issue in the generated graphs, i.e., the protected groups (often minorities) contribute less to the objective and thus suffer from systematically higher errors. In this paper, we aim to tailor graph generation to downstream mining tasks by leveraging label information and user-preferred parity constraint. In particular, we start from the investigation of representation disparity in the context of graph generative models. To mitigate the disparity, we propose a fairness-aware graph generative model named FairGen. Our model jointly trains a label-informed graph generation module and a fair representation learning module by progressively learning the behaviors of the protected and unprotected groups, from the `easy' concepts to the `hard' ones. In addition, we propose a generic context sampling strategy for graph generative models, which is proven to be capable of fairly capturing the contextual information of each group with a high probability. Experimental results on seven real-world data sets, including web-based graphs, demonstrate that FairGen (1) obtains performance on par with state-of-the-art graph generative models across six network properties, (2) mitigates the representation disparity issues in the generated graphs, and (3) substantially boosts the model performance by up to 17% in downstream tasks via data augmentation.
翻訳日:2023-07-26 21:02:01 公開日:2023-07-25
# データドリフトレンズによる学習における非侵襲的公正性

Non-Invasive Fairness in Learning through the Lens of Data Drift ( http://arxiv.org/abs/2303.17566v3 )

ライセンス: Link先を確認
Ke Yang and Alexandra Meliou(参考訳) 機械学習(ML)モデルは、多くの現代のデータシステムを動かすために広く使われている。 mlモデルは間違いなく強力なツールですが、不均衡なパフォーマンスと不公平な振る舞いをしばしば示します。 学習アルゴリズムがデータの傾向を識別しようとすると、多数派の傾向を自然に好んでおり、少数民族にとって不公平かつ不公平な結果をもたらすモデルとなっている。 我々の目標は、データや学習アルゴリズムを変更することなく、非侵襲的な介入のみを適用することで、MLモデルの公正性と信頼性を向上させることです。 異なる集団間の傾向のばらつきと、学習されたモデルと少数派の集団間の連続的な傾向は、データドリフトと類似しており、データの一部と訓練されたモデルとの整合性が低いことを示している。 このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的とする。 両手法とも、最近提案されたコンフォーマンス制約のプリミティブであるデータプロファイリングを利用する新しい手法を導入している。 7つの実世界のデータセットに対する実験評価から,diffair と confair の両方が ml モデルの公平性を向上させることが示された。 DifFairがエッジを持つシナリオを実演していますが、ConFairは最も実践的な影響があり、他のベースラインよりも優れています。 さらに,モデル非依存の手法として,重み付けが学習されたモデルと異なるモデルに対して使用しても,コンプレアは頑健であり,他の技術ではそうではない。

Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models. We demonstrate scenarios where DifFair has an edge, though ConFair has the greatest practical impact and outperforms other baselines. Moreover, as a model-agnostic technique, ConFair stays robust when used against different models than the ones on which the weights have been learned, which is not the case for other state of the art.
翻訳日:2023-07-26 21:01:31 公開日:2023-07-25
# 磁場をもつ動的ホログラフィックqcdモデルによる懸濁弦の異方性とフレーム依存性のカオス

Anisotropic and frame dependent chaos of suspended strings from a dynamical holographic QCD model with magnetic field ( http://arxiv.org/abs/2303.15716v2 )

ライセンス: Link先を確認
Bhaskar Shukla, David Dudal, Subhash Mahapatra(参考訳) 本研究では, 定性的かつ定量的な視点から, ホログラフィの観点から磁場中におけるQCD閉包弦のカオスの発生について検討した。 我々は、QCDとその熱力学をよく模倣するアインシュタイン・マクスウェル・ディラトン作用の初期のボトムアップ解を用いている。 磁場は弦のフレームの磁場に対して垂直方向と平行方向の両方のカオスを抑制する傾向があるが、アインシュタインのフレームではカオスの抑制は垂直方向にのみ起こり、磁場に沿って強化されたカオスが発生する。 両方のフレームにおける抑制/強調の量は、弦と磁場の相対方向に依存する。

We investigate both from a qualitative as well as quantitative perspective the emergence of chaos in the QCD confining string in a magnetic field from a holographic viewpoint. We use an earlier developed bottom-up solution of the Einstein-Maxwell-Dilaton action that mimics QCD and its thermodynamics quite well. Surprisingly, our predictions depend on the used frame: the magnetic field tends to suppress the chaos in both perpendicular and parallel directions relative to the magnetic field in the string frame whilst in the Einstein frame, the chaos suppression only happens in the perpendicular direction, with an enhanced chaos along the magnetic field. The amount of suppression/enhancement in both frames does depend on the relative orientation of the string and magnetic field.
翻訳日:2023-07-26 21:00:44 公開日:2023-07-25
# marl-jax: マルチエージェント強化リーンフレームワーク

marl-jax: Multi-Agent Reinforcement Leaning Framework ( http://arxiv.org/abs/2303.13808v2 )

ライセンス: Link先を確認
Kinal Mehta, Anuj Mahajan, Pawan Kumar(参考訳) 強化学習(RL)の最近の進歩は、多くのエキサイティングな応用につながっている。 これらの進歩は、アルゴリズムと工学の両方の改善によって推進され、RLエージェントの訓練が高速化された。 エージェントの社会的一般化を訓練・評価するためのマルチエージェント強化学習ソフトウェアであるmarl-jaxを提案する。 このパッケージは、マルチエージェント環境でエージェントの集団を訓練し、さまざまなバックグラウンドエージェントに一般化する能力を評価するために設計されている。 DeepMindのJAXエコシステム~\cite{deepmind2020jax}の上に構築されており、DeepMindが開発したRLエコシステムを活用している。 当社のフレームワークであるmarl-jaxは,複数のエージェントと協調的かつ競争的かつ同時動作する環境で動作する。 このパッケージは、人口を訓練し、その一般化能力を評価するための直感的でユーザフレンドリなコマンドラインインターフェースを提供する。 結論として、Marl-jaxは、MARLの文脈における社会的一般化の探求に興味を持つ研究者に貴重なリソースを提供する。 marl-jaxのオープンソースコードは以下の通りである。 \href{https://github.com/kinalmehta/marl-jax}{https://github.com/kinalmehta/marl-jax}

Recent advances in Reinforcement Learning (RL) have led to many exciting applications. These advancements have been driven by improvements in both algorithms and engineering, which have resulted in faster training of RL agents. We present marl-jax, a multi-agent reinforcement learning software package for training and evaluating social generalization of the agents. The package is designed for training a population of agents in multi-agent environments and evaluating their ability to generalize to diverse background agents. It is built on top of DeepMind's JAX ecosystem~\cite{deepmind2020jax} and leverages the RL ecosystem developed by DeepMind. Our framework marl-jax is capable of working in cooperative and competitive, simultaneous-acting environments with multiple agents. The package offers an intuitive and user-friendly command-line interface for training a population and evaluating its generalization capabilities. In conclusion, marl-jax provides a valuable resource for researchers interested in exploring social generalization in the context of MARL. The open-source code for marl-jax is available at: \href{https://github.com/kinalmehta/marl-jax}{https://github.com/kinalmehta/marl-jax}
翻訳日:2023-07-26 21:00:33 公開日:2023-07-25
# 記憶に跳躍する: 時空深層特徴合成

Leaping Into Memories: Space-Time Deep Feature Synthesis ( http://arxiv.org/abs/2303.09941v4 )

ライセンス: Link先を確認
Alexandros Stergiou and Nikos Deligiannis(参考訳) ディープラーニングモデルの成功は、顕著なビデオ理解手法による適応と採用につながった。 これらのアプローチの大部分は、内部動作と学習された表現が視覚的に解釈するのが困難である共同時空モダリティの特徴を符号化している。 本稿では,モデルの内部時空間表現から映像を合成するためのアーキテクチャに依存しない手法であるleapsを提案する。 刺激映像と対象クラスを用いて固定時空モデルを生成し,無作為な雑音により初期化された映像を反復的に最適化する。 追加の正規化器は、モーションのクロスフレーム時間的コヒーレンスと共に合成ビデオの特徴多様性を改善するために使用される。 我々は,Kineetics-400で訓練された多種多様な時空間畳み込みおよび注意に基づくアーキテクチャを逆転させることにより,LEAPSの適用性を定量的に,質的に評価する。

The success of deep learning models has led to their adaptation and adoption by prominent video understanding methods. The majority of these approaches encode features in a joint space-time modality for which the inner workings and learned representations are difficult to visually interpret. We propose LEArned Preconscious Synthesis (LEAPS), an architecture-independent method for synthesizing videos from the internal spatiotemporal representations of models. Using a stimulus video and a target class, we prime a fixed space-time model and iteratively optimize a video initialized with random noise. Additional regularizers are used to improve the feature diversity of the synthesized videos alongside the cross-frame temporal coherence of motions. We quantitatively and qualitatively evaluate the applicability of LEAPS by inverting a range of spatiotemporal convolutional and attention-based architectures trained on Kinetics-400, which to the best of our knowledge has not been previously accomplished.
翻訳日:2023-07-26 21:00:15 公開日:2023-07-25
# FusionLoc:マルチヘッド自己注意を用いたカメラ2D LiDARフュージョン

FusionLoc: Camera-2D LiDAR Fusion Using Multi-Head Self-Attention for End-to-End Serving Robot Relocalization ( http://arxiv.org/abs/2303.06872v4 )

ライセンス: Link先を確認
Jieun Lee, Hakjun Lee, Jiyong Oh(参考訳) 自律移動ロボットのテクノロジーが進歩するにつれて、移動サービスロボットは様々な目的のために積極的に使われてきた。 特に、新型コロナウイルス(COVID-19)のパンデミック以来、サービスロボットは驚くべき製品ではなかった。 サービスロボットを操作する際の現実的な問題の1つは、動き回る地図上でそのポーズを見積もることに失敗することが多いことである。 障害が発生した場合、サーバーはサービスロボットを初期位置に持ち込み、手動で再起動する必要がある。 本稿では,この問題に対処するためのサービスロボットのエンドツーエンド再ローカライズに焦点をあてる。 ニューラルネットワークを用いて、搭載されているセンサーデータから直接ロボットのポーズを予測する。 特に,カメラ2D LiDARセンサ融合に基づく再局在のためのディープニューラルネットワークアーキテクチャを提案する。 提案手法をFusionLocと呼ぶ。 提案手法では,2つのセンサが捉えた様々な種類の情報を補完してロボットのポーズを復元する。 商用サービスロボットが収集したデータセットを用いた実験により、FusionLocは、1つの画像または2次元LiDAR点クラウドのみを受信する従来のエンドツーエンド再ローカライゼーション手法よりも優れた性能と、それらの特徴を結合した簡単な融合法を提供できることを示した。

As technology advances in autonomous mobile robots, mobile service robots have been actively used more and more for various purposes. Especially, serving robots have been not surprising products anymore since the COVID-19 pandemic. One of the practical problems in operating a serving robot is that it often fails to estimate its pose on a map that it moves around. Whenever the failure happens, servers should bring the serving robot to its initial location and reboot it manually. In this paper, we focus on end-to-end relocalization of serving robots to address the problem. It is to predict robot pose directly from only the onboard sensor data using neural networks. In particular, we propose a deep neural network architecture for the relocalization based on camera-2D LiDAR sensor fusion. We call the proposed method FusionLoc. In the proposed method, the multi-head self-attention complements different types of information captured by the two sensors to regress the robot pose. Our experiments on a dataset collected by a commercial serving robot demonstrate that FusionLoc can provide better performances than previous end-to-end relocalization methods taking only a single image or a 2D LiDAR point cloud as well as a straightforward fusion method concatenating their features.
翻訳日:2023-07-26 20:59:57 公開日:2023-07-25
# 注意エントロピー崩壊防止による変圧器訓練の安定化

Stabilizing Transformer Training by Preventing Attention Entropy Collapse ( http://arxiv.org/abs/2303.06296v2 )

ライセンス: Link先を確認
Shuangfei Zhai, Tatiana Likhomanenko, Etai Littwin, Dan Busbridge, Jason Ramapuram, Yizhe Zhang, Jiatao Gu, Josh Susskind(参考訳) トレーニングの安定性はトランスフォーマーにとって非常に重要です。 本研究では,注意層の進化を考察し,変圧器のトレーニングダイナミクスについて検討する。 特に,モデルシャープネスの指標であるトレーニング中の注意ヘッド毎の注意エントロピーを追跡する。 我々は,低い注意エントロピーと高いトレーニング不安定性が伴う異なるアーキテクチャやタスクにまたがる共通パターンを特定する。 我々は,高度に集中した注意スコアに対応する,病理的に低い注意エントロピーを$\textit{entropy collapse}$と表現した。 そこで我々は,スペクトル正規化と学習スカラーを付加してすべての線形層を再パラメータ化する,単純かつ効率的な解法である$\sigma$Reparamを提案する。 我々は、$\sigma$reparamが注意層のエントロピー崩壊をうまく防ぎ、より安定したトレーニングを促進することを実証する。 さらに,アテンションエントロピーの厳密な下限を証明し,アテンションロジットのスペクトルノルムに比例して指数関数的に減少し,我々のアプローチに新たなモチベーションを与える。 画像分類,自己教師付き学習,機械翻訳,音声認識,言語モデリングタスクについて,$\sigma$reparamを用いて実験を行った。 我々は、$\sigma$Reparamがハイパーパラメータの選択に関して安定性と堅牢性を提供することを示した。 (a)ウォームアップ、重量減少、層正規化又は適応最適化を行わない視覚変換器[競争性能へ] (b)機械翻訳における深層建築 (c)ウォームアップや適応オプティマイザのない競合性能への音声認識 コードは \url{https://github.com/apple/ml-sigma-reparam} で入手できる。

Training stability is of great importance to Transformers. In this work, we investigate the training dynamics of Transformers by examining the evolution of the attention layers. In particular, we track the attention entropy for each attention head during the course of training, which is a proxy for model sharpness. We identify a common pattern across different architectures and tasks, where low attention entropy is accompanied by high training instability, which can take the form of oscillating loss or divergence. We denote the pathologically low attention entropy, corresponding to highly concentrated attention scores, as $\textit{entropy collapse}$. As a remedy, we propose $\sigma$Reparam, a simple and efficient solution where we reparametrize all linear layers with spectral normalization and an additional learned scalar. We demonstrate that $\sigma$Reparam successfully prevents entropy collapse in the attention layers, promoting more stable training. Additionally, we prove a tight lower bound of the attention entropy, which decreases exponentially fast with the spectral norm of the attention logits, providing additional motivation for our approach. We conduct experiments with $\sigma$Reparam on image classification, image self-supervised learning, machine translation, speech recognition, and language modeling tasks. We show that $\sigma$Reparam provides stability and robustness with respect to the choice of hyperparameters, going so far as enabling training (a) a Vision Transformer {to competitive performance} without warmup, weight decay, layer normalization or adaptive optimizers; (b) deep architectures in machine translation and (c) speech recognition to competitive performance without warmup and adaptive optimizers. Code is available at \url{https://github.com/apple/ml-sigma-reparam}.
翻訳日:2023-07-26 20:59:36 公開日:2023-07-25
# $^{171}$Yb原子における核スピン量子ビットの繰り返し読み出しとリアルタイム制御

Repetitive readout and real-time control of nuclear spin qubits in $^{171}$Yb atoms ( http://arxiv.org/abs/2305.02926v4 )

ライセンス: Link先を確認
William Huie, Lintao Li, Neville Chen, Xiye Hu, Zhubing Jia, Won Kyu Calvin Sun, Jacob P. Covey(参考訳) 我々は、中性イッテルビウム-171(^{171}$Yb)原子配列における核スピン量子ビットの高忠実度反復射影測定を実証する。 その結果, 1つのトワイザーに対して0.993(6)の確率で測定結果に対応する状態と配列上で平均される0.981(4)の条件下で, 量子ビット状態は0.995(4)の忠実度で測定できることがわかった。 これは、光励起状態の核スピン量子状態のうちの1つがb=58$gの磁場下でほぼ完全な周期性を持つことで達成され、蛍光読み出し時に明るく暗いコントラストが約10^5$となる。 パフォーマンスは$\sim1/b^2$でさらに向上する。 平均値0.98(1)の読み出しサバイバルは、暗黒状態への非共鳴散乱によって制限され、回路の端の原子番号を計測したり、両キュービット状態の測定を行うことで、選択後の処理によって対処することができる。 投影的測定と交流磁場による核スピン量子ビットの高忠実な回転を組み合わせることで、直交基底における測定の非可換性や「フリーズ」コヒーレント進化の量子ゼノン機構など、いくつかのパラダイムシナリオを探求する。 最後に、実時間フィードフォワードを用いて、直交的に初期化し、$z$-basisで射影測定を行った後、$+z$または$-z$方向のキュービットを繰り返し決定的に準備する。 これらの能力は、測定に基づく量子計算、高速多体状態形成、ホログラフィックダイナミクスシミュレーション、量子誤差補正など、原子配列を持つ適応量子回路への重要なステップを構成する。

We demonstrate high fidelity repetitive projective measurements of nuclear spin qubits in an array of neutral ytterbium-171 ($^{171}$Yb) atoms. We show that the qubit state can be measured with a fidelity of 0.995(4) under a condition that leaves it in the state corresponding to the measurement outcome with a probability of 0.993(6) for a single tweezer and 0.981(4) averaged over the array. This is accomplished by near-perfect cyclicity of one of the nuclear spin qubit states with an optically excited state under a magnetic field of $B=58$ G, resulting in a bright/dark contrast of $\approx10^5$ during fluorescence readout. The performance improves further as $\sim1/B^2$. The state-averaged readout survival of 0.98(1) is limited by off-resonant scattering to dark states and can be addressed via post-selection by measuring the atom number at the end of the circuit, or during the circuit by performing a measurement of both qubit states. We combine projective measurements with high-fidelity rotations of the nuclear spin qubit via an AC magnetic field to explore several paradigmatic scenarios, including the non-commutivity of measurements in orthogonal bases, and the quantum Zeno mechanism in which measurements "freeze" coherent evolution. Finally, we employ real-time feedforward to repetitively deterministically prepare the qubit in the $+z$ or $-z$ direction after initializing it in an orthogonal basis and performing a projective measurement in the $z$-basis. These capabilities constitute an important step towards adaptive quantum circuits with atom arrays, such as in measurement-based quantum computation, fast many-body state preparation, holographic dynamics simulations, and quantum error correction.
翻訳日:2023-07-26 20:54:04 公開日:2023-07-25
# 条件付きスライス・wasserstein流による非パラメトリック生成モデル

Nonparametric Generative Modeling with Conditional Sliced-Wasserstein Flows ( http://arxiv.org/abs/2305.02164v3 )

ライセンス: Link先を確認
Chao Du, Tianbo Li, Tianyu Pang, Shuicheng Yan, Min Lin(参考訳) sliced-wasserstein flow (swf) は非パラメトリック生成モデリングに有望なアプローチであるが、その準最適生成品質と条件付きモデリング能力の欠如のために広く採用されていない。 この作業では、このギャップを埋めることに2つの大きな貢献をします。 まず,(一定の条件下で)関節分布のSWFが条件分布のSWFと一致するという快適な観察に基づいて,SWFの簡易かつ効果的な拡張である条件スライデッド・ワッサースタインフロー(CSWF)を提案する。 第2に、画像の適切な帰納バイアスをSWFに導入し、局所的な接続性と視覚研究におけるマルチスケール表現に着想を得て、画像の効率と品質を大幅に向上させる。 これらの改良により、条件付きタスクと非条件付きタスクの両方において、多くの深度パラメトリック生成モデルに匹敵する生成性能を実現し、その大きな可能性を示す。

Sliced-Wasserstein Flow (SWF) is a promising approach to nonparametric generative modeling but has not been widely adopted due to its suboptimal generative quality and lack of conditional modeling capabilities. In this work, we make two major contributions to bridging this gap. First, based on a pleasant observation that (under certain conditions) the SWF of joint distributions coincides with those of conditional distributions, we propose Conditional Sliced-Wasserstein Flow (CSWF), a simple yet effective extension of SWF that enables nonparametric conditional modeling. Second, we introduce appropriate inductive biases of images into SWF with two techniques inspired by local connectivity and multiscale representation in vision research, which greatly improve the efficiency and quality of modeling images. With all the improvements, we achieve generative performance comparable with many deep parametric generative models on both conditional and unconditional tasks in a purely nonparametric fashion, demonstrating its great potential.
翻訳日:2023-07-26 20:53:13 公開日:2023-07-25
# 誤り訂正符号距離のスケーリングによる論理量子ビット上のゼロノイズ外挿

Zero noise extrapolation on logical qubits by scaling the error correction code distance ( http://arxiv.org/abs/2304.14985v2 )

ライセンス: Link先を確認
Misty A. Wahl, Andrea Mari, Nathan Shammah, William J. Zeng, Gokul Subramanian Ravi(参考訳) 本研究では,ゼロノイズ外挿法(ZNE)の量子誤差軽減手法をフォールトトレラント量子コンピューティングに移行する。 物理量子ビットではなく論理的に符号化された量子ビットにZNEを用いる。 このアプローチは量子誤り訂正(QEC)が実装可能であるが、QECで利用可能な量子ビットの数は限られている状況において有用である。 従来のZNE手法(回路レベルのユニタリ折り畳み)をQECシステムに応用することとは別に,QECに特化して,距離スケールZNE(DS-ZNE)という新しいノイズスケーリングZNE法を提案する。 DS-ZNEは誤り訂正符号の距離を拡大し、結果として得られる論理誤差率をZNEのスケーリング「knob」として利用する。 論理量子ビット誤り率は、一定の数の物理量子ビットに対して最大到達可能な符号距離までスケールし、従来のzneから移行した補間技術によって低い誤り率(すなわち、効果的に高い符号距離)を達成する。 さらに、ZNE実験における物理量子ビット利用を最大化するために、量子デバイス上の物理量子ビットが許容する最大値よりも低い符号距離での論理実行を並列化し、デバイス利用を最適化する。 提案手法を数値シミュレーションで検証し,ZNEが論理誤差率を下げ,量子デバイスの物理能力を超えた有効符号距離を増大させることを確認した。 例えば、物理符号距離11では、DS−ZNE有効符号距離は17であり、物理符号距離13では、DS−ZNE有効符号距離は21である。 提案手法を、量子デバイスの一定回数の実行の制約下でユニタリ折り畳みZNEと比較した場合、DS-ZNEはポストZNE論理誤差率において最大92%のユニタリ折り畳み性能を有する。

In this work, we migrate the quantum error mitigation technique of Zero-Noise Extrapolation (ZNE) to fault-tolerant quantum computing. We employ ZNE on logically encoded qubits rather than physical qubits. This approach will be useful in a regime where quantum error correction (QEC) is implementable but the number of qubits available for QEC is limited. Apart from illustrating the utility of a traditional ZNE approach (circuit-level unitary folding) for the QEC regime, we propose a novel noise scaling ZNE method specifically tailored to QEC: distance scaled ZNE (DS-ZNE). DS-ZNE scales the distance of the error correction code, and thereby the resulting logical error rate, and utilizes this code distance as the scaling `knob' for ZNE. Logical qubit error rates are scaled until the maximum achievable code distance for a fixed number of physical qubits, and lower error rates (i.e., effectively higher code distances) are achieved via extrapolation techniques migrated from traditional ZNE. Furthermore, to maximize physical qubit utilization over the ZNE experiments, logical executions at code distances lower than the maximum allowed by the physical qubits on the quantum device are parallelized to optimize device utilization. We validate our proposal with numerical simulation and confirm that ZNE lowers the logical error rates and increases the effective code distance beyond the physical capability of the quantum device. For instance, at a physical code distance of 11, the DS-ZNE effective code distance is 17, and at a physical code distance of 13, the DS-ZNE effective code distance is 21. When the proposed technique is compared against unitary folding ZNE under the constraint of a fixed number of executions of the quantum device, DS-ZNE outperforms unitary folding by up to 92% in terms of the post-ZNE logical error rate.
翻訳日:2023-07-26 20:52:54 公開日:2023-07-25
# datacomp: 次世代のマルチモーダルデータセットの探索

DataComp: In search of the next generation of multimodal datasets ( http://arxiv.org/abs/2304.14108v4 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt(参考訳) マルチモーダルデータセットは、安定拡散やgpt-4のような最近のブレークスルーにおいて重要な要素であるが、その設計はモデルアーキテクチャやトレーニングアルゴリズムと同じ研究の注目を集めていない。 MLエコシステムにおけるこの欠点に対処するため、私たちは、Common Crawlから128億のイメージテキストペアの候補プールを中心としたデータセット実験用のテストベッドであるDataCompを紹介した。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットで結果モデルをテストすることで、新しいデータセットを評価します。 ベンチマークは4桁の計算スケールで構成されており、スケーリングトレンドの研究を可能にし、様々なリソースを持つ研究者がベンチマークを利用できるようにしている。 我々のベースライン実験は、DataCompのワークフローがより良いトレーニングセットをもたらすことを示している。 特に、最良のベースラインであるDataComp-1Bでは、ImageNet上でCLIP ViT-L/14をゼロショット精度79.2%までトレーニングすることが可能で、同じトレーニング手順と計算を使用して、OpenAIのCLIP ViT-L/14を3.7%上回っている。 DataComp と付随するコードはすべて www.datacomp.ai でリリースしています。

Multimodal datasets are a critical component in recent breakthroughs such as Stable Diffusion and GPT-4, yet their design does not receive the same research attention as model architectures or training algorithms. To address this shortcoming in the ML ecosystem, we introduce DataComp, a testbed for dataset experiments centered around a new candidate pool of 12.8 billion image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing the resulting model on 38 downstream test sets. Our benchmark consists of multiple compute scales spanning four orders of magnitude, which enables the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow leads to better training sets. In particular, our best baseline, DataComp-1B, enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet, outperforming OpenAI's CLIP ViT-L/14 by 3.7 percentage points while using the same training procedure and compute. We release DataComp and all accompanying code at www.datacomp.ai.
翻訳日:2023-07-26 20:52:20 公開日:2023-07-25
# B2Opt: 少ない予算でブラックボックス最適化を最適化する学習

B2Opt: Learning to Optimize Black-box Optimization with Little Budget ( http://arxiv.org/abs/2304.11787v2 )

ライセンス: Link先を確認
Xiaobin Li, Kai Wu, Xiaoyu Zhang, Handing Wang, Jing Liu(参考訳) 高次元かつ高価なブラックボックス最適化(BBO)の課題は、機能評価コストを少なくしてより高速な性能を実現する方法である。 問題の本質は、ターゲットタスクに適した効率的な最適化戦略を設計する方法である。 本稿では,人的介入を伴わずに,目標タスクや安価なサロゲートタスクから最適化戦略を自動学習する強力な最適化フレームワークを設計する。 しかし、最適化戦略の表現が不十分なため、現在の手法は弱い。 これを達成するために 1)遺伝的アルゴリズムのメカニズムを考察し,b2optと呼ばれる深層ニューラルネットワークフレームワークを提案する。 2) b2optはターゲットタスクの安価なサロゲート機能を利用して効率的な最適化戦略の設計を導くことができる。 最先端のBBOベースラインと比較して、B2Optは機能評価コストを低減して、複数桁の性能向上を実現することができる。 我々は,高次元合成関数と実世界の2つの応用に関する提案を検証する。 また、深部B2Optは浅いものよりも優れていることもわかりました。

The core challenge of high-dimensional and expensive black-box optimization (BBO) is how to obtain better performance faster with little function evaluation cost. The essence of the problem is how to design an efficient optimization strategy tailored to the target task. This paper designs a powerful optimization framework to automatically learn the optimization strategies from the target or cheap surrogate task without human intervention. However, current methods are weak for this due to poor representation of optimization strategy. To achieve this, 1) drawing on the mechanism of genetic algorithm, we propose a deep neural network framework called B2Opt, which has a stronger representation of optimization strategies based on survival of the fittest; 2) B2Opt can utilize the cheap surrogate functions of the target task to guide the design of the efficient optimization strategies. Compared to the state-of-the-art BBO baselines, B2Opt can achieve multiple orders of magnitude performance improvement with less function evaluation cost. We validate our proposal on high-dimensional synthetic functions and two real-world applications. We also find that deep B2Opt performs better than shallow ones.
翻訳日:2023-07-26 20:51:58 公開日:2023-07-25
# 無限遠の1原子または2原子配列に対する光カップリングの強度効果

Intensity effects of light coupling to one- or two-atom arrays of infinite extent ( http://arxiv.org/abs/2304.09740v4 )

ライセンス: Link先を確認
F. Robicheaux and Deepak A. Suresh(参考訳) ほぼ共鳴光で照らされた無限原子配列の挙動を理論的・計算的に研究する。 我々は高次平均場方程式を用いて、単一アレイおよび一対のアレイからの光子のコヒーレント反射と透過と非コヒーレント散乱をラビ周波数の異なる値の復調関数として研究する。 単一アレイの場合、光強度の増加がこれらの異なるプロセスの確率をいかに変化させるかを示す。 例えば、非コヒーレント散乱確率は、最初は高い値で減少する前に光強度によって増加する。 ほぼ共鳴分離時の1対の並列アレイの場合、光強度の増加による影響は驚くほど低い強度の光で明らかになる。 さらに、これらの無限配列に対して、有限個の方程式で評価できる表現を与える高次平均場方程式を導出する。

We theoretically and computationally investigate the behavior of infinite atom arrays when illuminated by nearly resonant light. We use higher order mean field equations to investigate the coherent reflection and transmission and incoherent scattering of photons from a single array and from a pair of arrays as a function of detuning for different values of the Rabi frequency. For the single array case, we show how increasing the light intensity changes the probabilities for these different processes. For example, the incoherent scattering probability initially increases with light intensity before decreasing at higher values. For a pair of parallel arrays at near resonant separation, the effects from increasing light intensity can become apparent with incredibly low intensity light. In addition, we derive the higher order mean field equations for these infinite arrays giving a representation that can be evaluated with a finite number of equations.
翻訳日:2023-07-26 20:51:40 公開日:2023-07-25
# decn:進化による自動進化アルゴリズムは深層畳み込みネットワークにインスパイアされた

DECN: Automated Evolutionary Algorithms via Evolution Inspired Deep Convolution Network ( http://arxiv.org/abs/2304.09599v2 )

ライセンス: Link先を確認
Kai Wu, Penghui Liu, Jing Liu(参考訳) 進化的アルゴリズム(EA)は、特にブラックボックス最適化のための強力なフレームワークとして登場した。 自動EAは、関心の問題における構造を利用して、潜在的ソリューションの生成と選択のための更新ルール(最適化戦略)を自動的に生成し、最適なソリューションの近くにランダムな集団を移動させる。 しかし、最適化戦略の貧弱な表現と最適化戦略と目標タスクとの弱い相互作用のため、現在のEAはこの目標を達成することはできない。 手動で設計したEAから手動の介入なしに自動化されたEAへの移行を実現するために、深層進化畳み込みネットワーク(DECN)を設計する。 DECNは目的のタスクに高い適応性を持ち、計算コストの少ないより良いソリューションを得ることができる。 DECNはまた、目標タスクの低忠実度情報を有効活用して効率的な最適化戦略を構築することができる。 9つの人工物と2つの実世界のケースの実験は、最先端の人間設計およびメタ学習EAベースラインに対して学習された最適化戦略の利点を示している。 さらに、操作のテンソル化により、DECNはGPUが提供する加速度に親しみやすく、EAの102倍高速で動作する。

Evolutionary algorithms (EAs) have emerged as a powerful framework for optimization, especially for black-box optimization. This paper first focuses on automated EA: Automated EA exploits structure in the problem of interest to automatically generate update rules (optimization strategies) for generating and selecting potential solutions so that it can move a random population near the optimal solution. However, current EAs cannot achieve this goal due to the poor representation of the optimization strategy and the weak interaction between the optimization strategy and the target task. We design a deep evolutionary convolution network (DECN) to realize the move from hand-designed EAs to automated EAs without manual interventions. DECN has high adaptability to the target task and can obtain better solutions with less computational cost. DECN is also able to effectively utilize the low-fidelity information of the target task to form an efficient optimization strategy. The experiments on nine synthetics and two real-world cases show the advantages of learned optimization strategies over the state-of-the-art human-designed and meta-learning EA baselines. In addition, due to the tensorization of the operations, DECN is friendly to the acceleration provided by GPUs and runs 102 times faster than EA.
翻訳日:2023-07-26 20:51:27 公開日:2023-07-25
# 事前学習点クラウドモデルのためのインスタンス対応動的プロンプトチューニング

Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models ( http://arxiv.org/abs/2304.07221v2 )

ライセンス: Link先を確認
Yaohua Zha, Jinpeng Wang, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia(参考訳) 事前訓練されたポイントクラウドモデルは、オブジェクトの分類や部分のセグメンテーションといった3D理解タスクに広く応用されている。 しかし、ダウンストリームタスクにおけるフル微調整の一般的な戦略は、モデルパラメータのタスク毎のストレージオーバーヘッドが大きくなり、大規模な事前学習モデルを適用する際の効率が制限される。 近年のvisual prompt tuning(vpt)の成功に触発されて,プリトレーニングされたポイントクラウドモデルのプロンプトチューニングを探求し,パフォーマンスとパラメータ効率のエレガントなバランスを追求する。 インスタンスに依存しない静的プロンプト、例えばVPTは、下流転送においていくつかの効果を示すが、実世界の点クラウドデータにおける様々な種類のノイズに起因する分布の多様性に弱い。 この制限を克服するために,事前学習点クラウドモデルのための新しいインスタンス対応動的プロンプトチューニング(IDPT)戦略を提案する。 IDPTの本質は、各ポイントクラウドインスタンスの以前の特徴を認識し、モデルの堅牢性を高めるために適応的なプロンプトトークンを生成する動的プロンプト生成モジュールを開発することである。 特に、IDTはトレーニング可能なパラメータのわずか7%で、ほとんどのタスクにおいて完全な微調整よりも優れており、事前訓練されたポイントクラウドモデルに対するパラメータ効率の学習に有望なソリューションを提供する。 コードは \url{https://github.com/zyh16143998882/iccv23-idpt} で入手できる。

Pre-trained point cloud models have found extensive applications in 3D understanding tasks like object classification and part segmentation. However, the prevailing strategy of full fine-tuning in downstream tasks leads to large per-task storage overhead for model parameters, which limits the efficiency when applying large-scale pre-trained models. Inspired by the recent success of visual prompt tuning (VPT), this paper attempts to explore prompt tuning on pre-trained point cloud models, to pursue an elegant balance between performance and parameter efficiency. We find while instance-agnostic static prompting, e.g. VPT, shows some efficacy in downstream transfer, it is vulnerable to the distribution diversity caused by various types of noises in real-world point cloud data. To conquer this limitation, we propose a novel Instance-aware Dynamic Prompt Tuning (IDPT) strategy for pre-trained point cloud models. The essence of IDPT is to develop a dynamic prompt generation module to perceive semantic prior features of each point cloud instance and generate adaptive prompt tokens to enhance the model's robustness. Notably, extensive experiments demonstrate that IDPT outperforms full fine-tuning in most tasks with a mere 7% of the trainable parameters, providing a promising solution to parameter-efficient learning for pre-trained point cloud models. Code is available at \url{https://github.com/zyh16143998882/ICCV23-IDPT}.
翻訳日:2023-07-26 20:51:05 公開日:2023-07-25
# 1つの説明はXILに合わない

One Explanation Does Not Fit XIL ( http://arxiv.org/abs/2304.07136v2 )

ライセンス: Link先を確認
Felix Friedrich, David Steinmann, Kristian Kersting(参考訳) 現在の機械学習モデルは、多くの分野で優れた結果を生み出すが、同時に近道学習と散発的な相関に苦しむ。 このような欠陥に対処するため、モデルの説明にユーザフィードバックを取り入れてモデルを修正するために、説明対話型機械学習(XIL)フレームワークが提案されている。 この作業は、このフレームワークで使用される説明に光を当てています。 特に,複数の説明手法による同時モデル修正について検討する。 この目的のために, textit{one の説明が XIL に合わないことを確認し, XIL によるモデル修正時に複数の説明を検討することを提案する。

Current machine learning models produce outstanding results in many areas but, at the same time, suffer from shortcut learning and spurious correlations. To address such flaws, the explanatory interactive machine learning (XIL) framework has been proposed to revise a model by employing user feedback on a model's explanation. This work sheds light on the explanations used within this framework. In particular, we investigate simultaneous model revision through multiple explanation methods. To this end, we identified that \textit{one explanation does not fit XIL} and propose considering multiple ones when revising models via XIL.
翻訳日:2023-07-26 20:50:39 公開日:2023-07-25
# 群表現による対称性に基づく辞書学習

Dictionary Learning under Symmetries via Group Representations ( http://arxiv.org/abs/2305.19557v2 )

ライセンス: Link先を確認
Subhroshekhar Ghosh, Aaron Y. R. Low, Yong Sheng Soh, Zhuohang Feng, and Brendan K. Y. Tan(参考訳) 辞書学習問題は、データがサンプルデータから直接スパースに表現されるように、適切な変換を学習するためのデータ駆動プロセスと見なすことができる。 本稿では,予め特定された変換群の下で不変な辞書を学習する問題を考察する。 自然設定には、cryo-em、マルチオブジェクトトラッキング、同期、ポーズ推定などが含まれる。 我々は、数学表現論のレンズの下でこの問題を具体的に研究する。 コンパクト群上の関数に対する非可換フーリエ解析の力を利用して,そのような不変性に従う辞書を学習するためのアルゴリズムレシピを定式化する。 我々は、自然に無限次元としてモデル化される物理領域における辞書学習問題と、必然的に有限次元である関連する計算問題とを関連づける。 本研究では, 辞書学習問題を, 特定のブロック対角構造を持つ行列軌道上において, 対称性群の既約表現によって支配される最適化例として効果的に理解できることを証明した。 この観点から,応用の次元的低減を実現する帯域制限手法を導入することができる。 我々は、望ましい辞書学習結果を提供するための計算 ansatz の保証を提供する。 本稿では,SO(2)群とSO(3)群の辞書学習問題に対して,本パラダイムを適用した。 SO(2)-オービトープは正確なスペクトル記述を認めているが、SO(3)-オービトープについてはほとんど理解されていない。 so(3)軌道の移動可能なスペクトルヘドラル外近似を記述し、この設定で最適化を行うための交互最小化パラダイムを寄与する。 本研究では,合成データと実世界データの両方において,so(3)不変辞書を学習する手法の有効性を強調する数値実験を行った。

The dictionary learning problem can be viewed as a data-driven process to learn a suitable transformation so that data is sparsely represented directly from example data. In this paper, we examine the problem of learning a dictionary that is invariant under a pre-specified group of transformations. Natural settings include Cryo-EM, multi-object tracking, synchronization, pose estimation, etc. We specifically study this problem under the lens of mathematical representation theory. Leveraging the power of non-abelian Fourier analysis for functions over compact groups, we prescribe an algorithmic recipe for learning dictionaries that obey such invariances. We relate the dictionary learning problem in the physical domain, which is naturally modelled as being infinite dimensional, with the associated computational problem, which is necessarily finite dimensional. We establish that the dictionary learning problem can be effectively understood as an optimization instance over certain matrix orbitopes having a particular block-diagonal structure governed by the irreducible representations of the group of symmetries. This perspective enables us to introduce a band-limiting procedure which obtains dimensionality reduction in applications. We provide guarantees for our computational ansatz to provide a desirable dictionary learning outcome. We apply our paradigm to investigate the dictionary learning problem for the groups SO(2) and SO(3). While the SO(2)-orbitope admits an exact spectrahedral description, substantially less is understood about the SO(3)-orbitope. We describe a tractable spectrahedral outer approximation of the SO(3)-orbitope, and contribute an alternating minimization paradigm to perform optimization in this setting. We provide numerical experiments to highlight the efficacy of our approach in learning SO(3)-invariant dictionaries, both on synthetic and on real world data.
翻訳日:2023-07-26 20:42:34 公開日:2023-07-25
# StyleHumanCLIP:StyleGAN-Human用テキストガイドガーメントマニピュレーション

StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human ( http://arxiv.org/abs/2305.16759v2 )

ライセンス: Link先を確認
Takato Yoshikawa, Yuki Endo, Yoshihiro Kanamori(参考訳) 本稿では,フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。 既存のスタイルガンベースの方法は、衣服や体型やポーズの多様性に苦しむ。 本稿では,既存のマッパーよりもスタイルガンの非絡み合った制御を可能にする,注意に基づく潜在コードマッパーを用いた,テキスト誘導全身画像合成のためのフレームワークを提案する。 我々の潜在コードマッパーは、テキストガイダンスの下で異なるスタイルGAN層上の個々の潜時コードを適応的に操作するアテンションメカニズムを採用している。 また,テキスト入力による不要な変化を避けるため,推定時に特徴空間マスキングを導入する。 定量的および定性的な評価により,既存の手法よりもテキストに忠実に生成した画像を制御できることが明らかになった。

This paper tackles text-guided control of StyleGAN for editing garments in full-body human images. Existing StyleGAN-based methods suffer from handling the rich diversity of garments and body shapes and poses. We propose a framework for text-guided full-body human image synthesis via an attention-based latent code mapper, which enables more disentangled control of StyleGAN than existing mappers. Our latent code mapper adopts an attention mechanism that adaptively manipulates individual latent codes on different StyleGAN layers under text guidance. In addition, we introduce feature-space masking at inference time to avoid unwanted changes caused by text inputs. Our quantitative and qualitative evaluations reveal that our method can control generated images more faithfully to given texts than existing methods.
翻訳日:2023-07-26 20:41:24 公開日:2023-07-25
# TriMLP: シーケンスレコメンデーションにおけるMLPのようなアーキテクチャの回避

TriMLP: Revenge of a MLP-like Architecture in Sequential Recommendation ( http://arxiv.org/abs/2305.14675v3 )

ライセンス: Link先を確認
Yiheng Jiang, Yuanbo Xu, Yongjian Yang, Funing Yang, Pengyang Wang and Hui Xiong(参考訳) 本稿では,TriMLPという逐次レコメンデーションのためのMLPライクなアーキテクチャと,クロストークン通信のための新しい三角形ミキサーを提案する。 三角ミキサーを設計する際には,基本行列乗法としてMLPのクロストケン操作を単純化し,重み行列の下方三角形ニューロンを落として,反時間次接続を将来のトークンからブロックする。 これにより、情報漏洩問題を修正でき、標準の自己回帰モード下では、MLPの予測能力を完全に発掘することができる。 さらに一歩進めると、ミキサーは、2つの微妙なMLPを三角形状に交互に交換し、グローバルとローカルの混合としてタグ付けし、細粒度レベルでの長距離依存性と局所パターンを別々にキャプチャする。 4つのベンチマーク(Amazon、MovieLens、Tenrec、LBSN)から得られた12の異なるスケールのデータセット(50K\textasciitilde 10Mのユーザ-itemインタラクション)に関する実証的研究は、TriMLPが一貫して有望な精度/効率のトレードオフを実現していることを示している。

In this paper, we present a MLP-like architecture for sequential recommendation, namely TriMLP, with a novel Triangular Mixer for cross-token communications. In designing Triangular Mixer, we simplify the cross-token operation in MLP as the basic matrix multiplication, and drop the lower-triangle neurons of the weight matrix to block the anti-chronological order connections from future tokens. Accordingly, the information leakage issue can be remedied and the prediction capability of MLP can be fully excavated under the standard auto-regressive mode. Take a step further, the mixer serially alternates two delicate MLPs with triangular shape, tagged as global and local mixing, to separately capture the long range dependencies and local patterns on fine-grained level, i.e., long and short-term preferences. Empirical study on 12 datasets of different scales (50K\textasciitilde 10M user-item interactions) from 4 benchmarks (Amazon, MovieLens, Tenrec and LBSN) show that TriMLP consistently attains promising accuracy/efficiency trade-off, where the average performance boost against several state-of-the-art baselines achieves up to 14.88% with 8.65% less inference cost.
翻訳日:2023-07-26 20:41:10 公開日:2023-07-25
# どんな症状で どれくらいの期間? ソーシャルメディアにおける抑うつ検出のための解釈可能なAIアプローチ

What Symptoms and How Long? An Interpretable AI Approach for Depression Detection in Social Media ( http://arxiv.org/abs/2305.13127v2 )

ライセンス: Link先を確認
Junwei Kuang, Jiaheng Xie and Zhijun Yan(参考訳) うつ病は最も広く重篤な精神疾患であり、経済的にも社会的にも大きな影響をもたらす。 抑うつ検出は、これらの影響を緩和するための早期介入の鍵である。 このような高い判断は本質的に解釈可能性を必要とする。 いくつかのうつ病検出研究は、重要度や注意重みに基づいて決定を説明するが、これらの説明はうつ病の症状に基づく臨床的うつ病診断基準と誤認している。 このギャップを埋めるために、我々は計算設計科学のパラダイムに従い、新しいマルチスケールテンポラルプロトタイプネットワーク(MSTPNet)を開発した。 MSTPNetは革新的にうつ病の症状を検知し、解釈する。 大規模データセットを用いた大規模な実験分析の結果,MSTPNetはF1スコア0.851で最先端のうつ病検出法より優れていた。 この結果はまた、別の人生への賞賛を共有するなど、調査アプローチで指摘されていない新しい症状も示します。 さらに,このベンチマークの解釈性に対する優位性を示すために,ユーザ調査を行った。 本研究は,ソーシャルメディアにおける抑うつ検出のための新しい解釈可能な深層学習モデルを用いたis文学に寄与する。 実際に,本手法をソーシャルメディアプラットフォームに実装し,うつ病患者にパーソナライズされたオンラインリソースを提供する。

Depression is the most prevalent and serious mental illness, which induces grave financial and societal ramifications. Depression detection is key for early intervention to mitigate those consequences. Such a high-stake decision inherently necessitates interpretability. Although a few depression detection studies attempt to explain the decision based on the importance score or attention weights, these explanations misalign with the clinical depression diagnosis criterion that is based on depressive symptoms. To fill this gap, we follow the computational design science paradigm to develop a novel Multi-Scale Temporal Prototype Network (MSTPNet). MSTPNet innovatively detects and interprets depressive symptoms as well as how long they last. Extensive empirical analyses using a large-scale dataset show that MSTPNet outperforms state-of-the-art depression detection methods with an F1-score of 0.851. This result also reveals new symptoms that are unnoted in the survey approach, such as sharing admiration for a different life. We further conduct a user study to demonstrate its superiority over the benchmarks in interpretability. This study contributes to IS literature with a novel interpretable deep learning model for depression detection in social media. In practice, our proposed method can be implemented in social media platforms to provide personalized online resources for detected depressed patients.
翻訳日:2023-07-26 20:40:40 公開日:2023-07-25
# 定義生成による解釈可能な単語センス表現:意味的変化分析の事例

Interpretable Word Sense Representations via Definition Generation: The Case of Semantic Change Analysis ( http://arxiv.org/abs/2305.11993v2 )

ライセンス: Link先を確認
Mario Giulianelli, Iris Luden, Raquel Fernandez, Andrey Kutuzov(参考訳) 本稿では,文脈化された単語の用法を解釈可能な単語と単語感覚表現として自動生成する自然言語定義を提案する。 対象語に対する使用例のコレクションと、対応するデータ駆動利用クラスタ(すなわち、単語センス)が与えられた場合、特殊なFlan-T5言語モデルを用いて各使用法について定義を生成し、使用クラスタにおける最も原始的な定義をセンスラベルとして選択する。 その結果得られたセンスラベルは,意味変化分析に対する既存のアプローチをより解釈しやすくすると同時に,ユーザ – 歴史言語学者,辞書学者,社会科学者 – が,単語の意味のダイアクロニカルな特徴を探索し,直感的に説明できるようにする方法を示す。 意味的変化分析は、'definitions as representations'パラダイムの考えられる多くの応用の1つにすぎない。 人間の可読性に加えて、文脈化された定義は、トークンや使用文の埋め込みを単語・イン・コンテクストのセマンティックな類似性判断で上回る。

We propose using automatically generated natural language definitions of contextualised word usages as interpretable word and word sense representations. Given a collection of usage examples for a target word, and the corresponding data-driven usage clusters (i.e., word senses), a definition is generated for each usage with a specialised Flan-T5 language model, and the most prototypical definition in a usage cluster is chosen as the sense label. We demonstrate how the resulting sense labels can make existing approaches to semantic change analysis more interpretable, and how they can allow users -- historical linguists, lexicographers, or social scientists -- to explore and intuitively explain diachronic trajectories of word meaning. Semantic change analysis is only one of many possible applications of the `definitions as representations' paradigm. Beyond being human-readable, contextualised definitions also outperform token or usage sentence embeddings in word-in-context semantic similarity judgements, making them a new promising type of lexical representation for NLP.
翻訳日:2023-07-26 20:40:18 公開日:2023-07-25
# 対数光円錐、遅い絡み合い成長とスクランブル、量子メモリ

Logarithmic light cone, slow entanglement growth and scrambling, and quantum memory ( http://arxiv.org/abs/2305.08334v2 )

ライセンス: Link先を確認
Yu Zeng, Alioscia Hamma, Yu-Ran Zhang, Qiang Liu, Rengang Li, Heng Fan and Wu-Ming Liu(参考訳) 有効光円錐はリーブ・ロビンソン境界から非相対論的局所量子系に出現し、ハイゼンベルク像内の2つの時空分離作用素の指数関数的に減衰する可換ノルムとなる。 ここでは対数光円錐(LLC)の出現と結果のメカニズムを導出する。 可能な方法として、llc は多体局所化の現象論的モデルから生じることができる。 我々は,llcの体制において情報スクランブルが対数的に遅いことを示す。 両部交絡エントロピーが任意の有限空間次元と任意の初期純状態の時間と対数的に増加することを証明する。 量子情報処理の応用として、LLCは単体時間進化後の長寿命量子メモリ(マクロコード距離と指数的長寿命の量子コード)をサポートする。

Effective light cones may emerge in non-relativistic local quantum systems from the Lieb-Robinson bounds, resulting in exponentially decaying commutator norms of two space-time separated operators in the Heisenberg picture. Here, we derive a mechanism for the emergence and consequences of a logarithmic light cone (LLC). As a possible way, the LLC can emerge from a phenomenological model of many-body-localization. We show that the information scrambling is logarithmically slow in the regime of the LLC. We prove that the bipartite entanglement entropy grows logarithmically with time for arbitrary finite space dimensions and arbitrary initial pure states. As an application in quantum information processing, the LLC supports long-lived quantum memory after unitary time evolution: a quantum code with macroscopic code distance and exponentially long lifetime.
翻訳日:2023-07-26 20:39:59 公開日:2023-07-25
# 非スムース最適制御問題に対する拡大ステップサイズと演算子学習を用いた高速化原始双対法

Accelerated primal-dual methods with enlarged step sizes and operator learning for nonsmooth optimal control problems ( http://arxiv.org/abs/2307.00296v2 )

ライセンス: Link先を確認
Yongcun Song, Xiaoming Yuan, Hangrui Yue(参考訳) 偏微分方程式(PDE)制約を伴う非滑らかな最適制御問題の一般的なクラスを考える。 そこで本研究では,異なる種類の変数を個別に扱うことができ,各イテレーションにおける主計算は2つのPDEを解くことしか必要としない。 我々の目標は、より大きなステップサイズまたは演算子学習技術で原始双対法を加速することである。 ステップサイズが大きい加速原始双対法では、その収束性は単純で普遍的な方法で元の原始双対法を数値的に加速しながら厳密に証明することができる。 オペレータ・ラーニング・アクセラレーションのために,深層ニューラルネットワークによるpdesモデルを構築した。 ニューラルネットワークが学習されると、PDEの解法はニューラルネットワークの前方通過のみを必要とし、計算コストは大幅に削減される。 オペレーター学習による高速化プライマル・デュアル法はメッシュフリーで数値効率が良く,異なるタイプのpdesにスケーラブルである。 これらの2つの手法の加速効果は、いくつかの予備的な数値結果によって有望に検証される。

We consider a general class of nonsmooth optimal control problems with partial differential equation (PDE) constraints, which are very challenging due to its nonsmooth objective functionals and the resulting high-dimensional and ill-conditioned systems after discretization. We focus on the application of a primal-dual method, with which different types of variables can be treated individually and thus its main computation at each iteration only requires solving two PDEs. Our target is to accelerate the primal-dual method with either larger step sizes or operator learning techniques. For the accelerated primal-dual method with larger step sizes, its convergence can be still proved rigorously while it numerically accelerates the original primal-dual method in a simple and universal way. For the operator learning acceleration, we construct deep neural network surrogate models for the involved PDEs. Once a neural operator is learned, solving a PDE requires only a forward pass of the neural network, and the computational cost is thus substantially reduced. The accelerated primal-dual method with operator learning is mesh-free, numerically efficient, and scalable to different types of PDEs. The acceleration effectiveness of these two techniques is promisingly validated by some preliminary numerical results.
翻訳日:2023-07-26 20:34:15 公開日:2023-07-25
# ドメイン固有自然言語処理アプリケーション開発のための生成的ユーザエクスペリエンス研究

Generative User-Experience Research for Developing Domain-specific Natural Language Processing Applications ( http://arxiv.org/abs/2306.16143v2 )

ライセンス: Link先を確認
Anastasia Zhukova, Lukas von Sperl, Christian E. Matt, Bela Gipp(参考訳) ユーザエクスペリエンス(ux)は、ヒューマンコンピュータインタラクション(hci)研究の一部であり、システムユーザに対する直感性、透明性、シンプルさ、信頼の向上に重点を置いている。 機械学習(ML)や自然言語処理(NLP)のためのUX研究のほとんどは、データ駆動の方法論に焦点を当てている。 さらに、より一般的なUXメソッドは、最初にユーザニーズについて学ぶのとは異なり、システムをユーザユーザビリティに向けて調整する。 本稿では,生成UX研究をドメインNLPアプリケーションに組み込む手法を提案する。 生成UX研究は、プロトタイプ開発の初期段階、すなわちアイデアと概念評価、およびユーザ価値の変化を評価するための最終段階において、ドメインユーザーを採用する。 本ケーススタディでは,プロセス産業における日常業務のドメイン固有意味検索の完全サイクルプロトタイプ開発について報告する。 ケーススタディでは、ドメインエキスパートの関与は、NLPアプリケーションに対する関心と信頼を高めます。 さらに,狭義のNLPアプリケーションにおいて重要となるデータおよびユーザ主導の機会と制約を,相乗的UX+NLP研究が効率的に検討していることを示す。

User experience (UX) is a part of human-computer interaction (HCI) research and focuses on increasing intuitiveness, transparency, simplicity, and trust for system users. Most of the UX research for machine learning (ML) or natural language processing (NLP) focuses on a data-driven methodology, i.e., it fails to focus on users' requirements, and engages domain users mainly for usability evaluation. Moreover, more typical UX methods tailor the systems towards user usability, unlike learning about the user needs first. The paper proposes a methodology for integrating generative UX research into developing domain NLP applications. Generative UX research employs domain users at the initial stages of prototype development, i.e., ideation and concept evaluation, and the last stage for evaluating the change in user value. In the case study, we report the full-cycle prototype development of a domain-specific semantic search for daily operations in the process industry. Our case study shows that involving domain experts increases their interest and trust in the final NLP application. Moreover, we show that synergetic UX+NLP research efficiently considers data- and user-driven opportunities and constraints, which can be crucial for NLP applications in narrow domains
翻訳日:2023-07-26 20:33:53 公開日:2023-07-25
# 個人別分散推定と学習

Differentially Private Distributed Estimation and Learning ( http://arxiv.org/abs/2306.15865v2 )

ライセンス: Link先を確認
Marios Papachristou, M. Amin Rahimian(参考訳) エージェントが情報交換を行い、個人が観測したサンプルから未知の確率変数の統計的特性を推定するネットワーク環境における分散推定と学習の問題について検討する。 プライベートな観察に関する情報を交換することで、エージェントは未知の量をまとめて見積もることができるが、プライバシー上のリスクにも直面する。 我々のアグリゲーション・スキームの目標は、観測されたデータを時間とともに、ネットワーク全体にわたって効率的に組み合わせ、エージェントのプライバシー要求を調整し、その周辺地域を超えて調整することである。 我々のアルゴリズムにより、参加者はオフラインまたはオンラインで取得されたプライベート信号から十分な統計量を推定し、その信号とネットワーク近傍のプライバシーを維持することができる。 これは微分プライバシー(dp)制約の下で交換された推定値にノイズを付加する調整されたランダム化スキームを持つ線形集計スキームによって達成される。 いずれの場合も、全ての信号に中心的なアクセスを持つ仮説的、全知的な観測者の推定への収束を証明し、アルゴリズムの効率を実証する。 また,コンバージェンスレート解析と有限時間性能保証を提供し,コンバージェンス時間を最小化するノイズがラプラスノイズであり,各エージェントの信号およびネットワーク特性に対する感度に対応するパラメータであることを示す。 最後に,我々の理論的結果を補足し,検証するために,米国電力グリッドネットワークによる実世界のデータと,ドイツ家庭の電力消費データを用いて,すべてのプライバシー体制下での電力ステーションおよび家庭の平均消費電力を推定する実験を行った。

We study distributed estimation and learning problems in a networked environment in which agents exchange information to estimate unknown statistical properties of random variables from their privately observed samples. By exchanging information about their private observations, the agents can collectively estimate the unknown quantities, but they also face privacy risks. The goal of our aggregation schemes is to combine the observed data efficiently over time and across the network, while accommodating the privacy needs of the agents and without any coordination beyond their local neighborhoods. Our algorithms enable the participating agents to estimate a complete sufficient statistic from private signals that are acquired offline or online over time, and to preserve the privacy of their signals and network neighborhoods. This is achieved through linear aggregation schemes with adjusted randomization schemes that add noise to the exchanged estimates subject to differential privacy (DP) constraints. In every case, we demonstrate the efficiency of our algorithms by proving convergence to the estimators of a hypothetical, omniscient observer that has central access to all of the signals. We also provide convergence rate analysis and finite-time performance guarantees and show that the noise that minimizes the convergence time to the best estimates is the Laplace noise, with parameters corresponding to each agent's sensitivity to their signal and network characteristics. Finally, to supplement and validate our theoretical results, we run experiments on real-world data from the US Power Grid Network and electric consumption data from German Households to estimate the average power consumption of power stations and households under all privacy regimes.
翻訳日:2023-07-26 20:33:31 公開日:2023-07-25
# 量子スクイージングは標準量子限界を破ることができない

Quantum squeezing cannot beat the standard quantum limit ( http://arxiv.org/abs/2306.14666v2 )

ライセンス: Link先を確認
Liam P. McGuinness(参考訳) 粒子間の量子絡み合いは、そうでなければ不可能なタスクを実行できると期待されている。 量子センシングと気象学において、絡み合いはしばしば、同じ数の粒子と時間で達成できない精度で絡み合いを抑えることができると主張される。 2つの異なるアプローチが存在する: どちらか一方が絡み合った状態を作る 一 信号に迅速に応答すること、又は 二 騒音の低減及び不確実性に関連すること。 第2級の州は一般にスクレッデッド州と呼ばれる。 ここでは、成功の定義 -- 絡み合わずに達成できない精度 -- がなければ、2つ目のアプローチは成功できないことを示す。 その際、分離不能な1つの状態は、単位時間当たりの精度が1つの粒子よりも基本的に良くないことを示す。

Quantum entanglement between particles is expected to allow one to perform tasks that would otherwise be impossible. In quantum sensing and metrology, entanglement is often claimed to enable a precision that cannot be attained with the same number of particles and time, forgoing entanglement. Two distinct approaches exist: creation of entangled states that either i) respond quicker to the signal, or ii) are associated with lower noise and uncertainty. The second class of states are generally called squeezed states. Here we show that if our definition of success is -- a precision that is impossible to achieve without entanglement -- then the second approach cannot succeed. In doing so we show that a single non-separable squeezed state provides fundamentally no better precision, per unit time, than a single particle.
翻訳日:2023-07-26 20:33:05 公開日:2023-07-25
# NISQデバイス上で非アーベル異性体を示すための提案

A proposal to demonstrate non-abelian anyons on a NISQ device ( http://arxiv.org/abs/2306.13129v2 )

ライセンス: Link先を確認
Jovan Jovanovi\'c, Carolin Wille, Daan Timmers and Steven H. Simon(参考訳) 本研究では,非アベリア異性体をNISQデバイス上で実現するための提案を提案する。 特に、量子二重モデル$D(D_4)$の実装の可能性を検討する。 我々は,エノンの操作と測定を劇的に単純化する手法を提案する。 現実的なノイズモデルを用いた数値シミュレーションでは、現在のNISQ技術は、非アベリア異性体のシグネチャを、ブレイドの非可換性のような要素的性質を超えて探すことができることが示唆されている。 特に、モデルの全モジュラーデータを実験的に測定することは可能であると結論づける。

In this work we present a proposal for realising non-Abelian anyons on a NISQ device. In particular we explore the feasibility of implementing the quantum double model $D(D_4)$. We propose techniques to drastically simplify the circuits for the manipulation and measurements of anyons. Numerical simulations with realistic noise models suggest that current NISQ technology is capable of probing signatures of non-Abelian anyons far beyond elemental properties such as the non-commutativity of braids. In particular, we conclude that experimentally measuring the full modular data of the model is feasible.
翻訳日:2023-07-26 20:32:52 公開日:2023-07-25
# 量子ソフトカバー型補題と量子チャネルによる速度歪み符号化、解離性および識別への応用

Quantum soft-covering lemma with applications to rate-distortion coding, resolvability and identification via quantum channels ( http://arxiv.org/abs/2306.12416v2 )

ライセンス: Link先を確認
Touheed Anwar Atif and S. Sandeep Pradhan and Andreas Winter(参考訳) 本研究では、与えられた一般量子チャネルとその出力状態の1つに対して、与えられたチャネル出力を近似するために必要な入力状態の最小ランクを求める量子ソフトカバー問題を提案する。 次に、量子シャノン理論からの分離技術を利用して、滑らかなミンエントロピーの観点から一発の量子被覆補題を証明する。 この被覆結果は、後(逆)チャネル歪み基準の下でのレート歪みの符号化定理(Atif, Sohail, Pradhan, arXiv:2302.00625]と等価であることが示されている。 どちらのワンショット結果も、チャネルのコヒーレントな情報の観点から、i.d. asymsymoticsに関するコログを直接生成する。 量子被覆補題のパワーは、2つの追加の応用によって証明される: まず、量子チャネル分解可能性問題を定式化し、漸近的な上界と下界を与える。 第2に,量子チャネルの非制限かつ同時識別能力に関する新たな上限,特に,非制限チャネルとの同時識別能力が初めて分離され,最後の著者の長年の予想が証明される。

We propose a quantum soft-covering problem for a given general quantum channel and one of its output states, which consists in finding the minimum rank of an input state needed to approximate the given channel output. We then prove a one-shot quantum covering lemma in terms of smooth min-entropies by leveraging decoupling techniques from quantum Shannon theory. This covering result is shown to be equivalent to a coding theorem for rate distortion under a posterior (reverse) channel distortion criterion [Atif, Sohail, Pradhan, arXiv:2302.00625]. Both one-shot results directly yield corollaries about the i.i.d. asymptotics, in terms of the coherent information of the channel. The power of our quantum covering lemma is demonstrated by two additional applications: first, we formulate a quantum channel resolvability problem, and provide one-shot as well as asymptotic upper and lower bounds. Secondly, we provide new upper bounds on the unrestricted and simultaneous identification capacities of quantum channels, in particular separating for the first time the simultaneous identification capacity from the unrestricted one, proving a long-standing conjecture of the last author.
翻訳日:2023-07-26 20:32:39 公開日:2023-07-25
# 複数負荷時系列予測のための変圧器訓練戦略

Transformer Training Strategies for Forecasting Multiple Load Time Series ( http://arxiv.org/abs/2306.10891v3 )

ライセンス: Link先を確認
Matthias Hertel, Maximilian Beichter, Benedikt Heidrich, Oliver Neumann, Benjamin Sch\"afer, Ralf Mikut, Veit Hagenmeyer(参考訳) 将来のスマートグリッドでは、個々のクライアントレベルでの正確な負荷予測が、供給と需要のバランスをローカルに保ち、グリッドの停止を防ぐのに役立つ。 監視対象のクライアントの数は、現在進行中のsmartmeterロールアウトで増加するが、クライアント毎のデータ量は、常に制限される。 トランスフォーマー負荷予測モデルが、複数のクライアントからの負荷時系列に基づいてグローバル不定値モデルが訓練される転送学習戦略の利点があるかどうかを評価する。 数百のクライアントからの負荷時系列を含む2つのデータセットを用いた実験では、グローバルトレーニング戦略が関連する作業で使用される多変量および局所トレーニング戦略よりも優れていることが判明した。 平均すると、グローバルなトレーニング戦略は、他の2つの戦略よりも21.8%と12.8%の予測誤差を発生させ、1日から1ヶ月の予測地平線をまたいで測定する。 線形モデル、多層パーセプトロン、LSTMと比較すると、トランスフォーマーはグローバルトレーニング戦略でトレーニングされた場合の負荷予測に有効である。

In the smart grid of the future, accurate load forecasts on the level of individual clients can help to balance supply and demand locally and to prevent grid outages. While the number of monitored clients will increase with the ongoing smart meter rollout, the amount of data per client will always be limited. We evaluate whether a Transformer load forecasting model benefits from a transfer learning strategy, where a global univariate model is trained on the load time series from multiple clients. In experiments with two datasets containing load time series from several hundred clients, we find that the global training strategy is superior to the multivariate and local training strategies used in related work. On average, the global training strategy results in 21.8% and 12.8% lower forecasting errors than the two other strategies, measured across forecasting horizons from one day to one month into the future. A comparison to linear models, multi-layer perceptrons and LSTMs shows that Transformers are effective for load forecasting when they are trained with the global training strategy.
翻訳日:2023-07-26 20:32:20 公開日:2023-07-25
# 部分観測力学系に対するエコー状態ネットワーク予測地平線の可変性

Variability of echo state network prediction horizon for partially observed dynamical systems ( http://arxiv.org/abs/2306.10797v2 )

ライセンス: Link先を確認
Ajit Mahata, Reetish Padhi and Amit Apte(参考訳) 部分状態観測を用いた力学系の研究は、多くの実世界のシステムに適用できるため重要な問題である。 本稿では,部分状態入力と完全状態出力を併用したエコー状態ネットワーク(ESN)フレームワークを提案する。 LorenzシステムとChuaの発振器(数値シミュレーションと実験の両方)への応用は,本手法の有効性を示す。 自律力学系としてのESNは,数回のリャプノフ時間までの短期的な予測を行うことができることを示す。 しかし,予測地平線は初期条件によって高い変動性を有しており,予測地平線の分布を用いて詳細に検討する。 さらに,esn予測の長期ダイナミクスと数値シミュレーションや実験ダイナミクスを比較し,同様の結果を得た結果から,ノイズのある数値データセットや実験データセットでトレーニングしても,esnはシステムのダイナミクスを効果的に学習できることを示した。 そこで本研究では,完全な観測ができないシステムのダイナミクスをシミュレートするための安価なサロゲートモデルとしてのesnの可能性を示す。

Study of dynamical systems using partial state observation is an important problem due to its applicability to many real-world systems. We address the problem by proposing an echo state network (ESN) framework with partial state input with partial or full state output. Application to the Lorenz system and Chua's oscillator (both numerically simulated and experimental systems) demonstrate the effectiveness of our method. We show that the ESN, as an autonomous dynamical system, is capable of making short-term predictions up to a few Lyapunov times. However, the prediction horizon has high variability depending on the initial condition - an aspect that we explore in detail using the distribution of the prediction horizon. Further, using a variety of statistical metrics to compare the long-term dynamics of the ESN predictions with numerically simulated or experimental dynamics and observed similar results, we show that the ESN can effectively learn the system's dynamics even when trained with noisy numerical or experimental datasets. Thus, we demonstrate the potential of ESNs to serve as cheap surrogate models for simulating the dynamics of systems where complete observations are unavailable.
翻訳日:2023-07-26 20:32:01 公開日:2023-07-25
# 二重機械学習推定器の速度二重燃焼度推定リーンファルシフィケーション試験

Assumption-lean falsification tests of rate double-robustness of double-machine-learning estimators ( http://arxiv.org/abs/2306.10590v2 )

ライセンス: Link先を確認
Lin Liu and Rajarshi Mukherjee and James M. Robins(参考訳) 本稿では,lotnitzkyらによって研究された2重ロバスト(dr)関数のクラスに属する任意の2重機械学習(dml)推定器を中心に,報告された公称$(1 - \alpha)$ wald confidence interval(ci)の有効性をアナリストの正当化を偽造する,liu et al. 20における仮定-リーンテストの実現可能なバージョンを開発する。 DR機能学のクラスは広く、経済学やバイオ統計学において中心的な重要性を持つ。 厳密には、(i)chernozhukovらによって研究された条件付き期待のアフィン汎関数の期待として書ける平均二乗連続汎函数のクラスと、robinsらによって研究された函数のクラスの両方を含む。 DR関数の現在の最先端推定子 $\psi$ は DML 推定子 $\hat{\psi}_{1}$ である。 $\hat{\psi}_{1}$ のバイアスは、2つのニュアンス関数 $b$ と $p$ が推定されるレートの積に依存する。 最も一般的なアナリストは、彼女の複雑性を低減した仮定の下で、Cauchy-Schwarz (CS) の上限が $\hat{\psi}_{1}$ のバイアスの $o (n^{- 1 / 2})$ であることを証明することによって、彼女の Wald CI の有効性を正当化する。 したがって、仮説 $H_{0}$: CS上界が$o (n^{- 1 / 2})$ であるなら、ウォルドCIの有効性に対するアナリストの正当化を偽ることになる。 本研究では、$b, p$ あるいはそれらの推定値 $\hat{b}, \hat{p}$ の複雑性還元仮定に頼ることなく、$H_{0}$ の有効な仮定リーンのファルシフィケーションテストを示す。 シミュレーション実験を行い,提案する仮定-リーンテストの実用性を示す。 我々の方法論の避けられない制限は、我々のを含む$h_{0}$の仮定-リーンテストが一貫性のあるテストにならないことである。 したがって、テストの拒絶の失敗は$h_{0}$を支持する意味のある証拠ではない。

In this article we develop a feasible version of the assumption-lean tests in Liu et al. 20 that can falsify an analyst's justification for the validity of a reported nominal $(1 - \alpha)$ Wald confidence interval (CI) centered at a double machine learning (DML) estimator for any member of the class of doubly robust (DR) functionals studied by Rotnitzky et al. 21. The class of DR functionals is broad and of central importance in economics and biostatistics. It strictly includes both (i) the class of mean-square continuous functionals that can be written as an expectation of an affine functional of a conditional expectation studied by Chernozhukov et al. 22 and the class of functionals studied by Robins et al. 08. The present state-of-the-art estimators for DR functionals $\psi$ are DML estimators $\hat{\psi}_{1}$. The bias of $\hat{\psi}_{1}$ depends on the product of the rates at which two nuisance functions $b$ and $p$ are estimated. Most commonly an analyst justifies the validity of her Wald CIs by proving that, under her complexity-reducing assumptions, the Cauchy-Schwarz (CS) upper bound for the bias of $\hat{\psi}_{1}$ is $o (n^{- 1 / 2})$. Thus if the hypothesis $H_{0}$: the CS upper bound is $o (n^{- 1 / 2})$ is rejected by our test, we will have falsified the analyst's justification for the validity of her Wald CIs. In this work, we exhibit a valid assumption-lean falsification test of $H_{0}$, without relying on complexity-reducing assumptions on $b, p$, or their estimates $\hat{b}, \hat{p}$. Simulation experiments are conducted to demonstrate how the proposed assumption-lean test can be used in practice. An unavoidable limitation of our methodology is that no assumption-lean test of $H_{0}$, including ours, can be a consistent test. Thus failure of our test to reject is not meaningful evidence in favor of $H_{0}$.
翻訳日:2023-07-26 20:31:43 公開日:2023-07-25
# G-不変拡散写像

G-invariant diffusion maps ( http://arxiv.org/abs/2306.07350v2 )

ライセンス: Link先を確認
Eitan Rosen and Xiuyuan Cheng and Yoel Shkolnisky(参考訳) 多様体上に横たわるデータの拡散マップは、次元の減少やクラスタリング、データの可視化といったタスクに成功している。 本研究では、連続行列群の作用の下で閉じた多様体からサンプリングされた埋め込みデータセットについて考察する。 そのようなデータセットの例は、平面回転が任意である画像である。 著者の以前の研究で導入されたG-不変グラフ Laplacian は、群の既約ユニタリ表現の元とある種の行列の固有ベクトルの間のテンソル積の形の固有函数を認める。 これらの固有関数を用いて、データ上の群作用を本質的に考慮した拡散写像を導出する。 特に,データポイントのクラスタリングやアライメントに自然に使用できる同変埋め込みと不変埋め込みの両方を構築している。 シミュレーションデータによる構築の有効性を実証する。

The diffusion maps embedding of data lying on a manifold have shown success in tasks ranging from dimensionality reduction and clustering, to data visualization. In this work, we consider embedding data sets which were sampled from a manifold which is closed under the action of a continuous matrix group. An example of such a data set is images who's planar rotations are arbitrary. The G-invariant graph Laplacian, introduced in a previous work of the authors, admits eigenfunctions in the form of tensor products between the elements of the irreducible unitary representations of the group and eigenvectors of certain matrices. We employ these eigenfunctions to derive diffusion maps that intrinsically account for the group action on the data. In particular, we construct both equivariant and invariant embeddings which can be used naturally to cluster and align the data points. We demonstrate the effectiveness of our construction with simulated data.
翻訳日:2023-07-26 20:31:01 公開日:2023-07-25
# マッチングにおけるシャープ収束率

Sharp Convergence Rates for Matching Pursuit ( http://arxiv.org/abs/2307.07679v2 )

ライセンス: Link先を確認
Jason M. Klusowski, Jonathan W. Siegel(参考訳) 辞書の要素のスパース線形結合によって対象関数を近似するためのマッチング追従法(pure greedy algorithm)の基本的な限界について検討する。 対象関数が辞書に対応する変動空間に含まれる場合、過去数十年にわたって多くの印象的な著作が一致追尾の誤差の上限を上下に設定してきたが、それらは一致していない。 本論文の主な貢献は, このギャップを閉じて, マッチング追従の減衰率を鋭く評価することである。 具体的には,既存の最上界を著しく改善できないことを示す最悪の事例辞書を構築した。 他のグリーディアルゴリズムの変種とは異なり、収束率は準最適であり、ある非線型方程式の解によって決定される。 これにより、最悪の場合において、任意の量の縮小が一致追尾を改善すると結論付けることができる。

We study the fundamental limits of matching pursuit, or the pure greedy algorithm, for approximating a target function by a sparse linear combination of elements from a dictionary. When the target function is contained in the variation space corresponding to the dictionary, many impressive works over the past few decades have obtained upper and lower bounds on the error of matching pursuit, but they do not match. The main contribution of this paper is to close this gap and obtain a sharp characterization of the decay rate of matching pursuit. Specifically, we construct a worst case dictionary which shows that the existing best upper bound cannot be significantly improved. It turns out that, unlike other greedy algorithm variants, the converge rate is suboptimal and is determined by the solution to a certain non-linear equation. This enables us to conclude that any amount of shrinkage improves matching pursuit in the worst case.
翻訳日:2023-07-26 20:23:16 公開日:2023-07-25
# maxmin-l2-svc-nch : ベクトル分類訓練とパラメータ選択のための新しいアプローチ

MaxMin-L2-SVC-NCH: A Novel Approach for Support Vector Classifier Training and Parameter Selection ( http://arxiv.org/abs/2307.07343v2 )

ライセンス: Link先を確認
Linkai Luo, Qiaoling Yang, Hong Peng, Yiding Wang, Ziyang Chen(参考訳) サポートベクトル分類(SVC)の適用において、ガウスのカーネルパラメータの選択は重要な役割を果たす。 一般的な方法はk-fold cross validation with grid search (cv)であり、多くのsvcモデルをトレーニングする必要があるため、非常に時間がかかる。 本稿では,SVCを学習し,ガウスカーネルパラメータの選択を最適化するための新しい手法を提案する。 まず,最小化問題は2つの正規凸殻(l2-svc-nch)間の最接近点を求める最適化問題であり,最大化問題は最適ガウス核パラメータを求める最適化問題であるmaxmin-l2-svc-nchと呼ばれるミニマックス最適化問題としてsvcの訓練とパラメータ選択を定式化する。 CVは必要ないため、MaxMin-L2-SVC-NCHではより短い時間で複雑さが期待できる。 次に,L2-SVC-NCHを学習するための予測勾配アルゴリズム(PGA)を提案する。 有名なシーケンシャル最小最適化(SMO)アルゴリズムは、PGAの特殊な場合である。 したがって、PGAはSMOよりも柔軟性が高い。 さらに、最大化問題の解法は、動的学習率の勾配上昇アルゴリズムによって行われる。 MaxMin-L2-SVC-NCHの比較実験により、MaxMin-L2-SVC-NCHは、競合するテスト精度を維持しながらトレーニング対象のモデルを大幅に削減することを示した。 これらの結果から,MaxMin-L2-SVC-NCHはSVCタスクに適した選択肢であることが示唆された。

The selection of Gaussian kernel parameters plays an important role in the applications of support vector classification (SVC). A commonly used method is the k-fold cross validation with grid search (CV), which is extremely time-consuming because it needs to train a large number of SVC models. In this paper, a new approach is proposed to train SVC and optimize the selection of Gaussian kernel parameters. We first formulate the training and parameter selection of SVC as a minimax optimization problem named as MaxMin-L2-SVC-NCH, in which the minimization problem is an optimization problem of finding the closest points between two normal convex hulls (L2-SVC-NCH) while the maximization problem is an optimization problem of finding the optimal Gaussian kernel parameters. A lower time complexity can be expected in MaxMin-L2-SVC-NCH because CV is not needed. We then propose a projected gradient algorithm (PGA) for training L2-SVC-NCH. The famous sequential minimal optimization (SMO) algorithm is a special case of the PGA. Thus, the PGA can provide more flexibility than the SMO. Furthermore, the solution of the maximization problem is done by a gradient ascent algorithm with dynamic learning rate. The comparative experiments between MaxMin-L2-SVC-NCH and the previous best approaches on public datasets show that MaxMin-L2-SVC-NCH greatly reduces the number of models to be trained while maintaining competitive test accuracy. These findings indicate that MaxMin-L2-SVC-NCH is a better choice for SVC tasks.
翻訳日:2023-07-26 20:23:03 公開日:2023-07-25
# チューナブル相互作用を利用したほぼハイゼンベルク制限物質波の作成

Creating nearly Heisenberg-limited matter-waves exploiting tunable interactions ( http://arxiv.org/abs/2307.06766v2 )

ライセンス: Link先を確認
Alexander Herbst, Timoth\'e Estrampes, Henning Albers, Vera Vollenkemper, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul and Dennis Schlippert(参考訳) ハイゼンベルクの不確実性原理は、位置と運動量における不確実性が最小となる物質波の存在を示唆している。 この極限は相互作用する粒子の大きなアンサンブルで得られる。 ここでは,ハイゼンベルク限界付近で自由膨張速度を持つ超低温原子の高流動源について報告する。 この結果は磁気フェシュバッハ共鳴による原子散乱長の2次相互作用強度の動的チューニングによって達成される。 強相互作用レジームにおけるトーマス・フェルミ近似と弱い相互作用レジームにおけるガウス原子密度近似に基づく変分的アプローチに基づき,アンサンブルの相互作用エネルギーをスケーリングアプローチでモデル化し,両者の遷移を実験的に観察する。 物質波レンズ技術と組み合わせることで、フェムトケルビン範囲の相互作用エネルギーを持つ量子縮退原子を生成することが期待され、未探索エネルギースケールでの量子力学の精密試験への道を開く。

Heisenberg's uncertainty principle suggests the existence of matter waves with minimal combined uncertainty in position and momentum. This limit is challenging to obtain with large ensembles of interacting particles. Here we report on a high-flux source of ultra-cold atoms with free expansion rates near the Heisenberg limit directly upon release from the trap. Our results are achieved through dynamic tuning of the atomic scattering length across two orders of magnitude interaction strength via magnetic Feshbach resonances. We model the interaction energy of the ensembles with a scaling approach based on the Thomas-Fermi approximation in the strong interaction regime and a variational approach based on a Gaussian atomic density approximation in the weak interaction regime, observing the transition between both experimentally. Paired with matter-wave lensing techniques, our method is expected to produce quantum degenerate atoms with interaction energies in the femtokelvin range, paving the way for precision tests of quantum mechanics on unexplored energy scales.
翻訳日:2023-07-26 20:22:37 公開日:2023-07-25
# 機械学習のプラクティスとインフラストラクチャ

Machine Learning practices and infrastructures ( http://arxiv.org/abs/2307.06518v2 )

ライセンス: Link先を確認
Glen Berman(参考訳) 機械学習(ML)システムは、特に高い領域にデプロイされた場合、非常に適切である。 彼らは既存の不平等を悪化させ、新しい差別モードを作り、時代遅れの社会的構成を再構築することができる。 したがって、MLシステムを開発する社会的文脈(組織、チーム、文化)は、AI倫理分野の積極的な研究の場であり、政策立案者への介入である。 本稿では,実践者とそれに依存するツールとのインタラクションと,これらのインタラクションがmlプラクティスの形成とmlシステムの開発に果たす役割について,しばしば見過ごされている社会的コンテキストの1つの側面に焦点を当てる。 特にStack Exchangeフォーラムで質問された質問の実証的研究を通じて、MLプラクティスにおけるインタラクティブコンピューティングプラットフォーム(Jupyter NotebookやGoogle Colabなど)の使用について検討している。 インタラクティブなコンピューティングプラットフォームは、インタラクティブなコンピューティングプラットフォームとML実践者とのインフラ的関係を構成する、学習と調整の一連のプラクティスで使われています。 MLの実践がインタラクティブなコンピューティングプラットフォームの開発と共進化している様子を説明した上で、AI倫理研究者が示したMLのライフサイクルの目に見えない側面を生かすリスクが、デプロイされたMLシステムの社会的影響に対して特に有益であることを強調した。

Machine Learning (ML) systems, particularly when deployed in high-stakes domains, are deeply consequential. They can exacerbate existing inequities, create new modes of discrimination, and reify outdated social constructs. Accordingly, the social context (i.e. organisations, teams, cultures) in which ML systems are developed is a site of active research for the field of AI ethics, and intervention for policymakers. This paper focuses on one aspect of social context that is often overlooked: interactions between practitioners and the tools they rely on, and the role these interactions play in shaping ML practices and the development of ML systems. In particular, through an empirical study of questions asked on the Stack Exchange forums, the use of interactive computing platforms (e.g. Jupyter Notebook and Google Colab) in ML practices is explored. I find that interactive computing platforms are used in a host of learning and coordination practices, which constitutes an infrastructural relationship between interactive computing platforms and ML practitioners. I describe how ML practices are co-evolving alongside the development of interactive computing platforms, and highlight how this risks making invisible aspects of the ML life cycle that AI ethics researchers' have demonstrated to be particularly salient for the societal impact of deployed ML systems.
翻訳日:2023-07-26 20:22:23 公開日:2023-07-25
# リプレイとカリキュラムの統合:連続学習への影響

Integrating Curricula with Replays: Its Effects on Continual Learning ( http://arxiv.org/abs/2307.05747v2 )

ライセンス: Link先を確認
Ren Jie Tee and Mengmi Zhang(参考訳) 人間は、新しいスキルや知識を得る際に、キュリキュラでプロセスを学習し、レビューする。 この人間の学習行動は、連続学習エージェントにおけるカリキュラムと再生方法の統合にインスピレーションを与えている。 目標は、人間の学習プロセスをエミュレートし、知識の保持を改善し、学習の伝達を促進することである。 継続学習エージェントにおける既存のリプレイ手法では、前タスクからのデータのランダムな選択と順序付けが有効であることが示されている。 しかし、継続学習を強化するためのリプレイ手法と異なるカリキュラムの統合について限定的な研究がなされている。 本研究は,リプレイ法とリプレイ法が連続学習に与える影響を,学習データとリプレイ例のインターリーブ頻度,例題をリプレイするシーケンス,例題をリプレイバッファに選択する戦略の3つの点で検討する。 キュリキュラデザインのこれらの側面は認知心理学の原則と整合し、リプレイ中のインターリーブドプラクティスの利点、簡単でハードなリハーサル、そして難易度の一様分布からの模範的選択戦略を活用する。 以上の結果から,これら3つのカリキュラムは,継続学習手法の進歩におけるカリキュラムの可能性を実証し,破滅的な記憶とポジティブな知識伝達を効果的に緩和した。 私たちのコードとデータは、https://github.com/zhanglab-deepneurocoglab/integrating-curricula-with-replaysで利用可能です。

Humans engage in learning and reviewing processes with curricula when acquiring new skills or knowledge. This human learning behavior has inspired the integration of curricula with replay methods in continual learning agents. The goal is to emulate the human learning process, thereby improving knowledge retention and facilitating learning transfer. Existing replay methods in continual learning agents involve the random selection and ordering of data from previous tasks, which has shown to be effective. However, limited research has explored the integration of different curricula with replay methods to enhance continual learning. Our study takes initial steps in examining the impact of integrating curricula with replay methods on continual learning in three specific aspects: the interleaved frequency of replayed exemplars with training data, the sequence in which exemplars are replayed, and the strategy for selecting exemplars into the replay buffer. These aspects of curricula design align with cognitive psychology principles and leverage the benefits of interleaved practice during replays, easy-to-hard rehearsal, and exemplar selection strategy involving exemplars from a uniform distribution of difficulties. Based on our results, these three curricula effectively mitigated catastrophic forgetting and enhanced positive knowledge transfer, demonstrating the potential of curricula in advancing continual learning methodologies. Our code and data are available: https://github.com/ZhangLab-DeepNeuroCogLab/Integrating-Curricula-with-Replays
翻訳日:2023-07-26 20:20:43 公開日:2023-07-25
# ディープラーニングアーキテクチャにまたがる特徴属性の調和:解釈可能性と一貫性の強化

Harmonizing Feature Attributions Across Deep Learning Architectures: Enhancing Interpretability and Consistency ( http://arxiv.org/abs/2307.02150v3 )

ライセンス: Link先を確認
Md Abdul Kadir, Gowtham Krishna Addluri, Daniel Sonntag(参考訳) 機械学習モデルの信頼性と解釈可能性を保証することは、現実のアプリケーションへのデプロイに不可欠である。 個々の入力特徴に重きを置くことによってモデル予測の局所的な説明を提供する機能帰属法が注目されている。 本研究では,畳み込みニューラルネットワーク(cnns)や視覚トランスフォーマーなど,さまざまなディープラーニングアーキテクチャにおける特徴帰属の一般化について検討する。 本研究の目的は,特徴属性法を将来の検出器として活用することの実現可能性を評価し,これらの特徴を異なるアーキテクチャを用いた複数のモデルで調和させる方法を検討することである。 この調和を探求することで,特徴帰属に関するより一貫性と楽観的な理解を深め,多種多様なディープラーニングモデルにおける局所的説明の一貫性を高めることを目指す。 本研究は, アーキテクチャによらず, 解釈可能性の向上と機械学習アプリケーションの信頼性向上を目的とした, 調和した特徴属性手法の可能性を強調した。

Ensuring the trustworthiness and interpretability of machine learning models is critical to their deployment in real-world applications. Feature attribution methods have gained significant attention, which provide local explanations of model predictions by attributing importance to individual input features. This study examines the generalization of feature attributions across various deep learning architectures, such as convolutional neural networks (CNNs) and vision transformers. We aim to assess the feasibility of utilizing a feature attribution method as a future detector and examine how these features can be harmonized across multiple models employing distinct architectures but trained on the same data distribution. By exploring this harmonization, we aim to develop a more coherent and optimistic understanding of feature attributions, enhancing the consistency of local explanations across diverse deep-learning models. Our findings highlight the potential for harmonized feature attribution methods to improve interpretability and foster trust in machine learning applications, regardless of the underlying architecture.
翻訳日:2023-07-26 20:19:54 公開日:2023-07-25
# 量子タット埋め込み

Quantum Tutte Embeddings ( http://arxiv.org/abs/2307.08851v2 )

ライセンス: Link先を確認
Shion Fukuzawa, Michael T. Goodrich, Sandy Irani(参考訳) tutte埋め込みのフレームワークを使って、量子コンピュータを使ってグラフを視覚化する \emph{quantum graph drawing} の探索を開始する。 この論文の主な貢献は、量子グラフ描画のモデルを定式化し、与えられたグラフからグラフ描画量子回路を作成する方法を説明し、タット埋め込みをこの回路内の量子状態として計算し、それをサンプル化して埋め込みを抽出する方法を示すことである。 量子タッテ埋め込み回路の複雑さを評価するために、タッテ埋め込みから生じる線形系のタイプを解くためのよく知られた古典的アルゴリズムから導かれた古典的計算条件で確立された理論的境界と比較する。 また,実験的な量子シミュレーションから得られた実験結果を示す。

Using the framework of Tutte embeddings, we begin an exploration of \emph{quantum graph drawing}, which uses quantum computers to visualize graphs. The main contributions of this paper include formulating a model for quantum graph drawing, describing how to create a graph-drawing quantum circuit from a given graph, and showing how a Tutte embedding can be calculated as a quantum state in this circuit that can then be sampled to extract the embedding. To evaluate the complexity of our quantum Tutte embedding circuits, we compare them to theoretical bounds established in the classical computing setting derived from a well-known classical algorithm for solving the types of linear systems that arise from Tutte embeddings. We also present empirical results obtained from experimental quantum simulations.
翻訳日:2023-07-26 20:13:09 公開日:2023-07-25
# Retentive Network: 大規模言語モデルのためのトランスフォーマーの継承者

Retentive Network: A Successor to Transformer for Large Language Models ( http://arxiv.org/abs/2307.08621v3 )

ライセンス: Link先を確認
Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei(参考訳) 本研究では,大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論上は再発と注意の関係を導出する。 次に,並列,リカレント,チャンク回りリカレントという3つの計算パラダイムをサポートするシーケンスモデリングのための保持機構を提案する。 具体的には、並列表現は並列性を訓練することができる。 リカレント表現は、低コストの$O(1)$推論を可能にし、パフォーマンスを犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを改善する。 チャンクワイズ・リカレント表現は、各チャンクを並列に符号化し、チャンクを反復的に要約する、線形複雑性を伴う効率的なロングシーケンスモデリングを容易にする。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストデプロイメント、効率的な推論を実現している。 RetNetは大きな言語モデルのためのTransformerの強力な後継となる。 コードはhttps://aka.ms/retnet.comから入手できる。

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel representation allows for training parallelism. The recurrent representation enables low-cost $O(1)$ inference, which improves decoding throughput, latency, and GPU memory without sacrificing performance. The chunkwise recurrent representation facilitates efficient long-sequence modeling with linear complexity, where each chunk is encoded parallelly while recurrently summarizing the chunks. Experimental results on language modeling show that RetNet achieves favorable scaling results, parallel training, low-cost deployment, and efficient inference. The intriguing properties make RetNet a strong successor to Transformer for large language models. Code will be available at https://aka.ms/retnet.
翻訳日:2023-07-26 20:12:32 公開日:2023-07-25
# 最小誤差エントロピー基準のロバスト性を再考する:転帰学習事例の検討

Revisiting the Robustness of the Minimum Error Entropy Criterion: A Transfer Learning Case Study ( http://arxiv.org/abs/2307.08572v4 )

ライセンス: Link先を確認
Luis Pedro Silvestrin, Shujian Yu, Mark Hoogendoorn(参考訳) 分散シフトに対処することは、実際のタスクでうまく機能するために、転送学習手法の重要な部分である。 しかし、この分野の既存のアプローチのほとんどは、データがノイズを含まない理想的なシナリオに焦点を当てたり、複雑なトレーニングパラダイムやモデル設計を使って分散シフトに対処する。 本稿では,非ガウス雑音に対処する統計信号処理の目的である最小誤差エントロピー(MEE)基準の頑健性を再検討し,分散シフトが一般的である実生活伝達学習回帰タスクにおけるその実現可能性と有用性について検討する。 具体的には,共変量シフトに対するMEEの堅牢性を示す新たな理論的結果を示した。 また, 最小二乗誤差(MSE)損失を, 微調整や線形探索などの基礎的伝達学習アルゴリズムでMEEに置き換えることによって, 最先端の伝達学習アルゴリズムに対する競合性能を実現できることを示す。 合成データと実世界の時系列データの両方に関する議論を正当化する。

Coping with distributional shifts is an important part of transfer learning methods in order to perform well in real-life tasks. However, most of the existing approaches in this area either focus on an ideal scenario in which the data does not contain noises or employ a complicated training paradigm or model design to deal with distributional shifts. In this paper, we revisit the robustness of the minimum error entropy (MEE) criterion, a widely used objective in statistical signal processing to deal with non-Gaussian noises, and investigate its feasibility and usefulness in real-life transfer learning regression tasks, where distributional shifts are common. Specifically, we put forward a new theoretical result showing the robustness of MEE against covariate shift. We also show that by simply replacing the mean squared error (MSE) loss with the MEE on basic transfer learning algorithms such as fine-tuning and linear probing, we can achieve competitive performance with respect to state-of-the-art transfer learning algorithms. We justify our arguments on both synthetic data and 5 real-world time-series data.
翻訳日:2023-07-26 20:12:15 公開日:2023-07-25
# 積分可能およびカオス量子系における相関子の時間変動

Temporal fluctuations of correlators in integrable and chaotic quantum systems ( http://arxiv.org/abs/2307.08440v2 )

ライセンス: Link先を確認
Tal\'ia L. M. Lezama, Yevgeny Bar Lev, and Lea F. Santos(参考訳) 我々は、エネルギーギャップの縮退を伴わない多体量子システムの非順序および時間順序コリケータの無限時間平均付近の時間的ゆらぎの境界を与える。 物理初期状態の場合、境界は系の大きさの関数として時間変動の指数的減衰を予測する。 我々は、この予測をカオス的かつ相互作用する可積分スピン-1/2鎖に対して数値的に検証する。 一方、ギャップ縮退を伴う非相互作用系であるXXモデルの場合、時間的変動は、フェルミオン表現に局所的な演算子のシステムサイズと多項式的に減衰し、非局所演算子のシステムサイズで指数関数的に減少することを示す。 その結果, 相関器の時間変動の減衰は, カオスやその欠如の信頼性指標として利用できないことがわかった。

We provide bounds on temporal fluctuations around the infinite-time average of out-of-time-ordered and time-ordered correlators of many-body quantum systems without energy gap degeneracies. For physical initial states, our bounds predict the exponential decay of the temporal fluctuations as a function of the system size. We numerically verify this prediction for chaotic and interacting integrable spin-1/2 chains, which satisfy the assumption of our bounds. On the other hand, we show analytically and numerically that for the XX model, which is a noninteracting system with gap degeneracies, the temporal fluctuations decay polynomially with system size for operators that are local in the fermion representation and decrease exponentially in the system size for non-local operators. Our results demonstrate that the decay of the temporal fluctuations of correlators cannot be used as a reliable metric of chaos or lack thereof.
翻訳日:2023-07-26 20:11:53 公開日:2023-07-25
# 大規模言語モデルを用いた深度検索のためのソフトプロンプトチューニング

Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models ( http://arxiv.org/abs/2307.08303v2 )

ライセンス: Link先を確認
Zhiyuan Peng, Xuyang Wu, Yi Fang(参考訳) Dense Search (DR) はクエリとドキュメントを密埋め込みに変換し、ベクトル空間におけるクエリとドキュメント間の類似度を測定する。 DRの課題のひとつは、ドメイン固有のトレーニングデータがないことだ。 drモデルは、転送学習を通じてms marcoのような大規模な公開データセットから学べるが、すべてのdrモデルとドメインが等しく転送学習の恩恵を受けるわけではない。 近年、一部の研究者はゼロショットと少数ショットのDRモデルを改善するために大規模言語モデル(LLM)を活用している。 しかし、これらの作業で使われるハードプロンプトや人書きプロンプトは、生成された弱いクエリの質を保証できない。 タスク毎にソフトプロンプトチューニングを利用して、限られた基底真理データに対してタスク固有のソフトプロンプトを最適化し、llmに弱いクエリでラベルなしの文書にタグを付けるように促し、タスク固有の密集したレトリバーを訓練するのに十分な弱いドキュメントクエリペアを得る。 我々は,弱いタグ付きクエリの品質をさらに向上させるために,高品質な文書クエリペアを選択するフィルタを設計した。 私たちの知る限りでは、drモデルの強化にソフトプロンプトチューニングを利用する先行作業はありません。 この実験は、sptarが教師なしのベースラインbm25と最近提案された dr の llms ベースの拡張法よりも優れていることを示している。

Dense retrieval (DR) converts queries and documents into dense embeddings and measures the similarity between queries and documents in vector space. One of the challenges in DR is the lack of domain-specific training data. While DR models can learn from large-scale public datasets like MS MARCO through transfer learning, evidence shows that not all DR models and domains can benefit from transfer learning equally. Recently, some researchers have resorted to large language models (LLMs) to improve the zero-shot and few-shot DR models. However, the hard prompts or human-written prompts utilized in these works cannot guarantee the good quality of generated weak queries. To tackle this, we propose soft prompt tuning for augmenting DR (SPTAR): For each task, we leverage soft prompt-tuning to optimize a task-specific soft prompt on limited ground truth data and then prompt the LLMs to tag unlabeled documents with weak queries, yielding enough weak document-query pairs to train task-specific dense retrievers. We design a filter to select high-quality example document-query pairs in the prompt to further improve the quality of weak tagged queries. To the best of our knowledge, there is no prior work utilizing soft prompt tuning to augment DR models. The experiments demonstrate that SPTAR outperforms the unsupervised baselines BM25 and the recently proposed LLMs-based augmentation method for DR.
翻訳日:2023-07-26 20:11:37 公開日:2023-07-25
# RegExplainer: 回帰タスクにおけるグラフニューラルネットワークの説明生成

RegExplainer: Generating Explanations for Graph Neural Networks in Regression Task ( http://arxiv.org/abs/2307.07840v2 )

ライセンス: Link先を確認
Jiaxing Zhang, Zhuomin Chen, Hao Mei, Dongsheng Luo, and Hua Wei(参考訳) グラフ回帰は基本的なタスクであり、幅広いグラフ学習タスクで注目を集めています。 しかし、推論プロセスはしばしば解釈できない。 既存の説明手法の多くは、分類タスクにおけるGNNの動作を理解することに限定されている。 本研究では,グラフ回帰モデル (XAIG-R) を解釈するための説明を求める。 既存の手法では分布シフトと連続的に順序付けられた決定境界を見落としており,回帰タスクで適用されることを妨げている。 これらの課題に対処するために,情報ボトルネック理論に基づく新たな目標を提案し,モデルに依存しない方法で様々なGNNをサポートする新しい混合フレームワークを提案する。 さらに,回帰作業において連続的に順序付けられたラベルに取り組むための対比学習戦略を提案する。 提案手法の有効性を実証的に検証するために,評価のための3つのベンチマークデータセットと実生活データセットを導入する。 大規模な実験により,回帰作業におけるGNNモデルの解釈における提案手法の有効性が示された。

Graph regression is a fundamental task and has received increasing attention in a wide range of graph learning tasks. However, the inference process is often not interpretable. Most existing explanation techniques are limited to understanding GNN behaviors in classification tasks. In this work, we seek an explanation to interpret the graph regression models (XAIG-R). We show that existing methods overlook the distribution shifting and continuously ordered decision boundary, which hinders them away from being applied in the regression tasks. To address these challenges, we propose a novel objective based on the information bottleneck theory and introduce a new mix-up framework, which could support various GNNs in a model-agnostic manner. We further present a contrastive learning strategy to tackle the continuously ordered labels in regression task. To empirically verify the effectiveness of the proposed method, we introduce three benchmark datasets and a real-life dataset for evaluation. Extensive experiments show the effectiveness of the proposed method in interpreting GNN models in regression tasks.
翻訳日:2023-07-26 20:11:09 公開日:2023-07-25
# emotionprompt: 感情刺激による大規模言語モデル強化のための心理学の活用

EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus ( http://arxiv.org/abs/2307.11760v2 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Kaijie Zhu, Yixuan Zhang, Wenxin Hou, Jianxun Lian, Xing Xie(参考訳) 大規模言語モデル(LLM)は、推論、言語理解、数学問題解決など多くの分野で大きな成果を上げており、人工知能(AGI)にとって重要なステップと考えられている。 しかしながら、LSMのプロンプトに対する感受性は、日常的に採用する上で大きなボトルネックとなっている。 本稿では,心理学からインスピレーションを得て,情緒的インテリジェンスを探求し,LLMの性能を高めるための感情プロンプトを提案する。 EmotionPromptは、感情刺激をプロンプトに組み込むという、驚くほど単純な原理で機能する。 実験の結果,同一のプロンプトテンプレートを用いて,チャットgpt,vicuna-13b,bloom,t5の8つのタスクにおいて,感情プロンプトがオリジナルのゼロショットプロンプトとゼロショットコットを大きく上回ることがわかった。 さらに、感情プロンプトは真理性と情報性の両方を改善するために観察された。 我々は、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求するための新たな道のりであると信じている。

Large language models (LLMs) have achieved significant performance in many fields such as reasoning, language understanding, and math problem-solving, and are regarded as a crucial step to artificial general intelligence (AGI). However, the sensitivity of LLMs to prompts remains a major bottleneck for their daily adoption. In this paper, we take inspiration from psychology and propose EmotionPrompt to explore emotional intelligence to enhance the performance of LLMs. EmotionPrompt operates on a remarkably straightforward principle: the incorporation of emotional stimulus into prompts. Experimental results demonstrate that our EmotionPrompt, using the same single prompt templates, significantly outperforms original zero-shot prompt and Zero-shot-CoT on 8 tasks with diverse models: ChatGPT, Vicuna-13b, Bloom, and T5. Further, EmotionPrompt was observed to improve both truthfulness and informativeness. We believe that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for humans-LLMs interaction.
翻訳日:2023-07-26 20:04:40 公開日:2023-07-25
# c軸サファイア上の低損失超伝導ta薄膜の結晶粒径

Grain size in low loss superconducting Ta thin films on c-axis sapphire ( http://arxiv.org/abs/2307.11667v2 )

ライセンス: Link先を確認
Sarah Garcia Jones, Nicholas Materise, Ka Wun Leung, Brian D. Isakov, Xi Chen, Jiangchang Zheng, Andras Gyenis, Berthold Jaeck, Corey Rae H. McRae(参考訳) 近年、Ta薄膜の実装により超伝導回路におけるコヒーレンス時間が改善されている。 この材料セットをさらに最適化する努力は、超伝導量子コンピューティングの材料サブフィールドの焦点となっている。 以前は、粒径はデバイスの性能と相関できると仮定されていた。 本研究では,$c$-ax sapphire 上で $\alpha$-Ta を用いて比較粒径実験を行う。 本評価法は, 室温, 構造特性および低温マイクロ波測定の両方を含むが, 粒径924nm$^2$と1700nm$^2$の小型・大型のデバイスでは, 装置性能の統計的差異は認められない。 これらの結果は, c軸サファイア上に生育したtaのパラメータの損失と粒度は相関せず, 最適化のためのパラメータ空間を狭めることを示唆する。

In recent years, the implementation of thin-film Ta has led to improved coherence times in superconducting circuits. Efforts to further optimize this materials set have become a focus of the subfield of materials for superconducting quantum computing. It has been previously hypothesized that grain size could be correlated with device performance. In this work, we perform a comparative grain size experiment with $\alpha$-Ta on $c$-axis sapphire. Our evaluation methods include both room-temperature chemical and structural characterization and cryogenic microwave measurements, and we report no statistical difference in device performance between small- and larger-grain-size devices with grain sizes of 924 nm$^2$ and 1700 nm$^2$, respectively. These findings suggest that grain size is not correlated with loss in the parameter regime of interest for Ta grown on c-axis sapphire, narrowing the parameter space for optimization of this materials set.
翻訳日:2023-07-26 20:04:21 公開日:2023-07-25
# CORE : マルチエージェント・パーセプションのための協調的再建

CORE: Cooperative Reconstruction for Multi-Agent Perception ( http://arxiv.org/abs/2307.11514v2 )

ライセンス: Link先を確認
Binglu Wang, Lei Zhang, Zhaozhong Wang, Yongqiang Zhao, Tianfei Zhou(参考訳) 本稿では,マルチエージェント協調認識のための概念的,シンプルで効果的かつコミュニケーション効率の良いモデルであるCOREを提案する。 それは2つの重要な洞察に基づいて、新しい協力的再構築の観点からその課題に対処する。 1)協力するエージェントは、より総合的な環境観察を提供し、 2)包括的観察は,協調に基づく理想的な観察の再構築方法について,モデル学習を明示的に指導する上で,貴重な監督となる。 COREは、各エージェントが効率的な放送のためによりコンパクトな特徴表現を作成するための圧縮機、クロスエージェントメッセージアグリゲーションのための軽量な注意協調コンポーネント、集約された特徴表現に基づいて観察を再構築する再構築モジュールの3つの主要なコンポーネントでアイデアをインスタンス化する。 この学習から再構築までのアイデアはタスク非依存であり、より効果的なコラボレーションを刺激し、最終的には知覚タスクを促進するための明確で合理的な監督を提供する。 大規模マルチエージェント知覚データセットであるopv2vのコアを,3次元オブジェクト検出と意味セグメンテーションという2つのタスクで検証した。 その結果,両タスクの最先端性能が得られ,通信効率が向上した。

This paper presents CORE, a conceptually simple, effective and communication-efficient model for multi-agent cooperative perception. It addresses the task from a novel perspective of cooperative reconstruction, based on two key insights: 1) cooperating agents together provide a more holistic observation of the environment, and 2) the holistic observation can serve as valuable supervision to explicitly guide the model learning how to reconstruct the ideal observation based on collaboration. CORE instantiates the idea with three major components: a compressor for each agent to create more compact feature representation for efficient broadcasting, a lightweight attentive collaboration component for cross-agent message aggregation, and a reconstruction module to reconstruct the observation based on aggregated feature representations. This learning-to-reconstruct idea is task-agnostic, and offers clear and reasonable supervision to inspire more effective collaboration, eventually promoting perception tasks. We validate CORE on OPV2V, a large-scale multi-agent percetion dataset, in two tasks, i.e., 3D object detection and semantic segmentation. Results demonstrate that the model achieves state-of-the-art performance on both tasks, and is more communication-efficient.
翻訳日:2023-07-26 20:03:23 公開日:2023-07-25
# 予後不良肺癌の総合的生存予測のための深層学習アプローチ

A Deep Learning Approach for Overall Survival prediction in Lung Cancer with Missing Values ( http://arxiv.org/abs/2307.11465v2 )

ライセンス: Link先を確認
Camillo Maria Caruso, Valerio Guarrasi, Sara Ramella and Paolo Soda(参考訳) 人工知能(AI)が適用可能な最も困難な分野の1つは、肺癌の研究、特に非小細胞肺癌(NSCLC)である。 特に、診断から死亡までの生存期間(OS)は、患者の状態を示す重要な指標であり、適切な治療とOS率の向上を可能にしている。 この分析では、考慮すべき課題が2つあります。 第一に、各患者から得られる情報を効果的に活用する研究はほとんどなく、イベントの時間も考慮し、無検閲(死)と検閲(生存者)の両方を利用する。 第二に、医療分野では不完全なデータの取り扱いが一般的な問題である。 この問題は、通常、インプテーション法を用いて取り組まれる。 本研究の目的は,NSCLC患者に対するOSの予測のために,検閲および非検閲患者の双方から効果的に学習し,これらの限界を克服できるAIモデルを提供することである。 そこで本研究では,nsclcの文脈において,インプット戦略を必要とせずに利用可能な特徴のみを考慮し,トランスフォーマーアーキテクチャの強みを生かしたサバイバル解析手法を提案する。 OSのアドホックな損失を利用することで、検閲された患者と無検閲の患者の両方、そして時間の経過とともにリスクの変化を説明できる。 本手法を生存分析のための最新モデルと比較し, 異なるインプテーション戦略を併用した。 C-インデックスの時間依存性変種であるCt-index(71.97, 77.58, 80.72)を1ヶ月, 1年, 2年の時間単位で取得し, 計算方法によらず, C-indexの時間依存性の異なるCt-index(71.97, 77.58, 80.72)を経年的に評価した。

One of the most challenging fields where Artificial Intelligence (AI) can be applied is lung cancer research, specifically non-small cell lung cancer (NSCLC). In particular, overall survival (OS), the time between diagnosis and death, is a vital indicator of patient status, enabling tailored treatment and improved OS rates. In this analysis, there are two challenges to take into account. First, few studies effectively exploit the information available from each patient, leveraging both uncensored (i.e., dead) and censored (i.e., survivors) patients, considering also the events' time. Second, the handling of incomplete data is a common issue in the medical field. This problem is typically tackled through the use of imputation methods. Our objective is to present an AI model able to overcome these limits, effectively learning from both censored and uncensored patients and their available features, for the prediction of OS for NSCLC patients. We present a novel approach to survival analysis with missing values in the context of NSCLC, which exploits the strengths of the transformer architecture to account only for available features without requiring any imputation strategy. By making use of ad-hoc losses for OS, it is able to account for both censored and uncensored patients, as well as changes in risks over time. We compared our method with state-of-the-art models for survival analysis coupled with different imputation strategies. We evaluated the results obtained over a period of 6 years using different time granularities obtaining a Ct-index, a time-dependent variant of the C-index, of 71.97, 77.58 and 80.72 for time units of 1 month, 1 year and 2 years, respectively, outperforming all state-of-the-art methods regardless of the imputation method used.
翻訳日:2023-07-26 20:03:01 公開日:2023-07-25
# Edgeal: OCTセグメンテーションのためのエッジ推定に基づくアクティブラーニングアプローチ

EdgeAL: An Edge Estimation Based Active Learning Approach for OCT Segmentation ( http://arxiv.org/abs/2307.10745v2 )

ライセンス: Link先を確認
Md Abdul Kadir, Hasan Md Tusfiqur Alam, Daniel Sonntag(参考訳) アクティブラーニングアルゴリズムは、限られたデータでモデルのトレーニングにますます人気がある。 しかし,未取得データで利用可能な情報量が限られているため,アノテーションデータの選択は依然として難しい課題である。 そこで本研究では,不確かさを計測するために,未検出画像のエッジ情報を先行情報として利用するedgealを提案する。 不確かさは、エッジを横断するモデル予測の発散とエントロピーを分析することによって定量化される。 この尺度はアノテーション用のスーパーピクセルを選択するために使われる。 マルチクラス光コヒーレンス・トモグラフィ(OCT)セグメンテーションタスクにおけるEdgeALの有効性を実証し、アノテーションラベルのコストを3つの公開データセット(Duke, AROI, UMN)でそれぞれ12%, 2.3%, 3%に削減し、99%のダイススコアを得た。 ソースコードは \url{https://github.com/Mak-Ta-Reque/EdgeAL} で入手できる。

Active learning algorithms have become increasingly popular for training models with limited data. However, selecting data for annotation remains a challenging problem due to the limited information available on unseen data. To address this issue, we propose EdgeAL, which utilizes the edge information of unseen images as {\it a priori} information for measuring uncertainty. The uncertainty is quantified by analyzing the divergence and entropy in model predictions across edges. This measure is then used to select superpixels for annotation. We demonstrate the effectiveness of EdgeAL on multi-class Optical Coherence Tomography (OCT) segmentation tasks, where we achieved a 99% dice score while reducing the annotation label cost to 12%, 2.3%, and 3%, respectively, on three publicly available datasets (Duke, AROI, and UMN). The source code is available at \url{https://github.com/Mak-Ta-Reque/EdgeAL}
翻訳日:2023-07-26 20:02:05 公開日:2023-07-25
# バウンティによるバウンディ:クイアAIハームの評価プロセスを協調的に形成する

Bound by the Bounty: Collaboratively Shaping Evaluation Processes for Queer AI Harms ( http://arxiv.org/abs/2307.10223v2 )

ライセンス: Link先を確認
Organizers of QueerInAI, Nathan Dennler, Anaelia Ovalle, Ashwin Singh, Luca Soldaini, Arjun Subramonian, Huy Tu, William Agnew, Avijit Ghosh, Kyra Yee, Irene Font Peradejordi, Zeerak Talat, Mayra Russo, Jess de Jesus de Pinho Pinhal(参考訳) バイアス評価ベンチマークとデータセットとモデルドキュメンテーションは、人工知能(AI)システムのバイアスと害を評価する中心的なプロセスとして登場した。 しかし、これらの監査プロセスは、限界化されたコミュニティの知識の統合に失敗し、オーディエンスとコミュニティ間の力のダイナミクスを考慮しなかったことで批判されている。 その結果、AIシステム(例えばバイアス報奨金)の損害を特定し評価するコミュニティに影響を及ぼすバイアス評価のモードが提案されている。 それでも、こうした監査プロセスから疎外されたコミュニティが何を望むかを尋ねることは無視されている。 そこで本稿では,監査プロセスにおけるqueerコミュニティの立場と願望について質問する。 この目的のために,参加型ワークショップを組織し,クィアの観点からバイアス・バウンティの批判と再設計を行った。 スペースが与えられた場合、ワークショップ参加者からのフィードバックの範囲はバイアスバウンティが許容する範囲を超え、参加者はバウンティの所有権、インセンティブ、有効性に疑問を呈することが分かりました。 我々は、報奨金のコミュニティ所有を提唱し、報奨金の参加プロセス(例えば共同創造)を補完することで結論付ける。

Bias evaluation benchmarks and dataset and model documentation have emerged as central processes for assessing the biases and harms of artificial intelligence (AI) systems. However, these auditing processes have been criticized for their failure to integrate the knowledge of marginalized communities and consider the power dynamics between auditors and the communities. Consequently, modes of bias evaluation have been proposed that engage impacted communities in identifying and assessing the harms of AI systems (e.g., bias bounties). Even so, asking what marginalized communities want from such auditing processes has been neglected. In this paper, we ask queer communities for their positions on, and desires from, auditing processes. To this end, we organized a participatory workshop to critique and redesign bias bounties from queer perspectives. We found that when given space, the scope of feedback from workshop participants goes far beyond what bias bounties afford, with participants questioning the ownership, incentives, and efficacy of bounties. We conclude by advocating for community ownership of bounties and complementing bounties with participatory processes (e.g., co-creation).
翻訳日:2023-07-26 20:01:33 公開日:2023-07-25
# シリコン中のエルビウムイオンのミリ秒電子スピンコヒーレンス時間

Millisecond electron spin coherence time for erbium ions in silicon ( http://arxiv.org/abs/2307.10021v2 )

ライセンス: Link先を確認
Ian R. Berkman, Alexey Lyasota, Gabriele G. de Boo, John G. Bartholomew, Shao Q. Lim, Brett C. Johnson, Jeffrey C. McCallum, Bin-Bin Xu, Shouyi Xie, Nikolay V. Abrosimov, Hans-Joachim Pohl, Rose L. Ahlefeldt, Matthew J. Sellars, Chunming Yin, Sven Rogge(参考訳) テレコム互換の光遷移を通じてアクセス可能なシリコンのスピンは、確立されたシリコンナノファブリケーション産業を活用する量子情報処理のための汎用的なプラットフォームである。 これらの応用の鍵は光およびスピン遷移における長いコヒーレンス時間であり、フォトニックおよびスピン量子ビットを対向させる堅牢なシステムを提供する。 本稿では, 核スピンフリーシリコン結晶(<0.01% 29Si)内での光検出により, 長い光スピンコヒーレンス時間と電子スピンコヒーレンス時間を計測したEr3+サイトについて報告する。 両サイトについて,2つのサイトを調査し,0.1GHzの光不均一線幅と70kHz以下の均一線幅を求める。 光検出磁気共鳴を用いて両部位の電子スピンコヒーレンス時間を測定し、約11mTでハーンエコー崩壊定数0.8msと1.2msを観測する。これらのEr3+:Siの光学的およびスピン特性は、幅広い量子情報処理用途にシリコンの光アクセス性スピンを使用するための重要なマイルストーンである。

Spins in silicon that are accessible via a telecom-compatible optical transition are a versatile platform for quantum information processing that can leverage the well-established silicon nanofabrication industry. Key to these applications are long coherence times on the optical and spin transitions to provide a robust system for interfacing photonic and spin qubits. Here, we report telecom-compatible Er3+ sites with long optical and electron spin coherence times, measured within a nuclear spin-free silicon crystal (<0.01% 29Si) using optical detection. We investigate two sites and find 0.1 GHz optical inhomogeneous linewidths and homogeneous linewidths below 70 kHz for both sites. We measure the electron spin coherence time of both sites using optically detected magnetic resonance and observe Hahn echo decay constants of 0.8 ms and 1.2 ms at around 11 mT. These optical and spin properties of Er3+:Si are an important milestone towards using optically accessible spins in silicon for a broad range of quantum information processing applications.
翻訳日:2023-07-26 20:01:15 公開日:2023-07-25
# 正規化による回帰における非パラメトリック線形特徴学習

Nonparametric Linear Feature Learning in Regression Through Regularisation ( http://arxiv.org/abs/2307.12754v2 )

ライセンス: Link先を確認
Bertille Follain, Umut Simsekli, Francis Bach(参考訳) 表現学習は、特に非パラメトリック手法がしばしば苦労する高次元データの文脈において、自動特徴選択において重要な役割を果たす。 本研究では,関連する情報がデータの下次元線形部分空間,すなわちマルチインデックスモデルに存在する教師付き学習シナリオに注目した。 この部分空間が知られている場合、予測、計算、解釈を大幅に強化する。 この課題に対処するために,予測関数と線形部分空間を同時に推定する非パラメトリック予測を用いた線形特徴学習手法を提案する。 提案手法は経験的リスク最小化を採用し,機能デリバティブにペナルティを付与し,汎用性を確保する。 エルミート多項式の直交性と回転不変性を利用して、RegFeaLという推定器を導入する。 代替最小化を利用することで、データを反復的に回転させ、先行方向との整合を改善し、実際の設定で適切な次元を正確に推定する。 提案手法は,予測関数の定性的な推定を明示的な速度で行う。 また,各種実験におけるRegFeaLの性能を示す実験結果も提供する。

Representation learning plays a crucial role in automated feature selection, particularly in the context of high-dimensional data, where non-parametric methods often struggle. In this study, we focus on supervised learning scenarios where the pertinent information resides within a lower-dimensional linear subspace of the data, namely the multi-index model. If this subspace were known, it would greatly enhance prediction, computation, and interpretation. To address this challenge, we propose a novel method for linear feature learning with non-parametric prediction, which simultaneously estimates the prediction function and the linear subspace. Our approach employs empirical risk minimisation, augmented with a penalty on function derivatives, ensuring versatility. Leveraging the orthogonality and rotation invariance properties of Hermite polynomials, we introduce our estimator, named RegFeaL. By utilising alternative minimisation, we iteratively rotate the data to improve alignment with leading directions and accurately estimate the relevant dimension in practical settings. We establish that our method yields a consistent estimator of the prediction function with explicit rates. Additionally, we provide empirical results demonstrating the performance of RegFeaL in various experiments.
翻訳日:2023-07-26 19:56:09 公開日:2023-07-25
# マッチゲート計算のためのマジック状態のガウス分解

Gaussian decomposition of magic states for matchgate computations ( http://arxiv.org/abs/2307.12654v2 )

ライセンス: Link先を確認
Joshua Cudby, Sergii Strelchuk(参考訳) マジックステートは、古典的にシミュレート可能なクリフォードゲートを使って普遍的な量子計算を可能にするリソースとして導入された。 この概念は、代数的制約の集合によって定義される2量子近接量子ゲートからなる整合回路(MGC)に拡張されている。 我々の研究では、量子状態のガウス級数(その状態のガウス状態への分解における最小項数として定義される)と関連する量(ガウス的忠実度とガウス的範囲)を研究する。 ガウス状態の代数構造を調査し、ガウス状態の多様体の次元を上界とする制約の独立集合を発見し、記述する。 さらに、ガウス状態の線型依存三重項の形式を説明し、解の多様体の次元を求める。 ガウス状態に対する対応する$\epsilon$-netを構築することにより、ガウスの忠実度に関する上限を得ることができる。 両ガウス測度問題に対する実現可能な集合の極端な点の族を特定し、ガウス測度が 4 キュービットの系上で乗算可能であることを示す。 これらの極端な点は、拡張ハミング符号と密接に関連していることが判明した。 最小点が極端点の通常の円錐の内部にあるとき、最適な双対目撃者はほぼ確実に特異であることを示す。 さらに、標準魔法状態の2つのコピーのガウスランクは、対称性制限分解に対して4であることを示した。 数値的研究は、マジック状態の2コピーまたは3コピーの低ランク分解は存在しないことを示唆している。 最後に、ガウス階数と選択されたマジック状態に対する近似分解について考察する。

Magic states were originally introduced as a resource that enables universal quantum computation using classically simulable Clifford gates. This concept has been extended to matchgate circuits (MGCs) which are made of two-qubit nearest-neighbour quantum gates defined by a set of algebraic constraints. In our work, we study the Gaussian rank of a quantum state -- defined as the minimum number of terms in any decomposition of that state into Gaussian states -- and associated quantities: the Gaussian Fidelity and the Gaussian Extent. We investigate the algebraic structure of Gaussian states and find and describe the independent sets of constraints upper-bounding the dimension of the manifold of Gaussian states. Furthermore, we describe the form of linearly dependent triples of Gaussian states and find the dimension of the manifold of solutions. By constructing the corresponding $\epsilon$-net for the Gaussian states, we are able to obtain upper bounds on the Gaussian fidelity. We identify a family of extreme points of the feasible set for the Dual Gaussian extent problem and show that Gaussian extent is multiplicative on systems of 4 qubits; and further that it is multiplicative on primal points whose optimal dual witness is in the above family. These extreme points turn out to be closely related to Extended Hamming Codes. We show that optimal dual witnesses are unique almost-surely, when the primal point lies in the interior of the normal cone of an extreme point. Furthermore, we show that the Gaussian rank of two copies of our canonical magic state is 4 for symmetry-restricted decompositions. Numerical investigation suggests that no low-rank decompositions exist of either 2 or 3 copies of the magic state. Finally, we consider approximate Gaussian rank and present approximate decompositions for selected magic states.
翻訳日:2023-07-26 19:55:52 公開日:2023-07-25
# TF-ICON:拡散型学習自由領域画像合成

TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition ( http://arxiv.org/abs/2307.12493v2 )

ライセンス: Link先を確認
Shilin Lu, Yanzhu Liu, Adams Wai-Kin Kong(参考訳) テキスト駆動拡散モデルは印象的な生成能力を示し、様々な画像編集タスクを可能にした。 本稿では,クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用する,新しいトレーニング自由画像合成フレームワークTF-ICONを提案する。 このタスクは、ユーザが提供するオブジェクトを視覚的なコンテキストにシームレスに統合することを目的としている。 現在の拡散ベースの方法は、多くの場合、カスタマイズされたデータセット上で事前学習されたモデルのコストのかかるインスタンスベースの最適化や微調整を伴う。 対照的に、TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずにクロスドメイン画像誘導合成を行うことができる。 さらに,実画像を正確に潜在表現に変換し,合成の基礎を形成するテキスト駆動拡散モデルを容易にするために,情報を持たない例外的なプロンプトを導入する。 実験により, 安定拡散を異常なプロンプトと組み合わせることで, 様々なデータセット(CelebA-HQ, COCO, ImageNet)における最先端の逆解析手法よりも優れており, TF-ICONは, 汎用視覚領域において従来のベースラインを超越していることがわかった。 コードはhttps://github.com/Shilin-LU/TF-ICONで入手できる。

Text-driven diffusion models have exhibited impressive generative capabilities, enabling various image editing tasks. In this paper, we propose TF-ICON, a novel Training-Free Image COmpositioN framework that harnesses the power of text-driven diffusion models for cross-domain image-guided composition. This task aims to seamlessly integrate user-provided objects into a specific visual context. Current diffusion-based methods often involve costly instance-based optimization or finetuning of pretrained models on customized datasets, which can potentially undermine their rich prior. In contrast, TF-ICON can leverage off-the-shelf diffusion models to perform cross-domain image-guided composition without requiring additional training, finetuning, or optimization. Moreover, we introduce the exceptional prompt, which contains no information, to facilitate text-driven diffusion models in accurately inverting real images into latent representations, forming the basis for compositing. Our experiments show that equipping Stable Diffusion with the exceptional prompt outperforms state-of-the-art inversion methods on various datasets (CelebA-HQ, COCO, and ImageNet), and that TF-ICON surpasses prior baselines in versatile visual domains. Code is available at https://github.com/Shilin-LU/TF-ICON
翻訳日:2023-07-26 19:55:20 公開日:2023-07-25
# 対称正定値行列の多様体上の回帰による多値共分散推定

Multifidelity Covariance Estimation via Regression on the Manifold of Symmetric Positive Definite Matrices ( http://arxiv.org/abs/2307.12438v2 )

ライセンス: Link先を確認
Aimee Maurais, Terrence Alsup, Benjamin Peherstorfer, Youssef Marzouk(参考訳) 対称正定値行列多様体上の回帰問題の解として定式化された共分散行列の多値性推定器を導入する。 推定器は構成によって正定値であり、マハラノビス距離は最小限に抑えられ、実用的な計算を可能にする性質を持つ。 多様体回帰多元性(mrmf)共分散推定器は、多様体接空間上のある誤差モデルの下で最大確率推定器であることを示す。 より広範に、我々のリーマン回帰フレームワークは、制御変数から構築された既存の多値共分散推定器を含むことを示す。 数値的な実例から,この推定器は,単一忠実度および他の複数忠実度共分散推定器に対する2乗推定誤差において,最大1桁の大幅な減少をもたらすことを証明した。 さらに、正定性の保存は、この性質が不可欠であるデータ同化やメトリック学習のような下流タスクと推定器が互換性があることを保証する。

We introduce a multifidelity estimator of covariance matrices formulated as the solution to a regression problem on the manifold of symmetric positive definite matrices. The estimator is positive definite by construction, and the Mahalanobis distance minimized to obtain it possesses properties which enable practical computation. We show that our manifold regression multifidelity (MRMF) covariance estimator is a maximum likelihood estimator under a certain error model on manifold tangent space. More broadly, we show that our Riemannian regression framework encompasses existing multifidelity covariance estimators constructed from control variates. We demonstrate via numerical examples that our estimator can provide significant decreases, up to one order of magnitude, in squared estimation error relative to both single-fidelity and other multifidelity covariance estimators. Furthermore, preservation of positive definiteness ensures that our estimator is compatible with downstream tasks, such as data assimilation and metric learning, in which this property is essential.
翻訳日:2023-07-26 19:54:41 公開日:2023-07-25
# ResShift: 残差シフトによる画像超解像の効率的な拡散モデル

ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting ( http://arxiv.org/abs/2307.12348v2 )

ライセンス: Link先を確認
Zongsheng Yue, Jianyi Wang, Chen Change Loy(参考訳) 拡散に基づく画像超解像法(SR)は主に、数百から数千のサンプリングステップの要求により、低い推論速度によって制限される。 既存の加速サンプリング技術は必然的に性能を犠牲にし、過度なSR結果をもたらす。 そこで本稿では,srの新しい効率的な拡散モデルを提案する。拡散ステップ数を大幅に削減し,推論時の高速化の必要性をなくし,それに伴う性能劣化を解消する。 本手法では,高分解能画像と低分解能画像との間で残差を移動させ,遷移効率を大幅に向上させるマルコフ連鎖を構築する。 また、拡散過程におけるシフト速度と騒音強度を柔軟に制御する精巧なノイズスケジュールを開発する。 実験の結果,提案手法は,15段階のサンプリングでも,合成と実世界の両方のデータセットにおいて,現在の最先端手法よりも優れた,あるいは少なくとも同等の性能が得られることが示された。 私たちのコードとモデルはhttps://github.com/zsyoaoa/resshiftで利用可能です。

Diffusion-based image super-resolution (SR) methods are mainly limited by the low inference speed due to the requirements of hundreds or even thousands of sampling steps. Existing acceleration sampling techniques inevitably sacrifice performance to some extent, leading to over-blurry SR results. To address this issue, we propose a novel and efficient diffusion model for SR that significantly reduces the number of diffusion steps, thereby eliminating the need for post-acceleration during inference and its associated performance deterioration. Our method constructs a Markov chain that transfers between the high-resolution image and the low-resolution image by shifting the residual between them, substantially improving the transition efficiency. Additionally, an elaborate noise schedule is developed to flexibly control the shifting speed and the noise strength during the diffusion process. Extensive experiments demonstrate that the proposed method obtains superior or at least comparable performance to current state-of-the-art methods on both synthetic and real-world datasets, even only with 15 sampling steps. Our code and model are available at https://github.com/zsyOAOA/ResShift.
翻訳日:2023-07-26 19:54:26 公開日:2023-07-25
# 3つの異なるディープラーニングモデルを組み合わせた心膜脂肪数画像の開発

Development of pericardial fat count images using a combination of three different deep-learning models ( http://arxiv.org/abs/2307.12316v2 )

ライセンス: Link先を確認
Takaaki Matsunaga, Atsushi Kono, Hidetoshi Matsuo, Kaoru Kitagawa, Mizuho Nishio, Hiromi Hashimura, Yu Izawa, Takayoshi Toba, Kazuki Ishikawa, Akie Katsuki, Kazuyuki Ohmura, Takamichi Murakami(参考訳) Rationale and Objectives: 心臓を囲む胸部内臓脂肪である心膜脂肪(PF)は、冠動脈の炎症を誘発することにより、冠動脈疾患の発生を促進する。 本研究の目的は,胸部X線写真(CXR)から心膜脂肪数画像(PFCI)を専用のディープラーニングモデルを用いて生成することであった。 資料と方法:冠動脈ctを施行した269例について検討した。 金属インプラント,胸水,胸腔内手術歴,悪性腫瘍は除外された。 対象は191例であった。 PFCIは3次元CT像の投影から生成され, 脂肪蓄積は高ピクセル値で表現された。 CXRからPFCIを生成するために,CycleGANを含む3つの異なるディープラーニングモデルを組み合わせた。 提案手法との比較のために,CXRからPFCIを生成するために,CycleGANをベースとした単一モデルを用いた。 生成されたPFCIの画像品質、構造類似度指標(SSIM)、平均二乗誤差(MSE)、平均絶対誤差(MAE)を評価する。 i)提案手法を用いて生成されたPFCI及び (II) 単一モデルを用いて生成されたPFCIを比較した。 結果: 平均SSIM, MSE, MAEはそれぞれ0.856, 0.0128, 0.0357, それぞれ0.762, 0.0198, 0.0504であった。 結論: 提案モデルを用いてCXRから生成されたPFCIは, 単一モデルよりも優れた性能を示した。 提案手法ではCTのないPFCI評価が可能である。

Rationale and Objectives: Pericardial fat (PF), the thoracic visceral fat surrounding the heart, promotes the development of coronary artery disease by inducing inflammation of the coronary arteries. For evaluating PF, this study aimed to generate pericardial fat count images (PFCIs) from chest radiographs (CXRs) using a dedicated deep-learning model. Materials and Methods: The data of 269 consecutive patients who underwent coronary computed tomography (CT) were reviewed. Patients with metal implants, pleural effusion, history of thoracic surgery, or that of malignancy were excluded. Thus, the data of 191 patients were used. PFCIs were generated from the projection of three-dimensional CT images, where fat accumulation was represented by a high pixel value. Three different deep-learning models, including CycleGAN, were combined in the proposed method to generate PFCIs from CXRs. A single CycleGAN-based model was used to generate PFCIs from CXRs for comparison with the proposed method. To evaluate the image quality of the generated PFCIs, structural similarity index measure (SSIM), mean squared error (MSE), and mean absolute error (MAE) of (i) the PFCI generated using the proposed method and (ii) the PFCI generated using the single model were compared. Results: The mean SSIM, MSE, and MAE were as follows: 0.856, 0.0128, and 0.0357, respectively, for the proposed model; and 0.762, 0.0198, and 0.0504, respectively, for the single CycleGAN-based model. Conclusion: PFCIs generated from CXRs with the proposed model showed better performance than those with the single model. PFCI evaluation without CT may be possible with the proposed method.
翻訳日:2023-07-26 19:54:08 公開日:2023-07-25
# FDCT: 透明物体の高速深度補完

FDCT: Fast Depth Completion for Transparent Objects ( http://arxiv.org/abs/2307.12274v2 )

ライセンス: Link先を確認
Tianan Li, Zhehan Chen, Huan Liu, Chen Wang(参考訳) 深さの完成は、自律運転や3D再構築、操作といった多くのロボット作業にとって不可欠である。 著しい進歩にもかかわらず、既存の手法は計算集約的であり、しばしば低消費電力ロボットプラットフォームのリアルタイム要求を満たさない。 加えて、ほとんどのメソッドは不透明なオブジェクトのために設計されており、反射と屈折の特別な特性のために透明なオブジェクトに苦しむ。 これらの課題に対処するため,我々は,オブジェクトポーズ推定などの下流タスクにも有効である透過的オブジェクト(fdct)のための高速深さ補完フレームワークを提案する。 地域情報を活用し,グローバル情報と統合する際の過剰フィッティングを回避するために,新しい融合ブランチとショートカットを設計し,低レベル機能と損失関数を活用し、過剰フィッティングを抑制する。 これにより,RGB-D画像のみからの深度推定を再現する,高精度でユーザフレンドリな深度補正フレームワークが実現される。 広範な実験により、fdctは最先端の手法よりも高い精度で約70fpsで動作できることが示されている。 また,fdctは対象把握タスクにおけるポーズ推定を改善できることを実証する。 ソースコードはhttps://github.com/Nonmy/FDCTで入手できる。

Depth completion is crucial for many robotic tasks such as autonomous driving, 3-D reconstruction, and manipulation. Despite the significant progress, existing methods remain computationally intensive and often fail to meet the real-time requirements of low-power robotic platforms. Additionally, most methods are designed for opaque objects and struggle with transparent objects due to the special properties of reflection and refraction. To address these challenges, we propose a Fast Depth Completion framework for Transparent objects (FDCT), which also benefits downstream tasks like object pose estimation. To leverage local information and avoid overfitting issues when integrating it with global information, we design a new fusion branch and shortcuts to exploit low-level features and a loss function to suppress overfitting. This results in an accurate and user-friendly depth rectification framework which can recover dense depth estimation from RGB-D images alone. Extensive experiments demonstrate that FDCT can run about 70 FPS with a higher accuracy than the state-of-the-art methods. We also demonstrate that FDCT can improve pose estimation in object grasping tasks. The source code is available at https://github.com/Nonmy/FDCT
翻訳日:2023-07-26 19:53:33 公開日:2023-07-25
# 不聴音声起動装置を攻撃するための敵エージェント

Adversarial Agents For Attacking Inaudible Voice Activated Devices ( http://arxiv.org/abs/2307.12204v2 )

ライセンス: Link先を確認
Forrest McKee and David Noever(参考訳) この論文は、新しいモノのインターネット構成に強化学習を適用する。 NIST National Vulnerability Database (NVD) が独立に収集したセキュリティ上の重大な脆弱性を裏付ける。 我々のベースラインネットワークモデルは、攻撃者が不正な音声コマンドを使用してセキュアなラップトップ上の機密情報に無許可でアクセスするシナリオを示す。 このベースラインネットワークモデル上で多くの攻撃シナリオをシミュレートし,ハードウェアの追加やデバイススキルの強化を伴わずに,物理的アクセスを通じて特権情報を発見し,所有する可能性を明らかにする。 microsoftのcyberbattlesimフレームワークを使用して、6つの強化学習アルゴリズムを評価し、悪用によるディープq学習が最適であることが分かり、より少ないステップですべてのノードの迅速なオーナシップにつながった。 特にモバイルデバイス、音声のアクティベーション、および悪意あるアクターがほぼ超音域または非音域で盗聴攻撃を行っていることを特徴とする非線形マイクが特徴である。 2024年までに、この新たな攻撃面は、地球上の人々よりも多くのデジタル音声アシスタントを含んでいるが、従来のパッチやファームウェアの修正よりも少ない修正を提供する。

The paper applies reinforcement learning to novel Internet of Thing configurations. Our analysis of inaudible attacks on voice-activated devices confirms the alarming risk factor of 7.6 out of 10, underlining significant security vulnerabilities scored independently by NIST National Vulnerability Database (NVD). Our baseline network model showcases a scenario in which an attacker uses inaudible voice commands to gain unauthorized access to confidential information on a secured laptop. We simulated many attack scenarios on this baseline network model, revealing the potential for mass exploitation of interconnected devices to discover and own privileged information through physical access without adding new hardware or amplifying device skills. Using Microsoft's CyberBattleSim framework, we evaluated six reinforcement learning algorithms and found that Deep-Q learning with exploitation proved optimal, leading to rapid ownership of all nodes in fewer steps. Our findings underscore the critical need for understanding non-conventional networks and new cybersecurity measures in an ever-expanding digital landscape, particularly those characterized by mobile devices, voice activation, and non-linear microphones susceptible to malicious actors operating stealth attacks in the near-ultrasound or inaudible ranges. By 2024, this new attack surface might encompass more digital voice assistants than people on the planet yet offer fewer remedies than conventional patching or firmware fixes since the inaudible attacks arise inherently from the microphone design and digital signal processing.
翻訳日:2023-07-26 19:53:16 公開日:2023-07-25
# ゆるくフィットするウェアラブルのためのモーショングラウンド真理の選択:光学mocap法ベンチマーク

Selecting the motion ground truth for loose-fitting wearables: benchmarking optical MoCap methods ( http://arxiv.org/abs/2307.11881v2 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz(参考訳) スマートウェアラブルの研究者は、あらゆる種類のゆるい衣服に対して、モーションキャプチャー(MoCap)を最適に行うために、光学マーカーベースおよびマーカーレスMoCapの性能を評価するためのベンチマークであるDrapeMoCapBench(DMCB)を提案する。 高精度マーカーベースのMoCapシステムは、正確な黄金標準としてよく知られている。 しかし、あまり知られていないのは、特定の精度を確保するために骨の部位に皮膚に密着するマーカーが必要であり、ゆるい衣服に疑わしいという点である。 一方で、コンピュータビジョンモデルを利用したマーカーレスmocap手法は、ここ数年で成熟し、スマートフォンのカメラが十分であるほど、コストが低くなる。 この目的のためにdmcbは、大規模な現実世界で記録されたmocapデータセットを使用して、幅広い多様性を持つ並列3d物理シミュレーションを行う。スキンタイトから極端にドレープされた衣服まで6段階のドレープ、3段階のモーション、6種類のボディタイプ - 男女の組み合わせ - ベンチマークの光学マーカーベースとマーカーレスのmocap法により、異なるシナリオで最高のパフォーマンスの方法を識別する。 カジュアルな緩い衣服に対するマーカーベースおよび低コストなマーカーレスMoCapの性能評価において、両アプローチは大きな性能損失(>10cm)を示すが、基本的な動作と高速動作を含む日常的な活動ではマーカーレスMoCapはマーカーベースのMoCapよりわずかに優れており、ウェアラブル研究において好適かつ費用効果の高い選択である。

To help smart wearable researchers choose the optimal ground truth methods for motion capturing (MoCap) for all types of loose garments, we present a benchmark, DrapeMoCapBench (DMCB), specifically designed to evaluate the performance of optical marker-based and marker-less MoCap. High-cost marker-based MoCap systems are well-known as precise golden standards. However, a less well-known caveat is that they require skin-tight fitting markers on bony areas to ensure the specified precision, making them questionable for loose garments. On the other hand, marker-less MoCap methods powered by computer vision models have matured over the years, which have meager costs as smartphone cameras would suffice. To this end, DMCB uses large real-world recorded MoCap datasets to perform parallel 3D physics simulations with a wide range of diversities: six levels of drape from skin-tight to extremely draped garments, three levels of motions and six body type - gender combinations to benchmark state-of-the-art optical marker-based and marker-less MoCap methods to identify the best-performing method in different scenarios. In assessing the performance of marker-based and low-cost marker-less MoCap for casual loose garments both approaches exhibit significant performance loss (>10cm), but for everyday activities involving basic and fast motions, marker-less MoCap slightly outperforms marker-based MoCap, making it a favorable and cost-effective choice for wearable studies.
翻訳日:2023-07-26 19:52:49 公開日:2023-07-25
# 質問分解によるモデル生成推論の忠実度向上

Question Decomposition Improves the Faithfulness of Model-Generated Reasoning ( http://arxiv.org/abs/2307.11768v2 )

ライセンス: Link先を確認
Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison, Danny Hernandez, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamil\.e Luko\v{s}i\=ut\.e, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Sam McCandlish, Sheer El Showk, Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez(参考訳) 大規模言語モデル(llm)はより難しいタスクを実行するため、その動作の正確性と安全性を検証することが難しくなる。 この問題を解決するための1つのアプローチは、質問に答えるときにステップバイステップの推論(chain-of-thought; cot)を生成させることで、llmに推論の外部化を促すことである。 この推論により、モデルがタスクを実行するのに使用するプロセスをチェックすることができます。 しかし、このアプローチはモデルの実際の推論を忠実に反映する推論に依存しており、必ずしもそうではない。 CoT推論の忠実性を改善するために、質問をサブクエストに分解することで推論を生成するモデルがある。 分解に基づく手法は、最近提案されたいくつかのメトリクスに対するモデルが主張する根拠の忠実さを改善しながら、時にはCoTの課題にアプローチする。 モデルに別の文脈での単純な要求への答えを強制することで、CoTに対するモデル生成推論の忠実度を大幅に向上させ、CoTのパフォーマンス向上を達成します。 この結果から, モデル生成推論の忠実度を向上させることが可能であり, 継続的な改善により, LLMの挙動の正しさと安全性を検証できる理論が導かれる可能性が示唆された。

As large language models (LLMs) perform more difficult tasks, it becomes harder to verify the correctness and safety of their behavior. One approach to help with this issue is to prompt LLMs to externalize their reasoning, e.g., by having them generate step-by-step reasoning as they answer a question (Chain-of-Thought; CoT). The reasoning may enable us to check the process that models use to perform tasks. However, this approach relies on the stated reasoning faithfully reflecting the model's actual reasoning, which is not always the case. To improve over the faithfulness of CoT reasoning, we have models generate reasoning by decomposing questions into subquestions. Decomposition-based methods achieve strong performance on question-answering tasks, sometimes approaching that of CoT while improving the faithfulness of the model's stated reasoning on several recently-proposed metrics. By forcing the model to answer simpler subquestions in separate contexts, we greatly increase the faithfulness of model-generated reasoning over CoT, while still achieving some of the performance gains of CoT. Our results show it is possible to improve the faithfulness of model-generated reasoning; continued improvements may lead to reasoning that enables us to verify the correctness and safety of LLM behavior.
翻訳日:2023-07-26 19:52:15 公開日:2023-07-25
# 計算病理学のための視覚言語基礎モデルに向けて

Towards a Visual-Language Foundation Model for Computational Pathology ( http://arxiv.org/abs/2307.12914v2 )

ライセンス: Link先を確認
Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Ivy Liang, Tong Ding, Guillaume Jaume, Igor Odintsov, Andrew Zhang, Long Phi Le, Georg Gerber, Anil V Parwani, Faisal Mahmood(参考訳) デジタル病理学の急速な普及とディープラーニングの進歩により、様々な疾患や患者コホートにまたがる様々な病理タスクの強力なモデルの開発が可能となった。 しかし、医療領域におけるラベル不足のため、モデルのトレーニングは困難であり、モデルの使用は、訓練される特定のタスクや病気によって制限される。 さらに、ほとんどの病理学モデルは画像データのみを利用しており、ヒトが互いに教え合う方法と、病理学の実体について推論する手法とは対照的である。 本稿では, 様々な組織像, バイオメディカルテキスト, タスク非依存の事前学習による117万枚以上の画像キャプチャーペアを用いた視覚言語基盤モデルであるContrastive Learning from Captions for Histopathology (CONCH)を紹介する。 13の多様なベンチマークで評価されたconchは、病理組織像とテキストの両方を含む幅広い下流タスクに転送でき、組織像の分類、セグメンテーション、キャプション、テキスト対テキスト検索、画像対テキスト検索の最先端のパフォーマンスを達成している。 CONCHは、病理学のための並行的な視覚言語事前訓練システムに対する大きな飛躍であり、最小またはそれ以上の教師付き微調整を必要とする機械学習ベースのワークフローを直接的に促進する可能性がある。

The accelerated adoption of digital pathology and advances in deep learning have enabled the development of powerful models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due to label scarcity in the medical domain and the model's usage is limited by the specific task and disease for which it is trained. Additionally, most models in histopathology leverage only image data, a stark contrast to how humans teach each other and reason about histopathologic entities. We introduce CONtrastive learning from Captions for Histopathology (CONCH), a visual-language foundation model developed using diverse sources of histopathology images, biomedical text, and notably over 1.17 million image-caption pairs via task-agnostic pretraining. Evaluated on a suite of 13 diverse benchmarks, CONCH can be transferred to a wide range of downstream tasks involving either or both histopathology images and text, achieving state-of-the-art performance on histology image classification, segmentation, captioning, text-to-image and image-to-text retrieval. CONCH represents a substantial leap over concurrent visual-language pretrained systems for histopathology, with the potential to directly facilitate a wide array of machine learning-based workflows requiring minimal or no further supervised fine-tuning.
翻訳日:2023-07-26 19:43:35 公開日:2023-07-25
# 非ガウスフェルミオン回路の古典シミュレーション

Classical simulation of non-Gaussian fermionic circuits ( http://arxiv.org/abs/2307.12912v2 )

ライセンス: Link先を確認
Beatriz Dias and Robert Koenig(参考訳) 非ガウス初期状態に適用したフェルミオン線形光学演算を古典的にシミュレートする効率的なアルゴリズムを提案する。 ガジェット構成により、非ガウス演算を持つフェルミオン線型光学のアルゴリズムを提供する。 この問題は、クリフォード回路を非安定化器初期状態でシミュレートするのと類似していると主張する: 後者の問題のアルゴリズムは直ちにフェルミオン設定に変換する。 我々の構成は、ガウス状態の重ね合わせにおける相対位相を効率的に追跡できる共分散行列形式の拡張に基づいている。 これにより、フェルミオン数、所望の精度、初期状態の非ガウス性度をキャプチャするある量の多項式複雑性を持つシミュレーションアルゴリズムが得られる。 そのような量であるフェルミオンガウスの程度を研究し、いわゆるフェルミオンガウスの忠実度がテンソル積に乗算可能であることを示す。 正のパリティを持つ4つのフェルミオンの2つの任意の純粋状態のテンソル積に対するこの性質を定式化する。

We propose efficient algorithms for classically simulating fermionic linear optics operations applied to non-Gaussian initial states. By gadget constructions, this provides algorithms for fermionic linear optics with non-Gaussian operations. We argue that this problem is analogous to that of simulating Clifford circuits with non-stabilizer initial states: Algorithms for the latter problem immediately translate to the fermionic setting. Our construction is based on an extension of the covariance matrix formalism which permits to efficiently track relative phases in superpositions of Gaussian states. It yields simulation algorithms with polynomial complexity in the number of fermions, the desired accuracy, and certain quantities capturing the degree of non-Gaussianity of the initial state. We study one such quantity, the fermionic Gaussian extent, and show that it is multiplicative on tensor products when the so-called fermionic Gaussian fidelity is. We establish this property for the tensor product of two arbitrary pure states of four fermions with positive parity.
翻訳日:2023-07-26 19:43:10 公開日:2023-07-25
# GridMM:視覚・言語ナビゲーションのためのグリッドメモリマップ

GridMM: Grid Memory Map for Vision-and-Language Navigation ( http://arxiv.org/abs/2307.12907v2 )

ライセンス: Link先を確認
Zihan Wang and Xiangyang Li and Jiahao Yang and Yeqi Liu and Shuqiang Jiang(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。 これまで訪れた環境を表現するため、VLNのほとんどのアプローチは、リカレントステート、トポロジマップ、トップダウンセマンティックマップを使用してメモリを実装している。 これらのアプローチとは対照的に、訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップ(GridMM)を構築します。 地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をより良く表現することができる。 さらに,局所的な視点から,各グリッド領域における細粒度の視覚手がかりを捉えるための指示関連集約手法を提案する。 離散環境におけるREVERIE, R2R, SOONデータセット, 連続環境におけるR2R-CEデータセットについて, 実験を行い, 提案手法の優位性を示した。

Vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. To represent the previously visited environment, most approaches for VLN implement memory using recurrent states, topological maps, or top-down semantic maps. In contrast to these approaches, we build the top-down egocentric and dynamically growing Grid Memory Map (i.e., GridMM) to structure the visited environment. From a global perspective, historical observations are projected into a unified grid map in a top-down view, which can better represent the spatial relations of the environment. From a local perspective, we further propose an instruction relevance aggregation method to capture fine-grained visual clues in each grid region. Extensive experiments are conducted on both the REVERIE, R2R, SOON datasets in the discrete environments, and the R2R-CE dataset in the continuous environments, showing the superiority of our proposed method.
翻訳日:2023-07-26 19:42:54 公開日:2023-07-25
# ハパックス速度モデルによるZipf法則とヒープ法則の補正

Corrections of Zipf's and Heaps' Laws Derived from Hapax Rate Models ( http://arxiv.org/abs/2307.12896v2 )

ライセンス: Link先を確認
{\L}ukasz D\k{e}bowski(参考訳) 本稿では,ハファックス率の体系モデルに基づくZipf法則とHeaps法則の修正を紹介する。 1つは標準urnモデルで、短いテキストの限界周波数分布は、与えられた長いテキストから単語トークンが盲目的にサンプリングされたかのように見えると予測する。 第2の仮定は、ハプクスの割合はテキストサイズの単純な関数であると仮定する。 定数モデル、デービスモデル、線型モデル、ロジスティックモデルという4つの関数が議論されている。 このロジスティックモデルが最も適していることが示されている。

The article introduces corrections to Zipf's and Heaps' laws based on systematic models of the hapax rate. The derivation rests on two assumptions: The first one is the standard urn model which predicts that marginal frequency distributions for shorter texts look as if word tokens were sampled blindly from a given longer text. The second assumption posits that the rate of hapaxes is a simple function of the text size. Four such functions are discussed: the constant model, the Davis model, the linear model, and the logistic model. It is shown that the logistic model yields the best fit.
翻訳日:2023-07-26 19:42:35 公開日:2023-07-25
# 時空間モデリングによる医用画像解析:多視点融合によるスライスシフトUNet

Spatiotemporal Modeling Encounters 3D Medical Image Analysis: Slice-Shift UNet with Multi-View Fusion ( http://arxiv.org/abs/2307.12853v2 )

ライセンス: Link先を確認
C. I. Ugwu, S. Casarin, O. Lanz(参考訳) 計算医療の基盤として、コンピュータ断層撮影(ct)と磁気共鳴イメージング(mri)は体積データを提供し、3次元画像解析のためのアルゴリズムの開発を必要としている。 計算コストが安いにもかかわらず、2D畳み込みニューラルネットワークは空間情報のみを抽出できる。 対照的に、3D CNNは3次元の特徴を抽出できるが、計算コストとレイテンシが高く、高速で効率的なモデルを必要とする臨床実践の限界である。 映像行動認識の分野に触発されて,2次元CNNの複雑さで3次元特徴を符号化するSlice SHift UNet(SSH-UNet)と呼ばれる新しい2Dモデルを提案する。 ボリュームの3つの直交平面に沿って2次元畳み込みを行い、重み共有機構を構成することにより、より正確にマルチビュー特徴を協調的に学習する。 3次元は2次元畳み込みによって無視され、スライスの軸に沿って特徴写像の一部をシフトすることで再結合される。 提案手法の有効性は,多モード腹部多臓器分割 (AMOS) とマルチアトラスラベル法 (BTCV) で検証され,SSH-UNet は最先端アーキテクチャと同等の性能を示した。

As a fundamental part of computational healthcare, Computer Tomography (CT) and Magnetic Resonance Imaging (MRI) provide volumetric data, making the development of algorithms for 3D image analysis a necessity. Despite being computationally cheap, 2D Convolutional Neural Networks can only extract spatial information. In contrast, 3D CNNs can extract three-dimensional features, but they have higher computational costs and latency, which is a limitation for clinical practice that requires fast and efficient models. Inspired by the field of video action recognition we propose a new 2D-based model dubbed Slice SHift UNet (SSH-UNet) which encodes three-dimensional features at 2D CNN's complexity. More precisely multi-view features are collaboratively learned by performing 2D convolutions along the three orthogonal planes of a volume and imposing a weights-sharing mechanism. The third dimension, which is neglected by the 2D convolution, is reincorporated by shifting a portion of the feature maps along the slices' axis. The effectiveness of our approach is validated in Multi-Modality Abdominal Multi-Organ Segmentation (AMOS) and Multi-Atlas Labeling Beyond the Cranial Vault (BTCV) datasets, showing that SSH-UNet is more efficient while on par in performance with state-of-the-art architectures.
翻訳日:2023-07-26 19:42:24 公開日:2023-07-25
# シュール多項式を用いた1Hidden-Layer ReLUネットワークの学習

Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials ( http://arxiv.org/abs/2307.12840v2 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) 正方形損失に関して、標準ガウス分布の$\mathbb{R}^d$における$k$ReLUアクティベーションの線形結合をPAC学習する問題について検討する。 本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/\epsilon)^{O(k)}$,$\epsilon>0$を目標精度とする効率的なアルゴリズムである。 以前の研究では、複雑性 $(dk/\epsilon)^{h(k)}$ というアルゴリズムが与えられたが、ここでは関数 $h(k)$ は超多項的に $k$ でスケールする。 興味深いことに、我々のアルゴリズムの複雑さは相関統計クエリアルゴリズムのクラス内でほぼ最適である。 高レベルでは、我々のアルゴリズムはテンソル分解を用いて、すべての$O(k)$-次モーメントが直交方向に小さい部分空間を識別する。 その解析はシューア多項式の理論を本質的に利用し、下階のテンソルを仮定すると、高モーメント誤差テンソルは小さいことを示す。

We study the problem of PAC learning a linear combination of $k$ ReLU activations under the standard Gaussian distribution on $\mathbb{R}^d$ with respect to the square loss. Our main result is an efficient algorithm for this learning task with sample and computational complexity $(dk/\epsilon)^{O(k)}$, where $\epsilon>0$ is the target accuracy. Prior work had given an algorithm for this problem with complexity $(dk/\epsilon)^{h(k)}$, where the function $h(k)$ scales super-polynomially in $k$. Interestingly, the complexity of our algorithm is near-optimal within the class of Correlational Statistical Query algorithms. At a high-level, our algorithm uses tensor decomposition to identify a subspace such that all the $O(k)$-order moments are small in the orthogonal directions. Its analysis makes essential use of the theory of Schur polynomials to show that the higher-moment error tensors are small given that the lower-order ones are.
翻訳日:2023-07-26 19:41:41 公開日:2023-07-25
# RRAML:強化された検索強化機械学習

RRAML: Reinforced Retrieval Augmented Machine Learning ( http://arxiv.org/abs/2307.12798v2 )

ライセンス: Link先を確認
Andrea Bacciu, Florin Cocunasu, Federico Siciliano, Fabrizio Silvestri, Nicola Tonellotto, Giovanni Trappolini(参考訳) 大規模言語モデル(LLM)の出現は機械学習と関連分野に革命をもたらし、人間の言語を理解し、生成し、操作する際、顕著な能力を示している。 しかし、APIベースのテキストプロンプトによる従来の使用法は、コンテキスト制約や外部ソースの可用性に関して一定の制限を課している。 これらの課題に対処するため,Reinforced Retrieval Augmented Machine Learning (RRAML) と呼ばれる新しいフレームワークを提案する。 RRAMLは、LLMの推論機能と、巨大なユーザが提供するデータベースから目的に構築された検索者によって取得されたサポート情報を統合する。 近年の強化学習の進歩を活かし,本手法はいくつかの課題を効果的に解決する。 まず、LSM勾配にアクセスする必要性を回避する。 第2に,本手法は,モデルへのアクセス制限や計算強度の制限などにより実用的でない場合が多いため,特定のタスクに対するllmの再トレーニングの負担を軽減する。 さらに,検索者のタスクを推論者とシームレスにリンクし,幻覚を緩和し,無関係を低減し,検索された文書を損なう可能性がある。 この論文で概説された研究議題は、幅広いエンティティに対するllmへのアクセスと利用を民主化し、aiの分野に大きな影響を与える可能性があると信じている。

The emergence of large language models (LLMs) has revolutionized machine learning and related fields, showcasing remarkable abilities in comprehending, generating, and manipulating human language. However, their conventional usage through API-based text prompt submissions imposes certain limitations in terms of context constraints and external source availability. To address these challenges, we propose a novel framework called Reinforced Retrieval Augmented Machine Learning (RRAML). RRAML integrates the reasoning capabilities of LLMs with supporting information retrieved by a purpose-built retriever from a vast user-provided database. By leveraging recent advancements in reinforcement learning, our method effectively addresses several critical challenges. Firstly, it circumvents the need for accessing LLM gradients. Secondly, our method alleviates the burden of retraining LLMs for specific tasks, as it is often impractical or impossible due to restricted access to the model and the computational intensity involved. Additionally we seamlessly link the retriever's task with the reasoner, mitigating hallucinations and reducing irrelevant, and potentially damaging retrieved documents. We believe that the research agenda outlined in this paper has the potential to profoundly impact the field of AI, democratizing access to and utilization of LLMs for a wide range of entities.
翻訳日:2023-07-26 19:41:11 公開日:2023-07-25
# rlにおける反事実的説明政策

Counterfactual Explanation Policies in RL ( http://arxiv.org/abs/2307.13192v1 )

ライセンス: Link先を確認
Shripad V. Deshmukh, Srivatsan R, Supriti Vijay, Jayakumar Subramanian, Chirag Agarwal(参考訳) Reinforcement Learning(RL)エージェントは報酬選好を用いた多様な意思決定問題にますます採用されているため、これらのフレームワークによって学習されたポリシーが、可能な行動の確率分布にマッピングできることが重要である。 しかし、これらの複雑な政策の体系的な理解において、対照的な方法での作業、すなわち、ポリシーの変更を最小限に抑えることで、その性能を望ましいレベルに改善/改善する、という方法はほとんどない。 本稿では,望ましい結果につながるポリシーの変更を最小限に抑える形で,反事実的説明を用いてrlポリシーを分析する最初のフレームワークであるcounterpolを提案する。 我々は、RLにおける教師あり学習に反事実を組み込むことにより、所望のリターンによって規制された目標結果に対処する。 RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。 広汎な実証分析は,初歩的な方針に近づきながら,(未)学習スキルの説明を生成する上で,CoUNTERPOLの有効性を示す。 多様な状態と行動空間を有する5つの異なるrl環境における結果は、反事実的説明の有用性を示し、反事実的政策の設計と開発における新しいフロンティアへの道を開く。

As Reinforcement Learning (RL) agents are increasingly employed in diverse decision-making problems using reward preferences, it becomes important to ensure that policies learned by these frameworks in mapping observations to a probability distribution of the possible actions are explainable. However, there is little to no work in the systematic understanding of these complex policies in a contrastive manner, i.e., what minimal changes to the policy would improve/worsen its performance to a desired level. In this work, we present COUNTERPOL, the first framework to analyze RL policies using counterfactual explanations in the form of minimal changes to the policy that lead to the desired outcome. We do so by incorporating counterfactuals in supervised learning in RL with the target outcome regulated using desired return. We establish a theoretical connection between Counterpol and widely used trust region-based policy optimization methods in RL. Extensive empirical analysis shows the efficacy of COUNTERPOL in generating explanations for (un)learning skills while keeping close to the original policy. Our results on five different RL environments with diverse state and action spaces demonstrate the utility of counterfactual explanations, paving the way for new frontiers in designing and developing counterfactual policies.
翻訳日:2023-07-26 18:44:29 公開日:2023-07-25
# ソーシャルメディアにおけるデジタル感情制御

Digital Emotion Regulation on Social Media ( http://arxiv.org/abs/2307.13187v1 )

ライセンス: Link先を確認
Akriti Verma, Shama Islam, Valeh Moghaddam, Adnan Anwar(参考訳) 感情制御は、幸福、自信、罪悪感、怒りなど、根底にある感情状態である感情状態を意識的に変化させる過程である。 感情を効果的に制御する能力は、日常生活において効率的に機能するために必要である。 今日、デジタルテクノロジーの広汎性は、デジタル感情制御(digital emotion regulation)として知られるプロセスである感情状態の修正に意図的に使われています。 デジタル感情の規制を理解することは、倫理的技術設計、開発、展開の興隆を支援する。 本稿では、ソーシャルメディアアプリケーションにおけるデジタル感情規制の概要と、ソーシャルメディアに対する感情規制介入に関する最近の研究の合成について述べる。 我々は,感情調節の過程において,様々なソーシャルメディアアプリケーションがどのように活用されているかについて,最先端の文献の分析から得られた知見を共有している。

Emotion regulation is the process of consciously altering one's affective state, that is the underlying emotional state such as happiness, confidence, guilt, anger etc. The ability to effectively regulate emotions is necessary for functioning efficiently in everyday life. Today, the pervasiveness of digital technology is being purposefully employed to modify our affective states, a process known as digital emotion regulation. Understanding digital emotion regulation can help support the rise of ethical technology design, development, and deployment. This article presents an overview of digital emotion regulation in social media applications, as well as a synthesis of recent research on emotion regulation interventions for social media. We share our findings from analysing state-of-the-art literature on how different social media applications are utilised at different stages in the process of emotion regulation.
翻訳日:2023-07-26 18:44:06 公開日:2023-07-25
# 量子クラウドコンピューティングにおけるElastic Entangled PairとQubit Resource Management

Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud Computing ( http://arxiv.org/abs/2307.13185v1 )

ライセンス: Link先を確認
Rakpong Kaewpuang, Minrui Xu, Dinh Thai Hoang, Dusit Niyato, Han Yu, Ruidong Li, Zehui Xiong and Jiawen Kang(参考訳) 量子クラウドコンピューティング(QCC)は、量子コンピュータなどの量子コンピューティングリソースを効率的に提供し、リソース集約的なタスクを実行するための有望なアプローチを提供する。 従来のクラウドコンピューティングプラットフォームと同様に、qccプロバイダは、ユーザの要求を満たす量子リソースプロビジョニングの予約プランとオンデマンドプランの両方を提供することができる。 しかし,効率的な資源供給には,需要変動や量子回路要件の変動が困難である。 さらに、分散QCCでは、ユーザとQCCプロバイダ間のリモートの絡み合い通信を可能にする量子ネットワークの重要なコンポーネントである。 さらに、量子ネットワークにおける絡み合いの忠実性を維持することは、特に長距離でプロバイダにアクセスする場合、高品質の絡み合いルーティングが必要となるため困難である。 これらの課題に対処するために,量子コンピューティングとネットワークリソースを供給するためのリソース割り当てモデルを提案する。 特に、絡み合うペア、絡み合いルーティング、キュービットリソース、回路の待ち時間が、最小の総コストを達成するために共同で最適化される。 提案モデルは,忠実性や量子ビット要求の不確実性,量子回路の待ち時間を考慮した2段階確率計画に基づいて定式化する。 さらに、Benders分解アルゴリズムを適用し、提案したモデルを同時に解くサブモデルに分割する。 実験の結果,本モデルは最適総コストを達成でき,ベースラインモデルと比較して49.43\%以上で総コストを削減できることがわかった。

Quantum cloud computing (QCC) offers a promising approach to efficiently provide quantum computing resources, such as quantum computers, to perform resource-intensive tasks. Like traditional cloud computing platforms, QCC providers can offer both reservation and on-demand plans for quantum resource provisioning to satisfy users' requirements. However, the fluctuations in user demand and quantum circuit requirements are challenging for efficient resource provisioning. Furthermore, in distributed QCC, entanglement routing is a critical component of quantum networks that enables remote entanglement communication between users and QCC providers. Further, maintaining entanglement fidelity in quantum networks is challenging due to the requirement for high-quality entanglement routing, especially when accessing the providers over long distances. To address these challenges, we propose a resource allocation model to provision quantum computing and networking resources. In particular, entangled pairs, entanglement routing, qubit resources, and circuits' waiting time are jointly optimized to achieve minimum total costs. We formulate the proposed model based on the two-stage stochastic programming, which takes into account the uncertainties of fidelity and qubit requirements, and quantum circuits' waiting time. Furthermore, we apply the Benders decomposition algorithm to divide the proposed model into sub-models to be solved simultaneously. Experimental results demonstrate that our model can achieve the optimal total costs and reduce total costs at most 49.43\% in comparison to the baseline model.
翻訳日:2023-07-26 18:43:52 公開日:2023-07-25
# Maxwell方程式のSchrodinger-Dirac表現に基づく量子格子アルゴリズムとその拡張

Qubit Lattice Algorithms based on the Schrodinger-Dirac representation of Maxwell Equations and their Extensions ( http://arxiv.org/abs/2307.13182v1 )

ライセンス: Link先を確認
George Vahala, Min Soe, Efstratios Koukoutsis, Kyriakos Hizanidis, Linda Vahala, Abhay K. Ram(参考訳) マクスウェル方程式が均質媒質のユニタリシュロディンガー・ディラック表現で表現できることはよく知られている。 しかし、不均質な媒体を考えると困難が生じる。 ダイソン写像はユニタリ場 qubit 基底を指すが、インターリーブされたユニタリ衝突ストリーム作用素の標準 qubit 格子アルゴリズムは、屈折率の微分を回復するスパースな非ユニタリポテンシャル作用素によって拡張されなければならない。 二次元散乱に対するこれらの導関数の急勾配の影響を誘電体中の透過・反射により放射される非常に複雑な波面のシミュレーションを用いて検討した。 マックスウェル方程式はクラウス作用素を用いて散逸を扱うように拡張される。 そして、我々の理論アルゴリズムはこれらのオープン量子系に拡張される。 量子回路図は、量子コンピュータ上で実装するために必要な量子ゲートの数の推定とともに提示される。

It is well known that Maxwell equations can be expressed in a unitary Schrodinger-Dirac representation for homogeneous media. However, difficulties arise when considering inhomogeneous media. A Dyson map points to a unitary field qubit basis, but the standard qubit lattice algorithm of interleaved unitary collision-stream operators must be augmented by some sparse non-unitary potential operators that recover the derivatives on the refractive indices. The effect of the steepness of these derivatives on two dimensional scattering is examined with simulations showing quite complex wavefronts emitted due to transmissions/reflections within the dielectric objects. Maxwell equations are extended to handle dissipation using Kraus operators. Then, our theoretical algorithms are extended to these open quantum systems. A quantum circuit diagram is presented as well as estimates on the required number of quantum gates for implementation on a quantum computer.
翻訳日:2023-07-26 18:43:28 公開日:2023-07-25
# eegデータと表現学習を用いたニューラルメモリデコード

Neural Memory Decoding with EEG Data and Representation Learning ( http://arxiv.org/abs/2307.13181v1 )

ライセンス: Link先を確認
Glenn Bruns, Michael Haidar, and Federico Rubino(参考訳) 脳波データからメモリのニューラルデコードを行う手法について述べる。 この方法を用いて、リコールされる概念は、平均トップ1の精度が78.4%(確率4%)のEEGトレースから特定することができる。 脳活動の脳波記録を低次元空間にマッピングするために、教師付きコントラスト損失を伴う深部表現学習を用いる。 表現学習は使用されるため、たとえトレーニングデータセットに現れなくても概念を識別することができる。 しかし、そのような概念ごとに参照EEGデータが存在する必要がある。 また,情報検索問題への本手法の適用について述べる。 ニューラル情報検索では、ユーザが文書の内容を参照している間に脳波データをキャプチャし、予測された文書へのリンクのリストを生成する。

We describe a method for the neural decoding of memory from EEG data. Using this method, a concept being recalled can be identified from an EEG trace with an average top-1 accuracy of about 78.4% (chance 4%). The method employs deep representation learning with supervised contrastive loss to map an EEG recording of brain activity to a low-dimensional space. Because representation learning is used, concepts can be identified even if they do not appear in the training data set. However, reference EEG data must exist for each such concept. We also show an application of the method to the problem of information retrieval. In neural information retrieval, EEG data is captured while a user recalls the contents of a document, and a list of links to predicted documents is produced.
翻訳日:2023-07-26 18:43:12 公開日:2023-07-25
# データクリーニングパイプラインのプライマー

A Primer on the Data Cleaning Pipeline ( http://arxiv.org/abs/2307.13219v1 )

ライセンス: Link先を確認
Rebecca C. Steorts(参考訳) 電子健康データ、ソーシャルメディアデータ、特許データ、そしてリアルタイムに更新されることの多いサーベイのような構造化データベースと非構造化データベースは、過去10年間で急速に成長してきた。 この拡張により、データ統合に関する統計的および方法論的な問題、あるいは複数のデータソースをマージするという問題も増加している。 具体的には、 ``data cleaning pipeline'' の科学は、ダウンストリームタスクの実行、予測分析、``cleaned データの統計解析を可能にする4つの段階を含んでいる。 「」本稿は、技術的用語と一般的に用いられる手法を導入し、この新興分野を概観する。

The availability of both structured and unstructured databases, such as electronic health data, social media data, patent data, and surveys that are often updated in real time, among others, has grown rapidly over the past decade. With this expansion, the statistical and methodological questions around data integration, or rather merging multiple data sources, has also grown. Specifically, the science of the ``data cleaning pipeline'' contains four stages that allow an analyst to perform downstream tasks, predictive analyses, or statistical analyses on ``cleaned data.'' This article provides a review of this emerging field, introducing technical terminology and commonly used methods.
翻訳日:2023-07-26 18:35:35 公開日:2023-07-25
# 混合状態エベレット多元数におけるデコヒーレンス, 分岐, および生成規則

Decoherence, Branching, and the Born Rule in a Mixed-State Everettian Multiverse ( http://arxiv.org/abs/2307.13218v1 )

ライセンス: Link先を確認
Eugene Y. S. Chua and Eddy Keming Chen(参考訳) エベレット量子力学において、ボルン則の正当性は自己位置の不確実性や決定理論に訴える。 このような正当化は波動関数で表される純粋状態のエベレット多元数にのみ焦点をあてている。 量子基底に関する最近の研究は、(混合状態)密度行列で表される混合状態のエベレット多元数を考えることは可能であることを示唆している。 ここでは、混合状態多元数におけるデコヒーレンスと分岐の概念基盤を開発し、ボルン則の標準エベレット法則をこの設定にまで拡張する。 この拡張された枠組みは、エベレット像に対する「古典的」と「量子」の確率の統一と追加の理論的利点を提供する。

In Everettian quantum mechanics, justifications for the Born rule appeal to self-locating uncertainty or decision theory. Such justifications have focused exclusively on a pure-state Everettian multiverse, represented by a wave function. Recent works in quantum foundations suggest that it is viable to consider a mixed-state Everettian multiverse, represented by a (mixed-state) density matrix. Here, we develop the conceptual foundations for decoherence and branching in a mixed-state multiverse, and extend the standard Everettian justifications for the Born rule to this setting. This extended framework provides a unification of 'classical' and 'quantum' probabilities, and additional theoretical benefits, for the Everettian picture.
翻訳日:2023-07-26 18:35:23 公開日:2023-07-25
# 敵対的深層ヘッジ:価格プロセスモデリングなしでヘッジを学ぶ

Adversarial Deep Hedging: Learning to Hedge without Price Process Modeling ( http://arxiv.org/abs/2307.13217v1 )

ライセンス: Link先を確認
Masanori Hirano, Kentaro Minami, Kentaro Imajo(参考訳) deep hedgingは、不完全な市場でデリバティブヘッジするためのディープラーニングベースのフレームワークである。 ディープヘッジの利点は、伝統的な数学金融の枠組みの中では解決が難しい市場摩擦のような、様々な現実的な市場条件を扱う能力にある。 ディープヘッジは市場シミュレーションに依存するため、根底にある資産価格プロセスモデルが不可欠である。 しかし、深層ヘッジに関する既存の文献は、ブラウン運動や確率的ボラティリティモデルのような伝統的な数学的ファイナンスモデルに依存しており、深層ヘッジ学習のための効果的な資産モデルの発見は困難である。 本研究では,敵対的学習に触発された,敵対的深層ヘッジと呼ばれる新しい枠組みを提案する。 この枠組みでは、基礎となる資産プロセスと基盤となる資産プロセスをそれぞれモデル化するヘッジラーとジェネレータを対角的に訓練する。 提案手法では,基盤となるアセットプロセスを明示的にモデル化することなく,堅牢なヘッジラーを学習できる。 数値実験により,提案手法は,様々な実市場データにまたがる明示的な資産プロセスを想定したモデルに対して,競争性能を実現することを示す。

Deep hedging is a deep-learning-based framework for derivative hedging in incomplete markets. The advantage of deep hedging lies in its ability to handle various realistic market conditions, such as market frictions, which are challenging to address within the traditional mathematical finance framework. Since deep hedging relies on market simulation, the underlying asset price process model is crucial. However, existing literature on deep hedging often relies on traditional mathematical finance models, e.g., Brownian motion and stochastic volatility models, and discovering effective underlying asset models for deep hedging learning has been a challenge. In this study, we propose a new framework called adversarial deep hedging, inspired by adversarial learning. In this framework, a hedger and a generator, which respectively model the underlying asset process and the underlying asset process, are trained in an adversarial manner. The proposed method enables to learn a robust hedger without explicitly modeling the underlying asset process. Through numerical experiments, we demonstrate that our proposed method achieves competitive performance to models that assume explicit underlying asset processes across various real market data.
翻訳日:2023-07-26 18:35:08 公開日:2023-07-25
# Image Segmentation Keras : Segnet, FCN, UNet, PSPNet などのKerasにおける実装

Image Segmentation Keras : Implementation of Segnet, FCN, UNet, PSPNet and other models in Keras ( http://arxiv.org/abs/2307.13215v1 )

ライセンス: Link先を確認
Divam Gupta(参考訳) セマンティックセグメンテーションはコンピュータビジョンタスクにおいて重要な役割を担い、画像の正確なピクセルレベルの理解を可能にする。 本稿では,セグネット,FCN,UNet,PSPNetといった一般的なセグメンテーションモデルの実装を含むセグメンテーションのための包括的ライブラリを提案する。 また、これらのモデルをいくつかのデータセットで評価し比較し、研究者や実践者が多様なセグメンテーション課題に取り組むための強力なツールセットを提供する。

Semantic segmentation plays a vital role in computer vision tasks, enabling precise pixel-level understanding of images. In this paper, we present a comprehensive library for semantic segmentation, which contains implementations of popular segmentation models like SegNet, FCN, UNet, and PSPNet. We also evaluate and compare these models on several datasets, offering researchers and practitioners a powerful toolset for tackling diverse segmentation challenges.
翻訳日:2023-07-26 18:34:47 公開日:2023-07-25
# FedMEKT:マルチモーダル・フェデレート学習のための蒸留型埋め込み知識伝達

FedMEKT: Distillation-based Embedding Knowledge Transfer for Multimodal Federated Learning ( http://arxiv.org/abs/2307.13214v1 )

ライセンス: Link先を確認
Huy Q. Le, Minh N. H. Nguyen, Chu Myaet Thwal, Yu Qiao, Chaoning Zhang, and Choong Seon Hong(参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートデータを共有せずに、汎用グローバルモデルを共同でトレーニングするための分散機械学習パラダイムを可能にする。 既存の作品の多くは単にシングルモーダルデータのための典型的なflシステムを提案し、将来のパーソナライズされたアプリケーションのために価値のあるマルチモーダルデータを利用する可能性を制限する。 さらに、flアプローチの大部分はクライアント側のラベル付きデータに依存しており、ユーザからの自己注釈ができないため、現実世界のアプリケーションでは制限されている。 これらの制約を考慮し,様々なモダリティから表現を活用すべく,半教師付き学習アプローチを用いた新しいマルチモーダルFLフレームワークを提案する。 そこで我々は,この概念をシステムに持ち込むことで,小規模のマルチモーダルプロキシデータセットから抽出した学習モデルの共有知識をサーバとクライアントが交換できる,蒸留ベースのマルチモーダル埋め込み知識伝達機構feedmektを開発した。 当社のfeedmektは,汎用的なグローバルエンコーダを,参加者のクライアントによる統合組み込み知識によって反復的に更新する。 これにより、既存のFLシステムにおけるモダリティの相違やラベル付きデータ制約に対処するため、FedMEKTは局所的なマルチモーダルオートエンコーダ学習、一般化されたマルチモーダルオートエンコーダ構築、一般化された分類器学習を含む。 3つのマルチモーダルなヒューマンアクティビティ認識データセットに関する広範な実験を通じて、FedMEKTは線形評価において優れたグローバルエンコーダ性能を実現し、他のベースラインよりも通信コストの少ない個人データやモデルパラメータのユーザプライバシを保証することを実証した。

Federated learning (FL) enables a decentralized machine learning paradigm for multiple clients to collaboratively train a generalized global model without sharing their private data. Most existing works simply propose typical FL systems for single-modal data, thus limiting its potential on exploiting valuable multimodal data for future personalized applications. Furthermore, the majority of FL approaches still rely on the labeled data at the client side, which is limited in real-world applications due to the inability of self-annotation from users. In light of these limitations, we propose a novel multimodal FL framework that employs a semi-supervised learning approach to leverage the representations from different modalities. Bringing this concept into a system, we develop a distillation-based multimodal embedding knowledge transfer mechanism, namely FedMEKT, which allows the server and clients to exchange the joint knowledge of their learning models extracted from a small multimodal proxy dataset. Our FedMEKT iteratively updates the generalized global encoders with the joint embedding knowledge from the participating clients. Thereby, to address the modality discrepancy and labeled data constraint in existing FL systems, our proposed FedMEKT comprises local multimodal autoencoder learning, generalized multimodal autoencoder construction, and generalized classifier learning. Through extensive experiments on three multimodal human activity recognition datasets, we demonstrate that FedMEKT achieves superior global encoder performance on linear evaluation and guarantees user privacy for personal data and model parameters while demanding less communication cost than other baselines.
翻訳日:2023-07-26 18:34:37 公開日:2023-07-25
# semgによる膝関節軌跡の連続予測のための歩行サイクルインスパイア学習戦略

Gait Cycle-Inspired Learning Strategy for Continuous Prediction of Knee Joint Trajectory from sEMG ( http://arxiv.org/abs/2307.13209v1 )

ライセンス: Link先を確認
Xueming Fu, Hao Zheng, Luyan Liu, Wenjuan Zhong, Haowen Liu, Wenxuan Xiong, Yuyang Zhang, Yifeng Chen, Dong Wei, Mingjie Dong, Yefeng Zheng, Mingming Zhang(参考訳) 下肢運動の意図を予測することは、外骨格ロボットと義肢を制御するために不可欠である。 表面筋電図(sEMG)は、実際の動きよりも前向きな動きの予測を可能にするため、近年注目を集めている。 しかし,ヒト関節軌跡の推定性能は,サブジェクト間およびイントラ・イントラジェクトの変動により,依然として課題となっている。 前者は体格の違い(身長や体重など)と個人の歩行パターンを好み、後者は主に不規則で歩行に関係のない筋肉活動によって引き起こされる。 本稿では,歩行サイクルに触発された2つの学習戦略を統合し,ヒト膝関節軌跡予測の課題を軽減するモデルを提案する。 第1の戦略は、膝関節角度を運動パターンに分離し、前者は低変動を示し、後者は個人間で高い変動性を示す。 異なるネットワークエンティティを通して学習することにより、モデルは共通の歩行特徴とパーソナライズされた歩行特徴の両方をキャプチャする。 第2に、長期歩行における歩行周期から筋主活性化マスクを抽出する。 これらのマスクは、生のsEMGからの歩行と無関係な成分をフィルタリングし、歩行に関連する特徴を捉えるための補助的なガイダンスを提供する。 実験結果は, 平均根平均二乗誤差(rmse)が3.03(0.49)度, 50msで膝角度を予測できることを示した。 我々の知る限り、これはRMSEを少なくとも9.5%削減した関連文献で最高のパフォーマンスである。

Predicting lower limb motion intent is vital for controlling exoskeleton robots and prosthetic limbs. Surface electromyography (sEMG) attracts increasing attention in recent years as it enables ahead-of-time prediction of motion intentions before actual movement. However, the estimation performance of human joint trajectory remains a challenging problem due to the inter- and intra-subject variations. The former is related to physiological differences (such as height and weight) and preferred walking patterns of individuals, while the latter is mainly caused by irregular and gait-irrelevant muscle activity. This paper proposes a model integrating two gait cycle-inspired learning strategies to mitigate the challenge for predicting human knee joint trajectory. The first strategy is to decouple knee joint angles into motion patterns and amplitudes former exhibit low variability while latter show high variability among individuals. By learning through separate network entities, the model manages to capture both the common and personalized gait features. In the second, muscle principal activation masks are extracted from gait cycles in a prolonged walk. These masks are used to filter out components unrelated to walking from raw sEMG and provide auxiliary guidance to capture more gait-related features. Experimental results indicate that our model could predict knee angles with the average root mean square error (RMSE) of 3.03(0.49) degrees and 50ms ahead of time. To our knowledge this is the best performance in relevant literatures that has been reported, with reduced RMSE by at least 9.5%.
翻訳日:2023-07-26 18:34:08 公開日:2023-07-25
# グラフ理論とサンプリング理論を用いたグラフニューラルネットワークの転送性

Transferability of Graph Neural Networks using Graphon and Sampling Theories ( http://arxiv.org/abs/2307.13206v1 )

ライセンス: Link先を確認
A. Martina Neuman, Jason J. Bramburger(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなドメインでグラフベースの情報を処理するための強力なツールとなっている。 GNNの望ましい特性は転送可能性であり、トレーニングされたネットワークは、その正確性を再トレーニングすることなく、異なるグラフから情報を交換することができる。 GNNの転送可能性を取得する最近の方法は、大きな高密度グラフの極限を表す対称な可測関数であるグラモンを使うことである。 本研究は,2層グラフトンニューラルネットワーク(WNN)アーキテクチャを明示することにより,GNNへのグラフオンの適用に寄与する。 ネットワーク重みを最小限に抑えることで、特定のエラー許容範囲内で帯域制限信号を近似できることを示す。 次に、この結果を利用して、グラフオンに収束するシーケンス内の全大きなグラフに対して、明示的な2層GNNの転送可能性を確立する。 本研究は,決定論的重み付きグラフと単純なランダムグラフ間の移動可能性に対処し,他のgnnの結果に生じる次元の呪いに関する問題を克服する。 提案したWNNおよびGNNアーキテクチャは、広範囲なリトレーニングなしに性能保証を維持しながら、様々なサイズのグラフデータを扱う実用的なソリューションを提供する。

Graph neural networks (GNNs) have become powerful tools for processing graph-based information in various domains. A desirable property of GNNs is transferability, where a trained network can swap in information from a different graph without retraining and retain its accuracy. A recent method of capturing transferability of GNNs is through the use of graphons, which are symmetric, measurable functions representing the limit of large dense graphs. In this work, we contribute to the application of graphons to GNNs by presenting an explicit two-layer graphon neural network (WNN) architecture. We prove its ability to approximate bandlimited signals within a specified error tolerance using a minimal number of network weights. We then leverage this result, to establish the transferability of an explicit two-layer GNN over all sufficiently large graphs in a sequence converging to a graphon. Our work addresses transferability between both deterministic weighted graphs and simple random graphs and overcomes issues related to the curse of dimensionality that arise in other GNN results. The proposed WNN and GNN architectures offer practical solutions for handling graph data of varying sizes while maintaining performance guarantees without extensive retraining.
翻訳日:2023-07-26 18:33:44 公開日:2023-07-25
# マルチパーティイトシナリオにおける量子メモリとのエントロピー不確実性の関係

Entropic uncertainty relations with quantum memory in a multipartite scenario ( http://arxiv.org/abs/2307.13202v1 )

ライセンス: Link先を確認
Qing-Hua Zhang and Shao-Ming Fei(参考訳) エントロピーの不確実性関係は、情報理論の観点から自然の本質的不確実性を示す。 近年、wu $et\ alにより、複数の測定値に対する量子メモリ支援エントロピー不確かさ関係が提案されている。 価格は$ [phys rev a. 106. 062219 (2022)]。 興味深いことに、複数の測定設定に対する量子メモリ支援エントロピー不確実性関係をさらに一般化することができる。 本研究では,2つの相補的量子メモリ支援エントロピー不確かさ関係を提案し,その下限は観測可能量の相補性値,(条件付き)フォン・ノイマンエントロピー,ホールボ量,相互情報に依存する。 例示として、我々の境界がより強く、以前の境界を上回ることを示す典型的な事例をいくつか提示する。

Entropic uncertainty relations demonstrate the intrinsic uncertainty of nature from an information-theory perspective. Recently, a quantum-memory-assisted entropic uncertainty relation for multiple measurements was proposed by Wu $et\ al.$ [Phys Rev A. 106. 062219 (2022)]. Interestingly, the quantum-memory-assisted entropic uncertainty relation for multiple measurement settings can be further generalized. In this work, we propose two complementary multipartite quantum-memory-assisted entropic uncertainty relations and our lower bounds depend on values of complementarity of the observables, (conditional) von-Neumann entropies, Holevo quantities, and mutual information. As an illustration, we provide several typical cases to exhibit that our bounds are tighter and outperform the previous bounds.
翻訳日:2023-07-26 18:33:26 公開日:2023-07-25
# カオスとボソンサンプリングのフォトニック量子シグネチャ

Photonic quantum signatures of chaos and boson sampling ( http://arxiv.org/abs/2307.13200v1 )

ライセンス: Link先を確認
V. M. Bastidas, H. Nourse, A. Sakurai, A. Hayashi, S. Nishio, Kae Nemoto, and W. J. Munro(参考訳) ボーソンサンプリング(boson sampling)は、量子フォトニックコンピュータで実行できるが、デジタル古典的コンピュータでは難しいタスクのパラダイム的な例である。 典型的なボソンサンプリング実験において、散乱振幅はランダム行列のアンサンブルから引き出されたユニタリのサブ行列の永久性によって決定される。 ランダム行列理論は、非常に多様な分野において非常に重要な役割を果たすが、同時にカオスの量子シグネチャと密接に関連している。 この枠組みの中で、カオス量子システムはランダム行列のアンサンブルのレベル統計特性を示す。 このような量子シグネチャはユニタリ進化でコード化されており、この研究ではカオス系のダイナミクスとボーソンサンプリングを組み合わせる。 我々の研究の重要な成果の1つは、時間外相関器とボソンサンプリングの親密な関係を示すことである。 単一モード位相シフト器とマルチポートビームスプリッタを用いて,同一粒子を用いたサンプリングタスクを行うために,Floquetシステムのユニタリダイナミクスを利用することができることを示す。 本稿の最後に,本手法の具体例を示す多粒子キックロータのフォトニック実装を提案する。

Boson sampling is a paradigmatic example of a task that can be performed by a quantum photonic computer yet is hard for digital classical computers. In a typical boson sampling experiment, the scattering amplitude is determined by the permanent of a submatrix of a unitary drawn from an ensemble of random matrices. Random matrix theory plays a very important role in quite diverse fields while at the same time being intimately related to quantum signatures of chaos. Within this framework, a chaotic quantum system exhibits level statistics characteristic of ensembles of random matrices. Such quantum signatures are encoded in the unitary evolution and so in this work we combine the dynamics of chaotic systems with boson sampling. One of the key results of our work is that we demonstrate the intimate relation between out-of-time-order correlators and boson sampling. We show that the unitary dynamics of a Floquet system may be exploited to perform sampling tasks with identical particles using single-mode phase shifters and multiport beamsplitters. At the end of our paper propose a photonic implementation of the multiparticle kicked rotor, which provides a concrete example of our general approach.
翻訳日:2023-07-26 18:33:14 公開日:2023-07-25
# YOLOを用いたキドニーH&EとPAS画像の糸球体検出の検討

An Investigation into Glomeruli Detection in Kidney H&E and PAS Images using YOLO ( http://arxiv.org/abs/2307.13199v1 )

ライセンス: Link先を確認
Kimia Hemmatirad, Morteza Babaie, Jeffrey Hodgin, Liron Pantanowitz, H.R.Tizhoosh(参考訳) コンテクスト:デジタル病理画像の解析は、組織パターンと細胞形態を調べることによって診断の結論を導き出すために必要である。 しかし、手動による評価は、時間がかかり、費用がかかり、サーバ間およびサーバ内変動しやすい。 目的: コンピュータソリューションを用いた病理学を支援するためには, 組織構造の自動検出とセグメンテーションを提案する必要がある。 さらに、病理画像に対するピクセルレベルのオブジェクトアノテーションの生成は高価で時間がかかります。 その結果、バウンディングボックスラベルによる検出モデルは、実現可能な解決策である可能性がある。 デザイン:本論文。 YOLO-v4 (You-Only-Look-Once) - 顕微鏡画像用のリアルタイム物体検出器。 YOLOは単一のニューラルネットワークを使用して、いくつかのバウンディングボックスと、関心のあるオブジェクトのクラス確率を予測する。 YOLOはスライド画像全体のトレーニングにより検出性能を向上させることができる。 本論文ではYOLO-v4を用いている。 ヒト腎臓画像の糸球体検出に役立ちます 複数の実験が、2つの公開データセットの異なるトレーニングデータとミシガン大学のプライベートデータセットに基づいて設計され、実行されてきた。 このモデルはミシガン大学のプライベートデータセットでテストされ、ヘマトキシリンとエオシン(h&e)と周期的酸合成(pas)の2つの異なる染色の外部的検証として使用された。 結果:全ての実験における平均特異性と感度,および同一データセット上の既存セグメンテーション法の比較について検討した。 結論:ヒト腎臓画像における糸球体の自動検出は、現代のAIモデルを用いて可能である。 異なる染色の設計と検証は、パブリックなマルチステインデータセットの可変性に依存している。

Context: Analyzing digital pathology images is necessary to draw diagnostic conclusions by investigating tissue patterns and cellular morphology. However, manual evaluation can be time-consuming, expensive, and prone to inter- and intra-observer variability. Objective: To assist pathologists using computerized solutions, automated tissue structure detection and segmentation must be proposed. Furthermore, generating pixel-level object annotations for histopathology images is expensive and time-consuming. As a result, detection models with bounding box labels may be a feasible solution. Design: This paper studies. YOLO-v4 (You-Only-Look-Once), a real-time object detector for microscopic images. YOLO uses a single neural network to predict several bounding boxes and class probabilities for objects of interest. YOLO can enhance detection performance by training on whole slide images. YOLO-v4 has been used in this paper. for glomeruli detection in human kidney images. Multiple experiments have been designed and conducted based on different training data of two public datasets and a private dataset from the University of Michigan for fine-tuning the model. The model was tested on the private dataset from the University of Michigan, serving as an external validation of two different stains, namely hematoxylin and eosin (H&E) and periodic acid-Schiff (PAS). Results: Average specificity and sensitivity for all experiments, and comparison of existing segmentation methods on the same datasets are discussed. Conclusions: Automated glomeruli detection in human kidney images is possible using modern AI models. The design and validation for different stains still depends on variability of public multi-stain datasets.
翻訳日:2023-07-26 18:32:56 公開日:2023-07-25
# GaPro: 擬似ラベルとしてガウスプロセスを用いた3Dポイントクラウドインスタンスセグメンテーション

GaPro: Box-Supervised 3D Point Cloud Instance Segmentation Using Gaussian Processes as Pseudo Labelers ( http://arxiv.org/abs/2307.13251v1 )

ライセンス: Link先を確認
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen(参考訳) 3Dポイントクラウド(3DIS)上のインスタンスセグメンテーションは、コンピュータビジョンにおける長年の課題である。 接頭辞として、高密度なインスタンスマスクは面倒で高価であるため、監督の弱い3DISの解決はより実践的になっている。 本稿では,軸方向の3Dバウンディングボックス管理を用いた3次元点雲の新しいインスタンスセグメンテーションであるGaProを提案する。 2段階のアプローチでは、ボックスアノテーションから擬似ラベルを生成し、3DISネットワークをトレーニングします。 さらに,本手法の性能をさらに向上させるために,自己学習戦略を用いる。 我々は,境界ボックスから擬似インスタンスマスクを生成し,重なり合うとあいまいさを解消し,疑似インスタンスマスクを不確実な値で生成する有効なガウス過程を考案した。 実験の結果,gaproは従来の弱い教師付き3dインスタンスセグメンテーション法を上回っており,最先端の教師付きインスタンスに比べて競争力が高いことがわかった。 さらに,本手法のロバスト性を示すとともに,擬似ラベルをトレーニングに用いることにより,様々な最先端の完全教師付き手法を弱監督タスクに適用できることを示す。 ソースコードとトレーニングされたモデルはhttps://github.com/vinairesearch/gaproで入手できる。

Instance segmentation on 3D point clouds (3DIS) is a longstanding challenge in computer vision, where state-of-the-art methods are mainly based on full supervision. As annotating ground truth dense instance masks is tedious and expensive, solving 3DIS with weak supervision has become more practical. In this paper, we propose GaPro, a new instance segmentation for 3D point clouds using axis-aligned 3D bounding box supervision. Our two-step approach involves generating pseudo labels from box annotations and training a 3DIS network with the resulting labels. Additionally, we employ the self-training strategy to improve the performance of our method further. We devise an effective Gaussian Process to generate pseudo instance masks from the bounding boxes and resolve ambiguities when they overlap, resulting in pseudo instance masks with their uncertainty values. Our experiments show that GaPro outperforms previous weakly supervised 3D instance segmentation methods and has competitive performance compared to state-of-the-art fully supervised ones. Furthermore, we demonstrate the robustness of our approach, where we can adapt various state-of-the-art fully supervised methods to the weak supervision task by using our pseudo labels for training. The source code and trained models are available at https://github.com/VinAIResearch/GaPro.
翻訳日:2023-07-26 18:27:05 公開日:2023-07-25
# ビデオ質問応答のためのキーワード対応相対時空間グラフネットワーク

Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question Answering ( http://arxiv.org/abs/2307.13250v1 )

ライセンス: Link先を確認
Yi Cheng, Hehe Fan, Dongyun Lin, Ying Sun, Mohan Kankanhalli, and Joo-Hwee Lim(参考訳) ビデオ質問応答(VideoQA)の主な課題は、与えられた質問に基づいて、オブジェクト間の複雑な空間的および時間的関係をキャプチャして理解することである。 既存のビデオQAのグラフベースの手法は、通常質問のキーワードを無視し、単純なグラフを使ってオブジェクト間の相対関係を考慮せずに特徴を集約する。 本稿では,ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。 まず,キーワードに関する質問の特徴を認識するために,質問エンコーディング中にキーワードに重み付けを割り当てるアテンション機構を用いる。 キーワード対応の質問機能は、ビデオグラフ構築のガイドに使用される。 第二に、関係が相対的であるため、相対関係モデルを統合し、オブジェクトノード間の時空間ダイナミクスをよりよく捉える。 さらに,空間的空間グラフとフレーム的時間グラフに時空間推論を関連付けることで,空間的および時間的関係推論が相互に与える影響を低減する。 TGIF-QA、MSVD-QA、MSRVTT-QAデータセットに関する大規模な実験は、複数の最先端手法よりもKRSTの方が優れていることを示す。

The main challenge in video question answering (VideoQA) is to capture and understand the complex spatial and temporal relations between objects based on given questions. Existing graph-based methods for VideoQA usually ignore keywords in questions and employ a simple graph to aggregate features without considering relative relations between objects, which may lead to inferior performance. In this paper, we propose a Keyword-aware Relative Spatio-Temporal (KRST) graph network for VideoQA. First, to make question features aware of keywords, we employ an attention mechanism to assign high weights to keywords during question encoding. The keyword-aware question features are then used to guide video graph construction. Second, because relations are relative, we integrate the relative relation modeling to better capture the spatio-temporal dynamics among object nodes. Moreover, we disentangle the spatio-temporal reasoning into an object-level spatial graph and a frame-level temporal graph, which reduces the impact of spatial and temporal relation reasoning on each other. Extensive experiments on the TGIF-QA, MSVD-QA and MSRVTT-QA datasets demonstrate the superiority of our KRST over multiple state-of-the-art methods.
翻訳日:2023-07-26 18:26:44 公開日:2023-07-25
# 学習可能な融合によるシーンテキスト認識のための多粒度予測

Multi-Granularity Prediction with Learnable Fusion for Scene Text Recognition ( http://arxiv.org/abs/2307.13244v1 )

ライセンス: Link先を確認
Cheng Da, Peng Wang, Cong Yao(参考訳) 膨大な技術的課題と幅広い応用のために、シーンテキスト認識(STR)はコンピュータビジョンにおいて長年にわたって活発に研究されてきた。 この難しい問題に取り組むために、数多くの革新的手法が提案され、strモデルに言語知識を組み込むことが最近注目されている。 本研究では、視覚変換器(ViT)の最近の進歩からインスピレーションを得て、ViTとアダプティブアドレッシング・アグリゲーション(A$^3$)モジュールを組み込んだ概念的にシンプルだが機能的に強力な視覚STRモデルを構築する。 すでに、純粋な視覚モデルと言語拡張メソッドの両方を含む、シーンテキスト認識の最先端モデルよりも優れています。 さらに,NLP で広く使われているサブワード表現 (BPE と WordPiece) を出力空間に導入し,従来の文字レベル表現に加えて,独立した言語モデル (LM) を採用せずに,言語モダリティからモデルに情報を暗黙的に注入する多言語予測手法を提案する。 最終認識結果を生成するために,多粒度予測を効果的に融合する2つの戦略を考案した。 結果のアルゴリズム(MGP-STRと呼ばれる)はSTRのパフォーマンスエンベロープをさらに高いレベルに押し上げることができる。 特にmgp-strは、シーンテキスト認識の標準ベンチマークで平均認識精度が9,4\%である。 さらに、広く使われている手書きベンチマークの最先端結果や、より困難なシーンテキストデータセットも達成し、提案したMGP-STRアルゴリズムの汎用性を実証した。 ソースコードとモデルは以下の通りである。 \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR}。

Due to the enormous technical challenges and wide range of applications, scene text recognition (STR) has been an active research topic in computer vision for years. To tackle this tough problem, numerous innovative methods have been successively proposed, and incorporating linguistic knowledge into STR models has recently become a prominent trend. In this work, we first draw inspiration from the recent progress in Vision Transformer (ViT) to construct a conceptually simple yet functionally powerful vision STR model, which is built upon ViT and a tailored Adaptive Addressing and Aggregation (A$^3$) module. It already outperforms most previous state-of-the-art models for scene text recognition, including both pure vision models and language-augmented methods. To integrate linguistic knowledge, we further propose a Multi-Granularity Prediction strategy to inject information from the language modality into the model in an implicit way, \ie, subword representations (BPE and WordPiece) widely used in NLP are introduced into the output space, in addition to the conventional character level representation, while no independent language model (LM) is adopted. To produce the final recognition results, two strategies for effectively fusing the multi-granularity predictions are devised. The resultant algorithm (termed MGP-STR) is able to push the performance envelope of STR to an even higher level. Specifically, MGP-STR achieves an average recognition accuracy of $94\%$ on standard benchmarks for scene text recognition. Moreover, it also achieves state-of-the-art results on widely-used handwritten benchmarks as well as more challenging scene text datasets, demonstrating the generality of the proposed MGP-STR algorithm. The source code and models will be available at: \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR}.
翻訳日:2023-07-26 18:26:11 公開日:2023-07-25
# ファッションマトリクス: 話すだけで写真編集ができる

Fashion Matrix: Editing Photos by Just Talking ( http://arxiv.org/abs/2307.13240v1 )

ライセンス: Link先を確認
Zheng Chong, Xujie Zhang, Fuwei Zhao, Zhenyu Xie and Xiaodan Liang(参考訳) AIシステム構築におけるLarge Language Models (LLM)の利用は、様々な分野において大きな注目を集めている。 LLMのファッション領域への拡張は、実質的な商業的可能性を秘めているが、ファッション関連世代における複雑な意味的相互作用による固有の課題もある。 この問題に対処するため、私たちはFashion Matrixと呼ばれる階層型AIシステムを開発しました。 このシステムは、衣服やアクセサリーの交換、塗り替え、追加、取り外しなど、多様なプロンプト駆動タスクを促進する。 具体的には、Fashion MatrixはLLMを基盤的サポートとして採用し、ユーザとの反復的なインタラクションに従事している。 セマンティックセグメンテーションモデル(例えば、Grounded-SAM、MattingAnythingなど)を用いて、ユーザー指示に基づいて特定の編集マスクを記述している。 その後、Visual Foundation Models(例えば、安定拡散、コントロールネットなど)を利用してテキストプロンプトやマスクから編集された画像を生成し、ファッション編集プロセスの自動化を容易にする。 実験はファッションマトリクスの優れた能力を示し、ファッション編集の分野における機能的に多様な事前学習モデルの協調可能性を探る。

The utilization of Large Language Models (LLMs) for the construction of AI systems has garnered significant attention across diverse fields. The extension of LLMs to the domain of fashion holds substantial commercial potential but also inherent challenges due to the intricate semantic interactions in fashion-related generation. To address this issue, we developed a hierarchical AI system called Fashion Matrix dedicated to editing photos by just talking. This system facilitates diverse prompt-driven tasks, encompassing garment or accessory replacement, recoloring, addition, and removal. Specifically, Fashion Matrix employs LLM as its foundational support and engages in iterative interactions with users. It employs a range of Semantic Segmentation Models (e.g., Grounded-SAM, MattingAnything, etc.) to delineate the specific editing masks based on user instructions. Subsequently, Visual Foundation Models (e.g., Stable Diffusion, ControlNet, etc.) are leveraged to generate edited images from text prompts and masks, thereby facilitating the automation of fashion editing processes. Experiments demonstrate the outstanding ability of Fashion Matrix to explores the collaborative potential of functionally diverse pre-trained models in the domain of fashion editing.
翻訳日:2023-07-26 18:25:12 公開日:2023-07-25
# RoSAS:汚染回復型連続スーパービジョンによる半監督型異常検出

RoSAS: Deep Semi-Supervised Anomaly Detection with Contamination-Resilient Continuous Supervision ( http://arxiv.org/abs/2307.13239v1 )

ライセンス: Link先を確認
Hongzuo Xu and Yijie Wang and Guansong Pang and Songlei Jian and Ning Liu and Yongjun Wang(参考訳) 半教師付き異常検出法は、教師なしモデルに比べて大幅に性能が向上するいくつかの異常例を利用する。 しかし、まだ2つの制限がある。 1) ラベルのない異常(すなわち異常な汚染)は,すべてのラベルのないデータがモデルトレーニングのインレーヤとして使用される場合,学習プロセスを誤解させる可能性がある。 2) 個別の監視情報(バイナリや順序データラベルなど)のみが活用され, 基本的に連続的な分布をとる異常スコアの最適下学習につながる。 そこで本稿では,textit{contamination-resilient continuous supervisory signal} を考案した半教師付き異常検出手法を提案する。 具体的には,ラベル付き異常の異常を拡散する質量補間法を提案し,連続的異常度でラベル付けされた新しいデータサンプルを作成する。 一方、汚染領域は、正しいラベルとデータの組み合わせによって生成された新しいデータサンプルによってカバーすることができる。 特徴学習に基づく目的を、ネットワークを正規化し、異常な汚染に対する堅牢性をさらに高めるための最適化制約として追加する。 11個の実世界のデータセットに対する大規模な実験により、我々のアプローチはAUC-PRにおいて最先端の競合他社を20%-30%上回り、異常な汚染レベルとラベル付き異常数の異なる設定において、より堅牢で優れたパフォーマンスが得られることが示された。 ソースコードはhttps://github.com/xuhongzuo/rosas/で入手できる。

Semi-supervised anomaly detection methods leverage a few anomaly examples to yield drastically improved performance compared to unsupervised models. However, they still suffer from two limitations: 1) unlabeled anomalies (i.e., anomaly contamination) may mislead the learning process when all the unlabeled data are employed as inliers for model training; 2) only discrete supervision information (such as binary or ordinal data labels) is exploited, which leads to suboptimal learning of anomaly scores that essentially take on a continuous distribution. Therefore, this paper proposes a novel semi-supervised anomaly detection method, which devises \textit{contamination-resilient continuous supervisory signals}. Specifically, we propose a mass interpolation method to diffuse the abnormality of labeled anomalies, thereby creating new data samples labeled with continuous abnormal degrees. Meanwhile, the contaminated area can be covered by new data samples generated via combinations of data with correct labels. A feature learning-based objective is added to serve as an optimization constraint to regularize the network and further enhance the robustness w.r.t. anomaly contamination. Extensive experiments on 11 real-world datasets show that our approach significantly outperforms state-of-the-art competitors by 20%-30% in AUC-PR and obtains more robust and superior performance in settings with different anomaly contamination levels and varying numbers of labeled anomalies. The source code is available at https://github.com/xuhongzuo/rosas/.
翻訳日:2023-07-26 18:24:36 公開日:2023-07-25
# オーディオ・ビジュアル・セグメンテーションのための問合せ型変換器

Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation ( http://arxiv.org/abs/2307.13236v1 )

ライセンス: Link先を確認
Jinxiang Liu, Chen Ju, Chaofan Ma, Yanfeng Wang, Yu Wang, Ya Zhang(参考訳) audio-visual segmentation(avs)タスクの目標は、オーディオキューを使用してビデオフレーム内の音声オブジェクトをセグメンテーションすることである。 しかし、現在の融合方式は、畳み込みの少ない受容的場とオーディオ視覚的特徴の融合が不十分なため、性能に限界がある。 これらの課題を克服するために,課題に対処するために,新規な照会型クエリアンハンス \textbf{Au}dio-enhanced \textbf{TR}ansformer (AuTR) を提案する。 既存の手法とは異なり,本手法では,音声・視覚機能の融合と集約を実現するマルチモーダルトランスフォーマティブアーキテクチャを導入する。 さらに,音声信号に基づいてピンポイントされた音響オブジェクトのセグメンテーションに明示的に焦点を合わせることを支援しながら,無音で有意なオブジェクトを無視する,音声対応クエリエンハンスドトランスデコーダを考案する。 実験の結果,本手法は従来の手法よりも優れており,マルチサウンドおよびオープンセットシナリオにおける一般化能力が向上することが示された。

The goal of the audio-visual segmentation (AVS) task is to segment the sounding objects in the video frames using audio cues. However, current fusion-based methods have the performance limitations due to the small receptive field of convolution and inadequate fusion of audio-visual features. To overcome these issues, we propose a novel \textbf{Au}dio-aware query-enhanced \textbf{TR}ansformer (AuTR) to tackle the task. Unlike existing methods, our approach introduces a multimodal transformer architecture that enables deep fusion and aggregation of audio-visual features. Furthermore, we devise an audio-aware query-enhanced transformer decoder that explicitly helps the model focus on the segmentation of the pinpointed sounding objects based on audio signals, while disregarding silent yet salient objects. Experimental results show that our method outperforms previous methods and demonstrates better generalization ability in multi-sound and open-set scenarios.
翻訳日:2023-07-26 18:24:10 公開日:2023-07-25
# スペクトルDP:スペクトル摂動とフィルタリングによる微分私的深層学習

Spectral-DP: Differentially Private Deep Learning through Spectral Perturbation and Filtering ( http://arxiv.org/abs/2307.13231v1 )

ライセンス: Link先を確認
Ce Feng, Nuo Xu, Wujie Wen, Parv Venkitasubramaniam, Caiwen Ding(参考訳) ディファレンシャルプライバシは、ディープラーニングアルゴリズムのコンテキストにおいて広く受け入れられているプライバシの尺度であり、ディファレンシャルプライベート確率勾配降下(dp-sgd)として知られるノイズの多いトレーニングアプローチに依存している。 DP-SGDは、高密度ニューラルネットワークのすべての勾配に対して直接ノイズを付加する必要がある。 本研究では,スペクトル領域における勾配摂動とスペクトルフィルタリングを組み合わせ,低ノイズスケールで所望のプライバシー保証を実現するための新たな微分プライベート学習手法であるSpectral-DPを提案する。 我々は、畳み込み層と完全連結層の両方を含むアーキテクチャのためのスペクトルDPに基づく微分プライベートディープラーニング手法を開発した。 特に,完全連結層では,ブロック循環型空間再構成をSpectral-DPと組み合わせて有効性を実現する。 総合的な実験を通じて、ベンチマークデータセットにスペクトルDP深層学習を実装するためのガイドラインを研究・提供する。 最新のDP-SGDベースのアプローチと比較して,Spectral-DPは,スクラッチとトランスファー学習設定の両方のトレーニングにおいて,一様に優れた実用性を示した。

Differential privacy is a widely accepted measure of privacy in the context of deep learning algorithms, and achieving it relies on a noisy training approach known as differentially private stochastic gradient descent (DP-SGD). DP-SGD requires direct noise addition to every gradient in a dense neural network, the privacy is achieved at a significant utility cost. In this work, we present Spectral-DP, a new differentially private learning approach which combines gradient perturbation in the spectral domain with spectral filtering to achieve a desired privacy guarantee with a lower noise scale and thus better utility. We develop differentially private deep learning methods based on Spectral-DP for architectures that contain both convolution and fully connected layers. In particular, for fully connected layers, we combine a block-circulant based spatial restructuring with Spectral-DP to achieve better utility. Through comprehensive experiments, we study and provide guidelines to implement Spectral-DP deep learning on benchmark datasets. In comparison with state-of-the-art DP-SGD based approaches, Spectral-DP is shown to have uniformly better utility performance in both training from scratch and transfer learning settings.
翻訳日:2023-07-26 18:23:47 公開日:2023-07-25
# effortc:スパーストライベクター放射場

Strivec: Sparse Tri-Vector Radiance Fields ( http://arxiv.org/abs/2307.13226v1 )

ライセンス: Link先を確認
Quankai Gao, Qiangeng Xu, Hao Su, Ulrich Neumann, Zexiang Xu(参考訳) Strivecは,局所テンソル特徴格子の分散化とコンパクト化を図った3次元シーンを放射場としてモデル化したニューラル表現である。 提案手法は, テンソルグリッドをモデル化するために, テンソル分解を利用する。 本研究では,大域テンソルを用いたテンソルのベクトル行列分解に着目したテンソルRFとは対照的に,局所テンソルの雲を利用して従来のCANDECOMP/PARAFAC(CP)分解を適用し,各テンソルを空間軸に沿って局所的特徴分布を表現し,局所的ニューラルネットワークをコンパクトに符号化する3つのベクトルに分解する。 また,多スケールテンソル格子を用いて幾何学と外観の共通性を発見し,複数の局所スケールにおける三ベクトル分解と空間的コヒーレンスを利用する。 最終放射場特性は、全てのスケールにわたる複数の局所テンソルからの神経的特徴の集約によって回帰される。 高速な粗い再構成により3次元シーンの空間性を生かし, 実際のシーンの周囲に微小に3ベクトルテンソルを配置する。 本研究では,テンソRFやInstant-NGPなど,従来の手法よりもはるかに少ないパラメータでレンダリング品質を向上できることを示す。

We propose Strivec, a novel neural representation that models a 3D scene as a radiance field with sparsely distributed and compactly factorized local tensor feature grids. Our approach leverages tensor decomposition, following the recent work TensoRF, to model the tensor grids. In contrast to TensoRF which uses a global tensor and focuses on their vector-matrix decomposition, we propose to utilize a cloud of local tensors and apply the classic CANDECOMP/PARAFAC (CP) decomposition to factorize each tensor into triple vectors that express local feature distributions along spatial axes and compactly encode a local neural field. We also apply multi-scale tensor grids to discover the geometry and appearance commonalities and exploit spatial coherence with the tri-vector factorization at multiple local scales. The final radiance field properties are regressed by aggregating neural features from multiple local tensors across all scales. Our tri-vector tensors are sparsely distributed around the actual scene surface, discovered by a fast coarse reconstruction, leveraging the sparsity of a 3D scene. We demonstrate that our model can achieve better rendering quality while using significantly fewer parameters than previous methods, including TensoRF and Instant-NGP.
翻訳日:2023-07-26 18:23:26 公開日:2023-07-25
# 全員のための多レベル大規模言語モデル

Multilevel Large Language Models for Everyone ( http://arxiv.org/abs/2307.13221v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 大規模な言語モデルはここ数年で大きな進歩を遂げた。 しかし、それらはジェネリック {\it または} フィールド固有であり、コミュニティを異なるグループに分割する。 本稿では,これらの大規模言語モデルを,インターネット上のユーザの個人入力と情報に基づいて,ジェネリックな「it」と「}」のモデルが連結され,相互に改善できる,より大きなマップに統一する。 複数の大きな言語モデルを結合するというアイデアは、人間の脳の機能にインスパイアされている。 脳皮質の特定の領域は特定の低レベルの機能に特異的である。 そして、これらの領域は協調してより複雑な高レベル機能を実現することができる。 このような人間の脳皮質における行動は、グローバルレベル、フィールドレベル、ユーザーレベルモデルを含む多レベル大規模言語モデルを設計する光を遮る。 ユーザレベルのモデルはローカルマシン上で実行され、効率的な応答を実現し、ユーザのプライバシを保護する。 このようなマルチレベルモデルは冗長性を低減し、単一レベルモデルよりも優れた性能を発揮する。 提案されたマルチレベルアイデアは、自然言語処理、コンピュータビジョンタスク、プロフェッショナルアシスタント、ビジネス、ヘルスケアなど、さまざまなアプリケーションに適用することができる。

Large language models have made significant progress in the past few years. However, they are either generic {\it or} field specific, splitting the community into different groups. In this paper, we unify these large language models into a larger map, where the generic {\it and} specific models are linked together and can improve each other, based on the user personal input and information from the internet. The idea of linking several large language models together is inspired by the functionality of human brain. The specific regions on the brain cortex are specific for certain low level functionality. And these regions can jointly work together to achieve more complex high level functionality. Such behavior on human brain cortex sheds the light to design the multilevel large language models that contain global level, field level and user level models. The user level models run on local machines to achieve efficient response and protect the user's privacy. Such multilevel models reduce some redundancy and perform better than the single level models. The proposed multilevel idea can be applied in various applications, such as natural language processing, computer vision tasks, professional assistant, business and healthcare.
翻訳日:2023-07-26 18:22:59 公開日:2023-07-25
# 物理インフォームド・シンセティック・データによる高速MRI画像再構成のための一般化可能な深層学習

One for Multiple: Physics-informed Synthetic Data Boosts Generalizable Deep Learning for Fast MRI Reconstruction ( http://arxiv.org/abs/2307.13220v1 )

ライセンス: Link先を確認
Zi Wang, Xiaotong Yu, Chengyan Wang, Weibo Chen, Jiazheng Wang, Ying-Hua Chu, Hongwei Sun, Rushuai Li, Peiyong Li, Fan Yang, Haiwei Han, Taishan Kang, Jianzhong Lin, Chen Yang, Shufu Chang, Zhang Shi, Sha Hua, Yan Li, Juan Hu, Liuhong Zhu, Jianjun Zhou, Meijing Lin, Jiefeng Guo, Congbo Cai, Zhong Chen, Di Guo, Xiaobo Qu(参考訳) 磁気共鳴イメージング(MRI)は、放射線のない、豊富で多様な医療診断のための人体全体に関する情報を提供する主要な放射線モダリティであるが、長期のスキャン時間に悩まされている。 スキャン時間はk空間のアンダーサンプリングによって大幅に削減できるが、導入されたアーティファクトは画像再構成時に取り除く必要がある。 高速MRIにおける画像再構成のための強力なツールとしてディープラーニング(DL)が登場したが、複数の画像シナリオにおけるその潜在性はいまだに未完成である。 これは、大規模で多様なリアルなトレーニングデータの収集は一般的にコストがかかりプライバシーが制限されるだけでなく、既存のDL手法ではトレーニングとターゲットデータのミスマッチが事実上避けられないためである。 本稿では,高速MRIのための物理インフォームド・シンセティック・データ学習フレームワークPISFについて述べる。 2D画像の場合、再構成は多くの1D基本問題に分離され、1Dデータ合成から始まり、一般化を容易にする。 実世界のMRIデータの需要を最大96%減少させるため, 合成データを用いたDLモデルの訓練は, 一致した現実的データセットで訓練されたモデルと比較して, 同等あるいはさらに優れた生体内MRI再構成を実現することができることを示した。 さらに, PISFはマルチベンダマルチセンターイメージングにおいて顕著な一般化性を示した。 患者への適応性は,経験豊富な医師10名の評価により検証された。 PISFは、様々な高速MRIアプリケーションにおけるDLの広範な使用を著しく向上させるとともに、生体内データ取得の難易度の高い倫理的および実践的な考慮から解放する、実現可能で費用対効果の高い方法を提供する。

Magnetic resonance imaging (MRI) is a principal radiological modality that provides radiation-free, abundant, and diverse information about the whole human body for medical diagnosis, but suffers from prolonged scan time. The scan time can be significantly reduced through k-space undersampling but the introduced artifacts need to be removed in image reconstruction. Although deep learning (DL) has emerged as a powerful tool for image reconstruction in fast MRI, its potential in multiple imaging scenarios remains largely untapped. This is because not only collecting large-scale and diverse realistic training data is generally costly and privacy-restricted, but also existing DL methods are hard to handle the practically inevitable mismatch between training and target data. Here, we present a Physics-Informed Synthetic data learning framework for Fast MRI, called PISF, which is the first to enable generalizable DL for multi-scenario MRI reconstruction using solely one trained model. For a 2D image, the reconstruction is separated into many 1D basic problems and starts with the 1D data synthesis, to facilitate generalization. We demonstrate that training DL models on synthetic data, integrated with enhanced learning techniques, can achieve comparable or even better in vivo MRI reconstruction compared to models trained on a matched realistic dataset, reducing the demand for real-world MRI data by up to 96%. Moreover, our PISF shows impressive generalizability in multi-vendor multi-center imaging. Its excellent adaptability to patients has been verified through 10 experienced doctors' evaluations. PISF provides a feasible and cost-effective way to markedly boost the widespread usage of DL in various fast MRI applications, while freeing from the intractable ethical and practical considerations of in vivo human data acquisitions.
翻訳日:2023-07-26 18:22:40 公開日:2023-07-25
# 繰り返しビーム分割によるコヒーレンス

Coherence via reiterated beam splitting ( http://arxiv.org/abs/2307.13279v1 )

ライセンス: Link先を確認
Guillermo D\'iez, Laura Ares, Alfredo Luis(参考訳) ビームスプリッターは量子コヒーレンスに関する非自由な操作であり、量子技術にとって最も汎用的な資源である。 その結果、コヒーレント状態と非コヒーレント状態の両方からコヒーレンスを生成することができる。 ビームスプリッターのカスケードによるコヒーレンスの増加について検討する。 この目的のために,ビームスプリッタの2つの異なる構成を構築し,入力状態の異なるシーケンスを分析する。

Beam splitters are not-free operations regarding quantum coherence, which is the most versatile resource for quantum technologies. As a consequence, they can create coherence from both coherent and incoherent states. We investigate the increase in coherence produced by cascades of beam splitters. To this end, we construct two different configurations of beam splitters and analyze different sequences of input states.
翻訳日:2023-07-26 18:16:47 公開日:2023-07-25
# 境界時間結晶を用いた連続センシングとパラメータ推定

Continuous sensing and parameter estimation with the boundary time-crystal ( http://arxiv.org/abs/2307.13277v1 )

ライセンス: Link先を確認
Albert Cabot, Federico Carollo, Igor Lesanovsky(参考訳) 境界時間結晶は、コヒーレント駆動と集団散逸の競合によって力学が支配される量子多体系である。 n個の2レベルシステムで構成され、定常相と振動相の遷移を特徴とする。 システムが開いているという事実は、量子軌道を継続的に監視し、パラメータの変化に依存することを解析することができる。 これにより、監視時間tとシステムサイズnの関数として性能が検証されるセンシング装置の実現が可能となり、最良の実現可能な感度は$\sqrt{t}n$に比例すること、すなわち、時間における標準量子限界と粒子数におけるハイゼンベルクスケーリングに従うことが分かる。 この理論的スケーリングは振動時間-結晶相で達成でき、創発的量子相関に根ざしている。 しかし、主な課題は、実験的に実現可能な測定プロトコルでこの機能を利用することである。 標準量子限界は2つの時間結晶をカスケードすることで超えることが示され、一方の時間結晶の量子軌道がもう一方の時間結晶の入力として用いられる。

A boundary time-crystal is a quantum many-body system whose dynamics is governed by the competition between coherent driving and collective dissipation. It is composed of N two-level systems and features a transition between a stationary phase and an oscillatory one. The fact that the system is open allows to continuously monitor its quantum trajectories and to analyze their dependence on parameter changes. This enables the realization of a sensing device whose performance we investigate as a function of the monitoring time T and of the system size N. We find that the best achievable sensitivity is proportional to $\sqrt{T}N$, i.e., it follows the standard quantum limit in time and Heisenberg scaling in the particle number. This theoretical scaling can be achieved in the oscillatory time-crystal phase and it is rooted in emergent quantum correlations. The main challenge is, however, to tap this capability in a measurement protocol that is experimentally feasible. We demonstrate that the standard quantum limit can be surpassed by cascading two time-crystals, where the quantum trajectories of one time-crystal are used as input for the other one.
翻訳日:2023-07-26 18:16:41 公開日:2023-07-25
# 分子特性予測のための曲率変換器

Curvature-based Transformer for Molecular Property Prediction ( http://arxiv.org/abs/2307.13275v1 )

ライセンス: Link先を確認
Yili Chen, Zhengyu Li, Zheng Wan, Hui Yu, Xian Wei(参考訳) 分子特性の予測は、人工知能に基づく薬物設計の分野で最も重要な課題の1つである。 現在の主流手法の中で、DNNモデルのトレーニングに最もよく使われている特徴表現はSMILESと分子グラフに基づいているが、これらの手法は簡潔で効果的であるが、空間情報をキャプチャする能力も制限している。 本研究では,リッチ曲率の離散化を導入することにより,グラフトランスフォーマモデルによる分子グラフデータの構造情報抽出能力を向上させるために,曲率に基づくトランスフォーマを提案する。 モデルに曲率を埋め込むため,注目スコア計算中のノード特徴に対して,グラフの曲率情報を位置符号化として付加する。 本手法は,元のネットワークアーキテクチャを変更することなく,グラフデータからの曲率情報を導入し,他のモデルに拡張する可能性がある。 本研究では, pcqm4m-lst, molecularnetなどの化学分子データセットを実験し, uni-mol, graphormerなどのモデルと比較し, この手法が最先端の結果が得られることを示した。 離散化リッチ曲率もまた、グラフ分子データの局所幾何学を記述しながら構造的および機能的関係を反映していることが証明された。

The prediction of molecular properties is one of the most important and challenging tasks in the field of artificial intelligence-based drug design. Among the current mainstream methods, the most commonly used feature representation for training DNN models is based on SMILES and molecular graphs, although these methods are concise and effective, they also limit the ability to capture spatial information. In this work, we propose Curvature-based Transformer to improve the ability of Graph Transformer neural network models to extract structural information on molecular graph data by introducing Discretization of Ricci Curvature. To embed the curvature in the model, we add the curvature information of the graph as positional Encoding to the node features during the attention-score calculation. This method can introduce curvature information from graph data without changing the original network architecture, and it has the potential to be extended to other models. We performed experiments on chemical molecular datasets including PCQM4M-LST, MoleculeNet and compared with models such as Uni-Mol, Graphormer, and the results show that this method can achieve the state-of-the-art results. It is proved that the discretized Ricci curvature also reflects the structural and functional relationship while describing the local geometry of the graph molecular data.
翻訳日:2023-07-26 18:16:19 公開日:2023-07-25
# 偏りのない重量の最大化

Unbiased Weight Maximization ( http://arxiv.org/abs/2307.13270v1 )

ライセンス: Link先を確認
Stephen Chung(参考訳) ニューラルネットワーク(ANN)をトレーニングするための生物学的に妥当な方法は、各ユニットを確率的強化学習(RL)エージェントとして扱うことにより、ネットワークをエージェントチームとして考慮する。 その結果、すべてのユニットは、地球規模の報酬信号によって変調された局所学習規則であるREINFORCEを通じて学習することができる。 しかしながら、この学習方法は、個々の貢献を考慮せずに単一の報酬信号が全ユニットに送信されるため、非効率な構造的信用割当のため、ネットワークサイズに劣ることが多い。 提案手法である重み最大化(Weight Maximization)は、単位の報酬信号を出力重量の基準に置き換えることで、各隠れた単位がグローバルな報酬信号の代わりに出力重量の基準を最大化できるようにする。 本研究では,重量最大化の理論的性質を解析し,偏りのない重み最大化を提案する。 この新しいアプローチは、学習速度を高め、漸近的パフォーマンスを改善する、偏見のない学習ルールを提供する。 私たちの知る限りでは、これはベルヌーイ・ロジスティック・ユニットのネットワークにおける最初の学習ルールであり、学習速度の点でネットワークのユニット数と不偏であり、スケールする。

A biologically plausible method for training an Artificial Neural Network (ANN) involves treating each unit as a stochastic Reinforcement Learning (RL) agent, thereby considering the network as a team of agents. Consequently, all units can learn via REINFORCE, a local learning rule modulated by a global reward signal, which aligns more closely with biologically observed forms of synaptic plasticity. Nevertheless, this learning method is often slow and scales poorly with network size due to inefficient structural credit assignment, since a single reward signal is broadcast to all units without considering individual contributions. Weight Maximization, a proposed solution, replaces a unit's reward signal with the norm of its outgoing weight, thereby allowing each hidden unit to maximize the norm of the outgoing weight instead of the global reward signal. In this research report, we analyze the theoretical properties of Weight Maximization and propose a variant, Unbiased Weight Maximization. This new approach provides an unbiased learning rule that increases learning speed and improves asymptotic performance. Notably, to our knowledge, this is the first learning rule for a network of Bernoulli-logistic units that is unbiased and scales well with the number of network's units in terms of learning speed.
翻訳日:2023-07-26 18:15:58 公開日:2023-07-25
# LoraHub: 動的LoRA合成によるクロスタスクの効率的な一般化

LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition ( http://arxiv.org/abs/2307.13269v1 )

ライセンス: Link先を確認
Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, Min Lin(参考訳) ローランク適応(LoRA)は、しばしば新しいタスクのために細調整された大きな言語モデル(LLM)に使用される。 本稿では, クロスタスク一般化のためのLORA構成可能性について検討し, 多様なタスクで訓練されたLORAモジュールのパーポーブアセンブリのために考案された戦略フレームワークであるLoraHubを紹介する。 新しいタスクのほんの数例で、LoraHubは複数のLoRAモジュールの流体結合を可能にし、人間の専門知識の必要性を根絶している。 特に、合成には追加のモデルパラメータや勾配は必要ない。 big-bench hard(bbh)ベンチマークから得られた実験結果から,lorahubは,各推論入力と並行してコンテキスト内サンプルの必要性を除外して,少数のシナリオにおいて,コンテキスト内学習のパフォーマンスを効果的に模倣できることが示唆された。 私たちの研究の大きな貢献は、LoRAのコミュニティの育成です。LoRAモジュールをトレーニングして共有することで、新しいタスクにアプリケーションを簡単に適用できます。 我々は、この資源が汎用知能とLLMの製品化の進展を拡大し、促進することを期待している。 コードはhttps://github.com/sail-sg/lorahubで入手できる。

Low-rank adaptations (LoRA) are often employed to fine-tune large language models (LLMs) for new tasks. This paper investigates LoRA composability for cross-task generalization and introduces LoraHub, a strategic framework devised for the purposive assembly of LoRA modules trained on diverse given tasks, with the objective of achieving adaptable performance on unseen tasks. With just a few examples from a novel task, LoraHub enables the fluid combination of multiple LoRA modules, eradicating the need for human expertise. Notably, the composition requires neither additional model parameters nor gradients. Our empirical results, derived from the Big-Bench Hard (BBH) benchmark, suggest that LoraHub can effectively mimic the performance of in-context learning in few-shot scenarios, excluding the necessity of in-context examples alongside each inference input. A significant contribution of our research is the fostering of a community for LoRA, where users can share their trained LoRA modules, thereby facilitating their application to new tasks. We anticipate this resource will widen access to and spur advancements in general intelligence as well as LLMs in production. Code will be available at https://github.com/sail-sg/lorahub.
翻訳日:2023-07-26 18:15:34 公開日:2023-07-25
# 二重分解に基づく分散最適化によるK-Meansクラスタリング

Federated K-Means Clustering via Dual Decomposition-based Distributed Optimization ( http://arxiv.org/abs/2307.13267v1 )

ライセンス: Link先を確認
Vassilios Yfantis, Achim Wagner, Martin Ruskowski(参考訳) 機械学習における分散最適化の使用は、結果として生じるプライバシの保存や計算効率の向上によって動機付けられる。 一方、トレーニングデータは複数のデバイスにまたがって保存される可能性がある。 各ノードが機密データのみにアクセスするネットワーク内のグローバルモデルをトレーニングするには、分散アルゴリズムを使用する必要がある。 データが秘密でなくても、帯域幅の制限により共有は禁じられるかもしれない。 一方、利用可能なデータが増え続けると、大規模な機械学習の問題が発生する。 トレーニングプロセスを複数のノードに分割することで、その効率を大幅に向上させることができる。 本稿では,$Kのクラスタリング問題に対する分散トレーニングにおいて,双対分解が適用可能であることを示す。 分散機械学習とフェデレーション機械学習の概要を概説した後、K$-meansクラスタリング学習問題の4次制約付きプログラミングベースの定式化について述べる。 トレーニングは、異なるノードにデータを分割し、コンセンサス制約を通じてこれらのノードをリンクすることで、分散的に行うことができる。 最後に、一連のベンチマーク問題に基づいて、下位段階法、バンドル信頼法、準ニュートン二重昇華アルゴリズムの性能を評価する。 クラスタリング問題の混合整数プログラミングに基づく定式化は、弱い整数緩和に悩まされるが、提案手法は、中央と分散の両方において、将来的に効率的な解を実現するために使われる可能性がある。

The use of distributed optimization in machine learning can be motivated either by the resulting preservation of privacy or the increase in computational efficiency. On the one hand, training data might be stored across multiple devices. Training a global model within a network where each node only has access to its confidential data requires the use of distributed algorithms. Even if the data is not confidential, sharing it might be prohibitive due to bandwidth limitations. On the other hand, the ever-increasing amount of available data leads to large-scale machine learning problems. By splitting the training process across multiple nodes its efficiency can be significantly increased. This paper aims to demonstrate how dual decomposition can be applied for distributed training of $ K $-means clustering problems. After an overview of distributed and federated machine learning, the mixed-integer quadratically constrained programming-based formulation of the $ K $-means clustering training problem is presented. The training can be performed in a distributed manner by splitting the data across different nodes and linking these nodes through consensus constraints. Finally, the performance of the subgradient method, the bundle trust method, and the quasi-Newton dual ascent algorithm are evaluated on a set of benchmark problems. While the mixed-integer programming-based formulation of the clustering problems suffers from weak integer relaxations, the presented approach can potentially be used to enable an efficient solution in the future, both in a central and distributed setting.
翻訳日:2023-07-26 18:15:14 公開日:2023-07-25
# リソース制約型IoT環境のための正のラベルのみを用いたFederated Split Learning

Federated Split Learning with Only Positive Labels for resource-constrained IoT environment ( http://arxiv.org/abs/2307.13266v1 )

ライセンス: Link先を確認
Praveen Joshi, Chandra Thapa, Mohammed Hasanuzzaman, Ted Scully, and Haithem Afli(参考訳) 分散コラボレーティブ機械学習(DCML)は、ディープラーニングモデルをトレーニングするためのIoT(Internet of Things)ドメインにおける有望な方法である。 このアプローチの大きな利点は、生データの集中的な集約の必要性を取り除くことによってデータのプライバシを改善すると同時に、計算能力の低いIoTデバイスも強化することです。 DCMLフレームワークの様々なテクニックの中で、フェデレートされた分割学習(SFL)は、デバイスが限られた計算能力を持つ場合に、効率的なトレーニングとテストに最も適している。 それでも、リソース制約のIoTデバイスが正のラベル付きデータしか持たない場合、SFLのマルチクラス分類ディープラーニングモデルは、収束または準最適結果の提供に失敗する。 これらの課題を克服するために,正のラベル付き分割学習(SFPL)を提案する。 SFPLは、モデルトレーニングのためにサーバにそれを供給する前に、クライアントから受け取ったスマッシュデータにランダムシャッフル機能を適用する。 さらに、SFPLは推論フェーズ中にクライアント側モデル部分のローカルバッチ正規化を組み込む。 SFPLがSFLより優れていることを示す。 (i)cifar-100データセットのresnet-56およびresnet-32に対する51.54および32.57の係数 (i) それぞれ ResNet-32 と ResNet-8 の 9.23 と 8.52 の因子と CIFAR-10 データセットによる。 本研究は,DCMLにおけるSFPLフレームワークの有効性を裏付けるものである。

Distributed collaborative machine learning (DCML) is a promising method in the Internet of Things (IoT) domain for training deep learning models, as data is distributed across multiple devices. A key advantage of this approach is that it improves data privacy by removing the necessity for the centralized aggregation of raw data but also empowers IoT devices with low computational power. Among various techniques in a DCML framework, federated split learning, known as splitfed learning (SFL), is the most suitable for efficient training and testing when devices have limited computational capabilities. Nevertheless, when resource-constrained IoT devices have only positive labeled data, multiclass classification deep learning models in SFL fail to converge or provide suboptimal results. To overcome these challenges, we propose splitfed learning with positive labels (SFPL). SFPL applies a random shuffling function to the smashed data received from clients before supplying it to the server for model training. Additionally, SFPL incorporates the local batch normalization for the client-side model portion during the inference phase. Our results demonstrate that SFPL outperforms SFL: (i) by factors of 51.54 and 32.57 for ResNet-56 and ResNet-32, respectively, with the CIFAR-100 dataset, and (ii) by factors of 9.23 and 8.52 for ResNet-32 and ResNet-8, respectively, with CIFAR-10 dataset. Overall, this investigation underscores the efficacy of the proposed SFPL framework in DCML.
翻訳日:2023-07-26 18:14:54 公開日:2023-07-25
# GaitFormer: 歩行認識における固有周期性の再考

GaitFormer: Revisiting Intrinsic Periodicity for Gait Recognition ( http://arxiv.org/abs/2307.13259v1 )

ライセンス: Link先を確認
Qian Wu, Ruixuan Xiao, Kaixin Xu, Jingcheng Ni, Boxun Li, Ziyao Xu(参考訳) 歩行認識は、外見情報に頼るのではなく、ビデオレベルの人間のシルエットを分析することで、異なる歩行パターンを区別することを目的としている。 歩行認識に関する従来の研究は主に局所的あるいはグローバルな時空間表現の抽出に焦点が当てられていたが、歩行系列の固有の周期的特徴を見渡すことは、十分に活用すれば性能を大幅に向上させることができる。 本研究では,歩行パターンの周期的性質ときめ細かい時間的依存性を活かし,時間的周期的アライメント(tpa)と呼ばれるプラグ・アンド・プレイ戦略を提案する。 tpa戦略には2つの重要な要素がある。 第1のコンポーネントは適応フーリエ変換位置符号化(AFPE)で、特徴と離散時間信号を周期的な歩行パターンに敏感な埋め込みに変換する。 第2のコンポーネントであるTAM(Temporal Aggregation Module)は、埋め込みをトレンドと季節的なコンポーネントに分離し、意味のある時間的相関を抽出して一次成分を特定し、ランダムノイズを除去する。 本稿では,tpa戦略に基づく歩行認識のための簡易かつ効果的なベースライン手法を提案する。 一般的な3つの公開データセット (CASIA-B, OU-MVLP, GREW) で行った大規模な実験により, 提案手法は, 複数のベンチマークテストにおいて最先端の性能を達成することを示した。

Gait recognition aims to distinguish different walking patterns by analyzing video-level human silhouettes, rather than relying on appearance information. Previous research on gait recognition has primarily focused on extracting local or global spatial-temporal representations, while overlooking the intrinsic periodic features of gait sequences, which, when fully utilized, can significantly enhance performance. In this work, we propose a plug-and-play strategy, called Temporal Periodic Alignment (TPA), which leverages the periodic nature and fine-grained temporal dependencies of gait patterns. The TPA strategy comprises two key components. The first component is Adaptive Fourier-transform Position Encoding (AFPE), which adaptively converts features and discrete-time signals into embeddings that are sensitive to periodic walking patterns. The second component is the Temporal Aggregation Module (TAM), which separates embeddings into trend and seasonal components, and extracts meaningful temporal correlations to identify primary components, while filtering out random noise. We present a simple and effective baseline method for gait recognition, based on the TPA strategy. Extensive experiments conducted on three popular public datasets (CASIA-B, OU-MVLP, and GREW) demonstrate that our proposed method achieves state-of-the-art performance on multiple benchmark tests.
翻訳日:2023-07-26 18:14:31 公開日:2023-07-25
# 協調探査による構造クレジット割り当て

Structural Credit Assignment with Coordinated Exploration ( http://arxiv.org/abs/2307.13256v1 )

ライセンス: Link先を確認
Stephen Chung(参考訳) ニューラルネットワーク(ANN)をトレーニングするための生物学的に妥当な方法は、各ユニットを確率的強化学習(RL)エージェントとして扱うことにより、ネットワークをエージェントチームとして考慮する。 その結果、すべてのユニットは、地球規模の報酬信号によって変調された局所学習規則であるREINFORCEを通じて学習することができる。 しかし、この学習方法は遅い傾向にあり、ネットワークのサイズほどスケールしない。 この非効率性は、効果的な構造的信用割り当てを妨げる2つの要因から生じる。 (i)全ユニットが独立してネットワークを探索し、 (ii)全ての単位の動作を評価するために単一の報酬が用いられる。 したがって、構造的信用割り当てを改善するための方法は、一般的に2つのカテゴリに分類できる。 第1のカテゴリはMAP伝搬のようなユニット間の協調的な探索を可能にするアルゴリズムを含んでいる。 第2のカテゴリは、ネットワーク内の各ユニットに対してより具体的な報酬信号を計算するアルゴリズムを含んでいる。 本研究報告では,第一のカテゴリーに焦点をあてる。 本稿では,ボルツマンマシンやリカレントネットワークを用いた協調探索を提案する。 ボルツマン機械を訓練するのに通常必要となる負位相を除去できることが示される。 学習規則は報酬変調されたヘビアン学習規則と似ている。 実験の結果,ste (sright-through estimator) のバックプロパゲーションを上回っても,複数の確率的単位と離散単位の訓練速度において,協調探索は独立探索を大きく上回ることがわかった。

A biologically plausible method for training an Artificial Neural Network (ANN) involves treating each unit as a stochastic Reinforcement Learning (RL) agent, thereby considering the network as a team of agents. Consequently, all units can learn via REINFORCE, a local learning rule modulated by a global reward signal, which aligns more closely with biologically observed forms of synaptic plasticity. However, this learning method tends to be slow and does not scale well with the size of the network. This inefficiency arises from two factors impeding effective structural credit assignment: (i) all units independently explore the network, and (ii) a single reward is used to evaluate the actions of all units. Accordingly, methods aimed at improving structural credit assignment can generally be classified into two categories. The first category includes algorithms that enable coordinated exploration among units, such as MAP propagation. The second category encompasses algorithms that compute a more specific reward signal for each unit within the network, like Weight Maximization and its variants. In this research report, our focus is on the first category. We propose the use of Boltzmann machines or a recurrent network for coordinated exploration. We show that the negative phase, which is typically necessary to train Boltzmann machines, can be removed. The resulting learning rules are similar to the reward-modulated Hebbian learning rule. Experimental results demonstrate that coordinated exploration significantly exceeds independent exploration in training speed for multiple stochastic and discrete units based on REINFORCE, even surpassing straight-through estimator (STE) backpropagation.
翻訳日:2023-07-26 18:14:06 公開日:2023-07-25
# SINGLEネットワークのみに絡みのないマルチスペース埋め込みのための条件付きクロスアテンションネットワーク

Conditional Cross Attention Network for Multi-Space Embedding without Entanglement in Only a SINGLE Network ( http://arxiv.org/abs/2307.13254v1 )

ライセンス: Link先を確認
Chull Hwan Song, Taebaek Hwang, Jooyoung Yoon, Shunghyun Choi, Yeong Hyeon Gu(参考訳) 視覚タスクにおける多くの研究は、画像内の単一ラベルオブジェクトの予測に効果的な埋め込み空間を作ることを目的としている。 しかし実際には、ほとんどのオブジェクトは形状、色、長さなどの複数の属性を持ち、それぞれの属性は様々なクラスで構成されている。 実世界のシナリオにモデルを適用するためには、オブジェクトの粒状コンポーネントを区別できることが不可欠である。 従来のアプローチでは、単一のネットワークに複数の特定の属性を組み込むと、しばしば絡み合いが生じ、各属性のきめ細かい特徴を別々に識別できない。 この問題に対処するために,1つのバックボーンのみを用いて,様々な属性に対して複数空間の分散埋め込みを誘導する条件付きクロスアテンションネットワークを提案する。 まず,条件情報(特定の属性)を融合・切り替えするクロス・アテンション・メカニズムを採用し,その効果を多様な可視化例を用いて実証する。 第2に,視覚トランスフォーマーを初めて細粒度画像検索タスクに活用し,既存の手法と比較して単純かつ効果的なフレームワークを提案する。 FashionAI,DARN,DeepFashion,Zappos50Kベンチマークデータセット上で,ベンチマークデータセットによってパフォーマンスが異なっていた従来の研究とは異なり,提案手法は一貫した最先端のパフォーマンスを達成した。

Many studies in vision tasks have aimed to create effective embedding spaces for single-label object prediction within an image. However, in reality, most objects possess multiple specific attributes, such as shape, color, and length, with each attribute composed of various classes. To apply models in real-world scenarios, it is essential to be able to distinguish between the granular components of an object. Conventional approaches to embedding multiple specific attributes into a single network often result in entanglement, where fine-grained features of each attribute cannot be identified separately. To address this problem, we propose a Conditional Cross-Attention Network that induces disentangled multi-space embeddings for various specific attributes with only a single backbone. Firstly, we employ a cross-attention mechanism to fuse and switch the information of conditions (specific attributes), and we demonstrate its effectiveness through a diverse visualization example. Secondly, we leverage the vision transformer for the first time to a fine-grained image retrieval task and present a simple yet effective framework compared to existing methods. Unlike previous studies where performance varied depending on the benchmark dataset, our proposed method achieved consistent state-of-the-art performance on the FashionAI, DARN, DeepFashion, and Zappos50K benchmark datasets.
翻訳日:2023-07-26 18:13:39 公開日:2023-07-25
# CT-Net:Contour Transformerによる任意字型テキスト検出

CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer ( http://arxiv.org/abs/2307.13310v1 )

ライセンス: Link先を確認
Zhiwen Shao, Yuchen Su, Yong Zhou, Fanrong Meng, Hancheng Zhu, Bing Liu, and Rui Yao(参考訳) contourベースのシーンテキスト検出手法は近年急速に発展しているが、フロントエンドのcontour初期化、多段エラーの蓄積、ローカル情報集約の欠如などまだ不正確な問題に苦しんでいる。 このような制約に対処するため,CT-Netという任意の形状のシーンテキスト検出フレームワークを提案する。 具体的には、まず、後処理なしで粗いテキスト輪郭を生成する輪郭初期化モジュールを用いる。 次に,テキストの輪郭を反復的に洗練するために輪郭改良モジュールを採用し,コンテキスト情報取得や漸進的輪郭変形に有用である。 また,輪郭変圧器がより多くの電位変形経路を学習できるようにする適応的訓練戦略を提案し,偽陽性を効果的に抑制できる再スコア機構を導入する。 最先端手法に対するCT-Netの精度と効率を実証する4つの挑戦的データセットに対して,大規模な実験を行った。 特にCT-Netは、1秒あたり1.2フレームで86.1、CTW1500とTotal-Textデータセットで10.1FPSで87.8のF測定を実現している。

Contour based scene text detection methods have rapidly developed recently, but still suffer from inaccurate frontend contour initialization, multi-stage error accumulation, or deficient local information aggregation. To tackle these limitations, we propose a novel arbitrary-shaped scene text detection framework named CT-Net by progressive contour regression with contour transformers. Specifically, we first employ a contour initialization module that generates coarse text contours without any post-processing. Then, we adopt contour refinement modules to adaptively refine text contours in an iterative manner, which are beneficial for context information capturing and progressive global contour deformation. Besides, we propose an adaptive training strategy to enable the contour transformers to learn more potential deformation paths, and introduce a re-score mechanism that can effectively suppress false positives. Extensive experiments are conducted on four challenging datasets, which demonstrate the accuracy and efficiency of our CT-Net over state-of-the-art methods. Particularly, CT-Net achieves F-measure of 86.1 at 11.2 frames per second (FPS) and F-measure of 87.8 at 10.1 FPS for CTW1500 and Total-Text datasets, respectively.
翻訳日:2023-07-26 18:06:36 公開日:2023-07-25
# デザイナーナノダイヤモンドにおける色中心集積型量子フォトニック回路

Quantum Photonic Circuits Integrated with Color Centers in Designer Nanodiamonds ( http://arxiv.org/abs/2307.13309v1 )

ライセンス: Link先を確認
Kinfung Ngan, Yuan Zhan, Constantin Dory, Jelena Vu\v{c}kovi\'c, and Shuo Sun(参考訳) ダイヤモンドは固体量子エミッタ、量子メモリ、量子センサーの主要なホスト材料として登場した。 しかし、ダイヤモンドでフォトニックデバイスを製造する際の課題は、量子技術での使用の可能性に制限がかかっている。 ダイヤモンドカラーセンターと不均質材料で定義されたフォトニックデバイスを結合する様々なハイブリッド統合手法が開発されているが、これらの手法は材料界面における大きな挿入損失またはエバネッセント光物質結合に悩まされている。 本稿では,窒化ケイ素フォトニック回路においてダイヤモンド色中心を決定論的に組み立てる手法を提案する。 この手法を用いて, 窒化ケイ素環共振器に結合したシリコン空孔中心のパーセル増強を観察した。 当社のハイブリッド統合手法は,低挿入損失を維持しつつ,最大光マッター相互作用強度を達成する可能性を秘めており,高品質量子エミッタやスピンを集積した大規模量子フォトニック回路のスケーラブルな製造への道を開く。

Diamond has emerged as a leading host material for solid-state quantum emitters, quantum memories, and quantum sensors. However, the challenges in fabricating photonic devices in diamond have limited its potential for use in quantum technologies. While various hybrid integration approaches have been developed for coupling diamond color centers with photonic devices defined in a heterogeneous material, these methods suffer from either large insertion loss at the material interface or evanescent light-matter coupling. Here, we present a new technique that enables deterministic assembly of diamond color centers in a silicon nitride photonic circuit. Using this technique, we observe Purcell enhancement of silicon vacancy centers coupled to a silicon nitride ring resonator. Our hybrid integration approach has the potential for achieving the maximum possible light-matter interaction strength while maintaining low insertion loss, and paves the way towards scalable manufacturing of large-scale quantum photonic circuits integrated with high-quality quantum emitters and spins.
翻訳日:2023-07-26 18:06:11 公開日:2023-07-25
# QuIP: 保証付き大規模言語モデルの2ビット量子化

QuIP: 2-Bit Quantization of Large Language Models With Guarantees ( http://arxiv.org/abs/2307.13304v1 )

ライセンス: Link先を確認
Jerry Chee, Yaohui Cai, Volodymyr Kuleshov, Christopher De Sa(参考訳) 本研究は,大規模言語モデル(llms)における学習後パラメータ量子化の研究である。 そこで本研究では,非コヒーレンス重みとヘッシアン行列,すなわち座標軸と不一致であることの正確性が重要となる重みと方向から量子化が利益をもたらすという洞察に基づく新しい手法である incoherence processing (quip) を用いた量子化について紹介する。 QuIP は,(1) 二次的プロキシの目的を最小化する適応丸め手順,(2) ランダム直交行列による乗算による重み付けとヘッセン不整合を保証する効率的な前処理と後処理の2段階からなる。 我々はQuIPをLLMスケール量子化アルゴリズムの最初の理論的解析と補完し、我々の理論が既存の方法であるOPTQにも適用されることを示す。 経験的に、我々の非一貫性前処理は既存の量子化アルゴリズムを改良し、1重量あたり2ビットで実行可能な結果を生成する最初の llm 量子化法をもたらす。 私たちのコードはhttps://github.com/jerry-chee/QuIP で参照できます。

This work studies post-training parameter quantization in large language models (LLMs). We introduce quantization with incoherence processing (QuIP), a new method based on the insight that quantization benefits from incoherent weight and Hessian matrices, i.e., from the weights and the directions in which it is important to round them accurately being unaligned with the coordinate axes. QuIP consists of two steps: (1) an adaptive rounding procedure minimizing a quadratic proxy objective; (2) efficient pre- and post-processing that ensures weight and Hessian incoherence via multiplication by random orthogonal matrices. We complement QuIP with the first theoretical analysis for an LLM-scale quantization algorithm, and show that our theory also applies to an existing method, OPTQ. Empirically, we find that our incoherence preprocessing improves several existing quantization algorithms and yields the first LLM quantization methods that produce viable results using only two bits per weight. Our code can be found at https://github.com/jerry-chee/QuIP .
翻訳日:2023-07-26 18:05:51 公開日:2023-07-25
# 三次元環境認識のための深層学習モデルにおける局所特徴記述子Mini-PointNetPlus

Mini-PointNetPlus: a local feature descriptor in deep learning model for 3d environment perception ( http://arxiv.org/abs/2307.13300v1 )

ライセンス: Link先を確認
Chuanyu Luo, Nuo Cheng, Sikun Ma, Jun Xiang, Xiaohan Li, Shengguang Lei, Pu Li(参考訳) 3D環境知覚のための一般的なディープラーニングモデルは、しばしばピラリゼーション/ボクセル化手法を使用して、ポイントクラウドデータをピラリ/ボクセルに変換し、2D/3D畳み込みニューラルネットワーク(CNN)で処理する。 先駆的な作業であるpointnetは、ポイントクラウドの特徴を抽出するために、ディープラーニングモデルの基本コンポーネントであるローカル機能記述子として広く適用されてきた。 これは、ユニークなピラー/ボクセル特性を提供する対称最大プーリング演算子を使用することによって達成される。 しかし、ほとんどの点を無視することで、最大プール演算子は情報損失を引き起こし、モデルの性能が低下する。 この問題に対処するため,新しいローカル機能記述子 mini-PointNetPlus を PointNet のプラグイン・アンド・プレイの代替として提案する。 我々の基本的な考え方は、データポイントを考慮された個々の特徴に別々に投影することであり、それぞれが置換不変となる。 したがって、提案したディスクリプタは、順序のない点雲を安定な順序に変換する。 バニラPointNetは、私たちのミニPointNetPlusの特別なケースであることが証明されています。 提案するディスクリプタの特徴を十分に活用するため,実験において3次元知覚の性能向上を実証する。

Common deep learning models for 3D environment perception often use pillarization/voxelization methods to convert point cloud data into pillars/voxels and then process it with a 2D/3D convolutional neural network (CNN). The pioneer work PointNet has been widely applied as a local feature descriptor, a fundamental component in deep learning models for 3D perception, to extract features of a point cloud. This is achieved by using a symmetric max-pooling operator which provides unique pillar/voxel features. However, by ignoring most of the points, the max-pooling operator causes an information loss, which reduces the model performance. To address this issue, we propose a novel local feature descriptor, mini-PointNetPlus, as an alternative for plug-and-play to PointNet. Our basic idea is to separately project the data points to the individual features considered, each leading to a permutation invariant. Thus, the proposed descriptor transforms an unordered point cloud to a stable order. The vanilla PointNet is proved to be a special case of our mini-PointNetPlus. Due to fully utilizing the features by the proposed descriptor, we demonstrate in experiment a considerable performance improvement for 3D perception.
翻訳日:2023-07-26 18:05:30 公開日:2023-07-25
# 判例検索における本態性分類

An Intent Taxonomy of Legal Case Retrieval ( http://arxiv.org/abs/2307.13298v1 )

ライセンス: Link先を確認
Yunqiu Shao, Haitao Li, Yueyue Wu, Yiqun Liu, Qingyao Ai, Jiaxin Mao, Yixiao Ma, Shaoping Ma(参考訳) 訴訟検索は、訴訟文書に焦点を当てた特別情報検索〜(IR)タスクである。 検索された事例文書の下流のタスクに依存すると,法的な事例検索におけるユーザの情報要求は,Web検索や従来のアドホック検索とは大きく異なる可能性がある。 テキストの類似性に基づいて判例を検索する研究はいくつかあるが,本論文に示すように,法検索利用者の検索意図は,ほとんど探索されていないものよりも複雑である。 この目的のために, 判例検索の新しい階層的意図分類法を提案する。 それは3つの基準、すなわち特定のケースの検索、特徴付け、ペナルティ、手続き、利害関係の5つのインテントタイプから成り立っている。 この分類は透過的に構築され、インタビュー、編集ユーザー研究、クエリログ分析を通じて広く評価された。 実験室のユーザスタディを通じて,訴訟検索における検索意図の違いによるユーザの行動と満足度に有意な差異が認められた。 さらに,提案分類法を,検索結果のランク付けや満足度予測など,下流の様々な法的検索タスクに適用し,その効果を実証する。 本研究は,訴訟事例検索におけるユーザの意図を理解する上で重要な洞察を与え,意図認識のランキング戦略や評価手法など,法領域における検索技術の改善につながる可能性がある。

Legal case retrieval is a special Information Retrieval~(IR) task focusing on legal case documents. Depending on the downstream tasks of the retrieved case documents, users' information needs in legal case retrieval could be significantly different from those in Web search and traditional ad-hoc retrieval tasks. While there are several studies that retrieve legal cases based on text similarity, the underlying search intents of legal retrieval users, as shown in this paper, are more complicated than that yet mostly unexplored. To this end, we present a novel hierarchical intent taxonomy of legal case retrieval. It consists of five intent types categorized by three criteria, i.e., search for Particular Case(s), Characterization, Penalty, Procedure, and Interest. The taxonomy was constructed transparently and evaluated extensively through interviews, editorial user studies, and query log analysis. Through a laboratory user study, we reveal significant differences in user behavior and satisfaction under different search intents in legal case retrieval. Furthermore, we apply the proposed taxonomy to various downstream legal retrieval tasks, e.g., result ranking and satisfaction prediction, and demonstrate its effectiveness. Our work provides important insights into the understanding of user intents in legal case retrieval and potentially leads to better retrieval techniques in the legal domain, such as intent-aware ranking strategies and evaluation methodologies.
翻訳日:2023-07-26 18:05:10 公開日:2023-07-25
# 非拘束モデルにおけるヒルベルト空間量子スカーの起源

Origin of Hilbert space quantum scars in unconstrained models ( http://arxiv.org/abs/2307.13297v1 )

ライセンス: Link先を確認
Zexian Guo, Bobo Liu, Yu Gao, Ang Yang, Junlin Wang, Jinlou Ma and Lei Ying(参考訳) 量子多体傷(quantum many-body scar)は、最近発見された固有状態熱化仮説に弱く違反する現象であり、様々なモデルで広く研究されている。 しかし、実験的な実現は主に$PXP$モデルのような制約付きモデルに基づいている。 Refsの超伝導プラットフォームに関する最近の実験から着想を得た。 〜[Nat. Phys. 19, 120 (2022)] と [arXiv:2211.05803] は、多くの実験プラットフォームで説明できる半満たのハードコア Bose-Hubbard モデルに基づいて、量子多体傷の異なるクラスを研究する。 これはいわゆるヒルベルト空間量子傷であり、ヒルベルト空間内の他の熱化領域に弱結合するハイパーキューブ幾何学を持つ部分空間に由来する。 ハイパーキューブ内では、一対の集団フォック状態が熱化領域に直接結合せず、他の初期状態のダイナミクスと異なる顕著な忠実さの再現を伴う遅い熱化ダイナミクスをもたらす。 この機構は様々な実空間格子構成において一般的であり、例えば1次元su-シュリーファー-ヘーガー鎖、コーム格子、さらには二量体からなるランダム二量体クラスターを含む。 さらに,集合状態とすべての固有状態のスペクトル重なりを説明するために,ヒルベルト・ハイパーキューブ減衰近似に基づくトイモデルを開発した。 さらに、四量体またはオクタマーからなる2次元および3次元su-シュリフェファー・ヘーガー多体系においてヒルベルト空間の量子スカーを探索する。 この研究は、量子センシングや量子気象学といった応用において、量子多体散乱状態をより現実的にする。

Quantum many-body scar is a recently discovered phenomenon weakly violating eigenstate thermalization hypothesis, and it has been extensively studied across various models. However, experimental realizations are mainly based on constrained models such as the $PXP$ model. Inspired by recent experimental observations on the superconducting platform in Refs.~[Nat. Phys. 19, 120 (2022)] and [arXiv:2211.05803], we study a distinct class of quantum many-body scars based on a half-filling hard-core Bose-Hubbard model, which is generic to describe in many experimental platforms. It is the so-called Hilbert space quantum scar as it originates from a subspace with a hypercube geometry weakly connecting to other thermalization regions in Hilbert space. Within the hypercube, a pair of collective Fock states do not directly connect to the thermalization region, resulting in slow thermalization dynamics with remarkable fidelity revivals with distinct differences from dynamics of other initial states. This mechanism is generic in various real-space lattice configurations, including one-dimensional Su-Schrieffer-Heeger chain, comb lattice, and even random dimer clusters consisting of dimers. In addition, we develop a toy model based on Hilbert hypercube decay approximation, to explain the spectrum overlap between the collective states and all eigenstates. Furthermore, we explore the Hilbert space quantum scar in two- and three-dimensional Su-Schrieffer-Heeger many-body systems, consisting of tetramers or octamers, respectively. This study makes quantum many-body scar state more realistic in applications such as quantum sensing and quantum metrology.
翻訳日:2023-07-26 18:04:50 公開日:2023-07-25
# 近距離デバイスにおける測定フリーフォールトトレラント量子誤差補正

Measurement-free fault-tolerant quantum error correction in near-term devices ( http://arxiv.org/abs/2307.13296v1 )

ライセンス: Link先を確認
Sascha Heu{\ss}en and David F. Locher and Markus M\"uller(参考訳) 論理キュービットはQECサイクルを繰り返し実行することによりデコヒーレンスから保護することができる。 フォールトトレラントQECのアルゴリズムは、原則として任意の時間に動作する量子メモリを現実的に実現するために、特定のハードウェアプラットフォームにコンパイルされなければならない。 すべての回路部品は、ノイズの形態に関する特定の仮定がない限り、ノイズと仮定されなければならない。 現代QECスキームは、インシーケンス計測や古典情報のフィードフォワードが十分に高速あるいは全く高速に実行できない物理アーキテクチャにおいて実験的に実装することが困難である。 ここでは、回路で使用される全てのコンポーネントに対して完全にフォールトトレラントなキュービットを測定することなく、QECサイクルを実行するための新しいスキームを提供する。 私たちのスキームは、基礎となるコードに対する唯一の要件が横断的なcnotゲートであるため、あらゆる低距離cssコードで使用できます。 Steane-type EC と同様に、エラーを論理補助量子ビットにコヒーレントにコピーし、補助システムから論理データ量子ビットへのコヒーレントフィードバック操作を適用する。 論理補助キュービットは、測定なしでもフォールトトレラントに準備される。 フラグキュービットベースのECサイクルと比較して,提案方式の論理的故障率をベンチマークする。 提案手法では,本手法が実現可能なパラメータ領域をマップし,有益QECの破局点を達成するために必要な物理誤差率を推定する。 我々は, イオントラップや中性原子をトウィーザーアレイに実装する方法について概説する。 最近実証された原子シャットリングとネイティブマルチ原子ライドバーグゲートの能力について、故障耐性を損なうことなく、回路深度とスキームの有益な性能を達成する。 これにより、中間回路計測をサポートしないハードウェアアーキテクチャにおいて、実用的なフォールトトレラントQECを実現することができる。

Logical qubits can be protected from decoherence by performing QEC cycles repeatedly. Algorithms for fault-tolerant QEC must be compiled to the specific hardware platform under consideration in order to practically realize a quantum memory that operates for in principle arbitrary long times. All circuit components must be assumed as noisy unless specific assumptions about the form of the noise are made. Modern QEC schemes are challenging to implement experimentally in physical architectures where in-sequence measurements and feed-forward of classical information cannot be reliably executed fast enough or even at all. Here we provide a novel scheme to perform QEC cycles without the need of measuring qubits that is fully fault-tolerant with respect to all components used in the circuit. Our scheme can be used for any low-distance CSS code since its only requirement towards the underlying code is a transversal CNOT gate. Similarly to Steane-type EC, we coherently copy errors to a logical auxiliary qubit but then apply a coherent feedback operation from the auxiliary system to the logical data qubit. The logical auxiliary qubit is prepared fault-tolerantly without measurements, too. We benchmark logical failure rates of the scheme in comparison to a flag-qubit based EC cycle. We map out a parameter region where our scheme is feasible and estimate physical error rates necessary to achieve the break-even point of beneficial QEC with our scheme. We outline how our scheme could be implemented in ion traps and with neutral atoms in a tweezer array. For recently demonstrated capabilities of atom shuttling and native multi-atom Rydberg gates, we achieve moderate circuit depths and beneficial performance of our scheme while not breaking fault tolerance. These results thereby enable practical fault-tolerant QEC in hardware architectures that do not support mid-circuit measurements.
翻訳日:2023-07-26 18:04:18 公開日:2023-07-25
# led照明変調による顔認識システムに対する知覚不能な物理的攻撃

Imperceptible Physical Attack against Face Recognition Systems via LED Illumination Modulation ( http://arxiv.org/abs/2307.13294v1 )

ライセンス: Link先を確認
Junbin Fang, Canjian Jiang, You Jiang, Puxi Lin, Zhaojie Chen, Yujing Sun, Siu-Ming Yiu, Zoe L. Jiang(参考訳) 顔認識は私たちの日常生活において重要な役割を担い始めているが、データ駆動型顔認識システムは敵の攻撃に弱いことに注意する必要がある。 しかし、現在の敵攻撃の2つのカテゴリ、すなわちデジタル攻撃と物理的攻撃はどちらも欠点があり、以前の攻撃は非現実的であり、後者は目立った、高い計算能力、実行不可能である。 この問題に対処するために,led照明変調に基づく実用的で実行可能で,目立たず,計算能力の低い敵攻撃を提案する。 提案手法を騙すために,シーンled照明の高速強度変調により人間の眼に知覚不能な輝度変化を生じさせ,cmosイメージセンサのローリングシャッター効果を顔認識システムに適用し,撮像した顔画像に輝度情報の摂動を注入する。 本報告では,顔検出のためのDoS攻撃と,顔認証のためのDodging攻撃について述べる。 また,顔検出モデルであるdlib,mtcnn,retinaface,および顔認証モデルであるdlib,facenet,arcfaceに対するその効果を評価した。広範な実験により,顔検出モデルに対するdos攻撃の成功率は97.67%,100%,100%,すべての顔検証モデルに対するドーディング攻撃の成功率は100%に達した。

Although face recognition starts to play an important role in our daily life, we need to pay attention that data-driven face recognition vision systems are vulnerable to adversarial attacks. However, the current two categories of adversarial attacks, namely digital attacks and physical attacks both have drawbacks, with the former ones impractical and the latter one conspicuous, high-computational and inexecutable. To address the issues, we propose a practical, executable, inconspicuous and low computational adversarial attack based on LED illumination modulation. To fool the systems, the proposed attack generates imperceptible luminance changes to human eyes through fast intensity modulation of scene LED illumination and uses the rolling shutter effect of CMOS image sensors in face recognition systems to implant luminance information perturbation to the captured face images. In summary,we present a denial-of-service (DoS) attack for face detection and a dodging attack for face verification. We also evaluate their effectiveness against well-known face detection models, Dlib, MTCNN and RetinaFace , and face verification models, Dlib, FaceNet,and ArcFace.The extensive experiments show that the success rates of DoS attacks against face detection models reach 97.67%, 100%, and 100%, respectively, and the success rates of dodging attacks against all face verification models reach 100%.
翻訳日:2023-07-26 18:03:48 公開日:2023-07-25
# 一般化誤差を減らすために関数空間のトレーニング方向を変更する

Modify Training Directions in Function Space to Reduce Generalization Error ( http://arxiv.org/abs/2307.13290v1 )

ライセンス: Link先を確認
Yi Yu, Wenlian Lu, Boyu Chen(参考訳) ニューラルネットワーク関数空間において,ニューラルネットワークカーネルとフィッシャー情報行列の固有分解に基づく修正された自然勾配降下法の理論解析を提案する。 まず, ガウス分布と無限幅極限を仮定して, この修正自然勾配によって得られた関数の解析式を示す。 そこで我々は固有分解と統計理論から理論手法を用いて学習したニューラルネットワーク関数の一般化誤差を明示的に導出する。 関数空間におけるカーネルの異なる固有空間に起因する全一般化誤差を分解することにより、トレーニングセットから発生する誤差とトレーニングセットと真のデータとの分布差のバランスをとるための基準を提案する。 提案手法により,関数空間におけるニューラルネットワークのトレーニング方向の変更により,全一般化誤差の低減が図られる。 さらに, この理論フレームワークは, 一般化向上手法の既存の成果を多数説明できることを示した。 これらの理論結果は、合成データに関する数値例でも示される。

We propose theoretical analyses of a modified natural gradient descent method in the neural network function space based on the eigendecompositions of neural tangent kernel and Fisher information matrix. We firstly present analytical expression for the function learned by this modified natural gradient under the assumptions of Gaussian distribution and infinite width limit. Thus, we explicitly derive the generalization error of the learned neural network function using theoretical methods from eigendecomposition and statistics theory. By decomposing of the total generalization error attributed to different eigenspace of the kernel in function space, we propose a criterion for balancing the errors stemming from training set and the distribution discrepancy between the training set and the true data. Through this approach, we establish that modifying the training direction of the neural network in function space leads to a reduction in the total generalization error. Furthermore, We demonstrate that this theoretical framework is capable to explain many existing results of generalization enhancing methods. These theoretical results are also illustrated by numerical examples on synthetic data.
翻訳日:2023-07-26 18:03:23 公開日:2023-07-25
# 衣服用ヒトの高分解能ボリュームリコンストラクション

High-Resolution Volumetric Reconstruction for Clothed Humans ( http://arxiv.org/abs/2307.13282v1 )

ライセンス: Link先を確認
Sicong Tang, Guangyuan Wang, Qing Ran, Lingzhi Li, Li Shen and Ping Tan(参考訳) 本稿では,1~6RGB画像のスパース集合から,衣服の人間を再構築する新しい手法を提案する。 暗黙的表現を用いた最近の研究の印象的な結果にもかかわらず、我々はボリュームアプローチを再考し、適切なシステム設計によってより良い性能が達成できることを実証する。 体積表現は3次元畳み込みによる3次元空間的文脈の活用において大きな利点を与え、悪名高い量子化誤差は、かなり大きくて手頃なボリューム解像度(例えば512)で無視できる。 メモリと計算コストに対処するため,ボクセルカリングと部分空間スパース畳み込みを用いた粗大化戦略を提案する。 本手法は, 粗い形状を計算し, 粗い形状に近い狭い帯に焦点を合わせるために, 離散化された視覚的包絡から開始する。 形状を再構成すると、入力画像と学習重みをブレンドして表面点の色を計算するイメージベースレンダリング手法を採用する。 広範な実験結果から,最先端法の平均点対面精度(p2s)を50%以上低減し,約2mmの精度を512ボリュームの解像度で達成できた。 さらに,テクスチャモデルから描画した画像は,最先端手法と比較して高いピーク信号-雑音比(PSNR)が得られる。

We present a novel method for reconstructing clothed humans from a sparse set of, e.g., 1 to 6 RGB images. Despite impressive results from recent works employing deep implicit representation, we revisit the volumetric approach and demonstrate that better performance can be achieved with proper system design. The volumetric representation offers significant advantages in leveraging 3D spatial context through 3D convolutions, and the notorious quantization error is largely negligible with a reasonably large yet affordable volume resolution, e.g., 512. To handle memory and computation costs, we propose a sophisticated coarse-to-fine strategy with voxel culling and subspace sparse convolution. Our method starts with a discretized visual hull to compute a coarse shape and then focuses on a narrow band nearby the coarse shape for refinement. Once the shape is reconstructed, we adopt an image-based rendering approach, which computes the colors of surface points by blending input images with learned weights. Extensive experimental results show that our method significantly reduces the mean point-to-surface (P2S) precision of state-of-the-art methods by more than 50% to achieve approximately 2mm accuracy with a 512 volume resolution. Additionally, images rendered from our textured model achieve a higher peak signal-to-noise ratio (PSNR) compared to state-of-the-art methods.
翻訳日:2023-07-26 18:03:09 公開日:2023-07-25
# 非平衡交換シナリオにおける熱力学的精度

Thermodynamic precision in the nonequilibrium exchange scenario ( http://arxiv.org/abs/2307.13341v1 )

ライセンス: Link先を確認
Donato Farina, Bilal Benazout, Federico Centrone, Antonio Acin(参考訳) 両キュービットをカップリングして熱浴に弱い接触で得られる2量子交絡非平衡定常状態における交換シナリオの熱力学的不確実性関係について論じる。 本研究では,熱力学サイクルの終点として絡み合った非平衡定常状態の利用について検討する。 この枠組みでは、パラダイム的ユニタリの場合、交換シナリオの熱力学的不確実性関係を構築することができることを解析的に証明する。 しかし、多くの場合、そのような関係は、他の適切なユニタリ・クエンチを考慮すると有効であることを示す。 さらに、このパラダイム的な例は、2つのキュービット間の絡み合いが正確な作業吸収に果たす役割に光を当てることができる。 分離可能な状態の集合への絡み合った定常状態の射影を考えることにより、そのような射影が相対的不確かさの増加を暗示する例を示し、絡み合いの有用性を示す。

We discuss exchange scenario's thermodynamic uncertainty relations for the work done on a two-qubit entangled nonequilibrium steady state obtained by coupling the two qubits and putting each of them in weak contact with a thermal bath. In this way we investigate the use of entangled nonequilibrium steady states as end-points of thermodynamic cycles. In this framework, we prove analytically that for a paradigmatic unitary it is possible to construct an exchange scenario's thermodynamic uncertainty relation. However, despite holding in many cases, we also show that such relation ceases to be valid when considering other suitable unitary quenches. Furthermore, this paradigmatic example allows us to shed light on the role of the entanglement between the two qubits for precise work absorption. By considering the projection of the entangled steady state onto the set of separable states, we provide examples where such projection implies an increase of the relative uncertainty, showing the usefulness of entanglement.
翻訳日:2023-07-26 17:57:10 公開日:2023-07-25
# グラデーションに基づく特徴帰属による大規模言語モデルにおける思考連鎖プロンプトの分析

Analyzing Chain-of-Thought Prompting in Large Language Models via Gradient-based Feature Attributions ( http://arxiv.org/abs/2307.13339v1 )

ライセンス: Link先を確認
Skyler Wu, Eric Meng Shen, Charumathi Badrinath, Jiaqi Ma, Himabindu Lakkaraju(参考訳) CoT(Chain-of-Thought)プロンプトは,様々な質問応答タスクにおいて,大規模言語モデル(LLM)の精度を実証的に向上することが示されている。 CoTのプロンプトが効果的である理由を理解することは、この現象が望ましいモデル行動の結果であることを確実にするために重要であるが、これに対応する作業はほとんどない。 本稿では,入力トークンがモデル出力に与える影響を捉えたサリエンシースコアを生成する,勾配に基づく特徴帰属手法を活用することで,この問題に対処する。 具体的には、CoTのプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを調査する。 以上の結果から,CoTプロンプトは標準的な数発のプロンプトに比べて意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,モデル出力の摂動や変動に疑問を呈するサリエンシスコアのロバスト性を高めることが示唆された。

Chain-of-thought (CoT) prompting has been shown to empirically improve the accuracy of large language models (LLMs) on various question answering tasks. While understanding why CoT prompting is effective is crucial to ensuring that this phenomenon is a consequence of desired model behavior, little work has addressed this; nonetheless, such an understanding is a critical prerequisite for responsible model deployment. We address this question by leveraging gradient-based feature attribution methods which produce saliency scores that capture the influence of input tokens on model output. Specifically, we probe several open-source LLMs to investigate whether CoT prompting affects the relative importances they assign to particular input tokens. Our results indicate that while CoT prompting does not increase the magnitude of saliency scores attributed to semantically relevant tokens in the prompt compared to standard few-shot prompting, it increases the robustness of saliency scores to question perturbations and variations in model output.
翻訳日:2023-07-26 17:56:53 公開日:2023-07-25
# 画像超解像ネットワークにおける分布ミスマッチの克服

Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks ( http://arxiv.org/abs/2307.13337v1 )

ライセンス: Link先を確認
Cheeun Hong and Kyoung Mu Lee(参考訳) 量子化は、画像超解像(SR)ネットワークの高計算複雑性を低減するための有望なアプローチである。 しかし、画像分類のような高レベルなタスクに比べて、低ビット量子化はSRネットワークの精度を著しく低下させる。 これは、SRネットワークの特徴分布が各チャネルや入力画像に対して著しくばらつきがあり、量子化範囲を決定することが難しいためである。 既存のsr量子化作業はこの分布ミスマッチ問題にアプローチし、テスト時間中の変種分布に量子化範囲を動的に適応させる。 しかし、そのような動的適応は量子化の利点を制限する計算コストを増大させる。 代わりに,動的適応を必要とせず,srネットワークにおける分布ミスマッチ問題を効果的に克服する,量子化認識学習フレームワークを提案する。 直感的には、トレーニング中の特徴のばらつきを直接調整することで、ミスマッチを低減できる。 しかし, 差分正規化はトレーニング中の再構成損失と衝突し, SR精度に悪影響を及ぼす可能性がある。 したがって,分散正規化の勾配と再構成の勾配が協調している場合にのみ分散を定式化することにより,2つの損失の衝突を回避する。 さらに,分散ミスマッチをさらに低減するために,チャネル毎の機能をスケールまたはシフトする大きなミスマッチを持つレイヤへの分散オフセットを導入する。 提案アルゴリズムはODMと呼ばれ,計算オーバーヘッドを最小限に抑えた分散におけるミスマッチを効果的に低減する。 実験結果から,ODMは既存のSR量子化手法を類似あるいは少ない計算で効果的に上回り,分散ミスマッチ問題の低減の重要性が示された。 私たちのコードはhttps://github.com/cheeun/odmで利用可能です。

Quantization is a promising approach to reduce the high computational complexity of image super-resolution (SR) networks. However, compared to high-level tasks like image classification, low-bit quantization leads to severe accuracy loss in SR networks. This is because feature distributions of SR networks are significantly divergent for each channel or input image, and is thus difficult to determine a quantization range. Existing SR quantization works approach this distribution mismatch problem by dynamically adapting quantization ranges to the variant distributions during test time. However, such dynamic adaptation incurs additional computational costs that limit the benefits of quantization. Instead, we propose a new quantization-aware training framework that effectively Overcomes the Distribution Mismatch problem in SR networks without the need for dynamic adaptation. Intuitively, the mismatch can be reduced by directly regularizing the variance in features during training. However, we observe that variance regularization can collide with the reconstruction loss during training and adversely impact SR accuracy. Thus, we avoid the conflict between two losses by regularizing the variance only when the gradients of variance regularization are cooperative with that of reconstruction. Additionally, to further reduce the distribution mismatch, we introduce distribution offsets to layers with a significant mismatch, which either scales or shifts channel-wise features. Our proposed algorithm, called ODM, effectively reduces the mismatch in distributions with minimal computational overhead. Experimental results show that ODM effectively outperforms existing SR quantization approaches with similar or fewer computations, demonstrating the importance of reducing the distribution mismatch problem. Our code is available at https://github.com/Cheeun/ODM.
翻訳日:2023-07-26 17:56:32 公開日:2023-07-25
# 決定木サンプリングに基づく特徴重要度測定

Feature Importance Measurement based on Decision Tree Sampling ( http://arxiv.org/abs/2307.13333v1 )

ライセンス: Link先を確認
Chao Huang, Diptesh Das, Koji Tsuda(参考訳) ランダム林は予測作業に有効であるが,木生成のランダム性は特徴重要度解析における解釈可能性を妨げる。 そこで我々は,木質モデルにおける特徴量を測定するSATベース手法DT-Samplerを提案する。 本手法はランダムフォレストよりもパラメータが少なく,実世界問題の解析に高い解釈性と安定性をもたらす。 dt-samplerの実装はhttps://github.com/tsudalab/dt-samplerで利用可能である。

Random forest is effective for prediction tasks but the randomness of tree generation hinders interpretability in feature importance analysis. To address this, we proposed DT-Sampler, a SAT-based method for measuring feature importance in tree-based model. Our method has fewer parameters than random forest and provides higher interpretability and stability for the analysis in real-world problems. An implementation of DT-Sampler is available at https://github.com/tsudalab/DT-sampler.
翻訳日:2023-07-26 17:56:05 公開日:2023-07-25
# 不特定オフポリティ値関数推定における最適近似係数

The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation ( http://arxiv.org/abs/2307.13332v1 )

ライセンス: Link先を確認
Philip Amortila, Nan Jiang, Csaba Szepesv\'ari(参考訳) 強化学習の理論的保証 (RL) は, 関数近似の誤特定誤差に関して, 乗算的爆破要因を負うことが知られている。 しかし、そのような「emph{approximation factor}」の性質(特に学習問題における最適形)は理解されていない。 本稿では,多くの疑問が残る線形オフ・ポリシー値関数推定において,この問題を考察する。 例えば、重み付けされた$L_2$-norm(重み付けはオフライン状態分布である)、$L_\infty$ norm、状態エイリアスの有無、状態空間の完全対部分カバレッジなどである。 これらすべての設定に対して最適な漸近近似係数(定数まで)を確立する。 特に、境界は、$l_2(\mu)$ノルムの2つのインスタンス依存因子と、誤って特定された場合のオフポリシー評価の困難さを規定する$l_\infty$ノルムの1つを識別する。

Theoretical guarantees in reinforcement learning (RL) are known to suffer multiplicative blow-up factors with respect to the misspecification error of function approximation. Yet, the nature of such \emph{approximation factors} -- especially their optimal form in a given learning problem -- is poorly understood. In this paper we study this question in linear off-policy value function estimation, where many open questions remain. We study the approximation factor in a broad spectrum of settings, such as with the weighted $L_2$-norm (where the weighting is the offline state distribution), the $L_\infty$ norm, the presence vs. absence of state aliasing, and full vs. partial coverage of the state space. We establish the optimal asymptotic approximation factors (up to constants) for all of these settings. In particular, our bounds identify two instance-dependent factors for the $L_2(\mu)$ norm and only one for the $L_\infty$ norm, which are shown to dictate the hardness of off-policy evaluation under misspecification.
翻訳日:2023-07-26 17:55:57 公開日:2023-07-25
# 潜時タスク表現とロボットスキル適応による自律超音波学習

Learning Autonomous Ultrasound via Latent Task Representation and Robotic Skills Adaptation ( http://arxiv.org/abs/2307.13323v1 )

ライセンス: Link先を確認
Xutian Deng, Junnan Jiang, Wen Cheng and Miao Li(参考訳) 近年医療用超音波検査が主流になりつつあるため、ロボット超音波システムはスキャンプロセスを容易にし、プロのソノグラフィーが反復的で退屈な作業を避けることができる。 近年の進歩にもかかわらず、適切なタスク表現法が欠如していることや、異なる患者にまたがる学習スキルを一般化するための適応的アプローチにより、ロボットが自律的に超音波検査を達成できることは依然として課題である。 そこで本稿では,この課題を解決するために,自律超音波の潜在タスク表現とロボットスキル適応を提案する。 オフラインの段階では, 超音波画像, プローブ方位, 接触力を考慮に入れた, 完全自己監督の枠組みにより, マルチモーダル超音波スキルを低次元確率モデルにマージし, カプセル化する。 オンライン段階では、確率モデルは最適な予測を選択して評価する。 不安定特異点に対して、適応オプティマイザはそれらを高信頼領域における近値および安定値の予測に微調整する。 実験結果から, 提案手法は, 多様な個体群に対して複雑な超音波戦略を生成でき, 従来手法よりもはるかに優れた定量的結果が得られることがわかった。

As medical ultrasound is becoming a prevailing examination approach nowadays, robotic ultrasound systems can facilitate the scanning process and prevent professional sonographers from repetitive and tedious work. Despite the recent progress, it is still a challenge to enable robots to autonomously accomplish the ultrasound examination, which is largely due to the lack of a proper task representation method, and also an adaptation approach to generalize learned skills across different patients. To solve these problems, we propose the latent task representation and the robotic skills adaptation for autonomous ultrasound in this paper. During the offline stage, the multimodal ultrasound skills are merged and encapsulated into a low-dimensional probability model through a fully self-supervised framework, which takes clinically demonstrated ultrasound images, probe orientations, and contact forces into account. During the online stage, the probability model will select and evaluate the optimal prediction. For unstable singularities, the adaptive optimizer fine-tunes them to near and stable predictions in high-confidence regions. Experimental results show that the proposed approach can generate complex ultrasound strategies for diverse populations and achieve significantly better quantitative results than our previous method.
翻訳日:2023-07-26 17:55:37 公開日:2023-07-25
# 原子アレイによる超ラジアント・サブラジアントキャビティ散乱

Super-radiant and Sub-radiant Cavity Scattering by Atom Arrays ( http://arxiv.org/abs/2307.13321v1 )

ライセンス: Link先を確認
Zhenjie Yan, Jacquelyn Ho, Yue-Hui Lu, Stuart J. Masson, Ana Asenjo-Garcia, Dan M. Stamper-Kurn(参考訳) 強く結合したFabry-P'erot光学キャビティ内に正確に位置決めされたツイーザートラップ付き$^{87}$Rb原子の配列によって散乱した光の集合的増強と抑制を実現する。 我々は、光をキャビティ軸に向けたアレイを照明し、アレーによってキャビティに散乱した光子を検出する。 整数-波長間隔を持つ配列では、低飽和状態において、各原子レイリーがほぼ同じ散乱振幅で光をキャビティに散乱させ、原子数がN = 1からN = 8に段階的に増加するにつれて、観測されたN^2$のキャビティ光子数のスケーリングをもたらす。 対照的に、半整数波長間隔の配列では、隣接する原子の散乱振幅は等しく、符号が交互である。 キャビティから放射される光の偏光を解析することにより、レイリー散乱はラマン散乱に関して一括的に増強または抑制できることがわかった。 また, 原子数と位置を変化させることで, 原子誘起シフトとキャビティ共鳴の拡幅を精密に調整できることも観察した。 さらに、決定的にロードされた原子ツイーザーアレイは、単体状態から多体状態にまたがる原子空洞QEDの精巧な制御を提供する。

We realize collective enhancement and suppression of light scattered by an array of tweezer-trapped $^{87}$Rb atoms positioned precisely within a strongly coupled Fabry-P\'erot optical cavity. We illuminate the array with light directed transverse to the cavity axis and detect photons scattered by the array into the cavity. For an array with integer-optical-wavelength spacing, in the low saturation regime, each atom Rayleigh scatters light into the cavity with nearly identical scattering amplitude, leading to an observed $N^2$ scaling of cavity photon number as the atom number increases stepwise from N = 1 to N = 8. By contrast, in an array with half-integer-wavelength spacing, the scattering amplitude for neighboring atoms is equal in magnitude but alternates in sign. Scattering from such an array yields a non-monotonic, sub-radiant cavity intensity versus N. By analyzing the polarization of light emitted from the cavity, we find that Rayleigh scattering can be collectively enhanced or suppressed with respect to Raman scattering. We observe also that atom-induced shifts and broadenings of the cavity resonance are precisely tuned by varying the atom number and positions. Altogether, deterministically loaded atom tweezer arrays provide exquisite control of atomic cavity QED spanning from the single- to the many-body regime.
翻訳日:2023-07-26 17:55:18 公開日:2023-07-25
# 量子熱電対における熱電流とノイズのコヒーレント制御

Coherent control of thermoelectric flows and noise in quantum thermocouples ( http://arxiv.org/abs/2307.13319v1 )

ライセンス: Link先を確認
Jos\'e Balduque and Rafael S\'anchez(参考訳) 3端子コヒーレント導体は、一方の端子から吸収された熱がもう一方の2つの端子で有用な電力に変換されたとき、量子熱電対として振る舞うことができる。 熱源への位相コヒーレント結合を可能にするために、量子干渉による熱電応答を制御し改善する方法を導入する。 2つの共振トンネル領域間の走査プローブからなる簡易なセットアップにより、発生電力と効率を高め、出力電流ノイズを低減し、非干渉アナログよりも優れた性能を実現する。

Three-terminal coherent conductors are able to perform as quantum thermocouples when the heat absorbed from one terminal is transformed into useful power in the other two. Allowing for a phase coherent coupling to the heat source we introduce a way to control and improve the thermoelectric response via quantum interference. A simple setup composed of a scanning probe between two resonant tunneling regions is proposed that achieves better performance than incoherent analogues by enhancing the generated power and efficiency, and reducing the output current noise.
翻訳日:2023-07-26 17:54:54 公開日:2023-07-25
# 道路シーンセグメンテーションにおけるアンマスキング異常

Unmasking Anomalies in Road-Scene Segmentation ( http://arxiv.org/abs/2307.13316v1 )

ライセンス: Link先を確認
Shyam Nandan Rai, Fabio Cermelli, Dario Fontanel, Carlo Masone, Barbara Caputo(参考訳) 異常セグメンテーションはアプリケーションを駆動する上で重要なタスクであり、伝統的にピクセル単位の分類問題としてアプローチされる。 しかし、文脈意味論を考慮せずに各ピクセルを個別に推論すると、オブジェクトの境界や多数の偽陽性に高い不確実性をもたらす。 本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 マスクベース手法であるmask2anomalyは,マスク分類アーキテクチャにおいて異常検出手法を統合する可能性を示す。 Mask2Anomalyには、マスクの異常の検出を改善するために設計されたいくつかの技術ノベルティが含まれている。 一 前景及び背景地域に個別に焦点をあてるグローバルマスク付注意モジュール 二 異常と既知のクラスの間のマージンを最大化するマスクコントラスト学習 三 偽陽性を減少させるマスク改良液。 Mask2Anomalyは、ピクセルごとの評価とコンポーネントレベルの評価の両方において、様々なベンチマークで最新の結果を達成する。 特に、Mask2Anomalyは、平均偽陽性率を前回の最先端よりも60%削減する。 Githubのページ: https://github.com/shyam671/Mask2Anomaly-Unmasking-Anomalies-in-Road-Scene-Segmentation。

Anomaly segmentation is a critical task for driving applications, and it is approached traditionally as a per-pixel classification problem. However, reasoning individually about each pixel without considering their contextual semantics results in high uncertainty around the objects' boundaries and numerous false positives. We propose a paradigm change by shifting from a per-pixel classification to a mask classification. Our mask-based method, Mask2Anomaly, demonstrates the feasibility of integrating an anomaly detection method in a mask-classification architecture. Mask2Anomaly includes several technical novelties that are designed to improve the detection of anomalies in masks: i) a global masked attention module to focus individually on the foreground and background regions; ii) a mask contrastive learning that maximizes the margin between an anomaly and known classes; and iii) a mask refinement solution to reduce false positives. Mask2Anomaly achieves new state-of-the-art results across a range of benchmarks, both in the per-pixel and component-level evaluations. In particular, Mask2Anomaly reduces the average false positives rate by 60% wrt the previous state-of-the-art. Github page: https://github.com/shyam671/Mask2Anomaly-Unmasking-Anomalies-in-Road-Scene-Segmentation.
翻訳日:2023-07-26 17:54:42 公開日:2023-07-25
# フェデレーション学習におけるクロスクライアントgansに基づく攻撃の軽減

Mitigating Cross-client GANs-based Attack in Federated Learning ( http://arxiv.org/abs/2307.13314v1 )

ライセンス: Link先を確認
Hong Huang and Xinyu Lei and Tao Xiang(参考訳) 機械学習はマルチメディアデータ(例えば画像)をより魅力的にするが、マルチメディアデータは通常分散され、プライバシーに敏感である。 複数の分散マルチメディアクライアントは、フェデレーションドラーニング(FL)を利用して、プライベートサンプルをサードパーティのエンティティと共有することなく、グローバルな共有モデルを共同で学習することができる。 本稿では,悪意のあるクライアント(すなわち,悪意のあるクライアント)が,他のクライアントからのトレーニングサンプル(すなわち被害者)と同じ分布でサンプルを再構築できる,クロスクライアント生成敵ネットワーク(gans)ベースのc-gans攻撃にflが苦しんでいることを示す。 この攻撃は、多くのセキュリティクリティカルなflアプリケーションにおいて、クライアントのローカルなデータ漏洩のリスクをもたらす。 そこで我々は,C-GAN攻撃に対する現在のFL方式を改善するために,Fed-EDKD(Federated Ensemble Data-free Knowledge Distillation)手法を提案する。 Fed-EDKDでは、各クライアントがローカルモデルをサーバに送信し、アンサンブルグローバルモデルを取得する。 次に,Fed-EDKDは,データフリーな知識蒸留技術を用いて,アンサンブルグローバルモデルから圧縮モデルへの知識伝達を行う。 このようにして、Fed-EDKDはグローバルモデルに対する敵の制御能力を低下させるので、Fed-EDKDはC-GANの攻撃を効果的に軽減できる。 実験の結果,Fed-EDKDはFLのわずかに精度が低下する一方,C-GANの攻撃を著しく軽減することが示された。

Machine learning makes multimedia data (e.g., images) more attractive, however, multimedia data is usually distributed and privacy sensitive. Multiple distributed multimedia clients can resort to federated learning (FL) to jointly learn a global shared model without requiring to share their private samples with any third-party entities. In this paper, we show that FL suffers from the cross-client generative adversarial networks (GANs)-based (C-GANs) attack, in which a malicious client (i.e., adversary) can reconstruct samples with the same distribution as the training samples from other clients (i.e., victims). Since a benign client's data can be leaked to the adversary, this attack brings the risk of local data leakage for clients in many security-critical FL applications. Thus, we propose Fed-EDKD (i.e., Federated Ensemble Data-free Knowledge Distillation) technique to improve the current popular FL schemes to resist C-GANs attack. In Fed-EDKD, each client submits a local model to the server for obtaining an ensemble global model. Then, to avoid model expansion, Fed-EDKD adopts data-free knowledge distillation techniques to transfer knowledge from the ensemble global model to a compressed model. By this way, Fed-EDKD reduces the adversary's control capability over the global model, so Fed-EDKD can effectively mitigate C-GANs attack. Finally, the experimental results demonstrate that Fed-EDKD significantly mitigates C-GANs attack while only incurring a slight accuracy degradation of FL.
翻訳日:2023-07-26 17:54:21 公開日:2023-07-25
# ダンプシンクホーンイテレーションによる二重エントロピーワッサーシュタインバリーセンタの計算保証

Computational Guarantees for Doubly Entropic Wasserstein Barycenters via Damped Sinkhorn Iterations ( http://arxiv.org/abs/2307.13370v1 )

ライセンス: Link先を確認
L\'ena\"ic Chizat, Tomas Va\v{s}kevi\v{c}ius(参考訳) 本研究では,最近導入された内外正規化強度に支配されるエントロピー的重心系である2重正規化waserstein barycentersの計算について検討した。 従来の研究では、様々な正規化パラメータの選択がエントロピーペナル化バリセンターのいくつかの概念を統一する一方で、デバイアスドバリセンターの特別な事例を含む新しい概念を明らかにしている。 本稿では,二重正規化wasserstein barycentersを計算するためのアルゴリズムを提案し,解析する。 この手順は減衰したシンクホーン反復と、正確な最大化/最小化ステップに基づいており、任意の正規化パラメータの収束を保証する。 近似モンテカルロサンプリングを用いて実装可能な本アルゴリズムの非現実的変種は,フリーサポート/グリッドフリー設定の離散点雲間におけるwasserstein barycenterを近似する最初の非漸近収束保証を提供する。

We study the computation of doubly regularized Wasserstein barycenters, a recently introduced family of entropic barycenters governed by inner and outer regularization strengths. Previous research has demonstrated that various regularization parameter choices unify several notions of entropy-penalized barycenters while also revealing new ones, including a special case of debiased barycenters. In this paper, we propose and analyze an algorithm for computing doubly regularized Wasserstein barycenters. Our procedure builds on damped Sinkhorn iterations followed by exact maximization/minimization steps and guarantees convergence for any choice of regularization parameters. An inexact variant of our algorithm, implementable using approximate Monte Carlo sampling, offers the first non-asymptotic convergence guarantees for approximating Wasserstein barycenters between discrete point clouds in the free-support/grid-free setting.
翻訳日:2023-07-26 17:45:54 公開日:2023-07-25
# kefa: ナビゲーション命令生成のための知識強化および細粒度アライメント型話者

Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for Navigation Instruction Generation ( http://arxiv.org/abs/2307.13368v1 )

ライセンス: Link先を確認
Haitian Zeng, Xiaohan Wang, Wenguan Wang, Yi Yang(参考訳) ナビゲーション命令生成のための新しい話者モデル \textsc{kefa} を提案する。 既存のVision-and-Language Navigationの話者モデルは、異なる環境間の視覚的特徴の大きな領域ギャップと時間的接地能力に悩まされている。 課題に対処するために,外部知識事実による特徴表現の強化を目的とした知識再構成モジュールと,生成した命令と観測シーケンスとの微粒なアライメントを実現する適応時間アライメント手法を提案する。 さらに,方向句の正確性を認識したナビゲーション指導評価のための新しい指標SPICE-Dを提案する。 R2RとUrbanWalkのデータセットによる実験結果から,提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現することが示された。

We introduce a novel speaker model \textsc{Kefa} for navigation instruction generation. The existing speaker models in Vision-and-Language Navigation suffer from the large domain gap of vision features between different environments and insufficient temporal grounding capability. To address the challenges, we propose a Knowledge Refinement Module to enhance the feature representation with external knowledge facts, and an Adaptive Temporal Alignment method to enforce fine-grained alignment between the generated instructions and the observation sequences. Moreover, we propose a new metric SPICE-D for navigation instruction evaluation, which is aware of the correctness of direction phrases. The experimental results on R2R and UrbanWalk datasets show that the proposed KEFA speaker achieves state-of-the-art instruction generation performance for both indoor and outdoor scenes.
翻訳日:2023-07-26 17:45:37 公開日:2023-07-25
# より長くより良いコンテキスト理解でモデルを強化する

Empower Your Model with Longer and Better Context Comprehension ( http://arxiv.org/abs/2307.13365v1 )

ライセンス: Link先を確認
Yifei Gao, Lei Wang, Jun Fang, Longhua Hu, Jun Cheng(参考訳) 近年、多数のLarge Language Models (LLM) が出現し、AIの実装は新しい時代に入った。 これらのモデルの能力と構造を無視すると、LLMは比較的小さなサイズで、より長くより複雑なコンテキストの理解を深める必要性が高まっている。 モデルはしばしば、理解能力を超えた文列を処理し、オフトピー的あるいはカオス的応答をもたらすときに上限となる。 最近のいくつかの研究は様々な方法でこの問題に対処しようとしているが、"なぜモデルが自身の能力に補償や強化ができないのか"に焦点を合わせることは滅多にない。 本稿では,LSMにおける情報伝達の性質を徹底的に検討し,注意遷移と呼ばれる新しい手法を提案する。 このテクニックはモデルに、最小限の追加のトレーニングや生成に影響を及ぼすことで、より長く、より良いコンテキスト理解を達成する権限を与えます。 実験はXSumで実施され, 生成結果と比較して大幅に改善された。

Recently, with the emergence of numerous Large Language Models (LLMs), the implementation of AI has entered a new era. Irrespective of these models' own capacity and structure, there is a growing demand for LLMs to possess enhanced comprehension of longer and more complex contexts with relatively smaller sizes. Models often encounter an upper limit when processing sequences of sentences that extend beyond their comprehension capacity and result in off-topic or even chaotic responses. While several recent works attempt to address this issue in various ways, they rarely focus on "why models are unable to compensate or strengthen their capabilities on their own". In this paper, we thoroughly investigate the nature of information transfer within LLMs and propose a novel technique called Attention Transition. This technique empowers models to achieve longer and better context comprehension with minimal additional training or impact on generation fluency. Our experiments are conducted in XSum and achieve substantial improvement compared with the original generation results.
翻訳日:2023-07-26 17:45:24 公開日:2023-07-25
# 3drp-net:3次元相対位置認識ネットワーク

3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding ( http://arxiv.org/abs/2307.13363v1 )

ライセンス: Link先を確認
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao(参考訳) 3dビジュアルグラウンドは、フリーフォーム言語記述によってターゲットオブジェクトを3dポイントクラウドにローカライズすることを目的としている。 通常、対象オブジェクトを記述する文は、他のオブジェクト間の相対的関係とシーン全体の位置に関する情報を提供する傾向にある。 本研究では,オブジェクト間の相対的空間的関係を効果的に捉え,オブジェクト属性を高める3次元相対位置認識ネットワーク(3drp-net)を提案する。 具体的には 1) 3次元相対的位置多頭部注意(DRP-MA)モジュールをオブジェクトペアの文脈で異なる方向から相対関係を解析し,文中の特定のオブジェクト関係に焦点を合わせるのに役立つ。 2) 冗長点に起因する空間的曖昧さを緩和するソフトラベル戦略を考案し, 一定かつ判別的な分布を通じて学習プロセスをさらに安定化し, 強化する。 3つのベンチマーク(scanrefer と nr3d/sr3d)で行った広範囲な実験によって、この手法が最先端のメソッド全般よりも優れていることが示されている。 ソースコードはgithubで公開されている。

3D visual grounding aims to localize the target object in a 3D point cloud by a free-form language description. Typically, the sentences describing the target object tend to provide information about its relative relation between other objects and its position within the whole scene. In this work, we propose a relation-aware one-stage framework, named 3D Relative Position-aware Network (3DRP-Net), which can effectively capture the relative spatial relationships between objects and enhance object attributes. Specifically, 1) we propose a 3D Relative Position Multi-head Attention (3DRP-MA) module to analyze relative relations from different directions in the context of object pairs, which helps the model to focus on the specific object relations mentioned in the sentence. 2) We designed a soft-labeling strategy to alleviate the spatial ambiguity caused by redundant points, which further stabilizes and enhances the learning process through a constant and discriminative distribution. Extensive experiments conducted on three benchmarks (i.e., ScanRefer and Nr3D/Sr3D) demonstrate that our method outperforms all the state-of-the-art methods in general. The source code will be released on GitHub.
翻訳日:2023-07-26 17:45:09 公開日:2023-07-25
# マウスとポーズ:ラベルなしデータと合成前駆データから2dマウスポーズ推定

Of Mice and Pose: 2D Mouse Pose Estimation from Unlabelled Data and Synthetic Prior ( http://arxiv.org/abs/2307.13361v1 )

ライセンス: Link先を確認
Jose Sosa, Sharn Perry, Jane Alty, and David Hogg(参考訳) 生態学、生物学、神経科学など多くの分野において、動物の行動の追跡と測定に動物記録を用いる。 時間が経つにつれて、このような膨大な量のデータが生成されてきたが、一部のコンピュータビジョン技術ではアノテーションの欠如により探索できない。 そこで本研究では, 合成した経験的ポーズを用いて, ラベルなし画像から2dマウスのポーズを推定する手法を提案する。 提案手法は,GANフレームワーク内において,単一の画像と不対の典型的な2次元ポーズのセットを用いて2次元ポーズを推定する。 本手法はマウスの肢構造に適応し, 合成3次元マウスモデルから2次元ポーズの経験的先行を生成できるので, 手動アノテーションを回避できる。 新しいマウスビデオデータセットの実験では,ポーズ予測を手作業で得られた真実と比較することにより,提案手法の性能を評価する。 また,動物のポーズ推定のための教師付き最先端手法と予測を比較した。 後者の評価は、ペアデータがないにもかかわらず有望な結果を示す。 最後に、馬の画像のデータセットを用いた定性的な結果は、設定が他の動物種に適応する可能性を示している。

Numerous fields, such as ecology, biology, and neuroscience, use animal recordings to track and measure animal behaviour. Over time, a significant volume of such data has been produced, but some computer vision techniques cannot explore it due to the lack of annotations. To address this, we propose an approach for estimating 2D mouse body pose from unlabelled images using a synthetically generated empirical pose prior. Our proposal is based on a recent self-supervised method for estimating 2D human pose that uses single images and a set of unpaired typical 2D poses within a GAN framework. We adapt this method to the limb structure of the mouse and generate the empirical prior of 2D poses from a synthetic 3D mouse model, thereby avoiding manual annotation. In experiments on a new mouse video dataset, we evaluate the performance of the approach by comparing pose predictions to a manually obtained ground truth. We also compare predictions with those from a supervised state-of-the-art method for animal pose estimation. The latter evaluation indicates promising results despite the lack of paired training data. Finally, qualitative results using a dataset of horse images show the potential of the setting to adapt to other animal species.
翻訳日:2023-07-26 17:44:46 公開日:2023-07-25
# 任意の数のビザンチン攻撃を伴う高次元分布勾配降下

High Dimensional Distributed Gradient Descent with Arbitrary Number of Byzantine Attackers ( http://arxiv.org/abs/2307.13352v1 )

ライセンス: Link先を確認
Puning Zhao, Zhiguo Wan(参考訳) ビザンツの失敗によるロバストな分散学習は近年、広範な研究の関心を集めている。 しかし、既存の手法の多くは次元の呪いに苦しめられているため、現代の機械学習モデルの複雑さが増している。 本稿では,任意の数のビザンチン攻撃者に対して,高次元問題に適した新しい手法を提案する。 設計の核心は直接的な高次元半検証平均推定法である。 私たちのアイデアは、まずサブスペースを特定することです。 この部分空間に垂直な平均値の成分はワーカーマシンからアップロードされた勾配ベクトルによって推定できるが、この部分空間内の成分は補助データセットを用いて推定される。 次に,分散学習問題の集約として,新しい手法を用いる。 理論解析により,本手法は最小最適統計率を有することが示された。 特に、従来の作品に比べて寸法依存性は著しく改善されている。

Robust distributed learning with Byzantine failures has attracted extensive research interests in recent years. However, most of existing methods suffer from curse of dimensionality, which is increasingly serious with the growing complexity of modern machine learning models. In this paper, we design a new method that is suitable for high dimensional problems, under arbitrary number of Byzantine attackers. The core of our design is a direct high dimensional semi-verified mean estimation method. Our idea is to identify a subspace first. The components of mean value perpendicular to this subspace can be estimated via gradient vectors uploaded from worker machines, while the components within this subspace are estimated using auxiliary dataset. We then use our new method as the aggregator of distributed learning problems. Our theoretical analysis shows that the new method has minimax optimal statistical rates. In particular, the dependence on dimensionality is significantly improved compared with previous works.
翻訳日:2023-07-26 17:44:26 公開日:2023-07-25
# 単一ナノダイヤモンドセンサを用いたその場電子常磁性共鳴分光

In situ electron paramagnetic resonance spectroscopy using single nanodiamond sensors ( http://arxiv.org/abs/2307.13349v1 )

ライセンス: Link先を確認
Zhuoyang Qin, Zhecheng Wang, Fei Kong, Jia Su, Zhehua Huang, Pengju Zhao, Sanyou Chen, Qi Zhang, Fazhan Shi, Jiangfeng Du(参考訳) 電子常磁性共鳴(EPR)分光の最終的な目標は、生きた細胞のようなそこで起こる分子動力学を分析することである。 窒素空洞(NV)センターをホストするナノダイヤモンド(ND)は、この目標を達成するための有望なEPRセンサーとなる。 しかし、フレキシブルなND内部の配向を適切に定義せずにNV中心を制御することの難しさから、NDベースのEPR分光法はいまだ解明されていない。 ここでは、センサの向きに頑健なスペクトルを持つ一般化ゼロフィールドEPR手法を示す。 鍵は、エネルギー分割が方向非依存な変調周波数である一連の等値フロッケ状態を生成する制御フィールドに振幅変調を適用することである。 我々は,水性グリセロール溶液中のバナジルイオンのゼロフィールドEPRスペクトルを単一のNDで取得し,emph{in vivo} EPRへの道を開いた。

An ultimate goal of electron paramagnetic resonance (EPR) spectroscopy is to analyze molecular dynamics in place where it occurs, such as in a living cell. The nanodiamond (ND) hosting nitrogen-vacancy (NV) centers will be a promising EPR sensor to achieve this goal. However, ND-based EPR spectroscopy remains elusive, due to the challenge of controlling NV centers without well-defined orientations inside a flexible ND. Here, we show a generalized zero-field EPR technique with spectra robust to the sensor's orientation. The key is applying an amplitude modulation on the control field, which generates a series of equidistant Floquet states with energy splitting being the orientation-independent modulation frequency. We acquire the zero-field EPR spectrum of vanadyl ions in aqueous glycerol solution with embedded single NDs, paving the way towards \emph{in vivo} EPR.
翻訳日:2023-07-26 17:44:15 公開日:2023-07-25
# gaussian bosonサンプリングによるクラスタリングの促進 - 完全な量子アプローチ

Boost clustering with Gaussian Boson Sampling: a full quantum approach ( http://arxiv.org/abs/2307.13348v1 )

ライセンス: Link先を確認
Nicol\`o Bonaldi, Martina Rossi, Daniele Mattioli, Michele Grapulin, Blanca Silva Fern\'andez, Davide Caputo, Marco Magagnini, Arianna Osti, and Fabio Veronese(参考訳) ガウスボソンサンプリング(英: Gaussian Boson Sampling、GBS)は、近年開発された量子コンピューティングのパラダイムであり、線形干渉計を通してガウス状態を送り、各出力モードで光子の数を数える。 システムが対称行列を符号化する場合、GBSはサブグラフをサンプリングするためのツールとして見ることができ、最も多くサンプリングされたものは多数の完全マッチングを持つものである。 この特性は,従来のアルゴリズムを必要とせず,GBSのみに依存するGBSベースのクラスタリングという,我々が本研究で提案する新たなクラスタリング手法の基盤となっている。 GBSベースのクラスタリングは、いくつかのデータセットでテストされ、2つの有名な古典的なクラスタリングアルゴリズムでベンチマークされている。 GBSシミュレーターを用いて得られた結果から,提案手法は3つの指標のうち2つにおいて2つの古典的アルゴリズムよりも優れており,本手法をフル量子クラスタリングオプションとして提案している。

Gaussian Boson Sampling (GBS) is a recently developed paradigm of quantum computing consisting of sending a Gaussian state through a linear interferometer and then counting the number of photons in each output mode. When the system encodes a symmetric matrix, GBS can be viewed as a tool to sample subgraphs: the most sampled are those with a large number of perfect matchings, and thus are the densest ones. This property has been the foundation of the novel clustering approach we propose in this work, called GBS-based clustering, which relies solely on GBS, without the need of classical algorithms. The GBS-based clustering has been tested on several datasets and benchmarked with two well-known classical clustering algorithms. Results obtained by using a GBS simulator show that on average our approach outperforms the two classical algorithms in two out of the three chosen metrics, proposing itself as a viable full-quantum clustering option.
翻訳日:2023-07-26 17:44:01 公開日:2023-07-25
# 人間と畳み込みニューラルネットワークはシーン分類中に類似した領域に出席する:タスクとイメージタイプの影響

Do humans and Convolutional Neural Networks attend to similar areas during scene classification: Effects of task and image type ( http://arxiv.org/abs/2307.13345v1 )

ライセンス: Link先を確認
Romy M\"uller, Marcel Duerschmidt, Julian Ullrich, Carsten Knoll, Sascha Weber, Steffen Seitz(参考訳) convolutional neural networks(cnn)のようなディープラーニングモデルは強力なイメージ分類器だが、人間と同様のイメージ領域に順応するかどうかを決定する要因は何だろう? これまでの研究は技術的要因に焦点を当ててきたが、人間の注意に影響する要因についてはほとんど知られていない。 本研究では,人間とCNNの類似性を調節するために,人間の注意マップを抽出するタスクが画像特性とどのように相互作用するかを検討した。 人間の課題の意図は,カテゴリー分け中の自然視から,手動領域の選択まで様々であった。 さらに,分類対象のタイプは,特徴的,健全なオブジェクト,オブジェクト配置からなる屋内シーン,あるいはそのカテゴリを定義しないランドスケープのいずれかを用いて変化した。 このような人間の注意マップは、説明可能な人工知能(Grad-CAM)によって明らかにされたCNNの注意マップと比較された。 人間の作業の影響は画像タイプに強く依存しており、オブジェクトに対して、人間の手作業による選択はcnnと最もよく似た地図を作成したが、特定の眼球運動タスクは影響が少ない。 室内の場面では自発的な視線がほとんど似ていないが、風景では全ての作業において類似度が同じほど低かった。 これらの結果をよりよく理解するために、異なる人間の注意マップを互いに比較した。 本研究は,人間とcnnの注目度を比較する際に,人間的要因を考慮に入れることの重要性を強調する。

Deep Learning models like Convolutional Neural Networks (CNN) are powerful image classifiers, but what factors determine whether they attend to similar image areas as humans do? While previous studies have focused on technological factors, little is known about the role of factors that affect human attention. In the present study, we investigated how the tasks used to elicit human attention maps interact with image characteristics in modulating the similarity between humans and CNN. We varied the intentionality of human tasks, ranging from spontaneous gaze during categorization over intentional gaze-pointing up to manual area selection. Moreover, we varied the type of image to be categorized, using either singular, salient objects, indoor scenes consisting of object arrangements, or landscapes without distinct objects defining the category. The human attention maps generated in this way were compared to the CNN attention maps revealed by explainable artificial intelligence (Grad-CAM). The influence of human tasks strongly depended on image type: For objects, human manual selection produced maps that were most similar to CNN, while the specific eye movement task has little impact. For indoor scenes, spontaneous gaze produced the least similarity, while for landscapes, similarity was equally low across all human tasks. To better understand these results, we also compared the different human attention maps to each other. Our results highlight the importance of taking human factors into account when comparing the attention of humans and CNN.
翻訳日:2023-07-26 17:43:42 公開日:2023-07-25
# シングルオンボードカメラ画像からのオンラインレーングラフの事前抽出

Prior Based Online Lane Graph Extraction from Single Onboard Camera Image ( http://arxiv.org/abs/2307.13344v1 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) ローカル道路網情報は自律ナビゲーションに不可欠である。 この情報は、オフラインのHD-Mapsからレーングラフで得られるのが一般的である。 しかし、ある時点での地方道路網は、建設工事や事故などにより、オフライン地図のものとは大きく異なる場合がある。 さらに、自動運転車はオフラインのhdマップに覆われていない場所にあるかもしれない。 したがって、レーングラフのオンライン推定は、広範囲で信頼性の高い自律ナビゲーションに不可欠である。 そこで本研究では,1枚のカメラ画像から鳥眼レーングラフのオンライン抽出に取り組んだ。 我々は,事前情報を用いて推定の質を高めることを提案する。 前者は、トランスフォーマーベースのWasserstein Autoencoderを通じてデータセットから抽出される。 オートエンコーダは、最初のレーングラフ推定を強化するために使用される。 これは潜在空間ベクトルの最適化によって行われる。 この最適化はレーングラフ推定を論理的に促進し、それ以前の分布から分岐することを阻止する。 この手法をNuScenesとArgoverseの2つのベンチマークデータセットで検証する。 その結果,提案手法は最先端手法に比べて性能が著しく向上することがわかった。

The local road network information is essential for autonomous navigation. This information is commonly obtained from offline HD-Maps in terms of lane graphs. However, the local road network at a given moment can be drastically different than the one given in the offline maps; due to construction works, accidents etc. Moreover, the autonomous vehicle might be at a location not covered in the offline HD-Map. Thus, online estimation of the lane graph is crucial for widespread and reliable autonomous navigation. In this work, we tackle online Bird's-Eye-View lane graph extraction from a single onboard camera image. We propose to use prior information to increase quality of the estimations. The prior is extracted from the dataset through a transformer based Wasserstein Autoencoder. The autoencoder is then used to enhance the initial lane graph estimates. This is done through optimization of the latent space vector. The optimization encourages the lane graph estimation to be logical by discouraging it to diverge from the prior distribution. We test the method on two benchmark datasets, NuScenes and Argoverse. The results show that the proposed method significantly improves the performance compared to state-of-the-art methods.
翻訳日:2023-07-26 17:43:18 公開日:2023-07-25
# 近接誘起dzyaloshinskii moriya相互作用によるmps3(m = mn, fe, ni)の磁気特性のチューニング

Tuning the magnetic properties in MPS3 (M = Mn, Fe, and Ni) by proximity-induced Dzyaloshinskii Moriya interactions ( http://arxiv.org/abs/2307.13400v1 )

ライセンス: Link先を確認
Suvodeep Paul, Devesh Negi, Saswata Talukdar, Saheb Karak, Shalini Badola, Bommareddy Poojitha, Manasi Mandal, Sourav Marik, R. P. Singh, Nashra Pistawala, Luminita Harnagea, Aksa Thomas, Ajay Soni, Subhro Bhattacharjee, and Surajit Saha(参考訳) 層状材料における量子多体相互作用を適切なヘテロ構造工学によって調整すると、構成材料に欠落する創発的な性質が生じ、将来的な応用が期待できる。 本稿では,遷移金属リン三硫化物(mn/fe/nips3)の異種構造における強固な磁気特性の制御を,二層膜の界面におけるdzyaloshinskii moriya(dm)相互作用に起因するweyl半金属mote2とのヘテロ構造を用いて行った。 dm相互作用はスピン軌道結合(soc)の強さとともにスケールすることが知られているが、dm相互作用の効果は磁気層のスピン配向/寸法とスピン軌道結合層の状態の低エネルギー電子密度によって強く変化する。 これらの観測は、可変SOCと状態の電子密度をホストする様々な基板/下層を持つヘテロ構造に関する一連の実験によってさらに支持される。

Tailoring the quantum many-body interactions in layered materials through appropriate heterostructure engineering can result in emergent properties that are absent in the constituent materials thus promising potential future applications. In this article, we have demonstrated controlling the otherwise robust magnetic properties of transition metal phosphorus trisulphides (Mn/Fe/NiPS3) in their heterostructures with Weyl semimetallic MoTe2 which can be attributed to the Dzyaloshinskii Moriya (DM) interactions at the interface of the two different layered materials. While the DM interaction is known to scale with the strength of the spin-orbit coupling (SOC), we also demonstrate here that the effect of DM interaction strongly varies with the spin orientation/dimensionality of the magnetic layer and the low-energy electronic density of state of the spin-orbit coupled layer. The observations are further supported by a series of experiments on heterostructures with a variety of substrates/underlayers hosting variable SOC and electronic density of states.
翻訳日:2023-07-26 17:38:15 公開日:2023-07-25
# Pairwise Image Comparisons を用いた安全を考慮したスコーリングサイクル環境

Scoring Cycling Environments Perceived Safety using Pairwise Image Comparisons ( http://arxiv.org/abs/2307.13397v1 )

ライセンス: Link先を確認
Miguel Costa, Manuel Marques, Felix Wilhelm Siebert, Carlos Lima Azevedo, Filipe Moura(参考訳) 今日、多くの都市はより持続可能な交通システムへの転換を目指している。 この移行は、トランジットへの1マイルとラストマイルのリンクを含む、短い旅行のために重要である。 しかし、サイクリングを安全でないと認識すれば、他の交通手段は選ばない。 本研究では, サイクリング安全の認識がどのように分析され, 理解され, 構築された環境やサイクリングコンテキストがこれらの知覚に与える影響を明らかにするための新しいアプローチを提案する。 私たちは、現実世界の画像を用いて、他の知覚研究やペア比較に基づいて、回答者を調査します。 繰り返し、回答者に2つの道路環境を示し、サイクリングにとってより安全なものを選ぶよう依頼する。 我々は,自転車環境をペア比較から評価し,安全・安全と認識される自転車環境を分類するいくつかの手法を比較した。 都市計画はこのスコアを利用して介入の有効性を高め、サイクリング促進キャンペーンを改善することができる。 さらに、このアプローチは、サイクリング環境の変化を継続的に評価し、測定の短期的評価を可能にし、異なる場所や状況に効率的に展開する。

Today, many cities seek to transition to more sustainable transportation systems. Cycling is critical in this transition for shorter trips, including first-and-last-mile links to transit. Yet, if individuals perceive cycling as unsafe, they will not cycle and choose other transportation modes. This study presents a novel approach to identifying how the perception of cycling safety can be analyzed and understood and the impact of the built environment and cycling contexts on such perceptions. We base our work on other perception studies and pairwise comparisons, using real-world images to survey respondents. We repeatedly show respondents two road environments and ask them to select the one they perceive as safer for cycling. We compare several methods capable of rating cycling environments from pairwise comparisons and classify cycling environments perceived as safe or unsafe. Urban planning can use this score to improve interventions' effectiveness and improve cycling promotion campaigns. Furthermore, this approach facilitates the continuous assessment of changing cycling environments, allows for a short-term evaluation of measures, and is efficiently deployed in different locations or contexts.
翻訳日:2023-07-26 17:37:57 公開日:2023-07-25
# ガウス混合分布潜在空間における探索による反事実説明

Counterfactual Explanation via Search in Gaussian Mixture Distributed Latent Space ( http://arxiv.org/abs/2307.13390v1 )

ライセンス: Link先を確認
Xuan Zhao, Klaus Broelemann, Gjergji Kasneci(参考訳) 対実説明(CE)はアルゴリズム・リコースにおいて重要なツールである。 1. 自動予測/決定に繋がった重要な要因は何ですか? 2. ユーザの視点からより好ましい結果を得るために、これらの要因をどのように変えることができるか。 したがって、AIシステムの信頼性の高い採用と長期的な受け入れには、理解し易い説明と到達し易い変更を提案することによって、AIシステムとのユーザのインタラクションを導くことが不可欠である。 文献では,CEを生成するための様々な手法が提案されており,これらの手法を評価するための異なる品質対策が提案されている。 しかし、CEの生成は通常計算コストが高く、結果として提案される提案は非現実的であり、従って非現実的である。 本稿では,まず,自動エンコーダの潜伏空間をガウス分布の混合として形成することにより,事前学習されたバイナリ分類器のCEを生成する手法を提案する。 次にcesは、クエリサンプルとターゲットクラスのセンタロイドの間の線形補間によって潜在空間で生成される。 本手法は,反事実探索中に入力サンプルの特性を維持していることを示す。 様々な実験において,提案手法は,画像と表データ集合の異なる品質尺度に基づいて競争的であることを示し,現実の高次元機械学習応用に必須な3つの最先端手法と比較して,元のデータ多様体に近い結果が効率的に返されることを示した。

Counterfactual Explanations (CEs) are an important tool in Algorithmic Recourse for addressing two questions: 1. What are the crucial factors that led to an automated prediction/decision? 2. How can these factors be changed to achieve a more favorable outcome from a user's perspective? Thus, guiding the user's interaction with AI systems by proposing easy-to-understand explanations and easy-to-attain feasible changes is essential for the trustworthy adoption and long-term acceptance of AI systems. In the literature, various methods have been proposed to generate CEs, and different quality measures have been suggested to evaluate these methods. However, the generation of CEs is usually computationally expensive, and the resulting suggestions are unrealistic and thus non-actionable. In this paper, we introduce a new method to generate CEs for a pre-trained binary classifier by first shaping the latent space of an autoencoder to be a mixture of Gaussian distributions. CEs are then generated in latent space by linear interpolation between the query sample and the centroid of the target class. We show that our method maintains the characteristics of the input sample during the counterfactual search. In various experiments, we show that the proposed method is competitive based on different quality measures on image and tabular datasets -- efficiently returns results that are closer to the original data manifold compared to three state-of-the-art methods, which are essential for realistic high-dimensional machine learning applications.
翻訳日:2023-07-26 17:37:38 公開日:2023-07-25
# BotHawk: オープンソースのソフトウェアプロジェクトにおけるボット検出のアプローチ

BotHawk: An Approach for Bots Detection in Open Source Software Projects ( http://arxiv.org/abs/2307.13386v1 )

ライセンス: Link先を確認
Fenglin Bi, Zhiwei Zhu, Wei Wang, Xiaoya Xia, Hassan Ali Khan, Peng Pu(参考訳) ソーシャルコーディングプラットフォームは、ソフトウェア開発におけるコラボレーションに革命をもたらし、作業の合理化にソフトウェアボットを使用している。 しかし、オープンソースのソフトウェア(OSS)ボットの存在は、偽造、スパム、偏見、セキュリティリスクなどの問題を引き起こす。 ボットアカウントと振る舞いの特定はOSSプロジェクトでは難しい作業です。 本研究は,オープンソースソフトウェアにおけるボットの挙動を調査し,ボットアカウントを最大精度で識別することを目的とする。 当社のチームは19,779のアカウントのデータセットを収集し、標準化基準を満たして、オープンソースプロジェクトにおけるボットの将来的な研究を可能にしました。 収集したデータが正確で、一般化可能で、スケーラブルで、最新であることを保証するための厳格なワークフローに従います。 オープンソースソフトウェアプロジェクトでは、17の機能を5次元で分析することで4種類のボットアカウントを特定しました。 私たちのチームはBotHawkという,オープンソースのソフトウェアプロジェクトのボットを検出するための,極めて効果的なモデルを開発しました。 他のモデルより優れており、AUCは0.947、F1スコアは0.89である。 BotHawkは、CI/CDやスキャンボットなど、幅広い種類のボットを検出できる。 さらに、フォロワー数、リポジトリ数、タグがアカウントタイプを識別するための最も関連する機能を含んでいることも分かりました。

Social coding platforms have revolutionized collaboration in software development, leading to using software bots for streamlining operations. However, The presence of open-source software (OSS) bots gives rise to problems including impersonation, spamming, bias, and security risks. Identifying bot accounts and behavior is a challenging task in the OSS project. This research aims to investigate bots' behavior in open-source software projects and identify bot accounts with maximum possible accuracy. Our team gathered a dataset of 19,779 accounts that meet standardized criteria to enable future research on bots in open-source projects. We follow a rigorous workflow to ensure that the data we collect is accurate, generalizable, scalable, and up-to-date. We've identified four types of bot accounts in open-source software projects by analyzing their behavior across 17 features in 5 dimensions. Our team created BotHawk, a highly effective model for detecting bots in open-source software projects. It outperforms other models, achieving an AUC of 0.947 and an F1-score of 0.89. BotHawk can detect a wider variety of bots, including CI/CD and scanning bots. Furthermore, we find that the number of followers, number of repositories, and tags contain the most relevant features to identify the account type.
翻訳日:2023-07-26 17:37:15 公開日:2023-07-25
# 実行せずにコードカバレッジを予測する

Predicting Code Coverage without Execution ( http://arxiv.org/abs/2307.13383v1 )

ライセンス: Link先を確認
Michele Tufano, Shubham Chandel, Anisha Agarwal, Neel Sundaresan, Colin Clement(参考訳) コードカバレッジは、テスト中にステートメントやブランチなどのプログラム要素が実行される範囲を定量化するために広く使用されるメトリクスである。 コードカバレッジの計算はリソース集約的であり、計測には追加のオーバーヘッドを伴うコードの構築と実行が必要となる。 さらに、コードスニペットの計算カバレッジには、プログラム全体のコンテキストが必要である。 機械学習を使ってこの高価なプロセスを償却することで、ソースコードのコンテキストのみを必要とすることで、コードカバレッジのコストを下げることができ、コードカバレッジ予測のタスクは、コードを理解するモデルの能力を評価するための新しいベンチマークになり得る。 本稿では,Large Language Models (LLM) のためのコードカバレッジ予測という新しいベンチマークタスクを提案する。 このタスクを形式化し、与えられたテストケースと入力によってメソッドのどの行が実行されるかを決定することで、コード実行のLLMの能力を評価する。 我々は、HumanEvalデータセットからテストとコードを実行し、コードカバレッジ情報を収集することで、COVERAGEEVALと呼ぶデータセットをキュレートしてリリースします。 コードカバレッジ予測タスクにおいて,OpenAI の GPT-4 と GPT-3.5-Turbo,Google の BARD と Anthropic の Claude を含む,コード関連タスクに使用されている4つの最先端 LLM の性能を報告する。 最後に、メトリクスおよび事前学習データソースとしてのコードカバレッジは、ソフトウェアエンジニアリングタスクにおけるLLMの全体的なパフォーマンスに価値があると論じる。

Code coverage is a widely used metric for quantifying the extent to which program elements, such as statements or branches, are executed during testing. Calculating code coverage is resource-intensive, requiring code building and execution with additional overhead for the instrumentation. Furthermore, computing coverage of any snippet of code requires the whole program context. Using Machine Learning to amortize this expensive process could lower the cost of code coverage by requiring only the source code context, and the task of code coverage prediction can be a novel benchmark for judging the ability of models to understand code. We propose a novel benchmark task called Code Coverage Prediction for Large Language Models (LLMs). We formalize this task to evaluate the capability of LLMs in understanding code execution by determining which lines of a method are executed by a given test case and inputs. We curate and release a dataset we call COVERAGEEVAL by executing tests and code from the HumanEval dataset and collecting code coverage information. We report the performance of four state-of-the-art LLMs used for code-related tasks, including OpenAI's GPT-4 and GPT-3.5-Turbo, Google's BARD, and Anthropic's Claude, on the Code Coverage Prediction task. Finally, we argue that code coverage as a metric and pre-training data source are valuable for overall LLM performance on software engineering tasks.
翻訳日:2023-07-26 17:36:58 公開日:2023-07-25
# Scaff-PD:コミュニケーション効率の良いフェアとロバストなフェデレーションラーニング

Scaff-PD: Communication Efficient Fair and Robust Federated Learning ( http://arxiv.org/abs/2307.13381v1 )

ライセンス: Link先を確認
Yaodong Yu and Sai Praneeth Karimireddy and Yi Ma and Michael I. Jordan(参考訳) 分散的堅牢なフェデレーション学習のための高速かつ通信効率の高いアルゴリズムであるScaff-PDを提案する。 本手法は,異種クライアントに適応した分散的ロバストな目標群を最適化することで公平性を向上させる。 我々は,これらの目的の特殊構造を活用し,通信効率と収束速度の大幅な向上を達成するために,バイアス補正された局所ステップ(足場など)を用いたapdアルゴリズムを設計した。 我々は,いくつかのベンチマークデータセット上でScaff-PDを評価し,競争精度を維持しつつ,公平性と堅牢性を向上する効果を実証した。 以上の結果から,scaff-pdは資源制約および不均質環境における連合学習に有望なアプローチであることが示唆された。

We present Scaff-PD, a fast and communication-efficient algorithm for distributionally robust federated learning. Our approach improves fairness by optimizing a family of distributionally robust objectives tailored to heterogeneous clients. We leverage the special structure of these objectives, and design an accelerated primal dual (APD) algorithm which uses bias corrected local steps (as in Scaffold) to achieve significant gains in communication efficiency and convergence speed. We evaluate Scaff-PD on several benchmark datasets and demonstrate its effectiveness in improving fairness and robustness while maintaining competitive accuracy. Our results suggest that Scaff-PD is a promising approach for federated learning in resource-constrained and heterogeneous settings.
翻訳日:2023-07-26 17:36:28 公開日:2023-07-25
# 科学認定における名前付きエンティティの自動抽出と分類のための埋め込みモデル

Embedding Models for Supervised Automatic Extraction and Classification of Named Entities in Scientific Acknowledgements ( http://arxiv.org/abs/2307.13377v1 )

ライセンス: Link先を確認
Nina Smirnova and Philipp Mayr(参考訳) 科学論文の認定は、報酬システム、コラボレーションパターン、隠れた研究動向など、科学コミュニティの側面に関する洞察を与えるかもしれない。 本研究の目的は,科学論文における認識テキストから認識された実体の自動抽出と分類のタスクにおいて,異なる埋め込みモデルの性能を評価することである。 我々はFrair NLPフレームワークを用いて、名前付きエンティティ認識(NER)タスクを訓練、実装した。 トレーニングは、Frair NERの3つのデフォルトモデルと4つの異なるサイズのコーパスと異なるバージョンのFlair NLPフレームワークを使用して実施された。 フラワー・エンベディングス・モデルは、最新のFLAIRバージョンで中型コーパスで訓練され、0.79の精度を示した。 トレーニングコーパスのサイズを極小から中小に拡大すると、全てのトレーニングアルゴリズムの精度が大幅に向上するが、トレーニングコーパスのさらなる拡張は改善には至らなかった。 さらに,モデルの性能はわずかに低下した。 我々のモデルは、資金提供機関、認可番号、個人、大学、企業、雑多な6つのエンティティタイプを認識できる。 モデルは、他のものよりもより正確に機能するので、個人と付与された数値は、0.9以上で非常に良いF1スコアを示した。 先行研究の多くは手動によるデータ評価や処理データの量によって制限されていた。 このモデルは、認識テキストの包括的分析に応用することができ、自動認識分析の分野に大きな貢献をする可能性がある。

Acknowledgments in scientific papers may give an insight into aspects of the scientific community, such as reward systems, collaboration patterns, and hidden research trends. The aim of the paper is to evaluate the performance of different embedding models for the task of automatic extraction and classification of acknowledged entities from the acknowledgment text in scientific papers. We trained and implemented a named entity recognition (NER) task using the Flair NLP framework. The training was conducted using three default Flair NER models with four differently-sized corpora and different versions of the Flair NLP framework. The Flair Embeddings model trained on the medium corpus with the latest FLAIR version showed the best accuracy of 0.79. Expanding the size of a training corpus from very small to medium size massively increased the accuracy of all training algorithms, but further expansion of the training corpus did not bring further improvement. Moreover, the performance of the model slightly deteriorated. Our model is able to recognize six entity types: funding agency, grant number, individuals, university, corporation, and miscellaneous. The model works more precisely for some entity types than for others; thus, individuals and grant numbers showed a very good F1-Score over 0.9. Most of the previous works on acknowledgment analysis were limited by the manual evaluation of data and therefore by the amount of processed data. This model can be applied for the comprehensive analysis of acknowledgment texts and may potentially make a great contribution to the field of automated acknowledgment analysis.
翻訳日:2023-07-26 17:36:06 公開日:2023-07-25
# 解剖分類の統一に向けて:知識集約と解剖ガイドラインによる全身CTデータセットの自動生成

Towards Unifying Anatomy Segmentation: Automated Generation of a Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines ( http://arxiv.org/abs/2307.13375v1 )

ライセンス: Link先を確認
Alexander Jaus, Constantin Seibold, Kelsey Hermann, Alexandra Walter, Kristina Giske, Johannes Haubold, Jens Kleesiek, Rainer Stiefelhagen(参考訳) 本研究では,nnu-netに基づく擬似ラベル処理と解剖ガイド付き擬似ラベル改良を含むシーケンシャルプロセスを用いて,自動的に解剖学的セグメント化データセットを生成する手法を提案する。 様々な断片化された知識ベースを組み合わせることで、専門家が承認した包括的な解剖学的カバレッジを提供する533巻のボクセルレベルラベルを含む全身ctスキャンのデータセットを生成する。 提案手法はラベル集約段階において手作業によるアノテーションに依存しない。 データセットを承認した人間エキスパート評価,トレーニングデータセットを使用せずに85%のdiceスコアを達成したbtcvデータセットのディープラーニングの有用性ベンチマーク,医学的妥当性チェックの3つの補完的チェックを用いて,その信頼性と有用性について検討した。 この評価手法は、スケーラブルな自動チェックと労働集約的な高品質なエキスパートチェックを組み合わせる。 データセットの他に,CTデータ上に142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルもリリースした。

In this study, we present a method for generating automated anatomy segmentation datasets using a sequential process that involves nnU-Net-based pseudo-labeling and anatomy-guided pseudo-label refinement. By combining various fragmented knowledge bases, we generate a dataset of whole-body CT scans with $142$ voxel-level labels for 533 volumes providing comprehensive anatomical coverage which experts have approved. Our proposed procedure does not rely on manual annotation during the label aggregation stage. We examine its plausibility and usefulness using three complementary checks: Human expert evaluation which approved the dataset, a Deep Learning usefulness benchmark on the BTCV dataset in which we achieve 85% dice score without using its training dataset, and medical validity checks. This evaluation procedure combines scalable automated checks with labor-intensive high-quality expert checks. Besides the dataset, we release our trained unified anatomical segmentation model capable of predicting $142$ anatomical structures on CT data.
翻訳日:2023-07-26 17:35:12 公開日:2023-07-25
# サブモジュール強化学習

Submodular Reinforcement Learning ( http://arxiv.org/abs/2307.13372v1 )

ライセンス: Link先を確認
Manish Prajapat, Mojm\'ir Mutn\'y, Melanie N. Zeilinger, Andreas Krause(参考訳) 強化学習(rl)では、通常、状態の報酬は付加物と見なされ、マルコフの仮定に従って、以前訪問した状態の$\textit{independent}$である。 カバレッジ制御、実験設計、情報経路計画など、多くの重要なアプリケーションにおいて、報酬は自然にリターンを減少させ、すなわち、以前訪れた類似した状態から、その価値は低下する。 この問題に対処するために、より一般的な非付加的(かつ歴史に依存しない)報酬を減弱するリターンを捉える部分モジュラ集合関数によってモデル化するパラダイムである$\textit{submodular RL}$ (SubRL)を提案する。 残念なことに、一般に表の設定においても、結果の最適化問題は近似が難しいことが示される。 一方、古典的部分モジュラー最適化における欲求アルゴリズムの成功に動機づけられたSubRLのための単純なポリシー勾配に基づくアルゴリズムであるSubPOを提案する。 実際、基礎となるマルコフ決定過程(MDP)のいくつかの仮定の下で、SubPO は部分モジュラーバンドの最適定数係数近似を復元する。 さらに, 大規模状態空間や行動空間においても, SubRL インスタンスを局所的に最適化するための自然ポリシー勾配法を導出する。 我々は,生体多様性モニタリング,ベイズ実験設計,情報経路計画,カバー範囲の最大化など,いくつかの応用にsubpoを適用することで,このアプローチの汎用性を示す。 本結果は,高次元状態空間への拡張性とともに,サンプル効率を示す。

In reinforcement learning (RL), rewards of states are typically considered additive, and following the Markov assumption, they are $\textit{independent}$ of states visited previously. In many important applications, such as coverage control, experiment design and informative path planning, rewards naturally have diminishing returns, i.e., their value decreases in light of similar states visited previously. To tackle this, we propose $\textit{submodular RL}$ (SubRL), a paradigm which seeks to optimize more general, non-additive (and history-dependent) rewards modelled via submodular set functions which capture diminishing returns. Unfortunately, in general, even in tabular settings, we show that the resulting optimization problem is hard to approximate. On the other hand, motivated by the success of greedy algorithms in classical submodular optimization, we propose SubPO, a simple policy gradient-based algorithm for SubRL that handles non-additive rewards by greedily maximizing marginal gains. Indeed, under some assumptions on the underlying Markov Decision Process (MDP), SubPO recovers optimal constant factor approximations of submodular bandits. Moreover, we derive a natural policy gradient approach for locally optimizing SubRL instances even in large state- and action- spaces. We showcase the versatility of our approach by applying SubPO to several applications, such as biodiversity monitoring, Bayesian experiment design, informative path planning, and coverage maximization. Our results demonstrate sample efficiency, as well as scalability to high-dimensional state-action spaces.
翻訳日:2023-07-26 17:34:46 公開日:2023-07-25
# 適応レベルセット推定によるベイズ最適化への関心領域の学習

Learning Regions of Interest for Bayesian Optimization with Adaptive Level-Set Estimation ( http://arxiv.org/abs/2307.13371v1 )

ライセンス: Link先を確認
Fengxue Zhang, Jialin Song, James Bowden, Alexander Ladd, Yisong Yue, Thomas A. Desautels, Yuxin Chen(参考訳) 高次元および非定常シナリオにおけるベイズ最適化(bo)について検討する。 このようなシナリオのための既存のアルゴリズムは、通常、広範囲なハイパーパラメータチューニングを必要とする。 ガウス過程(GP)のような非パラメトリック確率モデルの超レベルセットとして高信頼領域(ROI)を適応的にフィルタするBALLETというフレームワークを提案する。 提案手法は調整が容易であり,既存のBO手法に対処可能な最適化空間の局所領域に焦点を絞ることができる。 鍵となる考え方は、ROIを識別するための粗いGPとROI内の最適化のための局所的なGPの2つの確率モデルを使用することである。 理論的には、BALLETは探索空間を効率的に縮小することができ、ROIフィルタリングなしで標準BOよりも厳密な後悔を示すことができる。 我々は,BALLETが実世界と合成の両方の最適化タスクに与える影響を実証的に示す。

We study Bayesian optimization (BO) in high-dimensional and non-stationary scenarios. Existing algorithms for such scenarios typically require extensive hyperparameter tuning, which limits their practical effectiveness. We propose a framework, called BALLET, which adaptively filters for a high-confidence region of interest (ROI) as a superlevel-set of a nonparametric probabilistic model such as a Gaussian process (GP). Our approach is easy to tune, and is able to focus on local region of the optimization space that can be tackled by existing BO methods. The key idea is to use two probabilistic models: a coarse GP to identify the ROI, and a localized GP for optimization within the ROI. We show theoretically that BALLET can efficiently shrink the search space, and can exhibit a tighter regret bound than standard BO without ROI filtering. We demonstrate empirically the effectiveness of BALLET on both synthetic and real-world optimization tasks.
翻訳日:2023-07-26 17:34:20 公開日:2023-07-25
# 普遍的分解的意味解析に関する総合的研究:アーキテクチャ、データ拡張、llmパラダイム

Holistic Exploration on Universal Decompositional Semantic Parsing: Architecture, Data Augmentation, and LLM Paradigm ( http://arxiv.org/abs/2307.13424v1 )

ライセンス: Link先を確認
Hexuan Deng, Xin Zhang, Meishan Zhang, Xuebo Liu, Min Zhang(参考訳) 本稿では,Universal Decompositional Semantic Parsing(UDS)の総合的な探索を行う。 まず、複雑な解析タスクを意味的に適切なサブタスクに分解する UDS 解析のためのカスケードモデルを導入する。 提案手法は,推定時間を大幅に削減しつつ,先行モデルよりも優れる。 構文情報も取り入れ、アーキテクチャをさらに最適化します。 さらに、データ拡張のさまざまな方法が検討され、UDSパーシングをさらに改善した。 最後に,UDSタスクの処理におけるChatGPTの有効性を検討する実験を行い,属性解析が優れているが関係解析に苦慮していることを明らかにし,データ拡張にChatGPTを用いることで,最適以下の結果が得られることを示した。 私たちのコードはhttps://github.com/hexuandeng/hexp4udsで利用可能です。

In this paper, we conduct a holistic exploration of the Universal Decompositional Semantic (UDS) Parsing. We first introduce a cascade model for UDS parsing that decomposes the complex parsing task into semantically appropriate subtasks. Our approach outperforms the prior models, while significantly reducing inference time. We also incorporate syntactic information and further optimized the architecture. Besides, different ways for data augmentation are explored, which further improve the UDS Parsing. Lastly, we conduct experiments to investigate the efficacy of ChatGPT in handling the UDS task, revealing that it excels in attribute parsing but struggles in relation parsing, and using ChatGPT for data augmentation yields suboptimal results. Our code is available at https://github.com/hexuandeng/HExp4UDS.
翻訳日:2023-07-26 17:26:48 公開日:2023-07-25
# 自己教師付き音声表現を用いた聴覚障害者の非侵入知性予測

Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals using Self Supervised Speech Representations ( http://arxiv.org/abs/2307.13423v1 )

ライセンス: Link先を確認
George Close, Thomas Hain, Stefan Goetze(参考訳) 自己教師付き音声表現(ssr)は、例えば、音声品質予測のための特徴抽出器(sq)のような、通常または聴覚障害のあるユーザのための音声強調システムの評価および訓練に関連する多くの音声処理タスクにうまく適用されている。 しかしながら、なぜ、どのように品質関連の情報が適切にエンコードされているのかについての正確な知識は、いまだによく分かっていない。 本研究では,SQ評価の非侵襲的予測手法を,難聴者に対する信頼度予測に拡張する。 自己教師付き表現は、非侵入予測モデルの入力特徴として有用であり、より複雑なシステムに対する競合性能を達成する。 Clarity Prediction Challenge 1リスナーとエンハンスメントシステムによるパフォーマンスの詳細な分析は、未知のシステムや(聴覚障害のある)個人への一般化を可能にするために、より多くのデータが必要であることを示唆している。

Self-supervised speech representations (SSSRs) have been successfully applied to a number of speech-processing tasks, e.g. as feature extractor for speech quality (SQ) prediction, which is, in turn, relevant for assessment and training speech enhancement systems for users with normal or impaired hearing. However, exact knowledge of why and how quality-related information is encoded well in such representations remains poorly understood. In this work, techniques for non-intrusive prediction of SQ ratings are extended to the prediction of intelligibility for hearing-impaired users. It is found that self-supervised representations are useful as input features to non-intrusive prediction models, achieving competitive performance to more complex systems. A detailed analysis of the performance depending on Clarity Prediction Challenge 1 listeners and enhancement systems indicates that more data might be needed to allow generalisation to unknown systems and (hearing-impaired) individuals
翻訳日:2023-07-26 17:26:35 公開日:2023-07-25
# 注意ネットワークの学習ダイナミクスについて

On the learning Dynamics of Attention Networks ( http://arxiv.org/abs/2307.13421v1 )

ライセンス: Link先を確認
Rahul Vashisht and Harish G. Ramaswamy(参考訳) 注意モデルは一般的に、ソフトアテンション(Soft attention)、ハードアテンション(ハードアテンション)、潜在変数の辺縁的可能性(Latent variable marginal chance, LVML)という3つの標準的な損失関数のうちの1つを最適化することによって学習される。これら3つのパラダイムは、入力の右 \textit{segment} を 'select' する 'focus' モデルと、選択したセグメントをターゲットラベルに処理する 'classification' モデルである。 しかし、これらは選択されたセグメントを集約する方法で大きく異なり、異なるダイナミクスと最終的な結果をもたらす。 これらのパラダイムを用いて学習したモデルのユニークなシグネチャを観察し,フォーカスモデルが固定された場合の勾配降下下での分類モデルの進化の帰結として説明する。 また,これらのパラダイムを簡単な設定で解析し,勾配流下のパラメータ軌跡の閉形式式を導出する。 ソフトアテンションの損失により、フォーカスモデルは初期化と後続のスパッタで急速に改善する。 一方、注意喪失は反対方向に振る舞う。 我々の観測に基づいて、異なる損失関数の利点を組み合わせた単純なハイブリッドアプローチを提案し、半合成および実世界のデータセットの集合上でそれを実証する。

Attention models are typically learned by optimizing one of three standard loss functions that are variously called -- soft attention, hard attention, and latent variable marginal likelihood (LVML) attention. All three paradigms are motivated by the same goal of finding two models -- a `focus' model that `selects' the right \textit{segment} of the input and a `classification' model that processes the selected segment into the target label. However, they differ significantly in the way the selected segments are aggregated, resulting in distinct dynamics and final results. We observe a unique signature of models learned using these paradigms and explain this as a consequence of the evolution of the classification model under gradient descent when the focus model is fixed. We also analyze these paradigms in a simple setting and derive closed-form expressions for the parameter trajectory under gradient flow. With the soft attention loss, the focus model improves quickly at initialization and splutters later on. On the other hand, hard attention loss behaves in the opposite fashion. Based on our observations, we propose a simple hybrid approach that combines the advantages of the different loss functions and demonstrates it on a collection of semi-synthetic and real-world datasets
翻訳日:2023-07-26 17:26:18 公開日:2023-07-25
# 自律型緊急ブレーキシステムのための分散検出装置の共設計

Co-Design of Out-of-Distribution Detectors for Autonomous Emergency Braking Systems ( http://arxiv.org/abs/2307.13419v1 )

ライセンス: Link先を確認
Michael Yuhas and Arvind Easwaran(参考訳) 学習可能なコンポーネント(LEC)は、自動運転車(AV)における意思決定に不可欠であるが、トレーニングディストリビューション外のサンプルを提示した場合、誤った判断をする可能性が高い。 オフ・オブ・ディストリビューション(OOD)検出器は、そのようなサンプルを検出するために提案されているため、安全モニターとして機能するが、OOD検出器とLECはどちらも、一般的にAVで見られる組込みハードウェアを多用する必要がある。 両方の部品には非機能性能と機能性能のトレードオフがあり、どちらも車両の安全性に影響を与える。 例えば、OOD検出器に長い応答時間を与えると、LECを犠牲にしてその精度が向上する。 我々は,自律型緊急ブレーキシステム(AEBS)のようなバイナリ出力とリスク,重大度と失敗の発生の組み合わせを併用したLECを,両コンポーネントの設計パラメータが相互の機能的および非機能的性能に与える影響をモデル化し,システム安全性に与える影響を考察する。 我々は、このリスクモデルを用いて、ベースラインシステムより低いリスクを減少させるOOD検出器とLECの設計パラメータを見つけ、それを視覚ベースのAEBSで実証する共同設計手法を定式化する。 本手法を用いて,等価資源利用を維持しつつ,42.3%のリスク低減を実現する。

Learning enabled components (LECs), while critical for decision making in autonomous vehicles (AVs), are likely to make incorrect decisions when presented with samples outside of their training distributions. Out-of-distribution (OOD) detectors have been proposed to detect such samples, thereby acting as a safety monitor, however, both OOD detectors and LECs require heavy utilization of embedded hardware typically found in AVs. For both components, there is a tradeoff between non-functional and functional performance, and both impact a vehicle's safety. For instance, giving an OOD detector a longer response time can increase its accuracy at the expense of the LEC. We consider an LEC with binary output like an autonomous emergency braking system (AEBS) and use risk, the combination of severity and occurrence of a failure, to model the effect of both components' design parameters on each other's functional and non-functional performance, as well as their impact on system safety. We formulate a co-design methodology that uses this risk model to find the design parameters for an OOD detector and LEC that decrease risk below that of the baseline system and demonstrate it on a vision based AEBS. Using our methodology, we achieve a 42.3% risk reduction while maintaining equivalent resource utilization.
翻訳日:2023-07-26 17:25:51 公開日:2023-07-25
# 単語埋め込みによる単語曖昧性の解消に向けて

Towards Resolving Word Ambiguity with Word Embeddings ( http://arxiv.org/abs/2307.13417v1 )

ライセンス: Link先を確認
Matthias Thurnbauer, Johannes Reisinger, Christoph Goller, Andreas Fischer(参考訳) 曖昧さは自然言語でユビキタスである。 曖昧な意味の解決は情報検索作業において特に重要である。 単語の埋め込みは意味情報を伝達するが、曖昧さをうまく扱えない。 トランスフォーマーモデルは、複雑なクエリに対する単語の曖昧さを扱うことが示されているが、1ワードのクエリのように曖昧な単語を特定するのに使用できない。 さらに、これらのモデルのトレーニングは、時間、ハードウェアリソース、およびトレーニングデータの観点からコストがかかり、機密データを持つ特殊な環境での使用を禁止している。 ワード埋め込みは、適度なハードウェアリソースを使ってトレーニングできる。 本稿では,DBSCANクラスタリングを潜在空間に適用することにより,曖昧な単語を識別し,あいまいさのレベルを評価することができることを示す。 自動DBSCANパラメータ選択は、意味的コヒーレントで、与えられた単語の意味をよく認識する高品質なクラスタをもたらす。

Ambiguity is ubiquitous in natural language. Resolving ambiguous meanings is especially important in information retrieval tasks. While word embeddings carry semantic information, they fail to handle ambiguity well. Transformer models have been shown to handle word ambiguity for complex queries, but they cannot be used to identify ambiguous words, e.g. for a 1-word query. Furthermore, training these models is costly in terms of time, hardware resources, and training data, prohibiting their use in specialized environments with sensitive data. Word embeddings can be trained using moderate hardware resources. This paper shows that applying DBSCAN clustering to the latent space can identify ambiguous words and evaluate their level of ambiguity. An automatic DBSCAN parameter selection leads to high-quality clusters, which are semantically coherent and correspond well to the perceived meanings of a given word.
翻訳日:2023-07-26 17:25:28 公開日:2023-07-25
# 階層的強化学習によるURLLCサービスのための通信効率の良いオーケストレーション

Communication-Efficient Orchestrations for URLLC Service via Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2307.13415v1 )

ライセンス: Link先を確認
Wei Shi, Milad Ganjalizadeh, Hossein Shokri Ghadikolaei, Marina Petrova(参考訳) 超信頼性の低い低レイテンシ通信(URLLC)サービスは、5Gで厳格な信頼性とレイテンシ要件を持つユースケースを可能にするために計画されている。 URLLCサービスを有効にするための1つのアプローチは、強化学習(RL)を利用して無線リソースを効率的に割り当てることである。 しかし、従来のRL法では、決定変数(様々なネットワーク層に展開されているが)は一般的に同じ制御ループで最適化され、制御ループの遅延や過度な信号処理やエネルギー消費に重大な制約が生じる。 本稿では、制御ループの時間スケールが異なるマルチレベルポリシーの実装を可能にするマルチエージェント階層型RL(HRL)フレームワークを提案する。 制御ループが速いエージェントは基地局の近くに配置され、制御ループが遅いエージェントはコアネットワークのエッジか近くにあり、低レベルのアクションのための高レベルなガイドラインを提供する。 従来技術のユースケースでは、HRLフレームワークを用いて、産業機器の最大送電量と送電電力を最適化した。 ファクトリ自動化シナリオにおける大規模なシミュレーション結果から,HRLフレームワークは信号伝送のオーバーヘッドと遅延を1エージェントRL法に比べて大幅に低減し,ベースライン単エージェントRL法として優れた性能を発揮することが示された。

Ultra-reliable low latency communications (URLLC) service is envisioned to enable use cases with strict reliability and latency requirements in 5G. One approach for enabling URLLC services is to leverage Reinforcement Learning (RL) to efficiently allocate wireless resources. However, with conventional RL methods, the decision variables (though being deployed at various network layers) are typically optimized in the same control loop, leading to significant practical limitations on the control loop's delay as well as excessive signaling and energy consumption. In this paper, we propose a multi-agent Hierarchical RL (HRL) framework that enables the implementation of multi-level policies with different control loop timescales. Agents with faster control loops are deployed closer to the base station, while the ones with slower control loops are at the edge or closer to the core network providing high-level guidelines for low-level actions. On a use case from the prior art, with our HRL framework, we optimized the maximum number of retransmissions and transmission power of industrial devices. Our extensive simulation results on the factory automation scenario show that the HRL framework achieves better performance as the baseline single-agent RL method, with significantly less overhead of signal transmissions and delay compared to the one-agent RL methods.
翻訳日:2023-07-26 17:25:14 公開日:2023-07-25
# オンザフライ重み発生によるCNNエンジンのメモリウォール効果の緩和

Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights Generation ( http://arxiv.org/abs/2307.13412v1 )

ライセンス: Link先を確認
Stylianos I. Venieris, Javier Fernandez-Marques, Nicholas D. Lane(参考訳) 幅広いAIタスクにわたる畳み込みニューラルネットワーク(CNN)の前例のない精度は、モバイルおよび組み込み環境に広く展開するに至った。 高性能でエネルギー効率の高い推論を追求するために、FPGAベースのCNNアクセラレータの設計に多大な研究努力が注がれている。 この文脈では、単一計算エンジンは、ファブリックの再設定のオーバーヘッドなしに多様なcnnモードをサポートする一般的なアプローチを構成する。 しかしながら、この柔軟性は、エンジンの固定された構成上の特定のレイヤの最適以下のマッピングのため、メモリバウンドなレイヤとリソースの未利用で著しく低下することが多い。 本研究では,CNNエンジン設計において,実行時の重みを圧縮する事前畳み込みステージを導入したモデル群について,その意味を考察する。 これらのアプローチをオンザフライと呼ぶ。 本稿では,既存のCNNエンジンの限界に対応する新しいCNN推論システムであるunzipFPGAを提案する。 提案フレームワークは、メモリバウンド層に対する帯域幅の制限による負の影響を緩和し、オンチップオンザフライでの重み生成を可能にする重み生成モジュールを導入する新しいCNNハードウェアアーキテクチャを含む。 さらに,ターゲットのcnn-deviceペアに重み付け生成機構を調整する自動ハードウェアアウェア手法により,unzipfpgaをさらに強化し,精度と性能のバランスが向上した。 最後に、サブ最適マッピング層におけるPE間の負荷のバランスをとる入力選択処理要素(PE)の設計を提案する。 提案したフレームワークは、同じ電力制約に対して高度に最適化されたGPU設計よりも平均2.57倍の性能向上を実現し、最先端のFPGAベースのCNNアクセラレータよりも最大3.94倍高い性能密度を実現する。

The unprecedented accuracy of convolutional neural networks (CNNs) across a broad range of AI tasks has led to their widespread deployment in mobile and embedded settings. In a pursuit for high-performance and energy-efficient inference, significant research effort has been invested in the design of FPGA-based CNN accelerators. In this context, single computation engines constitute a popular approach to support diverse CNN modes without the overhead of fabric reconfiguration. Nevertheless, this flexibility often comes with significantly degraded performance on memory-bound layers and resource underutilisation due to the suboptimal mapping of certain layers on the engine's fixed configuration. In this work, we investigate the implications in terms of CNN engine design for a class of models that introduce a pre-convolution stage to decompress the weights at run time. We refer to these approaches as on-the-fly. This paper presents unzipFPGA, a novel CNN inference system that counteracts the limitations of existing CNN engines. The proposed framework comprises a novel CNN hardware architecture that introduces a weights generator module that enables the on-chip on-the-fly generation of weights, alleviating the negative impact of limited bandwidth on memory-bound layers. We further enhance unzipFPGA with an automated hardware-aware methodology that tailors the weights generation mechanism to the target CNN-device pair, leading to an improved accuracy-performance balance. Finally, we introduce an input selective processing element (PE) design that balances the load between PEs in suboptimally mapped layers. The proposed framework yields hardware designs that achieve an average of 2.57x performance efficiency gain over highly optimised GPU designs for the same power constraints and up to 3.94x higher performance density over a diverse range of state-of-the-art FPGA-based CNN accelerators.
翻訳日:2023-07-26 17:24:51 公開日:2023-07-25
# ビッグデータと情報技術の両面剣--オープンバンキングの注意点

The Double-Edged Sword of Big Data and Information Technology for the Disadvantaged: A Cautionary Tale from Open Banking ( http://arxiv.org/abs/2307.13408v1 )

ライセンス: Link先を確認
Savina Dine Kim and Galina Andreeva and Michael Rovatsos(参考訳) 本稿では、オープンバンキングを例として、一見中立なデータと機械学習(ML)のような強力な技術を組み合わせた公正性の隠れた含意を分析し、実証する。 オープンバンキングは金融サービスの革命に火をつけ、顧客獲得、管理、保持、リスク評価の新たな機会を開く。 しかし、トランザクションデータの粒度は、機密性や禁止された特性に対する未通知プロキシが間接的な差別につながる可能性がある場合の害の可能性を秘めている。 この背景から、新型コロナウイルスとインフレの増大による世界的な懸念である金融脆弱性(FV)の次元を調査する。 具体的には、公正な解釈のレンズを通して、FVにつながる行動要素とそのリスク、不利なグループへの影響を理解することを目的とする。 英国フィンテック銀行のユニークなデータセットを用いて、安全な使用法を同時に警告しながら、きめ細かいトランザクションデータのパワーを実証する。 FVの可能性を予測するために3つのML分類器を比較し、クラスタリングにより異なる大きさとFVの形式を示すグループを特定し、特徴組合せの効果を強調する。 以上の結果から,金融行動の工学的特徴は,個人情報の省略,特に機密性や保護特性を予測し,オープンバンキングデータの隠れた危険性に光を当てることが示唆された。 我々は,この新たな技術環境において,無意識による公平性は効果がないと結論づける。

This research article analyses and demonstrates the hidden implications for fairness of seemingly neutral data coupled with powerful technology, such as machine learning (ML), using Open Banking as an example. Open Banking has ignited a revolution in financial services, opening new opportunities for customer acquisition, management, retention, and risk assessment. However, the granularity of transaction data holds potential for harm where unnoticed proxies for sensitive and prohibited characteristics may lead to indirect discrimination. Against this backdrop, we investigate the dimensions of financial vulnerability (FV), a global concern resulting from COVID-19 and rising inflation. Specifically, we look to understand the behavioral elements leading up to FV and its impact on at-risk, disadvantaged groups through the lens of fair interpretation. Using a unique dataset from a UK FinTech lender, we demonstrate the power of fine-grained transaction data while simultaneously cautioning its safe usage. Three ML classifiers are compared in predicting the likelihood of FV, and groups exhibiting different magnitudes and forms of FV are identified via clustering to highlight the effects of feature combination. Our results indicate that engineered features of financial behavior can be predictive of omitted personal information, particularly sensitive or protected characteristics, shedding light on the hidden dangers of Open Banking data. We discuss the implications and conclude fairness via unawareness is ineffective in this new technological environment.
翻訳日:2023-07-26 17:24:17 公開日:2023-07-25
# 連続測定によるプローブ温度測定

Probe thermometry with continuous measurements ( http://arxiv.org/abs/2307.13407v1 )

ライセンス: Link先を確認
Julia Boeyens, Bj\"orn Annby-Andersson, Pharnam Bakhshinezhad, G\'eraldine Haack, Mart\'i Perarnau-Llobet, Stefan Nimmrichter, Patrick P. Potts, and Mohammad Mehboudi(参考訳) 温度推定は自然科学において重要な役割を果たす。 標準的アプローチは、プローブ温度計によって提供され、プローブが試料と接触し、一定時間経過した後に検査される。 しかし、多くの場合、プローブを継続的に監視することが好ましい。 ここでは, プローブが熱貯留層に結合した2レベルシステムによって提供される最小モデルを考える。 熱活性化遷移のモニタリングにより、時間とともに精度が向上する温度のリアルタイム推定が可能となる。 この枠組みの中で,ベイズ的アプローチを用いたボソニックおよびフェルミオン環境の熱測定を包括的に検討した。 さらに,適応戦略を検討した結果,精度が大幅に向上した。 さらに,騒音の影響を調べ,短時間の観測で適応戦略が非適応戦略以上を被る可能性を見いだした。 我々の主な焦点は温度測定であるが、化学ポテンシャルや遷移速度といった他の環境パラメータの推定にも容易に拡張できる。

Temperature estimation plays a vital role across natural sciences. A standard approach is provided by probe thermometry, where a probe is brought into contact with the sample and examined after a certain amount of time has passed. In many situations however, continuously monitoring the probe may be preferred. Here, we consider a minimal model, where the probe is provided by a two-level system coupled to a thermal reservoir. Monitoring thermally activated transitions enables real-time estimation of temperature with increasing accuracy over time. Within this framework we comprehensively investigate thermometry in both bosonic and fermionic environments employing a Bayesian approach. Furthermore, we explore adaptive strategies and find a significant improvement on the precision. Additionally, we examine the impact of noise and find that adaptive strategies may suffer more than non-adaptive ones for short observation times. While our main focus is on thermometry, our results are easily extended to the estimation of other environmental parameters, such as chemical potentials and transition rates.
翻訳日:2023-07-26 17:23:50 公開日:2023-07-25
# デジタル言語分割の橋渡しに向けて

Towards Bridging the Digital Language Divide ( http://arxiv.org/abs/2307.13405v1 )

ライセンス: Link先を確認
G\'abor Bella, Paula Helm, Gertraud Koch, Fausto Giunchiglia(参考訳) 現在のAIベースの言語技術 - 言語モデル、機械翻訳システム、多言語辞書、コーパス - が、世界で最も広く話されている2~3%の言語に焦点を合わせていることはよく知られている事実である。 最近の研究は、AI技術の「アンダーリソース言語」への範囲を広げようと試みている。 「本稿の目的は、言語バイアスと呼ばれる現象に注意を向けることである。多言語言語処理システムは、しばしば、ある種の言語に対する不随意的かつ隠された表現的嗜好を示す。 言語バイアスは、同様のテスト条件であっても言語ごとの不均一なパフォーマンスを示す。 偏見のある技術は、しばしば、表現される言語の複雑さに対して公正に行動しない研究・開発手法の結果であり、多様性の貴重な側面や言語コミュニティ自体のニーズを無視しているため、倫理的に問題になる可能性があることを示す。 多様性を意識した言語資源の構築の試みとして,地域コミュニティとの目視レベルの協調に基づく技術設計と方法論の両面での言語バイアス低減を目的とした,新たなイニシアティブを提案する。

It is a well-known fact that current AI-based language technology -- language models, machine translation systems, multilingual dictionaries and corpora -- focuses on the world's 2-3% most widely spoken languages. Recent research efforts have attempted to expand the coverage of AI technology to `under-resourced languages.' The goal of our paper is to bring attention to a phenomenon that we call linguistic bias: multilingual language processing systems often exhibit a hardwired, yet usually involuntary and hidden representational preference towards certain languages. Linguistic bias is manifested in uneven per-language performance even in the case of similar test conditions. We show that biased technology is often the result of research and development methodologies that do not do justice to the complexity of the languages being represented, and that can even become ethically problematic as they disregard valuable aspects of diversity as well as the needs of the language communities themselves. As our attempt at building diversity-aware language resources, we present a new initiative that aims at reducing linguistic bias through both technological design and methodology, based on an eye-level collaboration with local communities.
翻訳日:2023-07-26 17:23:35 公開日:2023-07-25
# キーポイントを用いた弱教師付き3次元ポーズ転送

Weakly-supervised 3D Pose Transfer with Keypoints ( http://arxiv.org/abs/2307.13459v1 )

ライセンス: Link先を確認
Jinnan Chen, Chen Li, Gim Hee Lee(参考訳) 3Dポーズ転送の主な課題は次のとおりである。 1) 異なる文字が同一のポーズをとるペアトレーニングデータの欠如 2) 対象メッシュからポーズ及び形状情報を分離すること。 3) トポロジの異なるメッシュへの適用の難しさ。 そこで本研究では,これらの課題を克服するためのキーポイントベースフレームワークを提案する。 具体的には、逆キネマティクスを用いた位相非依存キーポイント検出器を用いて、ソースとターゲットメッシュ間の変換を計算する。 提案手法では,キーポイントの監視のみを要し,異なるトポロジを持つメッシュに適用可能であり,形状情報を転送することなく,ターゲットメッシュからポーズのみの情報抽出が可能な形状不変である。 さらに,対象と同一のポーズと形状の接地真理変形メッシュを必要とせず,自己監督型ポーズ転送を行うサイクル再構築を設計する。 ベンチマークによる人間と動物のデータセットのアプローチを評価し、最先端の教師なしのアプローチと比べて優れたパフォーマンスを達成し、完全に教師なしのアプローチと同等のパフォーマンスさえも達成します。 より困難なmixamoデータセット上でテストを行い、異なるトポロジーと複雑な服を持つメッシュを扱うアプローチの能力を検証する。 クロスデータセット評価はさらに、我々のアプローチの強力な一般化能力を示している。

The main challenges of 3D pose transfer are: 1) Lack of paired training data with different characters performing the same pose; 2) Disentangling pose and shape information from the target mesh; 3) Difficulty in applying to meshes with different topologies. We thus propose a novel weakly-supervised keypoint-based framework to overcome these difficulties. Specifically, we use a topology-agnostic keypoint detector with inverse kinematics to compute transformations between the source and target meshes. Our method only requires supervision on the keypoints, can be applied to meshes with different topologies and is shape-invariant for the target which allows extraction of pose-only information from the target meshes without transferring shape information. We further design a cycle reconstruction to perform self-supervised pose transfer without the need for ground truth deformed mesh with the same pose and shape as the target and source, respectively. We evaluate our approach on benchmark human and animal datasets, where we achieve superior performance compared to the state-of-the-art unsupervised approaches and even comparable performance with the fully supervised approaches. We test on the more challenging Mixamo dataset to verify our approach's ability in handling meshes with different topologies and complex clothes. Cross-dataset evaluation further shows the strong generalization ability of our approach.
翻訳日:2023-07-26 17:16:55 公開日:2023-07-25
# 機械学習による離散対称性群の探索

Finding discrete symmetry groups via Machine Learning ( http://arxiv.org/abs/2307.13457v1 )

ライセンス: Link先を確認
Pablo Calvo-Barl\'es, Sergio G. Rodrigo, Eduardo S\'anchez-Burillo, and Luis Mart\'in-Moreno(参考訳) 本稿では,物理系における離散対称性群を自動的に検出できる機械学習手法を提案する。 この方法は、システムの物理的性質を保存するパラメータ変換の有限集合を識別する。 驚くべきことに、この方法はシステムの対称性やパラメータと特性の間の数学的関係を事前に知ることなくこれを達成する。 その汎用性を実証し、数学、ナノフォトニクス、量子化学の例を示す。

We introduce a machine-learning approach (denoted Symmetry Seeker Neural Network) capable of automatically discovering discrete symmetry groups in physical systems. This method identifies the finite set of parameter transformations that preserve the system's physical properties. Remarkably, the method accomplishes this without prior knowledge of the system's symmetry or the mathematical relationships between parameters and properties. Demonstrating its versatility, we showcase examples from mathematics, nanophotonics, and quantum chemistry.
翻訳日:2023-07-26 17:16:37 公開日:2023-07-25
# マルチエージェントパスフィニングのためのモンテカルロ木探索:予備結果

Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results ( http://arxiv.org/abs/2307.13453v1 )

ライセンス: Link先を確認
Yelisey Pitanov, Alexey Skrynnik, Anton Andreychuk, Konstantin Yakovlev, Aleksandr Panov(参考訳) 本研究では,エージェントの集合がグラフに限定された場合,各エージェントにユニークな開始点と目標頂点が割り当てられ,各エージェントがそれぞれの目標に達するような衝突のない経路(エージェント毎に1つ)を見つけることが課題である,多エージェントパスフィンディングのよく知られた課題について検討する。 モンテカルロ木探索 (MCTS) を用いてこの問題の解法を検討する。 MCTSは、対戦型ゲーム(例えば、Go、Chessなど)や高速な行列乗算アルゴリズムなどの幅広い問題において優れた性能を示すことが示されているが、その問題に対するその適用は、これまではあまり研究されなかった。 この目的のために,マルチエージェントパスフィンディングに適したMCTSのオリジナル版を導入する。 私たちのアプローチの要点は、mctsを導く報酬がどのように計算されるかです。 具体的には,各経路を用いてエージェントが目標達成行動を行うのを支援すると同時に,衝突を避けるためにトラックを離れる自由を残している。 また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。 提案手法は,A*などのヒューリスティック探索を行うベースライン計画アルゴリズムよりも,各再計画段階において優れていることを示す。

In this work we study a well-known and challenging problem of Multi-agent Pathfinding, when a set of agents is confined to a graph, each agent is assigned a unique start and goal vertices and the task is to find a set of collision-free paths (one for each agent) such that each agent reaches its respective goal. We investigate how to utilize Monte-Carlo Tree Search (MCTS) to solve the problem. Although MCTS was shown to demonstrate superior performance in a wide range of problems like playing antagonistic games (e.g. Go, Chess etc.), discovering faster matrix multiplication algorithms etc., its application to the problem at hand was not well studied before. To this end we introduce an original variant of MCTS, tailored to multi-agent pathfinding. The crux of our approach is how the reward, that guides MCTS, is computed. Specifically, we use individual paths to assist the agents with the the goal-reaching behavior, while leaving them freedom to get off the track if it is needed to avoid collisions. We also use a dedicated decomposition technique to reduce the branching factor of the tree search procedure. Empirically we show that the suggested method outperforms the baseline planning algorithm that invokes heuristic search, e.g. A*, at each re-planning step.
翻訳日:2023-07-26 17:16:32 公開日:2023-07-25
# 1d$離散時間量子ウォーク回路の複雑性

Complexity for $1D$ discrete time quantum walk circuits ( http://arxiv.org/abs/2307.13450v1 )

ライセンス: Link先を確認
Aranya Bhattacharya, Himanshu Sahu, Ahmadullah Zahed and Kallol Sen(参考訳) 1次元離散時間量子ウォーク(DTQW)から導かれる混合状態密度演算子の複雑性を計算する。 この複雑さは、混合状態の正準精製から得られる2ドルキュービット量子回路を用いて計算される。 我々は、ユニタリ進化のニールソン複雑性が平均回路深さの1k$で振動することを示す。 さらに、ステップワイズ進化作用素の複雑さは、ステップとともに累積的に線形的に増大する。 量子回路の観点からすると、これは最終状態に達するために適用すべき(ほぼ)定数深さの回路の連続を意味する。

We compute the complexity for the mixed state density operator derived from a one-dimensional discrete-time quantum walk (DTQW). The complexity is computed using a $2$-qubit quantum circuit obtained from canonically purifying the mixed state. We demonstrate that the Nielson complexity for the unitary evolution oscillates around a mean circuit depth of $k$. Further, the complexity of the step-wise evolution operator grows cumulatively and linearly with the steps. From a quantum circuit perspective, this implies a succession of circuits of (near) constant depth to be applied to reach the final state.
翻訳日:2023-07-26 17:16:10 公開日:2023-07-25
# ロボットと非定常人間との効果的な協調のための行動トランスフォーマー

A behavioural transformer for effective collaboration between a robot and a non-stationary human ( http://arxiv.org/abs/2307.13447v1 )

ライセンス: Link先を確認
Ruaridh Mon-Williams, Theodoros Stouraitis and Sethu Vijayakumar(参考訳) 人間とロボットのコラボレーションにおける重要な課題は、行動の変化によって人間が生み出す非定常性である。 これは環境遷移を変え、人間とロボットのコラボレーションを妨げる。 本研究では,ロボットが人間の行動をより正確に予測し,非定常性の問題に対処するためのメタ学習フレームワークを提案する。 この枠組みに基づきbetrans(behavior-transform)を開発した。 BeTransは条件付きトランスフォーマーであり、シーケンシャルなデータによる顕著なパフォーマンスのため、ロボットエージェントが非定常的な振る舞いを持つ新しい人間のエージェントに迅速に適応できるようにする。 協調環境において異なる系統バイアスを持つ人間エージェントに対してbetransを訓練した。 我々は,betransがヒトエージェントと効果的に協調し,soma技術よりも非定常ヒトエージェントに早く適応することを示すために,独自のカスタマイズ可能な環境を用いた。

A key challenge in human-robot collaboration is the non-stationarity created by humans due to changes in their behaviour. This alters environmental transitions and hinders human-robot collaboration. We propose a principled meta-learning framework to explore how robots could better predict human behaviour, and thereby deal with issues of non-stationarity. On the basis of this framework, we developed Behaviour-Transform (BeTrans). BeTrans is a conditional transformer that enables a robot agent to adapt quickly to new human agents with non-stationary behaviours, due to its notable performance with sequential data. We trained BeTrans on simulated human agents with different systematic biases in collaborative settings. We used an original customisable environment to show that BeTrans effectively collaborates with simulated human agents and adapts faster to non-stationary simulated human agents than SOTA techniques.
翻訳日:2023-07-26 17:16:03 公開日:2023-07-25
# 湯川相互作用におけるインフレーションドシッター時空の1ループにおけるデコヒーレンスとエントロピー生成

Decoherence and entropy generation at one loop in the inflationary de Sitter spacetime for Yukawa interaction ( http://arxiv.org/abs/2307.13443v1 )

ライセンス: Link先を確認
Sourav Bhattacharya, Nitin Joshi(参考訳) デコヒーレンス機構は、初期の宇宙における原始宇宙論的摂動の量子から古典的な遷移と結びついていると考えられている。 本稿では,ミンコフスキー時空の湯川相互作用によって結合されたフェルミオンおよびスカラー場の量子場理論におけるデコヒーレンスに関するこれまでの分析を,デシッター背景のインフレーションに拡張する。 我々は,スカラー場をシステムとして,フェルミオンを環境として扱い,両フィールドを無質量化する。 このような開量子系に適した非平衡実効場理論の定式化を利用する。 観測者はスカラー場のガウス的2点コリレータのみを測定し、最も単純な現実的なシナリオであると仮定する。 デコヒーレンスの尺度として後期に生成されたフォン・ノイマンのエントロピーを計算するために、閉時間経路シュヴィンガー・ケルディッシュ形式論において、2点コリエーターによって満たされる運動方程式である1つのループ再正規化カダノフ・ベイム方程式を構築する。 これらの方程式は自己エネルギー補正に寄与する。 これを用いて、次は位相空間領域に関連するスカラーのループ補正統計プロパゲータを構築し、フォン・ノイマンエントロピーを計算する。 また、関連するパラメータに関してフォン・ノイマンのエントロピーの変動を計算する。 この結果と,システムと環境の両方がスカラーであるシナリオとの質的な類似性に注目した。 この結果は, 影響汎関数法を大規模湯川理論に用いた初期の結果と定性的に類似している。

The decoherence mechanism is believed to be possibly connected to the quantum to classical transition of the primordial cosmological perturbations in the early universe. In this paper, we extend our previous analysis on decoherence in a fermion and scalar quantum field theory coupled via the Yukawa interaction in the Minkowski spacetime, to the inflationary de Sitter background. We treat the scalar field as the system and the fermions as the environment, and both the fields are taken to be massless. We utilise a non-equilibrium effective field theory formalism, suitable for open quantum systems such as this. We assume that an observer measures only the Gaussian 2-point correlator for the scalar field, as the simplest realistic scenario. In order to compute the von Neumann entropy generated at late times as a measure of the decoherence, we construct the one loop renormalised Kadanoff-Baym equation, which is the equation of motion satisfied by the 2-point correlators in the closed time path Schwinger-Keldysh formalism. These equations account to the self energy corrections. Using this, we next construct the one loop corrected statistical propagator for the scalar, which is related to its phase space area, to compute the von Neumann entropy. We also compute the variation of the von Neumann entropy with respect to relevant parameters. We note the qualitative similarity between our findings and the scenario where both the system and the environment are scalars. Our result is also qualitatively similar to an earlier one found by using the influence functional technique for a massive Yukawa theory.
翻訳日:2023-07-26 17:15:49 公開日:2023-07-25
# 単フロー時系列解析に基づくネットワークトラフィック分類

Network Traffic Classification based on Single Flow Time Series Analysis ( http://arxiv.org/abs/2307.13434v1 )

ライセンス: Link先を確認
Josef Koumar and Karel Hynek and Tom\'a\v{s} \v{C}ejka(参考訳) IPフローを用いたネットワークトラフィック監視は、暗号化されたネットワーク通信を解析する現在の課題に対処するために用いられる。 しかし,フローレコードへのパケット集約は自然に情報損失を引き起こすため,本論文では,単一フロータイムシリーズの時系列解析,すなわち,各パケットのバイト数とそのタイムスタンプによって生成される時系列に基づいて,トラフィック特徴の新たなフロー拡張を提案する。 本研究では,データポイントの統計解析,時間領域解析,フロー時間内のパケット分布,時系列動作,周波数領域解析に基づく69の普遍的な特徴を提案する。 我々は15の有名な公開データセットを用いて,ネットワークトラフィック分類タスクにおける特徴ベクトルのユーザビリティと普遍性を実証した。 評価の結果,新しい特徴ベクトルは,二分法および多クラス分類タスクの関連作業と類似あるいは類似した分類性能が得られることがわかった。 評価したタスクの半分以上において,分類性能は最大5\%向上した。

Network traffic monitoring using IP flows is used to handle the current challenge of analyzing encrypted network communication. Nevertheless, the packet aggregation into flow records naturally causes information loss; therefore, this paper proposes a novel flow extension for traffic features based on the time series analysis of the Single Flow Time series, i.e., a time series created by the number of bytes in each packet and its timestamp. We propose 69 universal features based on the statistical analysis of data points, time domain analysis, packet distribution within the flow timespan, time series behavior, and frequency domain analysis. We have demonstrated the usability and universality of the proposed feature vector for various network traffic classification tasks using 15 well-known publicly available datasets. Our evaluation shows that the novel feature vector achieves classification performance similar or better than related works on both binary and multiclass classification tasks. In more than half of the evaluated tasks, the classification performance increased by up to 5\%.
翻訳日:2023-07-26 17:15:19 公開日:2023-07-25
# 分散確率的構成的ミニマックス最適化における線形高速化の実現

Achieving Linear Speedup in Decentralized Stochastic Compositional Minimax Optimization ( http://arxiv.org/abs/2307.13430v1 )

ライセンス: Link先を確認
Hongchang Gao(参考訳) 確率的構成的ミニマックス問題は、近年、多くの機械学習モデルをカバーしているため、注目を集めている。 一方、分散データの出現により、分散設定下でのこの種の問題を最適化することが必要となる。 しかし、損失関数の構成構造は効率的な分散最適化アルゴリズムの設計に固有の課題をもたらす。 特に, 標準のゴシップ通信戦略は, 内部レベル関数に関する大きなコンセンサス誤差のため, 分散構成的ミニマックス問題に対する線形高速化を達成できないことを示した。 この問題に対処するため,内層関数のコンセンサス誤差を低減するために,モーメントアルゴリズムを付加した分散確率勾配勾配法を開発した。 その結果, 作業者の数に対して線形スピードアップを達成できることが理論的に証明された。 この新しいアルゴリズム設計は分散合成最適化の開発に有用であると信じている。 最後に,本手法を不均衡分類問題に適用した。 実験結果から,提案アルゴリズムの有効性が示唆された。

The stochastic compositional minimax problem has attracted a surge of attention in recent years since it covers many emerging machine learning models. Meanwhile, due to the emergence of distributed data, optimizing this kind of problem under the decentralized setting becomes badly needed. However, the compositional structure in the loss function brings unique challenges to designing efficient decentralized optimization algorithms. In particular, our study shows that the standard gossip communication strategy cannot achieve linear speedup for decentralized compositional minimax problems due to the large consensus error about the inner-level function. To address this issue, we developed a novel decentralized stochastic compositional gradient descent ascent with momentum algorithm to reduce the consensus error in the inner-level function. As such, our theoretical results demonstrate that it is able to achieve linear speedup with respect to the number of workers. We believe this novel algorithmic design could benefit the development of decentralized compositional optimization. Finally, we applied our methods to the imbalanced classification problem. The extensive experimental results provide evidence for the effectiveness of our algorithm.
翻訳日:2023-07-26 17:15:04 公開日:2023-07-25
# CNNに基づくバイオメトリックス検証のための説明可能なモデル非依存アルゴリズム

An Explainable Model-Agnostic Algorithm for CNN-based Biometrics Verification ( http://arxiv.org/abs/2307.13428v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Kevin Hernandez-Diaz, Jose M. Buades, Prayag Tiwari, Josef Bigun(参考訳) 本稿では,生体認証環境下でのLIME(Local Interpretable Model-Agnostic Explanations)AI手法の適用について述べる。 当初、LIMEはトレーニングに使用されるのと同じ出力クラスを持つネットワークに対して提案され、画像のどの領域が分類に最も貢献するかを決定するためにソフトマックス確率を用いていた。 しかし、検証設定では、認定されるクラスはトレーニング中には見られていない。 さらに、ソフトマックス出力を使用する代わりに、顔ディスクリプタは通常、分類レイヤーの前の層から取得される。 このモデルは、入力画像の摂動バージョンの特徴ベクトル間のコサイン類似性によって説明可能性を実現するために適応される。 この手法は、mobilenetv2とresnet50に基づく2つのcnnモデルによる顔バイオメトリックス向けに紹介されている。

This paper describes an adaptation of the Local Interpretable Model-Agnostic Explanations (LIME) AI method to operate under a biometric verification setting. LIME was initially proposed for networks with the same output classes used for training, and it employs the softmax probability to determine which regions of the image contribute the most to classification. However, in a verification setting, the classes to be recognized have not been seen during training. In addition, instead of using the softmax output, face descriptors are usually obtained from a layer before the classification layer. The model is adapted to achieve explainability via cosine similarity between feature vectors of perturbated versions of the input image. The method is showcased for face biometrics with two CNN models based on MobileNetv2 and ResNet50.
翻訳日:2023-07-26 17:14:52 公開日:2023-07-25
# 雑音-畳み込み畳み込みニューラルネットワークの信号処理解釈

A signal processing interpretation of noise-reduction convolutional neural networks ( http://arxiv.org/abs/2307.13425v1 )

ライセンス: Link先を確認
Luis A. Zavala-Mondrag\'on, Peter H.N. de With, Fons van der Sommen(参考訳) 符号化復号CNNは、データ駆動型ノイズ低減において中心的な役割を果たす。 しかし、これらのcnnアーキテクチャの開発は、しばしばアドホックな方法で行われ、重要な設計選択に対する理論的基礎は一般に欠落している。 この時点まで、これらのcnnの内部操作を説明するために、さまざまな関連する作品が存在している。 それでも、これらのアイデアは散らばっているか、あるいはより大きなオーディエンスにアクセスできるための重要な専門知識が必要かもしれない。 このエキサイティングな分野を開放するために、この記事では深い畳み込みのフレームレットの理論を直感的に構築し、統一理論の枠組みで多様なed cnnアーキテクチャを説明します。 信号処理からディープラーニングまでの基本原則を結びつけることで、この自己完結型素材は堅牢で効率的な新しいcnnアーキテクチャを設計するための重要なガイダンスを提供する。

Encoding-decoding CNNs play a central role in data-driven noise reduction and can be found within numerous deep-learning algorithms. However, the development of these CNN architectures is often done in ad-hoc fashion and theoretical underpinnings for important design choices is generally lacking. Up to this moment there are different existing relevant works that strive to explain the internal operation of these CNNs. Still, these ideas are either scattered and/or may require significant expertise to be accessible for a bigger audience. In order to open up this exciting field, this article builds intuition on the theory of deep convolutional framelets and explains diverse ED CNN architectures in a unified theoretical framework. By connecting basic principles from signal processing to the field of deep learning, this self-contained material offers significant guidance for designing robust and efficient novel CNN architectures.
翻訳日:2023-07-26 17:14:40 公開日:2023-07-25
# cos r-cnnによるオンライン・マイズショット物体検出

Cos R-CNN for Online Few-shot Object Detection ( http://arxiv.org/abs/2307.13485v1 )

ライセンス: Link先を確認
Gratianus Wesley Putra Data, Henry Howard-Jenkins, David Murray, Victor Prisacariu(参考訳) 本稿では,オンライン数ショットオブジェクト検出のための簡易なR-CNN定式化であるCos R-CNNを提案する。 すなわち、微調整することなく、少ない例で画像内の新しいオブジェクトカテゴリをローカライズし、分類することができる。 cos r-cnn フレーム検出を学習と競争のタスクとして: 未知のクラスを例示画像として表現し、それらの例示と類似性に基づいてオブジェクトを検出する。 コサインベースの分類ヘッドは、例えば埋め込みへの分類パラメータの動的適応を可能にし、距離測定ハイパーパラメータの手動チューニングを必要とせず、埋め込み空間における類似クラスのクラスタリングを促進する。 オンラインの1/5/10ショットシナリオを8/3/1%以上上回り、新しいクラスのすべてのショットに対して、オンラインの20ウェイの少数ショットvocよりも20%高いパフォーマンスを実現している。

We propose Cos R-CNN, a simple exemplar-based R-CNN formulation that is designed for online few-shot object detection. That is, it is able to localise and classify novel object categories in images with few examples without fine-tuning. Cos R-CNN frames detection as a learning-to-compare task: unseen classes are represented as exemplar images, and objects are detected based on their similarity to these exemplars. The cosine-based classification head allows for dynamic adaptation of classification parameters to the exemplar embedding, and encourages the clustering of similar classes in embedding space without the need for manual tuning of distance-metric hyperparameters. This simple formulation achieves best results on the recently proposed 5-way ImageNet few-shot detection benchmark, beating the online 1/5/10-shot scenarios by more than 8/3/1%, as well as performing up to 20% better in online 20-way few-shot VOC across all shots on novel classes.
翻訳日:2023-07-26 17:07:50 公開日:2023-07-25
# 有理カーネルによる複素値周波数応答関数の補間

Rational kernel-based interpolation for complex-valued frequency response functions ( http://arxiv.org/abs/2307.13484v1 )

ライセンス: Link先を確認
Julien Bect, Niklas Georg, Ulrich R\"omer, Sebastian Sch\"ops(参考訳) この研究は、周波数領域における偏微分方程式の周波数応答関数が特に興味を持つデータからの複素数値関数のカーネルベースの近似に関するものである。 この設定では、カーネルメソッドが頻繁に使用されるが、標準のカーネルはうまく機能しない。 さらに、複素数値の場合に自然に生じる核の基底対の役割と数学的含意は、未解決のままである。 複素値関数の新たな再生カーネルヒルベルト空間を導入し、これらの空間における最小ノルム補間としてカーネル対との複素値補間問題を定式化する。 さらに,新しいモデル選択基準に基づいて順を適応的に選択する低次有理関数と補間を結合する。 電磁法や音響法など,様々な分野の例に対する数値的な結果から,有理近似法と比較して,本手法の性能が説明できる。

This work is concerned with the kernel-based approximation of a complex-valued function from data, where the frequency response function of a partial differential equation in the frequency domain is of particular interest. In this setting, kernel methods are employed more and more frequently, however, standard kernels do not perform well. Moreover, the role and mathematical implications of the underlying pair of kernels, which arises naturally in the complex-valued case, remain to be addressed. We introduce new reproducing kernel Hilbert spaces of complex-valued functions, and formulate the problem of complex-valued interpolation with a kernel pair as minimum norm interpolation in these spaces. Moreover, we combine the interpolant with a low-order rational function, where the order is adaptively selected based on a new model selection criterion. Numerical results on examples from different fields, including electromagnetics and acoustic examples, illustrate the performance of the method, also in comparison to available rational approximation methods.
翻訳日:2023-07-26 17:07:31 公開日:2023-07-25
# 共分散行列に基づくネットワーク絡み合いの基準

Covariance matrix-based criteria for network entanglement ( http://arxiv.org/abs/2307.13480v1 )

ライセンス: Link先を確認
Kiara Hansenne and Otfried G\"uhne(参考訳) 量子ネットワークは、多粒子の絡み合いを生成し、多粒子の量子通信プロトコルを実装するための現実的で実用的なスキームを提供する。 しかし、量子源と局所演算とのネットワークで生成できる相関関係は、まだよく理解されていない。 絡み合い理論の強力なツールである共分散行列もネットワークシナリオに適用されている。 このような行列を正の半定義ブロック行列の和に分解する簡単な証明を示し、それに基づいて量子ネットワークにおける状態準備に必要な解析的かつ計算可能な必要条件を考案する。 これらの基準は、任意の2つのノードが少なくとも1つのソースを共有しているネットワークに適用できる。

Quantum networks offer a realistic and practical scheme for generating multiparticle entanglement and implementing multiparticle quantum communication protocols. However, the correlations that can be generated in networks with quantum sources and local operations are not yet well understood. Covariance matrices, which are powerful tools in entanglement theory, have been also applied to the network scenario. We present simple proofs for the decomposition of such matrices into the sum of positive semidefinite block matrices and, based on that, develop analytical and computable necessary criteria for preparing states in quantum networks. These criteria can be applied to networks in which any two nodes share at most one source, such as all bipartite networks.
翻訳日:2023-07-26 17:07:14 公開日:2023-07-25
# 不確定因果順序の連続装置非依存証明

Sequential device-independent certification of indefinite causal order ( http://arxiv.org/abs/2307.13477v1 )

ライセンス: Link先を確認
Zhu Cao(参考訳) 不定因数順序は、量子計算、量子通信、量子計量学に多くの応用を見出した。 使用前には、不確定因果順序の品質を最初に認定し、デバイス不完全性の影響を避けるために、理想的にはデバイス非依存(DI)であるべきである。 本研究では,不確定因果順序の逐次DI認証に関する研究を開始する。 これは、不定因数生成が困難である実験的なプラットフォームで有用である。 本研究では,不確定因果順序の任意の数のDI認証が量子スイッチを用いて達成可能であることを示し,また,証明の実験的実装に関する実践的要件を解析する。 本研究は,デバイスに依存しない量子情報処理において,不定因果順序のリソースを複数回再利用する可能性を開く。

Indefinite causal order has found numerous applications in quantum computation, quantum communication, and quantum metrology. Before its usage, the quality of the indefinite causal order needs to be first certified, and the certification should ideally be device-independent (DI) to avoid the impact of device imperfections. In this work, we initiate the study of the sequential DI certification of an indefinite causal order. This can be useful in experimental platforms where the generation of an indefinite causal order is difficult. We show that an arbitrary number of sequential DI certifications of an indefinite causal order can be achieved with a quantum switch and also analyze practical requirements for experimental implementations of the certifications. Our work opens the possibility of reusing the resource of an indefinite causal order multiple times in device-independent quantum information processing.
翻訳日:2023-07-26 17:07:03 公開日:2023-07-25
# 地域エネルギーフレキシビリティ市場のための組合せオークションとグラフニューラルネットワーク

Combinatorial Auctions and Graph Neural Networks for Local Energy Flexibility Markets ( http://arxiv.org/abs/2307.13470v1 )

ライセンス: Link先を確認
Awadelrahman M. A. Ahmed, Frank Eliassen and Yan Zhang(参考訳) 本稿では,複数のフレキシブル時間間隔をバンドルできないプロプライマーの問題に対処する,地域エネルギー自由市場のための新しい組み合わせオークションフレームワークを提案する。 NP完全勝者決定問題の解法として、単純だが強力な三部グラフ表現とグラフニューラルネットワークモデルの設計を提案する。 本モデルでは,市販の最適化ツールから平均最適値の偏差を5倍以下に抑え,市販の解法に比べて線形推論時間の複雑さを示す。 コントリビューションと結果は、機械学習を用いて地域市場におけるエネルギー柔軟性資源を効率的に配分し、一般に最適化問題を解く可能性を示している。

This paper proposes a new combinatorial auction framework for local energy flexibility markets, which addresses the issue of prosumers' inability to bundle multiple flexibility time intervals. To solve the underlying NP-complete winner determination problems, we present a simple yet powerful heterogeneous tri-partite graph representation and design graph neural network-based models. Our models achieve an average optimal value deviation of less than 5\% from an off-the-shelf optimization tool and show linear inference time complexity compared to the exponential complexity of the commercial solver. Contributions and results demonstrate the potential of using machine learning to efficiently allocate energy flexibility resources in local markets and solving optimization problems in general.
翻訳日:2023-07-26 17:06:23 公開日:2023-07-25
# E-Commerce Bundle Recommendationにおける原型コントラスト学習を用いたガウスグラフ

Gaussian Graph with Prototypical Contrastive Learning in E-Commerce Bundle Recommendation ( http://arxiv.org/abs/2307.13468v1 )

ライセンス: Link先を確認
Zhao-Yang Liu, Liucheng Sun, Chenwei Weng, Qijin Chen, Chengfu Huo(参考訳) Bundleのリコメンデーションは、Eコマースプラットホーム上のユーザの好みを満たすためのアイテムの束を提供することだ。 既存の成功したソリューションは、グラフニューラルネットワーク(GNN)がユーザレベルのグラフビューとバンドルレベルのグラフビューから表現を学習し、異なるビュー間の協調関係を強化するためのコントラッシブな学習モジュールである。 それでも、非常に疎らさや多様性によって引き起こされる差別的な情報の欠如により、実際のバンドルレコメンデーションシナリオに重大な影響を与える不確実性の問題を無視している。 さらに,インスタンス単位での対比学習では,意味的に類似する否定(サンプリングバイアス問題)を区別できず,結果として性能が低下することが示唆された。 本稿では,これらの課題を解決するために,GPCL(Prototypeal Contrastive Learning)フレームワークを用いたガウスグラフを提案する。 特にGPCLは各ユーザ/バンドル/イテムを固定ベクトルではなくガウス分布として埋め込む。 さらに,コントラスト学習モジュールの設計を行い,文脈情報を取得し,サンプリングバイアス問題を緩和する。 提案するコンポーネントの利点を生かした広範な実験により,いくつかの公開データセットにおける従来手法と比較して,新たな最先端性能を実現することができた。 さらに、GPCLは現実世界のEコマースプラットフォームにデプロイされ、大幅に改善されている。

Bundle recommendation aims to provide a bundle of items to satisfy the user preference on e-commerce platform. Existing successful solutions are based on the contrastive graph learning paradigm where graph neural networks (GNNs) are employed to learn representations from user-level and bundle-level graph views with a contrastive learning module to enhance the cooperative association between different views. Nevertheless, they ignore the uncertainty issue which has a significant impact in real bundle recommendation scenarios due to the lack of discriminative information caused by highly sparsity or diversity. We further suggest that their instancewise contrastive learning fails to distinguish the semantically similar negatives (i.e., sampling bias issue), resulting in performance degradation. In this paper, we propose a novel Gaussian Graph with Prototypical Contrastive Learning (GPCL) framework to overcome these challenges. In particular, GPCL embeds each user/bundle/item as a Gaussian distribution rather than a fixed vector. We further design a prototypical contrastive learning module to capture the contextual information and mitigate the sampling bias issue. Extensive experiments demonstrate that benefiting from the proposed components, we achieve new state-of-the-art performance compared to previous methods on several public datasets. Moreover, GPCL has been deployed on real-world e-commerce platform and achieved substantial improvements.
翻訳日:2023-07-26 17:06:10 公開日:2023-07-25
# 収量予測のための処理ベースモデルと機械学習の統合

Integrating processed-based models and machine learning for crop yield prediction ( http://arxiv.org/abs/2307.13466v1 )

ライセンス: Link先を確認
Michiel G.J. Kallenberg, Bernardo Maestrini, Ron van Bree, Paul Ravensbergen, Christos Pylianidis, Frits van Evert, and Ioannis N. Athanasiadis (Wageningen University and Research, the Netherlands)(参考訳) 作物収量予測は通常、局所的な条件の調整が困難であることが証明された理論駆動のプロセスベースの作物成長モデルや、大規模なデータセットを必要とすることが知られているデータ駆動機械学習手法を利用する。 本研究では,ハイブリッドメタモデリング手法を用いてジャガイモ収量予測を行う。 作物成長モデルを用いて、畳み込みニューラルネットを(前)訓練するための合成データを生成し、観察データで微調整する。 シリコンに適用すると、我々のメタモデリングアプローチは、純粋にデータ駆動アプローチからなるベースラインよりも優れた予測が得られる。 実世界の実地データ(n=303)と商業分野(n=77)で試験すると、メタモデリング手法は作物の生育モデルに関して競合する結果をもたらす。 しかし、後者のセットでは、両方のモデルはハンドピックされたフィーチャセットとドメインエキスパートが設計した専用の前処理を持つ単純な線形回帰よりもパフォーマンスが悪くなります。 本研究は,正確な収穫量予測のためのメタモデリングの可能性を示しているが,実世界の広範なデータセットを用いたさらなる進歩と検証は,その実用的効果を確固たるものにすることが推奨されている。

Crop yield prediction typically involves the utilization of either theory-driven process-based crop growth models, which have proven to be difficult to calibrate for local conditions, or data-driven machine learning methods, which are known to require large datasets. In this work we investigate potato yield prediction using a hybrid meta-modeling approach. A crop growth model is employed to generate synthetic data for (pre)training a convolutional neural net, which is then fine-tuned with observational data. When applied in silico, our meta-modeling approach yields better predictions than a baseline comprising a purely data-driven approach. When tested on real-world data from field trials (n=303) and commercial fields (n=77), the meta-modeling approach yields competitive results with respect to the crop growth model. In the latter set, however, both models perform worse than a simple linear regression with a hand-picked feature set and dedicated preprocessing designed by domain experts. Our findings indicate the potential of meta-modeling for accurate crop yield prediction; however, further advancements and validation using extensive real-world datasets is recommended to solidify its practical effectiveness.
翻訳日:2023-07-26 17:05:49 公開日:2023-07-25
# ビジュアルメディアの感情世界を解き放つ:感情を理解する科学、研究、および影響の概観

Unlocking the Emotional World of Visual Media: An Overview of the Science, Research, and Impact of Understanding Emotion ( http://arxiv.org/abs/2307.13463v1 )

ライセンス: Link先を確認
James Z. Wang, Sicheng Zhao, Chenyan Wu, Reginald B. Adams, Michelle G. Newman, Tal Shafir, Rachelle Tsachor(参考訳) 人工知能技術の出現は、コンピュータやロボット工学の分野に革命をもたらし、かつて不可能と考えられていた人間の行動に関する新しいレベルのコミュニケーションと理解を可能にしている。 近年のディープラーニングの進歩はコンピュータビジョンの分野を変えつつあるが、視覚メディアにおける誘発された感情や表現された感情の自動理解は、まだ初期段階にある。 この創始者は「感情」という普遍的に受け入れられた定義がないことと、感情の本質的に主観的な性質と複雑なニュアンスがないことに起因している。 本稿では,視覚メディアにおける感情分析の分野の包括的,多分野的な概観を提供し,心理学,工学,芸術からの洞察について考察する。 まず、感情の心理的基礎と、イメージやビデオからの感情の理解の基盤となる計算原理を探求する。 次に、この分野の最新研究とシステムをレビューし、最も有望なアプローチを強調する。 また、感情分析の現在の技術的課題と限界についても議論し、継続的な調査とイノベーションの必要性を強調する。 これはコンピューティングにおける「Holy Grail」研究の問題であり、今後の調査において重要な方向を示すものであると我々は主張する。 最後に,感情理解技術の倫理的影響について検討し,その社会的影響について考察する。 全体として、本稿は、視覚メディアにおける感情分析の領域をより深く理解し、この獲得と急速な発展の分野におけるさらなる研究と発展を促すために、読者に講じるものである。

The emergence of artificial emotional intelligence technology is revolutionizing the fields of computers and robotics, allowing for a new level of communication and understanding of human behavior that was once thought impossible. While recent advancements in deep learning have transformed the field of computer vision, automated understanding of evoked or expressed emotions in visual media remains in its infancy. This foundering stems from the absence of a universally accepted definition of "emotion", coupled with the inherently subjective nature of emotions and their intricate nuances. In this article, we provide a comprehensive, multidisciplinary overview of the field of emotion analysis in visual media, drawing on insights from psychology, engineering, and the arts. We begin by exploring the psychological foundations of emotion and the computational principles that underpin the understanding of emotions from images and videos. We then review the latest research and systems within the field, accentuating the most promising approaches. We also discuss the current technological challenges and limitations of emotion analysis, underscoring the necessity for continued investigation and innovation. We contend that this represents a "Holy Grail" research problem in computing and delineate pivotal directions for future inquiry. Finally, we examine the ethical ramifications of emotion-understanding technologies and contemplate their potential societal impacts. Overall, this article endeavors to equip readers with a deeper understanding of the domain of emotion analysis in visual media and to inspire further research and development in this captivating and rapidly evolving field.
翻訳日:2023-07-26 17:05:30 公開日:2023-07-25
# 量子ランダムアクセスメモリの基本因果境界

Fundamental causal bounds of quantum random access memories ( http://arxiv.org/abs/2307.13460v1 )

ライセンス: Link先を確認
Yunfei Wang, Yuri Alexeev, Liang Jiang, Frederic T. Chong, Junyu Liu(参考訳) 量子デバイスは量子物理学の原則に従って動作すべきである。 量子ランダムアクセスメモリ(QRAM)は、線形代数、データ探索、機械学習などのタスクのための多くの必須量子アルゴリズムの基本コンポーネントであり、$\mathcal{O}(\log N)$ circuit depth for $\mathcal{O}(N)$ data size, given $N$ qubits を提供するためにしばしば提案される。 しかし、この主張は局所的に相互作用する量子物質の多くの量子ビットを扱うときに相対性理論を破っているように見える。 本研究では,量子多体系における相対論的量子場理論とリーブ・ロビンソン境界を用いて,因果性に基づく高速量子記憶の固有境界を批判的に検討する。 本稿では,ハイブリッド量子音響システムにおけるハードウェア効率の良いQRAM設計について考察する。 約10^{-3}$秒のクロックサイクル時間と約1マイクロメートルの格子間隔を仮定すると、qramは1次元で最大$\mathcal{o}(10^7)$論理量子ビット、1次元で$\mathcal{o}(10^{15})$ to $\mathcal{o}(10^{20})$、3次元で$\mathcal{o}(10^{24})$を満たすことができる。 我々は、この因果関係が他の量子ハードウェアシステムにも広く適用されると主張する。 データサイエンスにおける量子コンピューティングアプリケーションの長期パフォーマンスに対する基本的な量子物理学制約の影響を浮き彫りにし、性能向上のための潜在的な量子メモリ設計を提案する。

Quantum devices should operate in adherence to quantum physics principles. Quantum random access memory (QRAM), a fundamental component of many essential quantum algorithms for tasks such as linear algebra, data search, and machine learning, is often proposed to offer $\mathcal{O}(\log N)$ circuit depth for $\mathcal{O}(N)$ data size, given $N$ qubits. However, this claim appears to breach the principle of relativity when dealing with a large number of qubits in quantum materials interacting locally. In our study we critically explore the intrinsic bounds of rapid quantum memories based on causality, employing the relativistic quantum field theory and Lieb-Robinson bounds in quantum many-body systems. In this paper, we consider a hardware-efficient QRAM design in hybrid quantum acoustic systems. Assuming clock cycle times of approximately $10^{-3}$ seconds and a lattice spacing of about 1 micrometer, we show that QRAM can accommodate up to $\mathcal{O}(10^7)$ logical qubits in 1 dimension, $\mathcal{O}(10^{15})$ to $\mathcal{O}(10^{20})$ in various 2D architectures, and $\mathcal{O}(10^{24})$ in 3 dimensions. We contend that this causality bound broadly applies to other quantum hardware systems. Our findings highlight the impact of fundamental quantum physics constraints on the long-term performance of quantum computing applications in data science and suggest potential quantum memory designs for performance enhancement.
翻訳日:2023-07-26 17:05:04 公開日:2023-07-25
# 古典ニューラルネットワークを用いた変分量子回路による絡み合いエントロピーの推定

Estimating Entanglement Entropy via Variational Quantum Circuits with Classical Neural Networks ( http://arxiv.org/abs/2307.13511v1 )

ライセンス: Link先を確認
Sangyun Lee, Hyukjoon Kwon, Jae Sung Lee(参考訳) エントロピーは、古典的領域と量子的領域を含む物理学と情報科学の両方において重要な役割を果たす。 本稿では,量子状態のフォン・ノイマンとレーニのエントロピーを推定するために,古典的ニューラルネットワーク(NN)と変分量子回路を組み合わせた新しいアプローチである量子ニューラルエントロピー推定器(QNEE)を提案する。 QNEEはエントロピーの正確な推定を提供し、入力密度行列の固有値と固有状態も得られる。 古典的NNの能力を活用して、QNEEは絡み合いエントロピーの変化に伴う量子系の異なる位相を分類することができる。 数値シミュレーションにより1D XXZ Heisenbergモデルに適用し,QNEEの有効性を示した。 特に、QNEEは相転移点付近のエンタングルメントエントロピーの推定において高い感度を示す。 我々はQNEEが量子エントロピー推定と位相分類の貴重なツールになることを期待している。

Entropy plays a crucial role in both physics and information science, encompassing classical and quantum domains. In this work, we present the Quantum Neural Entropy Estimator (QNEE), a novel approach that combines classical neural network (NN) with variational quantum circuits to estimate the von Neumann and Renyi entropies of a quantum state. QNEE provides accurate estimates of entropy while also yielding the eigenvalues and eigenstates of the input density matrix. Leveraging the capabilities of classical NN, QNEE can classify different phases of quantum systems that accompany the changes of entanglement entropy. Our numerical simulation demonstrates the effectiveness of QNEE by applying it to the 1D XXZ Heisenberg model. In particular, QNEE exhibits high sensitivity in estimating entanglement entropy near the phase transition point. We expect that QNEE will serve as a valuable tool for quantum entropy estimation and phase classification.
翻訳日:2023-07-26 16:58:21 公開日:2023-07-25
# HeightFormer:バードアイビューにおけるカメラのみの3次元物体検出のための余分なデータのない明示的な高さモデリング

HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird's Eye View ( http://arxiv.org/abs/2307.13510v1 )

ライセンス: Link先を確認
Yiming Wu, Ruixiang Li, Zequn Qin, Xinhai Zhao, Xi Li(参考訳) 視覚に基づくバードズ・アイ・ビュー(bev)表現は、自動運転のための新たな認識定式化である。 中心となる課題は、マルチカメラ機能を備えたbev空間を構築することだ。 従来のBEV表現生成手法に分割すると,そのほとんどはイメージビューの深度をモデル化するか,BEV空間の高さをモデル化するかの2つのタイプに分類される。 そこで本研究では,lidarのような余分なデータを必要としず,モデリング深度に比べて任意のカメラリグやタイプに適合するbev空間の高さを明示的にモデル化することを提案する。 理論的には,高さ法と深さ法との等価性を示す。 そこで本研究では,高さと不確かさを自己再帰的にモデル化するハイプフォーマーを提案する。 追加のデータがなければ、提案されたHeightFormerはBEVの高度を正確に見積もることができる。 ベンチマークの結果,HeightFormerの性能はカメラのみの手法と比較してSOTAを実現していることがわかった。

Vision-based Bird's Eye View (BEV) representation is an emerging perception formulation for autonomous driving. The core challenge is to construct BEV space with multi-camera features, which is a one-to-many ill-posed problem. Diving into all previous BEV representation generation methods, we found that most of them fall into two types: modeling depths in image views or modeling heights in the BEV space, mostly in an implicit way. In this work, we propose to explicitly model heights in the BEV space, which needs no extra data like LiDAR and can fit arbitrary camera rigs and types compared to modeling depths. Theoretically, we give proof of the equivalence between height-based methods and depth-based methods. Considering the equivalence and some advantages of modeling heights, we propose HeightFormer, which models heights and uncertainties in a self-recursive way. Without any extra data, the proposed HeightFormer could estimate heights in BEV accurately. Benchmark results show that the performance of HeightFormer achieves SOTA compared with those camera-only methods.
翻訳日:2023-07-26 16:58:05 公開日:2023-07-25
# IBM量子ハードウェアにおけるTransmon Qudit測定の改善

Improving Transmon Qudit Measurement on IBM Quantum Hardware ( http://arxiv.org/abs/2307.13504v1 )

ライセンス: Link先を確認
Tobias Kehrer, Tobias Nadolny, Christoph Bruder(参考訳) 物理量子ビットのヒルベルト空間は典型的に2つのエネルギー準位を持つ。 量子ビット部分空間の外側の状態を使用すれば、量子計算の利点が得られる。 これらの利点の恩恵を受けるために、d$-次元のヒルベルト空間の個々の状態は読み出し中に適切に判別されなければならない。 トランスモンqudit状態の識別性を向上させる2つの計測戦略を提案し,解析する。 ibm量子デバイスの読み出しを記述するモデルに基づいて、どちらの戦略もqudit状態のドライブ周波数依存性の割り当て誤差を最小化し、デフォルト測定と比較することを目的としている。 さらに,2光子遷移を利用した高階の$X$-gateをキューディット状態の準備に用いることを提案する。

The Hilbert space of a physical qubit typically features more than two energy levels. Using states outside the qubit subspace can provide advantages in quantum computation. To benefit from these advantages, individual states of the $d$-dimensional qudit Hilbert space have to be discriminated properly during readout. We propose and analyze two measurement strategies that improve the distinguishability of transmon qudit states. Based on a model describing the readout of IBM Quantum devices, both strategies aim to minimize drive-frequency dependent assignment errors of qudit states and are compared to the default measurement. In addition, we propose to employ higher-order $X$-gates that make use of two-photon transitions for qudit state preparation.
翻訳日:2023-07-26 16:57:46 公開日:2023-07-25
# 不規則時系列に対する連続時間証拠分布

Continuous Time Evidential Distributions for Irregular Time Series ( http://arxiv.org/abs/2307.13503v1 )

ライセンス: Link先を確認
Taylor W. Killian, Haoran Zhang, Thomas Hartvigsen, Ava P. Amini(参考訳) 医療や不規則な時系列など、多くの現実の環境では、予測を定式化するのが難しい。 観測が散発的である場合、その特徴の値がいつ観測されたかによって様々な値を取る可能性があるため、任意の時点における特徴の値の推測は困難である。 この不確実性を特徴づけるために,不規則な時系列上で連続的に明らかな分布を学習する戦略であるEDICTを提案する。 この分布は、不規則な観察のために時間的に不確実性を広げながら、興味のある時点で部分的に観察される特徴を適切に校正し、柔軟な推測を可能にする。 EDICTは,課題のある時系列分類タスクにおいて競合性能を達成し,ノイズデータに遭遇する際の不確実性誘導推論を可能にすることを実証した。

Prevalent in many real-world settings such as healthcare, irregular time series are challenging to formulate predictions from. It is difficult to infer the value of a feature at any given time when observations are sporadic, as it could take on a range of values depending on when it was last observed. To characterize this uncertainty we present EDICT, a strategy that learns an evidential distribution over irregular time series in continuous time. This distribution enables well-calibrated and flexible inference of partially observed features at any time of interest, while expanding uncertainty temporally for sparse, irregular observations. We demonstrate that EDICT attains competitive performance on challenging time series classification tasks and enabling uncertainty-guided inference when encountering noisy data.
翻訳日:2023-07-26 16:57:32 公開日:2023-07-25
# 強固な目標に基づく富管理のための深層強化学習

Deep Reinforcement Learning for Robust Goal-Based Wealth Management ( http://arxiv.org/abs/2307.13501v1 )

ライセンス: Link先を確認
Tessa Bauman, Bruno Ga\v{s}perov, Stjepan Begu\v{s}i\'c, and Zvonko Kostanj\v{c}ar(参考訳) ゴールベースの投資は、特定の財政目標を達成することを優先する富管理へのアプローチである。 目標が達成されるまで適切な投資を選択する必要があるため、逐次的な意思決定問題として自然に定式化される。 その結果、逐次意思決定に適した機械学習技術である強化学習は、これらの投資戦略を最適化するための有望な道を提供する。 本稿では,深層強化学習に基づく強固な目標ベースの富管理手法を提案する。 実験の結果, 市場データと市場データの両方において, 目標ベースの富管理ベンチマークが優れていることが示された。

Goal-based investing is an approach to wealth management that prioritizes achieving specific financial goals. It is naturally formulated as a sequential decision-making problem as it requires choosing the appropriate investment until a goal is achieved. Consequently, reinforcement learning, a machine learning technique appropriate for sequential decision-making, offers a promising path for optimizing these investment strategies. In this paper, a novel approach for robust goal-based wealth management based on deep reinforcement learning is proposed. The experimental results indicate its superiority over several goal-based wealth management benchmarks on both simulated and historical market data.
翻訳日:2023-07-26 16:57:20 公開日:2023-07-25
# 不均一グラフニューラルネットワークを用いたマネーロンダラーの探索

Finding Money Launderers Using Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2307.13499v1 )

ライセンス: Link先を確認
Fredrik Johannessen and Martin Jullum(参考訳) 現在のアンチマネーロンダリング(AML)システムは、主にルールベースであり、マネーロンダリングの事例を効率的かつ正確に検出する際、顕著な欠点を示す。 その結果、特に機械学習を利用した代替アプローチの探求が最近進んでいる。 犯罪者はしばしばマネーロンダリングの努力で協力するので、様々な種類の顧客関係やリンクの会計が重要になる。 これに合わせて,ノルウェー最大の銀行であるDNBに属する実世界の銀行取引とビジネスロールデータから構築された巨大不均一ネットワーク内のマネーロンダリング活動を特定するためのグラフニューラルネットワーク(GNN)手法を提案する。 具体的には、MPNN(Message Passing Neural Network)と呼ばれる同種GNN法を拡張し、異種グラフ上で効果的に動作させる。 この手順の一環として,グラフの異なるエッジにまたがるメッセージを集約する新しい手法を提案する。 本研究は,異種グラフにおける情報の組み合わせにおいて,適切なGNNアーキテクチャを用いることの重要性を強調した。 本モデルの性能は,銀行がマネーロンダリングの事例を検知する電子監視システムの品質向上に有意な可能性を示している。 我々の知る限りでは、反マネーロンダリングのためにGNNを大規模な実世界の異種ネットワークに適用した最初の論文である。

Current anti-money laundering (AML) systems, predominantly rule-based, exhibit notable shortcomings in efficiently and precisely detecting instances of money laundering. As a result, there has been a recent surge toward exploring alternative approaches, particularly those utilizing machine learning. Since criminals often collaborate in their money laundering endeavors, accounting for diverse types of customer relations and links becomes crucial. In line with this, the present paper introduces a graph neural network (GNN) approach to identify money laundering activities within a large heterogeneous network constructed from real-world bank transactions and business role data belonging to DNB, Norway's largest bank. Specifically, we extend the homogeneous GNN method known as the Message Passing Neural Network (MPNN) to operate effectively on a heterogeneous graph. As part of this procedure, we propose a novel method for aggregating messages across different edges of the graph. Our findings highlight the importance of using an appropriate GNN architecture when combining information in heterogeneous graphs. The performance results of our model demonstrate great potential in enhancing the quality of electronic surveillance systems employed by banks to detect instances of money laundering. To the best of our knowledge, this is the first published work applying GNN on a large real-world heterogeneous network for anti-money laundering purposes.
翻訳日:2023-07-26 16:57:10 公開日:2023-07-25
# Zshot: エンティティ認識と関係抽出をゼロショットとするオープンソースフレームワーク

Zshot: An Open-source Framework for Zero-Shot Named Entity Recognition and Relation Extraction ( http://arxiv.org/abs/2307.13497v1 )

ライセンス: Link先を確認
Gabriele Picco, Marcos Mart\'inez Galindo, Alberto Purpura, Leopold Fuchs, Vanessa L\'opez, Hoang Thanh Lam(参考訳) Zero-Shot Learning (ZSL) タスクは、訓練中に見られなかったテキストの実体や関係を識別するものである。 特定のドメインにおけるラベル付きデータの不足により,ZSLは重要な研究領域として現れ,近年,その応用が著しく成長している。 大規模な事前訓練言語モデルの出現に伴い、いくつかの新しい手法が提案され、ZSLの性能が大幅に向上した。 研究コミュニティと産業の双方において、最新の手法や事前訓練モデルの開発・アクセシビリティを促進する包括的なZSLフレームワークに対する需要が高まっており、本稿では、上記の課題に対処することを目的としたZSLフレームワークであるZshotを提案する。 我々の主な目的は、異なる最先端のzslメソッドと標準ベンチマークデータセットを比較できるプラットフォームを提供することです。 さらに、標準のSpaCy NLPパイプラインの下で、利用可能なAPIを運用するために、当社のフレームワークを設計しました。 さらに、パイプラインのアンサンブルによる精度の向上や、SpaCy拡張として利用可能な視覚化ユーティリティなど、多くの機能拡張が含まれています。

The Zero-Shot Learning (ZSL) task pertains to the identification of entities or relations in texts that were not seen during training. ZSL has emerged as a critical research area due to the scarcity of labeled data in specific domains, and its applications have grown significantly in recent years. With the advent of large pretrained language models, several novel methods have been proposed, resulting in substantial improvements in ZSL performance. There is a growing demand, both in the research community and industry, for a comprehensive ZSL framework that facilitates the development and accessibility of the latest methods and pretrained models.In this study, we propose a novel ZSL framework called Zshot that aims to address the aforementioned challenges. Our primary objective is to provide a platform that allows researchers to compare different state-of-the-art ZSL methods with standard benchmark datasets. Additionally, we have designed our framework to support the industry with readily available APIs for production under the standard SpaCy NLP pipeline. Our API is extendible and evaluable, moreover, we include numerous enhancements such as boosting the accuracy with pipeline ensembling and visualization utilities available as a SpaCy extension.
翻訳日:2023-07-26 16:56:48 公開日:2023-07-25
# 異常結合をもつ$H\to ZZ$の絡み合いとベル不等式違反

Entanglement and Bell inequalities violation in $H\to ZZ$ with anomalous coupling ( http://arxiv.org/abs/2307.13496v1 )

ライセンス: Link先を確認
Alexander Bernal and Pawe{\l} Caban and Jakub Rembieli\'nski(参考訳) ヒッグス崩壊によって生じる2つのZ$ボソン系に対するベル型不等式の絡み合いと違反について論じる。 h$ と daughter bosons の標準モデル(異常)の結合を超えて考慮するが、全体的なスカラー $zz$ 状態に限定される($h$ が pseudo-scalar コンポーネントを含む可能性を排除している)。 特に、各$z$がさらにフェルミオン-反フェルミオン対に崩壊する場合を考える。 zz$状態が絡み合っており、(異常な)カップリング定数のすべての値に対するcglmp不等式に違反していることが分かる。

We discuss entanglement and violation of Bell-type inequalities for a system of two $Z$ bosons produced in Higgs decays. We take into account beyond the Standard Model (anomalous) coupling between $H$ and daughter bosons but we limit ourselves to an overall scalar $ZZ$ state (we exclude the possibility that $H$ contains a pseudo-scalar component). In particular we consider the case when each $Z$ decays further into fermion-antifermion pair. We find that a $ZZ$ state is entangled and violates the CGLMP inequality for all values of the (anomalous) coupling constant.
翻訳日:2023-07-26 16:56:27 公開日:2023-07-25
# デュエット:効率的でスケーラブルなヒブリド・ネウラル・リレーション・アンダースタンディング

Duet: efficient and scalable hybriD neUral rElation undersTanding ( http://arxiv.org/abs/2307.13494v1 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Yabin Lu, Ziqi Li, Chang Shu, Yu Yan, Donghua Yang(参考訳) 確率分布推定に基づく濃度推定手法は従来の手法と比較して高精度な推定結果を得た。 しかし、最も先進的な手法は、レンジクエリを扱う際に使用するサンプリング手法により、高い推定コストに悩まされる。 また,このようなサンプリング手法では区別が困難であり,問合せ作業からの監視信号はモデルの訓練が困難となり,濃度推定の精度が向上する。 本稿では,従来の手法に比べて効率とスケーラビリティがよい濃度推定問題に対して,新しいハイブリッド・決定論的モデリング手法(Duet)を提案する。 デュエットは、時間とメモリコストを大幅に低減したレンジクエリの直接濃度推定と、微分可能な形式を可能にする。 このアプローチの予測過程が微分可能であるため,モデル推定誤差が大きいクエリをトレーニングプロセスに組み込むことで,高次元テーブル上でのモデル推定誤差の長期分布問題に対処することができる。 従来のデータセットとベンチマークに基づいてDuetを評価し,Duetの有効性を実証した。

Cardinality estimation methods based on probability distribution estimation have achieved high-precision estimation results compared to traditional methods. However, the most advanced methods suffer from high estimation costs due to the sampling method they use when dealing with range queries. Also, such a sampling method makes them difficult to differentiate, so the supervision signal from the query workload is difficult to train the model to improve the accuracy of cardinality estimation. In this paper, we propose a new hybrid and deterministic modeling approach (Duet) for the cardinality estimation problem which has better efficiency and scalability compared to previous approaches. Duet allows for direct cardinality estimation of range queries with significantly lower time and memory costs, as well as in a differentiable form. As the prediction process of this approach is differentiable, we can incorporate queries with larger model estimation errors into the training process to address the long-tail distribution problem of model estimation errors on high dimensional tables. We evaluate Duet on classical datasets and benchmarks, and the results prove the effectiveness of Duet.
翻訳日:2023-07-26 16:56:16 公開日:2023-07-25
# NormAUG:領域一般化のための正規化誘導拡張

NormAUG: Normalization-guided Augmentation for Domain Generalization ( http://arxiv.org/abs/2307.13492v1 )

ライセンス: Link先を確認
Lei Qi, Hongpeng Yang, Yinghuan Shi, Xin Geng(参考訳) 深層学習は教師あり学習において大きな進歩を遂げた。 しかしながら、この環境でトレーニングされたモデルは、トレーニングとテストセットの間のドメインシフトによってしばしば課題に直面し、テスト中のパフォーマンスが大幅に低下する。 この問題に対処するために、複数のトレーニングドメインから堅牢でドメイン不変な特徴を学習するために、いくつかのドメイン一般化手法が開発されている。 データ拡張は、トレーニングデータの多様性を高めることで、この目標を達成する上で重要な役割を果たす。 本稿では,各領域の異なるバッチによって生成される異なる統計量による画像の正規化が特徴を乱すことができるという観察に着想を得て,NormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。 本手法は,主経路と補助(拡張)経路の2つの経路を含む。 訓練中、補助経路は複数のサブパスを含み、それぞれが単一のドメインのバッチ正規化や複数のドメインのランダムな組み合わせに対応する。 これは機能レベルで多様な情報を導入し、メインパスの一般化を改善する。 さらに,NomAUG法は理論的な観点から,既存の上界の一般化を効果的に抑制する。 テスト段階では,モデルの補助経路からの予測を組み合わせるためにアンサンブル戦略を活用し,さらなる性能向上を図る。 提案手法の有効性を検証するために,複数のベンチマークデータセット上で広範な実験を行った。

Deep learning has made significant advancements in supervised learning. However, models trained in this setting often face challenges due to domain shift between training and test sets, resulting in a significant drop in performance during testing. To address this issue, several domain generalization methods have been developed to learn robust and domain-invariant features from multiple training domains that can generalize well to unseen test domains. Data augmentation plays a crucial role in achieving this goal by enhancing the diversity of the training data. In this paper, inspired by the observation that normalizing an image with different statistics generated by different batches with various domains can perturb its feature, we propose a simple yet effective method called NormAUG (Normalization-guided Augmentation). Our method includes two paths: the main path and the auxiliary (augmented) path. During training, the auxiliary path includes multiple sub-paths, each corresponding to batch normalization for a single domain or a random combination of multiple domains. This introduces diverse information at the feature level and improves the generalization of the main path. Moreover, our NormAUG method effectively reduces the existing upper boundary for generalization based on theoretical perspectives. During the test stage, we leverage an ensemble strategy to combine the predictions from the auxiliary path of our model, further boosting performance. Extensive experiments are conducted on multiple benchmark datasets to validate the effectiveness of our proposed method.
翻訳日:2023-07-26 16:55:59 公開日:2023-07-25
# スペクトル誘導多面体参照ビデオオブジェクトセグメンテーション

Spectrum-guided Multi-granularity Referring Video Object Segmentation ( http://arxiv.org/abs/2307.13537v1 )

ライセンス: Link先を確認
Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian(参考訳) 現在の参照ビデオオブジェクトセグメンテーション(r-vos)技術は、符号化された(低解像度)視覚言語の特徴から条件付きカーネルを抽出する。 その結果、セグメンテーション・カーネルが前方計算中に知覚しづらい重要な特徴のドリフトを引き起こすことが判明した。 これはセグメンテーションカーネルの能力に悪影響を及ぼす。 ドリフト問題に対処するために,sgmg(spectrum-guided multi-granularity)アプローチを提案する。 さらに、スペクトル領域におけるフレーム内グローバルな相互作用を効果的に表現するためのスペクトル誘導クロスモーダルフュージョン(SCF)を提案する。 最後に、ビデオ内の複数の参照オブジェクトの同時セグメンテーションを可能にする新しいパラダイムであるマルチオブジェクトR-VOSを実行するためにSgMgを拡張する。 これはR-VOSを高速化するだけでなく、実用性も向上する。 大規模な実験によると、SgMgは4つのビデオベンチマークデータセットで最先端のパフォーマンスを達成し、Ref-YouTube-VOSで2.8%の差で競合相手を上回っている。 我々の拡張SgMgはマルチオブジェクトR-VOSを実現し、良好な性能を維持しながら約3倍高速に動作します。 コードはhttps://github.com/bo-miao/SgMgで入手できる。

Current referring video object segmentation (R-VOS) techniques extract conditional kernels from encoded (low-resolution) vision-language features to segment the decoded high-resolution features. We discovered that this causes significant feature drift, which the segmentation kernels struggle to perceive during the forward computation. This negatively affects the ability of segmentation kernels. To address the drift problem, we propose a Spectrum-guided Multi-granularity (SgMg) approach, which performs direct segmentation on the encoded features and employs visual details to further optimize the masks. In addition, we propose Spectrum-guided Cross-modal Fusion (SCF) to perform intra-frame global interactions in the spectral domain for effective multimodal representation. Finally, we extend SgMg to perform multi-object R-VOS, a new paradigm that enables simultaneous segmentation of multiple referred objects in a video. This not only makes R-VOS faster, but also more practical. Extensive experiments show that SgMg achieves state-of-the-art performance on four video benchmark datasets, outperforming the nearest competitor by 2.8% points on Ref-YouTube-VOS. Our extended SgMg enables multi-object R-VOS, runs about 3 times faster while maintaining satisfactory performance. Code is available at https://github.com/bo-miao/SgMg.
翻訳日:2023-07-26 16:47:58 公開日:2023-07-25
# スパース主成分分析のアルゴリズムと障壁は、他の構造化設定にも拡張できるか?

Do algorithms and barriers for sparse principal component analysis extend to other structured settings? ( http://arxiv.org/abs/2307.13535v1 )

ライセンス: Link先を確認
Guanyi Wang, Mengqi Lou, Ashwin Pananjady(参考訳) 本研究では、信号の構造をサブスペースの和合モデルによって捉えたスパイクド・ウィッシュアートモデルに基づく主成分分析問題について検討する。 この一般的なクラスは、バニラスパースPCAと、グラフ空間の変動を含む。 これらの問題を統一的な統計・計算レンズで研究することを目的として,問題インスタンスの形状に依存する基本的な限界を定式化し,その解の統計的に最適に近い近傍に局所収束することを示す。 これらの結果は,パスとツリーの疎結合によって与えられる2つの重要な特殊ケースを概ねエンドツーエンドで解析し,初期化法と計算硬度の整合性を示す。 以上の結果から,バニラスパースPCAで観察される現象のいくつかは,自然にその構造に反するものであることが示唆された。

We study a principal component analysis problem under the spiked Wishart model in which the structure in the signal is captured by a class of union-of-subspace models. This general class includes vanilla sparse PCA as well as its variants with graph sparsity. With the goal of studying these problems under a unified statistical and computational lens, we establish fundamental limits that depend on the geometry of the problem instance, and show that a natural projected power method exhibits local convergence to the statistically near-optimal neighborhood of the solution. We complement these results with end-to-end analyses of two important special cases given by path and tree sparsity in a general basis, showing initialization methods and matching evidence of computational hardness. Overall, our results indicate that several of the phenomena observed for vanilla sparse PCA extend in a natural fashion to its structured counterparts.
翻訳日:2023-07-26 16:47:37 公開日:2023-07-25
# 微分可能な乱流II

Differentiable Turbulence II ( http://arxiv.org/abs/2307.13533v1 )

ライセンス: Link先を確認
Varun Shankar, Romit Maulik, Venkatasubramanian Viswanathan(参考訳) 微分可能な流体シミュレータは、計算流体力学(CFD)におけるデータ駆動モデルの開発に有用なツールとして、ますます価値を誇示している。 CFDソリューションアルゴリズムに組み込まれた機械学習モデル(ML)のエンドツーエンドトレーニングである微分乱流は、物理ベースのシミュレーションの一般化パワーと制限された事前コストの両方をキャプチャし、ディープラーニングメソッドの柔軟性と自動トレーニングを行う。 我々は,ディープラーニングモデルをNavier-Stokes方程式を解くための汎用有限要素数値スキームに統合するためのフレームワークを開発し,マルチスケールグラフニューラルネットワークを用いてサブグリッドスケールクロージャを学習する手法を適用した。 本手法は,逆向きのステップ上での流れを複数実現し,未知のレイノルズ数と新しい幾何学の両方をテストする。 学習したクロージャは、より微細なグリッド上の従来の大規模渦シミュレーションに匹敵する精度で10倍のスピードアップを達成できることを示す。 より安価なCFDシミュレーションの欲求とニーズが高まるにつれて、近い将来、ハイブリッド物理-ML手法が活用される道のりとして見なされる。

Differentiable fluid simulators are increasingly demonstrating value as useful tools for developing data-driven models in computational fluid dynamics (CFD). Differentiable turbulence, or the end-to-end training of machine learning (ML) models embedded in CFD solution algorithms, captures both the generalization power and limited upfront cost of physics-based simulations, and the flexibility and automated training of deep learning methods. We develop a framework for integrating deep learning models into a generic finite element numerical scheme for solving the Navier-Stokes equations, applying the technique to learn a sub-grid scale closure using a multi-scale graph neural network. We demonstrate the method on several realizations of flow over a backwards-facing step, testing on both unseen Reynolds numbers and new geometry. We show that the learned closure can achieve accuracy comparable to traditional large eddy simulation on a finer grid that amounts to an equivalent speedup of 10x. As the desire and need for cheaper CFD simulations grows, we see hybrid physics-ML methods as a path forward to be exploited in the near future.
翻訳日:2023-07-26 16:47:21 公開日:2023-07-25
# Re-mine, Learn and Reason: 言語誘導HOI検出のためのクロスモーダルセマンティック相関の探索

Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection ( http://arxiv.org/abs/2307.13529v1 )

ライセンス: Link先を確認
Yichao Cao, Xiu Su, Qingfei Tang, Feng Yang, Shan You, Xiaobo Lu and Chang Xu(参考訳) ヒューマン・オブジェクト・インタラクション(human-object interaction, hoi)は、人間と物体の複雑な対話的関係に対処し、hoiトリプルトを予測する視覚モデルを必要とするコンピュータビジョンタスクである。 多くの相互作用の組み合わせによってもたらされる課題にもかかわらず、視覚テキストのマルチモーダル学習の機会を提供する。 本稿では,構造化テキスト知識を取り入れることで,hoi検出を強化する体系的統一フレームワーク(rmlr)を提案する。 Firstly, we qualitatively and quantitatively analyze the loss of interaction information in the two-stage HOI detector and propose a re-mining strategy to generate more comprehensive visual representation.Secondly, we design more fine-grained sentence- and word-level alignment and knowledge transfer strategies to effectively address the many-to-many matching problem between multiple interactions and multiple texts.These strategies alleviate the matching confusion problem that arises when multiple interactions occur simultaneously, thereby improving the effectiveness of the alignment process. 最後に、テキスト知識を付加した視覚特徴によるHOI推論は、インタラクションの理解を大幅に改善する。 実験結果は,公開ベンチマークにおいて最先端のパフォーマンスが達成される手法の有効性を示す。 さらに,このアプローチのさまざまなコンポーネントの効果を解析し,その効果について考察する。

Human-Object Interaction (HOI) detection is a challenging computer vision task that requires visual models to address the complex interactive relationship between humans and objects and predict HOI triplets. Despite the challenges posed by the numerous interaction combinations, they also offer opportunities for multimodal learning of visual texts. In this paper, we present a systematic and unified framework (RmLR) that enhances HOI detection by incorporating structured text knowledge. Firstly, we qualitatively and quantitatively analyze the loss of interaction information in the two-stage HOI detector and propose a re-mining strategy to generate more comprehensive visual representation.Secondly, we design more fine-grained sentence- and word-level alignment and knowledge transfer strategies to effectively address the many-to-many matching problem between multiple interactions and multiple texts.These strategies alleviate the matching confusion problem that arises when multiple interactions occur simultaneously, thereby improving the effectiveness of the alignment process. Finally, HOI reasoning by visual features augmented with textual knowledge substantially improves the understanding of interactions. Experimental results illustrate the effectiveness of our approach, where state-of-the-art performance is achieved on public benchmarks. We further analyze the effects of different components of our approach to provide insights into its efficacy.
翻訳日:2023-07-26 16:47:02 公開日:2023-07-25
# FacTool: 生成AIにおける顔検出 - マルチタスクとマルチドメインシナリオのためのツール拡張フレームワーク

FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios ( http://arxiv.org/abs/2307.13528v1 )

ライセンス: Link先を確認
I-Chun Chern, Steffi Chern, Shiqi Chen, Weizhe Yuan, Kehua Feng, Chunting Zhou, Junxian He, Graham Neubig, Pengfei Liu(参考訳) 生成的事前学習モデルの出現は高品質テキストの合成を促進させたが、生成したテキストの事実的誤りを特定する上での課題も生じている。 特に,(1)より広い範囲のタスクが生成モデルによって処理された場合に,事実エラーを含むリスクが増大している。 2) 生成テキストは長大であり, 個々の事実に対して明確な粒度が欠如している。 (3)事実確認の過程で明らかな証拠が不足している。 上記の課題を念頭に,本稿では,大規模言語モデル(ChatGPTなど)が生成するテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。 4つの異なるタスク(知識ベースQA、コード生成、数学的推論、科学的文献レビュー)の実験は、提案手法の有効性を示している。

The emergence of generative pre-trained models has facilitated the synthesis of high-quality text, but it has also posed challenges in identifying factual errors in the generated text. In particular: (1) A wider range of tasks now face an increasing risk of containing factual errors when handled by generative models. (2) Generated texts tend to be lengthy and lack a clearly defined granularity for individual facts. (3) There is a scarcity of explicit evidence available during the process of fact checking. With the above challenges in mind, in this paper, we propose FacTool, a task and domain agnostic framework for detecting factual errors of texts generated by large language models (e.g., ChatGPT). Experiments on four different tasks (knowledge-based QA, code generation, mathematical reasoning, and scientific literature review) show the efficacy of the proposed method.
翻訳日:2023-07-26 16:46:44 公開日:2023-07-25
# 俺の名前じゃない! 拡散モデルを用いた入力文字列のアーティスト名の推定

Not with my name! Inferring artists' names of input strings employed by Diffusion Models ( http://arxiv.org/abs/2307.13527v1 )

ライセンス: Link先を確認
Roberto Leotta, Oliver Giudice, Luca Guarnera, Sebastiano Battiato(参考訳) 拡散モデル(DM)はリアルで高品質な画像を生成するのに非常に効果的である。 しかし、これらのモデルは創造性に欠けており、作成時に提供されるテキスト入力によって導かれるトレーニングデータに基づいて出力を構成するだけである。 彼の名前を入力として、アーティストのイメージを生成することは受け入れられますか? これは、もしdmがアーティストの作品を複製できるなら、彼の作品の一部または全てで訓練され、著作権に違反していることを意味する。 本稿では,生成画像の入力文字列におけるアーティスト名の使用確率を推定する予備的研究について述べる。 そこで我々は,有名なDALL-E 2が生成した画像のみに焦点をあて,著名な5人のアーティストのイメージ(オリジナルと生成の両方)を収集した。 最後に、シームズニューラルネットワークが第一種確率を持つために採用された。 実験の結果,本手法は最適な出発点であり,検討した画像の完全入力文字列の予測に先立って適用可能であることが示された。 データセットとコードは、https://github.com/ictlab-unict/not-with-my-name。

Diffusion Models (DM) are highly effective at generating realistic, high-quality images. However, these models lack creativity and merely compose outputs based on their training data, guided by a textual input provided at creation time. Is it acceptable to generate images reminiscent of an artist, employing his name as input? This imply that if the DM is able to replicate an artist's work then it was trained on some or all of his artworks thus violating copyright. In this paper, a preliminary study to infer the probability of use of an artist's name in the input string of a generated image is presented. To this aim we focused only on images generated by the famous DALL-E 2 and collected images (both original and generated) of five renowned artists. Finally, a dedicated Siamese Neural Network was employed to have a first kind of probability. Experimental results demonstrate that our approach is an optimal starting point and can be employed as a prior for predicting a complete input string of an investigated image. Dataset and code are available at: https://github.com/ictlab-unict/not-with-my-name .
翻訳日:2023-07-26 16:46:30 公開日:2023-07-25
# 量子フォトニック系における不均衡利得と損失

Unbalanced gain and loss in a quantum photonic system ( http://arxiv.org/abs/2307.13526v1 )

ライセンス: Link先を確認
C. A. Downing and O. I. R. Fox(参考訳) 物理学の理論は、調査中の物理系のある種の地図を提供し、起こりうる全ての種類の振る舞いを示すことができる。 マップ上の特定の点は、システムがどのように役立つか、興味深い方法で反応するかを記述するため、他のものよりも重要である。 例えば、共鳴点(英: point of resonance)は、スウィングに座った人物へのプッシュのタイミングを判断するときに特に重要である。 より高度に、いわゆる例外点は、通常非エルミート的ハミルトニアンによって記述されるように、ゲインと損失の両方を収容する光学系において重要であることが示されている。 しかし、量子フォトニクス系で生じる量子的興味点(例外点かそれ以外)は、はるかに研究されていない。 ここでは、1組の結合量子ビットが利得と損失のバランスの取れない比を受けるというパラダイムモデルを考える。 我々は、その地図上に、例外的かつ臨界的な点のいくつかの風味をマークし、それぞれが非伝統的な物理応答と関連付けられている。 特に、特性スペクトルの特徴と定常状態における量子エンタングルメントの突然の損失に起因した点を明らかにする。 本研究は,非エルミート型ハミルトニアンを超えて量子フォトニックシステムを特徴づける視点を提供し,本質的に興味のある量子点の階層を示唆する。

Theories in physics can provide a kind of map of the physical system under investigation, showing all of the possible types of behavior which may occur. Certain points on the map are of greater significance than others, because they describe how the system responds in a useful or interesting manner. For example, the point of resonance is of particular importance when timing the pushes onto a person sat on a swing. More sophisticatedly, so-called exceptional points have been shown to be significant in optical systems harbouring both gain and loss, as typically described by non-Hermitian Hamiltonians. However, expressly quantum points of interest -- be they exceptional points or otherwise -- arising in quantum photonic systems have been far less studied. Here we consider a paradigmatic model: a pair of coupled qubits subjected to an unbalanced ratio of gain and loss. We mark on its map several flavours of both exceptional and critical points, each of which are associated with unconventional physical responses. In particular, we uncover the points responsible for characteristic spectral features and for the sudden loss of quantum entanglement in the steady state. Our results provide perspectives for characterizing quantum photonic systems beyond effective non-Hermitian Hamiltonians, and suggest a hierarchy of intrinsically quantum points of interest.
翻訳日:2023-07-26 16:46:13 公開日:2023-07-25
# 3量子量子ドットスピン系における長距離光子媒介及び短距離エンタングルゲート

Long-distance photon-mediated and short-distance entangling gates in three-qubit quantum dot spin systems ( http://arxiv.org/abs/2307.13523v1 )

ライセンス: Link先を確認
Nooshin M. Estakhri, Ada Warren, Sophia E. Economou, Edwin Barnes(参考訳) 超伝導マイクロ波共振器結合器は、量子ビットの数が増加するにつれてクロストークや配線の問題を軽減するため、モジュラー半導体量子ドット(QD)スピン量子ビットプロセッサにおいて不可欠なコンポーネントとなる。 ここでは、2電子三重qd共振器と1電子二重qdを結合した2つのモジュールからなる3量子システムに焦点を当てる。 解析手法と数値結果の組み合わせを用いて, 3量子ビット論理部分空間を記述する効果的なハミルトニアンを導出し, システムのダイナミクスを正確に捉えることを示す。 短距離および長距離エンタングリングゲートの性能について検討し, 両症例におけるゲートフィダリティの低減に, スペクタキュービットが与える影響を明らかにする。 さらに, 近距離動作における非断熱誤差とオブザーバ関連誤差の競合について検討し, その相対的重要性を, 短期ゲート時間と長期ゲート時間で比較検討する。 また,モジュール間絡み込みゲートにおける観測器量子ビットへの残差結合とともに電荷ノイズの影響を解析し,現在の実験環境では漏洩誤差が主な不適合源であることを示す。 本研究は半導体チップ上での量子情報処理に最適なモジュラーqdアーキテクチャの同定に寄与する。

Superconducting microwave resonator couplers will likely become an essential component in modular semiconductor quantum dot (QD) spin qubit processors, as they help alleviate cross-talk and wiring issues as the number of qubits increases. Here, we focus on a three-qubit system composed of two modules: a two-electron triple QD resonator-coupled to a single-electron double QD. Using a combination of analytical techniques and numerical results, we derive an effective Hamiltonian that describes the three-qubit logical subspace and show that it accurately captures the dynamics of the system. We examine the performance of short-range and long-range entangling gates, revealing the effect of a spectator qubit in reducing the gate fidelities in both cases. We further study the competition between non-adiabatic errors and spectator-associated errors in short-range operations and quantify their relative importance across practical parameter ranges for short and long gate times. We also analyze the impact of charge noise together with residual coupling to the spectator qubit on inter-module entangling gates and find that for current experimental settings, leakage errors are the main source of infidelities in these operations. Our results help pave the way toward identifying optimal modular QD architectures for quantum information processing on semiconductor chips.
翻訳日:2023-07-26 16:45:51 公開日:2023-07-25
# 回転波近似によるスピン-ボーソン模型の量子数相転移

Quatnum Phase transition in the spin-boson model with rotating-wave approximation ( http://arxiv.org/abs/2307.13518v1 )

ライセンス: Link先を確認
H. T. Cui, Y. A. Yan, M. Qin, and X. X. Yi(参考訳) リウィリアヌスに基づく散逸性量子系の相転移の研究は、主に時間-局所マスター方程式に依存しており、系と環境の結合が強くなると達成が困難になる。 この困難を克服するため, 回転波近似の下でのスピン-ボソンモデルの量子相転移を研究するために, 環境に対する複雑な離散化近似を提案する。 このアプローチにより、スピンの正確な力学をシミュレートするために非エルミート有効ハミルトニアンが提案される。 このハミルトニアンの基底状態は単励起部分空間におけるスピンダイナミクスを支配下に置く。 特別な基底状態におけるエネルギーギャップと基底状態の振幅により、3つの異なる位相が識別でき、それぞれスピンの指数的減衰、局所化、中間ダイナミクスを記述することができる。 さらに、これらの位相は二重励起部分空間に拡張されたときの総エネルギーの増加に対して安定である。

The study of phase transition in dissipative quantum systems based on the Liouvillian mostly relies on the time-local master equation, which becomes difficult to attain when the coupling between the system and its environment is strong. To surmount this difficulty, the complex discretization approximation for environment is proposed to study the quantum phase transition in the spin-boson model under rotating-wave approximation. By this approach, a nonhermitian effective Hamiltonian is proposed to simulate the exact dynamics of spin. It is found that the ground state of this Hamiltonian dominates spin dynamics in the single-excitation subspace. Depending on the energy gap and the amplitude of ground state on a special basis state, three distinct phases can be identified, which describe the exponential decaying, localized and intermediate dynamics of spin respectively. Moreover, these phases are stable against the increasing of the total energy when extended to the double-excitation subspace.
翻訳日:2023-07-26 16:45:29 公開日:2023-07-25
# ニューラル演算子を用いた乱流の長期予測に向けて

Towards Long-Term predictions of Turbulence using Neural Operators ( http://arxiv.org/abs/2307.13517v1 )

ライセンス: Link先を確認
Fernando Gonzalez, Fran\c{c}ois-Xavier Demoulin, Simon Bernard(参考訳) 本稿では,FNOモデルに着目し,乱流予測のためのニューラル演算子について検討する。 機械学習を用いた乱流シミュレーションのための低次・サーロゲートモデルの開発を目標としている。 U-NET構造(UNOとU-FNET)は、精度と安定性において標準FNOよりも優れている。 u-fnetは高レイノルズ数での乱流の予測に優れている。 勾配や安定性の損失のような正規化項は、安定かつ正確な予測に不可欠である。 この研究は、流体流予測におけるディープラーニングモデルのメトリクスの改善の必要性を強調している。 さらに研究は、複雑なフローと実用的なベンチマークメトリクスを扱うモデルに焦点を当てるべきである。

This paper explores Neural Operators to predict turbulent flows, focusing on the Fourier Neural Operator (FNO) model. It aims to develop reduced-order/surrogate models for turbulent flow simulations using Machine Learning. Different model configurations are analyzed, with U-NET structures (UNO and U-FNET) performing better than the standard FNO in accuracy and stability. U-FNET excels in predicting turbulence at higher Reynolds numbers. Regularization terms, like gradient and stability losses, are essential for stable and accurate predictions. The study emphasizes the need for improved metrics for deep learning models in fluid flow prediction. Further research should focus on models handling complex flows and practical benchmarking metrics.
翻訳日:2023-07-26 16:45:04 公開日:2023-07-25
# ワイル半金属中のワイルフェルミオンの質量はどのくらいか

How massless are Weyl fermions in Weyl semimetals? ( http://arxiv.org/abs/2307.13562v1 )

ライセンス: Link先を確認
Amar Bharti, Misha Ivanov and Gopal Dixit(参考訳) 円偏光は、縮退したワイルノードを持つ反転対称ワイル半金属の電流を発生させない。 各ノードはそのキラリティーに依存する方向の電流を生成するが、反対キラリティーの2つの縮退ノードの2つの電流は互いにキャンセルする。 拡張により、逆ヘリシティのフィールドによって同じワイルノードで生成される電流もミラー対称性を観測しキャンセルすることが一般的に期待される。 驚いたことに、ここではそうではないことが分かる。 この効果の起源は、線形分散が保持され、したがってワイルフェルミオンが質量を持たないことが期待されるワイルノードに非常に近い非線形エネルギー分散である。 反回転基本と第2高調波からなるトレフォイル場を用いて、キラルノードにおける誘導非対称性をゼロを含む正から負に制御するスキームを提案する。

Circularly polarized light fails to generate currents in inversion-symmetric Weyl semimetals with degenerate Weyl nodes. While each node generates current with the direction depending on its chirality, the two currents in the two degenerate nodes of opposite chirality cancel each other. By extension, it is also generally expected that the currents generated at the same Weyl node by the fields of opposite helicity should also observe mirror symmetry and cancel. Surprisingly, here we find that this is not the case. The origin of this effect lies in the nonlinear energy dispersion, which manifests strongly already very close to the Weyl nodes, where linear dispersion is expected to hold and the Weyl fermions are thus expected to be massless. A scheme based on using a trefoil field composed of a counterrotating fundamental and its second harmonic is proposed to control the induced asymmetry at a chiral node from positive to negative, including zero.
翻訳日:2023-07-26 16:38:46 公開日:2023-07-25
# XDLM:機械翻訳のための言語間拡散言語モデル

XDLM: Cross-lingual Diffusion Language Model for Machine Translation ( http://arxiv.org/abs/2307.13560v1 )

ライセンス: Link先を確認
Linyao Chen, Aosong Feng, Boming Yang, Zihui Li(参考訳) 近年、拡散モデルは画像生成に優れており、制御可能なテキスト生成のためのニューラル言語処理(NLP)にも適用されている。 しかし、言語間セッティングにおける拡散モデルの応用は明らかにされていない。 さらに、拡散モデルによる事前訓練は単一の言語で研究されているが、言語間事前訓練の可能性はまだ検討されていない。 これらのギャップに対処するために,機械翻訳のための新しい言語間拡散モデルであるxdlmを提案する。 事前学習段階では、異なる言語間のマッピングを習得するための新たな学習目標であるTLDMを提案し、微調整段階では、事前学習モデルに基づいて翻訳システムを構築する。 いくつかの機械翻訳ベンチマークで結果を評価し,拡散ベースラインとトランスフォーマーベースラインを比較検討した。

Recently, diffusion models have excelled in image generation tasks and have also been applied to neural language processing (NLP) for controllable text generation. However, the application of diffusion models in a cross-lingual setting is less unexplored. Additionally, while pretraining with diffusion models has been studied within a single language, the potential of cross-lingual pretraining remains understudied. To address these gaps, we propose XDLM, a novel Cross-lingual diffusion model for machine translation, consisting of pretraining and fine-tuning stages. In the pretraining stage, we propose TLDM, a new training objective for mastering the mapping between different languages; in the fine-tuning stage, we build up the translation system based on the pretrained model. We evaluate the result on several machine translation benchmarks and outperformed both diffusion and Transformer baselines.
翻訳日:2023-07-26 16:38:30 公開日:2023-07-25
# 標準表現を用いた領域独立プランナーによるルービックキューブの解法について

On Solving the Rubik's Cube with Domain-Independent Planners Using Standard Representations ( http://arxiv.org/abs/2307.13552v1 )

ライセンス: Link先を確認
Bharath Muppasani, Vishal Pallagani, Biplav Srivastava, Forest Agostinelli(参考訳) ルービックキューブ(英: Rubik's Cube、RC)は、AI研究者が効率的な代替表現や問題解決方法を探求する動機となった、よく知られた、計算的に難しいパズルである。 ここでの計画の理想的な状況は、問題を汎用的な解法とヒューリスティックスを用いて標準表記で最適かつ効率的に表現することである。 rcで現在最も高速に解決できるのは、カスタム表現のdeepcubeaであり、もう1つのアプローチは状態-action-space+ (sas+)表現のscorpion plannerである。 本稿では,PDDL言語における最初のRC表現を提示し,PDDLプランナやコンペティション,知識工学ツールにドメインがよりアクセスしやすくし,より可読性が高いことを示す。 その後、既存のアプローチをブリッジしてパフォーマンスを比較します。 比較実験の結果、deepcubeaは18\%しか最適計画ではないものの、複雑な問題をすべて解決していることがわかった。 同じ問題集合に対して、sas+表現とパターンデータベースヒューリスティックを持つスコーピオンは61.50\%の問題を解決するが、pddl表現とffヒューリスティックは56.50\%の問題を解決する。 本研究は,汎用解法(計画,強化学習),ヒューリスティックス,表現(標準あるいは習慣)を組み合わせた課題領域における今後の戦略設計を支援する,表現選択と計画最適性のトレードオフに関する貴重な知見を提供する。

Rubik's Cube (RC) is a well-known and computationally challenging puzzle that has motivated AI researchers to explore efficient alternative representations and problem-solving methods. The ideal situation for planning here is that a problem be solved optimally and efficiently represented in a standard notation using a general-purpose solver and heuristics. The fastest solver today for RC is DeepCubeA with a custom representation, and another approach is with Scorpion planner with State-Action-Space+ (SAS+) representation. In this paper, we present the first RC representation in the popular PDDL language so that the domain becomes more accessible to PDDL planners, competitions, and knowledge engineering tools, and is more human-readable. We then bridge across existing approaches and compare performance. We find that in one comparable experiment, DeepCubeA solves all problems with varying complexities, albeit only 18\% are optimal plans. For the same problem set, Scorpion with SAS+ representation and pattern database heuristics solves 61.50\% problems, while FastDownward with PDDL representation and FF heuristic solves 56.50\% problems, out of which all the plans generated were optimal. Our study provides valuable insights into the trade-offs between representational choice and plan optimality that can help researchers design future strategies for challenging domains combining general-purpose solving methods (planning, reinforcement learning), heuristics, and representations (standard or custom).
翻訳日:2023-07-26 16:38:18 公開日:2023-07-25
# 性能向上のための計画知識の表現と活用のための計画オントロジー

A Planning Ontology to Represent and Exploit Planning Knowledge for Performance Efficiency ( http://arxiv.org/abs/2307.13549v1 )

ライセンス: Link先を確認
Bharath Muppasani, Vishal Pallagani, Biplav Srivastava, Raghava Mutharaju, Michael N. Huhns, Vignesh Narayanan(参考訳) オントロジは、豊富なメタデータを整理し、セマンティッククエリによる新しい洞察の識別をサポートし、再利用を促進する能力で知られている。 本稿では,世界の初期状態から望ましい目標状態へエージェントを移動させる一連の行動を見つけることを目的として,自動計画の問題点を考察する。 利用可能なプランナと多様なプランナドメインが多数用意されていると仮定し、適切なプランナを特定し、ドメインのパフォーマンスを向上させるために活用できる不可欠な情報を持っている。 国際計画コンペティション(ipc)のプランニングドメインとプランナーのデータを使用して、プランニングオントロジーを構築し、そのオントロジーが有望なプランナーの選択とマクロによるパフォーマンス向上につながる2つのユースケースにおける実験を通じて、プランニングオントロジーから抽出されたアクション順序付け制約の形式である、実証を行う。 また,計画オントロジーと関連するリソースをコミュニティに提供し,さらなる研究を促進する。

Ontologies are known for their ability to organize rich metadata, support the identification of novel insights via semantic queries, and promote reuse. In this paper, we consider the problem of automated planning, where the objective is to find a sequence of actions that will move an agent from an initial state of the world to a desired goal state. We hypothesize that given a large number of available planners and diverse planning domains; they carry essential information that can be leveraged to identify suitable planners and improve their performance for a domain. We use data on planning domains and planners from the International Planning Competition (IPC) to construct a planning ontology and demonstrate via experiments in two use cases that the ontology can lead to the selection of promising planners and improving their performance using macros - a form of action ordering constraints extracted from planning ontology. We also make the planning ontology and associated resources available to the community to promote further research.
翻訳日:2023-07-26 16:37:50 公開日:2023-07-25
# ノードインジェクションリンク盗み攻撃

Node Injection Link Stealing Attack ( http://arxiv.org/abs/2307.13548v1 )

ライセンス: Link先を確認
Oualid Zari, Javier Parra-Arnau, Ay\c{s}e \"Unsal, Melek \"Onen(参考訳) 本稿では,グラフ構造化データ内のプライベートリンクを推定することにより,グラフニューラルネットワーク(GNN)のプライバシ脆弱性を明らかにする,ステルスで効果的な攻撃を提案する。 グラフに新しいノードが加わり、APIが予測をクエリするために使用される帰納的設定に着目し、プライベートエッジ情報の漏洩の可能性を検討する。 モデルユーティリティを維持しながらプライバシを保護する方法も提案する。 我々の攻撃は、最先端技術と比較してリンクを推測する上で優れた性能を示す。 さらに,提案する攻撃の影響を軽減するための差分プライバシー(dp)機構の適用について検討し,プライバシ保護とモデルユーティリティのトレードオフを分析した。 我々の研究は、GNNに固有のプライバシーの脆弱性を強調し、アプリケーションの堅牢なプライバシー保護メカニズムを開発することの重要性を強調しています。

In this paper, we present a stealthy and effective attack that exposes privacy vulnerabilities in Graph Neural Networks (GNNs) by inferring private links within graph-structured data. Focusing on the inductive setting where new nodes join the graph and an API is used to query predictions, we investigate the potential leakage of private edge information. We also propose methods to preserve privacy while maintaining model utility. Our attack demonstrates superior performance in inferring the links compared to the state of the art. Furthermore, we examine the application of differential privacy (DP) mechanisms to mitigate the impact of our proposed attack, we analyze the trade-off between privacy preservation and model utility. Our work highlights the privacy vulnerabilities inherent in GNNs, underscoring the importance of developing robust privacy-preserving mechanisms for their application.
翻訳日:2023-07-26 16:37:32 公開日:2023-07-25
# ポートフォリオ最適化のためのトランスファー学習

Transfer Learning for Portfolio Optimization ( http://arxiv.org/abs/2307.13546v1 )

ライセンス: Link先を確認
Haoyang Cao, Haotian Gu, Xin Guo and Mathieu Rosenbaum(参考訳) 本研究では、金融ポートフォリオ最適化問題に対処するために、転送学習技術を活用する可能性を検討する。 本稿では,トランスファー学習の最適化フレームワークとして,トランスファーリスクという新しい概念を導入する。 クロスコンチネント転送、クロスセクタ転送、クロス周波数転送の3つのカテゴリから一連の数値実験を行う。 特に 1 転送リスクと転送学習方法の総合的性能との間に強い相関関係が確立され、「伝達可能性」の有効な指標としての転送リスクの重要性が強調される。 2 転送リスクは、転送学習における適切なソースタスクを特定するための計算効率のよい方法を提供し、転送学習アプローチの効率と効果を高めることが示される。 さらに、数値実験は、これらの異なる設定におけるポートフォリオ管理に価値ある新しい洞察を提供する。

In this work, we explore the possibility of utilizing transfer learning techniques to address the financial portfolio optimization problem. We introduce a novel concept called "transfer risk", within the optimization framework of transfer learning. A series of numerical experiments are conducted from three categories: cross-continent transfer, cross-sector transfer, and cross-frequency transfer. In particular, 1. a strong correlation between the transfer risk and the overall performance of transfer learning methods is established, underscoring the significance of transfer risk as a viable indicator of "transferability"; 2. transfer risk is shown to provide a computationally efficient way to identify appropriate source tasks in transfer learning, enhancing the efficiency and effectiveness of the transfer learning approach; 3. additionally, the numerical experiments offer valuable new insights for portfolio management across these different settings.
翻訳日:2023-07-26 16:37:18 公開日:2023-07-25
# ネットワークにおける効率的な動的ランキングモデル

A model for efficient dynamical ranking in networks ( http://arxiv.org/abs/2307.13544v1 )

ライセンス: Link先を確認
Andrea Della Vecchia, Kibidi Neocosmos, Daniel B. Larremore, Cristopher Moore and Caterina De Bacco(参考訳) 本稿では,2つの相互作用の結果とタイミングを相互に反映した,有向時間帯ネットワークにおける動的ランク付けを推算する物理に着想を得た手法を提案する。 各ノードの推測されたランキングは実数値であり、新たなエッジとして時間とともに異なり、勝利や負けなどの結果がエンコードされ、ゲームやトーナメント、動物の階層内の相互作用といった実際のシナリオでよく見られるように、ノードの推定強度や威信を上昇または低下させる。 本手法は線形方程式系を解き、調整するパラメータは1つだけである。 その結果、対応するアルゴリズムはスケーラブルで効率的である。 合成データと実データの両方を含む様々なアプリケーションにおける相互作用(エッジの存在)とその結果(エッジの方向)を予測する能力を評価することにより,本手法を検証した。 分析の結果,我々の手法の性能は,動的ランキングやインタラクションの結果を予測する既存の手法よりも優れていることがわかった。

We present a physics-inspired method for inferring dynamic rankings in directed temporal networks - networks in which each directed and timestamped edge reflects the outcome and timing of a pairwise interaction. The inferred ranking of each node is real-valued and varies in time as each new edge, encoding an outcome like a win or loss, raises or lowers the node's estimated strength or prestige, as is often observed in real scenarios including sequences of games, tournaments, or interactions in animal hierarchies. Our method works by solving a linear system of equations and requires only one parameter to be tuned. As a result, the corresponding algorithm is scalable and efficient. We test our method by evaluating its ability to predict interactions (edges' existence) and their outcomes (edges' directions) in a variety of applications, including both synthetic and real data. Our analysis shows that in many cases our method's performance is better than existing methods for predicting dynamic rankings and interaction outcomes.
翻訳日:2023-07-26 16:37:04 公開日:2023-07-25
# コンピュータビジョンにおけるグループ活動認識:包括的レビュー,課題,今後の展望

Group Activity Recognition in Computer Vision: A Comprehensive Review, Challenges, and Future Perspectives ( http://arxiv.org/abs/2307.13541v1 )

ライセンス: Link先を確認
Chuanchuan Wang, Ahmad Sufril Azlan Mohamed(参考訳) グループ活動認識はコンピュータビジョンにおけるホットトピックである。 グループ関係を通じた活動の認識はグループ活動認識において重要な役割を担っている。 ビデオ分析、監視、自動運転、社会活動の理解など、様々なシナリオにおいて実践的な意味を持つ。 モデルの主要な機能は、シーン内の階層的関係を効率的にモデル化し、グループから特有の時空間的特徴を正確に抽出する。 この技術の広範な適用性を考えると、グループ活動の特定は大きな研究の注目を集めている。 本研究は,グローバルな対話性と活動に焦点をあて,グループ活動の認識技術の現状を考察する。 まず,従来の手法から,空間構造,記述子,非深層学習,階層的リカレントニューラルネットワーク(HRNN),関係モデル,アテンション機構に基づく最新の手法に至るまで,関連する文献やグループ活動認識アプローチを網羅的にレビューする。 次に,各モジュールのリレーショナルネットワークとリレーショナルアーキテクチャについて述べる。 第3に,グループ活動の認識手法を調査し,その性能を最先端技術と比較する。 既存の課題を要約し,グループ活動認識を理解するための包括的ガイダンスを提供する。 さらに,グループ活動認識における新たな視点を考察し,新たな方向性と可能性を探る。

Group activity recognition is a hot topic in computer vision. Recognizing activities through group relationships plays a vital role in group activity recognition. It holds practical implications in various scenarios, such as video analysis, surveillance, automatic driving, and understanding social activities. The model's key capabilities encompass efficiently modeling hierarchical relationships within a scene and accurately extracting distinctive spatiotemporal features from groups. Given this technology's extensive applicability, identifying group activities has garnered significant research attention. This work examines the current progress in technology for recognizing group activities, with a specific focus on global interactivity and activities. Firstly, we comprehensively review the pertinent literature and various group activity recognition approaches, from traditional methodologies to the latest methods based on spatial structure, descriptors, non-deep learning, hierarchical recurrent neural networks (HRNN), relationship models, and attention mechanisms. Subsequently, we present the relational network and relational architectures for each module. Thirdly, we investigate methods for recognizing group activity and compare their performance with state-of-the-art technologies. We summarize the existing challenges and provide comprehensive guidance for newcomers to understand group activity recognition. Furthermore, we review emerging perspectives in group activity recognition to explore new directions and possibilities.
翻訳日:2023-07-26 16:36:48 公開日:2023-07-25
# 適応ラベル摂動を用いたディエンス分類におけるモデル校正

Model Calibration in Dense Classification with Adaptive Label Perturbation ( http://arxiv.org/abs/2307.13539v1 )

ライセンス: Link先を確認
Jiawei Liu, Changkun Ye, Shan Wang, Ruikai Cui, Jing Zhang, Kaihao Zhang, Nick Barnes(参考訳) 安全関連アプリケーションにとって、後の意思決定の正確性を示す信頼と関連する予測を行う、信頼できるディープニューラルネットワークを作成することが不可欠である。 既存の二分分類モデルは過信される傾向がある。 モデルキャリブレーションを改善するために,各トレーニング画像に対して独自のラベル摂動レベルを学習する適応確率ラベル摂動(ASLP)を提案する。 aslpは,確率的アプローチ(外乱ラベルなど)やラベル平滑化を含むラベル摂動過程を統一し,分類率を維持しつつキャリブレーションを補正する,自己調整型二成分クロスエントロピー(sc-bce)損失法を提案する。 ASLPは、行方不明情報に対する予測エントロピーを最大化する古典統計力学の最大エントロピー推論に従う。 1) 既知のデータの分類精度を保守的解として保存するか、(2) 予測精度と目標トレーニングラベルの予測信頼性とのギャップを最小化することにより、モデル校正度を特に向上させる。 その結果,ASLPは分布内および分布外の両方で高密度二分分類モデルの校正度を著しく改善できることがわかった。 コードはhttps://github.com/Carlisle-Liu/ASLPで公開されている。

For safety-related applications, it is crucial to produce trustworthy deep neural networks whose prediction is associated with confidence that can represent the likelihood of correctness for subsequent decision-making. Existing dense binary classification models are prone to being over-confident. To improve model calibration, we propose Adaptive Stochastic Label Perturbation (ASLP) which learns a unique label perturbation level for each training image. ASLP employs our proposed Self-Calibrating Binary Cross Entropy (SC-BCE) loss, which unifies label perturbation processes including stochastic approaches (like DisturbLabel), and label smoothing, to correct calibration while maintaining classification rates. ASLP follows Maximum Entropy Inference of classic statistical mechanics to maximise prediction entropy with respect to missing information. It performs this while: (1) preserving classification accuracy on known data as a conservative solution, or (2) specifically improves model calibration degree by minimising the gap between the prediction accuracy and expected confidence of the target training label. Extensive results demonstrate that ASLP can significantly improve calibration degrees of dense binary classification models on both in-distribution and out-of-distribution data. The code is available on https://github.com/Carlisle-Liu/ASLP.
翻訳日:2023-07-26 16:36:29 公開日:2023-07-25
# インフィニティ:レイノルズ平均ナビエ-ストークス方程式の神経場モデリング

INFINITY: Neural Field Modeling for Reynolds-Averaged Navier-Stokes Equations ( http://arxiv.org/abs/2307.13538v1 )

ライセンス: Link先を確認
Louis Serrano, Leon Migus, Yuan Yin, Jocelyn Ahmed Mazari, Patrick Gallinari(参考訳) 数値設計では、効率的で正確なサロゲートモデルの開発が最重要である。 これにより、複雑な物理現象を近似し、直接数値シミュレーションの計算負担を軽減することができる。 本稿では、暗黙的ニューラル表現(INR)を利用したディープラーニングモデルINFINITYを提案する。 本フレームワークは,幾何学的情報と物理場をコンパクトな表現にエンコードし,それらの間のマッピングから物理場を推論する。 本研究では,エアフォイル設計の最適化問題を例として用いて,現実の産業用ユースケースとよく似た,挑戦的なAirfRANSデータセットに対するアプローチを評価する。 実験結果は, 体積と表面の物理場を正確に推定することにより, 最先端の性能を実現することを実証する。 さらに,設計探索や形状最適化といった文脈において,その適用性を示す。 モデルでは,方程式に固執しながら,ドラッグ係数やリフト係数を正確に予測することができる。

For numerical design, the development of efficient and accurate surrogate models is paramount. They allow us to approximate complex physical phenomena, thereby reducing the computational burden of direct numerical simulations. We propose INFINITY, a deep learning model that utilizes implicit neural representations (INRs) to address this challenge. Our framework encodes geometric information and physical fields into compact representations and learns a mapping between them to infer the physical fields. We use an airfoil design optimization problem as an example task and we evaluate our approach on the challenging AirfRANS dataset, which closely resembles real-world industrial use-cases. The experimental results demonstrate that our framework achieves state-of-the-art performance by accurately inferring physical fields throughout the volume and surface. Additionally we demonstrate its applicability in contexts such as design exploration and shape optimization: our model can correctly predict drag and lift coefficients while adhering to the equations.
翻訳日:2023-07-26 16:36:05 公開日:2023-07-25
# 量子特異値変換アルゴリズムによる単一粒子多体グリーン関数の計算

Calculating the Single-Particle Many-body Green's Functions via the Quantum Singular Value Transform Algorithm ( http://arxiv.org/abs/2307.13583v1 )

ライセンス: Link先を確認
Alexis Ralli, Gabriel Greene-Diniz, David Mu\~noz Ramo, Nathan Fitzpatrick(参考訳) 量子特異値変換(Quantum Singular Value Transformation、QSVT)は、これまで発見された多くの量子アルゴリズムを記述する統一的なフレームワークを提供する技術である。 レーマン表現における単一粒子グリーン関数の計算において重要なステップである行列逆転をいかに行うかを検討するために,この手法のノイズフリーシミュレーションを実装した。 逆関数は 0 で定義されないため、多項式で f(x)=1/x を近似する効果を探求する。 これは、2サイト単一不純物アンダーソン模型の単一粒子グリーン関数を計算することによって行われる。 また,単一ビットと2量子ビットのゲート数を削減するユニタリズブロック符号化手法の線形結合のための新しい回路構成を提案する。

The Quantum Singular Value Transformation (QSVT) is a technique that provides a unified framework for describing many of the quantum algorithms discovered to date. We implement a noise-free simulation of the technique to investigate how it can be used to perform matrix inversion, which is an important step in calculating the single-particle Green's function in the Lehmann representation. Due to the inverse function not being defined at zero, we explore the effect of approximating f(x)=1/x with a polynomial. This is carried out by calculating the single-particle Green's function of the two-site single-impurity Anderson model. We also propose a new circuit construction for the linear combination of unitaries block encoding technique, that reduces the number of single and two-qubit gates required.
翻訳日:2023-07-26 16:28:25 公開日:2023-07-25
# 定量的双極性議論枠組みにおける議論帰属説明

Argument Attribution Explanations in Quantitative Bipolar Argumentation Frameworks ( http://arxiv.org/abs/2307.13582v1 )

ライセンス: Link先を確認
Xiang Yin, Nico Potyka, Francesca Toni(参考訳) 議論的説明可能なaiは近年、議論フレームワーク(afs)の推論結果を説明することへの関心が高まっている。 議論/論議/対話によるAFの推論結果について,emph{extension-based semantics} の精神で定性的に説明する研究がかなりあるが,emph{gradual semantics} の下での AF の定量的推論結果は,応用に広く用いられているにもかかわらず,あまり注目されていない。 本稿では,このギャップを埋めるために,定量的なバイポーラ調停フレームワーク(QBAF)の文脈において,機械学習の特徴属性の精神を組み込むことにより,「emph{Argument Attribution Explanations(AAEs)」という新しい理論を提案し,機械学習モデルの出力に対する特徴の影響を判断するために特徴属性を用いているのに対し,AAEは興味のある「emph{topic argument}」に対する議論の影響を決定するために使用される。 我々はAAEsの望ましい性質について研究し、その中には新しいものや文献から我々の設定に部分的に適応したものもある。 本研究は,偽ニュース検出と映画のレコメンデータシステムに関する2つのケーススタディを実施し,本手法の有効性を実証する。

Argumentative explainable AI has been advocated by several in recent years, with an increasing interest on explaining the reasoning outcomes of Argumentation Frameworks (AFs). While there is a considerable body of research on qualitatively explaining the reasoning outcomes of AFs with debates/disputes/dialogues in the spirit of \emph{extension-based semantics}, explaining the quantitative reasoning outcomes of AFs under \emph{gradual semantics} has not received much attention, despite widespread use in applications. In this paper, we contribute to filling this gap by proposing a novel theory of \emph{Argument Attribution Explanations (AAEs)} by incorporating the spirit of feature attribution from machine learning in the context of Quantitative Bipolar Argumentation Frameworks (QBAFs): whereas feature attribution is used to determine the influence of features towards outputs of machine learning models, AAEs are used to determine the influence of arguments towards \emph{topic argument}s of interest. We study desirable properties of AAEs, including some new ones and some partially adapted from the literature to our setting. To demonstrate the applicability of our AAEs in practice, we conclude by carrying out two case studies in the scenarios of fake news detection and movie recommender systems.
翻訳日:2023-07-26 16:28:12 公開日:2023-07-25
# 前向きおよび逆設計パラダイムの比較:耐火性高エントロピー合金の事例研究

Comparing Forward and Inverse Design Paradigms: A Case Study on Refractory High-Entropy Alloys ( http://arxiv.org/abs/2307.13581v1 )

ライセンス: Link先を確認
Arindam Debnath, Lavanya Raman, Wenjie Li, Adam M. Krajewski, Marcia Ahn, Shuang Lin, Shunli Shang, Allison M. Beese, Zi-Kui Liu, Wesley F. Reinhart(参考訳) 先端材料の急速な設計は、科学的な関心事のトピックである。 素材設計の従来の'forward'パラダイムは、複数の候補を評価し、対象の特性に合致する最適な候補を決定する。 しかし,近年の深層学習分野の進歩により,先進的な材料に対する「逆」設計パラダイムが生まれ,対象特性を備えたモデルが最適な候補を見出すことが可能になった。 比較的新しい概念であるため、これらの2つのパラダイムが実際にどのように機能するかを体系的に評価する必要がある。 したがって,本研究の目的は,前方および逆設計モデリングパラダイムを直接的,定量的に比較することである。 本研究では, 異なる目的と制約を持つ耐火性高エントロピー合金設計の2つのケーススタディを考察し, 逆設計法を局所化フォワード探索, 高スループットスクリーニング, 多目的最適化といった他のフォワードスキームと比較する。

The rapid design of advanced materials is a topic of great scientific interest. The conventional, ``forward'' paradigm of materials design involves evaluating multiple candidates to determine the best candidate that matches the target properties. However, recent advances in the field of deep learning have given rise to the possibility of an ``inverse'' design paradigm for advanced materials, wherein a model provided with the target properties is able to find the best candidate. Being a relatively new concept, there remains a need to systematically evaluate how these two paradigms perform in practical applications. Therefore, the objective of this study is to directly, quantitatively compare the forward and inverse design modeling paradigms. We do so by considering two case studies of refractory high-entropy alloy design with different objectives and constraints and comparing the inverse design method to other forward schemes like localized forward search, high throughput screening, and multi objective optimization.
翻訳日:2023-07-26 16:27:41 公開日:2023-07-25
# 普遍近似器年齢における生存分析の再解釈

Reinterpreting survival analysis in the universal approximator age ( http://arxiv.org/abs/2307.13579v1 )

ライセンス: Link先を確認
S\"oren Dittmer, Michael Roberts, Jacobus Preller, AIX COVNET, James H.F. Rudd, John A.D. Aston, Carola-Bibiane Sch\"onlieb(参考訳) 生存分析は統計ツールボックスの不可欠な部分である。 しかし、古典統計学のほとんどの領域は深層学習を取り入れているが、生存分析は近年、深層学習コミュニティからわずかに注目されている。 この最近の開発は、新型コロナウイルス(covid-19)のパンデミックによるものと思われる。 深層学習における生存分析の可能性を完全に活用するために必要なツールの提供を目指している。 一方,生存分析が分類や回帰とどのように結びつくかについて議論する。 一方、私たちは技術ツールを提供しています。 我々は、新しい損失関数、評価指標、および数値積分を伴わずに生存曲線を確実に生成する最初の普遍近似ネットワークを提供する。 本研究では,損失関数とモデルが他の手法より優れていることを示す。

Survival analysis is an integral part of the statistical toolbox. However, while most domains of classical statistics have embraced deep learning, survival analysis only recently gained some minor attention from the deep learning community. This recent development is likely in part motivated by the COVID-19 pandemic. We aim to provide the tools needed to fully harness the potential of survival analysis in deep learning. On the one hand, we discuss how survival analysis connects to classification and regression. On the other hand, we provide technical tools. We provide a new loss function, evaluation metrics, and the first universal approximating network that provably produces survival curves without numeric integration. We show that the loss function and model outperform other approaches using a large numerical study.
翻訳日:2023-07-26 16:27:23 公開日:2023-07-25
# 正規量子チャネルとマルコフ相関2量子ビット量子誤差

Normal quantum channels and Markovian correlated two-qubit quantum errors ( http://arxiv.org/abs/2307.13578v1 )

ライセンス: Link先を確認
Alejandro Contreras Reynoso and Thomas Gorin(参考訳) 分散ランダムユニタリ変換の一般化について検討した。 これらの分布は、各群多様体における拡散的ランダムウォーク(英語版)(diffusive random walk)という用語で定義することができ、正式には無限可除の概念に支えられている。 一方、正規分布はユニタリ量子チャネルを誘導する。 一方、拡散ランダムウォーク(diffusive random walk)は、リンドブラッドマスター方程式によって生成される単位的量子過程を定義する。 単一量子ビットの場合、同じ量子チャネルを誘導する異なる分布を見つけることができる。 2つの量子ビットの場合、通常の量子チャネル、すなわち${\rm SU}(2)\otimes{\rm SU}(2)$の正規分布によって誘導される量子チャネルは、相関量子エラーをモデル化するための適切なフレームワークを提供する。 例えば、相関関係にあるパウリのエラーとは対照的に、マルコビアン性は保存され、エラー訂正符号や絡み合い蒸留の結果とは全く異なる結果をもたらす。 我々の研究は、現在の量子コンピュータプラットフォームにおける1量子ビットと2量子ビットのエラーのトモグラフィーとモデリングに応用されるだけでなく、不完全な通信チャネルをまたいだベル対の蒸留にも応用されることを期待しています。

We study general ``normally'' distributed random unitary transformations. These distributions can be defined in terms of a diffusive random walk in the respective group manifold, formally underpinned by the concept of infinite divisibility. On the one hand, a normal distribution induces a unital quantum channel. On the other hand, the diffusive random walk defines a unital quantum process, which can be generated by a Lindblad master equation. In the single qubit case, we show that it is possible to find different distributions which induce the same quantum channel. In the case of two qubits, the normal quantum channels, i.e. quantum channels induced by normal distributions in ${\rm SU}(2)\otimes{\rm SU}(2)$ provide an appropriate framework for modeling correlated quantum errors. In contrast to correlated Pauli errors, for instance, they conserve their Markovianity, and they lead to very different results in error correcting codes or entanglement distillation. We expect our work to find applications in the tomography and modeling of one- and two-qubit errors in current quantum computer platforms, but also in the distillation of Bell pairs across imperfect communication channels, where it is conceivable that subsequently transmitted qubits are subject to correlated errors.
翻訳日:2023-07-26 16:27:14 公開日:2023-07-25
# デジタル量子コンピュータにおける衝突モデルによる量子輸送のシミュレーション

Simulating quantum transport via collisional models on a digital quantum computer ( http://arxiv.org/abs/2307.13576v1 )

ライセンス: Link先を確認
Rebecca Erbanni, Xiansong Xu, Tommaso Demarie, Dario Poletti(参考訳) デジタル量子コンピュータは複雑な量子系の力学を研究する可能性がある。 しかし、非平衡開量子系は実装が容易ではない。 ここでは、境界駆動型XXZスピン鎖に対する非平衡開力学の衝突モデル表現について考察し、その定常状態に特に焦点をあてる。 具体的には,結果の精度と回路の深さとの相互作用を,対応する主方程式による結果と比較することにより検討する。 我々は, 弱い相互作用と強い相互作用のレジームにおける境界駆動スピンチェーンのシミュレーションについて検討し, プロトコルの実装における誤差も考慮し, 大規模系の拡散と弾道力学に繋がる可能性について検討した。 最後に,xxzスピンチェーンが非一様磁場を受ける場合の電流整流の衝突モデルによるディジタルシミュレーションの有効性について検討する。

Digital quantum computers have the potential to study the dynamics of complex quantum systems. Nonequilibrium open quantum systems are, however, less straightforward to be implemented. Here we consider a collisional model representation of the nonequilibrium open dynamics for a boundary-driven XXZ spin chain, with a particular focus on its steady states. More specifically, we study the interplay between the accuracy of the result versus the depth of the circuit by comparing the results generated by the corresponding master equations. We study the simulation of a boundary-driven spin chain in regimes of weak and strong interactions, which would lead in large systems to diffusive and ballistic dynamics, considering also possible errors in the implementation of the protocol. Last, we analyze the effectiveness of digital simulation via the collisional model of current rectification when the XXZ spin chains are subject to non-uniform magnetic fields.
翻訳日:2023-07-26 16:26:49 公開日:2023-07-25
# pt$\mathrm{l}^{p}$:部分輸送 $\mathrm{l}^{p}$ distances

PT$\mathrm{L}^{p}$: Partial Transport $\mathrm{L}^{p}$ Distances ( http://arxiv.org/abs/2307.13571v1 )

ライセンス: Link先を確認
Xinran Liu, Yikun Bai, Huy Tran, Zhanqi Zhu, Matthew Thorpe, Soheil Kolouri(参考訳) 最適輸送とその関連する問題(最適部分輸送を含む)は、確率と正の測度の間の有意な距離を計算する機械学習において貴重なツールであることが証明されている。 この成功により、署名された測度とより一般的にはマルチチャネル信号を比較することができる輸送ベースの距離の定義への関心が高まっている。 Transport $\mathrm{L}^{p}$ distances は符号付きおよびおそらく多チャネル信号に対する最適な輸送フレームワークの拡張である。 本稿では、部分輸送距離のロバスト性を利用して、一般的な信号を比較するための新しい指標として、部分輸送$\mathrm{L}^{p}$ distancesを導入する。 最適計画の存在や様々な限界における距離の挙動などの理論的背景を提供する。 さらに,これらの距離のスライス変化を導入し,汎用信号の高速比較を可能にした。 最後に,提案した距離の信号クラス分離性および近傍の分類への応用を実証する。

Optimal transport and its related problems, including optimal partial transport, have proven to be valuable tools in machine learning for computing meaningful distances between probability or positive measures. This success has led to a growing interest in defining transport-based distances that allow for comparing signed measures and, more generally, multi-channeled signals. Transport $\mathrm{L}^{p}$ distances are notable extensions of the optimal transport framework to signed and possibly multi-channeled signals. In this paper, we introduce partial transport $\mathrm{L}^{p}$ distances as a new family of metrics for comparing generic signals, benefiting from the robustness of partial transport distances. We provide theoretical background such as the existence of optimal plans and the behavior of the distance in various limits. Furthermore, we introduce the sliced variation of these distances, which allows for rapid comparison of generic signals. Finally, we demonstrate the application of the proposed distances in signal class separability and nearest neighbor classification.
翻訳日:2023-07-26 16:26:36 公開日:2023-07-25
# mystique:レイアウト再利用のためにsvgチャートを分解する

Mystique: Deconstructing SVG Charts for Layout Reuse ( http://arxiv.org/abs/2307.13567v1 )

ライセンス: Link先を確認
Chen Chen, Bongshin Lee, Yunhai Wang, Yunjeong Chang, Zhicheng Liu(参考訳) 既存のチャートの再利用を容易にするため、従来の研究では、その視覚表現をエンコーディングなどの再利用可能なコンポーネントに分解することで、チャートの意味的理解を得る方法について検討した。 しかし、既存のデコンストラクションアプローチは主にチャートスタイルにフォーカスし、基本的なレイアウトのみを扱う。 本稿では、17種類のチャート型だけでなく、より高度なレイアウト(例えば、小さな多重、ネストされたレイアウト)をカバーする長方形に基づくチャートレイアウトの分解方法について検討する。 我々はMystiqueと呼ばれる対話型ツールを開発し、軸と伝説を抽出するための混合開始的アプローチを採用し、チャートのレイアウトを4つの意味的構成要素(マークグループ、空間関係、データエンコーディング、グラフィカル制約)に分解する。 Mystiqueはウィザードインターフェースを採用し、チャート作成者を一連のステップでガイドし、分解されたコンポーネントが自身のデータにどのようにマップするかを指定する。 150長方形のSVGチャートでは、Mistiqueは軸と伝説抽出の精度が85%以上、レイアウト分解の精度が96%以上である。 グラフ再現研究では、参加者は新しいデータセットで既存のチャートを簡単に再利用することができた。 我々はミスティークの限界と今後の研究方向について論じる。

To facilitate the reuse of existing charts, previous research has examined how to obtain a semantic understanding of a chart by deconstructing its visual representation into reusable components, such as encodings. However, existing deconstruction approaches primarily focus on chart styles, handling only basic layouts. In this paper, we investigate how to deconstruct chart layouts, focusing on rectangle-based ones as they cover not only 17 chart types but also advanced layouts (e.g., small multiples, nested layouts). We develop an interactive tool, called Mystique, adopting a mixed-initiative approach to extract the axes and legend, and deconstruct a chart's layout into four semantic components: mark groups, spatial relationships, data encodings, and graphical constraints. Mystique employs a wizard interface that guides chart authors through a series of steps to specify how the deconstructed components map to their own data. On 150 rectangle-based SVG charts, Mystique achieves above 85% accuracy for axis and legend extraction and 96% accuracy for layout deconstruction. In a chart reproduction study, participants could easily reuse existing charts on new datasets. We discuss the current limitations of Mystique and future research directions.
翻訳日:2023-07-26 16:26:19 公開日:2023-07-25
# 不完全XAIが人間-AI意思決定に及ぼす影響

The Impact of Imperfect XAI on Human-AI Decision-Making ( http://arxiv.org/abs/2307.13566v1 )

ライセンス: Link先を確認
Katelyn Morrison, Philipp Spitzer, Violet Turri, Michelle Feng, Niklas K\"uhl, Adam Perer(参考訳) 様々な協調作業環境におけるヒューマンAI意思決定を改善するための説明可能性技術が急速に開発されている。 その結果、より人間中心のコンピュータ支援協調ツールを設計することを目的として、意思決定者が不完全なaiとどのように連携するかを評価した。 意思決定者によるAIとのコラボレーションを改善するために、人間中心で説明可能なAI(XAI)技術がいくつか提案されているが、これらのテクニックは、主に不正なAIアドバイスの影響に焦点を当てた以前の研究の結果に基づいている。 たとえAIのアドバイスが正しいとしても、説明が正しくないことを認める研究はほとんどない。 したがって、XAIの不完全性が人間とAIの意思決定にどのように影響するかを理解することが重要である。 本研究は,鳥種識別課題における不正確な説明が人間の意思決定行動にどのように影響を与えるかを評価するために,136名の被験者によるロバストで混合手法のユーザ調査を行った。 この結果から,AIと人間-AIチームパフォーマンスへの不完全なXAIと人間の専門知識レベルの影響が明らかになった。 また、人間とaiのコラボレーションにおいて、いかに説明が意思決定者をだますかについても論じる。 そこで我々は,コンピュータ支援型協調作業における不完全なXAIの影響に光を当て,人間とAIのコラボレーションシステムの設計者に対するガイドラインを提供する。

Explainability techniques are rapidly being developed to improve human-AI decision-making across various cooperative work settings. Consequently, previous research has evaluated how decision-makers collaborate with imperfect AI by investigating appropriate reliance and task performance with the aim of designing more human-centered computer-supported collaborative tools. Several human-centered explainable AI (XAI) techniques have been proposed in hopes of improving decision-makers' collaboration with AI; however, these techniques are grounded in findings from previous studies that primarily focus on the impact of incorrect AI advice. Few studies acknowledge the possibility for the explanations to be incorrect even if the AI advice is correct. Thus, it is crucial to understand how imperfect XAI affects human-AI decision-making. In this work, we contribute a robust, mixed-methods user study with 136 participants to evaluate how incorrect explanations influence humans' decision-making behavior in a bird species identification task taking into account their level of expertise and an explanation's level of assertiveness. Our findings reveal the influence of imperfect XAI and humans' level of expertise on their reliance on AI and human-AI team performance. We also discuss how explanations can deceive decision-makers during human-AI collaboration. Hence, we shed light on the impacts of imperfect XAI in the field of computer-supported cooperative work and provide guidelines for designers of human-AI collaboration systems.
翻訳日:2023-07-26 16:25:59 公開日:2023-07-25
# 意思決定型学習:基礎,最先端,ベンチマーク,将来の可能性

Decision-Focused Learning: Foundations, State of the Art, Benchmark and Future Opportunities ( http://arxiv.org/abs/2307.13565v1 )

ライセンス: Link先を確認
Jayanta Mandi, James Kotary, Senne Berden, Maxime Mulamba, Victor Bucarey, Tias Guns and Ferdinando Fioretto(参考訳) 決定中心学習(DFL)は機械学習における新たなパラダイムであり、決定を最適化し、予測と最適化をエンドツーエンドシステムに統合するためにモデルを訓練する。 このパラダイムは、不確実性の下で動作し、これらの決定モデル内の未知のパラメータの推定がしばしば実質的な障害となる多くの現実世界のアプリケーションにおいて、意思決定に革命をもたらすという約束を持っている。 本稿では,DFLの概要を概観する。 機械学習と最適化モデルを統合するために考案された様々な手法を詳細に分析し、その特徴によって区別されるDFL手法の分類を導入し、適切なベンチマークデータセットとDFLのためのタスクを提案するこれらの手法の広範な実験的な評価を行う。 最後に、この研究は、DFL研究の現在および将来の可能性に関する貴重な知見を提供する。

Decision-focused learning (DFL) is an emerging paradigm in machine learning which trains a model to optimize decisions, integrating prediction and optimization in an end-to-end system. This paradigm holds the promise to revolutionize decision-making in many real-world applications which operate under uncertainty, where the estimation of unknown parameters within these decision models often becomes a substantial roadblock. This paper presents a comprehensive review of DFL. It provides an in-depth analysis of the various techniques devised to integrate machine learning and optimization models introduces a taxonomy of DFL methods distinguished by their unique characteristics, and conducts an extensive empirical evaluation of these methods proposing suitable benchmark dataset and tasks for DFL. Finally, the study provides valuable insights into current and potential future avenues in DFL research.
翻訳日:2023-07-26 16:25:36 公開日:2023-07-25
# RecursiveDet: エンドツーエンドの領域ベース再帰オブジェクト検出

RecursiveDet: End-to-End Region-based Recursive Object Detection ( http://arxiv.org/abs/2307.13619v1 )

ライセンス: Link先を確認
Jing Zhao, Li Sun, Qingli Li(参考訳) Sparse R-CNNのようなエンドツーエンドの領域ベースのオブジェクト検出器は、通常複数のカスケード境界ボックスデコードステージを持ち、その結果に応じて現在の予測を洗練させる。 各ステージのモデルパラメータは独立しており、膨大なコストがかかります。 本稿では,デコードステージの一般設定は実際には冗長であることを示す。 パラメータを単純に共有して再帰デコーダを作成することで、検出器はすでに大幅に改善されている。 再帰デコーダは提案ボックスの位置符号化(PE)によりさらに拡張され、入力バウンディングボックスの正確な位置とサイズを認識でき、再帰の間、異なる段階の提案に適応する。 さらに,ロI特徴要素と動的畳み込みカーネルをバウンディングボックス内の異なる位置で区別するために,中心性に基づくPEを設計する。 提案手法の有効性を検証するために, 集中アブレーションを行い, 最近の3つの主流領域検出器を用いたフルモデルを構築した。 recusivedetは、モデルパラメータがさらに少なく、計算コストがわずかに増加することで、明らかなパフォーマンス向上を実現することができる。 コードはhttps://github.com/bravezzzzzz/recursivedetで入手できる。

End-to-end region-based object detectors like Sparse R-CNN usually have multiple cascade bounding box decoding stages, which refine the current predictions according to their previous results. Model parameters within each stage are independent, evolving a huge cost. In this paper, we find the general setting of decoding stages is actually redundant. By simply sharing parameters and making a recursive decoder, the detector already obtains a significant improvement. The recursive decoder can be further enhanced by positional encoding (PE) of the proposal box, which makes it aware of the exact locations and sizes of input bounding boxes, thus becoming adaptive to proposals from different stages during the recursion. Moreover, we also design centerness-based PE to distinguish the RoI feature element and dynamic convolution kernels at different positions within the bounding box. To validate the effectiveness of the proposed method, we conduct intensive ablations and build the full model on three recent mainstream region-based detectors. The RecusiveDet is able to achieve obvious performance boosts with even fewer model parameters and slightly increased computation cost. Codes are available at https://github.com/bravezzzzzz/RecursiveDet.
翻訳日:2023-07-26 16:21:17 公開日:2023-07-25
# GPT-3モデルと金融共振器

GPT-3 Models are Few-Shot Financial Reasoners ( http://arxiv.org/abs/2307.13617v1 )

ライセンス: Link先を確認
Raul Salles de Padua, Imran Qureshi and Mustafa U. Karakaplan(参考訳) 財務分析は企業業績を評価する重要なツールである。 実践者は、収益性のある投資決定を行うために財務的な質問に答え、高度な定量的分析を用いてそれを行う。 その結果、QA(Financial Question Answering)は、数字に関する深い推論を必要とする質問応答タスクである。 さらに、事前訓練された言語モデルが金融分野でどの程度理にかなっているかは不明である。 現在の最先端技術では、検索者はテキストとジェネレータから財務問題に関する関連事実を収集し、有効な金融プログラムと最終回答を生成する必要がある。 しかし、gpt-3のような最近の大規模言語モデルは、少数の例で、さまざまなタスクで最先端のパフォーマンスを達成している。 我々はGPT-3でいくつかの実験を行い、特に財務問題の性質や財務文書に格納されている複雑な情報により、個別の検索モデルと論理エンジンがSOTAの性能を達成する上で不可欠な要素であることを発見した。 これにより, GPT-3 に対する改良されたプロンプトエンジニアリング手法は, 微調整を伴わずにSOTA 付近の精度を達成できる。

Financial analysis is an important tool for evaluating company performance. Practitioners work to answer financial questions to make profitable investment decisions, and use advanced quantitative analyses to do so. As a result, Financial Question Answering (QA) is a question answering task that requires deep reasoning about numbers. Furthermore, it is unknown how well pre-trained language models can reason in the financial domain. The current state-of-the-art requires a retriever to collect relevant facts about the financial question from the text and a generator to produce a valid financial program and a final answer. However, recently large language models like GPT-3 have achieved state-of-the-art performance on wide variety of tasks with just a few shot examples. We run several experiments with GPT-3 and find that a separate retrieval model and logic engine continue to be essential components to achieving SOTA performance in this task, particularly due to the precise nature of financial questions and the complex information stored in financial documents. With this understanding, our refined prompt-engineering approach on GPT-3 achieves near SOTA accuracy without any fine-tuning.
翻訳日:2023-07-26 16:20:56 公開日:2023-07-25
# 保険におけるaiと倫理 : リスクモデリングにおける代理的差別緩和のための新しいソリューション

AI and ethics in insurance: a new solution to mitigate proxy discrimination in risk modeling ( http://arxiv.org/abs/2307.13616v1 )

ライセンス: Link先を確認
Marguerite Sauce, Antoine Chancel, and Antoine Ly(参考訳) 機械学習の開発は一般大衆の関心を集めており、近年、その客観性に疑問を呈する記事が多数出されている:人種差別、性差別、保険におけるデータの倫理的利用に対する規制当局の関心の高まりにより、定期的なコミュニティは、公正な保険の価格とリスク選択プラクティスを再考する必要がある。 エクイティ(Equity)は、現在合意に達することなく互いに影響を及ぼすあらゆる分野において多くの異なる定義を持つ哲学概念である。 ヨーロッパでは、基本権憲章が差別に関するガイドラインを定義しており、アルゴリズムにおける機密データの使用が規制されている。 保護された変数の単純な削除がいわゆる「直接」識別を妨げている場合、モデルはまだ変数間の潜在的な相互作用によって個人間を「間接的に」判別することができるため、より優れたパフォーマンスをもたらす(したがって、リスクの定量化や価格のセグメンテーションなど)。 識別に関する重要な概念を紹介すると、それらの定量化の複雑さが説明される。 次に,線形代数の数学的概念による間接的識別のリスクを低減すべく,文献にない革新的な手法を提案する。 本手法は, 生命保険におけるリスク選択の具体的な事例において, 使用の単純さと有望な性能を示すものである。

The development of Machine Learning is experiencing growing interest from the general public, and in recent years there have been numerous press articles questioning its objectivity: racism, sexism, \dots Driven by the growing attention of regulators on the ethical use of data in insurance, the actuarial community must rethink pricing and risk selection practices for fairer insurance. Equity is a philosophy concept that has many different definitions in every jurisdiction that influence each other without currently reaching consensus. In Europe, the Charter of Fundamental Rights defines guidelines on discrimination, and the use of sensitive personal data in algorithms is regulated. If the simple removal of the protected variables prevents any so-called `direct' discrimination, models are still able to `indirectly' discriminate between individuals thanks to latent interactions between variables, which bring better performance (and therefore a better quantification of risk, segmentation of prices, and so on). After introducing the key concepts related to discrimination, we illustrate the complexity of quantifying them. We then propose an innovative method, not yet met in the literature, to reduce the risks of indirect discrimination thanks to mathematical concepts of linear algebra. This technique is illustrated in a concrete case of risk selection in life insurance, demonstrating its simplicity of use and its promising performance.
翻訳日:2023-07-26 16:20:40 公開日:2023-07-25
# 時間依存背景ゆらぎの実空間量子から古典的遷移

Real-space quantum-to-classical transition of time dependent background fluctuations ( http://arxiv.org/abs/2307.13611v1 )

ライセンス: Link先を確認
S. Mahesh Chandran, Karthik Rajeev, S. Shankaranarayanan (IIT Bombay)(参考訳) 量子論から古典的行動の出現を理解することは、宇宙マイクロ波背景(CMB)で観測される温度変動の量子起源を確立するために不可欠である。 実空間的アプローチは曲率摂動の先頭の順で量子-古典的遷移問題に包括的に対処できることを示す。 この目的のために、古典的行動の3つの異なるシグネチャ間の相互作用のための二次系の空間分割をテストする。 decoherence (複数形 decoherences) 二 古典的軌跡に関するウィグナー関数のピーク化及び 三 可観測物の非可換性の相対的な抑制 多モードガウス状態の共分散行列からこれらのシグネチャを抽出し、主に絡み合いエントロピーと対数古典性の観点から対処する。 低減されたウィグナー関数による空間部分領域の位相空間安定性解析により、古典性シグネチャの優位の原因はガッピング反転モード不安定性の発生であることを確認した。 共役変数の選択はこれらのシグネチャのいくつかを強化するが、絡み合いエントロピーを通して研究されたデコヒーレンスは古典性が出現するより強く信頼性の高い条件である。 1+1)$-dimensions におけるスカラーゆらぎの量子から古典的遷移を先取りする非一貫性の欠如を2つの例を用いて示す。 一 タン様の拡大及び拡張 ii)デシッター展開 次に、(3+1)-$dimensions における主次揺らぎに解析を拡張し、デシッター展開において量子-古典遷移が起こることを示し、宇宙論モデルの識別における解析の関連性について論じる。

Understanding the emergence of classical behavior from a quantum theory is vital to establishing the quantum origin for the temperature fluctuations observed in the Cosmic Microwave Background (CMB). We show that a real-space approach can comprehensively address the quantum-to-classical transition problem in the leading order of curvature perturbations. To this end, we test spatial bipartitions of quadratic systems for the interplay between three different signatures of classical behavior : i) decoherence, ii) peaking of the Wigner function about classical trajectories, and iii) relative suppression of non-commutativity in observables. We extract these signatures from the covariance matrix of a multi-mode Gaussian state and address them primarily in terms of entanglement entropy and log-classicality. Through a phase-space stability analysis of spatial sub-regions via their reduced Wigner function, we ascertain that the underlying cause for the dominance of classicality signatures is the occurrence of gapped inverted mode instabilities. While the choice of conjugate variables enhances some of these signatures, decoherence studied via entanglement entropy is the stronger and more reliable condition for classicality to emerge. We demonstrate the absence of decoherence, which preempts a quantum-to-classical transition of scalar fluctuations in an expanding background in $(1+1)$-dimensions using two examples : i) a Tanh-like expansion and ii) a de-Sitter expansion. We then extend the analysis to leading order fluctuations in $(3+1)-$dimensions to show that a quantum-to-classical transition occurs in the de-Sitter expansion and discuss the relevance of our analysis in distinguishing cosmological models.
翻訳日:2023-07-26 16:19:56 公開日:2023-07-25
# 完全畳み込みネットワークからのスパース潜在特徴のオブジェクトベース確率的類似性証拠

Object-based Probabilistic Similarity Evidence of Sparse Latent Features from Fully Convolutional Networks ( http://arxiv.org/abs/2307.13606v1 )

ライセンス: Link先を確認
Cyril Juliani(参考訳) ニューラルネットワークを用いた類似性分析は、様々な領域の複雑なパターンを理解し分類するための強力な手法として登場した。 ニューラルネットワークが学習する潜在表現を利用することで、画像などのデータオブジェクトを効果的に比較することができる。 本研究では,完全畳み込みネットワーク(FCN)が生成する潜時情報を類似性解析に利用することを検討した。 解析手法は,(1)訓練されたFCNから2次元物体ごとの特徴パターンを抽出・変換し,(2)ファジィ推論により最も類似したパターンを同定する。 ステップ(2)は、解析における潜在変数の重要性を考慮した重み付けスキームを組み込むことによりさらに強化することができる。 結果は、データパターンを効果的に識別するためにニューラルネットワークベースの類似性分析を採用する利点と課題に関する貴重な洞察を提供する。

Similarity analysis using neural networks has emerged as a powerful technique for understanding and categorizing complex patterns in various domains. By leveraging the latent representations learned by neural networks, data objects such as images can be compared effectively. This research explores the utilization of latent information generated by fully convolutional networks (FCNs) in similarity analysis, notably to estimate the visual resemblance of objects segmented in 2D pictures. To do this, the analytical scheme comprises two steps: (1) extracting and transforming feature patterns per 2D object from a trained FCN, and (2) identifying the most similar patterns through fuzzy inference. The step (2) can be further enhanced by incorporating a weighting scheme that considers the significance of latent variables in the analysis. The results provide valuable insights into the benefits and challenges of employing neural network-based similarity analysis for discerning data patterns effectively.
翻訳日:2023-07-26 16:18:47 公開日:2023-07-25
# 高度車両システムのための多モード光センサを用いた決定データ

Decisive Data using Multi-Modality Optical Sensors for Advanced Vehicular Systems ( http://arxiv.org/abs/2307.13600v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Waseem Shariff, Mehdi Sefidgar Dilmaghani, Wang Yao, Moazam Soomro, and Peter Corcoran(参考訳) 光センサーは、重要な応用のための現実世界のデータ取得において重要な役割を担っている。 このデータは、高度な機械学習アルゴリズムと統合することで、人間の視力を高める意味のある情報を提供する。 本稿では,最先端のインカビン前方視覚システムとインカビンドライバ監視システムの設計と開発のための各種光学技術について述べる。 焦点を絞った光学センサーには、Longwave Thermal Imaging (LWIR)カメラ、Near Infrared (NIR)カメラ、Neuromorphic/イベントカメラ、Visible CMOSカメラ、Depthカメラなどがある。 さらに, 実時間環境における各光変調特性の特異性を利用して, 様々な応用の可能性について論じる。

Optical sensors have played a pivotal role in acquiring real world data for critical applications. This data, when integrated with advanced machine learning algorithms provides meaningful information thus enhancing human vision. This paper focuses on various optical technologies for design and development of state-of-the-art out-cabin forward vision systems and in-cabin driver monitoring systems. The focused optical sensors include Longwave Thermal Imaging (LWIR) cameras, Near Infrared (NIR), Neuromorphic/ event cameras, Visible CMOS cameras and Depth cameras. Further the paper discusses different potential applications which can be employed using the unique strengths of each these optical modalities in real time environment.
翻訳日:2023-07-26 16:18:15 公開日:2023-07-25
# 対称性向上による変分量子想像時間進化

Symmetry enhanced variational quantum imaginary time evolution ( http://arxiv.org/abs/2307.13598v1 )

ライセンス: Link先を確認
Xiaoyang Wang and Yahui Chai and Maria Demidik and Xu Feng and Karl Jansen and Cenk T\"uys\"uz(参考訳) 変分量子虚時発展アルゴリズム(varqite algorithm)は、ハミルトニアンの基底状態とギブス状態を作成するための短期的手法である。 量子回路の適切なパラメータ化を見つけることは、VarQITEの成功に不可欠である。 この研究は、ハミルトニアンの局所性と対称性に応じてパラメータ化量子回路を構築するためのガイダンスを提供する。 本手法は、量子系のユニタリおよび反ユニタリ対称性を実装し、パラメータ化された量子回路の深さと自由度を大幅に低減することができる。 提案するパラメータ化量子回路のベンチマークを行うため,統計モデルに対するvarqite実験を行った。 数値計算により、対称性エンハンス回路は、文献でよく使われるパラメトリゼーション回路よりも優れていることが確認された。

The variational quantum imaginary time evolution (VarQITE) algorithm is a near-term method to prepare the ground state and Gibbs state of Hamiltonians. Finding an appropriate parameterization of the quantum circuit is crucial to the success of VarQITE. This work provides guidance for constructing parameterized quantum circuits according to the locality and symmetries of the Hamiltonian. Our approach can be used to implement the unitary and anti-unitary symmetries of a quantum system, which significantly reduces the depth and degree of freedom of the parameterized quantum circuits. To benchmark the proposed parameterized quantum circuits, we carry out VarQITE experiments on statistical models. Numerical results confirm that the symmetry-enhanced circuits outperform the frequently-used parametrized circuits in the literature.
翻訳日:2023-07-26 16:18:02 公開日:2023-07-25
# 大規模CFDメッシュを用いたグラフMLモデルの学習のためのマルチGPUアプローチ

Multi-GPU Approach for Training of Graph ML Models on large CFD Meshes ( http://arxiv.org/abs/2307.13592v1 )

ライセンス: Link先を確認
Sebastian Str\"onisch, Maximilian Sander, Andreas Kn\"upfer, Marcus Meyer(参考訳) メッシュベースの数値解法は多くのデザインツールチェーンにおいて重要な部分である。 しかし、計算流体力学のような正確なシミュレーションは時間と資源消費であり、シュロゲートモデルが解プロセスの高速化に使われている。 一方,機械学習に基づくサロゲートモデルでは,近似解の予測は高速であるが,精度に欠けることが多い。 このように、予測器-相関器手法による予測器の開発が焦点であり、代理モデルが流れ場を予測し、数値解法がそれを補正する。 本稿では,グラフベース機械学習の領域から数値フローシミュレーションの産業関連メッシュサイズまで,最先端のサロゲートモデルをスケールする。 このアプローチは、フロードメインを複数のGPUに分割し、トレーニング中にこれらのパーティション間でハロー交換を提供する。 利用したグラフニューラルネットワークは数値メッシュ上で直接動作し、メッシュの他のすべての特性と同様に複雑なジオメトリを保存することができる。 提案するサロゲートモデルは,3次元ターボ機械システムに適用して評価し,従来の分散モデルと比較した。 その結果,従来の手法では優れた予測が得られ,サロゲートモデルよりも優れていた。 説明、改善、今後の方向性について概説する。

Mesh-based numerical solvers are an important part in many design tool chains. However, accurate simulations like computational fluid dynamics are time and resource consuming which is why surrogate models are employed to speed-up the solution process. Machine Learning based surrogate models on the other hand are fast in predicting approximate solutions but often lack accuracy. Thus, the development of the predictor in a predictor-corrector approach is the focus here, where the surrogate model predicts a flow field and the numerical solver corrects it. This paper scales a state-of-the-art surrogate model from the domain of graph-based machine learning to industry-relevant mesh sizes of a numerical flow simulation. The approach partitions and distributes the flow domain to multiple GPUs and provides halo exchange between these partitions during training. The utilized graph neural network operates directly on the numerical mesh and is able to preserve complex geometries as well as all other properties of the mesh. The proposed surrogate model is evaluated with an application on a three dimensional turbomachinery setup and compared to a traditionally trained distributed model. The results show that the traditional approach produces superior predictions and outperforms the proposed surrogate model. Possible explanations, improvements and future directions are outlined.
翻訳日:2023-07-26 16:17:48 公開日:2023-07-25
# スピンの空間波動関数

Spatial Wavefunctions of Spin ( http://arxiv.org/abs/2307.13591v1 )

ライセンス: Link先を確認
T. Peter Rakitzis(参考訳) 量子力学的角運動量の等価な定式化は、オイラー角$\phi$,$\theta$,$\chi$に依存する空間波動関数に基づく。 波動関数は、通常の$j$と$m$の量子数に加えて、体固定された射影量子数$n$を持つウィグナー D-函数 $D_{n m}^j (\phi,\theta,\chi)$である。 通常、$n$ は $(j+1/2)$ の値を持つことができる。 状態 $d_{(s+1/2)~ m}^s (\phi,\theta,\chi)$ すべての$s>0$に対して、ジャイロ磁性比が$g=2$となる。

We present an equivalent formulation of quantum mechanical angular momentum, based on spatial wavefunctions that depend on the Euler angles $\phi$,$\theta$,$\chi$. The wavefunctions are Wigner D-functions $D_{n m}^j (\phi,\theta,\chi)$, that have a body-fixed projection quantum number $n$, in addition to the usual $j$ and $m$ quantum numbers. Unusually, $n$ can have the value $(j+1/2)$. The states $D_{(S+1/2)~ m}^S (\phi,\theta,\chi)$ give a gyromagnetic ratio of $g=2$ for all $S>0$, and we identify these as the spatial wavefunctions of known fundamental charged particles with spin.
翻訳日:2023-07-26 16:17:29 公開日:2023-07-25
# オンライン強化学習のサンプル複雑性の解決

Settling the Sample Complexity of Online Reinforcement Learning ( http://arxiv.org/abs/2307.13586v1 )

ライセンス: Link先を確認
Zihan Zhang, Yuxin Chen, Jason D. Lee, Simon S. Du(参考訳) オンライン強化学習(rl)の中心にある中心的な問題は、データ効率である。 オンラインRLにおいて、最近の多くの研究は漸近的に最小限の後悔を達成したが、これらの結果の最適性は 'large-sample'' 体制でのみ保証され、アルゴリズムが最適に動作するために膨大なバーンインコストが課される。 バーンインコストを発生させることなく、最小極最適後悔を実現する方法は、RL理論において未解決の問題である。 この問題を有限水平不均一マルコフ決定過程の文脈で解決する。 具体的には、単調値伝播 (mvp) の修正版が (modulo log factors) \begin{equation*} \min\big\{ \sqrt{sah^3k}, \,hk \big\}, \end{equation*} ここで$s$ は状態の数、$a$ はアクションの数、$h$ は計画の地平線、$k$ はエピソードの総数である。 この後悔は、サンプルサイズの全範囲で$K\geq 1$のminimaxローバウンドと一致し、本質的にはバーンイン要件を排除している。 また、pacサンプルの複雑さ(つまり$\varepsilon$-accuracy)、$\frac{sah^3}{\varepsilon^2}$ up to log factor($\varepsilon$-rangeの最大最適数)も意味する。 さらに,本理論を拡張して,最適値/コストや一定の分散といった問題依存量の影響を明らかにする。 重要な技術的革新は、新しい後悔の分解戦略と、複雑な統計的依存を分離するための新しい分析パラダイムの開発にある。

A central issue lying at the heart of online reinforcement learning (RL) is data efficiency. While a number of recent works achieved asymptotically minimal regret in online RL, the optimality of these results is only guaranteed in a ``large-sample'' regime, imposing enormous burn-in cost in order for their algorithms to operate optimally. How to achieve minimax-optimal regret without incurring any burn-in cost has been an open problem in RL theory. We settle this problem for the context of finite-horizon inhomogeneous Markov decision processes. Specifically, we prove that a modified version of Monotonic Value Propagation (MVP), a model-based algorithm proposed by \cite{zhang2020reinforcement}, achieves a regret on the order of (modulo log factors) \begin{equation*} \min\big\{ \sqrt{SAH^3K}, \,HK \big\}, \end{equation*} where $S$ is the number of states, $A$ is the number of actions, $H$ is the planning horizon, and $K$ is the total number of episodes. This regret matches the minimax lower bound for the entire range of sample size $K\geq 1$, essentially eliminating any burn-in requirement. It also translates to a PAC sample complexity (i.e., the number of episodes needed to yield $\varepsilon$-accuracy) of $\frac{SAH^3}{\varepsilon^2}$ up to log factor, which is minimax-optimal for the full $\varepsilon$-range. Further, we extend our theory to unveil the influences of problem-dependent quantities like the optimal value/cost and certain variances. The key technical innovation lies in the development of a new regret decomposition strategy and a novel analysis paradigm to decouple complicated statistical dependency -- a long-standing challenge facing the analysis of online RL in the sample-hungry regime.
翻訳日:2023-07-26 16:17:12 公開日:2023-07-25
# 極端施工条件下での個人保護装置検出

Personal Protective Equipment Detection in Extreme Construction Conditions ( http://arxiv.org/abs/2307.13654v1 )

ライセンス: Link先を確認
Yuexiong Ding and Xiaowei Luo(参考訳) オブジェクト検出は、建設安全管理、特にパーソナル防護装置(PPE)検出に広く応用されている。 従来のデータセットでトレーニングされた既存のPPE検出モデルは優れた結果を得たが、極端な建設条件下では性能が劇的に低下した。 ニューラルネットワーク転送(NST)とYOLOv5技術を組み合わせて,ロバスト検出モデルNST-YOLOv5を開発した。 nstモジュールを使って5つの極端な条件を考慮し、低光度、強烈な光、砂塵、霧、雨など、検出モデルに優れた堅牢性を与えるようにシミュレートする。 実験により、NSTは従来の画像処理アルゴリズムよりも極端な条件をシミュレートし、NST-YOLOv5が合成および現実世界の極端なデータにおいて0.141と0.083mAP_(05:95)の改善を達成できるため、極端なデータ合成のツールとして大きな可能性を示唆している。 本研究は, 極端施工条件に対するより堅牢な検出モデルを得るための, 新たな実現可能な方法を提供する。

Object detection has been widely applied for construction safety management, especially personal protective equipment (PPE) detection. Though the existing PPE detection models trained on conventional datasets have achieved excellent results, their performance dramatically declines in extreme construction conditions. A robust detection model NST-YOLOv5 is developed by combining the neural style transfer (NST) and YOLOv5 technologies. Five extreme conditions are considered and simulated via the NST module to endow the detection model with excellent robustness, including low light, intense light, sand dust, fog, and rain. Experiments show that the NST has great potential as a tool for extreme data synthesis since it is better at simulating extreme conditions than other traditional image processing algorithms and helps the NST-YOLOv5 achieve 0.141 and 0.083 mAP_(05:95) improvements in synthesized and real-world extreme data. This study provides a new feasible way to obtain a more robust detection model for extreme construction conditions.
翻訳日:2023-07-26 16:08:16 公開日:2023-07-25
# SiCにおけるシリコン空孔中心:集積量子フォトニクスにおける内在スピンダイナミクスの決定

The silicon vacancy centers in SiC: determination of intrinsic spin dynamics for integrated quantum photonics ( http://arxiv.org/abs/2307.13648v1 )

ライセンス: Link先を確認
Di Liu, Florian Kaiser, Vladislav Bushmakin, Erik Hesselmeier, Timo Steidl, Takeshi Ohshima, Nguyen Tien Son, Jawad Ul-Hassan, \"Oney O. Soykal, J\"org Wrachtrup(参考訳) シリコン炭化物(sic)の負の電荷を持つシリコン空室センター(英語版)(\rm v_{si}^-$)は、量子センシング、通信、コンピューティングをカバーする量子技術のための新しいカラーセンターである。 しかし、これらの色中心の内部スピン光学ダイナミクスで現在利用可能な限られた情報は、最適な操作条件を達成し、特に量子フォトニクスに統合された場合に最大性能に達することを妨げている。 ここでは,4H-SiCにおける負電荷$\rm V_{Si}^-$中心のすべての固有スピンダイナミクスを,系間交叉・除染機構を含む詳細な電子微細構造モデリングにより確立する。 精巧に設計されたスピン依存測定により、未知のスピン選択放射および非放射崩壊率をすべて得られる。 集積量子フォトニクスにおける我々の研究の意義を明らかにするために、得られたレートを用いて、時間結合型多光子GHZとクラスタ状態生成の現実的な実装を提案する。 我々は,既存のナノフォトニックキャビティ技術を用いて,最大3光子GHZ/クラスター状態が手軽に到達できることを発見した。

The negatively-charged silicon vacancy center ($\rm V_{Si}^-$) in silicon carbide (SiC) is an emerging color center for quantum technology covering quantum sensing, communication, and computing. Yet, limited information currently available on the internal spin-optical dynamics of these color centers prevents us achieving the optimal operation conditions and reaching the maximum performance especially when integrated within quantum photonics. Here, we establish all the relevant intrinsic spin dynamics of negatively charged $\rm V_{Si}^-$ center in 4H-SiC by an in-depth electronic fine structure modeling including intersystem-crossing and deshelving mechanisms. With carefully designed spin-dependent measurements, we obtain all previously unknown spin-selective radiative and non-radiative decay rates. To showcase the relevance of our work for integrated quantum photonics, we use the obtained rates to propose a realistic implementation of time-bin entangled multi-photon GHZ and cluster state generation. We find that up to 3-photon GHZ/cluster states are readily within reach using the existing nanophotonic cavity technology.
翻訳日:2023-07-26 16:07:56 公開日:2023-07-25
# 外部トーション場における理想気体と退化フェルミガス

Ideal gases and degenerate Fermi gases in external torsion fields ( http://arxiv.org/abs/2307.13647v1 )

ライセンス: Link先を確認
Chih-Hung Wang, Yu-Huei Wu(参考訳) 外部ねじれ場が理想気体およびフェルミガスに及ぼす影響について検討し, ねじれ感受性と呼ばれる巨視的量を導出する。 まず、リーマン・カルタン時空におけるディラックフェルミオンと背景ねじれと電磁場との最小結合について考察する。 foldy-wouthuysen変換を適用すると、弱磁場極限のスピン1/2粒子のハミルトニアンが得られる。 軸ねじりベクトルのスピンと空間成分の結合はゼーマンのような効果を持ち、エネルギー準位の縮退を除去し、スピンに関してエネルギー準位を分割する。 我々は、ボルツマン分布を満たす理想気体とフェルミ-ディラック分布を満たすフェルミガスに対するスピンねじれカップリングのマクロ効果を計算した。 理想気体のねじれ感受性は温度に逆比例し、フェルミガスでは一定である。

We investigate the effects of external torsion fields on ideal gases and Fermi gases, and derive a macroscopic quantity, which we call torsion susceptibility. We first consider the Dirac fermions in the Riemann-Cartan spacetime minimally coupled to the background torsion and electromagnetic fields. After applying the Foldy-Wouthuysen transformation, Hamiltonian of a spin-1/2 particle in weak field limit is obtained. The coupling of spin and spatial components of axial torsion vector has a Zeeman-like effect, which removes the degeneracy of energy levels and splits the energy levels with respect to the spin. We calculate the macroscopic effects of the spin-torsion coupling on ideal gases, which satisfying the Boltzmann distribution, and Fermi gases, which satisfying the Fermi-Dirac distribution. The torsion susceptibility of ideal gases is inversely proportional to the temperature and is constant in Fermi gases.
翻訳日:2023-07-26 16:07:40 公開日:2023-07-25
# QuickQual:市販プレトレーニングモデルによる軽量で便利な網膜画像品質評価

QuickQual: Lightweight, convenient retinal image quality scoring with off-the-shelf pretrained models ( http://arxiv.org/abs/2307.13646v1 )

ライセンス: Link先を確認
Justin Engelmann, Amos Storkey, Miguel O. Bernabeu(参考訳) 画像品質は、従来型およびディープラーニング(DL)ベースの網膜画像解析のアプローチにおいて重要な問題であり続けているが、画質の悪い画像を特定するのには時間がかかる。 そのため、網膜画像品質スコアリング(RIQS)の自動化手法が必要である。 現在の最先端はMCFNetで、3つのDensenet121バックボーンがそれぞれ異なる色空間で動作する。 MCFNetと、同じ著者がリリースしたEyeQデータセットは、RIQSにとって大きな前進でした。 我々は、RIQSのシンプルなアプローチであるQuickQualを紹介し、既製のImageNet-pretrained Densenet121バックボーンとSVM(Support Vector Machine)を組み合わせた。 quickqualは非常によく機能し、eyeqの最先端を新たに設定する(正確: 88.50%、mcfnet: 88.00%、auc: 0.9687 vs 0.9588)。 このことは、RIQSは大量の基礎画像に基づいて訓練されたDLモデルを必要とするのとは対照的に、自然画像上で学習した一般的な知覚的特徴で解決できることを示している。 さらに,EyeQを3方向分類から連続ロジスティック回帰タスクに変換する固定前線形化方式を提案する。 そこで本研究では,2番目のモデルであるquickqual mega minified estimator (quickqual-mememe) を提案する。このモデルでは,市販の densenet121 の上位10個のパラメータのみで構成され,89.18%の精度で分解性のある画像と分解性のない画像とを区別できる(auc: 0.9537)。 コードとモデルはgithubで入手できる。 QuickQualはとても軽量なので、推論コード全体(およびQuickQual-MEMEのパラメータさえも)がこの論文にすでに含まれています。

Image quality remains a key problem for both traditional and deep learning (DL)-based approaches to retinal image analysis, but identifying poor quality images can be time consuming and subjective. Thus, automated methods for retinal image quality scoring (RIQS) are needed. The current state-of-the-art is MCFNet, composed of three Densenet121 backbones each operating in a different colour space. MCFNet, and the EyeQ dataset released by the same authors, was a huge step forward for RIQS. We present QuickQual, a simple approach to RIQS, consisting of a single off-the-shelf ImageNet-pretrained Densenet121 backbone plus a Support Vector Machine (SVM). QuickQual performs very well, setting a new state-of-the-art for EyeQ (Accuracy: 88.50% vs 88.00% for MCFNet; AUC: 0.9687 vs 0.9588). This suggests that RIQS can be solved with generic perceptual features learned on natural images, as opposed to requiring DL models trained on large amounts of fundus images. Additionally, we propose a Fixed Prior linearisation scheme, that converts EyeQ from a 3-way classification to a continuous logistic regression task. For this task, we present a second model, QuickQual MEga Minified Estimator (QuickQual-MEME), that consists of only 10 parameters on top of an off-the-shelf Densenet121 and can distinguish between gradable and ungradable images with an accuracy of 89.18% (AUC: 0.9537). Code and model are available on GitHub: https://github.com/justinengelmann/QuickQual . QuickQual is so lightweight, that the entire inference code (and even the parameters for QuickQual-MEME) is already contained in this paper.
翻訳日:2023-07-26 16:07:26 公開日:2023-07-25
# 医用画像セグメンテーションにおけるデータ拡張のための伝達可能なオブジェクト中心微分変換の学習

Learning Transferable Object-Centric Diffeomorphic Transformations for Data Augmentation in Medical Image Segmentation ( http://arxiv.org/abs/2307.13645v1 )

ライセンス: Link先を確認
Nilesh Kumar, Prashnna K. Gyawali, Sandesh Ghimire, Linwei Wang(参考訳) 医用画像セグメンテーションにおけるラベル付きデータの取得は,専門家によるピクセルレベルのアノテーションの必要性から困難である。 近年の研究では、興味の対象を変形可能な変換で拡張することで、この課題を緩和できることが示されている。 しかし、これらの変換は画像に対してグローバルに学習され、画像アライメントが難しい問題におけるデータセット全体の転送可能性や適用性が制限されている。 オブジェクト中心の拡張はこれらの問題を克服する絶好の機会を提供するが、既存の作品はオブジェクトの形状の変化を考慮せずに位置とランダムな変換だけに焦点を当てている。 そこで本研究では,興味のある物体の形状変化を学習し,画像の残りの部分を変更することなく,所定の位置にある物体を拡張できる新しい物体中心データ拡張モデルを提案する。 同一データセット内および外部データセットから得られた形状変化を利用して腎腫瘍のセグメンテーションを改善する効果を実証した。

Obtaining labelled data in medical image segmentation is challenging due to the need for pixel-level annotations by experts. Recent works have shown that augmenting the object of interest with deformable transformations can help mitigate this challenge. However, these transformations have been learned globally for the image, limiting their transferability across datasets or applicability in problems where image alignment is difficult. While object-centric augmentations provide a great opportunity to overcome these issues, existing works are only focused on position and random transformations without considering shape variations of the objects. To this end, we propose a novel object-centric data augmentation model that is able to learn the shape variations for the objects of interest and augment the object in place without modifying the rest of the image. We demonstrated its effectiveness in improving kidney tumour segmentation when leveraging shape variations learned both from within the same dataset and transferred from external datasets.
翻訳日:2023-07-26 16:06:50 公開日:2023-07-25
# 強化学習のための安全マージン

Safety Margins for Reinforcement Learning ( http://arxiv.org/abs/2307.13642v1 )

ライセンス: Link先を確認
Alexander Grushin, Walt Woods, Alvaro Velasquez, Simon Khan(参考訳) 自律型コントローラーは、一部の状況では安全ではない。 これらの安全でない状況がいつ発生するかを定量的に識別する能力は、タイムリーな人間の監視、例えば貨物輸送の応用に欠かせない。 本研究では,エージェントの状況の真の臨界性が,ランダムな行動が与えられた場合の報酬の平均還元量として頑健に定義できることを実証する。 リアルタイムに計算可能なプロキシクリティカル性メトリクス(すなわち、ランダムなアクションの効果を実際にシミュレートせずに)は、真のクリティカル性と比較することができる。 我々は,Atari環境におけるAPE-XとA3Cの学習方針に対するアプローチを評価し,エージェントが障害状態に近づくと,安全マージンが低下することを示す。 デプロイされたエージェントを監視するプログラムへの安全性マージンの統合により、潜在的破滅的な状況のリアルタイム識別が可能になる。

Any autonomous controller will be unsafe in some situations. The ability to quantitatively identify when these unsafe situations are about to occur is crucial for drawing timely human oversight in, e.g., freight transportation applications. In this work, we demonstrate that the true criticality of an agent's situation can be robustly defined as the mean reduction in reward given some number of random actions. Proxy criticality metrics that are computable in real-time (i.e., without actually simulating the effects of random actions) can be compared to the true criticality, and we show how to leverage these proxy metrics to generate safety margins, which directly tie the consequences of potentially incorrect actions to an anticipated loss in overall performance. We evaluate our approach on learned policies from APE-X and A3C within an Atari environment, and demonstrate how safety margins decrease as agents approach failure states. The integration of safety margins into programs for monitoring deployed agents allows for the real-time identification of potentially catastrophic situations.
翻訳日:2023-07-26 16:06:34 公開日:2023-07-25
# オプティカルフローは教師なしのローカライゼーションとセグメンテーションを促進する

Optical Flow boosts Unsupervised Localization and Segmentation ( http://arxiv.org/abs/2307.13640v1 )

ライセンス: Link先を確認
Xinyu Zhang, Abdeslam Boularias(参考訳) 教師なしのローカライゼーションとセグメンテーションは、ラベル付きデータなしでイメージを個々のオブジェクトに分解することを学ぶ自律ロボットにとって重要な能力を記述する、長年にわたるロボットビジョンの課題である。 これらのタスクは、濃密な画像手動アノテーションの可用性の制限と、生涯学習における進化するオブジェクトカテゴリへの適応という有望なビジョンのために重要である。 近年の手法では、自己監督型視覚変換器(ViT)から得られる空間的クラスタリング機能により、視覚的外観連続性をオブジェクトキューとして利用することに焦点を当てている。 この研究では、同様の動きを共有する画素は同じ物体に属する傾向にあるという共通の運命原理に着想を得て、動きの手がかりを利用する。 そこで本稿では,光学的フローを用いた新たな損失項の定式化を提案し,空間的位置が類似した動きを共有した場合に,自己教師付きVT特徴が互いに近付くように促し,その逆も提案する。 提案する損失関数を用いて、当初静止画像で訓練された視覚トランスフォーマーを微調整する。 提案手法は,ラベル付きデータを用いずに,線形プローブによる教師なし意味セグメンテーションのための最先端技術を上回る。 この手順は、教師なしオブジェクトローカライゼーションとセマンティクスセグメンテーションベンチマークによって、元のvitネットワークよりも高いパフォーマンスを示す。

Unsupervised localization and segmentation are long-standing robot vision challenges that describe the critical ability for an autonomous robot to learn to decompose images into individual objects without labeled data. These tasks are important because of the limited availability of dense image manual annotation and the promising vision of adapting to an evolving set of object categories in lifelong learning. Most recent methods focus on using visual appearance continuity as object cues by spatially clustering features obtained from self-supervised vision transformers (ViT). In this work, we leverage motion cues, inspired by the common fate principle that pixels that share similar movements tend to belong to the same object. We propose a new loss term formulation that uses optical flow in unlabeled videos to encourage self-supervised ViT features to become closer to each other if their corresponding spatial locations share similar movements, and vice versa. We use the proposed loss function to finetune vision transformers that were originally trained on static images. Our fine-tuning procedure outperforms state-of-the-art techniques for unsupervised semantic segmentation through linear probing, without the use of any labeled data. This procedure also demonstrates increased performance over original ViT networks across unsupervised object localization and semantic segmentation benchmarks.
翻訳日:2023-07-26 16:06:18 公開日:2023-07-25
# 作らないフェイク:正確な3次元顔形状推定のための条件付き顔生成

Fake It Without Making It: Conditioned Face Generation for Accurate 3D Face Shape Estimation ( http://arxiv.org/abs/2307.13639v1 )

ライセンス: Link先を確認
Will Rowan, Patrik Huber, Nick Pears, Andrew Keeling(参考訳) 正確な3D顔形状推定は、医療、セキュリティ、クリエイティブ産業の応用が可能な技術であるが、現在の最先端の手法は、2D画像データによる自己監督トレーニングか、非常に限られた3Dデータによる教師ありトレーニングに依存している。 このギャップを埋めるために,条件付き安定拡散モデルを用いて顔画像を生成する手法を提案する。 人間の顔の3次元形態モデル(3DMM)から採取した深度マップに安定な拡散を条件付け,多彩で形状に整合した画像を生成し,SynthFaceの基礎となる。 本稿では,250Kフォトリアリスティック画像とそれに対応する3DMMパラメータの大規模合成データセットを提案する。 さらに,3次元の監視や手作業による3dアセット生成を必要とせずに,現在のベンチマークで競争力を発揮できる,深層ニューラルネットワークであるcontrolfaceを提案する。

Accurate 3D face shape estimation is an enabling technology with applications in healthcare, security, and creative industries, yet current state-of-the-art methods either rely on self-supervised training with 2D image data or supervised training with very limited 3D data. To bridge this gap, we present a novel approach which uses a conditioned stable diffusion model for face image generation, leveraging the abundance of 2D facial information to inform 3D space. By conditioning stable diffusion on depth maps sampled from a 3D Morphable Model (3DMM) of the human face, we generate diverse and shape-consistent images, forming the basis of SynthFace. We introduce this large-scale synthesised dataset of 250K photorealistic images and corresponding 3DMM parameters. We further propose ControlFace, a deep neural network, trained on SynthFace, which achieves competitive performance on the NoW benchmark, without requiring 3D supervision or manual 3D asset creation.
翻訳日:2023-07-26 16:05:55 公開日:2023-07-25
# バイオメディカル領域における質問応答システムの改善への貢献

Contributions to the Improvement of Question Answering Systems in the Biomedical Domain ( http://arxiv.org/abs/2307.13631v1 )

ライセンス: Link先を確認
Mourad Sarrouti(参考訳) この論文は、専門の辞書や用語、治療された質問の種類、対象文書の特徴など、いくつかの特定の課題に対処する生体医学領域における質問応答(QA)の枠組みに該当する。 特に,生物医学的な自然言語に関する質問に対して,英語の大規模文書から正確かつ短時間の回答を求める手法の研究と改善に関心がある。 QAは、自然言語の質問に対して、直接的で短く正確な回答を提供することを目的としている。 本論文では,生物医学領域におけるQAの性能向上のための4つの貢献を提案する。 最初のコントリビューションでは,バイオメディカルQAシステムで適切な回答抽出を行うことができる質問の種類を決定するための,質問型分類のための機械学習手法を提案する。 また,与えられた質問に対して1つ以上の話題(薬理学,試験,治療など)を割り当てて,具体的な回答検索戦略の作成に非常に有用な期待回答の意味型を決定する別の機械学習ベースの手法を提案する。 第2のコントリビューションでは,MEDLINEデータベースからバイオメディカル質問に対する回答を含む可能性のある関連文書の集合を検索する文書検索手法を提案する。 次に,質問に対する関連項目の集合を検索する経路検索手法を提案する。 第3の貢献では, 正解と理想解の両方を生成するために, 特定の回答抽出法を提案する。 最後に、第4の貢献として、様々な自然言語質問に対処し、正確かつ理想的な回答を提供することで適切な回答を生成する、sembionlqaと呼ばれる完全に自動化されたセマンティックバイオメディカルqaシステムを開発しました。

This thesis work falls within the framework of question answering (QA) in the biomedical domain where several specific challenges are addressed, such as specialized lexicons and terminologies, the types of treated questions, and the characteristics of targeted documents. We are particularly interested in studying and improving methods that aim at finding accurate and short answers to biomedical natural language questions from a large scale of biomedical textual documents in English. QA aims at providing inquirers with direct, short and precise answers to their natural language questions. In this Ph.D. thesis, we propose four contributions to improve the performance of QA in the biomedical domain. In our first contribution, we propose a machine learning-based method for question type classification to determine the types of given questions which enable to a biomedical QA system to use the appropriate answer extraction method. We also propose an another machine learning-based method to assign one or more topics (e.g., pharmacological, test, treatment, etc.) to given questions in order to determine the semantic types of the expected answers which are very useful in generating specific answer retrieval strategies. In the second contribution, we first propose a document retrieval method to retrieve a set of relevant documents that are likely to contain the answers to biomedical questions from the MEDLINE database. We then present a passage retrieval method to retrieve a set of relevant passages to questions. In the third contribution, we propose specific answer extraction methods to generate both exact and ideal answers. Finally, in the fourth contribution, we develop a fully automated semantic biomedical QA system called SemBioNLQA which is able to deal with a variety of natural language questions and to generate appropriate answers by providing both exact and ideal answers.
翻訳日:2023-07-26 16:05:35 公開日:2023-07-25
# 機械学習に基づく化学プラントシミュレーションのスケーリング : 安定不動点を誘導するモデルの微調整法

Scaling machine learning-based chemical plant simulation: A method for fine-tuning a model to induce stable fixed points ( http://arxiv.org/abs/2307.13621v1 )

ライセンス: Link先を確認
Malte Esders, Gimmy Alex Fernandez Ramirez, Michael Gastegger, Satya Swarup Samal(参考訳) 化学プラントの理想化された第一原理モデルは不正確である。 もうひとつの方法は、機械学習(ML)モデルを直接植物センサーデータに適合させることだ。 プラント内の各ユニットは、1つのMLモデルで表現されます。 データにモデルを合わせると、モデルがフローシートのような有向グラフに接続される。 小さい植物の場合、このアプローチはうまく機能するが、より大きな植物の場合、フローシート内の大きなサイクルとネストしたサイクルから生じる複雑なダイナミクスは、サイクルソルバーの不安定性につながる。 我々はこの問題を深く分析し、MLが大規模植物に適用されるたびに起こりうる、より広範囲にわたる課題であることを示す。 この問題に対処するために,通常の手法で解くサイクルが再び頑健になるように,mlモデルを微調整する方法を提案する。

Idealized first-principles models of chemical plants can be inaccurate. An alternative is to fit a Machine Learning (ML) model directly to plant sensor data. We use a structured approach: Each unit within the plant gets represented by one ML model. After fitting the models to the data, the models are connected into a flowsheet-like directed graph. We find that for smaller plants, this approach works well, but for larger plants, the complex dynamics arising from large and nested cycles in the flowsheet lead to instabilities in the cycle solver. We analyze this problem in depth and show that it is not merely a specialized concern but rather a more pervasive challenge that will likely occur whenever ML is applied to larger plants. To address this problem, we present a way to fine-tune ML models such that solving cycles with the usual methods becomes robust again.
翻訳日:2023-07-26 16:05:07 公開日:2023-07-25
# 視覚認識のための生成データのベンチマークと解析

Benchmarking and Analyzing Generative Data for Visual Recognition ( http://arxiv.org/abs/2307.13697v1 )

ライセンス: Link先を確認
Bo Li, Haotian Liu, Liangyu Chen, Yong Jae Lee, Chunyuan Li, Ziwei Liu(参考訳) 大規模な事前学習型生成モデルの進歩は、視覚認識に有効なデータジェネレータとしての可能性を広げている。 この研究は生成的画像の影響を掘り下げ、主に外部データを利用するパラダイムを比較する(生成的 \vs 検索はオリジナル)。 主要なコントリビューションは以下のとおりである。 \textbf{1) GenBench Construction:} 様々な視覚的認識タスクにおける生成データを評価するために、2548のカテゴリを持つ22のデータセットからなる広範なベンチマークである \textbf{GenBench} を考案する。 CLERスコア:} 既存のメトリクス(\eg, FID, CLIPスコア)と下流認識性能の相関が不十分なことを解決するために, 学習前の認識タスクに対する生成データの効率を示すトレーニング不要な指標である \textbf{CLER} を提案する。 \textbf{3) 新しいベースライン:} 生成データと同じ外部プールから取得したデータの比較は、生成データのユニークな特徴を明らかにするのに役立つ。 textbf{4) 外部知識注入:} テキスト変換による各カテゴリの特別なトークン埋め込みを微調整することにより、低解像度の参照イメージを扱う場合を除き、パフォーマンスが17データセットにわたって改善される。 我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束を示唆している。

Advancements in large pre-trained generative models have expanded their potential as effective data generators in visual recognition. This work delves into the impact of generative images, primarily comparing paradigms that harness external data (\ie generative \vs retrieval \vs original). Our key contributions are: \textbf{1) GenBench Construction:} We devise \textbf{GenBench}, a broad benchmark comprising 22 datasets with 2548 categories, to appraise generative data across various visual recognition tasks. \textbf{2) CLER Score:} To address the insufficient correlation of existing metrics (\eg, FID, CLIP score) with downstream recognition performance, we propose \textbf{CLER}, a training-free metric indicating generative data's efficiency for recognition tasks prior to training. \textbf{3) New Baselines:} Comparisons of generative data with retrieved data from the same external pool help to elucidate the unique traits of generative data. \textbf{4) External Knowledge Injection:} By fine-tuning special token embeddings for each category via Textual Inversion, performance improves across 17 datasets, except when dealing with low-resolution reference images. Our exhaustive benchmark and analysis spotlight generative data's promise in visual recognition, while identifying key challenges for future investigation.
翻訳日:2023-07-26 15:58:46 公開日:2023-07-25
# 強収束トポロジーにおける量子演算族に対するコンパクト性基準とその応用

Compactness criterion for families of quantum operations in the strong convergence topology and its applications ( http://arxiv.org/abs/2307.13694v1 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 強収束トポロジー(先に述べた)における量子演算の族に対するコンパクト性基準の改訂版が提示され、さらに詳細な証明とこの修正の必要性を示す例が提示される。 量子演算列 w.r.t. の極限点の存在に関するいくつかの基準が得られ、議論された。 量子情報理論の異なる分野の応用について述べる。

A revised version of the compactness criterion for families of quantum operations in the strong convergence topology (obtained previously) is presented, along with a more detailed proof and the examples showing the necessity of this revision. Several criteria for the existence of a limit point of a sequence of quantum operations w.r.t. the strong convergence are obtained and discussed. Applications in different areas of quantum information theory are described.
翻訳日:2023-07-26 15:58:21 公開日:2023-07-25
# ラジオロジー自然言語処理のための大規模言語モデルの評価

Evaluating Large Language Models for Radiology Natural Language Processing ( http://arxiv.org/abs/2307.13693v1 )

ライセンス: Link先を確認
Zhengliang Liu, Tianyang Zhong, Yiwei Li, Yutong Zhang, Yi Pan, Zihao Zhao, Peixin Dong, Chao Cao, Yuxiao Liu, Peng Shu, Yaonai Wei, Zihao Wu, Chong Ma, Jiaqi Wang, Sheng Wang, Mengyue Zhou, Zuowei Jiang, Chunlin Li, Shaochen Xu, Lu Zhang, Haixing Dai, Kai Zhang, Xu Liu, Lin Zhao, Peilong Wang, Pingkun Yan, Jun Liu, Bao Ge, Lichao Sun, Dajiang Zhu, Xiang Li, Wei Liu, Xiaoyan Cai, Xintao Hu, Xi Jiang, Shu Zhang, Xin Zhang, Tuo Zhang, Shijie Zhao, Quanzheng Li, Hongtu Zhu, Dinggang Shen, Tianming Liu(参考訳) 大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。 LLMは多くの領域に革命をもたらし、医療分野に大きな影響を与えた。 大規模な言語モデルはこれまで以上に豊富であり、これらのモデルの多くは英語と中国語の両方に熟達したバイリンガル機能を持っている。 しかし、これらのモデルの総合的な評価は行われていない。 この評価の欠如は放射線学におけるNLPの文脈において特に顕著である。 本研究は, 放射線学NLPの重要な構成要素である放射線学レポートの解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。 具体的には,放射線学的所見から印象を導き出す能力を評価する。 この評価の結果は、これらのLSMの性能、強度、弱点に関する重要な洞察を与え、医療領域内での実践的応用を示す。

The rise of large language models (LLMs) has marked a pivotal shift in the field of natural language processing (NLP). LLMs have revolutionized a multitude of domains, and they have made a significant impact in the medical field. Large language models are now more abundant than ever, and many of these models exhibit bilingual capabilities, proficient in both English and Chinese. However, a comprehensive evaluation of these models remains to be conducted. This lack of assessment is especially apparent within the context of radiology NLP. This study seeks to bridge this gap by critically evaluating thirty two LLMs in interpreting radiology reports, a crucial component of radiology NLP. Specifically, the ability to derive impressions from radiologic findings is assessed. The outcomes of this evaluation provide key insights into the performance, strengths, and weaknesses of these LLMs, informing their practical applications within the medical domain.
翻訳日:2023-07-26 15:58:13 公開日:2023-07-25
# ARB: 大規模言語モデルのための高度な推論ベンチマーク

ARB: Advanced Reasoning Benchmark for Large Language Models ( http://arxiv.org/abs/2307.13692v1 )

ライセンス: Link先を確認
Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas, Alexander Kranias, John J. Nay, Kshitij Gupta, Aran Komatsuzaki(参考訳) 大規模言語モデル(LLM)は、様々な量的推論と知識のベンチマークで顕著な性能を示した。 しかし、これらのベンチマークの多くは、これらの領域でまだ専門家のパフォーマンスに達していないにもかかわらず、LSMが高得点を獲得するにつれて実用性を失っている。 複数の分野における高度な推論問題からなる新しいベンチマークであるarbを紹介する。 ARBは以前のベンチマークよりも難しいテストを示しており、数学、物理学、生物学、化学、法学の問題を特徴としている。 ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。 我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。 自動評価能力と補助評価能力の両方を改善するために,gpt-4が独自の中間的推論ステップをスコアリングできるように,rubricベースの評価手法を導入する。 さらに, arbの記号部分集合の人間的評価を行い, アノテーションとgpt-4ルブリック評価スコアの有望な一致を見出した。

Large Language Models (LLMs) have demonstrated remarkable performance on various quantitative reasoning and knowledge benchmarks. However, many of these benchmarks are losing utility as LLMs get increasingly high scores, despite not yet reaching expert performance in these domains. We introduce ARB, a novel benchmark composed of advanced reasoning problems in multiple fields. ARB presents a more challenging test than prior benchmarks, featuring problems in mathematics, physics, biology, chemistry, and law. As a subset of ARB, we introduce a challenging set of math and physics problems which require advanced symbolic reasoning and domain knowledge. We evaluate recent models such as GPT-4 and Claude on ARB and demonstrate that current models score well below 50% on more demanding tasks. In order to improve both automatic and assisted evaluation capabilities, we introduce a rubric-based evaluation approach, allowing GPT-4 to score its own intermediate reasoning steps. Further, we conduct a human evaluation of the symbolic subset of ARB, finding promising agreement between annotators and GPT-4 rubric evaluation scores.
翻訳日:2023-07-26 15:57:58 公開日:2023-07-25
# 織物の視覚言語

The Visual Language of Fabrics ( http://arxiv.org/abs/2307.13681v1 )

ライセンス: Link先を確認
Valentin Deschaintre, Julia Guerrero-Viu, Diego Gutierrez, Tamy Boubekeur, Belen Masia(参考訳) 自由文記述を様々なファブリック素材にリンクする新しいデータセットであるtext2fabricを紹介する。 データセットは、15,000の自然言語記述からなり、3000の対応する織物材料の画像に対応する。 伝統的に、具体的記述は、その表現性を制限するタグ/キーワードの形で現れ、適切な語彙の既存の知識を誘導し、最終的に切り刻んだ記述システムへと繋がる。 そこで,本研究では,非専門家がよく扱う共通項目として,ファブリックの使用例を取り上げ,素材の外観を記述するための,自由文の使用について検討する。 データセットの分析に基づいて、記述から現れるコンパクトな辞書、属性の集合、キー構造を同定する。 これにより、人々が布をどう記述するかを正確に理解し、他の種類の材料に一般化するための方向を導き出すことができる。 また,このデータセットにより,CLIPなどの大規模視覚言語モデルの特殊化,布の外観に有意義な潜在空間の創出,きめ細かな材料検索や自動キャプションなどの適用性の向上が図られている。

We introduce text2fabric, a novel dataset that links free-text descriptions to various fabric materials. The dataset comprises 15,000 natural language descriptions associated to 3,000 corresponding images of fabric materials. Traditionally, material descriptions come in the form of tags/keywords, which limits their expressivity, induces pre-existing knowledge of the appropriate vocabulary, and ultimately leads to a chopped description system. Therefore, we study the use of free-text as a more appropriate way to describe material appearance, taking the use case of fabrics as a common item that non-experts may often deal with. Based on the analysis of the dataset, we identify a compact lexicon, set of attributes and key structure that emerge from the descriptions. This allows us to accurately understand how people describe fabrics and draw directions for generalization to other types of materials. We also show that our dataset enables specializing large vision-language models such as CLIP, creating a meaningful latent space for fabric appearance, and significantly improving applications such as fine-grained material retrieval and automatic captioning.
翻訳日:2023-07-26 15:57:41 公開日:2023-07-25
# クリッピングによる非凸確率最適化の高確率解析

High Probability Analysis for Non-Convex Stochastic Optimization with Clipping ( http://arxiv.org/abs/2307.13680v1 )

ライセンス: Link先を確認
Shaojie Li, Yong Liu(参考訳) 勾配クリッピング(gradient clipping)は、ニューラルネットワークのトレーニングプロセスを安定化するための一般的なテクニックである。 多くの研究が、勾配クリッピングは確率的最適化で現れた重い尾の挙動を扱うための有望な手法であることを示した。 勾配クリッピングは重要であるが、理論的保証は少ない。 ほとんどの理論的保証は期待内分析のみを提供し、最適化性能のみに焦点を当てている。 本稿では,非凸設定において高い確率解析を行い,確率勾配降下とその運動量および適応ステップの変種を含む勾配クリッピングを用いた一般的な確率最適化アルゴリズムに対して,最適化境界と一般化を同時に導出する。 勾配クリッピングを用いて、勾配は、ある$\alpha \in (1, 2]$に対して有界な$-thモーメントしか持たないという重み付き仮定を研究する。 本研究は, クリッピングによる確率最適化アルゴリズムの理論的保証について, 比較的完全な画像を提供する。

Gradient clipping is a commonly used technique to stabilize the training process of neural networks. A growing body of studies has shown that gradient clipping is a promising technique for dealing with the heavy-tailed behavior that emerged in stochastic optimization as well. While gradient clipping is significant, its theoretical guarantees are scarce. Most theoretical guarantees only provide an in-expectation analysis and only focus on optimization performance. In this paper, we provide high probability analysis in the non-convex setting and derive the optimization bound and the generalization bound simultaneously for popular stochastic optimization algorithms with gradient clipping, including stochastic gradient descent and its variants of momentum and adaptive stepsizes. With the gradient clipping, we study a heavy-tailed assumption that the gradients only have bounded $\alpha$-th moments for some $\alpha \in (1, 2]$, which is much weaker than the standard bounded second-moment assumption. Overall, our study provides a relatively complete picture for the theoretical guarantee of stochastic optimization algorithms with clipping.
翻訳日:2023-07-26 15:57:21 公開日:2023-07-25
# RED CoMETS:記号的に表される多変量時系列のためのアンサンブル分類器

RED CoMETS: An ensemble classifier for symbolically represented multivariate time series ( http://arxiv.org/abs/2307.13679v1 )

ライセンス: Link先を確認
Luca A. Bennett and Zahraa S. Abdallah(参考訳) 多変量時系列分類は、金融、医療、工学などの実践的な応用で急速に成長している研究分野である。 多変量時系列データの分類の複雑さは、その高次元、時間依存、長さの違いから生じる。 本稿では、これらの課題に対処するRED CoMETS(Random Enhanced Co-eye for Multivariate Time Series)と呼ばれる新しいアンサンブル分類器を提案する。 RED CoMETSは、一変量時系列を象徴的に表すために特別に設計されたアンサンブル分類器であるCo-eyeの成功に基づいており、多変量データを扱う能力を拡張している。 RED CoMETSのパフォーマンスは、UCRアーカイブのベンチマークデータセットで評価され、多変量設定における最先端技術と比較して、競合する精度を示す。 特に、'HandMovementDirection'データセットの文献で最も正確であると報告されている。 さらに,提案手法はCo-eyeと比較して計算時間を著しく短縮し,多変量時系列分類の効率的かつ効率的な選択となる。

Multivariate time series classification is a rapidly growing research field with practical applications in finance, healthcare, engineering, and more. The complexity of classifying multivariate time series data arises from its high dimensionality, temporal dependencies, and varying lengths. This paper introduces a novel ensemble classifier called RED CoMETS (Random Enhanced Co-eye for Multivariate Time Series), which addresses these challenges. RED CoMETS builds upon the success of Co-eye, an ensemble classifier specifically designed for symbolically represented univariate time series, and extends its capabilities to handle multivariate data. The performance of RED CoMETS is evaluated on benchmark datasets from the UCR archive, where it demonstrates competitive accuracy when compared to state-of-the-art techniques in multivariate settings. Notably, it achieves the highest reported accuracy in the literature for the 'HandMovementDirection' dataset. Moreover, the proposed method significantly reduces computation time compared to Co-eye, making it an efficient and effective choice for multivariate time series classification.
翻訳日:2023-07-26 15:57:02 公開日:2023-07-25
# 巻き戻しによるフローケット符号

Engineering Floquet codes by rewinding ( http://arxiv.org/abs/2307.13668v1 )

ライセンス: Link先を確認
Arpit Dua, Nathanan Tantivasadakarn, Joseph Sullivan, and Tyler D. Ellison(参考訳) フロッケ符号は動的に生成された論理量子ビットを持つ新しい量子誤り訂正符号のクラスであり、非可換測定の周期スケジュールから生じる。 各期間に$\textit{rewind}$の計測スケジュールを持つFloquetコードの新しい例を作成しました。 巻き戻しスケジュールは、所望の即時安定化群と境界の構成の両方を得るのに有利である。 最初の例は、2dカラーコードに -- 有限深さ回路を介して -- 等価な瞬時安定化群を持ち、論理演算子の$\mathbb{z}_3$自己同型を示すフロケット符号である。 2つ目の例は、3Dトーリックコードと同じトポロジ的順序の即時安定化符号を持つFloquetコードです。 このフロッケ符号は、関連する一連の測定に基づいて3dトーリックコードの位相次数を分割する、すなわち、1つのラウンドにおける3dトーリックコードの1つのコピーの瞬時安定群を、次のラウンドにおいて、非局所安定部までの2コピーの3dトーリックコードの瞬時安定群とする。 この3Dコードの境界をさらに構築し、それを2つの3Dサブシステムトーリックコードで重ねることで、論理的な非クリフォード$CCZ$ゲートの逆実装が可能になると主張している。 また,x-cubeフロッケ符号の結合層構成は,各瞬時安定化符号がx-cubeと有限深さ同値となるように,巻き戻しスケジュールによって変更可能であると主張する。 最後の例はハニカム符号の3Dへの一般化であり、これは3Dフェルミオントーリック符号と同じ位相秩序の瞬時安定化符号を持つ。

Floquet codes are a novel class of quantum error-correcting codes with dynamically generated logical qubits, which arise from a periodic schedule of non-commuting measurements. We engineer new examples of Floquet codes with measurement schedules that $\textit{rewind}$ during each period. The rewinding schedules are advantageous in our constructions for both obtaining a desired set of instantaneous stabilizer groups and for constructing boundaries. Our first example is a Floquet code that has instantaneous stabilizer groups that are equivalent -- via finite-depth circuits -- to the 2D color code and exhibits a $\mathbb{Z}_3$ automorphism of the logical operators. Our second example is a Floquet code with instantaneous stabilizer codes that have the same topological order as the 3D toric code. This Floquet code exhibits a splitting of the topological order of the 3D toric code under the associated sequence of measurements i.e., an instantaneous stabilizer group of a single copy of 3D toric code in one round transforms into an instantaneous stabilizer group of two copies of 3D toric codes up to nonlocal stabilizers, in the following round. We further construct boundaries for this 3D code and argue that stacking it with two copies of 3D subsystem toric code allows for a transversal implementation of the logical non-Clifford $CCZ$ gate. We also argue that the coupled-layer construction of the X-cube Floquet code can be modified by a rewinding schedule so that each of the instantaneous stabilizer codes is finite-depth-equivalent to the X-cube. Our final example is a generalization of the honeycomb code to 3D, which has instantaneous stabilizer codes with the same topological order as the 3D fermionic toric code.
翻訳日:2023-07-26 15:56:43 公開日:2023-07-25
# AIアカウンタビリティポリシーに向けて

Towards an AI Accountability Policy ( http://arxiv.org/abs/2307.13658v1 )

ライセンス: Link先を確認
Przemyslaw Grabowicz, Nicholas Perello, Yair Zick(参考訳) この白書は、米国電気通信情報管理局(national telecommunications and information administration of the united states)の「aiアカウンタビリティポリシー要求(ai accountability policy request for comment)」に対する回答である。 各質問に回答するキー文の最後に、コメントが要求された質問番号がスーパースクリプトで提供される。 白書は、AI説明責任ポリシーのための相互接続されたレコメンデーションセットを提供する。

This white paper is a response to the "AI Accountability Policy Request for Comments" by the National Telecommunications and Information Administration of the United States. The question numbers for which comments were requested are provided in superscripts at the end of key sentences answering the respective questions. The white paper offers a set of interconnected recommendations for an AI accountability policy.
翻訳日:2023-07-26 15:56:10 公開日:2023-07-25
# 中国語スペルチェックの総合的評価と分析に関する研究

A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check ( http://arxiv.org/abs/2307.13655v1 )

ライセンス: Link先を確認
Xunjian Yin and Xiaojun Wan(参考訳) 事前学習モデルの開発と音声およびグラフィック情報の取り込みにより、ニューラルネットワークは中国語のスペルチェック(CSC)において高いスコアを得た。 しかし、限られたテストセットのため、モデルの性能を包括的に反映するものではない。 本研究では、代表モデルパラダイムを抽象化し、9つの構造で実装し、異なる目的で構築した包括的なテストセットで実験する。 結果の詳細な分析を行い、それを見つけます。 1)音声情報とグラフィック情報を合理的に融合することはCSCに有効である。 2) モデルはテストセットのエラー分布に敏感で、モデルの欠点を反映し、私たちが取り組むべき方向性を明らかにします。 3) エラーやコンテキストがモデルに重大な影響を与えているかどうか。 4) 一般的なベンチマークであるSIGHANはモデルの性能を確実に評価できない。

With the development of pre-trained models and the incorporation of phonetic and graphic information, neural models have achieved high scores in Chinese Spelling Check (CSC). However, it does not provide a comprehensive reflection of the models' capability due to the limited test sets. In this study, we abstract the representative model paradigm, implement it with nine structures and experiment them on comprehensive test sets we constructed with different purposes. We perform a detailed analysis of the results and find that: 1) Fusing phonetic and graphic information reasonably is effective for CSC. 2) Models are sensitive to the error distribution of the test set, which reflects the shortcomings of models and reveals the direction we should work on. 3) Whether or not the errors and contexts have been seen has a significant impact on models. 4) The commonly used benchmark, SIGHAN, can not reliably evaluate models' performance.
翻訳日:2023-07-26 15:56:05 公開日:2023-07-25