このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230801となっている論文です。

PDF登録状況(公開日: 20230801)

TitleAuthorsAbstract論文公表日・翻訳日
# フィッシャー情報から見た相対論的量子力学

A Fisher Information Perspective of Relativistic Quantum Mechanics ( http://arxiv.org/abs/2311.00001v1 )

ライセンス: Link先を確認
Asher Yahalom(参考訳) これまでの論文では、電磁場相互作用を含むシュロディンガー方程式が、電磁場と相互作用する荷電電位流の流体力学ラグランジアンからどのように導出できるかを示した。 量子的挙動は、古典的なラグランジアンに追加されたフィッシャー情報項に由来する。 その結果, 量子力学系は電磁場だけでなく情報によって駆動されることがわかった。 このプログラムはポーリの方程式にも応用され、ポテンシャルフローの制限を取り除き、クレプシュ形式を用いた。 この分析は非常に成功したが、解釈を認めない用語がまだあったが、そのいくつかは相対論的ディラック理論に容易に辿ることができる。 ここでは、相対論的流れの解析を繰り返し、相対論的量子力学を導出するための新しいアプローチを示す。

In previous papers we have shown how Schrodinger's equation which includes an electromagnetic field interaction can be deduced from a fluid dynamical Lagrangian of a charged potential flow that interacts with an electromagnetic field. The quantum behaviour was derived from Fisher information terms which were added to the classical Lagrangian. It was thus shown that a quantum mechanical system is drived by information and not only electromagnetic fields. This program was applied also to Pauli's equations by removing the restriction of potential flow and using the Clebsch formalism. Although the analysis was quite successful there were still terms that did not admit interpretation, some of them can be easily traced to the relativistic Dirac theory. Here we repeat the analysis for a relativistic flow, pointing to a new approach for deriving relativistic quantum mechanics.
翻訳日:2024-01-15 16:45:18 公開日:2023-08-01
# 教育用大規模言語モデル:ChatGPTを用いたオープンエンディング質問

Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT ( http://arxiv.org/abs/2307.16696v2 )

ライセンス: Link先を確認
Gustavo Pinto and Isadora Cardoso-Pereira and Danilo Monteiro Ribeiro and Danilo Lucena and Alberto de Souza and Kiev Gama(参考訳) ますます高度な問題に対処する方法として、ソフトウェア専門家は改善を求めるという絶え間ない課題に直面しています。 しかしながら、これらの個人がスキルを向上させるためには、学習とトレーニングのプロセスには、即時かつ正確なフィードバックが必要となる。 ソフトウェア企業のコンテキストでは、トレーニングを行うプロフェッショナルの規模が大きくなるが、修正を行う資格のあるプロフェッショナルの数は少なく、効果的なフィードバックを提供するのはさらに困難になる。 この課題を回避するため,本研究では,オープンエンド質問の修正プロセスを支援するための大規模言語モデル(llm)の探索を行った。 本研究では,ChatGPTを用いて,42人の業界専門家が回答したオープンエンドの質問を2つのトピックで修正した。 また,ChatGPTが提供した補正やフィードバックを評価し,他のメトリクスが観察できない応答のセマンティックな詳細を識別できることを示した。 さらに, 一般論として, 主題の専門家は, chatgpt による修正やフィードバックに同意する傾向にあった。

As a way of addressing increasingly sophisticated problems, software professionals face the constant challenge of seeking improvement. However, for these individuals to enhance their skills, their process of studying and training must involve feedback that is both immediate and accurate. In the context of software companies, where the scale of professionals undergoing training is large, but the number of qualified professionals available for providing corrections is small, delivering effective feedback becomes even more challenging. To circumvent this challenge, this work presents an exploration of using Large Language Models (LLMs) to support the correction process of open-ended questions in technical training. In this study, we utilized ChatGPT to correct open-ended questions answered by 42 industry professionals on two topics. Evaluating the corrections and feedback provided by ChatGPT, we observed that it is capable of identifying semantic details in responses that other metrics cannot observe. Furthermore, we noticed that, in general, subject matter experts tended to agree with the corrections and feedback given by ChatGPT.
翻訳日:2023-10-23 15:49:53 公開日:2023-08-01
# 「偽陰性 -- それはあなたを殺す」 - 静的解析に基づくセキュリティテストの業界展望の理解

"False negative -- that one is going to kill you": Understanding Industry Perspectives of Static Analysis based Security Testing ( http://arxiv.org/abs/2307.16325v2 )

ライセンス: Link先を確認
Amit Seal Ami and Kevin Moran and Denys Poshyvanyk and Adwait Nadkarni(参考訳) 静的分析ベースのセキュリティテスト(SAST)ツールなど,自動セキュリティ分析技術への需要は増加を続けている。 脆弱性を見つけるために開発者が効果的に活用するSASTを開発するためには、研究者とツールデザイナは、開発者がSASTをどのように認識し、選択し、使用しているか、ツールの制限を知っていようと、その制限にどう対処するかを理解する必要がある。 本稿では,SASTを利用する開発者が経験した仮定,期待,信念,課題について質的研究を行う。 私たちは、さまざまなソフトウェア開発の専門知識を持つ20人の実践者と、さまざまなセキュリティ、製品、組織的バックグラウンドを持つ、詳細な半構造化されたインタビューを行います。 我々は、SASTに関する開発者の認識と欲求に光を当てた17ドルの重要な発見を特定し、また、SAST設計の優先順位に対する長年の信念に挑戦する現状のギャップを露呈する。 最後に,研究成果の分析に根ざした研究者や実践者に,具体的な今後の方向性を提供する。

The demand for automated security analysis techniques, such as static analysis based security testing (SAST) tools continues to increase. To develop SASTs that are effectively leveraged by developers for finding vulnerabilities, researchers and tool designers must understand how developers perceive, select, and use SASTs, what they expect from the tools, whether they know of the limitations of the tools, and how they address those limitations. This paper describes a qualitative study that explores the assumptions, expectations, beliefs, and challenges experienced by developers who use SASTs. We perform in-depth, semi-structured interviews with 20 practitioners who possess a diverse range of software development expertise, as well as a variety of unique security, product, and organizational backgrounds. We identify $17$ key findings that shed light on developer perceptions and desires related to SASTs, and also expose gaps in the status quo - challenging long-held beliefs in SAST design priorities. Finally, we provide concrete future directions for researchers and practitioners rooted in an analysis of our findings.
翻訳日:2023-10-23 15:49:28 公開日:2023-08-01
# パッチと入力空間の融合によるプログラムの修復

Program Repair by Fuzzing over Patch and Input Space ( http://arxiv.org/abs/2308.00666v1 )

ライセンス: Link先を確認
Yuntong Zhang, Ridwan Shariffdeen, Gregory J. Duck, Jiaqi Tan, Abhik Roychoudhury(参考訳) fuzz testing (fuzzing) は、ソフトウェアシステムにおけるバグ/脆弱性を暴露するためのよく知られた方法である。 aflのような一般的なファザーは、プログラム入力の領域を偏りのあるランダムな検索を使用しており、そこではバグを公開するために毎秒100から1000の入力(テストケース)が実行される。 バグが見つかったら、開発者は手動で修正するか、自動プログラム修正(APR)ツールを使って自動的に修正できる。 ファジィングと同様に、既存のAPRツールは検索ベースだが、入力ではなくパッチのドメイン上にある。 本稿では,パッチレベルのファジングとして検索に基づくプログラム修復を提案する。 基本的な考え方は、入力空間ではなくパッチ空間上のファザー(AFL)に適応させることである。 したがって、パッチスペースファザーを使用してパッチスペースを探索し、従来の入力レベルのファザーを使用してパッチ候補を除外し、パッチ選択を支援する。 スループットを向上させるため,我々はオリジナルの(パッチされていない)プログラムをネイティブに実行し,特定のパッチ文と式のみを選択的に解釈するコンパイルフリーパッチ検証手法を提案する。 これは(再)コンパイルを避けるため、コンパイル不要なパッチ検証は入力レベルのファジング(100から1000のexecs/sec)と同等のスループットを達成できることを示します。 パッチレベルのファジングと入力レベルのファジングを組み合わせることで、より高品質なパッチを見つけるために、両方の空間を共同で探索できることを示す。 入力レベルのファジングとパッチレベルのファジングのコラボレーションは、候補の修正位置の検索や、各修正位置のパッチ候補の検索に使用される。

Fuzz testing (fuzzing) is a well-known method for exposing bugs/vulnerabilities in software systems. Popular fuzzers, such as AFL, use a biased random search over the domain of program inputs, where 100s or 1000s of inputs (test cases) are executed per second in order to expose bugs. If a bug is discovered, it can either be fixed manually by the developer or fixed automatically using an Automated Program Repair (APR) tool. Like fuzzing, many existing APR tools are search-based, but over the domain of patches rather than inputs. In this paper, we propose search-based program repair as patch-level fuzzing. The basic idea is to adapt a fuzzer (AFL) to fuzz over the patch space rather than the input space. Thus we use a patch-space fuzzer to explore a patch space, while using a traditional input level fuzzer to rule out patch candidates and help in patch selection. To improve the throughput, we propose a compilation-free patch validation methodology, where we execute the original (unpatched) program natively, then selectively interpret only the specific patched statements and expressions. Since this avoids (re)compilation, we show that compilation-free patch validation can achieve a similar throughput as input-level fuzzing (100s or 1000s of execs/sec). We show that patch-level fuzzing and input-level fuzzing can be combined, for a co-exploration of both spaces in order to find better quality patches. Such a collaboration between input-level fuzzing and patch-level fuzzing is then employed to search over candidate fix locations, as well as patch candidates in each fix location.
翻訳日:2023-10-23 15:42:47 公開日:2023-08-01
# アーティファクト:構造テストにおけるギャップの測定と緩和

Artifact: Measuring and Mitigating Gaps in Structural Testing ( http://arxiv.org/abs/2308.00316v1 )

ライセンス: Link先を確認
Soneya Binta Hossain, Matthew B. Dwyer, Sebastian Elbaum, Anh Nguyen-Tuong(参考訳) 構造テストのギャップを計測し、緩和する実験結果を評価するために使用されるアーティファクトは、github、software heritage、figshareで公開されている。 アーティファクトは必要なデータ、ツール、スクリプト、および実験を実行し、論文に示した結果を再現するための詳細なドキュメントで構成されている。 また,VirtualBox VMイメージも提供しています。 ユーザはVirtualBoxソフトウェアとLinuxプラットフォームを使ってアーティファクトの評価や再利用に慣れていると期待されている。

The artifact used for evaluating the experimental results of Measuring and Mitigating Gaps in Structural Testing is publicly available on GitHub, Software Heritage and figshare, and is reusable. The artifact consists of necessary data, tools, scripts, and detailed documentation for running the experiments and reproducing the results shown in the paper. We have also provided a VirtualBox VM image allowing users to quickly setup and reproduce the results. Users are expected to be familiar using the VirtualBox software and Linux platform for evaluating or reusing the artifact.
翻訳日:2023-10-23 15:41:22 公開日:2023-08-01
# 静的解析フィードバックを用いたパッチ空間探索

Patch Space Exploration using Static Analysis Feedback ( http://arxiv.org/abs/2308.00294v1 )

ライセンス: Link先を確認
Yuntong Zhang, Andreea Costea, Ridwan Shariffdeen, Davin McCall, Abhik Roychoudhury(参考訳) 自動プログラム修復(APR)技術は典型的には、修理プロセスのガイドに与えられたテストスーツに依存します。 テストのオーラクルを提供する必要は別として、生成されたパッチはデータの過度な適合をテストしがちである。 本研究では、テストケースに頼る代わりに、静的解析(特に不正確な分離論理)を利用して、メモリ安全性の問題を自動的に修復する方法を示す。 提案手法は,不正確な分離論理に基づく静的解析(特にパルス解析器)からのフィードバックに基づいて,パッチがバグの修正にどの程度近いかを調べ,その情報を文脈自由文法上の確率分布に変換することによって,望ましいパッチを学習する。 さらに,パッチの探索空間を縮小するヒューリスティックスに焦点をあてる代わりに,シンボルヒープへの影響に応じて等価なパッチのクラスを作成し,そのクラスごとのパッチ等価性に対してのみ検証オラクルを呼び出すことにより,修復をスケーラブルにする。 これにより、汎用的なパッチ合成機構によって提供される大量のパッチ候補が存在する場合でも、効率よく修復を発見できる。 提案手法の実験的評価は,OpenSSL や Swoole などの実世界のメモリエラーを修復することで行った。 評価結果は,高品質パッチを自動的に生成する手法のスケーラビリティと有効性を示す。

Automated Program Repair (APR) techniques typically rely on a given test-suite to guide the repair process. Apart from the need to provide test oracles, this makes the produced patches prone to test data over-fitting. In this work, instead of relying on test cases, we show how to automatically repair memory safety issues, by leveraging static analysis (specifically Incorrectness Separation Logic) to guide repair. Our proposed approach learns what a desirable patch is by inspecting how close a patch is to fixing the bug based on the feedback from incorrectness separation logic based static analysis (specifically the Pulse analyser), and turning this information into a distribution of probabilities over context free grammars. Furthermore, instead of focusing on heuristics for reducing the search space of patches, we make repair scalable by creating classes of equivalent patches according to the effect they have on the symbolic heap, and then invoking the validation oracle only once per class of patch equivalence. This allows us to efficiently discover repairs even in the presence of a large pool of patch candidates offered by our generic patch synthesis mechanism. Experimental evaluation of our approach was conducted by repairing real world memory errors in OpenSSL, swoole and other subjects. The evaluation results show the scalability and efficacy of our approach in automatically producing high quality patches.
翻訳日:2023-10-23 15:40:52 公開日:2023-08-01
# サイバー物理システムにおける組込みシステムバイナリからの制御アルゴリズム再構成のためのプログラム合成手法

CONSTRUCT: A Program Synthesis Approach for Reconstructing Control Algorithms from Embedded System Binaries in Cyber-Physical Systems ( http://arxiv.org/abs/2308.00250v1 )

ライセンス: Link先を確認
Ali Shokri, Alexandre Perez, Souma Chowdhury, Chen Zeng, Gerald Kaloor, Ion Matei, Peter-Patel Schneider, Akshith Gunasekaran, Shantanu Rane(参考訳) 本稿では,産業用サイバーフィジカルシステム (cps) に実装されている制御アルゴリズムの数学的表現を自動的に合成する手法を提案する。 出力モデルは、課題の専門家によって、期待される振る舞いに対するシステムのコンプライアンスと様々な法医学的応用を評価するために使用することができる。 本手法は,まずコントローラの逆コンパイルされたバイナリファイルの静的解析を行い,数学的表現のスケッチを作成する。 次に、生成した表現、すなわち制御法則の正しい意味を見つけるために進化に基づく探索を行う。 2つの実生活産業用cpsで実施した3つのケーススタディを通して,導入アプローチの有効性を実証する。

We introduce a novel approach to automatically synthesize a mathematical representation of the control algorithms implemented in industrial cyber-physical systems (CPS), given the embedded system binary. The output model can be used by subject matter experts to assess the system's compliance with the expected behavior and for a variety of forensic applications. Our approach first performs static analysis on decompiled binary files of the controller to create a sketch of the mathematical representation. Then, we perform an evolutionary-based search to find the correct semantic for the created representation, i.e., the control law. We demonstrate the effectiveness of the introduced approach in practice via three case studies conducted on two real-life industrial CPS.
翻訳日:2023-10-23 15:40:30 公開日:2023-08-01
# Promptsが重要: 自動化されたソフトウェアトレーサビリティにおけるPrompt Engineeringの洞察と戦略

Prompts Matter: Insights and Strategies for Prompt Engineering in Automated Software Traceability ( http://arxiv.org/abs/2308.00229v1 )

ライセンス: Link先を確認
Alberto D. Rodriguez, Katherine R. Dearstyne, Jane Cleland-Huang(参考訳) 大きな言語モデル(LLM)は、従来のメソッドが直面する課題を克服し、新たな可能性を導入することで、自動化トレーサビリティに革命をもたらす可能性がある。 しかし, 自動トレーサビリティのためのLLMの最適利用方法は不明である。 本稿では,リンク予測をllmから抽出するプロンプトエンジニアリングのプロセスについて検討する。 効果的なプロンプトを構築するためのアプローチに関する詳細な洞察を提供し、学んだ教訓を提供します。 さらに,提案手法では,探索性リンクの生成にllmを利用する方法が複数提案されている。 本研究の主な目的は, トレーサビリティ・プロンプトの構築プロセスを強調し, 自動トレーサビリティ向上にLLMを効果的に活用することで, 将来の研究者や技術者を刺激し支援することである。

Large Language Models (LLMs) have the potential to revolutionize automated traceability by overcoming the challenges faced by previous methods and introducing new possibilities. However, the optimal utilization of LLMs for automated traceability remains unclear. This paper explores the process of prompt engineering to extract link predictions from an LLM. We provide detailed insights into our approach for constructing effective prompts, offering our lessons learned. Additionally, we propose multiple strategies for leveraging LLMs to generate traceability links, improving upon previous zero-shot methods on the ranking of candidate links after prompt refinement. The primary objective of this paper is to inspire and assist future researchers and engineers by highlighting the process of constructing traceability prompts to effectively harness LLMs for advancing automatic traceability.
翻訳日:2023-10-23 15:40:18 公開日:2023-08-01
# 道路網変動を考慮したAD関数のシミュレーション性能解析

Simulative Performance Analysis of an AD Function with Road Network Variation ( http://arxiv.org/abs/2308.04446v1 )

ライセンス: Link先を確認
Daniel Becker and Guido K\"uppers and Lutz Eckstein(参考訳) 近年,自動運転機能 (ADF) が普及している。 しかし、彼らの安全は保証されなければならない。 したがって、これらの機能の検証と検証は研究と開発において依然として重要な課題である。 これを実現するために、シナリオベースのテストは研究者、業界、当局の間で価値のある方法論として確立されている。 シミュレーションはこれらのシナリオを再現的にテストするための強力な方法です。 本稿では,シナリオ群を多種多様な方法で自動テストする手法を提案する。 関連するアプローチとは対照的に、これらのバリエーションはAFF周辺の交通参加者には適用されないが、道路トポロジに関するパラメータがAFFの性能に影響を及ぼすことを示すために道路ネットワークに適用される。 我々は,シナリオをセットアップし,変更し,シミュレーションを実行し,最後に,キーパフォーマンスインジケータ(kpi)のセットでパフォーマンスを評価する継続的ツールチェーンを提案する。

Automated driving functions (ADFs) have become increasingly popular in recent years. However, their safety must be assured. Thus, the verification and validation of these functions is still an important open issue in research and development. To achieve this efficiently, scenario-based testing has been established as a valuable methodology among researchers, industry, as well as authorities. Simulations are a powerful way to test those scenarios reproducibly. In this paper, we propose a method to automatically test a set of scenarios in many variations. In contrast to related approaches, those variations are not applied to traffic participants around the ADF, but to the road network to show that parameters regarding the road topology also influence the performance of such an ADF. We present a continuous tool chain to set up scenarios, variate them, run simulations and finally, evaluate the performance with a set of key performance indicators (KPIs).
翻訳日:2023-10-23 15:01:43 公開日:2023-08-01
# 目を通して:単純なアライメント技術によるマルチサブジェクト脳デコード

Through their eyes: multi-subject Brain Decoding with simple alignment techniques ( http://arxiv.org/abs/2309.00627v1 )

ライセンス: Link先を確認
Matteo Ferrante, Tommaso Boccato, Nicola Toschi(参考訳) これまでの脳の復号化の研究は、主に単一物体の研究で、同じ被験者からのfMRI活動を通して刺激を再構成する。 本研究の目的は,データアライメント手法の探索によるクロスオブジェクト脳デコーディングの一般化手法の導入である。 NSDデータセットは, 9841画像に曝露した複数の被験者を対象に, 総合的な7T fMRIビジョン実験である。 提案手法では,ある科目で復号モデルを訓練し,他の科目でデータをこの領域に整列させ,第2科目で復号テストを行った。 我々は,fMRIデータアライメントのための隆起回帰,ハイパーアライメント,解剖学的アライメント技術を比較した。 我々は、全データの約10%、または982の共通画像を用いても、クロスオブジェクトの脳デコーディングが実現可能であることを確立し、シングルオブジェクトの脳デコーディングに匹敵する性能を示した。 リッジ回帰は機能的アライメントの最良の方法であった。 被験者のアライメントにより,優れた脳デコードとスキャン時間の90%削減が得られた。 これにより、より効率的な実験やフィールドのさらなる進歩の道を開くことができ、典型的には被検者1人当たり20時間の走査時間を必要とする。

Previous brain decoding research primarily involves single-subject studies, reconstructing stimuli via fMRI activity from the same subject. Our study aims to introduce a generalization technique for cross-subject brain decoding, facilitated by exploring data alignment methods. We utilized the NSD dataset, a comprehensive 7T fMRI vision experiment involving multiple subjects exposed to 9841 images, 982 of which were viewed by all. Our approach involved training a decoding model on one subject, aligning others' data to this space, and testing the decoding on the second subject. We compared ridge regression, hyper alignment, and anatomical alignment techniques for fMRI data alignment. We established that cross-subject brain decoding is feasible, even using around 10% of the total data, or 982 common images, with comparable performance to single-subject decoding. Ridge regression was the best method for functional alignment. Through subject alignment, we achieved superior brain decoding and a potential 90% reduction in scan time. This could pave the way for more efficient experiments and further advancements in the field, typically requiring an exorbitant 20-hour scan time per subject.
翻訳日:2023-10-23 11:33:43 公開日:2023-08-01
# ナノ結晶中の$\mu$ev-深中性子結合状態

$\mu$eV-deep neutron bound states in nanocrystals ( http://arxiv.org/abs/2309.07100v1 )

ライセンス: Link先を確認
Hao Tang, Guoqing Wang, Paola Cappellaro, Ju Li(参考訳) 核力は、広く研究されている中性子散乱状態とMeV-エネルギー核境界状態を引き起こす。 この相互作用が核のクラスターの核力場における中性子の低エネルギー結合状態につながるかどうかは、公然の疑問である。 ここでは、数十ナノメートルの空間範囲を持つナノ結晶における核相互作用に由来する-$\mu$eVレベルの中性子境界状態の存在を計算的に実証する。 これらの負エネルギー中性子波動関数はナノ粒子のサイズ、寸法、核スピン分極に依存し、人工中性子の「分子」に工学的な自由度を与える。

The nuclear strong force induces the widely studied neutron scattering states and MeV-energy nuclear bound states. Whether this same interaction could lead to low-energy bound states for a neutron in the nuclear force field of a cluster of nuclei is an open question. Here, we computationally demonstrate the existence of -$\mu$eV-level neutronic bound states originating from nuclear interaction in nanocrystals with a spatial extent of tens of nanometers. These negative-energy neutron wavefunctions depend on the size, dimension, and nuclear spin polarization of the nanoparticles, providing engineering degrees of freedom for the artificial neutronic "molecule".
翻訳日:2023-10-23 07:49:26 公開日:2023-08-01
# 政府パフォーマンスの低さと政治的ツイート:米国でのCOVID-19危機の証拠

Low Government Performance and Uncivil Political Tweets: Evidence from the COVID-19 Crisis in the U.S ( http://arxiv.org/abs/2107.10041v5 )

ライセンス: Link先を確認
Kohei Nishi(参考訳) ソーシャルメディアを通じた政治表現は、すでに政治参加の一形態として根付いている。 一方、民主主義はソーシャルメディアプラットフォームで市民主義の流行に直面しているようだ。 この背景から、近年、政治コミュニケーション研究の分野において、オンラインの政治機関が関心を集めている。 しかし、ソーシャルメディア上での国民の非公的な政治的表現と政府のパフォーマンスがどのように結びついているのかは明らかではなく、非制度的な政治参加の新たな形態として、ソーシャルメディア表現によるパフォーマンス評価行動の存在が重要であると考えられる。 このギャップを埋めるために,本研究は,政府の業績が悪化すると,人々が不満を募り,ソーシャルメディアを通じて政府に悪質なメッセージを送付するという仮説を定めている。 この仮説を検証するために、本研究では、米国知事に向けられた800万以上のつぶやきを収集し、ニューラルネットワークベースの機械学習手法を用いて非文明的か否かを分類し、州知事に向けられた非文明的つぶやき数に対する州レベルのcovid-19症例の悪化の影響を調査した。 統計分析の結果、州レベルの新型コロナウイルス感染者の増加が州内知事に対する悪質なツイートの増加につながった。 本研究は,非制度化政治参加と民主政治における選挙の重要性という2つの観点から,その意義を考察する。

Political expression through social media has already taken root as a form of political participation. Meanwhile, democracy seems to be facing an epidemic of incivility on social media platforms. With this background, online political incivility has recently become a growing concern in the field of political communication studies. However, it is less clear how a government's performance is linked with people's uncivil political expression on social media; investigating the existence of performance evaluation behavior through social media expression seems to be important, as it is a new form of non-institutionalized political participation. To fill this gap in the literature, the present study hypothesizes that when government performance worsens, people become frustrated and send uncivil messages to the government via social media. To test this hypothesis, the present study collected over 8 million tweets directed at U.S. state governors and classified them as uncivil or not, using a neural network-based machine learning method, and examined the impact of worsening state-level COVID-19 cases on the number of uncivil tweets directed at state governors. The results of the statistical analyses showed that increasing state-level COVID-19 cases significantly led to a higher number of uncivil tweets against state governors. Thereafter, the present study discusses the implications of the findings from two perspectives: non-institutionalized political participation and the importance of elections in democracies.
翻訳日:2023-08-27 05:31:37 公開日:2023-08-01
# ユニバーサルデバイスエンコーディングとグラフアテンションネットワークによるTCADシミュレーションの革新

Revolutionizing TCAD Simulations with Universal Device Encoding and Graph Attention Networks ( http://arxiv.org/abs/2308.11624v1 )

ライセンス: Link先を確認
Guangxi Fan, Kain Lu Low(参考訳) TCADデバイスシミュレーションにおける半導体デバイスエンコーディングのための人工知能(AI)とグラフ表現を利用した革新的な手法を提案する。 グラフベースのユニバーサルエンコーディングスキームは、材料レベルおよびデバイスレベルの埋め込みを考えるだけでなく、有限要素メッシュによく使われる補間演算に触発された新しい空間的関係埋め込みを導入する。 デバイスシミュレーションからの普遍的な物理法則は、スロゲートポアソンエミュレーションとドリフト拡散モデルに基づく電流電圧予測を含む包括的なデータ駆動モデリングに活用される。 どちらも、RelGATと呼ばれる新しいグラフアテンションネットワークを用いて実現されている。 デバイスシミュレータsendaurus tcadに基づく包括的な技術的詳細が提示され、研究者はデバイスレベルでai駆動電子設計自動化(eda)ソリューションを採用することができる。

An innovative methodology that leverages artificial intelligence (AI) and graph representation for semiconductor device encoding in TCAD device simulation is proposed. A graph-based universal encoding scheme is presented that not only considers material-level and device-level embeddings, but also introduces a novel spatial relationship embedding inspired by interpolation operations typically used in finite element meshing. Universal physical laws from device simulations are leveraged for comprehensive data-driven modeling, which encompasses surrogate Poisson emulation and current-voltage (IV) prediction based on drift-diffusion model. Both are achieved using a novel graph attention network, referred to as RelGAT. Comprehensive technical details based on the device simulator Sentaurus TCAD are presented, empowering researchers to adopt the proposed AI-driven Electronic Design Automation (EDA) solution at the device level.
翻訳日:2023-08-27 04:58:49 公開日:2023-08-01
# Covid-19 インドのつぶやき分類のための公開感性分析

Covid-19 Public Sentiment Analysis for Indian Tweets Classification ( http://arxiv.org/abs/2308.06241v1 )

ライセンス: Link先を確認
Mohammad Maksood Akhter, Devpriya Kanojia(参考訳) 全世界で異常な出来事が発生した場合、その出来事に対処する結果と共に、ニュースの最速のキャリアとして機能するソーシャルメディアである。 人々の感情、行動、意見に関する多くの情報をソーシャルネットワークを通じて収集することができる。 本稿では、主に、新型コロナウイルス(covid-19)ツイートからなるインドのtwitterデータの感情分析に焦点をあてる。 Twitterのデータがどのように抽出されたかを示し、その上で感情分析クエリを実行する。 これは、意見が高度に非構造化、異質で、肯定的、否定的、中立的であるようなツイートの情報を分析するのに役立つ。

When any extraordinary event takes place in the world wide area, it is the social media that acts as the fastest carrier of the news along with the consequences dealt with that event. One can gather much information through social networks regarding the sentiments, behavior, and opinions of the people. In this paper, we focus mainly on sentiment analysis of twitter data of India which comprises of COVID-19 tweets. We show how Twitter data has been extracted and then run sentimental analysis queries on it. This is helpful to analyze the information in the tweets where opinions are highly unstructured, heterogeneous, and are either positive or negative or neutral in some cases.
翻訳日:2023-08-20 16:39:13 公開日:2023-08-01
# メタバースにおける障害者・コンテンツ制作者のための新しい情報通信技術のアクセシビリティと包括性

Accessibility and Inclusiveness of New Information and Communication Technologies for Disabled Users and Content Creators in the Metaverse ( http://arxiv.org/abs/2308.01925v1 )

ライセンス: Link先を確認
Dr Petar Radanliev, Professor David De Roure, Dr Peter Novitzky, Dr Ivo Sluganovic(参考訳) ブロックチェーンメタバースプロジェクトの急増にもかかわらず、メタバースへの身体障害者の参加は、基準や規制が限定されたまま、遠いままである。 しかし、この記事は、仮想現実や拡張現実、モノのインターネットといった新興技術を活用して、障害者の創造性を一層高めるメタバースの概念を提案している。 このアプローチはメタバースランドスケープにおける包摂性を高めることを目的としている。 本研究は,メタバースプラットフォームの設計・開発における身体障害者の積極的な関与が,排他性を促進する上で重要であると結論づけている。 分散メタバースの仮想的・拡張的・混合的現実におけるアクセシビリティと包括性のためのフレームワークは、障害のある創造者にとって有意義な参加の基盤を提供する。 この記事は、新興のメタバースランドスケープにおいて障害を持つ個人による芸術制作のメカニズムに対処することの重要性を強調している。 さらに、メタバースプロジェクトにおける身体障害者の参加を促進する標準や規制を確立するために、さらなる研究とコラボレーションの必要性を強調している。

Despite the proliferation of Blockchain Metaverse projects, the inclusion of physically disabled individuals in the Metaverse remains distant, with limited standards and regulations in place. However, the article proposes a concept of the Metaverse that leverages emerging technologies, such as Virtual and Augmented Reality, and the Internet of Things, to enable greater engagement of disabled creatives. This approach aims to enhance inclusiveness in the Metaverse landscape. Based on the findings, the paper concludes that the active involvement of physically disabled individuals in the design and development of Metaverse platforms is crucial for promoting inclusivity. The proposed framework for accessibility and inclusiveness in Virtual, Augmented, and Mixed realities of decentralised Metaverses provides a basis for the meaningful participation of disabled creatives. The article emphasises the importance of addressing the mechanisms for art production by individuals with disabilities in the emerging Metaverse landscape. Additionally, it highlights the need for further research and collaboration to establish standards and regulations that facilitate the inclusion of physically disabled individuals in Metaverse projects.
翻訳日:2023-08-14 02:08:06 公開日:2023-08-01
# ロバストなセマンティックセグメンテーションのためのトレーニングデータセット生成の学習

Learning to Generate Training Datasets for Robust Semantic Segmentation ( http://arxiv.org/abs/2308.02535v1 )

ライセンス: Link先を確認
Marwane Hariat, Olivier Laurent, R\'emi Kazmierczak, Andrei Bursuc, Angela Yao and Gianni Franchi(参考訳) セマンティックセグメンテーション技術は近年顕著な進歩を見せているが、訓練中に見られなかった現実世界の摂動やデータサンプルに対する頑健さは、特に安全クリティカルな応用において課題である。 本稿では,ラベル・ツー・イメージ・ジェネレータとイメージ・ツー・ラベル・セグメンテーションモデルとの相乗効果を利用して,意味セグメンテーション手法のロバスト性を向上させる新しい手法を提案する。 具体的には、信頼性のあるセグメンテーションモデルのトレーニングに使用可能な、現実的でプラウチブルな摂動画像を生成するために、ロバスタを設計し、訓練する。 提案した生成モデルの詳細な研究を行い、下流セグメンテーションネットワークの性能とロバスト性を評価し、実世界の摂動、分布シフト、分布外サンプルの面におけるセグメンテーション手法のロバスト性を大幅に向上させることができることを示した。 提案手法は, セマンティクスセグメンテーション手法の信頼性が最も重要であり, 計算予算が限定された, 安全性クリティカルなアプリケーションにおいて有用であることが示唆された。 近いうちにコードをリリースします。

Semantic segmentation techniques have shown significant progress in recent years, but their robustness to real-world perturbations and data samples not seen during training remains a challenge, particularly in safety-critical applications. In this paper, we propose a novel approach to improve the robustness of semantic segmentation techniques by leveraging the synergy between label-to-image generators and image-to-label segmentation models. Specifically, we design and train Robusta, a novel robust conditional generative adversarial network to generate realistic and plausible perturbed or outlier images that can be used to train reliable segmentation models. We conduct in-depth studies of the proposed generative model, assess the performance and robustness of the downstream segmentation network, and demonstrate that our approach can significantly enhance the robustness of semantic segmentation techniques in the face of real-world perturbations, distribution shifts, and out-of-distribution samples. Our results suggest that this approach could be valuable in safety-critical applications, where the reliability of semantic segmentation techniques is of utmost importance and comes with a limited computational budget in inference. We will release our code shortly.
翻訳日:2023-08-14 01:11:38 公開日:2023-08-01
# AIによる胚選抜における説明可能性の役割を探る

Exploring the Role of Explainability in AI-Assisted Embryo Selection ( http://arxiv.org/abs/2308.02534v1 )

ライセンス: Link先を確認
Lucia Urcelay, Daniel Hinjos, Pablo A. Martin-Torres, Marta Gonzalez, Marta Mendez, Salva C\'ivico, Sergio \'Alvarez-Napagao and Dario Garcia-Gasulla(参考訳) 体外受精は不妊症に対する最も広範な治療の1つである。 主な課題の1つは、胚の移植に対する評価と選択である。 深層学習に基づく手法が注目されているが、その不透明な性質は、意思決定における透明性が鍵となる臨床的文脈における受容を損なう。 本稿では,AIを用いた胚解析モデルの現状を解析し,その限界を明らかにする。 また,臨床医や患者のニーズを考慮して,これらのモデルを意思決定支援システムとして臨床コンテキストに組み込む方法について検討した。 最後に, 解釈性と信頼性を高めるためのガイドラインを提案し, 確立された臨床実践に向けて, この技術を推し進める。

In Vitro Fertilization is among the most widespread treatments for infertility. One of its main challenges is the evaluation and selection of embryo for implantation, a process with large inter- and intra-clinician variability. Deep learning based methods are gaining attention, but their opaque nature compromises their acceptance in the clinical context, where transparency in the decision making is key. In this paper we analyze the current work in the explainability of AI-assisted embryo analysis models, identifying the limitations. We also discuss how these models could be integrated in the clinical context as decision support systems, considering the needs of clinicians and patients. Finally, we propose guidelines for the sake of increasing interpretability and trustworthiness, pushing this technology forward towards established clinical practice.
翻訳日:2023-08-14 01:11:10 公開日:2023-08-01
# ロバスト臨界微調整による対人訓練の一般化

Improving Generalization of Adversarial Training via Robust Critical Fine-Tuning ( http://arxiv.org/abs/2308.02533v1 )

ライセンス: Link先を確認
Kaijie Zhu, Jindong Wang, Xixu Hu, Xing Xie, Ge Yang(参考訳) ディープニューラルネットワークは敵の例に影響を受けやすく、重要なアプリケーションにおいて重大なセキュリティリスクを生じさせる。 敵意訓練(adversarial training, at)は、敵意の強固さを高めるための確立された技術であるが、しばしば一般化能力の低下のコストがかかる。 本稿では,対向的強靭性を損なうことなく一般化を促進する新しい手法として,ロバストネスクリティカルファインタニング(RiFT)を提案する。 RiFTの中核となる考え方は、非ロバストクリティカルモジュール上で逆向きに訓練されたモデルを微調整することで、冗長なキャパシティを堅牢性に活用することである。 そこで本稿では,最悪の重み摂動下でのロバストネスをモデル化するためのモジュールの重要度を評価する尺度である,モジュールロバスト臨界(MRC)を導入する。 この測定値を用いて、最小の MRC 値のモジュールを非ロバスト臨界モジュールとして同定し、その重みを微調整して微調整重みを得る。 その後, 逆向きに訓練した重量と微調整した重量との間に線形に補間し, 最適微調整モデル重量を導出する。 CIFAR10, CIFAR100, Tiny-ImageNetデータセットで学習したResNet18, ResNet34, WideResNet34-10モデルに対するRiFTの有効性を示す。 実験により,汎化と分布外ロバスト性が約1.5%向上すると同時に,逆ロバスト性が維持あるいはわずかに向上することを示した。 コードはhttps://github.com/microsoft/robustlearnで入手できる。

Deep neural networks are susceptible to adversarial examples, posing a significant security risk in critical applications. Adversarial Training (AT) is a well-established technique to enhance adversarial robustness, but it often comes at the cost of decreased generalization ability. This paper proposes Robustness Critical Fine-Tuning (RiFT), a novel approach to enhance generalization without compromising adversarial robustness. The core idea of RiFT is to exploit the redundant capacity for robustness by fine-tuning the adversarially trained model on its non-robust-critical module. To do so, we introduce module robust criticality (MRC), a measure that evaluates the significance of a given module to model robustness under worst-case weight perturbations. Using this measure, we identify the module with the lowest MRC value as the non-robust-critical module and fine-tune its weights to obtain fine-tuned weights. Subsequently, we linearly interpolate between the adversarially trained weights and fine-tuned weights to derive the optimal fine-tuned model weights. We demonstrate the efficacy of RiFT on ResNet18, ResNet34, and WideResNet34-10 models trained on CIFAR10, CIFAR100, and Tiny-ImageNet datasets. Our experiments show that \method can significantly improve both generalization and out-of-distribution robustness by around 1.5% while maintaining or even slightly enhancing adversarial robustness. Code is available at https://github.com/microsoft/robustlearn.
翻訳日:2023-08-14 01:10:48 公開日:2023-08-01
# 合唱トランスフォーマ:トランスフォーマに相対的に注意を向けたポリフォニック音楽の生成

Choir Transformer: Generating Polyphonic Music with Relative Attention on Transformer ( http://arxiv.org/abs/2308.02531v1 )

ライセンス: Link先を確認
Jiuyang Zhou, Hong Zhu, Xingping Wang(参考訳) ポリフォニック音楽の生成は、メロディとハーモニーの生成が正しいため、依然として挑戦的な方向である。 以前の研究のほとんどはRNNベースのモデルを使用していた。 しかし、RNNベースのモデルは長距離音符の関係を確立するのが難しい。 本稿では,Choir Transformer[ https://github.com/Zjy0401/choir-transformer]という名前のポリフォニック音楽生成ニューラルネットワークを提案する。 また,ポリフォニック音楽生成に適した音楽表現も提案した。 Choir Transformerのパフォーマンスは、以前の最先端の精度4.06%を上回っている。 また,ポリフォニック音楽の調和度を測定した。 実験により、ハーモニー計量はバッハの音楽に近いことが示されている。 実用的な用途では、生成されたメロディやリズムを、民俗音楽やポップ音楽などの異なるスタイルで、所定の入力に応じて調整することができる。

Polyphonic music generation is still a challenge direction due to its correct between generating melody and harmony. Most of the previous studies used RNN-based models. However, the RNN-based models are hard to establish the relationship between long-distance notes. In this paper, we propose a polyphonic music generation neural network named Choir Transformer[ https://github.com/Zjy0401/choir-transformer], with relative positional attention to better model the structure of music. We also proposed a music representation suitable for polyphonic music generation. The performance of Choir Transformer surpasses the previous state-of-the-art accuracy of 4.06%. We also measures the harmony metrics of polyphonic music. Experiments show that the harmony metrics are close to the music of Bach. In practical application, the generated melody and rhythm can be adjusted according to the specified input, with different styles of music like folk music or pop music and so on.
翻訳日:2023-08-14 01:09:33 公開日:2023-08-01
# ゲート運転者注意予測装置

Gated Driver Attention Predictor ( http://arxiv.org/abs/2308.02530v1 )

ライセンス: Link先を確認
Tianci Zhao, Xue Bai, Jianwu Fang, and Jianru Xue(参考訳) 運転注意予測は、運転者がどこに行くつもりで、運転者が何に関心を持つのかを意図的に理解することを意味する。 近年のいくつかの研究は、事故や事故のシナリオにおける運転注意予測を探求し、運転注意図の予測精度によって促進能力が制限される一方、事故予知を支援する上で肯定的な役割を見出している。 本研究では,運転注意予測(Gate-DAP)のためのネットワーク接続ゲーティング機構について検討する。 Gate-DAPは、様々な道路タイプ、機会、光および気象条件の運転シナリオにおいて、異なる空間的、時間的、モダリティ情報の重要性を学習することを目的としている。 Gate-DAPにおけるネットワーク接続ゲーティングは、空間符号化ネットワークゲーティング、長期記憶ネットワークゲーティング、情報型ゲーティングモジュールからなる。 各接続ゲーティング操作はプラグアンドプレイであり、柔軟に組み立てることができ、ゲートdapのアーキテクチャを透明にして、異なる空間的、時間的、情報型のドライバー注意予測を評価する。 DADA-2000およびBDDAデータセットの評価は、提案手法の優位性と最先端手法との比較を検証した。 コードはhttps://github.com/JWFangit/Gate-DAPで公開されている。

Driver attention prediction implies the intention understanding of where the driver intends to go and what object the driver concerned about, which commonly provides a driving task-guided traffic scene understanding. Some recent works explore driver attention prediction in critical or accident scenarios and find a positive role in helping accident prediction, while the promotion ability is constrained by the prediction accuracy of driver attention maps. In this work, we explore the network connection gating mechanism for driver attention prediction (Gate-DAP). Gate-DAP aims to learn the importance of different spatial, temporal, and modality information in driving scenarios with various road types, occasions, and light and weather conditions. The network connection gating in Gate-DAP consists of a spatial encoding network gating, long-short-term memory network gating, and information type gating modules. Each connection gating operation is plug-and-play and can be flexibly assembled, which makes the architecture of Gate-DAP transparent for evaluating different spatial, temporal, and information types for driver attention prediction. Evaluations on DADA-2000 and BDDA datasets verify the superiority of the proposed method with the comparison with state-of-the-art approaches. The code is available on https://github.com/JWFangit/Gate-DAP.
翻訳日:2023-08-14 01:09:11 公開日:2023-08-01
# アスペクトに基づく旅行者レビューの感情分析

Aspect based sentimental analysis for travellers' reviews ( http://arxiv.org/abs/2308.02548v1 )

ライセンス: Link先を確認
Mohammed Saad M Alaydaa, Jun Li, Karl Jinkins(参考訳) 空港サービスの質評価は、Google Mapsを含むソーシャルメディアで一般的に見られる。 これは、提供されるサービスの質を高めるために空港管理に有用である。 しかし、先行研究は、旅行者が議論する話題に対する一般的なレビューを提供するか、またはそのような価値の裏にある空港サービスに言及することなく、レビュー全体をタグ付けするための感情的な価値を提供する。 そこで本研究では,旅行者レビューのより詳細な分析を行うために,アスペクトベースの感情分析手法を提案する。 この研究は、ドバイとドーハの空港に関するgoogleマップから収集されたデータにアスペクトベースの感情分析を適用した。 この結果から, 改善が必要な旅行者や空港サービスを見付けるために, アスペクトベースの感情分析を利用するための明確な理由が得られた。

Airport service quality evaluation is commonly found on social media, including Google Maps. This valuable for airport management in order to enhance the quality of services provided. However; prior studies either provide general review for topics discussed by travellers or provide sentimental value to tag the entire review without specifically mentioning the airport service that is behind such value. Accordingly, this work proposes using aspect based sentimental analysis in order to provide more detailed analysis for travellers reviews. This works applied aspect based sentimental analysis on data collected from Google Map about Dubai and Doha airports. The results provide tangible reasons to use aspect based sentimental analysis in order to understand more the travellers and spot airport services that are in need for improvement.
翻訳日:2023-08-14 01:00:11 公開日:2023-08-01
# AIユーザの嗜好を標準として捉えるコラボレーションフィルタリング

Collaborative filtering to capture AI user's preferences as norms ( http://arxiv.org/abs/2308.02542v1 )

ライセンス: Link先を確認
Serramia Marc, Criado Natalia, Luck Michael(参考訳) それぞれのユーザの好みに合わせてAIテクノロジをカスタマイズすることは、それらがうまく機能することの基本である。 残念なことに、現在のメソッドはあまりにも多くのユーザの関与を必要とし、真の好みを捉えない。 実際、手動で設定する設定の煩雑さを避けるために、ユーザーは通常、実際の設定に従わなくてもデフォルトの設定を受け入れる。 ノルムは行動の規制やユーザの嗜好の遵守に有用であるが、文献は規範を徹底的に研究しているが、ほとんどの提案は形式的な視点を採っている。 実際、ユーザのプライバシの好みを捉えるための規範を構築する研究がいくつか行われているが、これらの手法は、AI技術の場合、取得と維持が困難であるドメイン知識に依存している。 我々は、ユーザのシステム全体から簡単に利用できる大量の選好情報を活用し、規範を構築する際に新たな視点が必要であると主張する。 リコメンダシステムに触発されて、コラボレーティブフィルタリングは、過度なユーザの関与なしにユーザの規範的好みを識別するための適切なアプローチを提供することができると信じている。

Customising AI technologies to each user's preferences is fundamental to them functioning well. Unfortunately, current methods require too much user involvement and fail to capture their true preferences. In fact, to avoid the nuisance of manually setting preferences, users usually accept the default settings even if these do not conform to their true preferences. Norms can be useful to regulate behaviour and ensure it adheres to user preferences but, while the literature has thoroughly studied norms, most proposals take a formal perspective. Indeed, while there has been some research on constructing norms to capture a user's privacy preferences, these methods rely on domain knowledge which, in the case of AI technologies, is difficult to obtain and maintain. We argue that a new perspective is required when constructing norms, which is to exploit the large amount of preference information readily available from whole systems of users. Inspired by recommender systems, we believe that collaborative filtering can offer a suitable approach to identifying a user's norm preferences without excessive user involvement.
翻訳日:2023-08-14 00:59:58 公開日:2023-08-01
# より人間的なAIコミュニケーションを目指して:創発的コミュニケーション研究のレビュー

Towards More Human-like AI Communication: A Review of Emergent Communication Research ( http://arxiv.org/abs/2308.02541v1 )

ライセンス: Link先を確認
Nicolo' Brandizzi(参考訳) 近年、人間中心のAIへのシフトでは、自然言語を正確に使用する機械の必要性がますます重要になっている。 これを達成するための一般的なアプローチは、大きな言語モデルを訓練することであるが、この手法は、モデルが基盤となる構造を捉えない学習ミスアライメントの形式を示し、人間が自然言語を使って採用する理由を示し、予期せぬあるいは信頼できない行動を引き起こす可能性がある。 創発的コミュニケーション(emergent communication、emecom)は、自然言語を単純な識別タスクを超えて利用し、効果的なコミュニケーションと新しい概念の学習を可能にする人工的なエージェントを開発することを目的として、近年多くの出版物が見られる研究分野である。 本稿では,Emecomを2つの側面で紹介する。 まず、文献に共通するすべての共通性と、それらが人間の相互作用にどのように関係しているかを述べます。 次に,2つのサブカテゴリを特定し,その特徴と課題を明らかにする。 異なる手法が共通の問題に対する多様な解決策と見なせることを実証することで、研究者が協力し合うことを奨励し、この分野における多様な視点と専門知識を含むことの重要性を強調します。 人間のコミュニケーションをより深く理解することは、人間と機械の相互作用で自然言語を正確に利用できる機械を開発する上で不可欠だと考えています。

In the recent shift towards human-centric AI, the need for machines to accurately use natural language has become increasingly important. While a common approach to achieve this is to train large language models, this method presents a form of learning misalignment where the model may not capture the underlying structure and reasoning humans employ in using natural language, potentially leading to unexpected or unreliable behavior. Emergent communication (Emecom) is a field of research that has seen a growing number of publications in recent years, aiming to develop artificial agents capable of using natural language in a way that goes beyond simple discriminative tasks and can effectively communicate and learn new concepts. In this review, we present Emecom under two aspects. Firstly, we delineate all the common proprieties we find across the literature and how they relate to human interactions. Secondly, we identify two subcategories and highlight their characteristics and open challenges. We encourage researchers to work together by demonstrating that different methods can be viewed as diverse solutions to a common problem and emphasize the importance of including diverse perspectives and expertise in the field. We believe a deeper understanding of human communication is crucial to developing machines that can accurately use natural language in human-machine interactions.
翻訳日:2023-08-14 00:59:39 公開日:2023-08-01
# CoSMo: 抽象ウィキペディアのコンテンツ選択プロセスのためのコンストラクタ仕様言語

CoSMo: A constructor specification language for Abstract Wikipedia's content selection process ( http://arxiv.org/abs/2308.02539v1 )

ライセンス: Link先を確認
Kutz Arrieta and Pablo R. Fillottrani and C. Maria Keet(参考訳) 情報スニペットを抽象的に表現することは、データベースビュー仕様や構造化された入力からAIを生成する自然言語生成パイプラインの第1段階、すなわち、言語化すべきものを決定するためのコンテンツ選択段階など、様々な目的で実行する必要があるタスクである。 抽象ウィキペディアプロジェクトの要件分析では、このような抽象表現には多言語モデリング、宣言的コンテンツと関数をカバーするコンテンツ選択、クラスとインスタンスの両方が必要であることが明らかになった。 3つの機能のいずれかを満たすモデリング言語はありません。 幅広い利害関係者の協議を包含する厳密な言語設計プロセスに従って、これらの要件と他の要件を満たし、抽象ウィキペディアでも他の文脈でも有用であるような、新しい"sc co}ntent {\sc s}election {\sc mo}deling language"を開発した。 本稿では,設計プロセス,論理と選択,仕様,言語の予備評価について述べる。

Representing snippets of information abstractly is a task that needs to be performed for various purposes, such as database view specification and the first stage in the natural language generation pipeline for generative AI from structured input, i.e., the content selection stage to determine what needs to be verbalised. For the Abstract Wikipedia project, requirements analysis revealed that such an abstract representation requires multilingual modelling, content selection covering declarative content and functions, and both classes and instances. There is no modelling language that meets either of the three features, let alone a combination. Following a rigorous language design process inclusive of broad stakeholder consultation, we created CoSMo, a novel {\sc Co}ntent {\sc S}election {\sc Mo}deling language that meets these and other requirements so that it may be useful both in Abstract Wikipedia as well as other contexts. We describe the design process, rationale and choices, the specification, and preliminary evaluation of the language.
翻訳日:2023-08-14 00:59:19 公開日:2023-08-01
# ALE:NLPにおけるクエリ戦略のパラメータ駆動比較のためのシミュレーションに基づくアクティブラーニング評価フレームワーク

ALE: A Simulation-Based Active Learning Evaluation Framework for the Parameter-Driven Comparison of Query Strategies for NLP ( http://arxiv.org/abs/2308.02537v1 )

ライセンス: Link先を確認
Philipp Kohl and Nils Freyer and Yoka Kr\"amer and Henri Werth and Steffen Wolf and Bodo Kraft and Matthias Meinecke and Albert Z\"undorf(参考訳) 監視された機械学習とディープラーニングは大量のラベル付きデータを必要とし、データサイエンティストは手動で時間を要するアノテーションプロセスで取得する。 この課題を軽減するために、Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに期待できるデータポイントを提案する。 このメソッドは、モデルパフォーマンスを維持しながらアノテーションの労力を省くことが想定されている。 しかし、実践者は異なるタスクに対して多くのAL戦略に直面し、それらを選択するために経験的な基盤が必要です。 サーベイは、al戦略を性能表示なしで分類に分類する。 新たなAL戦略の提示は、パフォーマンスを戦略の小さなサブセットと比較する。 我々の貢献は、NLPにおけるAL戦略の比較評価のための再現可能なアクティブラーニング評価(ALE)フレームワークを導入することで、経験的基盤に対処する。 このフレームワークは、実験パラメータ(初期データセットサイズ、クエリステップ当たりのデータポイント数、予算など)を定義して追跡することで、少ない労力と公平なデータ駆動比較でal戦略の実装を可能にする。 研究者は、新しい効果的なal戦略を開発し、特定のユースケースのためにベストプラクティスを導出することに集中することができる。 ベストプラクティスでは、実践者はアノテーションのコストを下げることができる。 このフレームワークの使い方を説明するためのケーススタディを示す。

Supervised machine learning and deep learning require a large amount of labeled data, which data scientists obtain in a manual, and time-consuming annotation process. To mitigate this challenge, Active Learning (AL) proposes promising data points to annotators they annotate next instead of a subsequent or random sample. This method is supposed to save annotation effort while maintaining model performance. However, practitioners face many AL strategies for different tasks and need an empirical basis to choose between them. Surveys categorize AL strategies into taxonomies without performance indications. Presentations of novel AL strategies compare the performance to a small subset of strategies. Our contribution addresses the empirical basis by introducing a reproducible active learning evaluation (ALE) framework for the comparative evaluation of AL strategies in NLP. The framework allows the implementation of AL strategies with low effort and a fair data-driven comparison through defining and tracking experiment parameters (e.g., initial dataset size, number of data points per query step, and the budget). ALE helps practitioners to make more informed decisions, and researchers can focus on developing new, effective AL strategies and deriving best practices for specific use cases. With best practices, practitioners can lower their annotation costs. We present a case study to illustrate how to use the framework.
翻訳日:2023-08-14 00:59:00 公開日:2023-08-01
# qgym: RLベースの量子コンパイルのトレーニングとベンチマークのためのジム

qgym: A Gym for Training and Benchmarking RL-Based Quantum Compilation ( http://arxiv.org/abs/2308.02536v1 )

ライセンス: Link先を確認
Stan van der Linde, Willem de Kok, Tariq Bontekoe, Sebastian Feld(参考訳) 量子回路を特定の量子ハードウェアにコンパイルするのは難しい作業です。 さらに、現在の量子コンピュータはハードウェアの制限が厳しい。 限られたリソースを最大限に活用するには、コンパイルプロセスを最適化する必要がある。 電流法を改善するために、エージェントが環境と相互作用して複雑なポリシーを学び、特定の目標を達成するための強化学習(rl)が使用できる。 本稿では,OpenAIのジムから派生したソフトウェアフレームワークであるqgymと,特に量子コンパイルに適した環境について紹介する。 qgymの目標は、人工知能(AI)の研究分野と量子コンパイルを、どちらの領域にも関係のないプロセスの一部を抽象化することで結びつけることである。 rlエージェントとアルゴリズムを高度にカスタマイズ可能な環境でトレーニングとベンチマークに使用することができる。

Compiling a quantum circuit for specific quantum hardware is a challenging task. Moreover, current quantum computers have severe hardware limitations. To make the most use of the limited resources, the compilation process should be optimized. To improve currents methods, Reinforcement Learning (RL), a technique in which an agent interacts with an environment to learn complex policies to attain a specific goal, can be used. In this work, we present qgym, a software framework derived from the OpenAI gym, together with environments that are specifically tailored towards quantum compilation. The goal of qgym is to connect the research fields of Artificial Intelligence (AI) with quantum compilation by abstracting parts of the process that are irrelevant to either domain. It can be used to train and benchmark RL agents and algorithms in highly customizable environments.
翻訳日:2023-08-14 00:58:39 公開日:2023-08-01
# サブストラクショナル論理における手続き様相:論理・言語・計算のインタフェースにおける応用

Proceedings Modalities in substructural logics: Applications at the interfaces of logic, language and computation ( http://arxiv.org/abs/2308.03679v1 )

ライセンス: Link先を確認
Michael Moortgat (Utrecht University), Mehrnoosh Sadrzadeh (UCL)(参考訳) 古典論理学において認められる暗黙的な構造的規則に疑問を投げかけることによって、サブストラクショナル論理は、多くの学際的領域で応用される新しい推論の形式をもたらした。 モダリティは、サブストラクショナル設定において、論理リソース管理を制御および微調整するツールを提供する。 ワークショップの焦点は、ESSLLIコミュニティ、特に自然言語の構文と意味論と推論のダイナミクスに対する論理的アプローチへの関心分野のアプリケーションに焦点を当てている。 ワークショップは、Horizon 2020 MSCA-RiseプロジェクトMOSAICの支援により開催される。

By calling into question the implicit structural rules that are taken for granted in classical logic, substructural logics have brought to the fore new forms of reasoning with applications in many interdisciplinary areas of interest. Modalities, in the substructural setting, provide the tools to control and finetune the logical resource management. The focus of the workshop is on applications in the areas of interest to the ESSLLI community, in particular logical approaches to natural language syntax and semantics and the dynamics of reasoning. The workshop is held with the support of the Horizon 2020 MSCA-Rise project MOSAIC .
翻訳日:2023-08-14 00:49:48 公開日:2023-08-01
# 信用の公正なモデル--相互差別と不平等の増幅

Fair Models in Credit: Intersectional Discrimination and the Amplification of Inequity ( http://arxiv.org/abs/2308.02680v1 )

ライセンス: Link先を確認
Savina Kim and Stefan Lessmann and Galina Andreeva and Michael Rovatsos(参考訳) 信用モデリングにおける新しいデータソースと機械学習(ML)技術の利用の増加は、保護された特徴(人種、性別、年齢など)や社会経済的、人口統計学的データに依存する潜在的に不公平な意思決定に関する懸念を提起する。 著者らは、マイクロファイナンス文脈におけるそのようなアルゴリズムバイアスの影響を実証する。 信用評価の困難さは、脆弱なグループの間で不均等に経験されているが、単一のグループだけでなく、複数の社会的カテゴリによって定義されたグループ間の信用配分の不平等についてはほとんど知られていない。 交差性のパラダイムから、性別、年齢、婚姻状況、シングル親の地位、子供の数による信用アクセスにおける交差水平不等式について検討した。 本稿では,スペインのマイクロファイナンス市場からのデータをコンテキストとして利用し,自動意思決定システムを用いて複数現実性や交差点IDが信用配分のパターンを形成できることを示す。 ML技術は社会的善悪に難渋しているため、交叉性をより徹底的に検証することで、アルゴリズム的公正性レンズを強化し、公平な結果に対するアクションをより誠実に強化し、より公平な道を示すことができる。 高いレベルの公正性は表面的には存在するかもしれないが、組合せ効果によって低いレベルで不公平性は悪化し、言い換えれば、中核の公平性問題は現在の文献より複雑である。 法的に保護された特徴に加えて、単一親状態や子供の数などの敏感な属性は、不均衡な害をもたらす可能性がある。 金融サービス業界におけるこれらの発見の意義について論じる。

The increasing usage of new data sources and machine learning (ML) technology in credit modeling raises concerns with regards to potentially unfair decision-making that rely on protected characteristics (e.g., race, sex, age) or other socio-economic and demographic data. The authors demonstrate the impact of such algorithmic bias in the microfinance context. Difficulties in assessing credit are disproportionately experienced among vulnerable groups, however, very little is known about inequities in credit allocation between groups defined, not only by single, but by multiple and intersecting social categories. Drawing from the intersectionality paradigm, the study examines intersectional horizontal inequities in credit access by gender, age, marital status, single parent status and number of children. This paper utilizes data from the Spanish microfinance market as its context to demonstrate how pluralistic realities and intersectional identities can shape patterns of credit allocation when using automated decision-making systems. With ML technology being oblivious to societal good or bad, we find that a more thorough examination of intersectionality can enhance the algorithmic fairness lens to more authentically empower action for equitable outcomes and present a fairer path forward. We demonstrate that while on a high-level, fairness may exist superficially, unfairness can exacerbate at lower levels given combinatorial effects; in other words, the core fairness problem may be more complicated than current literature demonstrates. We find that in addition to legally protected characteristics, sensitive attributes such as single parent status and number of children can result in imbalanced harm. We discuss the implications of these findings for the financial services industry.
翻訳日:2023-08-14 00:49:23 公開日:2023-08-01
# 大規模言語モデルの倫理的考察と政策的意味:責任ある開発と展開を導く

Ethical Considerations and Policy Implications for Large Language Models: Guiding Responsible Development and Deployment ( http://arxiv.org/abs/2308.02678v1 )

ライセンス: Link先を確認
Jianyi Zhang, Xu Ji, Zhangchi Zhao, Xiali Hei, Kim-Kwang Raymond Choo(参考訳) 本稿では,コンテンツ生成における大規模言語モデル(LLM)の倫理的考察と意義について考察する。 生成AIプログラムの肯定的および否定的な使用の可能性を強調し、アウトプットに責任を割り当てる際の課題を探求する。 この議論は、LCMの責任ある開発と展開を導くための積極的倫理的枠組みと政策措置の必要性を強調している。

This paper examines the ethical considerations and implications of large language models (LLMs) in generating content. It highlights the potential for both positive and negative uses of generative AI programs and explores the challenges in assigning responsibility for their outputs. The discussion emphasizes the need for proactive ethical frameworks and policy measures to guide the responsible development and deployment of LLMs.
翻訳日:2023-08-14 00:48:56 公開日:2023-08-01
# MAiVAR-T:トランスフォーマーを用いたマルチモーダルオーディオ画像とビデオアクション認識装置

MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers ( http://arxiv.org/abs/2308.03741v1 )

ライセンス: Link先を確認
Muhammad Bilal Shaikh, Douglas Chai, Syed Mohammed Shamsul Islam and Naveed Akhtar(参考訳) 視覚や音声などの複数のモードからの高次元入力を同時に処理・統合することで世界を認識する人間の能力に合わせて,MAiVAR-T(Multimodal Audio-Image to Video Action Recognition Transformer)を提案する。 このモデルは,マルチモーダル・ヒューマン・アクション認識(MHAR)の有効性を高めるために,オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。 MAiVAR-Tの中核にあるのは、オーディオモダリティから実質的な表現を蒸留し、これらを画像領域に変換することである。 その後、このオーディオ画像描写はビデオモダリティと融合して統一表現を定式化する。 この協調的なアプローチは、オーディオとビデオの両方に固有のコンテキスト豊かさを活用し、アクション認識を促進することを目指している。 MAiVAR-Tは、オーディオやビデオのモダリティにのみフォーカスする既存の最先端戦略とは対照的に、優れたパフォーマンスを示している。 ベンチマーク動作認識データセット上で行った広範な経験的評価は,モデルの顕著な性能を裏付けるものだ。 このことは、行動認識のためのオーディオとビデオのモダリティの統合による潜在的な拡張を裏付けるものである。

In line with the human capacity to perceive the world by simultaneously processing and integrating high-dimensional inputs from multiple modalities like vision and audio, we propose a novel model, MAiVAR-T (Multimodal Audio-Image to Video Action Recognition Transformer). This model employs an intuitive approach for the combination of audio-image and video modalities, with a primary aim to escalate the effectiveness of multimodal human action recognition (MHAR). At the core of MAiVAR-T lies the significance of distilling substantial representations from the audio modality and transmuting these into the image domain. Subsequently, this audio-image depiction is fused with the video modality to formulate a unified representation. This concerted approach strives to exploit the contextual richness inherent in both audio and video modalities, thereby promoting action recognition. In contrast to existing state-of-the-art strategies that focus solely on audio or video modalities, MAiVAR-T demonstrates superior performance. Our extensive empirical evaluations conducted on a benchmark action recognition dataset corroborate the model's remarkable performance. This underscores the potential enhancements derived from integrating audio and video modalities for action recognition purposes.
翻訳日:2023-08-14 00:38:46 公開日:2023-08-01
# 連合学習によるワイヤレスネットワークの革命:総括的レビュー

Revolutionizing Wireless Networks with Federated Learning: A Comprehensive Review ( http://arxiv.org/abs/2308.04404v1 )

ライセンス: Link先を確認
Sajjad Emdadi Mahdimahalleh(参考訳) 近年、スマートフォン、タブレット、車両などの無線ユーザー機器の計算能力の増大とともに、プライベートデータ共有への懸念が高まっているため、フェデレートラーニング(FL)と呼ばれる新しい機械学習モデルが登場している。 FLは、データセンターで発生する集中型学習とは異なる、中央単位におけるデータ取得と計算の分離を可能にする。 flは通常、通信リソースが制限され信頼できない無線エッジネットワークで使用される。 帯域幅の制約は、各イテレーションにおける更新のためのuesのサブセットのみのスケジューリングを必要とし、無線媒体が共有されているため、送信は干渉を受けやすく、保証されない。 この記事では、無線通信における機械学習の重要性を論じ、将来のモバイルネットワーク、特に6g以降において重要な役割を果たす新しいアプローチとして、連合学習(fl)を強調する。

These days with the rising computational capabilities of wireless user equipment such as smart phones, tablets, and vehicles, along with growing concerns about sharing private data, a novel machine learning model called federated learning (FL) has emerged. FL enables the separation of data acquisition and computation at the central unit, which is different from centralized learning that occurs in a data center. FL is typically used in a wireless edge network where communication resources are limited and unreliable. Bandwidth constraints necessitate scheduling only a subset of UEs for updates in each iteration, and because the wireless medium is shared, transmissions are susceptible to interference and are not assured. The article discusses the significance of Machine Learning in wireless communication and highlights Federated Learning (FL) as a novel approach that could play a vital role in future mobile networks, particularly 6G and beyond.
翻訳日:2023-08-14 00:28:29 公開日:2023-08-01
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似

Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v8 )

ライセンス: Link先を確認
Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji(参考訳) 結晶材料の特性予測について検討する。 結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。 このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。 現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。 本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。 まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。 これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。 第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。 これは証明可能な誤差境界を持つ無限ポテンシャル和の近似によって実現される。 近似を計算するための効率的なアルゴリズムを更に開発する。 最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。 評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。 その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet)の一部として公開されています。

We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations with provable error bounds. We further develop efficient algorithms to compute the approximations. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet).
翻訳日:2023-08-04 19:37:09 公開日:2023-08-01
# ChatMOF: 金属有機フレームワークの予測と生成のための自律型AIシステム

ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks ( http://arxiv.org/abs/2308.01423v1 )

ライセンス: Link先を確認
Yeonghun Kang, Jihan Kim(参考訳) ChatMOFは、金属-有機フレームワーク(MOF)の予測と生成のために構築された自律人工知能(AI)システムである。 大規模言語モデル(gpt-3.5-turbo)を活用することで、chatmofはテキスト入力から重要な詳細を抽出し、適切な応答を提供する。 このシステムは3つのコアコンポーネント(エージェント、ツールキット、評価器)から構成され、データ検索、プロパティ予測、構造生成など、さまざまなタスクを管理する堅牢なパイプラインを形成する。 この研究は、材料科学における大規模言語モデル(llms)aiシステムの利用のメリットと制約をさらに探究し、その将来的な進歩への転換可能性を示すものである。

ChatMOF is an autonomous Artificial Intelligence (AI) system that is built to predict and generate of metal-organic frameworks (MOFs). By leveraging a large-scale language model (gpt-3.5-turbo), ChatMOF extracts key details from textual inputs and delivers appropriate responses, thus eliminating the necessity for rigid structured queries. The system is comprised of three core components (i.e. an agent, a toolkit, and an evaluator) and it forms a robust pipeline that manages a variety of tasks, including data retrieval, property prediction, and structure generation. The study further explores the merits and constraints of using large language models (LLMs) AI system in material sciences using and showcases its transformative potential for future advancements.
翻訳日:2023-08-04 15:56:46 公開日:2023-08-01
# 一般化と過剰適合に対処するホップフィールドのようなセットアップ

Regularization, early-stopping and dreaming: a Hopfield-like setup to address generalization and overfitting ( http://arxiv.org/abs/2308.01421v1 )

ライセンス: Link先を確認
Elena Agliari, Miriam Aquaro, Francesco Alemanno, Alberto Fachechi(参考訳) 本研究では,機械学習の観点からアトラクタニューラルネットワークにアプローチする: 正規化損失関数に勾配降下を適用することにより,最適なネットワークパラメータを求める。 この枠組みの中で、最適なニューロン相互作用行列は、いくつかの未学習プロトコルを反復的に適用することによって修正されたヘビー核に対応する行列のクラスであることが判明した。 驚くべきことに,未学習ステップの数は,損失関数の正規化ハイパーパラメータとトレーニング時間との関連性が証明された。 したがって、相互作用行列の代数的性質の観点で定式化された過剰フィッティングを避けるために戦略を設計することができる。 これらのアトラクタネットワークの一般化能力についても検討し, ランダムな合成データセットの解析結果が得られ, 次に, 出現した画像は, パラメータが変化するにつれて, いくつかの状態(過度な適合, 失敗, 成功など)の存在を強調する数値実験によって相関する。

In this work we approach attractor neural networks from a machine learning perspective: we look for optimal network parameters by applying a gradient descent over a regularized loss function. Within this framework, the optimal neuron-interaction matrices turn out to be a class of matrices which correspond to Hebbian kernels revised by iteratively applying some unlearning protocols. Remarkably, the number of unlearning steps is proved to be related to the regularization hyperparameters of the loss function and to the training time. Thus, we can design strategies to avoid overfitting that are formulated in terms of the algebraic properties of the interaction matrix, or, equivalently, in terms of regularization tuning and early-stopping strategies. The generalization capabilities of these attractor networks are also investigated: analytical results are obtained for random synthetic datasets, next, the emerging picture is corroborated by numerical experiments that highlight the existence of several regimes (i.e., overfitting, failure and success) as the dataset parameters are varied.
翻訳日:2023-08-04 15:56:32 公開日:2023-08-01
# スパイルオーバー効果を考慮した多変量実現ボラティリティ予測のためのグラフニューラルネットワーク

Graph Neural Networks for Forecasting Multivariate Realized Volatility with Spillover Effects ( http://arxiv.org/abs/2308.01419v1 )

ライセンス: Link先を確認
Chao Zhang, Xingyue Pu, Mihai Cucuringu, Xiaowen Dong(参考訳) 本稿では,カスタマイズされたグラフニューラルネットワークを用いた多変量実現ボラティリティのモデル化と予測のための新しい手法を提案する。 提案モデルでは, マルチホップ近傍からの流出効果を取り入れ, 非線形関係を捉え, 損失関数の異なるフレキシブルなトレーニングを行う。 実験結果から,マルチホップ近傍のみからの流出効果は予測精度の面では明確な利点をもたらさないという説得力のある証拠が得られた。 しかし, 非線形流出効果のモデル化は, 特に1週間の短期地平線において, 実現した揮発性の予測精度を高める。 さらに, 擬似相似損失のトレーニングは, 一般的な平均二乗誤差に比べ, モデル性能が大幅に向上することが示唆された。 代替設定における総合的な経験的評価により,結果の堅牢性が確認された。

We present a novel methodology for modeling and forecasting multivariate realized volatilities using customized graph neural networks to incorporate spillover effects across stocks. The proposed model offers the benefits of incorporating spillover effects from multi-hop neighbors, capturing nonlinear relationships, and flexible training with different loss functions. Our empirical findings provide compelling evidence that incorporating spillover effects from multi-hop neighbors alone does not yield a clear advantage in terms of predictive accuracy. However, modeling nonlinear spillover effects enhances the forecasting accuracy of realized volatilities, particularly for short-term horizons of up to one week. Moreover, our results consistently indicate that training with the Quasi-likelihood loss leads to substantial improvements in model performance compared to the commonly-used mean squared error. A comprehensive series of empirical evaluations in alternative settings confirm the robustness of our results.
翻訳日:2023-08-04 15:56:12 公開日:2023-08-01
# MRQ:モデル再量子化による多重量子化スキームの実現

MRQ:Support Multiple Quantization Schemes through Model Re-Quantization ( http://arxiv.org/abs/2308.01867v1 )

ライセンス: Link先を確認
Manasa Manohara, Sankalp Dayal, Tarqi Afzal, Rahul Bakshi, Kahkuen Fu(参考訳) 多様なハードウェアアクセラレータ(例えば、NPU、TPU、DPU)の普及にもかかわらず、固定点ハードウェアでエッジデバイスにディープラーニングモデルをデプロイすることは、複雑なモデル量子化と変換のために依然として難しい。 既存のモデル量子化フレームワークであるTensorflow QAT [1], TFLite PTQ [2], Qualcomm AIMET [3] は限定的な量子化スキームのみをサポートしている(TF1.x QAT [4] の非対称なテンソル量子化のみ)。 したがって、深層学習モデルは様々な固定点ハードウェアでは容易に量子化できない。 本稿では,既存の量子化モデルを用いて,異なる量子化要件(非対称 -> 対称,非力-of-2 スケール -> パワー-of-2 スケール)を迅速に満たすmrq (model re-quantization) と呼ばれる新しいモデル量子化手法を想定する。 再量子化は、コストのかかる再トレーニングを回避し、同時に複数の量子化スキームをサポートするため、スクラッチから量子化するよりもずっと単純である。 再定量化誤差を最小限に抑えるため,重み補正や丸め誤差折り畳みを含む新しい再定量化アルゴリズムを開発した。 我々は,mobilenetv2 qatモデル [7] を2つの異なる量子化スキーム (対称および対称+パワーof-2スケール) に高速に再計算できることを示した。 我々の研究は、この再量子化の概念をモデル量子化に活用する最初のものであると信じており、再量子化プロセスから得られたモデルはEcho Showデバイス上でNNAにうまく展開されている。

Despite the proliferation of diverse hardware accelerators (e.g., NPU, TPU, DPU), deploying deep learning models on edge devices with fixed-point hardware is still challenging due to complex model quantization and conversion. Existing model quantization frameworks like Tensorflow QAT [1], TFLite PTQ [2], and Qualcomm AIMET [3] supports only a limited set of quantization schemes (e.g., only asymmetric per-tensor quantization in TF1.x QAT [4]). Accordingly, deep learning models cannot be easily quantized for diverse fixed-point hardwares, mainly due to slightly different quantization requirements. In this paper, we envision a new type of model quantization approach called MRQ (model re-quantization), which takes existing quantized models and quickly transforms the models to meet different quantization requirements (e.g., asymmetric -> symmetric, non-power-of-2 scale -> power-of-2 scale). Re-quantization is much simpler than quantizing from scratch because it avoids costly re-training and provides support for multiple quantization schemes simultaneously. To minimize re-quantization error, we developed a new set of re-quantization algorithms including weight correction and rounding error folding. We have demonstrated that MobileNetV2 QAT model [7] can be quickly re-quantized into two different quantization schemes (i.e., symmetric and symmetric+power-of-2 scale) with less than 0.64 units of accuracy loss. We believe our work is the first to leverage this concept of re-quantization for model quantization and models obtained from the re-quantization process have been successfully deployed on NNA in the Echo Show devices.
翻訳日:2023-08-04 13:18:48 公開日:2023-08-01
# 四角八角格子北エフモデルに対する変分量子固有解法のベンチマーク

Benchmarking variational quantum eigensolvers for the square-octagon-lattice Kitaev model ( http://arxiv.org/abs/2108.13375v3 )

ライセンス: Link先を確認
Andy C. Y. Li, M. Sohaib Alam, Thomas Iadecola, Ammar Jahin, Joshua Job, Doga Murat Kurkcuoglu, Richard Li, Peter P. Orth, A. Bar{\i}\c{s} \"Ozg\"uler, Gabriel N. Perdue, Norm M. Tubman(参考訳) 量子スピン系は、科学的な関心を持つ古典的量子計算の最初の機会となるかもしれない。 一般的な量子シミュレーションアルゴリズムは誤り訂正量子ビットを必要とする可能性が高いが、量子誤り訂正の実用的な実装に先立って科学的な応用があるかもしれない。 変分量子固有解法(VQE)は、ノイズ量子コンピュータ上でエネルギー固有値を求めるための有望な手法である。 格子モデルは、ハミルトニアン項の数と格子幾何学とハードウェア幾何学とのマッチングの可能性のスパースのため、短期量子ハードウェアでの使用に広く関心がある。 本稿では,ハードウェアネイティブな正方形量子ビット接続マップ上のキタエフスピンモデルを検討し,そのリッチ位相図をvqeアプローチで効率的に探索する可能性を検討する。 変分アンサッツ状態と古典的オプティマイザの異なる選択をベンチマークすることにより,ハミルトニアン変分アンサッツ(hva)を用いた混合最適化手法の利点と,vqeを用いた系の位相図の探索の可能性を示す。 さらに,リゲッティのAspen-9チップ上でのHVA回路の実装について述べる。

Quantum spin systems may offer the first opportunities for beyond-classical quantum computations of scientific interest. While general quantum simulation algorithms likely require error-corrected qubits, there may be applications of scientific interest prior to the practical implementation of quantum error correction. The variational quantum eigensolver (VQE) is a promising approach to finding energy eigenvalues on noisy quantum computers. Lattice models are of broad interest for use on near-term quantum hardware due to the sparsity of the number of Hamiltonian terms and the possibility of matching the lattice geometry to the hardware geometry. Here, we consider the Kitaev spin model on a hardware-native square-octagon qubit connectivity map, and examine the possibility of efficiently probing its rich phase diagram with VQE approaches. By benchmarking different choices of variational Ansatz states and classical optimizers, we illustrate the advantage of a mixed optimization approach using the Hamiltonian variational Ansatz (HVA) and the potential of probing the system's phase diagram using VQE. We further demonstrate the implementation of HVA circuits on Rigetti's Aspen-9 chip with error mitigation.
翻訳日:2023-08-03 18:32:29 公開日:2023-08-01
# 変圧器における質量編集メモリ

Mass-Editing Memory in a Transformer ( http://arxiv.org/abs/2210.07229v2 )

ライセンス: Link先を確認
Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, David Bau(参考訳) 最近の研究は、古い情報を置き換えるか、専門知識を追加するために、大きな言語モデルを新しい記憶で更新する際のエキサイティングな約束を示している。 しかし、この系統の作業は、主に単一の協会の更新に限られている。 我々は,多数の記憶を持つ言語モデルを直接更新する手法であるMEMITを開発し,GPT-J (6B) と GPT-NeoX (20B) の関連性を数千まで拡張できることを実験的に実証した。 コードとデータはhttps://memit.baulab.info.comにある。

Recent work has shown exciting promise in updating large language models with new memories, so as to replace obsolete information or add specialized knowledge. However, this line of work is predominantly limited to updating single associations. We develop MEMIT, a method for directly updating a language model with many memories, demonstrating experimentally that it can scale up to thousands of associations for GPT-J (6B) and GPT-NeoX (20B), exceeding prior work by orders of magnitude. Our code and data are at https://memit.baulab.info.
翻訳日:2023-08-03 18:25:04 公開日:2023-08-01
# 咬合抵抗性ライダーfiducial marker検出法

Occlusion-Resistant LiDAR Fiducial Marker Detection ( http://arxiv.org/abs/2209.01072v2 )

ライセンス: Link先を確認
Yibo Liu, Jinjun Shan, Hunter Schofield(参考訳) LiDARのフィデューシャルマーカーは、カメラアプリケーションでよく使われる AprilTagに似ているが、LiDARセンサーに人工的な機能を付与する便利なリソースとして機能し、ロボット工学の応用を容易にする。 残念ながら、現在のLiDARフィデューシャルマーカー検出方法は、閉塞のない点雲に限られている。 そこで本研究では, 咬合抵抗性lidarfiducial marker検出のための新しいアプローチを提案する。 まずマーカーに対応する3D点を抽出し、3D強度勾配を利用する。 その後,抽出した点の3次元空間分布をクラスタリングにより解析する。 その後、これらのクラスターの幾何学的特徴を調べることにより、潜在的なマーカーの位置を決定する。 次に、候補位置にある3D点を原点雲から設計した中間平面に連続的に転送する。 最後に、中間面を用いて、図示マーカーの存在の各々の位置を検証し、見つかった場合のマーカーのポーズを計算する。 本手法は, 咬合を伴う点雲に適用できる最初のlidar核マーカー検出法であることを示すために, 定性的かつ定量的な実験を行った。

The LiDAR fiducial marker, akin to the well-known AprilTag used in camera applications, serves as a convenient resource to impart artificial features to the LiDAR sensor, facilitating robotics applications. Unfortunately, current LiDAR fiducial marker detection methods are limited to occlusion-free point clouds. In this work, we present a novel approach for occlusion-resistant LiDAR fiducial marker detection. We first extract 3D points potentially corresponding to the markers, leveraging the 3D intensity gradients. Afterward, we analyze the 3D spatial distribution of the extracted points through clustering. Subsequently, we determine the potential marker locations by examining the geometric characteristics of these clusters. We then successively transfer the 3D points that fall within the candidate locations from the raw point cloud onto a designed intermediate plane. Finally, using the intermediate plane, we validate each location for the presence of a fiducial marker and compute the marker's pose if found. We conduct both qualitative and quantitative experiments to demonstrate that our approach is the first LiDAR fiducial marker detection method applicable to point clouds with occlusion while achieving better accuracy.
翻訳日:2023-08-03 18:22:48 公開日:2023-08-01
# deep cnn-transformerモデルを用いたマウスのラジアルk空間拡散強調mriによる視拡散係数マップの学習

Learning Apparent Diffusion Coefficient Maps from Accelerated Radial k-Space Diffusion-Weighted MRI in Mice using a Deep CNN-Transformer Model ( http://arxiv.org/abs/2207.02399v2 )

ライセンス: Link先を確認
Yuemeng Li, Miguel Romanello Joaquim, Stephen Pickup, Hee Kwon Song, Rong Zhou, Yong Fan(参考訳) 目的: 高品質な見かけ拡散係数(ADC)マップを生成するために, 放射サンプリング拡散強調スピンエコー(Rad-DW-SE)取得法を高速化すること。 方法: Rad-DW-SE法により得られた加速DWIデータから, 正確なADCマップを生成するための深層学習法を開発した。 深層学習法は、畳み込みニューラルネットワーク(CNN)を視覚変換器と統合し、単例のADCモデル適合項で正規化された加速DWIデータから高品質のADCマップを生成する。 モデルは147マウスのDWIデータに基づいて訓練され,36マウスのDWIデータに対して,元の獲得パラメータと比較して4倍,8倍の加速係数で評価された。 私たちはGitHubでコードを公開しました。 https://github.com/ymli39/DeepADC-Net-Learning-Apparent-Diffusion-Coefficient-Maps。 結果: アブレーション実験と実験の結果から, 画像全体および腫瘍, 腎臓, 筋肉などの興味のある領域において, 従来のdwiデータと比較して, より高品質なadcマップが得られた。 結論:CNNとトランスフォーマーを統合したディープラーニング手法は,Rad-DW-SE法で取得した加速DWIデータからADCマップを正確に計算する有効な手段を提供する。

Purpose: To accelerate radially sampled diffusion weighted spin-echo (Rad-DW-SE) acquisition method for generating high quality apparent diffusion coefficient (ADC) maps. Methods: A deep learning method was developed to generate accurate ADC maps from accelerated DWI data acquired with the Rad-DW-SE method. The deep learning method integrates convolutional neural networks (CNNs) with vision transformers to generate high quality ADC maps from accelerated DWI data, regularized by a monoexponential ADC model fitting term. A model was trained on DWI data of 147 mice and evaluated on DWI data of 36 mice, with acceleration factors of 4x and 8x compared to the original acquisition parameters. We have made our code publicly available at GitHub: https://github.com/ymli39/DeepADC-Net-Learning-Apparent-Diffusion-Coefficient-Maps, and our dataset can be downloaded at https://pennpancreaticcancerimagingresource.github.io/data.html. Results: Ablation studies and experimental results have demonstrated that the proposed deep learning model generates higher quality ADC maps from accelerated DWI data than alternative deep learning methods under comparison when their performance is quantified in whole images as well as in regions of interest, including tumors, kidneys, and muscles. Conclusions: The deep learning method with integrated CNNs and transformers provides an effective means to accurately compute ADC maps from accelerated DWI data acquired with the Rad-DW-SE method.
翻訳日:2023-08-03 18:22:11 公開日:2023-08-01
# 報酬関数学習のための人間の嗜好モデル

Models of human preference for learning reward functions ( http://arxiv.org/abs/2206.02231v2 )

ライセンス: Link先を確認
W. Bradley Knox, Stephane Hatgis-Kessell, Serena Booth, Scott Niekum, Peter Stone, Alessandro Allievi(参考訳) 強化学習の有用性は、報酬機能の調整と人間の利害関係者の利益によって制限される。 アライメントの有望な方法の1つは、人間のフィードバック(rlhf)からの強化学習の一種である軌道セグメントのペア間の人間の生成した好みから報酬機能を学ぶことである。 これらの人間の好みは、通常、各セグメントの報酬の合計である部分的なリターンによってのみ通知される。 この仮定は欠陥があり、各セグメントの後悔、つまり最適な意思決定からセグメントの逸脱を判断する尺度によってではなく、人間の好みをモデル化することを提案している。 後悔によって生じる無限個の選好が与えられた場合、これらの選好を生成する報奨関数と等価な報奨関数を同定できることを証明し、その先行部分回帰モデルが複数の文脈においてこの識別可能性特性を欠いていることを証明した。 提案した後悔選好モデルが,トレーニングデータに制限のある部分回帰選好モデルよりも優れていることを実証的に示す。 さらに,提案する後悔選好モデルは,実際の人間選好を予測し,その選好から報奨機能を学習し,より人間に合った政策へと導くことを見出した。 概して、この研究は、選好モデルの選択が影響があることを証明し、提案した後悔選好モデルは、最近の研究の中核的な仮定を改善する。 我々は、実験コード、収集した人間の嗜好データセット、そしてそのようなデータセットを集めるためのトレーニングと嗜好誘発インターフェースをオープンソース化しました。

The utility of reinforcement learning is limited by the alignment of reward functions with the interests of human stakeholders. One promising method for alignment is to learn the reward function from human-generated preferences between pairs of trajectory segments, a type of reinforcement learning from human feedback (RLHF). These human preferences are typically assumed to be informed solely by partial return, the sum of rewards along each segment. We find this assumption to be flawed and propose modeling human preferences instead as informed by each segment's regret, a measure of a segment's deviation from optimal decision-making. Given infinitely many preferences generated according to regret, we prove that we can identify a reward function equivalent to the reward function that generated those preferences, and we prove that the previous partial return model lacks this identifiability property in multiple contexts. We empirically show that our proposed regret preference model outperforms the partial return preference model with finite training data in otherwise the same setting. Additionally, we find that our proposed regret preference model better predicts real human preferences and also learns reward functions from these preferences that lead to policies that are better human-aligned. Overall, this work establishes that the choice of preference model is impactful, and our proposed regret preference model provides an improvement upon a core assumption of recent research. We have open sourced our experimental code, the human preferences dataset we gathered, and our training and preference elicitation interfaces for gathering a such a dataset.
翻訳日:2023-08-03 18:21:18 公開日:2023-08-01
# データ駆動による高分子融液中のガラス転移の同定と解析

Data-driven identification and analysis of the glass transition in polymer melts ( http://arxiv.org/abs/2211.14220v2 )

ライセンス: Link先を確認
Atreyee Banerjee, Hsiao-Ping Hsu, Kurt Kremer, Oleksandra Kukharenko(参考訳) ガラス転移の性質の理解、および高分子材料のガラス転移温度の正確な推定は、実験的および理論的な高分子科学において未解決のままである。 本稿では, 分子動力学シミュレーションによりアクセス可能な高分解能情報を活用し, 個々の鎖の構造情報を考慮したデータ駆動手法を提案する。 弱い半屈曲性鎖のポリマー融液のガラス転移温度を明確に識別する。 主成分分析とクラスタリングを組み合わせることで,ロース型モノマー変位系に到達した比較的短時間の軌道であっても,漸近限界におけるガラス転移温度を同定する。 主成分分析によって得られたゆらぎは、鎖の挙動の変化を反映している: 上述の配座転位から、ガラス転移温度以下の小さな転位まで。 このアプローチは容易に適用でき、他の高分子ガラス成形液にも適用できる。

Understanding the nature of glass transition, as well as precise estimation of the glass transition temperature for polymeric materials, remain open questions in both experimental and theoretical polymer sciences. We propose a data-driven approach, which utilizes the high-resolution details accessible through the molecular dynamics simulation and considers the structural information of individual chains. It clearly identifies the glass transition temperature of polymer melts of weakly semiflexible chains. By combining principal component analysis and clustering, we identify the glass transition temperature in the asymptotic limit even from relatively short-time trajectories, which just reach into the Rouse-like monomer displacement regime. We demonstrate that fluctuations captured by the principal component analysis reflect the change in a chain's behaviour: from conformational rearrangement above to small rearrangements below the glass transition temperature. Our approach is straightforward to apply, and should be applicable to other polymeric glass-forming liquids.
翻訳日:2023-08-03 18:14:46 公開日:2023-08-01
# クリフォードゲートが生成する5量子状態

Five-qubit states generated by Clifford gates ( http://arxiv.org/abs/2210.17034v2 )

ライセンス: Link先を確認
Frederic Latour and Oscar Perdomo(参考訳) クリフォード群(Clifford group)は、制御Zゲート、位相ゲート、アダマールゲートによって生成されるゲートの集合である。 n-量子ビット状態がクリフォード状態であるとは、クリフォードゲートを使って準備できる場合に言う。 これらの状態は安定化状態と呼ばれ、量子誤差補正で生じる。 本稿では,全5量子クリフォード状態の集合について検討する。 徹底的な方法を用いることで、19388160状態の存在を確認することから始める。 本論文の主な目的は、5量子状態における制御Zゲートの作用を理解することである。 この目標を念頭に置いて、同値関係を用いてクリフォード状態を軌道に分割する: 2つの状態が局所クリフォードゲートによって異なる場合、同値である。 93個の軌道が存在しており、制御されたZゲートの効果が容易に見られるように、それぞれの軌道をラベル付けしている。 全ての軌道上のCZゲートの作用を説明する図表と表が論文に記載されている。 これは、制御Zゲート、Zゲート、アダマールゲートで準備できる状態に対してである。

The Clifford group is the set of gates generated by controlled-Z gates, the phase gate and the Hadamard gate. We will say that a n-qubit state is a Clifford state if it can be prepared using Clifford gates. These states are known as the stabilizer states and they arise in quantum error correction. In this paper we study the set of all 5-qubit Clifford states. By using an exhaustive method we start by confirming that there are 19388160 states. The main goal of the paper is to understand the action of the controlled-Z gates action on the 5-qubit states. With this goal in mind, we partition the Clifford states into orbits using the equivalence relation: two states are equivalent if they differ by a local Clifford gate. We show that there are 93 orbits, and we label each orbit in such a way that it is easy to see the effect of the controlled-Z gates. Diagrams and tables explaining the action of the CZ gates on all the orbits are presented in the paper. A similar work is done for the real Clifford 5-qubits states, this is, for states that can be prepared with Controlled-Z gates, the Z gate and the Hadamard gate.
翻訳日:2023-08-03 18:12:30 公開日:2023-08-01
# ニューラルモデルによる構文的サブプライズ、しかし過小評価、構文的曖昧性による人間の処理の難しさ

Syntactic Surprisal From Neural Models Predicts, But Underestimates, Human Processing Difficulty From Syntactic Ambiguities ( http://arxiv.org/abs/2210.12187v2 )

ライセンス: Link先を確認
Suhas Arehalli, Brian Dillon, Tal Linzen(参考訳) 人間は庭道の効果を示す: 一時的に構造的に曖昧な文章を読むと、その構造が不明瞭になり、あまり好ましくない選択肢が好まれる。 この発見の顕著な説明であるサプライズ理論(Hale, 2001; Levy, 2008)は、これらの減速はこれらの文で起こる各単語の予測不能に起因することを示唆している。 この仮説に挑戦したvan schijndel & linzen (2021) は、言語モデルに由来する単語予測可能性のコストの見積もりが人間の庭の道の影響の大きさをひどく過小評価していることを発見した。 本研究では、この過小評価が、言語モデルよりも人間の重み付け構文因子が高いという事実によるものであるかを検討する。 本稿では,言語モデルから構文予測可能性を推定し,語彙予測と構文予測のコストを独立に評価する手法を提案する。 構文的予測可能性と語彙的予測可能性とを独立に扱うことで,園路の予測がより大きくなることがわかった。 同時に、統語的予測可能性が独立して重み付けされているとしても、前提は、人間の庭道効果の規模を大幅に過小評価する。 本研究は, 庭道文に付随する処理コストの要因は, 予測可能性だけではないという仮説を支持する。

Humans exhibit garden path effects: When reading sentences that are temporarily structurally ambiguous, they slow down when the structure is disambiguated in favor of the less preferred alternative. Surprisal theory (Hale, 2001; Levy, 2008), a prominent explanation of this finding, proposes that these slowdowns are due to the unpredictability of each of the words that occur in these sentences. Challenging this hypothesis, van Schijndel & Linzen (2021) find that estimates of the cost of word predictability derived from language models severely underestimate the magnitude of human garden path effects. In this work, we consider whether this underestimation is due to the fact that humans weight syntactic factors in their predictions more highly than language models do. We propose a method for estimating syntactic predictability from a language model, allowing us to weigh the cost of lexical and syntactic predictability independently. We find that treating syntactic predictability independently from lexical predictability indeed results in larger estimates of garden path. At the same time, even when syntactic predictability is independently weighted, surprisal still greatly underestimate the magnitude of human garden path effects. Our results support the hypothesis that predictability is not the only factor responsible for the processing cost associated with garden path sentences.
翻訳日:2023-08-03 18:12:11 公開日:2023-08-01
# 高度空気移動のためのグラフ注意マルチエージェントフリートオートノミー

Graph Attention Multi-Agent Fleet Autonomy for Advanced Air Mobility ( http://arxiv.org/abs/2302.07337v3 )

ライセンス: Link先を確認
Malintha Fernando, Ransalu Senanayake, Heeyoul Choi, Martin Swany(参考訳) 自律移動(autonomous mobility)は、貨物や乗客を輸送するための新しいディスラプティブな都市交通手段として登場している。 しかし、急速に成長する移動システムに対応するスケーラブルな自律的な艦隊調整スキームの設計は、主に車両の多様性の増大、需要パターンの経時的変化、サービスエリアの拡大、通信の制限などにより困難である。 本稿では,対話エージェントの不均一性と,商用機動車両に固有の自己関心の性質を考慮し,航空車両群を協調させる,部分的に観測可能な高度空力ゲームの概念を導入する。 エージェント間の複雑な相互作用とモビリティネットワークにおける観測の不確かさをモデル化するために,ニューラルネットワークに基づく新しいヘテロジニアスグラフアテンション・デコーダ(HetGAT Enc-Dec)を提案する。 我々は、深層多エージェント強化学習を活用して政策を訓練し、その局地的な観察によるエージェントの分散意思決定を可能にする。 広範な実験を通じて,学習方針が様々な艦隊構成,需要パターン,観測トポロジに一般化されることを示す。 さらに、HetGAT Enc-Decポリシーの下で運用されている車両は、オンデマンドモビリティネットワークにおいて、最も高い艦隊報酬と充足率を達成することで、他の最先端のグラフニューラルネットワークポリシーより優れている。

Autonomous mobility is emerging as a new disruptive mode of urban transportation for moving cargo and passengers. However, designing scalable autonomous fleet coordination schemes to accommodate fast-growing mobility systems is challenging primarily due to the increasing heterogeneity of the fleets, time-varying demand patterns, service area expansions, and communication limitations. We introduce the concept of partially observable advanced air mobility games to coordinate a fleet of aerial vehicles by accounting for the heterogeneity of the interacting agents and the self-interested nature inherent to commercial mobility fleets. To model the complex interactions among the agents and the observation uncertainty in the mobility networks, we propose a novel heterogeneous graph attention encoder-decoder (HetGAT Enc-Dec) neural network-based stochastic policy. We train the policy by leveraging deep multi-agent reinforcement learning, allowing decentralized decision-making for the agents using their local observations. Through extensive experimentation, we show that the learned policy generalizes to various fleet compositions, demand patterns, and observation topologies. Further, fleets operating under the HetGAT Enc-Dec policy outperform other state-of-the-art graph neural network policies by achieving the highest fleet reward and fulfillment ratios in on-demand mobility networks.
翻訳日:2023-08-03 18:03:10 公開日:2023-08-01
# ボソニックガウスアンサンブルのかなり良い測定

Pretty good measurement for bosonic Gaussian ensembles ( http://arxiv.org/abs/2303.04949v2 )

ライセンス: Link先を確認
Hemant K. Mishra, Ludovico Lami, Prabha Mandayam, and Mark M. Wilde(参考訳) かなり良い測定は、量子情報理論の基本的な分析ツールであり、アンサンブルから確率的に選択された量子状態を特定する古典的なラベルを推論する方法を提供する。 ボソニック・ガウス状態のクラスに対するかなり良い測定値の同定と構築は、量子情報処理タスクにおける即時的な実践的関連性である。 holevoは最近、ボソニックガウスアンサンブルのかなり良い測定は、アンサンブルのアクセス可能な情報を得るボソニックガウスの測定であることを示した(ieee trans)。 インフ。 理論、66(9):5634-564, 2020)。 本稿では,マルチモードボソニック状態のガウスアンサンブルに対して,その測定の明示的かつ効率的に計算可能なガウス記述の確立に焦点をあてた,かなり良い測定のガウス性を示す代替的な証明を提案する。 また、パラメータ推定に使用する場合に関係する、かなり良い測定値の平均平方誤差の明示的な形式も計算する。 かなり良い測定を一般化することは、かなり良い測定器と呼ばれる量子機器です。 入力状態が共分散行列が一定の条件を満たす忠実なガウス状態であれば、かなり良い測定後の状態が忠実なガウス状態であることが証明される。 以前の測定結果と組み合わされ、同じ条件が成り立つことが示され、期待された出力状態も忠実なガウス状態であることが従う。 この場合、計測後および期待出力状態のガウス的記述を明示的に計算する。 ボーソニックなガウスアンサンブルのためのかなり良い楽器は、もはや分析ツールではなく、量子光学研究所で実験的に実装可能であることを示唆している。

The pretty good measurement is a fundamental analytical tool in quantum information theory, giving a method for inferring the classical label that identifies a quantum state chosen probabilistically from an ensemble. Identifying and constructing the pretty good measurement for the class of bosonic Gaussian states is of immediate practical relevance in quantum information processing tasks. Holevo recently showed that the pretty good measurement for a bosonic Gaussian ensemble is a bosonic Gaussian measurement that attains the accessible information of the ensemble (IEEE Trans. Inf. Theory, 66(9):5634-564, 2020). In this paper, we provide an alternate proof of Gaussianity of the pretty good measurement for a Gaussian ensemble of multimode bosonic states, with a focus on establishing an explicit and efficiently computable Gaussian description of the measurement. We also compute an explicit form of the mean square error of the pretty good measurement, which is relevant when using it for parameter estimation. Generalizing the pretty good measurement is a quantum instrument, called the pretty good instrument. We prove that the post-measurement state of the pretty good instrument is a faithful Gaussian state if the input state is a faithful Gaussian state whose covariance matrix satisfies a certain condition. Combined with our previous finding for the pretty good measurement and provided that the same condition holds, it follows that the expected output state is a faithful Gaussian state as well. In this case, we compute an explicit Gaussian description of the post-measurement and expected output states. Our findings imply that the pretty good instrument for bosonic Gaussian ensembles is no longer merely an analytical tool, but that it can also be implemented experimentally in quantum optics laboratories.
翻訳日:2023-08-03 17:55:09 公開日:2023-08-01
# 外傷性脳損傷後の予後に対する集中治療臨床コースの貢献について

Mining the contribution of intensive care clinical course to outcome after traumatic brain injury ( http://arxiv.org/abs/2303.04630v3 )

ライセンス: Link先を確認
Shubhayu Bhattacharyay, Pier Francesco Caruso, Cecilia {\AA}kerlund, Lindsay Wilson, Robert D Stevens, David K Menon, Ewout W Steyerberg, David W Nelson, Ari Ercole, the CENTER-TBI investigators/participants(参考訳) 集中治療室(ICU)における外傷性脳損傷(TBI)患者の進行状態を特徴付ける既存の方法は、治療の個別化に必要なコンテキストを捉えていない。 ここでは,医療記録に蓄積された全異種データ(ICUおよびICU変数1,166)を統合し,Glasgow Outcome Scale - Extended (GOSE) における臨床コースの個別的貢献と6ヶ月の機能的成果をモデル化する。 TBI患者の前向きコホート(n=1,550,65センター)では、反復ニューラルネットワークモデルを用いて、全変数(欠落値を含む)のトークン埋め込み時系列表現を2時間毎に経時的GOSE予後にマッピングする。 変数の全範囲は、機能結果の順序分散の最大52%(95%ci:50%-54%)を説明する。 この説明の最大91% (95% CI: 90%-91%) はICU前と入場情報(静的変数)から導かれる。 ICUで収集された情報(つまり動的変数)は説明(95% CI: 4%-6%)を増加させるが、より長期(>5.75日)の患者では全体的なパフォーマンスを損なうには不十分である。 最も貢献度の高い変数には、医師ベースの予後、CTの特徴、神経機能マーカーなどがある。 現在の静的情報では、TBI後の機能的結果説明の大多数を占めるが、データ駆動分析では、長期入院患者の動的特徴化を改善するための調査方法が強調されている。 さらに,このモデリング戦略は,大規模患者記録をデータ統合や最小処理の欠如を伴う解釈可能な時系列に変換する上で有用であることを示す。

Existing methods to characterise the evolving condition of traumatic brain injury (TBI) patients in the intensive care unit (ICU) do not capture the context necessary for individualising treatment. Here, we integrate all heterogenous data stored in medical records (1,166 pre-ICU and ICU variables) to model the individualised contribution of clinical course to six-month functional outcome on the Glasgow Outcome Scale - Extended (GOSE). On a prospective cohort (n=1,550, 65 centres) of TBI patients, we train recurrent neural network models to map a token-embedded time series representation of all variables (including missing values) to an ordinal GOSE prognosis every two hours. The full range of variables explains up to 52% (95% CI: 50%-54%) of the ordinal variance in functional outcome. Up to 91% (95% CI: 90%-91%) of this explanation is derived from pre-ICU and admission information (i.e., static variables). Information collected in the ICU (i.e., dynamic variables) increases explanation (by up to 5% [95% CI: 4%-6%]), though not enough to counter poorer overall performance in longer-stay (>5.75 days) patients. Highest-contributing variables include physician-based prognoses, CT features, and markers of neurological function. Whilst static information currently accounts for the majority of functional outcome explanation after TBI, data-driven analysis highlights investigative avenues to improve dynamic characterisation of longer-stay patients. Moreover, our modelling strategy proves useful for converting large patient records into interpretable time series with missing data integration and minimal processing.
翻訳日:2023-08-03 17:54:38 公開日:2023-08-01
# F2BEV:自動走行のための魚眼カメラ画像からの鳥の視線生成

F2BEV: Bird's Eye View Generation from Surround-View Fisheye Camera Images for Automated Driving ( http://arxiv.org/abs/2303.03651v2 )

ライセンス: Link先を確認
Ekta U. Samani, Feng Tao, Harshavardhan R. Dasari, Sihao Ding, Ashis G. Banerjee(参考訳) Bird's Eye View (BEV)表現は、認識に関連する自動運転タスクに非常に有用である。 しかし、広角レンズによる強い歪みのため、周囲の魚眼カメラ画像からBEVを生成することは困難である。 この課題に対処する第一歩として,魚眼画像から識別されたBEVの高さマップとBEVセマンティックセグメンテーションマップを生成するためのベースラインF2BEVを導入する。 F2BEVは、トランスフォーマースタイルのアーキテクチャで魚眼画像の特徴から空間情報をクエリし、統合するための歪み対応空間横断監視モジュールと、タスク固有のヘッドから構成される。 合成FB-SSEMデータセット上でF2BEVの単一タスクおよびマルチタスクの変異を評価し,魚眼画像を用いた最新のBEV生成法よりも,BEVの高さとセグメンテーションマップ(IoU)が優れていることを示した。 また,f2bevを用いた実世界の魚眼画像から高度マップを生成する。 私たちのデータセットはhttps://github.com/volvo-cars/FB-SSEM-datasetで公開されています。

Bird's Eye View (BEV) representations are tremendously useful for perception-related automated driving tasks. However, generating BEVs from surround-view fisheye camera images is challenging due to the strong distortions introduced by such wide-angle lenses. We take the first step in addressing this challenge and introduce a baseline, F2BEV, to generate discretized BEV height maps and BEV semantic segmentation maps from fisheye images. F2BEV consists of a distortion-aware spatial cross attention module for querying and consolidating spatial information from fisheye image features in a transformer-style architecture followed by a task-specific head. We evaluate single-task and multi-task variants of F2BEV on our synthetic FB-SSEM dataset, all of which generate better BEV height and segmentation maps (in terms of the IoU) than a state-of-the-art BEV generation method operating on undistorted fisheye images. We also demonstrate discretized height map generation from real-world fisheye images using F2BEV. Our dataset is publicly available at https://github.com/volvo-cars/FB-SSEM-dataset
翻訳日:2023-08-03 17:54:10 公開日:2023-08-01
# 仮説プラニング性能保証によるpomdp計画を考慮したデータアソシエーション

Data Association Aware POMDP Planning with Hypothesis Pruning Performance Guarantees ( http://arxiv.org/abs/2303.02139v3 )

ライセンス: Link先を確認
Moran Barenboim, Idan Lev-Yehudi and Vadim Indelman(参考訳) 現実世界で活動する自律エージェントは、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化される部分観測可能性を扱う必要がある。 しかし、従来のPOMDPモデルは、完全に観測可能なデータアソシエーションとして知られる観測源の完全な知識の仮定に依存している。 この制限に対処するために、各コンポーネントが異なるデータアソシエーション仮説に対応する信念混合として表される複数のデータアソシエーション仮説を維持する計画アルゴリズムを提案する。 しかし、この方法では仮説の数が指数関数的に増加し、計算オーバーヘッドが大きくなる可能性がある。 この課題を克服するため,我々は,あいまいなデータアソシエーションを用いたプランニング手法を提案する。 我々の重要な貢献は、仮説の完全な集合に基づく値関数と仮説のプルーニングされた部分集合に基づく値関数の境界を導出することであり、計算効率と性能のトレードオフを確立することができる。 これらの境界を遡及的に刈り取るヒューリスティックの証明に利用できることを実証し、損失に対する事前定義された限界を確保するために、どの仮説をプルーンにするかを決定する新しいアプローチを提案する。 シミュレーション環境でのアプローチを評価し,曖昧なデータ関連を持つマルチモーダル信念の処理におけるその効果を実証する。

Autonomous agents that operate in the real world must often deal with partial observability, which is commonly modeled as partially observable Markov decision processes (POMDPs). However, traditional POMDP models rely on the assumption of complete knowledge of the observation source, known as fully observable data association. To address this limitation, we propose a planning algorithm that maintains multiple data association hypotheses, represented as a belief mixture, where each component corresponds to a different data association hypothesis. However, this method can lead to an exponential growth in the number of hypotheses, resulting in significant computational overhead. To overcome this challenge, we introduce a pruning-based approach for planning with ambiguous data associations. Our key contribution is to derive bounds between the value function based on the complete set of hypotheses and the value function based on a pruned-subset of the hypotheses, enabling us to establish a trade-off between computational efficiency and performance. We demonstrate how these bounds can both be used to certify any pruning heuristic in retrospect and propose a novel approach to determine which hypotheses to prune in order to ensure a predefined limit on the loss. We evaluate our approach in simulated environments and demonstrate its efficacy in handling multi-modal belief hypotheses with ambiguous data associations.
翻訳日:2023-08-03 17:53:47 公開日:2023-08-01
# 炭化ケイ素中の炭素クラスターエミッタ

Carbon cluster emitters in silicon carbide ( http://arxiv.org/abs/2304.04197v3 )

ライセンス: Link先を確認
Pei Li, P\'eter Udvarhelyi, Song Li, Bing Huang, and Adam Gali(参考訳) 4H-SiCの欠陥量子ビットは、急速に出現する量子技術分野における多くの応用の優れた候補である。 炭素クラスターは4h-sicの熱酸化後に発生する放出源として作用し、また照射中に炭素原子を放出する。 これらの蛍光性炭素クラスターは、すでに確立された空孔関連量子ビットに干渉する可能性がある。 本研究では, 密度汎関数理論計算を用いて, 4H-SiCで最大4つの炭素原子を含む炭素クラスターの電子構造, 生成エネルギー, 解離エネルギー, 振動特性, フル蛍光スペクトルを系統的に検討した。 これらの炭素クラスターの全ての局所的な構成は慎重に評価される。 炭素クラスターの電子的および振動的性質は4H-SiC格子の局所的な配置に強く依存している。 4H-SiCの炭素クラスターを4H-SiCの安定可視発光体として同定した。 一対の炭素間欠陥は、463nm三重項と456.6nmエミッタの源と同定される。 4H-SiCの471.8nmエミッタは三炭素系アンチサイトクラスターと関連している。 本研究は, 4H-SiCにおける可視光線の起源を解明し, 4H-SiCにおける量子情報処理の応用に役立つ炭素クラスターの構成を提案する。

Defect qubits in 4H-SiC are outstanding candidates for numerous applications in the rapidly emerging field of quantum technology. Carbon clusters can act as emission sources that may appear after thermal oxidation of 4H-SiC or during irradiation which kicks out carbon atoms from their sites. These fluorescent carbon clusters could interfere with the already established vacancy-related qubits that generated with irradiation techniques. In this study, we systematically investigate the electronic structure, formation energy, dissociation energy, vibrational properties, and the full fluorescence spectrum of carbon clusters involving up to four carbon atoms in 4H-SiC by means of density functional theory calculations. All the possible local configurations for these carbon clusters are carefully evaluated. We find the electronic and vibronic properties of the carbon clusters depend strongly on the local configuration of the 4H-SiC lattice. By comparing the calculated and previously observed fluorescence spectra in 4H-SiC, we identify several carbon clusters as stable visible emitters in 4H-SiC. The paired carbon interstitial defects are identified as the source of the 463-nm triplet and the 456.6-nm emitters. The 471.8-nm emitter in 4H-SiC is associated with tri-carbon antisite clusters. Our findings provide plausible explanation for the origin of visible emission lines in 4H-SiC and propose the possible configurations of carbon clusters which are helpful for the quantum information processing application through qubits in 4H-SiC.
翻訳日:2023-08-03 17:43:18 公開日:2023-08-01
# 緑の連合学習

Green Federated Learning ( http://arxiv.org/abs/2303.14604v2 )

ライセンス: Link先を確認
Ashkan Yousefpour, Shen Guo, Ashish Shenoy, Sayan Ghosh, Pierre Stock, Kiwan Maeng, Schalk-Willem Kr\"uger, Michael Rabbat, Carole-Jean Wu, Ilya Mironov(参考訳) AIの急速な進歩は、ますます大規模で計算集約的な機械学習モデルとデータセットによって支えられている。 その結果、最先端モデルのトレーニングに使用される計算量は指数関数的に増加し(2015年から2022年までの10ヶ月毎に倍増)、結果として炭素フットプリントが大きくなった。 Federated Learning (FL) - 分散エンティティのデータを使用して集中モデルをトレーニングするための協調機械学習技術である。 戦略的に配置されたデータセンターで再生可能エネルギーを確実に活用できる中央集権型AIとは異なり、クロスデバイスFLは、多様なエネルギー源を持つ数億のグローバル分散エンドユーザーデバイスを活用することができる。 グリーンAIは、精度、収束速度、その他の指標とともに、炭素フットプリントがAIの評価基準と見なされる、新しくて重要な研究領域である。 本稿では, FLパラメータの最適化と, 競争性能とトレーニング時間に整合した二酸化炭素排出量を最小化するための設計選択を含むグリーンFLの概念を提案する。 この作品の貢献は2つある。 まず,何百万台もの携帯電話上で動作している実世界のFLタスクを直接測定することで,FLの二酸化炭素排出量を定量化するためのデータ駆動型アプローチを採用する。 第2に,生産型FLシステムにおけるエネルギー効率,性能,時間-トレーニングのトレードオフに関する研究から学んだ課題,ガイドライン,教訓を提示する。 我々の発見は、FLがカーボンフットプリントを減らす方法に関する貴重な洞察を与え、Green AIの領域における将来の研究の基盤を提供する。

The rapid progress of AI is fueled by increasingly large and computationally intensive machine learning models and datasets. As a consequence, the amount of compute used in training state-of-the-art models is exponentially increasing (doubling every 10 months between 2015 and 2022), resulting in a large carbon footprint. Federated Learning (FL) - a collaborative machine learning technique for training a centralized model using data of decentralized entities - can also be resource-intensive and have a significant carbon footprint, particularly when deployed at scale. Unlike centralized AI that can reliably tap into renewables at strategically placed data centers, cross-device FL may leverage as many as hundreds of millions of globally distributed end-user devices with diverse energy sources. Green AI is a novel and important research area where carbon footprint is regarded as an evaluation criterion for AI, alongside accuracy, convergence speed, and other metrics. In this paper, we propose the concept of Green FL, which involves optimizing FL parameters and making design choices to minimize carbon emissions consistent with competitive performance and training time. The contributions of this work are two-fold. First, we adopt a data-driven approach to quantify the carbon emissions of FL by directly measuring real-world at-scale FL tasks running on millions of phones. Second, we present challenges, guidelines, and lessons learned from studying the trade-off between energy efficiency, performance, and time-to-train in a production FL system. Our findings offer valuable insights into how FL can reduce its carbon footprint, and they provide a foundation for future research in the area of Green AI.
翻訳日:2023-08-03 17:41:58 公開日:2023-08-01
# 大規模視覚表現学習の効率化と評価

Efficient Large-Scale Visual Representation Learning And Evaluation ( http://arxiv.org/abs/2305.13399v5 )

ライセンス: Link先を確認
Eden Dolev, Alaa Awad, Denisa Roberts, Zahra Ebrahimzadeh, Marcin Mejran, Vaibhav Malpani, and Mahir Yavuz(参考訳) アイテムの視覚的表現を効果的に学習することは、大規模レコメンデーションにとって不可欠である。 本稿では、convolutional neural network(cnn)とvision transformer(vit)ファミリの両方で、事前トレーニングされた効率的なバックボーンアーキテクチャを比較します。 大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。 いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。 そこで本研究では,視覚類似のレコメンデーションシステムのための多言語音声から画像へのオフライン評価手法を提案する。 最後に、大規模eコマースプラットフォーム上にデプロイされた機械学習システムのオンライン結果を含める。

Efficiently learning visual representations of items is vital for large-scale recommendations. In this article we compare several pretrained efficient backbone architectures, both in the convolutional neural network (CNN) and in the vision transformer (ViT) family. We describe challenges in e-commerce vision applications at scale and highlight methods to efficiently train, evaluate, and serve visual representations. We present ablation studies evaluating visual representations in several downstream tasks. To this end, we present a novel multilingual text-to-image generative offline evaluation method for visually similar recommendation systems. Finally, we include online results from deployed machine learning systems in production on a large scale e-commerce platform.
翻訳日:2023-08-03 17:35:12 公開日:2023-08-01
# 生成データ拡張によるPubMedQAの小型言語モデルの改善

Improving Small Language Models on PubMedQA via Generative Data Augmentation ( http://arxiv.org/abs/2305.07804v4 )

ライセンス: Link先を確認
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu(参考訳) 大規模言語モデル(LLM)は自然言語処理の分野で顕著な進歩を遂げている。 しかし、その増大は計算コストの面での課題を生じさせる。 一方、Small Language Models (SLM) はその効率性で知られているが、特に特定の領域において、限られた能力と訓練データに悩まされることが多い。 本稿では, 医療領域におけるSLMの改善を目的とした, LLMを用いた生成データ拡張手法を提案する。 このアプローチの目的は、特殊用途に特化されたより効率的で有能なモデルを開発することである。 PubMedQAデータセット上で行った実験を通じて、既存の質問応答ペアの精製および多様化におけるLLMの有効性を実証する。 この改良プロセスにより、微調整後のかなり小さなモデルの性能が向上する。 特に、私たちの最高のSLMは、160億以下のパラメータを持つが、PubMedQAデータセットでは、数ショットのGPT-4よりも優れています。 私たちのコードと生成されたデータは、さらなる探索を容易にするために公開されています。

Large Language Models (LLMs) have made remarkable advancements in the field of natural language processing. However, their increasing size poses challenges in terms of computational cost. On the other hand, Small Language Models (SLMs) are known for their efficiency, but they often struggle with limited capacity and training data, especially in specific domains. In this paper, we introduce a novel method aimed at improving SLMs in the medical domain using LLM-based generative data augmentation. The objective of our approach is to develop more efficient and capable models that are specifically tailored for specialized applications. Through experiments conducted on the PubMedQA dataset, we demonstrate the effectiveness of LLMs in refining and diversifying existing question-answer pairs. This refinement process leads to improved performance in a significantly smaller model after fine-tuning. Notably, our best SLM, with under 1.6 billion parameters, outperforms the few-shot GPT-4 on the PubMedQA dataset. Our code and generated data are publicly available to facilitate further explorations.
翻訳日:2023-08-03 17:34:17 公開日:2023-08-01
# domaintudio:限定データを用いたドメイン駆動画像生成のための微調整拡散モデル

DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data ( http://arxiv.org/abs/2306.14153v2 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) denoising diffusion probabilistic models (ddpms) は、大量のデータでトレーニングされた場合、非常に多様な高品質な画像を合成できることが証明されている。 典型的拡散モデルとテキスト・ツー・イメージ生成モデルのような現代の大規模条件生成モデルは、極端に限られたデータに微調整された場合、過度な適合に弱い。 既存の研究は、いくつかの画像を含む参照セットを用いて主題駆動生成を調査してきた。 しかし、DDPMベースのドメイン駆動生成は、多様性を維持しながらターゲットドメインの共通の特徴を学習することを目的としている。 本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。 ソースドメインが提供する対象の多様性を維持し、ターゲットドメインで高品質で多様な適応サンプルを取得するように設計されている。 本稿では,適応試料間の相対的距離を保ち,相当な世代多様性を達成することを提案する。 さらに,高頻度ディテールの学習をさらに強化し,高次品質を実現する。 我々のアプローチは無条件拡散モデルと条件拡散モデルの両方と互換性がある。 この研究は、拡散モデルを用いて無条件の少数ショット画像生成を実現し、現在最先端のGANベースのアプローチよりも優れた品質と多様性を実現する最初の試みである。 さらに、条件付き生成の過剰適合を著しく軽減し、高品質なドメイン駆動生成を実現し、現代の大規模テキスト・画像モデルに適用可能なシナリオをさらに拡大する。

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.
翻訳日:2023-08-03 17:23:47 公開日:2023-08-01
# マヨナおよびディラックフェルミオンのブラウンSYKモデルのフレームポテンシャル

Frame potential of Brownian SYK model of Majorana and Dirac fermions ( http://arxiv.org/abs/2306.11160v2 )

ライセンス: Link先を確認
Anastasiia Tiutiakina, Andrea De Luca, Jacopo De Nardis(参考訳) ブラウンSYK、すなわち、$N$Majorana (Dirac) フェルミオンの系は、ホワイトノイズ$q$ボディ相互作用項を持つと考える。 我々は、モデルの2つの独立した実現間の重なりのモーメントによって与えられる、スクランブルとカオスの尺度であるフレームポテンシャルのダイナミクスに焦点を当てる。 ケルディシュ経路積分形式(英語版)を用いて、その初期および後期値を計算する。 遅延時間経路積分サドル点が、$q>2$の場合、ハールフレームポテンシャルの値に飽和を正しく再現することを示す。 反対に、$q=2$ に対して、このモデルは二次的であり、一貫してガウス状態の制限空間(ガウスハール)におけるハール値の飽和を観測する。 後者は、ケルディシュ・サドル点のゴールドストーンモードをカウントすることで正確に捕捉するシステムサイズ補正によって特徴づけられる。

We consider the Brownian SYK, i.e. a system of $N$ Majorana (Dirac) fermions with a white-noise $q$-body interaction term. We focus on the dynamics of the Frame potentials, a measure of the scrambling and chaos, given by the moments of the overlap between two independent realisations of the model. By means of a Keldysh path-integral formalism, we compute its early and late-time value. We show that, for $q>2$, the late time path integral saddle point correctly reproduces the saturation to the value of the Haar frame potential. On the contrary, for $q=2$, the model is quadratic and consistently we observe saturation to the Haar value in the restricted space of Gaussian states (Gaussian Haar). The latter is characterised by larger system size corrections that we correctly capture by counting the Goldstone modes of the Keldysh saddle point.
翻訳日:2023-08-03 17:23:25 公開日:2023-08-01
# トポロジカル・アディバティック・パスによる位相的エッジ状態伝達

Topological edge state transfer via topological adiabatic passage ( http://arxiv.org/abs/2305.14529v3 )

ライセンス: Link先を確認
Chong Wang, Xiu Gu, Shu Chen and Yu-xi Liu(参考訳) 量子状態移動の研究は、量子シミュレータを利用した様々な研究に繋がった。 クビット周波数とクビット-クビット結合のチューニング性を利用して、超伝導クビット鎖は様々なトポロジカルバンドモデルをシミュレートすることができる。 本研究では、結合強度と量子周波数を変調することにより、トポロジカルクビット鎖に沿ってスピンアップ状態が輸送可能であることを示す。 この過程において、クビット鎖のヒルベルト空間は2つの辺状態の部分空間に制限できることを示し、一方ハミルトニアンは2状態ランダウ・ツェナー(LZ)モデルへと退化する。 さらに、このトポロジカルクビット鎖における状態伝達過程は、LZモデルのトポロジカル断面積と等価であることを示す。 この分析により、単一量子フォック状態から2量子ベル状態への状態伝達アプローチを一般化する。

The study of quantum state transfer has led to a variety of research efforts utilizing quantum simulators. By exploiting the tunability of the qubit frequency and qubit-qubit coupling, a superconducting qubit chain can simulate various topological band models. In our study, we demonstrate that a spin-up state can be transported along a topological qubit chain by modulating the coupling strengths and the qubit frequencies. We show that the Hilbert space of the qubit chain can be restricted to the subspace of two edge states in this process, while the Hamiltonian degenerates into a two-state Landau-Zener (LZ) model. Furthermore, we prove that the state transfer process in this topological qubit chain is equivalent to the topological adiabatic passage of the LZ model. With this analysis, we generalize the state transfer approach from single-qubit Fock states to two-qubit Bell states.
翻訳日:2023-08-03 17:21:14 公開日:2023-08-01
# 因果解離選択と局所量子現実性の関係

Correlating Local Quantum Reality with Causally Disconnected Choices ( http://arxiv.org/abs/2307.09589v2 )

ライセンス: Link先を確認
Diego S. S. Chrysosthemos, Jonas Maziero and Renato M. Angelo(参考訳) 1935年、アインシュタイン、ポドルスキー、ローゼンは、局所的な作用が遠方の場所における現実の要素に影響を与えないことを仮定して、量子力学の不完全性を主張した。 この手紙において、アリスの局所量子演算はボブの因果的に切り離された研究室で観測可能な量子現実と関連付けられることを示した。 我々は,現在の技術を用いて,レトロディクションを必要とせず,理論的な予測を検証できる改良型光量子消去器実験を提案する。 このような実験をibm量子コンピュータを用いてシミュレートする。

In 1935, Einstein, Podolsky, and Rosen claimed the incompleteness of quantum mechanics by assuming that local actions cannot influence the elements of reality in a distant location. In this Letter, we show that Alice's local quantum operations can be correlated with the quantum reality of observables in the causally disconnected laboratory of Bob. We propose a modified optical quantum eraser experiment that can be implemented using current technology for verifying our theoretical predictions, without any need for retrodiction. We simulate such an experiment using IBM quantum computers.
翻訳日:2023-08-03 17:14:42 公開日:2023-08-01
# 開量子系における幾何量子速度限界の実験的研究

Experimental investigation of geometric quantum speed limits in an open quantum system ( http://arxiv.org/abs/2307.06558v2 )

ライセンス: Link先を確認
Diego Paiva Pires, Eduardo R. deAzevedo, Diogo O. Soares-Pinto, Frederico Brito and Jefferson G. Filgueiras(参考訳) 核磁気共鳴実験において, クロロホルム分子のアンサンブルにおいて, 量子ビットの量子速度限界(QSL)について検討した。 QSLは、一般的な物理過程を経る量子系の進化時間の基本的下限である。 そこで, 準磁性塩を添加することにより, 系-保存相互作用とスピン緩和速度を制御し, 量子ビットに対するマルコフ系と非マルコフ系の両方の開系ダイナミクスを観測した。 量子フィッシャー情報 (qfi) と wigner-yanase strain information (wy) の2つの量子状態の識別可能性尺度を用いて, 量子フィッシャー情報 (qfi) の速度評価を行った。 非マルコフ力学と低塩濃度については,QFIおよびWY測定値に関連するQSL間の交叉を観測した。 WY計量は、高濃度とマルコフ力学に対してより厳密なQSLを設定する。 また、QSLはスピン磁化の小さな変動にも敏感であることを示す。

We studied geometric quantum speed limits (QSL) of a qubit subject to decoherence in an ensemble of chloroform molecules in a Nuclear Magnetic Resonance experiment. The QSL is a fundamental lower bound on the evolution time for quantum systems undergoing general physical processes. To do so, we controlled the system-reservoir interaction and the spin relaxation rates by adding a paramagnetic salt, which allowed us to observe both Markovian and non-Markovian open system dynamics for the qubit. We used two distinguishability measures of quantum states to assess the speed of the qubit evolution: the quantum Fisher information (QFI) and Wigner-Yanase skew information (WY). For non-Markovian dynamics and low salt concentrations, we observed crossovers between QSLs related to the QFI and WY metrics. The WY metric sets the tighter QSL for high concentrations and Markovian dynamics. We also show that QSLs are sensitive even to small fluctuations in spin magnetization.
翻訳日:2023-08-03 17:14:34 公開日:2023-08-01
# 文法進化を用いた意味的類似集合の自動設計

Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution ( http://arxiv.org/abs/2307.00925v2 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 意味的類似度尺度は、自然言語処理において様々なコンピュータ関連タスクを触媒するために広く用いられている。 しかしながら、すべてのタスクに最も適している意味的類似性尺度は存在せず、研究者はしばしばパフォーマンスを確保するためにアンサンブル戦略を用いる。 本研究では,意味的類似性アンサンブルの自動設計手法を提案する。 実際,本提案手法は,人的判断の相関を最大化するアンサンブルを生成するために,まず,候補のプールから測度を自動的に選択・集約するために文法的進化を利用する。 この手法はいくつかのベンチマークデータセットで評価され、最先端のアンサンブルと比較され、類似性評価の精度を大幅に向上し、場合によっては既存手法よりも優れていることを示す。 そこで本研究では,文法的進化を用いてテキストを自動比較し,意味的類似性タスクにアンサンブルを用いることの利点を証明する。 私たちのアプローチを示すソースコードは、https://github.com/jorge-martinez-gil/sesigeからダウンロードできます。

Semantic similarity measures are widely used in natural language processing to catalyze various computer-related tasks. However, no single semantic similarity measure is the most appropriate for all tasks, and researchers often use ensemble strategies to ensure performance. This research work proposes a method for automatically designing semantic similarity ensembles. In fact, our proposed method uses grammatical evolution, for the first time, to automatically select and aggregate measures from a pool of candidates to create an ensemble that maximizes correlation to human judgment. The method is evaluated on several benchmark datasets and compared to state-of-the-art ensembles, showing that it can significantly improve similarity assessment accuracy and outperform existing methods in some cases. As a result, our research demonstrates the potential of using grammatical evolution to automatically compare text and prove the benefits of using ensembles for semantic similarity tasks. The source code that illustrates our approach can be downloaded from https://github.com/jorge-martinez-gil/sesige.
翻訳日:2023-08-03 17:12:49 公開日:2023-08-01
# 成功への簡単なステップ:距離ベースアルゴリズムの公理学

Simple Steps to Success: Axiomatics of Distance-Based Algorithmic Recourse ( http://arxiv.org/abs/2306.15557v2 )

ライセンス: Link先を確認
Jenny Hamer, Jake Valladares, Vignesh Viswanathan, Yair Zick(参考訳) 本稿では,予測結果の変更にユーザによる介入を提供する,新しいデータ駆動型手法を提案する。 例えば、基礎となる因果グラフへの介入やコスト関数の最小化などである。 しかし、これらの基準を満たすためには、基礎となるモデル構造に関する広範な知識が必要である。 本稿では,データ駆動型,計算効率のよいアルゴリズム手法を提案する。 私たちは、ユーザが予測結果を変更することができるデータ多様体の方向を提案することでそうします。 方向に基づくアルゴリズムの帰納法を計算するための公理的正当化フレームワークである stepwise explanationable paths (step) を提案する。 StEPの徹底的な実証と理論的研究を提供する。 StEPは、証明可能なプライバシとロバスト性保証を提供し、確立されたいくつかのデシダータの最先端を上回ります。

We propose a novel data-driven framework for algorithmic recourse that offers users interventions to change their predicted outcome. Existing approaches to compute recourse find a set of points that satisfy some desiderata -- e.g. an intervention in the underlying causal graph, or minimizing a cost function. Satisfying these criteria, however, requires extensive knowledge of the underlying model structure, often an unrealistic amount of information in several domains. We propose a data-driven, computationally efficient approach to computing algorithmic recourse. We do so by suggesting directions in the data manifold that users can take to change their predicted outcome. We present Stepwise Explainable Paths (StEP), an axiomatically justified framework to compute direction-based algorithmic recourse. We offer a thorough empirical and theoretical investigation of StEP. StEP offers provable privacy and robustness guarantees, and outperforms the state-of-the-art on several established recourse desiderata.
翻訳日:2023-08-03 17:12:07 公開日:2023-08-01
# スピンの空間波動関数

Spatial Wavefunctions of Spin ( http://arxiv.org/abs/2307.13591v2 )

ライセンス: Link先を確認
T. Peter Rakitzis(参考訳) 量子力学的角運動量の等価な定式化は、オイラー角$\phi$,$\theta$,$\chi$に依存する空間波動関数に基づく。 波動関数はwigner d-函数、$d_{n m}^j (\phi,\theta,\chi)$であり、体固定射影量子数 $n$ は $(j+1/2)$ である。 状態 $d_{(s+1/2)~ m}^s (\phi,\theta,\chi)$ すべての$s>0$に対して、ジャイロ磁性比が$g=2$となる。

We present an equivalent formulation of quantum mechanical angular momentum, based on spatial wavefunctions that depend on the Euler angles $\phi$,$\theta$,$\chi$. The wavefunctions are unusual Wigner D-functions, $D_{n m}^j (\phi,\theta,\chi)$, for which the body-fixed projection quantum number $n$ has the value $(j+1/2)$. The states $D_{(S+1/2)~ m}^S (\phi,\theta,\chi)$ give a gyromagnetic ratio of $g=2$ for all $S>0$, and we identify these as the spatial wavefunctions of known fundamental charged particles with spin.
翻訳日:2023-08-03 17:03:33 公開日:2023-08-01
# 固定ステップサイズによるadamアルゴリズムの発散:(非常に)簡単な例

Divergence of the ADAM algorithm with fixed-stepsize: a (very) simple example ( http://arxiv.org/abs/2308.00720v1 )

ライセンス: Link先を確認
Ph. L. Toint(参考訳) リプシッツ連続勾配を持つ非常に単純な一次元関数は、定段化のADAMアルゴリズムが原点から始まり、勾配に雑音がない場合にこの関数を最小化するときに発散するように構成される。 発散はメソッドパラメータの選択に関係なく発生する。

A very simple unidimensional function with Lipschitz continuous gradient is constructed such that the ADAM algorithm with constant stepsize, started from the origin, diverges when applied to minimize this function in the absence of noise on the gradient. Divergence occurs irrespective of the choice of the method parameters.
翻訳日:2023-08-03 15:09:56 公開日:2023-08-01
# 機械学習アルゴリズムを用いたビーム検出

Beam Detection Based on Machine Learning Algorithms ( http://arxiv.org/abs/2308.00718v1 )

ライセンス: Link先を確認
Haoyuan Li and Qing Yin(参考訳) スクリーン上の自由電子レーザービームの位置は、機械学習モデルのシーケンスによって決定される。 転送トレーニングは、VGG16モデルに基づく自己構築畳み込みニューラルネットワークで行われる。 中間層の出力は、サポートベクトル回帰モデルに特徴として渡される。 このシーケンスでは、テストデータで85.8%の正確な予測が達成される。

The positions of free electron laser beams on screens are precisely determined by a sequence of machine learning models. Transfer training is conducted in a self-constructed convolutional neural network based on VGG16 model. Output of intermediate layers are passed as features to a support vector regression model. With this sequence, 85.8% correct prediction is achieved on test data.
翻訳日:2023-08-03 15:09:49 公開日:2023-08-01
# グラフパラメータによるポーリ弦の結合数値範囲の限定化

Bounding the joint numerical range of Pauli strings by graph parameters ( http://arxiv.org/abs/2308.00753v1 )

ライセンス: Link先を確認
Zhen-Peng Xu, Ren\'e Schwonnek, and Andreas Winter(参考訳) 量子状態空間と特定の測定セットとの相互作用は、共同で達成可能な期待値のセットを調べることで効果的に捉えることができる。 この集合は一般に(凸)ジョイント数値範囲と呼ばれる。 本研究では、パウリ可観測物のテンソル積(パウリ弦)で表される測定のためのこの構成の幾何学的性質について検討する。 パウリの弦の集合における対交換と反可換関係の構造はグラフ$G$(フラストレーショングラフとも呼ばれる)を決定する。 本稿では,このグラフのパラメータと,関節の数値範囲を包含する最小楕円体の構造との関係について検討する。 このような外近似は、楕円体は高次元でも解析的に扱うことができるので、非常に実用的である。 我々は[c]から推測の反例を見つける。 de gois, k. hansenne and o. g\"uhne, arxiv:2207.02197], and answer a open question in [m. b. hastings and r. o'donnell, proc. stoc 2022, pp. 776-789], これは我々が\beta(g)$と呼ぶ新しいグラフパラメータを意味する。 さらに、他の分野におけるグラフ理論的なアプローチとの比較、量子情報理論への応用、数値的手法、新しいグラフパラメータの性質など、様々な方向にこのアプローチを展開する。 私たちのアプローチは、最後に簡潔に議論する多くのオープンな質問を提案します。

The interplay between the quantum state space and a specific set of measurements can be effectively captured by examining the set of jointly attainable expectation values. This set is commonly referred to as the (convex) joint numerical range. In this work, we explore geometric properties of this construct for measurements represented by tensor products of Pauli observables, also known as Pauli strings. The structure of pairwise commutation and anticommutation relations among a set of Pauli strings determines a graph $G$, sometimes also called the frustration graph. We investigate the connection between the parameters of this graph and the structure of minimal ellipsoids encompassing the joint numerical range. Such an outer approximation can be very practical since ellipsoids can be handled analytically even in high dimensions. We find counterexamples to a conjecture from [C. de Gois, K. Hansenne and O. G\"uhne, arXiv:2207.02197], and answer an open question in [M. B. Hastings and R. O'Donnell, Proc. STOC 2022, pp. 776-789], which implies a new graph parameter that we call $\beta(G)$. Besides, we develop this approach in different directions, such as comparison with graph-theoretic approaches in other fields, applications in quantum information theory, numerical methods, properties of the new graph parameter, etc. Our approach suggests many open questions that we discuss briefly at the end.
翻訳日:2023-08-03 15:02:21 公開日:2023-08-01
# 超伝導量子ビットのマルチ時間量子プロセストモグラフィ

Multi-time quantum process tomography of a superconducting qubit ( http://arxiv.org/abs/2308.00750v1 )

ライセンス: Link先を確認
Christina Giarmatzi, Tyler Jones, Alexei Gilchrist, Prasanna Pakkiam, Arkady Fedorov and Fabio Costa(参考訳) 非マルコフノイズは、現在の量子ハードウェアにおいてユビキタスであり、特徴付けるのが非常に難しい、量子デバイスのスケーラビリティに重大な課題をもたらす。 この課題は、過去の取り組みで実証されたタスクであるマルチタイムプロセスの完全な再構築の必要性から生じる。 本研究では,超伝導量子ビット上でのマルチ時間量子プロセスの完全なトモグラフィー特性のマイルストーンを実験的に動機づけた後処理技術を用いて逐次測定・前処理により実現し,内部およびクラウドベースの超伝導量子プロセッサの両方を活用する。 プロセス行列形式を用いて,非マルコフ雑音の複雑な景観を明らかにし,雑音の成分が量子源に由来することを示す。 我々の発見と技術は、エラー軽減戦略の進展と量子デバイスのスケーラビリティ向上に重要な意味を持つ。

Non-Markovian noise poses a formidable challenge to the scalability of quantum devices, being both ubiquitous in current quantum hardware and notoriously difficult to characterise. This challenge arises from the need for a full reconstruction of a multi-time process, a task that has proven elusive in previous efforts. In this work, we achieve the milestone of complete tomographic characterisation of a multi-time quantum process on a superconducting qubit by employing sequential measure-and-prepare operations with an experimentally motivated post-processing technique, utilising both in-house and cloud-based superconducting quantum processors. Employing the process matrix formalism, we reveal intricate landscapes of non-Markovian noise and provide evidence that components of the noise originate from quantum sources. Our findings and techniques have significant implications for advancing error-mitigation strategies and enhancing the scalability of quantum devices.
翻訳日:2023-08-03 15:01:25 公開日:2023-08-01
# ホログラフィック散乱によるbraneworld/cutoff holographyの因果性の検討

Exploring causality in braneworld/cutoff holography via holographic scattering ( http://arxiv.org/abs/2308.00739v1 )

ライセンス: Link先を確認
Takato Mori, Beni Yoshida(参考訳) ブレーンやカットオフ面を持つホログラフィーは、漸近的に反ド・ジッター時空を超える量子重力を研究するための有望なアプローチを示す。 しかし、この一般化されたホログラフィは、因果性の潜在的な違反や基本的なエントロピーの不等式を含むいくつかの矛盾に直面することが知られている。 本研究では,バルク散乱過程とそのホログラム化を解明し,これらの課題に対処する。 具体的には、ブレーン/カットオフ面の情報は、q$の点に由来する従来のものよりも、q$の背後にある架空の漸近的な境界に由来する誘導光円錐に従って伝播する。 さらに、誘導光円錐を用いた一般化ホログラフィーに対する連結ウェッジ定理の有効性を確立する。 また, 誘導因果ダイアモンド内ではエントロピー不等式が有効であることを実証した。 誘導光円錐は一見スーパールミナルシグナリングを許容するように見えるが、この因果的違反は、Q$の局所演算子励起ではなく、放射的に励起を伝播させる状態準備の成果であると主張する。

Holography with branes and/or cutoff surfaces presents a promising approach to studying quantum gravity beyond asymptotically anti-de Sitter spacetimes. However, this generalized holography is known to face several inconsistencies, including potential violations of causality and fundamental entropic inequalities. In this work, we address these challenges by investigating the bulk scattering process and its holographic realization. Specifically, we propose that the information on a brane/cutoff surface $Q$ propagates according to the induced light cones originating from a fictitious asymptotic boundary behind $Q$, rather than the conventional ones originating from a point on $Q$. Additionally, we establish the validity of the connected wedge theorem for generalized holography with induced light cones. We also demonstrate that entropic inequalities remain valid within the induced causal diamonds. While the induced light cone seemingly permits superluminal signaling, we argue that this causality violation can be an artifact of state preparation for radially propagating excitations, rather than local operator excitations on $Q$.
翻訳日:2023-08-03 15:00:53 公開日:2023-08-01
# ポロキャット生態系における統合とコミュニケーション性に関する知識指向アプローチ

A Knowledge-Oriented Approach to Enhance Integration and Communicability in the Polkadot Ecosystem ( http://arxiv.org/abs/2308.00735v1 )

ライセンス: Link先を確認
Marcio Ferreira Moreno and Rafael Rossi de Mello Brand\~ao(参考訳) polkadotのエコシステムは破壊的で非常に複雑なマルチチェーンアーキテクチャであり、データ分析と通信性の面で課題を提起する。 現在、パラチェーンやアプリケーションにまたがるデータの検索と分析に標準化された総合的なアプローチが欠如しているため、一般ユーザや開発者がエコシステムデータに一貫してアクセスすることが難しくなっている。 本稿では,これらの課題に対処するために,ポント(polkadot ontology)と呼ばれるドメインオントロジーを含む概念的枠組みを提案する。 POntoはエコシステムの概念と関係を構造化した表現を提供し、プラットフォームを正式に理解することを可能にする。 提案された知識指向アプローチは、統合性と通信性を高め、より広い範囲のユーザがエコシステムに参加し、aiベースのアプリケーションの開発を促進する。 本稿は,Polkadotコミュニティからの専門家のフィードバックと洞察を含む,提案するフレームワークを検証するためのケーススタディ手法を提案する。 ポントオントロジーとオントロジーを使った制御された自然言語に基づくクエリエンジンのロードマップは、異種社会技術的環境におけるpolkadotエコシステムの成長と採用への貴重な貢献を提供する。

The Polkadot ecosystem is a disruptive and highly complex multi-chain architecture that poses challenges in terms of data analysis and communicability. Currently, there is a lack of standardized and holistic approaches to retrieve and analyze data across parachains and applications, making it difficult for general users and developers to access ecosystem data consistently. This paper proposes a conceptual framework that includes a domain ontology called POnto (a Polkadot Ontology) to address these challenges. POnto provides a structured representation of the ecosystem's concepts and relationships, enabling a formal understanding of the platform. The proposed knowledge-oriented approach enhances integration and communicability, enabling a wider range of users to participate in the ecosystem and facilitating the development of AI-based applications. The paper presents a case study methodology to validate the proposed framework, which includes expert feedback and insights from the Polkadot community. The POnto ontology and the roadmap for a query engine based on a Controlled Natural Language using the ontology, provide valuable contributions to the growth and adoption of the Polkadot ecosystem in heterogeneous socio-technical environments.
翻訳日:2023-08-03 15:00:31 公開日:2023-08-01
# コンピュータサイエンス研究のマッピング:トレンド、影響、予測

Mapping Computer Science Research: Trends, Influences, and Predictions ( http://arxiv.org/abs/2308.00733v1 )

ライセンス: Link先を確認
Mohammed Almutairi and Ozioma Collins Oguine(参考訳) 本稿では,コンピュータ科学(cs)分野における最近のトレンド研究領域を考察し,その出現に寄与する要因について考察する。 論文,引用,資金調達情報からなる包括的データセットを活用し,意思決定木やロジスティック回帰モデルなどの高度な機械学習技術を用いて,トレンド研究領域の予測を行う。 分析の結果,研究論文に引用される参照数(参照数)は,参照数をcs分野で最も関連性の高い要因とするトレンド研究分野を決定する上で重要な役割を担っていることが明らかとなった。 さらに、NSFの助成金や特許がトレンドトピックに与える影響は、時間とともに増加している。 ロジスティック回帰モデルは、傾向を予測するために決定木モデルより優れ、高い精度、精度、リコール、F1スコアを示す。 ランダムな推定基準を超えることによって、我々のデータ駆動型アプローチは、トレンド研究領域を特定するための精度と有効性を示す。 結果は、トレンド研究分野に対する貴重な洞察を提供し、研究者や機関に意思決定と今後の研究方向性のためのデータ駆動基盤を提供する。

This paper explores the current trending research areas in the field of Computer Science (CS) and investigates the factors contributing to their emergence. Leveraging a comprehensive dataset comprising papers, citations, and funding information, we employ advanced machine learning techniques, including Decision Tree and Logistic Regression models, to predict trending research areas. Our analysis reveals that the number of references cited in research papers (Reference Count) plays a pivotal role in determining trending research areas making reference counts the most relevant factor that drives trend in the CS field. Additionally, the influence of NSF grants and patents on trending topics has increased over time. The Logistic Regression model outperforms the Decision Tree model in predicting trends, exhibiting higher accuracy, precision, recall, and F1 score. By surpassing a random guess baseline, our data-driven approach demonstrates higher accuracy and efficacy in identifying trending research areas. The results offer valuable insights into the trending research areas, providing researchers and institutions with a data-driven foundation for decision-making and future research direction.
翻訳日:2023-08-03 15:00:09 公開日:2023-08-01
# Ada-DQA:ビデオ品質評価のための適応的横品質認識機能獲得

Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video Quality Assessment ( http://arxiv.org/abs/2308.00729v1 )

ライセンス: Link先を確認
Hongbo Liu, Mingda Wu, Kun Yuan, Ming Sun, Yansong Tang, Chuanchuan Zheng, Xing Wen, Xiu Li(参考訳) 近年,ビデオ品質評価(VQA)が注目されている。 大規模なVQAデータセットのアノテートには多大な費用がかかるが、現在のディープラーニング手法の主な障害となっている。 本稿では,不十分なトレーニングデータの制約を克服するために,まず,映像配信の多様性(\ieコンテンツ,歪み,動き)の完全範囲を検討し,品質表現の恩恵を受けるために,多種多様な事前学習モデル(\egアーキテクチャ,プリテキストタスク,プリトレーニングデータセット)を採用する。 Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、これらの凍結事前学習モデルによって生成される望ましい品質関連特徴を捉えるために提案される。 QAM(Quality-Aware Acquisition Module)を利用することで、フレームワークは品質を表現するためにより不可欠で関連する機能を抽出することができる。 最後に、学習された品質表現を、ラベル付き品質スコアの監督とともに補助的な監視情報として利用し、知識蒸留方式で比較的軽量なVQAモデルのトレーニングを指導し、推論時の計算コストを大幅に削減する。 3つの主流ノン参照VQAベンチマークの実験結果から,VQAの余分なトレーニングデータを用いることなく,現在の最先端アプローチと比較して,Ada-DQAの優れた性能を示した。

Video quality assessment (VQA) has attracted growing attention in recent years. While the great expense of annotating large-scale VQA datasets has become the main obstacle for current deep-learning methods. To surmount the constraint of insufficient training data, in this paper, we first consider the complete range of video distribution diversity (\ie content, distortion, motion) and employ diverse pretrained models (\eg architecture, pretext task, pre-training dataset) to benefit quality representation. An Adaptive Diverse Quality-aware feature Acquisition (Ada-DQA) framework is proposed to capture desired quality-related features generated by these frozen pretrained models. By leveraging the Quality-aware Acquisition Module (QAM), the framework is able to extract more essential and relevant features to represent quality. Finally, the learned quality representation is utilized as supplementary supervisory information, along with the supervision of the labeled quality score, to guide the training of a relatively lightweight VQA model in a knowledge distillation manner, which largely reduces the computational cost during inference. Experimental results on three mainstream no-reference VQA benchmarks clearly show the superior performance of Ada-DQA in comparison with current state-of-the-art approaches without using extra training data of VQA.
翻訳日:2023-08-03 14:59:50 公開日:2023-08-01
# ELFNet: ステレオマッチングのためのEvidential Local-global Fusion

ELFNet: Evidential Local-global Fusion for Stereo Matching ( http://arxiv.org/abs/2308.00728v1 )

ライセンス: Link先を確認
Jieming Lou, Weide Liu, Zhuo Chen, Fayao Liu, and Jun Cheng(参考訳) 既存のステレオマッチングモデルは継続的に改善されているが、不確実性推定の欠如による信頼性の問題に直面することが多い。 さらに、ステレオペアのマルチスケールとマルチビューの知識を効果的に活用する試みは未定である。 本稿では,不確実性推定と信頼度認識の融合を両立させるステレオマッチングのための \textbf{e}vidential \textbf{l}ocal-global \textbf{f}usion (elf) フレームワークを提案する。 本モデルでは, 偏差マップのみを推定する代わりに, 腹腔内およびてんかんの両不確かさを考慮し, 明らか性に基づく偏差を推定する。 通常の逆ガンマ分布をブリッジとして,多層予測の顕在的融合と,コスト-ボリュームベースおよびトランスフォーマーベースステレオマッチングの顕在的融合を実現する。 広範な実験結果から,提案フレームワークはマルチビュー情報を効果的に活用し,精度とクロスドメイン一般化の両方において最先端の総合的性能を実現することが示された。 コードはhttps://github.com/jimmy 19991222/ELFNetで公開されている。

Although existing stereo matching models have achieved continuous improvement, they often face issues related to trustworthiness due to the absence of uncertainty estimation. Additionally, effectively leveraging multi-scale and multi-view knowledge of stereo pairs remains unexplored. In this paper, we introduce the \textbf{E}vidential \textbf{L}ocal-global \textbf{F}usion (ELF) framework for stereo matching, which endows both uncertainty estimation and confidence-aware fusion with trustworthy heads. Instead of predicting the disparity map alone, our model estimates an evidential-based disparity considering both aleatoric and epistemic uncertainties. With the normal inverse-Gamma distribution as a bridge, the proposed framework realizes intra evidential fusion of multi-level predictions and inter evidential fusion between cost-volume-based and transformer-based stereo matching. Extensive experimental results show that the proposed framework exploits multi-view information effectively and achieves state-of-the-art overall performance both on accuracy and cross-domain generalization. The codes are available at https://github.com/jimmy19991222/ELFNet.
翻訳日:2023-08-03 14:59:26 公開日:2023-08-01
# クロスドメインFew-shot分類のための適応的セマンティック一貫性

Adaptive Semantic Consistency for Cross-domain Few-shot Classification ( http://arxiv.org/abs/2308.00727v1 )

ライセンス: Link先を確認
Hengchu Lu, Yuanjie Shao, Xiang Wang, Changxin Gao(参考訳) クロスドメイン・ショット分類(CD-FSC)は、ソースドメインとターゲットドメインの間にドメインシフトが存在すると仮定して、いくつかのサンプルで新しいターゲットクラスを特定することを目的としている。 既存の最先端のプラクティスは、典型的にはソースドメインで事前トレーニングし、少数のターゲットデータで微調整してタスク適応表現を生成する。 有望な進歩にもかかわらず、これらの手法はデータ不足から限られたターゲット分布を過度に満たし、ソースドメインで学習した転送可能な知識を無視しやすい。 この問題を軽減するために,ファインタニング段階におけるソース転送機能を維持することでドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応意味一貫性(ASC)フレームワークを提案する。 具体的には,事前学習段階のソースコードを再利用し,対象領域に類似したサンプルを強調表示するための適応重み付け戦略を設計し,情報源領域からの情報的ターゲット関連知識を集約することを目的とする。 その後、ソースモデルによって出力されるソース画像の意味的特徴とターゲットモデルとの一貫性を制約するために、セマンティック一貫性の規則化を適用する。 このようにして、提案したASCは、ソースドメイン知識の明示的な転送を可能にし、モデルがターゲットドメインに過度に適合しないようにする。 複数のベンチマークに関する大規模な実験は、提案されたASCの有効性を示し、ASCはベースラインに対して一貫した改善を提供する。 ソースコードはリリースされます。

Cross-domain few-shot classification (CD-FSC) aims to identify novel target classes with a few samples, assuming that there exists a domain shift between source and target domains. Existing state-of-the-art practices typically pre-train on source domain and then finetune on the few-shot target data to yield task-adaptive representations. Despite promising progress, these methods are prone to overfitting the limited target distribution since data-scarcity and ignore the transferable knowledge learned in the source domain. To alleviate this problem, we propose a simple plug-and-play Adaptive Semantic Consistency (ASC) framework, which improves cross-domain robustness by preserving source transfer capability during the finetuning stage. Concretely, we reuse the source images in the pretraining phase and design an adaptive weight assignment strategy to highlight the samples similar to target domain, aiming to aggregate informative target-related knowledge from source domain. Subsequently, a semantic consistency regularization is applied to constrain the consistency between the semantic features of the source images output by the source model and target model. In this way, the proposed ASC enables explicit transfer of source domain knowledge to prevent the model from overfitting the target domain. Extensive experiments on multiple benchmarks demonstrate the effectiveness of the proposed ASC, and ASC provides consistent improvements over the baselines. The source code will be released.
翻訳日:2023-08-03 14:59:06 公開日:2023-08-01
# 潜在シフト:エントロピーの勾配は神経コーデックに役立つ

Latent-Shift: Gradient of Entropy Helps Neural Codecs ( http://arxiv.org/abs/2308.00725v1 )

ライセンス: Link先を確認
Muhammet Balcilar, Bharath Bhushan Damodaran, Karam Naser, Franck Galpin and Pierre Hellier(参考訳) エンドツーエンドのイメージ/ビデオコーデックは、何十年にもわたって手作業で開発された従来の圧縮技術と比較して、競争力を増している。 これらのトレーニング可能なコーデックは、知覚歪みメトリクスへの適応や学習能力のおかげで特定のドメインでのハイパフォーマンスなど、従来のテクニックよりも多くの利点がある。 しかし、デコード装置におけるエントロピーの勾配の存在は、最先端のニューラルコーデックの状態を生かしていない。 本稿では,エントロピーの勾配(デコーダ側で使用可能)が再構成誤差の勾配(デコーダ側では使用できない)と相関していることを理論的に示す。 そして, この勾配を様々な圧縮法で使用できることを実験的に示し, 同じ品質で1-2\%のレート節約が可能となることを示した。 この手法は他の改善と直交し、独立した利率の節約をもたらす。

End-to-end image/video codecs are getting competitive compared to traditional compression techniques that have been developed through decades of manual engineering efforts. These trainable codecs have many advantages over traditional techniques such as easy adaptation on perceptual distortion metrics and high performance on specific domains thanks to their learning ability. However, state of the art neural codecs does not take advantage of the existence of gradient of entropy in decoding device. In this paper, we theoretically show that gradient of entropy (available at decoder side) is correlated with the gradient of the reconstruction error (which is not available at decoder side). We then demonstrate experimentally that this gradient can be used on various compression methods, leading to a $1-2\%$ rate savings for the same quality. Our method is orthogonal to other improvements and brings independent rate savings.
翻訳日:2023-08-03 14:58:39 公開日:2023-08-01
# 散逸量子系における弱測定の関連性について

On the relevance of weak measurements in dissipative quantum systems ( http://arxiv.org/abs/2308.00722v1 )

ライセンス: Link先を確認
Lorena Ballesteros Ferraz, John Martin and Yves Caudano(参考訳) 消散が弱い測定値に与える影響について検討する。 弱い測定は信号増幅に成功しているが、消散はそれらの有用性を損なう可能性がある。 より正確には、非退化固有状態を持つ系では、弱値は常に測定可観測時間の期待値に収束するが、非退化固有状態の系では弱値が異常なままであり、すなわち無限散逸時間の限界であっても可観測の固有値の範囲外である。 また,短い散逸時間における弱値を用いたシステムの散逸ダイナミクスに関する情報を抽出する手法を提案する。 具体的には、2レベルシステムにおける散逸率の増幅とマルコフ的および非マルコフ的散逸ダイナミクスを区別するための弱値の利用について検討する。 また、弱い原子空洞結合のまわりで動く弱い測定は、弱い相互作用の回転波近似の中で非エルミート作用素の弱い値を通して原子散逸を探索することができる。

We investigate the impact of dissipation on weak measurements. While weak measurements have been successful in signal amplification, dissipation can compromise their usefulness. More precisely, we show that in systems with non-degenerate eigenstates, weak values always converge to the expectation value of the measured observable as dissipation time tends to infinity, in contrast to systems with degenerate eigenstates, where the weak values can remain anomalous, i.e., outside the range of eigenvalues of the observable, even in the limit of an infinite dissipation time. In addition, we propose a method for extracting information about the dissipative dynamics of a system using weak values at short dissipation times. Specifically, we explore the amplification of the dissipation rate in a two-level system and the use of weak values to differentiate between Markovian and non-Markovian dissipative dynamics. We also find that weak measurements operating around a weak atom-cavity coupling can probe the atom dissipation through the weak value of non-Hermitian operators within the rotating-wave approximation of the weak interaction.
翻訳日:2023-08-03 14:58:26 公開日:2023-08-01
# Hybrid-SORT: オンラインマルチオブジェクト追跡における弱点

Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking ( http://arxiv.org/abs/2308.00783v1 )

ライセンス: Link先を確認
Mingzhan Yang, Guangxin Han, Bin Yan, Wenhua Zhang, Jinqing Qi, Huchuan Lu, Dong Wang(参考訳) Multi-Object Tracking (MOT) は、フレーム間で全ての望ましいオブジェクトを検出し、関連付けることを目的としている。 ほとんどの方法は、強力なインスタンスレベルの識別を示す強い手がかり(空間的および外見的情報)を明示的または暗黙的に活用することで、タスクを達成する。 しかし、オブジェクトの閉塞やクラスタリングが発生すると、オブジェクト間の重なりが高いため、空間情報と外観情報が同時に曖昧になる。 本稿では,このMOTの長期的課題を,弱いキューを組み込むことで効果的かつ効果的に解決できることを実証する。 速度方向とともに, 潜在的弱手がかりとして信頼性状態と高さ状態を導入する。 優れた性能を保ちながら,本手法はシンプル,オンライン,リアルタイム(SORT)特性を保ち続けている。 さらに, 多様なトラッカーやシナリオに対して, プラグアンドプレイ, トレーニングフリーな手法で強力な一般化を示す。 提案手法を5種類の代表トラッカーに適用した場合, 重要かつ一貫した改善が見られた。 さらに,強い手法と弱い手法の両方を活用することで,MOT17,MOT20,特にDanceTrackなどの多種多様なベンチマークにおいて,対話やオクルージョンが頻繁かつ深刻であるような優れた性能を実現する。 コードとモデルはhttps://github.com/ymzis69/hybirdsortで入手できる。

Multi-Object Tracking (MOT) aims to detect and associate all desired objects across frames. Most methods accomplish the task by explicitly or implicitly leveraging strong cues (i.e., spatial and appearance information), which exhibit powerful instance-level discrimination. However, when object occlusion and clustering occur, both spatial and appearance information will become ambiguous simultaneously due to the high overlap between objects. In this paper, we demonstrate that this long-standing challenge in MOT can be efficiently and effectively resolved by incorporating weak cues to compensate for strong cues. Along with velocity direction, we introduce the confidence state and height state as potential weak cues. With superior performance, our method still maintains Simple, Online and Real-Time (SORT) characteristics. Furthermore, our method shows strong generalization for diverse trackers and scenarios in a plug-and-play and training-free manner. Significant and consistent improvements are observed when applying our method to 5 different representative trackers. Further, by leveraging both strong and weak cues, our method Hybrid-SORT achieves superior performance on diverse benchmarks, including MOT17, MOT20, and especially DanceTrack where interaction and occlusion are frequent and severe. The code and models are available at https://github.com/ymzis69/HybirdSORT.
翻訳日:2023-08-03 14:50:34 公開日:2023-08-01
# 非エルミート系における近視原理の欠如

Lack of near-sightedness principle in non-Hermitian systems ( http://arxiv.org/abs/2308.00776v1 )

ライセンス: Link先を確認
Helene Spring, Viktor K\"onye, Anton R. Akhmerov, Ion Cosma Fulga(参考訳) 非エルミート皮膚効果(non-hermitian skin effect)は、系の境界に多くの状態が蓄積する現象である。 非自明なトポロジーと関連しており、非零バルク不変量はその出現と実空間における位置を予測する。 ここでは、非エルミート皮膚効果は一般にトポロジカル現象ではなく、翻訳対称性が単一の非エルミート不純物によって破られるとき、境界で皮膚モードが枯渇し、バルク不変量を変えることなく不純物部位に蓄積される。 これは完全なエルミートバルクでも起こりうる。

The non-Hermitian skin effect is a phenomenon in which an extensive number of states accumulates at the boundaries of a system. It has been associated to nontrivial topology, with nonzero bulk invariants predicting its appearance and its position in real space. Here we demonstrate that the non-Hermitian skin effect is not a topological phenomenon in general: when translation symmetry is broken by a single non-Hermitian impurity, skin modes are depleted at the boundary and accumulate at the impurity site, without changing any bulk invariant. This may occur even for a fully Hermitian bulk.
翻訳日:2023-08-03 14:50:14 公開日:2023-08-01
# 人間の顔に対する高忠実眼アニマタブル神経放射場

High-Fidelity Eye Animatable Neural Radiance Fields for Human Face ( http://arxiv.org/abs/2308.00773v1 )

ライセンス: Link先を確認
Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang(参考訳) neural radiance fields (nerf) はコンピュータビジョンの分野で急速に発展している研究分野である。 近年の手法は主にアイデンティティや表現などの顔属性の制御に重点を置いているが、様々な下流タスクにおいて重要である眼球回転をモデル化する重要な側面を見落としていることが多い。 本稿では,多視点画像から眼球運動に敏感な顔NeRFモデルを学習することを目的とする。 我々は、眼球回転を効果的に捉える方法と、眼球回転を表す多様体を構築する方法の2つの課題に対処する。 そこで我々はまず,マルチビューの整合性を考慮した多視点画像に,よく確立されたパラメトリック顔モデルFLAMEを適合させる。 その後、新しいダイナミックアイ対応NeRF(DeNeRF)を導入する。 DeNeRFは3Dポイントを異なる視点から標準空間に変換し、統一された顔NeRFモデルを学ぶ。 我々は、剛性変換、例えば、眼球回転、非剛性変換を含む変形のための眼変形場を設計する。 eth-xgazeデータセットを用いた実験により,新しい視野角でも正確な眼球回転と非剛性眼球変形を伴う高忠実度画像を生成することができることを実証した。 さらに、レンダリング画像を利用することで、視線推定性能を効果的に向上できることを示す。

Face rendering using neural radiance fields (NeRF) is a rapidly developing research area in computer vision. While recent methods primarily focus on controlling facial attributes such as identity and expression, they often overlook the crucial aspect of modeling eyeball rotation, which holds importance for various downstream tasks. In this paper, we aim to learn a face NeRF model that is sensitive to eye movements from multi-view images. We address two key challenges in eye-aware face NeRF learning: how to effectively capture eyeball rotation for training and how to construct a manifold for representing eyeball rotation. To accomplish this, we first fit FLAME, a well-established parametric face model, to the multi-view images considering multi-view consistency. Subsequently, we introduce a new Dynamic Eye-aware NeRF (DeNeRF). DeNeRF transforms 3D points from different views into a canonical space to learn a unified face NeRF model. We design an eye deformation field for the transformation, including rigid transformation, e.g., eyeball rotation, and non-rigid transformation. Through experiments conducted on the ETH-XGaze dataset, we demonstrate that our model is capable of generating high-fidelity images with accurate eyeball rotation and non-rigid periocular deformation, even under novel viewing angles. Furthermore, we show that utilizing the rendered images can effectively enhance gaze estimation performance.
翻訳日:2023-08-03 14:50:02 公開日:2023-08-01
# dymond:動的モチーフノードネットワーク生成モデル

DYMOND: DYnamic MOtif-NoDes Network Generative Model ( http://arxiv.org/abs/2308.00770v1 )

ライセンス: Link先を確認
Giselle Zeno, Timothy La Fond, Jennifer Neville(参考訳) モチーフはネットワーク構造のビルディングブロックとして確立され、ペアのコネクションを超えて、コネクションとアクティビティの長距離相関を捉える。 それにもかかわらず、高次ネットワーク構造を考える生成グラフモデルはほとんど存在せず、動的グラフのモデルでモチーフを使うことに重点を置いたものも少なくない。 既存の時間グラフ生成モデルは、エッジの追加によってネットワークを厳密に成長させ、モデルは静的グラフ構造メトリクス(ネットワークの時間的挙動を適切に捉えていない)を用いて評価される。 これらの課題に対処するため、本稿では、DYnamic MOtif-NoDes(DYMOND)を提案する。 (i)時間的モチーフ活動と全体的なグラフ構造の動的変化 (ii)ノードの役割はモチーフで果たす(例えば、1つのノードはくさびの中でハブの役割を演じ、残りの2つはスポークとして振る舞う)。 ダイモンドを実世界ネットワーク上の3つの動的グラフ生成モデルベースラインと比較し,観察したネットワークと同様のグラフ構造とノードの振る舞いを生成するのに優れた性能を示す。 また,ネットワークの時間的側面をよりよく評価するために,グラフ構造メトリクスを適用する新しい手法を提案する。 これらのメトリクスは、時間とともにグラフ構造全体と個々のノードの振る舞いの変化を考慮に入れます。

Motifs, which have been established as building blocks for network structure, move beyond pair-wise connections to capture longer-range correlations in connections and activity. In spite of this, there are few generative graph models that consider higher-order network structures and even fewer that focus on using motifs in models of dynamic graphs. Most existing generative models for temporal graphs strictly grow the networks via edge addition, and the models are evaluated using static graph structure metrics -- which do not adequately capture the temporal behavior of the network. To address these issues, in this work we propose DYnamic MOtif-NoDes (DYMOND) -- a generative model that considers (i) the dynamic changes in overall graph structure using temporal motif activity and (ii) the roles nodes play in motifs (e.g., one node plays the hub role in a wedge, while the remaining two act as spokes). We compare DYMOND to three dynamic graph generative model baselines on real-world networks and show that DYMOND performs better at generating graph structure and node behavior similar to the observed network. We also propose a new methodology to adapt graph structure metrics to better evaluate the temporal aspect of the network. These metrics take into account the changes in overall graph structure and the individual nodes' behavior over time.
翻訳日:2023-08-03 14:49:39 公開日:2023-08-01
# 軟膜を用いたミリケルビン温度の中間膜光学

Membrane-in-the-middle optomechanics with a soft-clamped membrane at milliKelvin temperatures ( http://arxiv.org/abs/2308.00767v1 )

ライセンス: Link先を確認
Eric Planz, Xiang Xi, Thibault Capelle, Eric C. Langman, and Albert Schliesser(参考訳) 軟クランプ窒化ケイ素膜共振器はミリケルビン浴温度で100ミリ秒以上でコヒーレンス時間タウに達する。 しかし, 乾式希釈冷凍機では, 振動問題や光吸収による加熱が原因で, 強いオプトメカニカルカップリングが困難である。 本稿では,簡単な振動分離プラットフォーム上にキャビティを装着したアクチュエータフリーな光共振器と機械的共振器の設計を提案する。 空洞を2ビームロック方式で赤色側バンド近傍に安定化した自由空間光ビームで駆動する際の動的バックアクションを観察する。 最後に, 吸収加熱がコヒーレンス時間に与える影響を特徴付けるとともに, キャビティパワーPを -(0.34+/-0.04) に比例したタウスケールを求める。

Soft-clamped silicon nitride membrane resonators reach coherence times tau in excess of 100 ms at milliKelvin bath temperatures. However, harnessing strong optomechanical coupling in dry dilution refrigerators remains challenging due to vibration issues and heating by optical absorption. Here, we propose to address these issues with an actuator-free optical cavity and mechanical resonator design, in which the cavity is mounted on a simple vibration-isolation platform. We observe dynamical backaction when the cavity is driven with a free-space optical beam stabilized close to the red sideband using a two-beam locking scheme. Finally, we characterize the effect of absorption heating on the coherence time, and find a scaling with the intracavity power P as tau proportional to P to the power of -(0.34+/-0.04).
翻訳日:2023-08-03 14:49:14 公開日:2023-08-01
# 核融合によるレビュー項目検索のための自己監督コントラストBERTファインタニング

Self-Supervised Contrastive BERT Fine-tuning for Fusion-based Reviewed-Item Retrieval ( http://arxiv.org/abs/2308.00762v1 )

ライセンス: Link先を確認
Mohammad Mahdi Abdollah Pour, Parsa Farinneya, Armin Toroghi, Anton Korikov, Ali Pesaranghader, Touqir Sajed, Manasa Bharadwaj, Borislav Mavrin, and Scott Sanner(参考訳) 自然言語インタフェースによって、ユーザーはますます複雑な自然言語クエリを表現できるようになるため、レストラン、本、映画などの、表現力のあるクエリにマッチするアイテムをよりよく見つけることができるように、ユーザーレビューコンテンツが急増している。 Neural Information Retrieval (IR)メソッドは、クエリをドキュメントにマッチさせるための最先端の結果を提供しているが、クエリレビュースコアをアイテムレベルのスコアに集約(あるいは融合)する必要があるRIR(Reviewed-Item Retrieval)タスクには拡張されていない。 ラベル付きRIRデータセットがない場合には、クエリとレビューの両方にBERT埋め込みを対比学習するための自己教師付き手法を活用することで、Neural IRの方法論をRIRに拡張する。 特に、対照的な学習には正と負のサンプルを選択する必要があり、項目レビューデータのユニークな2レベル構造とメタデータを組み合わせることで、これらのサンプルを選択するための豊富な構造が得られます。 後期融合シナリオにおける対比学習のために,同一項目からの肯定的なレビューサンプルと/または同一のレーティング,同じアンカー項目から最も類似しないレビューを選択することでハードポジティブなサンプルの選択,異なる項目から最も類似したレビューを選択することでハードネガティブなサンプルの選択について検討する。 アンカーサブサンプリングやメタデータの拡張についても検討しています。 よりエンドツーエンドの早期融合アプローチでは、レビューを単一の項目埋め込みに融合するために、対照的な項目埋め込み学習を導入する。 実験の結果,ニューラルrirにおけるレイトフュージョンコントラスト学習は,他のすべてのコントラストir構成,ニューラルir,スパース検索ベースラインよりも優れており,ニューラルrirアプローチにおいて2段階構造を利用する能力と,レイトフュージョン法による個々のレビューコンテンツのニュアンス保持の重要性が示された。

As natural language interfaces enable users to express increasingly complex natural language queries, there is a parallel explosion of user review content that can allow users to better find items such as restaurants, books, or movies that match these expressive queries. While Neural Information Retrieval (IR) methods have provided state-of-the-art results for matching queries to documents, they have not been extended to the task of Reviewed-Item Retrieval (RIR), where query-review scores must be aggregated (or fused) into item-level scores for ranking. In the absence of labeled RIR datasets, we extend Neural IR methodology to RIR by leveraging self-supervised methods for contrastive learning of BERT embeddings for both queries and reviews. Specifically, contrastive learning requires a choice of positive and negative samples, where the unique two-level structure of our item-review data combined with meta-data affords us a rich structure for the selection of these samples. For contrastive learning in a Late Fusion scenario, we investigate the use of positive review samples from the same item and/or with the same rating, selection of hard positive samples by choosing the least similar reviews from the same anchor item, and selection of hard negative samples by choosing the most similar reviews from different items. We also explore anchor sub-sampling and augmenting with meta-data. For a more end-to-end Early Fusion approach, we introduce contrastive item embedding learning to fuse reviews into single item embeddings. Experimental results show that Late Fusion contrastive learning for Neural RIR outperforms all other contrastive IR configurations, Neural IR, and sparse retrieval baselines, thus demonstrating the power of exploiting the two-level structure in Neural RIR approaches as well as the importance of preserving the nuance of individual review content via Late Fusion methods.
翻訳日:2023-08-03 14:48:56 公開日:2023-08-01
# 電場を用いた北エフの量子スピン液体のトポロジカル量子相転移の制御

Manipulating Topological Quantum Phase Transitions of Kitaev's Quantum Spin Liquids with Electric Fields ( http://arxiv.org/abs/2308.00760v1 )

ライセンス: Link先を確認
Pureum Noh, Kyusung Hwang, Eun-Gook Moon(参考訳) キタエフ量子スピン液体のマヨルダナフェルミオンのような非常に絡み合った励起が将来の量子科学と技術に利用されることが提案されており、これらの励起のより深い理解が求められている。 ここでは、マヨラナフェルミオンの質量と関連する量子相転移が、電荷エネルギーギャップによる弱い電場の下で絶縁体が不活性であるという一般的な信念とは対照的に、電場を用いて操作されることを実証する。 摂動と厳密な対角化を伴う一般対称性解析を用いて、電場と磁場の普遍位相図を明らかにする。 また、特に$\alpha$-rucl3 などの候補物質に関連して、キタエフ量子スピン液体と電場を識別するための特徴的な実験的なシグネチャを提供する。

Highly entangled excitations such as Majorana fermions of Kitaev quantum spin liquids have been proposed to be utilized for future quantum science and technology, and a deeper understanding of such excitations has been strongly desired. Here we demonstrate that Majorana fermion's mass and associated topological quantum phase transitions in the Kitaev quantum spin liquids may be manipulated by using electric fields in sharp contrast to the common belief that an insulator is inert under weak electric fields due to charge energy gaps. Using general symmetry analysis with perturbation and exact diagonalization, we uncover the universal phase diagrams with electric and magnetic fields. We also provide distinctive experimental signatures to identify Kitaev quantum spin liquids with electric fields, especially in connection with the candidate materials such as $\alpha$-RuCl3.
翻訳日:2023-08-03 14:48:19 公開日:2023-08-01
# 統合画像復元のための分解型相乗学習

Decomposition Ascribed Synergistic Learning for Unified Image Restoration ( http://arxiv.org/abs/2308.00759v1 )

ライセンス: Link先を確認
Jinghao Zhang, Jie Huang, Man Zhou, Chongyi Li, Feng Zhao(参考訳) 単一のモデル内で複数の画像劣化を復元する学習は、現実世界のアプリケーションにとって非常に有益である。 しかしながら、既存の研究は通常、個々の分解に独立して集中するが、それらの関係は相乗的学習を保証するためにあまり利用されていない。 この目的のために,分解された特異ベクトルと特異値が,自然に異なる分解情報のタイプを受け取り,様々な復元タスクを2つのグループ,\ie,特異ベクトル支配,特異値支配に分割する観察を行い,特異値分解のレンズを通して多様な分解を再考する。 上記の分析は、以前のタスクレベルの独立した学習と比較して、さまざまな劣化を補うための、より統一的な視点を示している。 劣化した特異ベクトルと特異値の専用最適化は、様々な復元タスク間の潜在的な関係を本質的に利用しており、これはDASL(Decomposition Ascribed Synergistic Learning)に起因する。 具体的には、daslはsveo(single vector operator)とsvao(single value operator)の2つの有効演算子から構成されており、既存の畳み込み画像復元バックボーンに軽量に統合できる分解最適化を好む。 さらに, 連続的な分解損失を補助として考案した。 ブレンドした5つの画像復元タスクに関する広範囲な実験により,画像のデハジング,画像デハジング,画像デノイジング,画像デブラリング,低光度画像エンハンスメントなどの手法の有効性が示された。

Learning to restore multiple image degradations within a single model is quite beneficial for real-world applications. Nevertheless, existing works typically concentrate on regarding each degradation independently, while their relationship has been less exploited to ensure the synergistic learning. To this end, we revisit the diverse degradations through the lens of singular value decomposition, with the observation that the decomposed singular vectors and singular values naturally undertake the different types of degradation information, dividing various restoration tasks into two groups,\ie, singular vector dominated and singular value dominated. The above analysis renders a more unified perspective to ascribe the diverse degradations, compared to previous task-level independent learning. The dedicated optimization of degraded singular vectors and singular values inherently utilizes the potential relationship among diverse restoration tasks, attributing to the Decomposition Ascribed Synergistic Learning (DASL). Specifically, DASL comprises two effective operators, namely, Singular VEctor Operator (SVEO) and Singular VAlue Operator (SVAO), to favor the decomposed optimization, which can be lightly integrated into existing convolutional image restoration backbone. Moreover, the congruous decomposition loss has been devised for auxiliary. Extensive experiments on blended five image restoration tasks demonstrate the effectiveness of our method, including image deraining, image dehazing, image denoising, image deblurring, and low-light image enhancement.
翻訳日:2023-08-03 14:48:01 公開日:2023-08-01
# テキスト・画像生成におけるバイアス増幅パラドックス

The Bias Amplification Paradox in Text-to-Image Generation ( http://arxiv.org/abs/2308.00755v1 )

ライセンス: Link先を確認
Preethi Seshadri, Sameer Singh, Yanai Elazar(参考訳) バイアス増幅は、トレーニングデータに存在する不均衡をモデルが増加させる現象である。 本稿では,トレーニングにおける男女比と生成画像との相関により,テキスト・画像領域のバイアス増幅を安定拡散を用いて検討する。 このモデルは、トレーニングデータ(laion)に見られるジェンダー占有バイアスを増幅するように見える。 しかし, 増幅は, 学習キャプションとモデルプロンプトの相違に起因すると考えられる。 例えば、トレーニングデータからのキャプションは、私たちが使っているプロンプトが使用していない間に、明示的な性別情報を含むことが多いため、分散シフトが発生し、バイアス測定に影響を及ぼす。 トレーニングと生成に使用するテキスト間の様々な分散的差異を考慮すれば,増幅が大幅に減少することがわかる。 以上の結果から,モデルにおけるバイアスとトレーニング対象データを比較する上での課題を明らかにし,バイアス増幅に寄与する要因を明らかにする。

Bias amplification is a phenomenon in which models increase imbalances present in the training data. In this paper, we study bias amplification in the text-to-image domain using Stable Diffusion by comparing gender ratios in training vs. generated images. We find that the model appears to amplify gender-occupation biases found in the training data (LAION). However, we discover that amplification can largely be attributed to discrepancies between training captions and model prompts. For example, an inherent difference is that captions from the training data often contain explicit gender information while the prompts we use do not, which leads to a distribution shift and consequently impacts bias measures. Once we account for various distributional differences between texts used for training and generation, we observe that amplification decreases considerably. Our findings illustrate the challenges of comparing biases in models and the data they are trained on, and highlight confounding factors that contribute to bias amplification.
翻訳日:2023-08-03 14:47:31 公開日:2023-08-01
# 舗装距離同定におけるDeep Learning Approachs: A review

Deep Learning Approaches in Pavement Distress Identification: A Review ( http://arxiv.org/abs/2308.00828v1 )

ライセンス: Link先を確認
Sizhe Guan, Haolan Liu, Hamid R. Pourreza, and Hamidreza Mahyar(参考訳) 本稿では,現代の舗装管理システムにおける重要な側面である舗装災害検出・分類のための画像処理と深層学習技術の進歩を概観する。 人間の専門家が行う従来の手動検査プロセスは、自動化ソリューションによって徐々に置き換えられ、機械学習とディープラーニングアルゴリズムを活用して、効率と正確性を高める。 これらのアルゴリズムがパターンを識別し、広範囲なデータセットに基づいて予測する能力は、舗装災害識別の領域に革命をもたらした。 本稿では,無人航空機(UAV)のデータ収集への統合について検討し,航空的視点や広域の効率的なカバレッジといったユニークな利点を提供する。 高解像度画像をキャプチャすることで、UAVは深層学習アルゴリズムを用いて処理できる貴重なデータを提供し、様々な舗装の苦痛を効果的に検出し分類する。 主な焦点は2次元画像処理であるが,センサの限界や計算要求といった3次元画像にまつわる課題も認識している。 これらの課題を理解することは、この分野のさらなる進歩に不可欠である。 本研究の成果は, 舗装災害検出の進展に大きく寄与し, 効率的な舗装管理システムの開発に寄与する。 自動化アプローチが成熟を続けるにつれて、深層学習技術の実装は、社会の利益のためにより安全で耐久性の高い道路インフラを確保するための大きな約束となる。

This paper presents a comprehensive review of recent advancements in image processing and deep learning techniques for pavement distress detection and classification, a critical aspect in modern pavement management systems. The conventional manual inspection process conducted by human experts is gradually being superseded by automated solutions, leveraging machine learning and deep learning algorithms to enhance efficiency and accuracy. The ability of these algorithms to discern patterns and make predictions based on extensive datasets has revolutionized the domain of pavement distress identification. The paper investigates the integration of unmanned aerial vehicles (UAVs) for data collection, offering unique advantages such as aerial perspectives and efficient coverage of large areas. By capturing high-resolution images, UAVs provide valuable data that can be processed using deep learning algorithms to detect and classify various pavement distresses effectively. While the primary focus is on 2D image processing, the paper also acknowledges the challenges associated with 3D images, such as sensor limitations and computational requirements. Understanding these challenges is crucial for further advancements in the field. The findings of this review significantly contribute to the evolution of pavement distress detection, fostering the development of efficient pavement management systems. As automated approaches continue to mature, the implementation of deep learning techniques holds great promise in ensuring safer and more durable road infrastructure for the benefit of society.
翻訳日:2023-08-03 14:42:16 公開日:2023-08-01
# 有限分類モデルのためのエクササイズカーネル等価性

An Exact Kernel Equivalence for Finite Classification Models ( http://arxiv.org/abs/2308.00824v1 )

ライセンス: Link先を確認
Brian Bell, Michael Geyer, Juston Moore, David Glickenstein, Amanda Fernandez(参考訳) ニューラルネットワークとカーネル手法の同値性について検討し、勾配勾配をカーネルマシンとして訓練した有限サイズパラメトリック分類モデルの最初の正確な表現を導出する。 我々は、よく知られたニューラルタンジェントカーネル(NTK)と正確な表現を比較し、NTKや他の非コンパクトパスカーネルの定式化に対する近似誤差について議論する。 計算機の精度まで,実ネットワーク上でカーネルを計算できることを実験的に実証する。 私たちはこの正確なカーネルを使って、ニューラルネットワークによる予測、特にそれらの一般化方法に関する有益な洞察を提供することができることを示しています。

We explore the equivalence between neural networks and kernel methods by deriving the first exact representation of any finite-size parametric classification model trained with gradient descent as a kernel machine. We compare our exact representation to the well-known Neural Tangent Kernel (NTK) and discuss approximation error relative to the NTK and other non-exact path kernel formulations. We experimentally demonstrate that the kernel can be computed for realistic networks up to machine precision. We use this exact kernel to show that our theoretical contribution can provide useful insights into the predictions made by neural networks, particularly the way in which they generalize.
翻訳日:2023-08-03 14:41:53 公開日:2023-08-01
# コミュニティ間のコミュニケーションブリッジの設計:質問応答型AIエージェントの参加設計

Designing a Communication Bridge between Communities: Participatory Design for a Question-Answering AI Agent ( http://arxiv.org/abs/2308.00813v1 )

ライセンス: Link先を確認
Jeonghyun Lee, Vrinda Nandan, Harshvardhan Sikka, Spencer Rugaber, Ashok Gole(参考訳) 異なるメンタルモデルと語彙を持つ2つのユーザコミュニティ間のコミュニケーションブリッジとして機能するAIシステムを、どのように設計するか? Skillsync(スキルシンク)は、雇用主(企業)と訓練提供者(従業員)が持続的な対話を行い、雇用者や従業員のニーズを満たすトレーニング提案の達成を支援するインタラクティブな環境である。 我々は,Skillsyncの動作を説明する質問応答エージェントであるAskJillの開発に必要な要件を抽出するために,参加型設計のバリエーションを使用して,企業ユーザと大学ユーザのコミュニケーションブリッジとして機能した。 本研究は,AskJill開発におけるユーザ質問の収集と抽出に,参加型設計が有用であることを示す。 以上の結果から,2つのSkillsyncユーザコミュニティは,AskJillが提供すべき重要な機能として,用語支援を意識していることが示唆された。

How do we design an AI system that is intended to act as a communication bridge between two user communities with different mental models and vocabularies? Skillsync is an interactive environment that engages employers (companies) and training providers (colleges) in a sustained dialogue to help them achieve the goal of building a training proposal that successfully meets the needs of the employers and employees. We used a variation of participatory design to elicit requirements for developing AskJill, a question-answering agent that explains how Skillsync works and thus acts as a communication bridge between company and college users. Our study finds that participatory design was useful in guiding the requirements gathering and eliciting user questions for the development of AskJill. Our results also suggest that the two Skillsync user communities perceived glossary assistance as a key feature that AskJill needs to offer, and they would benefit from such a shared vocabulary.
翻訳日:2023-08-03 14:41:19 公開日:2023-08-01
# 量子音響デバイスにおける横バルクフォノンモードの自由空間結合とキャラクタリゼーション

Free-space coupling and characterization of transverse bulk phonon modes in a quantum acoustic device ( http://arxiv.org/abs/2308.00807v1 )

ライセンス: Link先を確認
J.M. Kitzman, J.R. Lane, C. Undershute, M. Drimmer, A. S. Schleusner, N.R. Beysengulov, C.A. Mikolas, J. Pollanen(参考訳) 多モード集積量子音響デバイスにおける横バルクフォノンは、3次元(3D)マイクロ波空洞への自由空間結合によって励起され特徴付けられる。 これらのバルク音響モードは、大きな双極子アンテナを介してキャビティ電界に結合し、キャビティ線幅の順に相互作用強度を持つyカットニオブ酸リチウム基板の形状によって定義される。 有限要素モデリング (FEM) を用いて, キャビティ場によって励起されるバルクフォノンは, 既報値と一致するせん断速度で横偏光することを確認した。 これらの横方向の音響モードと3次元キャビティの電界との結合がデバイス双極子の相対方向に依存し、室温への結合が持続することを示す。 本研究は, 量子・古典的圧音響デバイスとの非接触結合を媒介する3次元マイクロ波キャビティの汎用性を示す。

Transverse bulk phonons in a multimode integrated quantum acoustic device are excited and characterized via their free-space coupling to a three-dimensional (3D) microwave cavity. These bulk acoustic modes are defined by the geometry of the Y-cut lithium niobate substrate in which they reside and couple to the cavity electric field via a large dipole antenna, with an interaction strength on the order of the cavity line-width. Using finite element modeling (FEM) we determine that the bulk phonons excited by the cavity field have a transverse polarization with a shear velocity matching previously reported values. We demonstrate how the coupling between these transverse acoustic modes and the electric field of the 3D cavity depends on the relative orientation of the device dipole, with a coupling persisting to room temperature. Our study demonstrates the versatility of 3D microwave cavities for mediating contact-less coupling to quantum, and classical, piezoacoustic devices.
翻訳日:2023-08-03 14:41:00 公開日:2023-08-01
# her2乳癌の非平衡組織病理像分類における不確かさの解消--single instance evaluation(sie)を用いた解釈可能なアンサンブルアプローチ

Addressing Uncertainty in Imbalanced Histopathology Image Classification of HER2 Breast Cancer: An interpretable Ensemble Approach with Threshold Filtered Single Instance Evaluation (SIE) ( http://arxiv.org/abs/2308.00806v1 )

ライセンス: Link先を確認
Md Sakib Hossain Shovon, M. F. Mridha, Khan Md Hasib, Sultan Alfarhood, Mejdl Safran, and Dunren Che(参考訳) 乳癌は女性にとって最も致命的な健康問題の一つである。 早期診断は、患者の効率的な治療決定を助けることによって死亡率を軽減できる。 ヒト上皮成長因子受容体(her2)はbcで最も致死的なサブタイプである。 The College of American Pathologists/American Society of Clinical Oncology (CAP/ASCO)によると、HER2の発現の重症度は0から3+の範囲に分類できる。 her2は免疫組織化学 (ihc) およびヘマトキシリン \&エオシン (he) の0, 1+, 2+, 3+などの異なる種類の画像から効果的に検出できる。 本研究では,HER2サブタイプの多分類式からBCの診断を行うために,しきい値フィルタによる単一インスタンス評価(SIE)手法を統合したアンサンブル手法を提案する。 当初、angrynet201とxceptionは、グローバル平均プーリング、ドロップアウト層、スウィッシュアクティベーション関数付き密層、l2正規化、バッチ正規化などの効果的な組み合わせにより、特徴抽出器として単一の分類器にまとめられていた。 その後、抽出された特徴を単一インスタンス評価(SIE)によって処理し、信頼度を判定し、不均衡なクラス間の決定境界を調整する。 この研究は、病理学者によってHER2 BCの4段階に分類されるBC免疫組織化学(BCI)データセットに基づいて行われた。 提案した手法はDenseNet201-Xception-SIEと呼ばれ、しきい値が0.7で、既存のすべての最先端モデルを97.12\%、精度は97.15\%、リコールは97.68\%、H&Eデータは97.56\%、精度は97.57\%、リコールは98.00\%、即興改善は98.00\%である。 最後に, grad-camとガイド型grad-camを用いて, tlモデルが病理組織学的データセットにどのように作用するかを解釈し, データから判断する。

Breast Cancer (BC) is among women's most lethal health concerns. Early diagnosis can alleviate the mortality rate by helping patients make efficient treatment decisions. Human Epidermal Growth Factor Receptor (HER2) has become one the most lethal subtype of BC. According to the College of American Pathologists/American Society of Clinical Oncology (CAP/ASCO), the severity level of HER2 expression can be classified between 0 and 3+ range. HER2 can be detected effectively from immunohistochemical (IHC) and, hematoxylin \& eosin (HE) images of different classes such as 0, 1+, 2+, and 3+. An ensemble approach integrated with threshold filtered single instance evaluation (SIE) technique has been proposed in this study to diagnose BC from the multi-categorical expression of HER2 subtypes. Initially, DenseNet201 and Xception have been ensembled into a single classifier as feature extractors with an effective combination of global average pooling, dropout layer, dense layer with a swish activation function, and l2 regularizer, batch normalization, etc. After that, extracted features has been processed through single instance evaluation (SIE) to determine different confidence levels and adjust decision boundary among the imbalanced classes. This study has been conducted on the BC immunohistochemical (BCI) dataset, which is classified by pathologists into four stages of HER2 BC. This proposed approach known as DenseNet201-Xception-SIE with a threshold value of 0.7 surpassed all other existing state-of-art models with an accuracy of 97.12\%, precision of 97.15\%, and recall of 97.68\% on H\&E data and, accuracy of 97.56\%, precision of 97.57\%, and recall of 98.00\% on IHC data respectively, maintaining momentous improvement. Finally, Grad-CAM and Guided Grad-CAM have been employed in this study to interpret, how TL-based model works on the histopathology dataset and make decisions from the data.
翻訳日:2023-08-03 14:40:42 公開日:2023-08-01
# GRDD:ギリシャ方言NLPのためのデータセット

GRDD: A Dataset for Greek Dialectal NLP ( http://arxiv.org/abs/2308.00802v1 )

ライセンス: Link先を確認
Stergios Chatzikyriakidis and Chatrine Qwaider and Ilias Kolokousis and Christina Koula and Dimitris Papadakis and Efthymia Sakellariou(参考訳) 本稿では,いくつかの現代ギリシア方言の計算研究のためのデータセットを提案する。 原文は、現代のギリシア語、クレタ語、ポントス語、北ギリシア語、キプロス語の4つの方言から得られる。 データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。 次に、データセットを使用して方言の idefntificationを実行します。 従来のMLアルゴリズムやシンプルなDLアーキテクチャを実験する。 この結果から,課題の方言には,単純なMLモデルでもタスク上でうまく機能できる十分な特徴がある可能性が示唆された。 上位実行アルゴリズムではエラー解析が行われ、多くの場合、エラーはデータセットのクリーニング不足によるものである。

In this paper, we present a dataset for the computational study of a number of Modern Greek dialects. It consists of raw text data from four dialects of Modern Greek, Cretan, Pontic, Northern Greek and Cypriot Greek. The dataset is of considerable size, albeit imbalanced, and presents the first attempt to create large scale dialectal resources of this type for Modern Greek dialects. We then use the dataset to perform dialect idefntification. We experiment with traditional ML algorithms, as well as simple DL architectures. The results show very good performance on the task, potentially revealing that the dialects in question have distinct enough characteristics allowing even simple ML models to perform well on the task. Error analysis is performed for the top performing algorithms showing that in a number of cases the errors are due to insufficient dataset cleaning.
翻訳日:2023-08-03 14:39:56 公開日:2023-08-01
# 単眼3次元人体再構成のための身体知識と不確実性モデリング

Body Knowledge and Uncertainty Modeling for Monocular 3D Human Body Reconstruction ( http://arxiv.org/abs/2308.00799v1 )

ライセンス: Link先を確認
Yufei Zhang, Hanjing Wang, Jeffrey O. Kephart, Qiang Ji(参考訳) 近年, 3次元身体再建法は目覚ましい進歩を遂げているが, 訓練に必要な十分な精度と多数の3次元監督の取得は困難である。 本稿では,ボディー・ボディー・ \textbf{KNOW}ledge と u\textbf{N}certainty modeling を効果的に活用し,不十分な3D監督を補うフレームワークである \textbf{KNOWN} を提案する。 KNOWNは、確立された身体知識から派生した総合的な身体制約の集合を利用する。 これらの一般的な制約は、復元の可否を正確に明確に特徴付け、3Dデータなしで3D再構成モデルを訓練できるようにする。 さらに、既存の手法ではトレーニング中に複数のデータセットの画像を使用するのが一般的であり、これはデータノイズ(\textit{e.g.}、一貫性のないジョイントアノテーション)とデータ不均衡(\textit{e.e.}、まれなポーズを表すマイノリティーなイメージ)をもたらす。 KNOWNはこれらの問題を、アレタリックおよびエピステマティック不確実性の両方をモデル化する新しい確率的枠組みによって解決する。 aleatoric uncertainty はロバストな負のlog-likelihood (nll) トレーニングロスにコード化され、epstemic uncertainty はモデルの洗練を導くために使用される。 実験により、KNOWNの身体再構成は、特に挑戦的な少数派の画像において、より弱く監督されたアプローチよりも優れていることが示された。

While 3D body reconstruction methods have made remarkable progress recently, it remains difficult to acquire the sufficiently accurate and numerous 3D supervisions required for training. In this paper, we propose \textbf{KNOWN}, a framework that effectively utilizes body \textbf{KNOW}ledge and u\textbf{N}certainty modeling to compensate for insufficient 3D supervisions. KNOWN exploits a comprehensive set of generic body constraints derived from well-established body knowledge. These generic constraints precisely and explicitly characterize the reconstruction plausibility and enable 3D reconstruction models to be trained without any 3D data. Moreover, existing methods typically use images from multiple datasets during training, which can result in data noise (\textit{e.g.}, inconsistent joint annotation) and data imbalance (\textit{e.g.}, minority images representing unusual poses or captured from challenging camera views). KNOWN solves these problems through a novel probabilistic framework that models both aleatoric and epistemic uncertainty. Aleatoric uncertainty is encoded in a robust Negative Log-Likelihood (NLL) training loss, while epistemic uncertainty is used to guide model refinement. Experiments demonstrate that KNOWN's body reconstruction outperforms prior weakly-supervised approaches, particularly on the challenging minority images.
翻訳日:2023-08-03 14:39:44 公開日:2023-08-01
# バイレベル最適化入門:信号処理と機械学習の基礎と応用

An Introduction to Bi-level Optimization: Foundations and Applications in Signal Processing and Machine Learning ( http://arxiv.org/abs/2308.00788v1 )

ライセンス: Link先を確認
Yihua Zhang, Prashant Khanduri, Ioannis Tsaknakis, Yuguang Yao, Mingyi Hong, Sijia Liu(参考訳) 近年,信号処理 (SP) と機械学習 (ML) の分野において,バイレベル最適化 (BLO) が注目されている。 大まかに言えば、BLOは古典的な最適化問題であり、2段階の階層構造(上層と下層)を伴い、上層問題の解を得るためには、下位層を解く必要がある。 BLOは主に、ネストされた目的関数の最適化を含むSPやMLのモデリング問題に強力なため人気がある。 BLOの代表的な応用は、無線システムのリソース割り当てから敵機械学習まで様々である。 本研究では,SP や ML アプリケーションによく現れるトラクタブルな BLO 問題に焦点をあてる。 本稿では,BLO問題の基本概念として,最適化条件,標準アルゴリズム(最適化原理や実践的実装を含む),およびいくつかの主要なSPおよびMLアプリケーションに対する最先端結果の取得方法について概説する。 さらに,BLO理論の最近の進歩,応用への含意,将来的な研究に必要な最先端技術の限界についても論じる。 全体として、本論文は、幅広い新興SPアプリケーション上でモデリング、分析、革新を行う汎用ツールとして、BLOの採用を加速するのに役立つことを願っている。

Recently, bi-level optimization (BLO) has taken center stage in some very exciting developments in the area of signal processing (SP) and machine learning (ML). Roughly speaking, BLO is a classical optimization problem that involves two levels of hierarchy (i.e., upper and lower levels), wherein obtaining the solution to the upper-level problem requires solving the lower-level one. BLO has become popular largely because it is powerful in modeling problems in SP and ML, among others, that involve optimizing nested objective functions. Prominent applications of BLO range from resource allocation for wireless systems to adversarial machine learning. In this work, we focus on a class of tractable BLO problems that often appear in SP and ML applications. We provide an overview of some basic concepts of this class of BLO problems, such as their optimality conditions, standard algorithms (including their optimization principles and practical implementations), as well as how they can be leveraged to obtain state-of-the-art results for a number of key SP and ML applications. Further, we discuss some recent advances in BLO theory, its implications for applications, and point out some limitations of the state-of-the-art that require significant future research efforts. Overall, we hope that this article can serve to accelerate the adoption of BLO as a generic tool to model, analyze, and innovate on a wide array of emerging SP applications.
翻訳日:2023-08-03 14:39:13 公開日:2023-08-01
# 人間活動認識のためのニューロモルフィックプラットフォーム上でのスパイクニューラルネットワークの評価

Evaluating Spiking Neural Network On Neuromorphic Platform For Human Activity Recognition ( http://arxiv.org/abs/2308.00787v1 )

ライセンス: Link先を確認
Sizhen Bian and Michele Magno(参考訳) エネルギー効率と低レイテンシは、バッテリ操作の厳しい制約とクローズドループフィードバックのため、ウェアラブルAIを活用したヒューマンアクティビティ認識システムを設計するための重要な要件である。 ニューラルネットワークモデルは、厳しいエッジ要求に合うように広く圧縮されているが、スパイクニューラルネットワークとイベントベースのセンシングは、その固有のエネルギー効率と非常に低レイテンシで時空間データを処理するための能力のために、パフォーマンスをさらに向上するための有望なソリューションとして最近出現している。 本研究の目的は、ウェアラブルアプリケーションのための人間の活動認識におけるニューロモルフィックプロセッサに対するスパイクニューラルネットワークの有効性を評価することである。 手首に装着したウェアラブルモーションセンサを用いたワークアウト認識の事例を研究対象とした。 入力センサデータをスパイク列車に符号化し、パイプラインをイベントベースのアプローチに移行するために、マルチスレッドデルタ変調手法を用いる。 スパイクトレインは、直接イベントトレーニングによってスパイクニューラルネットワークに供給され、トレーニングされたモデルは、エネルギーとレイテンシの効率を評価するために、intel、loihiのresearch neuromorphic platformにデプロイされる。 テストの結果、スパイクベースのワークアウト認識システムは、従来のニューラルネットワークを用いたミリワットrisc-vベースsマルチコアプロセッサgap8に匹敵する精度(87.5\%)を達成でき、2倍のエネルギー遅延生成を達成できることがわかった(0.66 \si{\micro\joule\second} vs. 1.32 \si{\micro\joule\second})。

Energy efficiency and low latency are crucial requirements for designing wearable AI-empowered human activity recognition systems, due to the hard constraints of battery operations and closed-loop feedback. While neural network models have been extensively compressed to match the stringent edge requirements, spiking neural networks and event-based sensing are recently emerging as promising solutions to further improve performance due to their inherent energy efficiency and capacity to process spatiotemporal data in very low latency. This work aims to evaluate the effectiveness of spiking neural networks on neuromorphic processors in human activity recognition for wearable applications. The case of workout recognition with wrist-worn wearable motion sensors is used as a study. A multi-threshold delta modulation approach is utilized for encoding the input sensor data into spike trains to move the pipeline into the event-based approach. The spikes trains are then fed to a spiking neural network with direct-event training, and the trained model is deployed on the research neuromorphic platform from Intel, Loihi, to evaluate energy and latency efficiency. Test results show that the spike-based workouts recognition system can achieve a comparable accuracy (87.5\%) comparable to the popular milliwatt RISC-V bases multi-core processor GAP8 with a traditional neural network ( 88.1\%) while achieving two times better energy-delay product (0.66 \si{\micro\joule\second} vs. 1.32 \si{\micro\joule\second}).
翻訳日:2023-08-03 14:38:48 公開日:2023-08-01
# 文字列図におけるアクティブ推論:予測処理と自由エネルギーのカテゴリ

Active Inference in String Diagrams: A Categorical Account of Predictive Processing and Free Energy ( http://arxiv.org/abs/2308.00861v1 )

ライセンス: Link先を確認
Sean Tull, Johannes Kleiner, Toby St Clere Smithe(参考訳) 本稿では,予測処理と能動的推論の認知的枠組みの分類的定式化について述べる。 これには生成モデルの図式的説明、ベイジアン更新、知覚、計画、能動推論、自由エネルギーが含まれる。 特に、自由エネルギー最小化による能動推論の公式の図式的導出を示し、自由エネルギーの構成性を確立し、エージェントの生成モデルのすべてのレベルにおいて自由エネルギーを適用することができる。 アクティブな推論に慣れた人たちに便利なグラフィカル言語を提供することを目的としないで、この記事では簡潔な定式化とフレームワークの導入を期待する。

We present a categorical formulation of the cognitive frameworks of Predictive Processing and Active Inference, expressed in terms of string diagrams interpreted in a monoidal category with copying and discarding. This includes diagrammatic accounts of generative models, Bayesian updating, perception, planning, active inference, and free energy. In particular we present a diagrammatic derivation of the formula for active inference via free energy minimisation, and establish a compositionality property for free energy, allowing free energy to be applied at all levels of an agent's generative model. Aside from aiming to provide a helpful graphical language for those familiar with active inference, we conversely hope that this article may provide a concise formulation and introduction to the framework.
翻訳日:2023-08-03 14:30:30 公開日:2023-08-01
# 確率過程の探索によるニューラルネットワークの活性化パターンの理解

Understanding Activation Patterns in Artificial Neural Networks by Exploring Stochastic Processes ( http://arxiv.org/abs/2308.00858v1 )

ライセンス: Link先を確認
Stephan Johann Lehmler and Muhammad Saif-ur-Rehman and Tobias Glasmachers and Ioannis Iossifidis(参考訳) 人工ニューラルネットワークの動作と学習のダイナミクスをより深く理解するためには、数学的抽象化とモデルを用いることが重要である。 これらのツールは、ネットワーク性能を単純化し、シミュレーションによる体系的な調査を促進する。 本稿では,これまで未利用であった確率過程の枠組みを活用することを提案する。 本研究では,(深い)人工ニューラルネットワークにおけるしきい値ノードの活性化パターンを確率過程としてモデル化する。 我々は活性化頻度のみに焦点をあて、実際のニューロンスパイクトレインに使用される神経科学技術を活用する。 分類作業中,スパイキング活性を抽出し,ポアソン分布に追従した到着過程を用いる。 画像認識タスクにおける様々なニューラルネットワークの観測データについて検討し,提案モデルの仮定に適合する。 これにより、各ネットワークのアクティベーションパターンを記述するパラメータを導出する。 分析では,ネットワークをランダムに初期化し,一般化し,記憶し,アーキテクチャとトレーニングセット間で一貫した差異を明らかにする。 平均発火率、平均ファノ因子、分散を計算することで、学習中の記憶の安定な指標を見つけ、ネットワーク行動に対する貴重な洞察を提供する。 提案モデルでは,アクティベーションパターンを記述し,今後の研究の一般的な枠組みとして機能する。 理論シミュレーション、プルーニング、移動学習に応用できる可能性がある。

To gain a deeper understanding of the behavior and learning dynamics of (deep) artificial neural networks, it is valuable to employ mathematical abstractions and models. These tools provide a simplified perspective on network performance and facilitate systematic investigations through simulations. In this paper, we propose utilizing the framework of stochastic processes, which has been underutilized thus far. Our approach models activation patterns of thresholded nodes in (deep) artificial neural networks as stochastic processes. We focus solely on activation frequency, leveraging neuroscience techniques used for real neuron spike trains. During a classification task, we extract spiking activity and use an arrival process following the Poisson distribution. We examine observed data from various artificial neural networks in image recognition tasks, fitting the proposed model's assumptions. Through this, we derive parameters describing activation patterns in each network. Our analysis covers randomly initialized, generalizing, and memorizing networks, revealing consistent differences across architectures and training sets. Calculating Mean Firing Rate, Mean Fano Factor, and Variances, we find stable indicators of memorization during learning, providing valuable insights into network behavior. The proposed model shows promise in describing activation patterns and could serve as a general framework for future investigations. It has potential applications in theoretical simulations, pruning, and transfer learning.
翻訳日:2023-08-03 14:30:16 公開日:2023-08-01
# Federated tumor SegmentationにおけるAdaptive Weight Aggregationの差分プライバシー

Differential Privacy for Adaptive Weight Aggregation in Federated Tumor Segmentation ( http://arxiv.org/abs/2308.00856v1 )

ライセンス: Link先を確認
Muhammad Irfan Khan, Esa Alhoniemi, Elina Kontio, Suleiman A. Khan, and Mojtaba Jafaritadi(参考訳) Federated Learning(FL)は、個々のクライアントデータのプライバシを尊重しながら、公平なグローバルモデルを作成することによって、プライバシを保護する分散機械学習アプローチである。 しかし,従来のFL方式では,多様なクライアントデータを扱う場合のセキュリティリスクが生じる可能性がある。 これらの課題に対処するため,医療画像セグメンテーションにおける差分プライバシー(DP)統合ディープラーニングフレームワークを提案する。 本稿では,マルチモーダルmri(multi-modal magnetic resonance imaging)における脳腫瘍の分節化のための差分的類似度重み付けアルゴリズムdp-simagg法に類似度重み付け法(simagg法)を拡張した。 DP-SimAgg法は,モデルセグメンテーション機能の向上だけでなく,プライバシー保護の付加レイヤも提供する。 DP-SimAggは, モデルトレーニングにおける通信コストを最小化しつつ, 高精度でロバストな脳腫瘍セグメンテーションを実現することを実証した。 この進歩は、医療画像データのプライバシーを守り、機密情報を保護する上で重要である。 結論として、フェデレーション脳腫瘍分割のグローバル重み集約フェーズに差分プライバシー層を追加することは、セグメンテーションモデルの有効性を損なうことなく、プライバシの懸念に対して有望な解決策を提供する。 dpを利用することで,敵の攻撃や悪意のある参加者に対するクライアントデータの保護を確保する。

Federated Learning (FL) is a distributed machine learning approach that safeguards privacy by creating an impartial global model while respecting the privacy of individual client data. However, the conventional FL method can introduce security risks when dealing with diverse client data, potentially compromising privacy and data integrity. To address these challenges, we present a differential privacy (DP) federated deep learning framework in medical image segmentation. In this paper, we extend our similarity weight aggregation (SimAgg) method to DP-SimAgg algorithm, a differentially private similarity-weighted aggregation algorithm for brain tumor segmentation in multi-modal magnetic resonance imaging (MRI). Our DP-SimAgg method not only enhances model segmentation capabilities but also provides an additional layer of privacy preservation. Extensive benchmarking and evaluation of our framework, with computational performance as a key consideration, demonstrate that DP-SimAgg enables accurate and robust brain tumor segmentation while minimizing communication costs during model training. This advancement is crucial for preserving the privacy of medical image data and safeguarding sensitive information. In conclusion, adding a differential privacy layer in the global weight aggregation phase of the federated brain tumor segmentation provides a promising solution to privacy concerns without compromising segmentation model efficacy. By leveraging DP, we ensure the protection of client data against adversarial attacks and malicious participants.
翻訳日:2023-08-03 14:29:56 公開日:2023-08-01
# グラウンドブレーキング機械学習研究の総合的研究:6年間にわたる高濃度・インパクトのある出版物の分析

A Comprehensive Study of Groundbreaking Machine Learning Research: Analyzing Highly Cited and Impactful Publications across Six Decades ( http://arxiv.org/abs/2308.00855v1 )

ライセンス: Link先を確認
Absalom E. Ezugwu, Japie Greeff, Yuh-Shan Ho(参考訳) 機械学習(ML)は、コンピュータ科学やその他の関連分野の研究の顕著な分野として登場し、他の分野の関心を喚起している。 この分野が発展を続けるにつれて、重要なトレンド、影響力のある著者、そしてこれまでの重要な貢献を識別するために、高度に引用された出版物の風景を理解することが不可欠である。 本稿では,高度に引用されたML出版物の総合的文献計測分析を行う。 1959年から2022年までの数年間にわたるMLカンファレンスやジャーナルから,上位に暗唱された論文からなるデータセットを収集した。 本研究では,引用分析,共著者分析,キーワード分析,出版トレンドなど,さまざまな書誌分析手法を用いて分析を行った。 その結果,最も影響力のある論文,高度に引用された著者,および機械学習コミュニティ内の協調ネットワークが明らかになった。 人気の高い研究テーマを特定し,近年注目されている話題を明らかにする。 さらに,高引用率出版物の地理的分布について検討し,ml研究における特定の国の支配を強調する。 高度に引用されたML出版物の状況に光を当てることで、この急速に発展する分野における重要な発展と動向を理解しようとする研究者、政策立案者、実践者に貴重な洞察を提供する。

Machine learning (ML) has emerged as a prominent field of research in computer science and other related fields, thereby driving advancements in other domains of interest. As the field continues to evolve, it is crucial to understand the landscape of highly cited publications to identify key trends, influential authors, and significant contributions made thus far. In this paper, we present a comprehensive bibliometric analysis of highly cited ML publications. We collected a dataset consisting of the top-cited papers from reputable ML conferences and journals, covering a period of several years from 1959 to 2022. We employed various bibliometric techniques to analyze the data, including citation analysis, co-authorship analysis, keyword analysis, and publication trends. Our findings reveal the most influential papers, highly cited authors, and collaborative networks within the machine learning community. We identify popular research themes and uncover emerging topics that have recently gained significant attention. Furthermore, we examine the geographical distribution of highly cited publications, highlighting the dominance of certain countries in ML research. By shedding light on the landscape of highly cited ML publications, our study provides valuable insights for researchers, policymakers, and practitioners seeking to understand the key developments and trends in this rapidly evolving field.
翻訳日:2023-08-03 14:29:25 公開日:2023-08-01
# 対向攻撃に対するロバスト性を改善する焦点画像の訓練

Training on Foveated Images Improves Robustness to Adversarial Attacks ( http://arxiv.org/abs/2308.00854v1 )

ライセンス: Link先を確認
Muhammad A. Shah and Bhiksha Raj(参考訳) ディープニューラルネットワーク(dnn)は、モデルの応答を変化させる入力の微妙で知覚的に区別できない摂動によって、敵の攻撃に弱いことが示されている。 視覚の文脈では、人間の視覚知覚のロバスト性に重要な貢献者は、末梢視覚における低忠実な視覚刺激に常に露出していると仮定する。 この仮説を考察するために,画像のぼかし,所定の固定点からの距離に基づいて彩度を小さくすることで周辺視の忠実度損失をシミュレートする画像変換である \RBlur を開発した。 元の画像で訓練されたdnnと比較して、 \rblur で変換された画像で訓練されたdnnは、敵対的攻撃や、非敵対的、腐敗に対してかなり頑健であり、摂動データの精度は最大25%高いことが示されている。

Deep neural networks (DNNs) have been shown to be vulnerable to adversarial attacks -- subtle, perceptually indistinguishable perturbations of inputs that change the response of the model. In the context of vision, we hypothesize that an important contributor to the robustness of human visual perception is constant exposure to low-fidelity visual stimuli in our peripheral vision. To investigate this hypothesis, we develop \RBlur, an image transform that simulates the loss in fidelity of peripheral vision by blurring the image and reducing its color saturation based on the distance from a given fixation point. We show that compared to DNNs trained on the original images, DNNs trained on images transformed by \RBlur are substantially more robust to adversarial attacks, as well as other, non-adversarial, corruptions, achieving up to 25\% higher accuracy on perturbed data.
翻訳日:2023-08-03 14:29:04 公開日:2023-08-01
# CASSINI: 機械学習クラスタにおけるネットワーク対応ジョブスケジューリング

CASSINI: Network-Aware Job Scheduling in Machine Learning Clusters ( http://arxiv.org/abs/2308.00852v1 )

ライセンス: Link先を確認
Sudarsanan Rajasekaran (1), Manya Ghobadi (1), Aditya Akella (2) ((1) Massachusetts Institute of Technology, (2) UT Austin)(参考訳) 機械学習(ML)クラスタのためのネットワーク対応ジョブスケジューラであるCASSINIを提案する。 CASSINIは、異なるジョブの通信パターンをネットワークリンク上に配置しながら考慮する、新しい幾何学的抽象化を導入した。 そのため、カッシーニは、一連の時間シフト値を見つけて、同じネットワークリンクを共有するジョブの通信パターンを相互にインターリーブするように、ジョブのサブセットの通信フェーズを調整する親和性グラフを使用する。 24サーバテストベッド上での13の共通MLモデルによる実験では、最先端のMLスケジューラと比較して、CASSINIはジョブの平均完了時間とテール完了時間を最大1.6倍、2.5倍改善している。 さらに、CASSINIはクラスタ内のECNマーク付きパケットの数を最大33倍に削減することを示した。

We present CASSINI, a network-aware job scheduler for machine learning (ML) clusters. CASSINI introduces a novel geometric abstraction to consider the communication pattern of different jobs while placing them on network links. To do so, CASSINI uses an affinity graph that finds a series of time-shift values to adjust the communication phases of a subset of jobs, such that the communication patterns of jobs sharing the same network link are interleaved with each other. Experiments with 13 common ML models on a 24-server testbed demonstrate that compared to the state-of-the-art ML schedulers, CASSINI improves the average and tail completion time of jobs by up to 1.6x and 2.5x, respectively. Moreover, we show that CASSINI reduces the number of ECN marked packets in the cluster by up to 33x.
翻訳日:2023-08-03 14:28:48 公開日:2023-08-01
# 相関ノイズは結合量子ビットのコヒーレンスと忠実性を高める

Correlated noise enhances coherence and fidelity in coupled qubits ( http://arxiv.org/abs/2308.00841v1 )

ライセンス: Link先を確認
Eric R Bittner and Hao Li and Syad A. Shah and Carlos Silva and Andrei Piryatinski(参考訳) 一般に、熱揺らぎに起因する環境騒音は、量子系におけるコヒーレンスと絡み合いの保存に有害であると仮定される。 最も単純な意味では、デファスメントとデコヒーレンスは、システムと浴槽の通常のモードの結合によって駆動されるエネルギー変動と結びついている。 本稿では,'sender' と `receiver'' が様々な相関関係や反相関関係を持つ局所環境に対象とするオープンループモデル量子通信システムにおける雑音相関の役割について検討する。 本研究では,多次元確率微分方程式を解いてスペクトル密度内の相関関係を導入し,システム密度行列のレッドフィールド運動方程式に導入する。 相関関係は、最大に絡み合った(ベル)状態の忠実性と純度の両方を高めることができる。 さらに,異なる初期ベル状態の進化を比較することにより,2つの局所環境間の相関を効果的に探究できることを示す。 これらの観測は、高忠実性量子ゲートや通信プロトコルの設計に有用である。

It is generally assumed that environmental noise arising from thermal fluctuations is detrimental to preserving coherence and entanglement in a quantum system. In the simplest sense, dephasing and decoherence are tied to energy fluctuations driven by coupling between the system and the normal modes of the bath. Here, we explore the role of noise correlation in an open-loop model quantum communication system whereby the ``sender'' and the ``receiver'' are subject to local environments with various degrees of correlation or anticorrelation. We introduce correlation within the spectral density by solving a multidimensional stochastic differential equations and introduce these into the Redfield equations of motion for the system density matrix. We find that correlation can enhance both the fidelity and purity of a maximally entangled (Bell) state. Moreover, by comparing the evolution of different initial Bell states, we show that one can effectively probe the correlation between two local environments. These observations may be useful in the design of high-fidelity quantum gates and communication protocols.
翻訳日:2023-08-03 14:28:32 公開日:2023-08-01
# ねじれた銅酸化物ファンデルワールスヘテロ構造に基づく超伝導量子ビット

Superconducting qubit based on twisted cuprate van der Waals heterostructures ( http://arxiv.org/abs/2308.00839v1 )

ライセンス: Link先を確認
Valentina Brosco, Giuseppe Serpico, Valerii Vinokur, Nicola Poccia, Uri Vool(参考訳) van-der-waals (vdw) は2つの剥離された比較的ねじれた2つのフレーク(bi2212)の間の原子力学的に鋭い界面を利用して、新しいジョセフソン接合を作製できる。 約45^\circ$のツイスト角度の範囲において、接合は2対の層間トンネルが電流相関係を支配している状態を提供する。 ここでは、この新しい接合を用いて、フラワーモンと呼ぶ容量的に曲がりくねったクビットを実現することを提案する。 秩序パラメータの$d$-waveの性質は、荷電ノイズによる緩和と準粒子による散逸に対して固有の保護を与える。 この本質的に保護された量子ビットは、非伝統的な超伝導体に基づく新しい種類の高コヒーレンスハイブリッド超伝導量子デバイスへの道を開く。

Van-der-Waals (vdW) assembly enables the fabrication of novel Josephson junctions utilizing an atomically sharp interface between two exfoliated and relatively twisted $\rm{Bi_2Sr_2CaCu_2O_{8+x}}$ (Bi2212) flakes. In a range of twist angles around $45^\circ$, the junction provides a regime where the interlayer two-Cooper pair tunneling dominates the current-phase relation. Here we propose to employ this novel junction to realize a capacitively shunted qubit that we call flowermon. The $d$-wave nature of the order parameter endows the flowermon with inherent protection against charge-noise-induced relaxation and quasiparticle-induced dissipation. This inherently protected qubit paves the way to a new class of high-coherence hybrid superconducting quantum devices based on unconventional superconductors.
翻訳日:2023-08-03 14:28:16 公開日:2023-08-01
# 量子回路における静電容量素子としての超伝導スルーシリコンのキャラクタリゼーション

Characterization of superconducting through-silicon vias as capacitive elements in quantum circuits ( http://arxiv.org/abs/2308.00834v1 )

ライセンス: Link先を確認
Thomas M. Hazard, Wayne Woods, Danna Rosenberg, Rabi Das, Cyrus F. Hirjibehedin, David K. Kim, Jeffery Knecht, Justin Mallek, Alexander Melville, Bethany M. Niedzielski, Kyle Serniak, Katrina M. Sliwa, Donna Ruth-Yost, Jonilyn L. Yoder, William D. Oliver, Mollie E. Schwartz(参考訳) 超伝導量子ビットの物理量とそれに伴うオンチップ制御構造は、大規模量子コンピュータを構築するための実用的な課題である。 特にトランスモンは、大きなコプラナーキャパシタを使用することで通常達成される高品質なスタンスキャパシタンスを必要とする。 量子状態読み出しに用いられる超伝導マイクロ波共振器などの他の部品は、通常長さがミリメートルのコプラナー導波路で構成される。 ここでは, 量子ビットとリードアウト共振器の両方において, 積層素子コンデンサを実現するために, 小型のシリコン通電機を用いて, 両回路素子のチップ上のフットプリントを著しく低減する。 我々は,tsvが容量回路素子として使用するのに十分な品質であることを示すために2種類のデバイスを測定した。

The large physical size of superconducting qubits and their associated on-chip control structures presents a practical challenge towards building a large-scale quantum computer. In particular, transmons require a high-quality-factor shunting capacitance that is typically achieved by using a large coplanar capacitor. Other components, such as superconducting microwave resonators used for qubit state readout, are typically constructed from coplanar waveguides which are millimeters in length. Here we use compact superconducting through-silicon vias to realize lumped element capacitors in both qubits and readout resonators to significantly reduce the on-chip footprint of both of these circuit elements. We measure two types of devices to show that TSVs are of sufficient quality to be used as capacitive circuit elements and provide a significant reductions in size over existing approaches.
翻訳日:2023-08-03 14:28:00 公開日:2023-08-01
# 環境分光のためのスペクトル密度分類

Spectral Density Classification For Environment Spectroscopy ( http://arxiv.org/abs/2308.00831v1 )

ライセンス: Link先を確認
Jessica Barr, Giorgio Zicari, Alessandro Ferraro, Mauro Paternostro(参考訳) 開量子系問題におけるシステム環境相互作用を特徴付ける関連情報をスペクトル密度でエンコードする。 このような情報はシステムの力学を決定する鍵となる。 本研究では,機械学習技術の可能性を活用し,環境の特徴を再構築する。 具体的には、観測可能なシステムの時間進化を、人工知能ニューラルネットワークによって、スペクトル密度の主な特徴を推測することができることを示す。 特に、スピンボソンモデルの関連する例では、環境のオーミック性パラメータをOhmic、sub-Ohmic、Super-Ohmicのいずれかとして高精度に分類し、異なる形態の散逸を区別することができる。

Spectral densities encode the relevant information characterising the system-environment interaction in an open-quantum system problem. Such information is key to determining the system's dynamics. In this work, we leverage the potential of machine learning techniques to reconstruct the features of the environment. Specifically, we show that the time evolution of a system observable can be used by an artificial neural network to infer the main features of the spectral density. In particular, for relevant example of spin-boson models, we can classify with high accuracy the Ohmicity parameter of the environment as either Ohmic, sub-Ohmic or super-Ohmic, thereby distinguishing between different forms of dissipation.
翻訳日:2023-08-03 14:27:44 公開日:2023-08-01
# DiactTOD:制御可能なタスク指向対話システムのための一般化可能な潜在対話法

DiactTOD: Learning Generalizable Latent Dialogue Acts for Controllable Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2308.00878v1 )

ライセンス: Link先を確認
Qingyang Wu, James Gung, Raphael Shu, Yi Zhang(参考訳) 対話行動アノテーションはタスク指向対話システムにおける応答生成の品質向上に重要である。 しかし、異なるデータセットやタスクが互換性のないアノテーションを持つ可能性があるため、汎用的な方法で応答生成を制御するために対話行為を使用することは困難である。 潜在アクションスペースや強化学習を利用する別の方法は明示的なアノテーションを必要としないが、解釈可能性やタスク固有の報酬の定義が困難になる可能性がある。 本稿では,潜在空間における対話行為を表現する新しいエンドツーエンドの潜在対話行動モデル(diacttod)を提案する。 diacttodは、大きなコーパスで事前学習すると、対話行為の予測と制御ができ、これらの潜在表現をゼロショット方式で制御可能な応答を生成することができる。 提案手法では, ゼロショット, 少数ショット, フルデータの微調整など, エンド・ツー・エンド, ポリシー最適化の両設定を含む, マルチWOZデータセットの幅広い実験環境における最先端性能を示す。

Dialogue act annotations are important to improve response generation quality in task-oriented dialogue systems. However, it can be challenging to use dialogue acts to control response generation in a generalizable way because different datasets and tasks may have incompatible annotations. While alternative methods that utilize latent action spaces or reinforcement learning do not require explicit annotations, they may lack interpretability or face difficulties defining task-specific rewards. In this work, we present a novel end-to-end latent dialogue act model (DiactTOD) that represents dialogue acts in a latent space. DiactTOD, when pre-trained on a large corpus, is able to predict and control dialogue acts to generate controllable responses using these latent representations in a zero-shot fashion. Our approach demonstrates state-of-the-art performance across a wide range of experimental settings on the MultiWOZ dataset, including zero-shot, few-shot, and full data fine-tuning with both end-to-end and policy optimization configurations.
翻訳日:2023-08-03 14:20:36 公開日:2023-08-01
# 量子回路深度最適化のための単一量子ビットゲート問題

Single-Qubit Gates Matter for Optimising Quantum Circuit Depth in Qubit Mapping ( http://arxiv.org/abs/2308.00876v1 )

ライセンス: Link先を確認
Sanjiang Li, Ky Dan Nguyen, Zachary Clare, Yuan Feng(参考訳) 量子回路変換(QCT、qubit mapping)は、量子回路のコンパイルにおいて重要なステップである。 通常、QCTは適切な初期マッピングを見つけ、SWAPゲートを使用して全ての接続制約を満たすようにキュービットをルーティングする。 QCTの目的は、回路サイズや深さを最小化することである。 既存のQCTアルゴリズムの多くは回路サイズを最小化することを優先しており、回路深さに対する単一ビットゲートの影響を見落としている可能性がある。 本稿では,1つのスワップゲートを挿入すると回路深度が2倍になることを示すとともに,単一量子ビットゲートの回路深さへの影響を考慮した簡易かつ効果的な手法を提案する。 本手法は,回路深度を最適化する既存のQCTアルゴリズムと組み合わせることができる。 Qiskit SABREアルゴリズムは回路サイズと深さの両方を最適化する最先端のアルゴリズムとして広く受け入れられている。 例えば、mqtbenchのgoogle sycamoreと117実際の量子回路では、回路の深さを最大50%、27%削減できることを示し、sabreに組み込むことで本手法の有効性を実証した。

Quantum circuit transformation (QCT, a.k.a. qubit mapping) is a critical step in quantum circuit compilation. Typically, QCT is achieved by finding an appropriate initial mapping and using SWAP gates to route the qubits such that all connectivity constraints are satisfied. The objective of QCT can be to minimise circuit size or depth. Most existing QCT algorithms prioritise minimising circuit size, potentially overlooking the impact of single-qubit gates on circuit depth. In this paper, we first point out that a single SWAP gate insertion can double the circuit depth, and then propose a simple and effective method that takes into account the impact of single-qubit gates on circuit depth. Our method can be combined with many existing QCT algorithms to optimise circuit depth. The Qiskit SABRE algorithm has been widely accepted as the state-of-the-art algorithm for optimising both circuit size and depth. We demonstrate the effectiveness of our method by embedding it in SABRE, showing that it can reduce circuit depth by up to 50% and 27% on average on, for instance, Google Sycamore and 117 real quantum circuits from MQTBench.
翻訳日:2023-08-03 14:20:18 公開日:2023-08-01
# beneficent intelligence:aiシステムによる利益、援助、および関連するモラル障害のモデリングのための能力アプローチ

Beneficent Intelligence: A Capability Approach to Modeling Benefit, Assistance, and Associated Moral Failures through AI Systems ( http://arxiv.org/abs/2308.00868v1 )

ライセンス: Link先を確認
Alex John London and Hoda heidari(参考訳) AI倫理に関する一般的な言説は、AIシステムが個人と対話する際に生じる多様な倫理的懸念を捉えるのに必要な言語や形式主義を欠いている。 SenとNussbaumの機能的アプローチに基づいて、AIシステムが利害関係者に有意義な利益や援助を与えるために必要な倫理的概念と権利のネットワークを形式化するフレームワークを提案する。 このような制度は、基本的権利を維持しつつ、利害関係者の生活計画と幸福を向上する能力を高める。 我々は、aiシステムとそれらの機能によって影響を受けるものとの道徳的に許容される相互作用に必要な2つの条件と、有意義な利益の理想を実現するための2つの条件を特徴付ける。 そして、この理想をいくつかの健全な失敗モード、すなわち、不当な父性主義、強制、騙し、搾取、支配を構成する社会的相互作用と対比する。 ハイテイクドメインにおけるAI関連のインシデントの増加は、これらの問題の重大さと、AIシステムへの倫理主導のアプローチをその発端から取り除こうとする衝動を浮き彫りにしている。

The prevailing discourse around AI ethics lacks the language and formalism necessary to capture the diverse ethical concerns that emerge when AI systems interact with individuals. Drawing on Sen and Nussbaum's capability approach, we present a framework formalizing a network of ethical concepts and entitlements necessary for AI systems to confer meaningful benefit or assistance to stakeholders. Such systems enhance stakeholders' ability to advance their life plans and well-being while upholding their fundamental rights. We characterize two necessary conditions for morally permissible interactions between AI systems and those impacted by their functioning, and two sufficient conditions for realizing the ideal of meaningful benefit. We then contrast this ideal with several salient failure modes, namely, forms of social interactions that constitute unjustified paternalism, coercion, deception, exploitation and domination. The proliferation of incidents involving AI in high-stakes domains underscores the gravity of these issues and the imperative to take an ethics-led approach to AI systems from their inception.
翻訳日:2023-08-03 14:20:00 公開日:2023-08-01
# 光センサテストのためのフレキシブル量子効率測定装置

A flexible quantum efficiency measurement device for photosensors testing ( http://arxiv.org/abs/2308.00866v1 )

ライセンス: Link先を確認
P. Migliozzi, C.M. Mollo, A. Simonelli(参考訳) 本稿では,pmt (1~10インチ) からspm, フォトダイオードまでの光センサの量子効率 (qe) を測定するために, 2次元モータステージ, 広スペクトルキセノンランプ, ビームスプリッタシステム, 2つのキャリブレーションフォトダイオードを用いた新しい量子効率設定を提案する。 2Dステージでカバーされる大きな領域は、マルチチャネル光センサーのマトリックスの量子効率を、最大10インチのPMTで自動的に研究することができる。 このセットアップは、250nmから1100nmまでの波長と、位置決め精度が10ミクロンの2次元の量子効率と波長を特徴付ける高い精度と精度を提供する。 セットアップは、テスト中の光センサから出力される出力電流と同期して光強度を監視する。 これにより測定の精度と再現性が保証される。 モータ付ステージは、活動領域に対する光源の正確な位置決めを可能にする。 さらに、キセノンランプの発光スペクトルは、ダイナミックスと波長スパンの観点から広い範囲の照明を提供する。

This paper presents a new quantum efficiency setup based on a 2D motorized stage, a wide spectrum xenon lamp, a beam splitter system, and two calibrated photodiodes for measuring the quantum efficiency (QE) of photosensors from PMTs (1 to 10 inches) to SIPM and photodiodes. The large area covered by the 2D stages permit to study the quantum efficiency of a matrix of multichannel photosensors in an automated way and PMTs with diameter up to ten inches. The setup offers high precision and accuracy in characterizing the quantum efficiency versus wavelength over the range of 250 nm to 1100 nm and in two dimensions with a positioning precision of ten microns. The setup monitors the light intensity synchronously with the output current yield from photosensors under test. This ensures the accuracy and repeatability of the measurements. The motorized stage allows precise positioning of the light source with respect to the active area. Moreover, the emission spectrum of the xenon lamp provides a broad range of illumination in terms of dynamics and wavelength span.
翻訳日:2023-08-03 14:19:39 公開日:2023-08-01
# PeRP: 協調諮問システムによる混雑軽減のための個人化残留政策

PeRP: Personalized Residual Policies For Congestion Mitigation Through Co-operative Advisory Systems ( http://arxiv.org/abs/2308.00864v1 )

ライセンス: Link先を確認
Aamir Hasan, Neeloy Chakraborty, Haonan Chen, Jung-Hoon Cho, Cathy Wu, Katherine Driggs-Campbell(参考訳) インテリジェントな運転システムは単純な行動を通じて渋滞を緩和し、通勤時間やガスコストといった社会経済的要因を改善できる。 しかし、これらのシステムは、自律車両群を正確に制御しており、人間の行動の不確実性を考慮していないため、実際には制限されている。 Piecewise Constant (PC) Policiesは、密集したシナリオにおける交通渋滞を減らすために、人間の運転に追従するアクションアドバイスを提供するために、人間の運転の類似性を構造的にモデル化することで、これらの問題に対処する。 しかし、PCのポリシーは全てのドライバーが同じように振る舞うと仮定している。 そこで本研究では,pc政策に基づく協調型アドバイザリーシステムを開発し,ドライバ特性条件付きパーソナライズド残余ポリシーperpを開発した。 PeRPは、交通渋滞を軽減する方法でドライバに振る舞うようにアドバイスする。 まず,変分オートエンコーダを用いた教師なしの命令の追従方法について,ドライバの固有特性を推定する。 そして、推定形質に規定されたポリシーがPCポリシーの動作に適応し、ドライバにパーソナライズされたレコメンデーションを提供する。 本システムでは,新しいドライバモデルによる命令遵守のシミュレーションを行う。 提案手法は,運転者の行動に適応しながら渋滞を軽減し,ベースラインよりも平均速度が4~22%向上することを示す。

Intelligent driving systems can be used to mitigate congestion through simple actions, thus improving many socioeconomic factors such as commute time and gas costs. However, these systems assume precise control over autonomous vehicle fleets, and are hence limited in practice as they fail to account for uncertainty in human behavior. Piecewise Constant (PC) Policies address these issues by structurally modeling the likeness of human driving to reduce traffic congestion in dense scenarios to provide action advice to be followed by human drivers. However, PC policies assume that all drivers behave similarly. To this end, we develop a co-operative advisory system based on PC policies with a novel driver trait conditioned Personalized Residual Policy, PeRP. PeRP advises drivers to behave in ways that mitigate traffic congestion. We first infer the driver's intrinsic traits on how they follow instructions in an unsupervised manner with a variational autoencoder. Then, a policy conditioned on the inferred trait adapts the action of the PC policy to provide the driver with a personalized recommendation. Our system is trained in simulation with novel driver modeling of instruction adherence. We show that our approach successfully mitigates congestion while adapting to different driver behaviors, with 4 to 22% improvement in average speed over baselines.
翻訳日:2023-08-03 14:19:19 公開日:2023-08-01
# 人工知能の信頼性構築対策 : ワークショップの成果

Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings ( http://arxiv.org/abs/2308.00862v1 )

ライセンス: Link先を確認
Sarah Shoker, Andrew Reddie, Sarah Barrington, Miles Brundage, Husanjot Chahal, Michael Depp, Bill Drexel, Ritwik Gupta, Marina Favaro, Jake Hecla, Alan Hickey, Margarita Konaev, Kirthi Kumar, Nathan Lambert, Andrew Lohn, Cullen O'Keefe, Nazneen Rajani, Michael Sellitto, Robert Trager, Leah Walker, Alexa Wehsener, Jessica Young(参考訳) 事故、不注意なエスカレーション、意図しない紛争、兵器の拡散、そして人間の外交への干渉は、長いリストの中でごくわずかである。 OpenAIのGeopolitics Teamとカリフォルニア大学バークレー校のBerkeley Risk and Security Labが主催する、人工知能のための信頼性構築対策ワークショップは、基礎モデルから国際的セキュリティへの潜在的なリスクを軽減するためのツールと戦略を通じて、マルチステークホルダーグループを結成した。 冷戦に起源を持つ信頼構築対策(CBM)は、敵意を減らし、対立のエスカレーションを防ぎ、当事者間の信頼を改善する行動である。 CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。 参加者は、ファンデーションモデルに直接適用される以下のCBMを特定し、この会議手続きでさらに説明する。 1.危機ホットライン 2.インシデント共有 3.モデル、透明性、システムカード 4.内容証明と透かし 5. 協力的レッドチームと卓上運動 6.データセットと評価共有 ほとんどの基礎モデル開発者は非政府組織であるため、多くのCBMはより広い利害関係者コミュニティを巻き込む必要がある。 これらの措置は、aiラボまたは関連する政府機関によって実施することができる。

Foundation models could eventually introduce several pathways for undermining state security: accidents, inadvertent escalation, unintentional conflict, the proliferation of weapons, and the interference with human diplomacy are just a few on a long list. The Confidence-Building Measures for Artificial Intelligence workshop hosted by the Geopolitics Team at OpenAI and the Berkeley Risk and Security Lab at the University of California brought together a multistakeholder group to think through the tools and strategies to mitigate the potential risks introduced by foundation models to international security. Originating in the Cold War, confidence-building measures (CBMs) are actions that reduce hostility, prevent conflict escalation, and improve trust between parties. The flexibility of CBMs make them a key instrument for navigating the rapid changes in the foundation model landscape. Participants identified the following CBMs that directly apply to foundation models and which are further explained in this conference proceedings: 1. crisis hotlines 2. incident sharing 3. model, transparency, and system cards 4. content provenance and watermarks 5. collaborative red teaming and table-top exercises and 6. dataset and evaluation sharing. Because most foundation model developers are non-government entities, many CBMs will need to involve a wider stakeholder community. These measures can be implemented either by AI labs or by relevant government actors.
翻訳日:2023-08-03 14:18:56 公開日:2023-08-01
# 金融商品レコメンデーションのための個人化時間短縮機能付き適応的協調フィルタリング

Adaptive Collaborative Filtering with Personalized Time Decay Functions for Financial Product Recommendation ( http://arxiv.org/abs/2308.01208v1 )

ライセンス: Link先を確認
Ashraf Ghiye, Baptiste Barreau, Laurent Carlier, Michalis Vazirgiannis(参考訳) 古典的なレコメンデータシステムは、歴史的データが定常的であり、ユーザの好みの動的な性質を説明できないと仮定し、時間に敏感な設定で信頼できるレコメンデーションを提供する能力を制限する。 この仮定は金融において特に問題であり、金融商品が継続的な評価の変化を示し、顧客利益の頻繁な変化をもたらす。 これらの進化する関心は、過去のクライアントとプロダクトの相互作用でまとめられ、クライアントと他のクライアントと異なる程度で、そのユーティリティが時間とともにフェードするのを見る。 そこで本研究では,個人化減衰関数を用いた遠隔クライアント製品間インタラクションを適応的に削減できる時間依存協調フィルタリングアルゴリズムを提案する。 本手法は,金融データの非定常性に対処し,クライアントと製品間の動的協調信号のモデリングにより信頼性の高いレコメンデーションを生成する。 我々は,BNP Paribasの独自データセットを用いて本手法の評価を行い,関連する文献からの最先端ベンチマークを大幅に改善した。 本研究は,金融商品レコメンデーションの正確性を高めるため,モデルに明示的に時間を取り入れることの重要性を強調した。

Classical recommender systems often assume that historical data are stationary and fail to account for the dynamic nature of user preferences, limiting their ability to provide reliable recommendations in time-sensitive settings. This assumption is particularly problematic in finance, where financial products exhibit continuous changes in valuations, leading to frequent shifts in client interests. These evolving interests, summarized in the past client-product interactions, see their utility fade over time with a degree that might differ from one client to another. To address this challenge, we propose a time-dependent collaborative filtering algorithm that can adaptively discount distant client-product interactions using personalized decay functions. Our approach is designed to handle the non-stationarity of financial data and produce reliable recommendations by modeling the dynamic collaborative signals between clients and products. We evaluate our method using a proprietary dataset from BNP Paribas and demonstrate significant improvements over state-of-the-art benchmarks from relevant literature. Our findings emphasize the importance of incorporating time explicitly in the model to enhance the accuracy of financial product recommendation.
翻訳日:2023-08-03 12:32:19 公開日:2023-08-01
# BiERL: 双方向最適化によるメタ進化強化学習フレームワーク

BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel Optimization ( http://arxiv.org/abs/2308.01207v1 )

ライセンス: Link先を確認
Junyi Wang, Yuanyang Zhu, Zhi Wang, Yan Zheng, Jianye Hao, Chunlin Chen(参考訳) 進化的強化学習(英語版) (erl) アルゴリズムは近年、高並列性のために複雑な強化学習 (rl) 問題に取り組むことに注目が集まっているが、ハイパーパラメータ(メタパラメータとも呼ばれる)を慎重に調整することなく、探索やモデル崩壊が不十分な傾向がある。 本稿では,双レベル最適化(BiERL)による汎用的メタERLフレームワークを提案し,単一エージェント内でERLモデルをトレーニングするために並列にハイパーパラメータを更新する。 我々は,内部レベルの進化経験を情報的集団表現に組み込んだエレガントなメタレベルアーキテクチャを設計し,学習効率を高めるために,メタレベル適合関数の簡易かつ実現可能な評価を導入する。 我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。

Evolutionary reinforcement learning (ERL) algorithms recently raise attention in tackling complex reinforcement learning (RL) problems due to high parallelism, while they are prone to insufficient exploration or model collapse without carefully tuning hyperparameters (aka meta-parameters). In the paper, we propose a general meta ERL framework via bilevel optimization (BiERL) to jointly update hyperparameters in parallel to training the ERL model within a single agent, which relieves the need for prior domain knowledge or costly optimization procedure before model deployment. We design an elegant meta-level architecture that embeds the inner-level's evolving experience into an informative population representation and introduce a simple and feasible evaluation of the meta-level fitness function to facilitate learning efficiency. We perform extensive experiments in MuJoCo and Box2D tasks to verify that as a general framework, BiERL outperforms various baselines and consistently improves the learning performance for a diversity of ERL algorithms.
翻訳日:2023-08-03 12:31:30 公開日:2023-08-01
# 周期変調型連続量子熱機械における精度境界と最適制御

Precision bound and optimal control in periodically modulated continuous quantum thermal machines ( http://arxiv.org/abs/2204.14005v3 )

ライセンス: Link先を確認
Arpan Das, Shishira Mahunta, Bijay Kumar Agarwalla, and Victor Mukherjee(参考訳) Floquetフォーマリズムを用いて、周期的に変調された連続量子熱機械のゆらぎを研究する。 このような機械の一般的な理論を示し、次いで正弦波変調、最適変調、円周変調の具体例を示す。 熱力学的不確実性関係(TUR)は、考慮されたすべての変調に有効である。 興味深いことに、正弦波変調の場合、TUR比は熱機関の最低値から冷却器遷移点を仮定し、チョップランダム基底(CRAB)最適化プロトコルは、幅広い変調周波数に対して比を小さくすることができる。 さらに,より汎用的な変調方式において,turは冷凍機遷移に対する熱エンジンのシグネチャを示すことを示唆する。 また, 機械の効率の変動の限界についても検討し, 効率の変動は, 上から冷蔵庫に, 下からエンジンに限ることを示した。 本研究は,現実的な量子熱機械の設計において,様々な変調方式が果たす重要な役割を強調した。

We use Floquet formalism to study fluctuations in periodically modulated continuous quantum thermal machines. We present a generic theory for such machines, followed by specific examples of sinusoidal, optimal, and circular modulations respectively. The thermodynamic uncertainty relations (TUR) hold for all modulations considered. Interestingly, in the case of sinusoidal modulation, the TUR ratio assumes a minimum at the heat engine to refrigerator transition point, while the Chopped Random Basis (CRAB) optimization protocol allows us to keep the ratio small for a wide range of modulation frequencies. Furthermore, our numerical analysis suggests that TUR can show signatures of heat engine to refrigerator transition, for more generic modulation schemes. We also study bounds in fluctuations in the efficiencies of such machines; our results indicate that fluctuations in efficiencies are bounded from above for a refrigerator, and from below for an engine. Overall, this study emphasizes the crucial role played by different modulation schemes in designing practical quantum thermal machines.
翻訳日:2023-08-02 22:35:56 公開日:2023-08-01
# マルチビルディングとマルチフロア屋内ローカライゼーションのための多出力ガウスプロセスベースデータ拡張

Multi-Output Gaussian Process-Based Data Augmentation for Multi-Building and Multi-Floor Indoor Localization ( http://arxiv.org/abs/2202.01980v2 )

ライセンス: Link先を確認
Zhe Tang, Sihao Li, Kyeong Soo Kim, Jeremy Smith(参考訳) RSSIに基づく位置フィンガープリントは、特にWi-Fi対応デバイスの普及や、近代的な建物におけるユビキタスWi-Fiアクセスの頻度を考えると、新しいインフラの設置や既存機器の変更を必要としないという利点から、主要な屋内位置決め技術となっている。 DNNのようなAI/ML技術を使用することで、位置指紋の精度が向上し、信頼性が向上する。 しかし、DNNの屋内ローカライゼーションへの応用は、トレーニングのために大量の事前処理および意図的にラベル付けされたデータに依存する。 Considering the difficulty of the data collection in an indoor environment, especially under the current epidemic situation of COVID-19, we investigate three different methods of RSSI data augmentation based on Multi-Output Gaussian Process (MOGP), i.e., by a single floor, by neighboring floors, and by a single building; unlike Single-Output Gaussian Process (SOGP), MOGP can take into account the correlation among RSSI observations from multiple Access Points (APs) deployed closely to each other (e.g., APs on the same floor of a building) by collectively handling them. The feasibility of the MOGP-based RSSI data augmentation is demonstrated through experiments based on the state-of-the-art RNN indoor localization model and the UJIIndoorLoc, i.e., the most popular publicly-available multi-building and multi-floor indoor localization database, where the RNN model trained with the UJIIndoorLoc database augmented by using the whole RSSI data of a building in fitting an MOGP model (i.e., by a single building) outperforms the other two augmentation methods as well as the RNN model trained with the original UJIIndoorLoc database, resulting in the mean three-dimensional positioning error of 8.42 m.

Location fingerprinting based on RSSI becomes a mainstream indoor localization technique due to its advantage of not requiring the installation of new infrastructure and the modification of existing devices, especially given the prevalence of Wi-Fi-enabled devices and the ubiquitous Wi-Fi access in modern buildings. The use of AI/ML technologies like DNNs makes location fingerprinting more accurate and reliable, especially for large-scale multi-building and multi-floor indoor localization. The application of DNNs for indoor localization, however, depends on a large amount of preprocessed and deliberately-labeled data for their training. Considering the difficulty of the data collection in an indoor environment, especially under the current epidemic situation of COVID-19, we investigate three different methods of RSSI data augmentation based on Multi-Output Gaussian Process (MOGP), i.e., by a single floor, by neighboring floors, and by a single building; unlike Single-Output Gaussian Process (SOGP), MOGP can take into account the correlation among RSSI observations from multiple Access Points (APs) deployed closely to each other (e.g., APs on the same floor of a building) by collectively handling them. The feasibility of the MOGP-based RSSI data augmentation is demonstrated through experiments based on the state-of-the-art RNN indoor localization model and the UJIIndoorLoc, i.e., the most popular publicly-available multi-building and multi-floor indoor localization database, where the RNN model trained with the UJIIndoorLoc database augmented by using the whole RSSI data of a building in fitting an MOGP model (i.e., by a single building) outperforms the other two augmentation methods as well as the RNN model trained with the original UJIIndoorLoc database, resulting in the mean three-dimensional positioning error of 8.42 m.
翻訳日:2023-08-02 22:35:40 公開日:2023-08-01
# 量子放送チャンネル上の識別

Identification Over Quantum Broadcast Channels ( http://arxiv.org/abs/2201.11056v3 )

ライセンス: Link先を確認
Johannes Rosenberger, Christian Deppe, Uzi Pereg(参考訳) 量子放送チャンネル上の識別について検討する。 情報伝達タスクとは対照的に、デコーダは、選択したメッセージが送信されたかどうかのみを識別する。 この緩和により、コードサイズが2倍になる。 量子放送チャンネルに対して達成可能な識別領域を導出し、古典量子放送チャンネルのクラスに対する完全な特徴付けを行う。 その結果、シングルモード純損失ボソニック放送チャンネルの識別能力領域が得られる。 さらに、この結果が量子消去放送チャネルで実証され、この領域は最適でないが、最もよく知られた境界で改善される。

Identification over quantum broadcast channels is considered. As opposed to the information transmission task, the decoder only identifies whether a message of his choosing was sent or not. This relaxation allows for a double-exponential code size. An achievable identification region is derived for a quantum broadcast channel, and a full characterization for the class of classical-quantum broadcast channels. The identification capacity region of the single-mode pure-loss bosonic broadcast channel is obtained as a consequence. Furthermore, the results are demonstrated for the quantum erasure broadcast channel, where our region is suboptimal, but improves on the best previously known bounds.
翻訳日:2023-08-02 22:35:14 公開日:2023-08-01
# 強化学習ツールとしての多目的政策最適化について:オフラインRLとファインタニングを事例として

On Multi-objective Policy Optimization as a Tool for Reinforcement Learning: Case Studies in Offline RL and Finetuning ( http://arxiv.org/abs/2106.08199v2 )

ライセンス: Link先を確認
Abbas Abdolmaleki, Sandy H. Huang, Giulia Vezzani, Bobak Shahriari, Jost Tobias Springenberg, Shruti Mishra, Dhruva TB, Arunkumar Byravan, Konstantinos Bousmalis, Andras Gyorgy, Csaba Szepesvari, Raia Hadsell, Nicolas Heess, Martin Riedmiller(参考訳) ディープ強化学習(RL)アルゴリズムの堅牢性や効率性を改善した多くの進歩は、政策最適化ステップで追加の目的や制約を導入するものとして理解することができる。 これには、探索ボーナス、エントロピー正規化、教師やデータ事前に対する正規化など、幅広いアイデアが含まれている。 課題報酬と補助目的は相反することが多く、本稿ではこれらのケースを多目的最適化問題(MO)の事例として扱うことが自然であると論じる。 この視点によって、より新しくより効率的なRLアルゴリズムが開発できることを示す。 特に,オフラインrlと微調整をケーススタディとして重視し,既存の手法が線形スカラー化に依存するmoアルゴリズムとして理解可能であることを示す。 線形スカラー化をより良いアルゴリズムで置き換えることで、性能を向上させることができると仮定する。 本稿では, 線形スカラー化よりも優れ, 非標準mo問題に適用可能な新しいmorlアルゴリズムであるdime(distillation of a mixture of experts)について紹介する。 オフラインrlでは、dimeは最先端技術を上回る単純な新しいアルゴリズムをもたらすことを実証する。 微調整のために,教師の方針を上回る新しいアルゴリズムを導出する。

Many advances that have improved the robustness and efficiency of deep reinforcement learning (RL) algorithms can, in one way or another, be understood as introducing additional objectives or constraints in the policy optimization step. This includes ideas as far ranging as exploration bonuses, entropy regularization, and regularization toward teachers or data priors. Often, the task reward and auxiliary objectives are in conflict, and in this paper we argue that this makes it natural to treat these cases as instances of multi-objective (MO) optimization problems. We demonstrate how this perspective allows us to develop novel and more effective RL algorithms. In particular, we focus on offline RL and finetuning as case studies, and show that existing approaches can be understood as MO algorithms relying on linear scalarization. We hypothesize that replacing linear scalarization with a better algorithm can improve performance. We introduce Distillation of a Mixture of Experts (DiME), a new MORL algorithm that outperforms linear scalarization and can be applied to these non-standard MO problems. We demonstrate that for offline RL, DiME leads to a simple new algorithm that outperforms state-of-the-art. For finetuning, we derive new algorithms that learn to outperform the teacher policy.
翻訳日:2023-08-02 22:34:46 公開日:2023-08-01
# $SU(\infty)$ Quantum Gravity: Infinitely Divisible Quantum Universeにおける重力の発生

$SU(\infty)$ Quantum Gravity: Emergence of Gravity in an Infinitely Divisible Quantum Universe ( http://arxiv.org/abs/2301.02813v3 )

ライセンス: Link先を確認
Houri Ziaeepour(参考訳) SU(\infty)$-QGR は重力に対する基本的な量子的アプローチである。 これは、宇宙全体のヒルベルト空間とその部分系が対称性群 $SU(\infty)$ を表すと仮定する。 ユニバースは任意の有限ランク対称性群$G$に基づいて無限個のサブシステムに分けられ、これは量子的ゆらぎと状態のクラスタリングによって生じる。 2つの任意の部分系をクロックと参照オブザーバとして選択した後、サブシステムは相対力学を取得し、重力はサブシステムのヒルベルト空間の3+1次元パラメータ空間上で定義される$SU(\infty)$ Yang-Mills量子場理論として現れる。 ヤン・ミルズモデル $SU(\infty)$-QGR は再正規化可能であり、量子レベルでのスピン-1場の重力の予測にも拘わらず、QGR効果が検出できない場合、アインシュタイン重力と同様の知覚を受ける。 本研究の目的は、$SU(\infty)$-QGRの基礎をより詳細に研究し、その構成と性質のギャップを埋めることである。 特に、大域的な$SU(\infty)$対称性は、宇宙の他の部分系と全ての部分系の絡み合いを通して現れることを示す。 さらに、パラメータ空間の幾何の無関係性を証明し、無関係な定数までをゲージアウトできることを示す。 その結果、古典時空は量子化されず、また非可換とみなすため、ゲージ重力双対モデルから \sqgr~は逸脱する。 実際、量子不確実性関係を用いて、古典時空とその知覚幾何がそのパラメータ空間におけるサブシステムの量子状態の平均経路を示すことを証明している。 このようにして、$SU(\infty)$-QGR は古典時空の次元と符号の両方を説明する。 ダークエネルギーのsu(\infty)$-qgr特定モデルについて簡単に論じる。

$SU(\infty)$-QGR is a foundationally quantum approach to gravity. It assumes that Hilbert spaces of the Universe as a whole and its subsystems represent the symmetry group $SU(\infty)$. The Universe is divided to infinite number of subsystems based on an arbitrary finite rank symmetry group $G$, which arises due to quantum fluctuations and clustering of states. After selection of two arbitrary subsystems as clock and reference observer, subsystems acquire a relative dynamics, and gravity emerges as a $SU(\infty)$ Yang-Mills quantum field theory, defined on the (3+1)-dimensional parameter space of the Hilbert spaces of subsystems. As a Yang-Mills model $SU(\infty)$-QGR is renormalizable and despite prediction of a spin-1 field for gravity at quantum level, when QGR effects are not detectable, it is perceived similar to Einstein gravity. The aim of present work is to study the foundation of $SU(\infty)$-QGR in more details and to fill the gaps in its construction and properties. In particular, we show that the global $SU(\infty)$ symmetry manifests itself through the entanglement of every subsystem with the rest of the Universe. Moreover, we demonstrate irrelevance of the geometry of parameter space and prove that up to an irrelevant constant it can be gauged out. Consequently, \sqgr~deviates from gauge-gravity duality models, because the perceived classical spacetime is neither quantized, nor considered to be non-commutative. In fact, using quantum uncertainty relations, we demonstrate that the classical spacetime and its perceived geometry present the average path of the ensemble of quantum states of subsystems in their parameter space. In this way $SU(\infty)$-QGR explains both dimension and signature of the classical spacetime. We briefly discuss $SU(\infty)$-QGR specific models for dark energy.
翻訳日:2023-08-02 22:30:47 公開日:2023-08-01
# デコヒーレントターゲットを用いたgbs量子コンピュータの検証試験による量子優位性の証明

Validation tests of GBS quantum computers give evidence for quantum advantage with a decoherent target ( http://arxiv.org/abs/2211.03480v5 )

ライセンス: Link先を確認
Alexander S. Dellios, Bogdan Opanchuk, Margaret D. Reid and Peter D. Drummond(参考訳) 計算の検証は全ての大規模量子コンピュータにとって不可欠である。 高速で正確なコンピュータが必要だ。 ここでは,大規模ガウスボソンサンプリング(GBS)量子コンピュータのデータに対して,高精度でスケーラブルで高次な統計的テストを適用する。 これらのテストは、そのような技術の出力結果を検証するために使用することができる。 本手法は、精度と量子アドバンテージの検証を可能にする。 このような問題は、これまで詳しくは調査されていない。 高度にスケーラブルな手法は線形ボソニックネットワークの他の応用にも応用できる。 我々は、多モードデータ検証のための指紋として、グループカウント確率(GCP)の正P位相空間シミュレーションを利用する。 これはサンプリングエラーがはるかに少ないため、他の位相空間法よりも指数関数的に効率的である。 指数関数的に多くの高次グループカウントテストからランダムにテストを生成する。 これらのそれぞれを効率的に測定し、シミュレートすることができ、古典的に複製することが難しい量子検証方法を提供する。 理論を144チャンネルのgbs実験と詳細に比較し,最大値までの相関を分類した。 偽データを無効にする方法を示し、これを古典的なカウントアルゴリズムに適用する。 分布の忠実度と計算複雑性を評価するための複数の距離測度がある。 これらを計算して説明する。 データに最も適しているのは部分的に熱化されたガウスモデルであり、これは理想的なケースでも古典的に計算可能な数を与えるモデルでもない。 このモデルでも、$z>100$の差が$\chi^2$テストから観測され、パラメータ推定誤差が示唆された。 総数分布は古典モデルよりも熱化された量子モデルにかなり近いため、修正対象問題に対する量子計算の利点と一致する証拠が得られた。

Computational validation is vital for all large-scale quantum computers. One needs computers that are both fast and accurate. Here we apply precise, scalable, high order statistical tests to data from large Gaussian boson sampling (GBS) quantum computers that claim quantum computational advantage. These tests can be used to validate the output results for such technologies. Our method allows investigation of accuracy as well as quantum advantage. Such issues have not been investigated in detail before. Our highly scalable technique is also applicable to other applications of linear bosonic networks. We utilize positive-P phase-space simulations of grouped count probabilities (GCP) as a fingerprint for verifying multi-mode data. This is exponentially more efficient than other phase-space methods, due to much lower sampling errors. We randomly generate tests from exponentially many high-order, grouped count tests. Each of these can be efficiently measured and simulated, providing a quantum verification method that is hard to replicate classically. We give a detailed comparison of theory with a 144-channel GBS experiment, including grouped correlations up to the largest order measured. We show how one can disprove faked data, and apply this to a classical count algorithm. There are multiple distance measures for evaluating the fidelity and computational complexity of a distribution. We compute these and explain them. The best fit to the data is a partly thermalized Gaussian model, which is neither the ideal case, nor the model that gives classically computable counts. Even with this model, discrepancies of $Z>100$ were observed from some $\chi^2$ tests, indicating likely parameter estimation errors. Total count distributions were much closer to a thermalized quantum model than the classical model, giving evidence consistent with quantum computational advantage for a modified target problem.
翻訳日:2023-08-02 22:30:12 公開日:2023-08-01
# 運動量空間におけるヒルベルト空間の断片化から生じる永続電流状態

Persistent-current states originating from the Hilbert space fragmentation in momentum space ( http://arxiv.org/abs/2211.00785v3 )

ライセンス: Link先を確認
Masaya Kunimi and Ippei Danshita(参考訳) ヒルベルト空間フラグメンテーション (Hilbert space fragmentation, HSF) は、孤立量子系のヒルベルト空間が指数的に多くの非連結部分集合に分裂する現象である。 分裂した系は、ダイナミクスが小さなサブセクタに制限されるため、長期間の進化の後に熱化することはない。 HSFの最近の発展に触発されて、運動量空間において HSF を示すハミルトニアンを構成する。 運動量空間のHSFにより、持続電流(PC)状態が出現することを示す。 また,hsfの構造を破る確率ポテンシャルに対するpc状態の安定性についても検討し,pcの減衰速度が電流速度にほぼ依存していることを見いだした。

Hilbert space fragmentation (HSF) is a phenomenon that the Hilbert space of an isolated quantum system splits into exponentially many disconnected subsectors. The fragmented systems do not thermalize after long-time evolution because the dynamics are restricted to a small subsector. Inspired by recent developments of the HSF, we construct the Hamiltonian that exhibits the HSF in the momentum space. We show that persistent-current (PC) states emerge due to the HSF in the momentum space. We also investigate the stability of the PC states against the random potential, which breaks the structure of the HSF, and find that the decay rate of the PC is almost independent of the current velocity.
翻訳日:2023-08-02 22:29:47 公開日:2023-08-01
# 自己組織化による空間流体適応サンプリング

Space-Fluid Adaptive Sampling by Self-Organisation ( http://arxiv.org/abs/2210.17505v3 )

ライセンス: Link先を確認
Roberto Casadei, Stefano Mariani, Danilo Pianini, Mirko Viroli, Franco Zambonelli(参考訳) 座標系におけるリカレントタスクは、分散センシングデータや計算結果など、空間的に異なる信号を管理する(推定、予測、制御)ことである。 特に大規模な環境では、ノードは局所的に知覚し、処理し、信号に作用し、近隣と協調して集団戦略を実装することができる。 そこで本研究では,協調型適応サンプリングによる空間現象推定のための分散協調戦略を考案する。 我々の設計は、空間を競合する領域に動的に分割し、正確な集計を行うという考え方に基づいている。 このような領域は、その構造が基礎となる現象によって作用する圧力に応じて適応するため、「流動」であるある種の仮想空間を定義する。 フィールドベースのコーディネーションフレームワークにおいて適応サンプリングアルゴリズムを提供し,自己安定化的で局所最適であることを証明した。 最後に,提案手法が精度と効率のトレードオフを維持しつつ,空間適応サンプリングを効果的に行うことをシミュレーションにより検証する。

A recurrent task in coordinated systems is managing (estimating, predicting, or controlling) signals that vary in space, such as distributed sensed data or computation outcomes. Especially in large-scale settings, the problem can be addressed through decentralised and situated computing systems: nodes can locally sense, process, and act upon signals, and coordinate with neighbours to implement collective strategies. Accordingly, in this work we devise distributed coordination strategies for the estimation of a spatial phenomenon through collaborative adaptive sampling. Our design is based on the idea of dynamically partitioning space into regions that compete and grow/shrink to provide accurate aggregate sampling. Such regions hence define a sort of virtualised space that is "fluid", since its structure adapts in response to pressure forces exerted by the underlying phenomenon. We provide an adaptive sampling algorithm in the field-based coordination framework, and prove it is self-stabilising and locally optimal. Finally, we verify by simulation that the proposed algorithm effectively carries out a spatially adaptive sampling while maintaining a tuneable trade-off between accuracy and efficiency.
翻訳日:2023-08-02 22:29:35 公開日:2023-08-01
# コルモゴロフ流のデータ駆動低次元動的モデル

Data-driven low-dimensional dynamic model of Kolmogorov flow ( http://arxiv.org/abs/2210.16708v2 )

ライセンス: Link先を確認
Carlos E. P\'erez De Jes\'us, Michael D. Graham(参考訳) 流れのダイナミクスを捉える低次モデル (ROM) は、シミュレーションやモデルに基づく制御手法の計算コストの削減に重要である。 この研究は、フローのダイナミクスと特性を効果的にキャプチャする最小次元モデルのためのデータ駆動フレームワークを示す。 我々は,多くのフロープロセスでよく見られるカオス的かつ断続的行動からなる状態におけるコルモゴロフ流れに適用し,モデル化が困難である。 流れの軌跡は相対周期軌道(RPOs)付近を移動し、RPOを含む領域間の遠心分離に対応する散発的なバースト現象と交わる。 モデルの開発の最初のステップは、完全な状態データから劇的に低い次元の潜在空間にマップするために、未完成のオートエンコーダを使用することである。 その後、潜在空間における力学の離散時間発展のモデルが開発される。 モデル性能を潜在空間次元の関数として解析することにより、系力学を捉えるのに必要な最小次元数を推定できる。 動的モデルの次元をさらに小さくするため,流れの翻訳不変性の方向の位相変数を導出し,パターンと位相の分離した進化方程式を導出する。 パターン力学のモデル次元5では、1024(すなわち32x32格子)の完全な状態次元とは対照的に、個々の軌跡の正確な予測はリャプノフの約2倍の時間と長期間の統計に見出される。 結果のさらなる小さな改善は、9次元で起こります。 異なるRPO間のほぼヘテロクリニックな接続は、キネッセンスとバーストの時間スケールを含む、よく捉えられている。 フェーズダイナミクスの重要な特徴も捉えています。 最後に、低次元表現を使用して将来のバーストイベントを予測し、良好な成功を見出す。

Reduced order models (ROMs) that capture flow dynamics are of interest for decreasing computational costs for simulation as well as for model-based control approaches. This work presents a data-driven framework for minimal-dimensional models that effectively capture the dynamics and properties of the flow. We apply this to Kolmogorov flow in a regime consisting of chaotic and intermittent behavior, which is common in many flows processes and is challenging to model. The trajectory of the flow travels near relative periodic orbits (RPOs), interspersed with sporadic bursting events corresponding to excursions between the regions containing the RPOs. The first step in development of the models is use of an undercomplete autoencoder to map from the full state data down to a latent space of dramatically lower dimension. Then models of the discrete-time evolution of the dynamics in the latent space are developed. By analyzing the model performance as a function of latent space dimension we can estimate the minimum number of dimensions required to capture the system dynamics. To further reduce the dimension of the dynamical model, we factor out a phase variable in the direction of translational invariance for the flow, leading to separate evolution equations for the pattern and phase. At a model dimension of five for the pattern dynamics, as opposed to the full state dimension of 1024 (i.e. a 32x32 grid), accurate predictions are found for individual trajectories out to about two Lyapunov times, as well as for long-time statistics. Further small improvements in the results occur at a dimension of nine. The nearly heteroclinic connections between the different RPOs, including the quiescent and bursting time scales, are well captured. We also capture key features of the phase dynamics. Finally, we use the low-dimensional representation to predict future bursting events, finding good success.
翻訳日:2023-08-02 22:29:18 公開日:2023-08-01
# 結晶性量子回路

Crystalline Quantum Circuits ( http://arxiv.org/abs/2210.10808v3 )

ライセンス: Link先を確認
Grace M. Sommers, David A. Huse, Michael J. Gullans(参考訳) ランダム量子回路は量子情報科学や多体量子物理学の幅広い応用を刺激し続けているが、確率論的手法によって解析的に追跡可能である。 同様の応用を持つ決定論的回路に関心を持ち、時間と空間の両方で変換不変性を付与することにより、単項クリフォード回路のクラスを構築する。 さらに、この回路は2量子ビットゲートをスワップまたはイスワップし、エッジに1量子ビットゲートを含むことができる結晶的時空格子となる。 すると、結晶の点群(部分群)の下で不変性を要求することができる。 正方形およびカゴメ格子の研究では、クリフォード量子セルオートマトン(clifford quantum cellular automata)の形式化を用いて、これらの回路の演算子の拡散、絡み合い生成、再帰時間を記述する。 正方格子上の完全な分類は、特に「非フラクタルな良いスクランブルクラス」であり、回路の終端における消去誤差の下で線形な符号距離と高い性能を持つコードを生成する密度の高い演算子を拡散させる。 また、時空変換不変の測定を加えてユニタリティを破り、フラクタル力学を持つそのような回路のクラスを見つける。

Random quantum circuits continue to inspire a wide range of applications in quantum information science and many-body quantum physics, while remaining analytically tractable through probabilistic methods. Motivated by an interest in deterministic circuits with similar applications, we construct classes of \textit{nonrandom} unitary Clifford circuits by imposing translation invariance in both time and space. Further imposing dual-unitarity, our circuits effectively become crystalline spacetime lattices whose vertices are SWAP or iSWAP two-qubit gates and whose edges may contain one-qubit gates. One can then require invariance under (subgroups of) the crystal's point group. Working on the square and kagome lattices, we use the formalism of Clifford quantum cellular automata to describe operator spreading, entanglement generation, and recurrence times of these circuits. A full classification on the square lattice reveals, of particular interest, a "nonfractal good scrambling class" with dense operator spreading that generates codes with linear contiguous code distance and high performance under erasure errors at the end of the circuit. We also break unitarity by adding spacetime-translation-invariant measurements and find a class of such circuits with fractal dynamics.
翻訳日:2023-08-02 22:28:49 公開日:2023-08-01
# 高次例外点への近接による絡み合い発生の高速化

Speeding up entanglement generation by proximity to higher-order exceptional points ( http://arxiv.org/abs/2210.05048v2 )

ライセンス: Link先を確認
Zeng-Zhao Li, Weijian Chen, Maryam Abbasi, Kater W. Murch, and K. Birgitta Whaley(参考訳) 絡み合いは量子センシングから量子コンピューティングまで、量子情報技術の鍵となるリソースである。 従来、2つの結合量子ビット間の絡み合いは、結合強度の逆の時間スケールで確立されていた。 本研究では,二つの弱結合非エルミート量子ビットを解析し,高次例外点に近接して,非常に短い時間スケールでエンタングルメント生成を観測する。 非エルミート摂動理論は、生物直交完全基底の構築に基づいて成立し、最大絡み合う状態を得るための最適条件をさらに特定する。 非エルミート量子システムにおける絡み合い生成の高速化に関する研究は、コヒーレントな非一元的散逸を量子技術に利用するための新しい道を開く。

Entanglement is a key resource for quantum information technologies ranging from quantum sensing to quantum computing. Conventionally, the entanglement between two coupled qubits is established at the time scale of the inverse of the coupling strength. In this work, we study two weakly coupled non-Hermitian qubits and observe entanglement generation at a significantly shorter time scale by proximity to a higher-order exceptional point. We establish a non-Hermitian perturbation theory based on constructing a biorthogonal complete basis and further identify the optimal condition to obtain the maximally entangled state. Our study of speeding up entanglement generation in non-Hermitian quantum systems opens new avenues for harnessing coherent nonunitary dissipation for quantum technologies.
翻訳日:2023-08-02 22:28:26 公開日:2023-08-01
# 無線チャネル割り当て問題に対する量子ビット削減と量子スピードアップ

Qubit Reduction and Quantum Speedup for Wireless Channel Assignment Problem ( http://arxiv.org/abs/2208.05181v2 )

ライセンス: Link先を確認
Yuki Sano, Masaya Norimoto, Naoki Ishikawa(参考訳) 本稿では、Grover Adaptive Search(GAS)を用いて、NPハード無線チャネル割り当て問題を高階非制約バイナリ最適化(HUBO)として定式化する方法を提案する。 従来の方法はチャネルインデックスの1ホット符号化に依存しており、二次的な定式化をもたらす。 対照的に、チャネルインデックスの昇降と下降のバイナリエンコーディングを考案し、特定の量子回路を構築し、GASが要求するキュービットとゲートの正確な数を導出する。 提案手法は,従来の2次定式化に比べて,キュービット数とクエリの複雑さを有意に低減することを示す。 この利点は量子ゲート数の増加のコストで達成でき、提案する下降バイナリエンコーディングによって削減できることを実証する。

In this paper, we propose a novel method of formulating an NP-hard wireless channel assignment problem as a higher-order unconstrained binary optimization (HUBO), where the Grover adaptive search (GAS) is used to provide a quadratic speedup for solving the problem. The conventional method relies on a one-hot encoding of the channel indices, resulting in a quadratic formulation. By contrast, we conceive ascending and descending binary encodings of the channel indices, construct a specific quantum circuit, and derive the exact numbers of qubits and gates required by GAS. Our analysis clarifies that the proposed HUBO formulation significantly reduces the number of qubits and the query complexity compared with the conventional quadratic formulation. This advantage is achieved at the cost of an increased number of quantum gates, which we demonstrate can be reduced by our proposed descending binary encoding.
翻訳日:2023-08-02 22:28:14 公開日:2023-08-01
# 予熱多体局在レジームの現象

Phenomenology of the Prethermal Many-Body Localized Regime ( http://arxiv.org/abs/2207.05761v2 )

ライセンス: Link先を確認
David M. Long, Philip J. D. Crowley, Vedika Khemani, Anushya Chandran(参考訳) 相互作用する無秩序システムの動的位相図は、ここ数年で大幅に改訂されている。 現在理論は、熱化が極めて遅いが完全には逮捕されていない大規模な熱水性多体局在(MBL)体制を考慮しなければならない。 連続多体共鳴のモデルを用いた短距離一次元系におけるこれらのダイナミクスの定量的記述を導出する。 このモデルは、平均自己相関子の減衰時間スケール、減衰の関数形式(伸長指数関数)を説明し、伸縮指数の値と共鳴時間スケールの広い分布を関連付ける。 行列対角化のヤコビ法はこの分布への数値的アクセスと解析のための概念的枠組みを提供する。 共振モデルは、文献におけるいくつかのモデルのストレッチ指数を正確に予測する。 連続共鳴は、高次元の強無秩序系や長距離相互作用の遅い熱分解にも影響する。

The dynamical phase diagram of interacting disordered systems has seen substantial revision over the past few years. Theory must now account for a large prethermal many-body localized (MBL) regime in which thermalization is extremely slow, but not completely arrested. We derive a quantitative description of these dynamics in short-ranged one-dimensional systems using a model of successive many-body resonances. The model explains the decay timescale of mean autocorrelators, the functional form of the decay - a stretched exponential - and relates the value of the stretch exponent to the broad distribution of resonance timescales. The Jacobi method of matrix diagonalization provides numerical access to this distribution, as well as a conceptual framework for our analysis. The resonance model correctly predicts the stretch exponents for several models in the literature. Successive resonances may also underlie slow thermalization in strongly disordered systems in higher dimensions, or with long-range interactions.
翻訳日:2023-08-02 22:27:59 公開日:2023-08-01
# 閉塞性自律運転における目標認識の検証

Verifiable Goal Recognition for Autonomous Driving with Occlusions ( http://arxiv.org/abs/2206.14163v2 )

ライセンス: Link先を確認
Cillian Brewitt, Massimiliano Tamborski, Cheng Wang, Stefano V. Albrecht(参考訳) ゴール認識(GR)は、特定のジャンクション出口などの他の車両の目標を推測することを含み、将来の行動をより正確に予測することができる。 自動運転車では、車両は多くの異なるシナリオに遭遇し、環境は閉塞のため部分的に観察可能である。 我々は,OGRIT (Occlusion) 下での解釈木を用いたゴール認識という新しいGR法を提案する。 OGRITは、車両軌道データから学習した決定木を用いて、生成された目標の集合の確率を推定する。 ogritはオクルージョンによるデータの欠落を処理でき、同じ学習した決定木を使って複数のシナリオをまたいで推論できるが、計算速度は速く、正確で、解釈可能であり、検証可能である。 また,OGRITの評価に使用される隠蔽領域のinDO,rounDO,OpenDDOデータセットもリリースした。

Goal recognition (GR) involves inferring the goals of other vehicles, such as a certain junction exit, which can enable more accurate prediction of their future behaviour. In autonomous driving, vehicles can encounter many different scenarios and the environment may be partially observable due to occlusions. We present a novel GR method named Goal Recognition with Interpretable Trees under Occlusion (OGRIT). OGRIT uses decision trees learned from vehicle trajectory data to infer the probabilities of a set of generated goals. We demonstrate that OGRIT can handle missing data due to occlusions and make inferences across multiple scenarios using the same learned decision trees, while being computationally fast, accurate, interpretable and verifiable. We also release the inDO, rounDO and OpenDDO datasets of occluded regions used to evaluate OGRIT.
翻訳日:2023-08-02 22:27:44 公開日:2023-08-01
# 弱減衰マルチサイト浴による低温熱処理

Thermalization at Low Temperatures via Weakly-Damped Multi-Site Baths ( http://arxiv.org/abs/2304.08525v2 )

ライセンス: Link先を確認
Cristian Zanoci, Yongchan Yoo, Brian Swingle(参考訳) 浴槽に結合した一次元開量子系の熱化特性について検討した。 浴槽はリンドブラッド作用素を介して熱状態に駆動され、システムはハミルトン動力学を実行する。 具体的には,多地点浴について検討し,浴槽が設定した一定の温度で,後期定常状態がギブス状態と類似する程度について検討する。 我々は,自由フェルミオン技術によってアクセス可能な非相互作用フェルミオンモデルと,テンソルネットワーク法でアクセス可能なxzモデルとカイラルクロックモデルという3つの相互作用モデルについて検討した。 弱いカップリングと緩やかな緩和限界に向かって調整することで,浴槽の大きさが十分大きい場合,システムの大部分で低温を発生させることができることを示す。 従来報告したよりも低温でのxzモデルにおけるエネルギー輸送の研究にこの能力を用いる。 我々の研究は、低温でオープン量子システムと相互作用する将来の研究の道を開く。

We study the thermalization properties of one-dimensional open quantum systems coupled to baths at their boundary. The baths are driven to their thermal states via Lindblad operators, while the system undergoes Hamiltonian dynamics. We specifically consider multi-site baths and investigate the extent to which the late-time steady state resembles a Gibbs state at some controllable temperature set by the baths. We study three models: a non-interacting fermion model accessible via free-fermion technology, and two interacting models, the XZ model and the chiral clock model, which are accessible via tensor network methods. We show that, by tuning towards the weak coupling and slow relaxation limits, one can engineer low temperatures in the bulk of the system provided the bath size is big enough. We use this capability to study energy transport in the XZ model at lower temperatures than previously reported. Our work paves the way for future studies of interacting open quantum systems at low temperatures.
翻訳日:2023-08-02 22:22:14 公開日:2023-08-01
# $\tilde{\mathcal{o}}$:漸近的に優れているが、実用的でない量子分散アルゴリズム

Mind the $\tilde{\mathcal{O}}$: Asymptotically Better, but Still Impractical, Quantum Distributed Algorithms ( http://arxiv.org/abs/2304.02825v6 )

ライセンス: Link先を確認
Phillip A. Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel(参考訳) CONGESTとCONGEST-CLIQUEモデルは、ネットワーク内のプロセッサ間の通信帯域幅が著しく制限されている状況を表現するために慎重に研究されている。 O(log(n))$ビットの情報のみのメッセージは、各ラウンドのプロセッサ間で送信することができる。 これらのモデルの量子バージョンにより、プロセッサは同じ帯域制限下で量子ビットと通信し、計算することができる。 古典量子モデルよりもこれらの量子モデルでより効率的に解くことができる問題は何か? 既存の作業に基づいて、私たちはこの質問に2つの方法で貢献します。 まず, 分散計算の量子連続格子モデルにおいて, ほぼ最適なスタイナーツリーを生成するためのアルゴリズムと, ネットワーク内のノード数を$n$とする$\tilde{o}(n^{1/4})$ rounds と$\tilde{o}(n^{9/4})$メッセージを使用する完全有向最小スパンニングツリーを生成するアルゴリズムの2つのアルゴリズムを提案する。 したがって、このアルゴリズムは古典集合-ユークリッドモデルにおける既知のアルゴリズムよりも低い漸近的ラウンドとメッセージ複雑性を達成する。 高レベルでは、古典的アルゴリズムフレームワークと量子サブルーチンを組み合わせることで、これらの結果を達成する。 Groverの検索アルゴリズムの分散バージョンを使用して三角形探索を高速化する既存のフレームワークは、漸近的スピードアップの中核にある。 第二に、我々のアルゴリズムと関連するアルゴリズムにかかわる定数と対数要素を慎重に特徴づけるが、そうでなければ$\tilde{O}$表記法でよく分からない。 この分析は、我々の量子アルゴリズムと既存の量子アルゴリズムと古典アルゴリズムの両方を実用的にするためにいくつかの改善が必要であることを示している。

The CONGEST and CONGEST-CLIQUE models have been carefully studied to represent situations where the communication bandwidth between processors in a network is severely limited. Messages of only $O(log(n))$ bits of information each may be sent between processors in each round. The quantum versions of these models allow the processors instead to communicate and compute with quantum bits under the same bandwidth limitations. This leads to the following natural research question: What problems can be solved more efficiently in these quantum models than in the classical ones? Building on existing work, we contribute to this question in two ways. Firstly, we present two algorithms in the Quantum CONGEST-CLIQUE model of distributed computation that succeed with high probability; one for producing an approximately optimal Steiner Tree, and one for producing an exact directed minimum spanning tree, each of which uses $\tilde{O}(n^{1/4})$ rounds of communication and $\tilde{O}(n^{9/4})$ messages, where $n$ is the number of nodes in the network. The algorithms thus achieve a lower asymptotic round and message complexity than any known algorithms in the classical CONGEST-CLIQUE model. At a high level, we achieve these results by combining classical algorithmic frameworks with quantum subroutines. An existing framework for using distributed version of Grover's search algorithm to accelerate triangle finding lies at the core of the asymptotic speedup. Secondly, we carefully characterize the constants and logarithmic factors involved in our algorithms as well as related algorithms, otherwise commonly obscured by $\tilde{O}$ notation. The analysis shows that some improvements are needed to render both our and existing related quantum and classical algorithms practical, as their asymptotic speedups only help for very large values of $n$.
翻訳日:2023-08-02 22:21:57 公開日:2023-08-01
# 一次元ボゾン系におけるKac-Moody対称性

Kac-Moody symmetries in one-dimensional bosonic systems ( http://arxiv.org/abs/2304.00609v3 )

ライセンス: Link先を確認
Wei Tang, Jutho Haegeman(参考訳) 共形場の理論では、共形対称性が大域リー群対称性によって拡張されると、元のヴィラソロ代数はカック・ムーディ代数に拡張できる。 本稿では,Wangらで導入されたKac-Moodyジェネレータ(Phys. Rev. B. 106, 115111 (2022))の格子構造を連続系に拡張し,それを1次元連続ボソン系に適用する。 我々は、カク・ムーディー・ジェネレータのこの微細構造を2つの方法で正当化する。 まず、現象的ボゾン化を通じて、共形場理論におけるKac-Moody生成と関連するボゾン化文脈におけるボゾン作用素の観点から、微視的な構造を表現する。 次に,可積分リーブ・ライニガーモデルにおけるKac-Moody生成体の挙動について検討し,その基礎となる粒子ホール励起像をBetheアンザッツ溶液で明らかにした。 最後に、連続行列積状態シミュレーションにおいて、Kac-Moodyジェネレータの計算を検証し、より困難な非可積分系への道を開く。

In conformal field theories, when the conformal symmetry is enhanced by a global Lie group symmetry, the original Virasoro algebra can be extended to Kac-Moody algebra. In this paper, we extend the lattice construction of the Kac-Moody generators introduced in Wang et al., [Phys. Rev. B. 106, 115111 (2022)] to continuous systems and apply it to one-dimensional continuous boson systems. We justify this microscopic construction of Kac-Moody generators in two ways. First, through phenomenological bosonization, we express the microscopic construction in terms of the boson operators in the bosonization context, which can be related to the Kac-Moody generators in conformal field theories. Second, we study the behavior of the Kac-Moody generators in the integrable Lieb-Liniger model, and reveal its underlying particle-hole excitation picture through Bethe ansatz solutions. Finally, we test the computation of the Kac-Moody generator in the continuous matrix product state simulations, paving the way for more challenging non-integrable systems.
翻訳日:2023-08-02 22:21:21 公開日:2023-08-01
# カーネル補間は貧弱を一般化する

Kernel interpolation generalizes poorly ( http://arxiv.org/abs/2303.15809v2 )

ライセンス: Link先を確認
Yicheng Li, Haobo Zhang and Qian Lin(参考訳) カーネルレグレッションにおける最近の研究のルネサンスにおける最も興味深い問題の1つは、ディープネットワークの文献で報告されている「良性過剰なヘノメノン」を理解するのに役立つので、カーネル補間がうまく一般化できるかどうかである。 本稿では、穏やかな条件下では、任意の$\varepsilon>0$に対して、カーネル補間一般化誤差が$\Omega(n^{-\varepsilon})$で下界であることが示される。 言い換えると、カーネル補間は、大きなクラスのカーネルに対して不十分に一般化する。 直接系として、球面上に定義された過剰に適合した広帯域ニューラルネットワークは一般化が不十分であることを示すことができる。

One of the most interesting problems in the recent renaissance of the studies in kernel regression might be whether the kernel interpolation can generalize well, since it may help us understand the `benign overfitting henomenon' reported in the literature on deep networks. In this paper, under mild conditions, we show that for any $\varepsilon>0$, the generalization error of kernel interpolation is lower bounded by $\Omega(n^{-\varepsilon})$. In other words, the kernel interpolation generalizes poorly for a large class of kernels. As a direct corollary, we can show that overfitted wide neural networks defined on the sphere generalize poorly.
翻訳日:2023-08-02 22:21:00 公開日:2023-08-01
# 凸制約下における線形力学系の学習

Learning linear dynamical systems under convex constraints ( http://arxiv.org/abs/2303.15121v2 )

ライセンス: Link先を確認
Hemant Tyagi and Denis Efimov(参考訳) 1つの軌道の$t$サンプルから線形力学系の有限時間同定の問題を考える。 最近の結果は、システム行列 $A^* \in \mathbb{R}^{n \times n}$ に構造的仮定が存在しないような設定に主に焦点を合わせ、その結果、通常の最小二乗推定器(OLS)を詳細に分析した。 A^*$ に関する以前の構造情報は、$A^*$ を含む凸集合 $\mathcal{K}$ の形で取得できると仮定する。 制約付き最小二乗推定子の解に対しては、フロベニウスノルムにおける非漸近的誤差境界を導出し、これは$a^*$ で $\mathcal{k}$ の局所サイズに依存する。 これらの結果の有用性を説明するために,これらを3つの例,すなわちいつインスタンス化する。 (i)$A^*$はスパースで$\mathcal{K}$は適切なスケールの$\ell_1$ボールである。 (ii) $\mathcal{K}$ は部分空間である。 (iii)$\mathcal{K}$は、一様$n \times n$ grid(凸回帰)上の二変数凸関数をサンプリングすることによって形成される行列からなる。 これらの全ての状況において、$a^*$ は、制約のない設定に必要な値よりもずっと小さい値に対して確実に推定できることを示した。

We consider the problem of finite-time identification of linear dynamical systems from $T$ samples of a single trajectory. Recent results have predominantly focused on the setup where no structural assumption is made on the system matrix $A^* \in \mathbb{R}^{n \times n}$, and have consequently analyzed the ordinary least squares (OLS) estimator in detail. We assume prior structural information on $A^*$ is available, which can be captured in the form of a convex set $\mathcal{K}$ containing $A^*$. For the solution of the ensuing constrained least squares estimator, we derive non-asymptotic error bounds in the Frobenius norm that depend on the local size of $\mathcal{K}$ at $A^*$. To illustrate the usefulness of these results, we instantiate them for three examples, namely when (i) $A^*$ is sparse and $\mathcal{K}$ is a suitably scaled $\ell_1$ ball; (ii) $\mathcal{K}$ is a subspace; (iii) $\mathcal{K}$ consists of matrices each of which is formed by sampling a bivariate convex function on a uniform $n \times n$ grid (convex regression). In all these situations, we show that $A^*$ can be reliably estimated for values of $T$ much smaller than what is needed for the unconstrained setting.
翻訳日:2023-08-02 22:20:45 公開日:2023-08-01
# 1次元エミッタ鎖における分散レスサブラジアント光子貯蔵

Dispersionless subradiant photon storage in one-dimensional emitter chains ( http://arxiv.org/abs/2303.13564v3 )

ライセンス: Link先を確認
Marcel Cech, Igor Lesanovsky, Beatriz Olmos(参考訳) 原子エミッタは集合的に放射場に結合する。 1つのエミッタの励起は短命であるが、それらの集まりは1つのエミッタの寿命よりも数桁長い光子を含むことができる。 2レベルエミッタのサブ波長1次元格子における単一光子の最適吸収、長寿命・無分散保存、放出の正確な条件を提供する。 特に2つのストレージ方式について詳述する。 第一は、単一光子スペクトルにおける近似平坦な断面の露光に基づいており、単一の光子は、効果的にゼロな群速度を持つ波束として保存できる。 第2のスキームでは、エミッター間で誘導される相互作用の角依存性を仮想光子の交換によって利用し、環上では光子の効果的なトラップ電位が生じる。 どちらの場合も、現在の実験で利用できるパラメータの中で、単一のエミッタ寿命の数百倍の時間で高忠実な光子ストレージが得られる。

Atomic emitter ensembles couple collectively to the radiation field. Although an excitation on a single emitter may be short-lived, a collection of them can contain a photon several orders of magnitude longer than the single emitter lifetime. We provide the exact conditions for optimal absorption, long-lived and dispersionless storage, and release, of a single photon in a sub-wavelength one-dimensional lattice of two-level emitters. In particular, we detail two storage schemes. The first is based on the uncovering of approximate flat sections in the single-photon spectrum, such that a single photon can be stored as a wave packet with effective zero group velocity. For the second scheme we exploit the angular dependence of the interactions induced between the emitters and mediated via exchange of virtual photons, which on a ring gives rise to an effective trapping potential for the photon. In both cases, we are able to obtain, within current experimentally accessible parameters, high-fidelity photon storage for times hundreds of times longer than the single emitter lifetime.
翻訳日:2023-08-02 22:20:19 公開日:2023-08-01
# FedGH: 一般化グローバルヘッダによる不均一なフェデレーションラーニング

FedGH: Heterogeneous Federated Learning with Generalized Global Header ( http://arxiv.org/abs/2303.13137v2 )

ライセンス: Link先を確認
Liping Yi, Gang Wang, Xiaoguang Liu, Zhuan Shi, Han Yu(参考訳) フェデレーテッド・ラーニング(FL)は、複数のパーティがプライバシ保護方法で共有モデルを協調的にトレーニングできる、新興の機械学習パラダイムである。 既存の水平FL法は一般にFLサーバとクライアントが同じモデル構造を持っていると仮定する。 しかし、システムの不均一性とパーソナライズの必要性により、クライアントが多様な構造を持つモデルを保持することが重要な方向となっている。 既存のモデルヘテロジェンシックflアプローチでは、一般に利用可能なデータセットが必要となり、高い通信および/または計算コストが発生し、パフォーマンスが制限される。 これらの制約に対処するために,federated global prediction header (fedgh) アプローチを提案する。 FLサーバにおけるクライアントモデルのための異種抽出器によって抽出された表現を用いて、共有一般化グローバル予測ヘッダーを訓練する通信および計算効率のモデル不均一FLフレームワークである。 訓練されたグローバル予測ヘッダは、異なるクライアントから学習する。 取得したグローバル知識はクライアントに転送され、各クライアントのローカル予測ヘッダに置き換えられる。 我々はFedGHの非凸収束率を導出する。 2つの実世界のデータセットに対する大規模な実験により、FedGHは7つの最先端のパーソナライズされたFLモデルと比較して、平均テスト精度では8.87%(モデル均質FLの場合)と1.83%(モデル均質FLの場合)で最高のパフォーマンスのベースラインを上回り、通信オーバーヘッドの85.53%を節約した。

Federated learning (FL) is an emerging machine learning paradigm that allows multiple parties to train a shared model collaboratively in a privacy-preserving manner. Existing horizontal FL methods generally assume that the FL server and clients hold the same model structure. However, due to system heterogeneity and the need for personalization, enabling clients to hold models with diverse structures has become an important direction. Existing model-heterogeneous FL approaches often require publicly available datasets and incur high communication and/or computational costs, which limit their performances. To address these limitations, we propose a simple but effective Federated Global prediction Header (FedGH) approach. It is a communication and computation-efficient model-heterogeneous FL framework which trains a shared generalized global prediction header with representations extracted by heterogeneous extractors for clients' models at the FL server. The trained generalized global prediction header learns from different clients. The acquired global knowledge is then transferred to clients to substitute each client's local prediction header. We derive the non-convex convergence rate of FedGH. Extensive experiments on two real-world datasets demonstrate that FedGH achieves significantly more advantageous performance in both model-homogeneous and -heterogeneous FL scenarios compared to seven state-of-the-art personalized FL models, beating the best-performing baseline by up to 8.87% (for model-homogeneous FL) and 1.83% (for model-heterogeneous FL) in terms of average test accuracy, while saving up to 85.53% of communication overhead.
翻訳日:2023-08-02 22:20:00 公開日:2023-08-01
# スパースサブマニフォールド畳み込みニューラルネットワークを用いたニュートリノ望遠鏡のトリガーレベルイベント再構成

Trigger-Level Event Reconstruction for Neutrino Telescopes Using Sparse Submanifold Convolutional Neural Networks ( http://arxiv.org/abs/2303.08812v2 )

ライセンス: Link先を確認
Felix J. Yu, Jeffrey Lazar, Carlos A. Arg\"uelles(参考訳) 畳み込みニューラルネットワーク(CNN)はニュートリノ望遠鏡を含む科学データ分析に広く応用されている。 しかし、これらの実験のデータは、非正則幾何学、スパーシティ、高次元など、cnnに多くの課題をもたらしている。 したがって、cnnはニュートリノ望遠鏡のデータでは極めて非効率であり、情報損失をもたらす重要な前処理を必要とする。 これらの問題の解決策としてスパースサブマニフォールド畳み込み(SSCNN)を提案し、SSCNNイベント再構成性能が従来の機械学習アルゴリズムに匹敵するか否かを示す。 さらに、SSCNNはGPU上の従来のCNNの約16倍の速度で動作します。 このスピードアップの結果、アイスキューブスケールのニュートリノ望遠鏡のトリガーレベルの事象率を処理できることが期待されている。 これらのネットワークは、ニュートリノエネルギーと方向の最初の推定を改善して、より高度な再構築を施したり、興味深い出来事を素早くフォローアップするために警告送信システムにこの情報を提供するために使用できる。

Convolutional neural networks (CNNs) have seen extensive applications in scientific data analysis, including in neutrino telescopes. However, the data from these experiments present numerous challenges to CNNs, such as non-regular geometry, sparsity, and high dimensionality. Consequently, CNNs are highly inefficient on neutrino telescope data, and require significant pre-processing that results in information loss. We propose sparse submanifold convolutions (SSCNNs) as a solution to these issues and show that the SSCNN event reconstruction performance is comparable to or better than traditional and machine learning algorithms. Additionally, our SSCNN runs approximately 16 times faster than a traditional CNN on a GPU. As a result of this speedup, it is expected to be capable of handling the trigger-level event rate of IceCube-scale neutrino telescopes. These networks could be used to improve the first estimation of the neutrino energy and direction to seed more advanced reconstructions, or to provide this information to an alert-sending system to quickly follow-up interesting events.
翻訳日:2023-08-02 22:19:27 公開日:2023-08-01
# カオス量子回路における時間的絡み合い

Temporal Entanglement in Chaotic Quantum Circuits ( http://arxiv.org/abs/2302.08502v2 )

ライセンス: Link先を確認
Alessandro Foligno, Tianci Zhou, and Bruno Bertini(参考訳) 空間進化(または時空双対性)の概念は量子力学を研究するための有望なアプローチとして現れている。 基本的な考え方は、空間と時間の役割を交換し、時間発展演算子ではなく空間移動行列を用いてシステムを進化させることである。 無限体積極限は、影響行列としても知られる後者の遷移行列の固定点によって記述される。 この手法をボナフィデ計算スキームとして確立するには,その影響行列を古典的コンピュータで効率的に符号化できるかどうかを理解することが重要である。 ここでは、カオス量子システムにおいて、時間的絡み合いと呼ばれるその絡み合いの体系的な特徴化を提示することによって、この探求を始める。 我々は空間進化の最も一般的な形式、すなわち一般空間的な方向の進化を考え、2つの基本的な結果を示す。 まず,時間的絡み合いが常に時間的体積則に従うことを示す。 第2に,2つの限界ケースを識別する。 (i)一般カオスシステムにおける純粋空間進化 (ii)双対ユニタリ回路における空間的進化は、R'enyiエントロピーが 1 より大きいインデックスを持つとき、フォン・ノイマンエンタングルメントエントロピーが線型に成長する間は、時としてサブ線形である。 この挙動は、影響行列と大きく重なる積状態の存在に起因する。 この時間的絡み合いスペクトルの予期せぬ構造は、空間進化の効率的な計算実装の鍵となるかもしれない。

The concept of space-evolution (or space-time duality) has emerged as a promising approach for studying quantum dynamics. The basic idea involves exchanging the roles of space and time, evolving the system using a space transfer matrix rather than the time evolution operator. The infinite-volume limit is then described by the fixed points of the latter transfer matrix, also known as influence matrices. To establish the potential of this method as a bona fide computational scheme, it is important to understand whether the influence matrices can be efficiently encoded in a classical computer. Here we begin this quest by presenting a systematic characterisation of their entanglement -- dubbed temporal entanglement -- in chaotic quantum systems. We consider the most general form of space-evolution, i.e., evolution in a generic space-like direction, and present two fundamental results. First, we show that temporal entanglement always follows a volume law in time. Second, we identify two marginal cases -- (i) pure space evolution in generic chaotic systems (ii) any space-like evolution in dual-unitary circuits -- where R\'enyi entropies with index larger than one are sub-linear in time while the von Neumann entanglement entropy grows linearly. We attribute this behaviour to the existence of a product state with large overlap with the influence matrices. This unexpected structure in the temporal entanglement spectrum might be the key to an efficient computational implementation of the space evolution.
翻訳日:2023-08-02 22:19:07 公開日:2023-08-01
# 状態依存光トワイザーにおける単一原子の運動基底状態冷却

Motional ground-state cooling of single atoms in state-dependent optical tweezers ( http://arxiv.org/abs/2302.03940v2 )

ライセンス: Link先を確認
Christian H\"olzl, Aaron G\"otzelmann, Moritz Wirth, Marianna S. Safronova, Sebastian Weber, Florian Meinert(参考訳) 光ツイーザーにおける単一原子のレーザー冷却は、中性原子量子コンピューティングとシミュレーションの前提条件である。 解決されたサイドバンド冷却は、効率的な基底状態の準備のための確立された方法を含むが、通常、いわゆるマジックトラップの光シフトを慎重にキャンセルする必要がある。 本稿では,このような制約を克服する新しいレーザー冷却方式について検討し,狭い冷却遷移の基底状態が励起状態よりも強く捕捉された場合に適用する。 本研究では,冷却光の周波数チャープによる赤色側帯遷移のシーケンシャルなアドレッシングを,$^{88}$sr原子の例で活用し,最近のマジック・ツイーザーの実験と整合する基底状態の個体群を報告する。 このスキームはまた、大きな原子配列の組み立ての鍵となる光アシスト衝突を誘導する。 我々の研究は、tweezerベースの量子技術のためのツールボックスを強化し、解決されたサイドバンド冷却条件と互換性のないtweezerトラップ分子やイオンへの応用を可能にしています。

Laser cooling of single atoms in optical tweezers is a prerequisite for neutral atom quantum computing and simulation. Resolved sideband cooling comprises a well-established method for efficient motional ground-state preparation, but typically requires careful cancellation of light shifts in so-called magic traps. Here, we study a novel laser cooling scheme which overcomes such constraints, and applies when the ground-state of a narrow cooling transition is trapped stronger than the excited state. We demonstrate our scheme, which exploits sequential addressing of red sideband transitions via frequency chirping of the cooling light, at the example of $^{88}$Sr atoms, and report ground-state populations compatible with recent experiments in magic tweezers. The scheme also induces light-assisted collisions, which are key to the assembly of large atom arrays. Our work enriches the toolbox for tweezer-based quantum technology, also enabling applications for tweezer-trapped molecules and ions that are incompatible with resolved sideband cooling conditions.
翻訳日:2023-08-02 22:18:42 公開日:2023-08-01
# 生成インパインティングによる高画質画像再構成のための表現型保存メトリック設計

Phenotype-preserving metric design for high-content image reconstruction by generative inpainting ( http://arxiv.org/abs/2307.14436v2 )

ライセンス: Link先を確認
Vaibhav Sharma, Artur Yakimovich(参考訳) 過去数十年間、高濃度自動顕微鏡は、表現型薬物スクリーニングとシステム生物学応用の汎用性を活用した大量の画像ベースのデータを提供する能力を示した。 しかし、画像に基づくデータセットのサイズが大きくなるにつれて、画像中の画像やサンプル作成物の存在を人間が制御、回避、克服することは不可能になった。 機械学習やディープラーニングのような新しい技術は、生成的画像のインペイントによってこれらの欠点に対処する可能性があるが、センシティブな研究データに適用すると、望ましくない画像操作のコストがかかる可能性がある。 望ましくない操作は、いくつかの人工的なニューラルネットワークが引き起こされる神経幻覚のような現象によって引き起こされる可能性がある。 そこで本研究では, ラベル付き培養細胞の高濃度蛍光顕微鏡による画像修復法の評価を行った。 deepfill v2やedge connectのようなアーキテクチャは、比較的少ないデータで微調整することで顕微鏡画像を忠実に復元できる。 以上の結果から,復元すべき領域は形状よりも重要であることが示唆された。 さらに,復元の質を制御するために,新しい表現型保存メトリックデザイン戦略を提案する。 この戦略では、細胞核のような修復された生物学的表現型のサイズと数を定量化し、望ましくない操作を罰する。 このアプローチの設計原則は、他のアプリケーションにも一般化するかもしれません。

In the past decades, automated high-content microscopy demonstrated its ability to deliver large quantities of image-based data powering the versatility of phenotypic drug screening and systems biology applications. However, as the sizes of image-based datasets grew, it became infeasible for humans to control, avoid and overcome the presence of imaging and sample preparation artefacts in the images. While novel techniques like machine learning and deep learning may address these shortcomings through generative image inpainting, when applied to sensitive research data this may come at the cost of undesired image manipulation. Undesired manipulation may be caused by phenomena such as neural hallucinations, to which some artificial neural networks are prone. To address this, here we evaluate the state-of-the-art inpainting methods for image restoration in a high-content fluorescence microscopy dataset of cultured cells with labelled nuclei. We show that architectures like DeepFill V2 and Edge Connect can faithfully restore microscopy images upon fine-tuning with relatively little data. Our results demonstrate that the area of the region to be restored is of higher importance than shape. Furthermore, to control for the quality of restoration, we propose a novel phenotype-preserving metric design strategy. In this strategy, the size and count of the restored biological phenotypes like cell nuclei are quantified to penalise undesirable manipulation. We argue that the design principles of our approach may also generalise to other applications.
翻訳日:2023-08-02 22:11:11 公開日:2023-08-01
# デジタル量子コンピュータにおける衝突モデルによる量子輸送のシミュレーション

Simulating quantum transport via collisional models on a digital quantum computer ( http://arxiv.org/abs/2307.13576v2 )

ライセンス: Link先を確認
Rebecca Erbanni, Xiansong Xu, Tommaso Demarie, Dario Poletti(参考訳) デジタル量子コンピュータは複雑な量子系の力学を研究する可能性がある。 しかし、非平衡開量子系は実装が容易ではない。 ここでは、境界駆動型XXZスピン鎖に対する非平衡開力学の衝突モデル表現について考察し、その定常状態に特に焦点をあてる。 具体的には,結果の精度と回路の深さとの相互作用を,対応する主方程式による結果と比較することにより検討する。 我々は, 弱い相互作用と強い相互作用のレジームにおける境界駆動スピンチェーンのシミュレーションについて検討し, プロトコルの実装における誤差も考慮し, 大規模系の拡散と弾道力学に繋がる可能性について検討した。 最後に,xxzスピンチェーンが非一様磁場を受ける場合の電流整流の衝突モデルによるディジタルシミュレーションの有効性について検討する。

Digital quantum computers have the potential to study the dynamics of complex quantum systems. Nonequilibrium open quantum systems are, however, less straightforward to be implemented. Here we consider a collisional model representation of the nonequilibrium open dynamics for a boundary-driven XXZ spin chain, with a particular focus on its steady states. More specifically, we study the interplay between the accuracy of the result versus the depth of the circuit by comparing the results generated by the corresponding master equations. We study the simulation of a boundary-driven spin chain in regimes of weak and strong interactions, which would lead in large systems to diffusive and ballistic dynamics, considering also possible errors in the implementation of the protocol. Last, we analyze the effectiveness of digital simulation via the collisional model of current rectification when the XXZ spin chains are subject to non-uniform magnetic fields.
翻訳日:2023-08-02 22:10:49 公開日:2023-08-01
# 分散確率的構成的ミニマックス最適化における線形高速化の実現

Achieving Linear Speedup in Decentralized Stochastic Compositional Minimax Optimization ( http://arxiv.org/abs/2307.13430v2 )

ライセンス: Link先を確認
Hongchang Gao(参考訳) 確率的構成的ミニマックス問題は、近年、多くの機械学習モデルをカバーしているため、注目を集めている。 一方、分散データの出現により、分散設定下でのこの種の問題を最適化することが必要となる。 しかし、損失関数の構成構造は効率的な分散最適化アルゴリズムの設計に固有の課題をもたらす。 特に, 標準のゴシップ通信戦略は, 内部レベル関数に関する大きなコンセンサス誤差のため, 分散構成的ミニマックス問題に対する線形高速化を達成できないことを示した。 この問題に対処するため,内層関数のコンセンサス誤差を低減するために,モーメントアルゴリズムを付加した分散確率勾配勾配法を開発した。 その結果, 作業者の数に対して線形スピードアップを達成できることが理論的に証明された。 この新しいアルゴリズム設計は分散合成最適化の開発に有用であると信じている。 最後に,本手法を不均衡分類問題に適用した。 実験結果から,提案アルゴリズムの有効性が示唆された。

The stochastic compositional minimax problem has attracted a surge of attention in recent years since it covers many emerging machine learning models. Meanwhile, due to the emergence of distributed data, optimizing this kind of problem under the decentralized setting becomes badly needed. However, the compositional structure in the loss function brings unique challenges to designing efficient decentralized optimization algorithms. In particular, our study shows that the standard gossip communication strategy cannot achieve linear speedup for decentralized compositional minimax problems due to the large consensus error about the inner-level function. To address this issue, we developed a novel decentralized stochastic compositional gradient descent ascent with momentum algorithm to reduce the consensus error in the inner-level function. As such, our theoretical results demonstrate that it is able to achieve linear speedup with respect to the number of workers. We believe this novel algorithmic design could benefit the development of decentralized compositional optimization. Finally, we applied our methods to the imbalanced classification problem. The extensive experimental results provide evidence for the effectiveness of our algorithm.
翻訳日:2023-08-02 22:10:35 公開日:2023-08-01
# カオスとボソンサンプリングのフォトニック量子シグネチャ

Photonic quantum signatures of chaos and boson sampling ( http://arxiv.org/abs/2307.13200v2 )

ライセンス: Link先を確認
V. M. Bastidas, H. L. Nourse, A. Sakurai, A. Hayashi, S. Nishio, Kae Nemoto, and W. J. Munro(参考訳) ボーソンサンプリング(boson sampling)は、量子フォトニックコンピュータで実行できるが、デジタル古典的コンピュータでは難しいタスクのパラダイム的な例である。 典型的なボソンサンプリング実験において、散乱振幅はランダム行列のアンサンブルから引き出されたユニタリのサブ行列の永久性によって決定される。 ランダム行列理論は、非常に多様な分野において非常に重要な役割を果たすが、同時にカオスの量子シグネチャと密接に関連している。 この枠組みの中で、カオス量子システムはランダム行列のアンサンブルのレベル統計特性を示す。 このような量子シグネチャはユニタリ進化でコード化されており、この研究ではカオス系のダイナミクスとボーソンサンプリングを組み合わせる。 我々の研究の重要な成果の1つは、時間外相関器とボソンサンプリングの親密な関係を示すことである。 単一モード位相シフト器とマルチポートビームスプリッタを用いて,同一粒子を用いたサンプリングタスクを行うために,Floquetシステムのユニタリダイナミクスを利用することができることを示す。 本稿の最後に,本手法の具体例を示す多粒子キックロータのフォトニック実装を提案する。

Boson sampling is a paradigmatic example of a task that can be performed by a quantum photonic computer yet is hard for digital classical computers. In a typical boson sampling experiment, the scattering amplitude is determined by the permanent of a submatrix of a unitary drawn from an ensemble of random matrices. Random matrix theory plays a very important role in quite diverse fields while at the same time being intimately related to quantum signatures of chaos. Within this framework, a chaotic quantum system exhibits level statistics characteristic of ensembles of random matrices. Such quantum signatures are encoded in the unitary evolution and so in this work we combine the dynamics of chaotic systems with boson sampling. One of the key results of our work is that we demonstrate the intimate relation between out-of-time-order correlators and boson sampling. We show that the unitary dynamics of a Floquet system may be exploited to perform sampling tasks with identical particles using single-mode phase shifters and multiport beamsplitters. At the end of our paper propose a photonic implementation of the multiparticle kicked rotor, which provides a concrete example of our general approach.
翻訳日:2023-08-02 22:10:23 公開日:2023-08-01
# 関係時間異常検出を含むクラウドシステムの性能問題同定

Performance Issue Identification in Cloud Systems with Relational-Temporal Anomaly Detection ( http://arxiv.org/abs/2307.10869v2 )

ライセンス: Link先を確認
Wenwei Gu, Jinyang Liu, Zhuangbin Chen, Jianping Zhang, Yuxin Su, Jiazhen Gu, Cong Feng, Zengyin Yang and Michael Lyu(参考訳) パフォーマンス問題は、大規模なクラウドサービスシステムに浸透し、大きな収益損失につながる可能性がある。 信頼性の高いパフォーマンスを保証するためには、サービス監視メトリクスを使用してこれらの問題を正確に識別し、ローカライズする必要がある。 現代のクラウドシステムの複雑さと規模を考えると、このタスクは困難であり、個々の人間の能力を超えた幅広い専門知識とリソースを必要とする可能性がある。 既存の手法では、各メトリックを独立して分析して異常を検出することでこの問題に対処している。 しかし、これはエンジニアが手動で診断することが難しい圧倒的な警報嵐を引き起こす可能性がある。 より良いパフォーマンスを追求するためには、メトリクスの時間的パターンだけでなく、メトリクス(リレーショナルパターン)間の相関も考慮し、多変量メトリクス異常検出問題として定式化する必要がある。 しかし、ほとんどの研究はこれらの2種類の特徴を明示的に抽出するに足りていない。 さらに、トレーニングデータ中にラベルのない異常が混在しており、検出性能を損なう可能性がある。 これらの制約に対処するために,メトリクスの相関情報と時間情報を組み合わせた関係時間異常検出モデル(RTAnomaly)を提案する。 RTAnomalyは、メトリクス間の依存関係を学習するためにグラフアテンション層を使用し、異常を効果的に発生させる可能性のある異常メトリクスの特定をさらに助ける。 さらに、ポジティブなラベルなし学習の概念を利用して、トレーニングデータの潜在的な異常の問題に対処する。 提案手法を評価するため,公開データセットと2つの産業データセットを用いて実験を行った。 RTAnomaly は、平均 F1 スコア 0.929 と Hit@3 0.920 を達成し、その優位性を示している。

Performance issues permeate large-scale cloud service systems, which can lead to huge revenue losses. To ensure reliable performance, it's essential to accurately identify and localize these issues using service monitoring metrics. Given the complexity and scale of modern cloud systems, this task can be challenging and may require extensive expertise and resources beyond the capacity of individual humans. Some existing methods tackle this problem by analyzing each metric independently to detect anomalies. However, this could incur overwhelming alert storms that are difficult for engineers to diagnose manually. To pursue better performance, not only the temporal patterns of metrics but also the correlation between metrics (i.e., relational patterns) should be considered, which can be formulated as a multivariate metrics anomaly detection problem. However, most of the studies fall short of extracting these two types of features explicitly. Moreover, there exist some unlabeled anomalies mixed in the training data, which may hinder the detection performance. To address these limitations, we propose the Relational- Temporal Anomaly Detection Model (RTAnomaly) that combines the relational and temporal information of metrics. RTAnomaly employs a graph attention layer to learn the dependencies among metrics, which will further help pinpoint the anomalous metrics that may cause the anomaly effectively. In addition, we exploit the concept of positive unlabeled learning to address the issue of potential anomalies in the training data. To evaluate our method, we conduct experiments on a public dataset and two industrial datasets. RTAnomaly outperforms all the baseline models by achieving an average F1 score of 0.929 and Hit@3 of 0.920, demonstrating its superiority.
翻訳日:2023-08-02 22:10:03 公開日:2023-08-01
# 細胞中心治療の量子化に向けて

Towards quantum-enabled cell-centric therapeutics ( http://arxiv.org/abs/2307.05734v2 )

ライセンス: Link先を確認
Saugata Basu, Jannis Born, Aritra Bose, Sara Capponi, Dimitra Chalkia, Timothy A Chan, Hakan Doga, Frederik F. Flother, Gad Getz, Mark Goldsmith, Tanvi Gujarati, Aldo Guzman-Saenz, Dimitrios Iliopoulos, Gavin O. Jones, Stefan Knecht, Dhiraj Madan, Sabrina Maniscalco, Nicola Mariella, Joseph A. Morrone, Khadijeh Najafi, Pushpak Pati, Daniel Platt, Maria Anna Rapsomaniki, Anupama Ray, Kahn Rhrissorrakrai, Omar Shehab, Ivano Tavernelli, Meltem Tolunay, Filippo Utro, Stefan Woerner, Sergiy Zhuk, Jeannette M. Garcia, and Laxmi Parida(参考訳) 近年、量子コンピュータのハードウェア、アルゴリズム、サービスの開発は著しく進展しており、近い将来、量子コンピュータは自然科学の応用、運用研究、機械学習のシミュレーションを、主に古典的コンピュータにはアクセスできない規模で実行できるようになると期待されている。 量子コンピューティングの影響は既に、暗号解析、自然科学シミュレーション、最適化などの分野で認識され始めているが、医療と生命科学(HCLS)の領域における量子コンピューティングシミュレーションと機械学習のポテンシャルについてはほとんど知られていない。 本稿では、HCLS研究、特に細胞中心療法の分野における量子計算の利用から期待される変化について論じる。 さらに, 細胞工学, 組織モデリング, 摂動モデリング, バイオトポロジーにおけるオープンな問題を特定し, 研究のための量子アルゴリズムの候補と, 古典的な計算手法に対する潜在的な優位性を議論する。

In recent years, there has been tremendous progress in the development of quantum computing hardware, algorithms and services leading to the expectation that in the near future quantum computers will be capable of performing simulations for natural science applications, operations research, and machine learning at scales mostly inaccessible to classical computers. Whereas the impact of quantum computing has already started to be recognized in fields such as cryptanalysis, natural science simulations, and optimization among others, very little is known about the full potential of quantum computing simulations and machine learning in the realm of healthcare and life science (HCLS). Herein, we discuss the transformational changes we expect from the use of quantum computation for HCLS research, more specifically in the field of cell-centric therapeutics. Moreover, we identify and elaborate open problems in cell engineering, tissue modeling, perturbation modeling, and bio-topology while discussing candidate quantum algorithms for research on these topics and their potential advantages over classical computational approaches.
翻訳日:2023-08-02 22:09:36 公開日:2023-08-01
# \v{C}encov は Petz に会えるか?

Can \v{C}encov meet Petz? ( http://arxiv.org/abs/2305.12482v2 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo, Laura Gonz\'alez-Bravo(参考訳) 本稿では,cncovの定理とpetzの定理を統一する問題を定式化するために,w^{*}$-代数上の正規状態の観点から,古典的および量子的情報幾何学の最近の定式化をどのように利用するかについて議論する。

We discuss how to exploit the recent formulation of classical and quantum information geometry in terms of normal states on $W^{*}$-algebras to formulate a problem that unifies Cencov's theorem and Petz's theorem.
翻訳日:2023-08-02 22:09:18 公開日:2023-08-01
# sepmark: ソーストレースとディープフェイク検出のための深い分離可能なウォーターマーキング

SepMark: Deep Separable Watermarking for Unified Source Tracing and Deepfake Detection ( http://arxiv.org/abs/2305.06321v2 )

ライセンス: Link先を確認
Xiaoshuai Wu, Xin Liao, Bo Ou(参考訳) 悪質なディープフェイクは、本物の顔と偽顔の区別をめぐって激しい紛争を引き起こした。 ディープフェイクスの元ポストを検出するために多くの対策が開発されているが、明らかに受動的法医学は、予見可能な操作の前に原始的な顔に対する予防措置を考慮していない。 そこで我々はSepMarkという,ソーストレースとDeepfake検出のための統合されたフレームワークを提供する,プロアクティブなソリューションを提案しました。 SepMarkはエンコーダデコーダベースのディープウォーターマーキングに由来するが、2つの分離可能なデコーダを持つ。 1つのエンコーダが1つのウォーターマークをエレガントに埋め込み、2つのデコーダが異なるレベルのロバスト性で別々のウォーターマークを抽出することができる。 強靭なデコーダは、様々な歪みに抵抗するトレーサと呼ばれ、非常に高い強靭性を持ち、ディープフェイクの前と後の両方で透かしが生き残ることができる。 セミロバスト式1項検出器は悪質な歪みに選択的に敏感であり、ディープフェイク後に透かしが消える。 トレーサと検出器からなるsepmarkのみが、マークされた顔の信頼できるソースを確実に追跡し、マークされてから変化したかどうかを検出することができる。 広範な実験により、顔交換、表情再現、属性編集など、一般的なディープフェイクにおけるsepmarkの有効性が実証された。

Malicious Deepfakes have led to a sharp conflict over distinguishing between genuine and forged faces. Although many countermeasures have been developed to detect Deepfakes ex-post, undoubtedly, passive forensics has not considered any preventive measures for the pristine face before foreseeable manipulations. To complete this forensics ecosystem, we thus put forward the proactive solution dubbed SepMark, which provides a unified framework for source tracing and Deepfake detection. SepMark originates from encoder-decoder-based deep watermarking but with two separable decoders. For the first time the deep separable watermarking, SepMark brings a new paradigm to the established study of deep watermarking, where a single encoder embeds one watermark elegantly, while two decoders can extract the watermark separately at different levels of robustness. The robust decoder termed Tracer that resists various distortions may have an overly high level of robustness, allowing the watermark to survive both before and after Deepfake. The semi-robust one termed Detector is selectively sensitive to malicious distortions, making the watermark disappear after Deepfake. Only SepMark comprising of Tracer and Detector can reliably trace the trusted source of the marked face and detect whether it has been altered since being marked; neither of the two alone can achieve this. Extensive experiments demonstrate the effectiveness of the proposed SepMark on typical Deepfakes, including face swapping, expression reenactment, and attribute editing.
翻訳日:2023-08-02 22:09:12 公開日:2023-08-01
# (地方)差別プライバシーは公平性に異なる影響を与えない

(Local) Differential Privacy has NO Disparate Impact on Fairness ( http://arxiv.org/abs/2304.12845v2 )

ライセンス: Link先を確認
H\'eber H. Arcolezi, Karima Makhlouf, Catuscia Palamidessi(参考訳) 近年、堅牢なプライバシー保護手法であるローカル微分プライバシー(LDP)が、現実世界のアプリケーションに広く採用されている。 LDPを使えば、ユーザーは分析のためにデータを送信する前にデバイス上でデータを摂動することができる。 しかし、複数の機密情報の収集が様々な産業で普及するにつれて、LDPの下での単一機密属性の収集は不十分である。 データ内の関連属性は、それでも機密属性に関する推論につながる可能性がある。 本稿では,LPP下での複数属性の収集が公平性に及ぼす影響を実証研究する。 機密属性のドメインサイズの変化を考慮した新しいプライバシ予算配分方式を提案する。 これは一般的に、最先端のソリューションよりも、私たちの実験におけるプライバシーと実用性と公正性のトレードオフに結びつきました。 その結果, LDPは, モデルの性能に悪影響を及ぼすことなく, 学習問題の公平性をわずかに向上させることがわかった。 我々は,グループフェアネスの指標と7つの最新LDPプロトコルを用いて,3つのベンチマークデータセットの評価実験を行った。 全体として、この研究は、差分プライバシーが機械学習における公平性の悪化につながるという一般的な信念に挑戦する。

In recent years, Local Differential Privacy (LDP), a robust privacy-preserving methodology, has gained widespread adoption in real-world applications. With LDP, users can perturb their data on their devices before sending it out for analysis. However, as the collection of multiple sensitive information becomes more prevalent across various industries, collecting a single sensitive attribute under LDP may not be sufficient. Correlated attributes in the data may still lead to inferences about the sensitive attribute. This paper empirically studies the impact of collecting multiple sensitive attributes under LDP on fairness. We propose a novel privacy budget allocation scheme that considers the varying domain size of sensitive attributes. This generally led to a better privacy-utility-fairness trade-off in our experiments than the state-of-art solution. Our results show that LDP leads to slightly improved fairness in learning problems without significantly affecting the performance of the models. We conduct extensive experiments evaluating three benchmark datasets using several group fairness metrics and seven state-of-the-art LDP protocols. Overall, this study challenges the common belief that differential privacy necessarily leads to worsened fairness in machine learning.
翻訳日:2023-08-02 22:07:54 公開日:2023-08-01
# リッジレス回帰における二重降下ピークの普遍性について

On the Universality of the Double Descent Peak in Ridgeless Regression ( http://arxiv.org/abs/2010.01851v8 )

ライセンス: Link先を確認
David Holzm\"uller(参考訳) リッジレス線形回帰におけるラベルノイズに起因する平均二乗汎化誤差に対する非漸近分布非依存下界を証明した。 我々の下界は、過パラメータ化(補間)体制と同じような既知の結果を一般化する。 これまでのほとんどの研究とは対照的に、我々の分析は、ほぼ確実にフルランクの特徴行列を持つ幅広い入力分布に適用され、様々なタイプの決定論的あるいはランダムな特徴写像をカバーできる。 我々の下界は漸近的に鋭く、ラベルノイズの存在下では、リッジレス線形回帰はこれらの特徴写像の補間しきい値付近でうまく機能しない。 入力された仮定を詳細に分析し,解析的(ランダム)特徴写像の理論を提供する。 この理論を用いて,Sigmoid, tanh, softplus, GELUなどの分析活性化関数を持つランダムディープニューラルネットワークによって与えられる,(リーベグ)密度の入力分布と特徴写像について,我々の仮定が満足していることを示す。 さらなる例として、ランダムなフーリエ特徴量と多項式カーネルからの特徴写像も仮定を満たすことを示す。 我々は我々の理論をさらなる実験的および分析的な結果で補完する。

We prove a non-asymptotic distribution-independent lower bound for the expected mean squared generalization error caused by label noise in ridgeless linear regression. Our lower bound generalizes a similar known result to the overparameterized (interpolating) regime. In contrast to most previous works, our analysis applies to a broad class of input distributions with almost surely full-rank feature matrices, which allows us to cover various types of deterministic or random feature maps. Our lower bound is asymptotically sharp and implies that in the presence of label noise, ridgeless linear regression does not perform well around the interpolation threshold for any of these feature maps. We analyze the imposed assumptions in detail and provide a theory for analytic (random) feature maps. Using this theory, we can show that our assumptions are satisfied for input distributions with a (Lebesgue) density and feature maps given by random deep neural networks with analytic activation functions like sigmoid, tanh, softplus or GELU. As further examples, we show that feature maps from random Fourier features and polynomial kernels also satisfy our assumptions. We complement our theory with further experimental and analytic results.
翻訳日:2023-08-02 18:46:13 公開日:2023-08-01
# 深層学習を用いた太陽放射予測のための統合マルチ時間スケールモデリング

An Integrated Multi-Time-Scale Modeling for Solar Irradiance Forecasting Using Deep Learning ( http://arxiv.org/abs/1905.02616v3 )

ライセンス: Link先を確認
Sakshi Mishra, Praveen Palanisamy(参考訳) 短期的な太陽照度予測では、太陽エネルギーの非定常特性のために従来の点予測法は役に立たない。 電力網の信頼性を維持するために必要な運転予備量は、太陽エネルギーの変動によって増加する。 世代内の不確実性が高ければ高いほど、運用-保存要件が大きくなるため、運用コストが増加する。 本研究では、リカレントニューラルネットワーク(RNN)と長期記憶ネットワーク(LSTM)を用いた日内太陽放射予測のためのマルチスケール予測のための統一アーキテクチャを提案する。 そこで本研究では,このモデル手法を時間内予測地平線に拡張し,時間内および日内太陽放射を予測できるマルチ時間水平予測手法を提案する。 提案するアーキテクチャを有効にするエンドツーエンドのパイプラインを開発する。 予測モデルの性能を方法論的実装によって検証し検証する。 このアプローチのロバスト性は、全米の地理的に散在した場所でのケーススタディで実証されている。 提案手法は多段階の太陽予測に有効であることを示すとともに,日中の時間スケール毎に異なるモデルを用いた文献に記録された最良の性能手法と比較した場合,ルート平均2乗予測誤差を低くする。 提案手法は,本論文で報告したmlベースベストパフォーマンス法と比較して,全試験場平均平均平均平均rmseが71.5%減少した。 さらに,提案手法により,リアルタイム入力を用いたマルチ時間水平予測が可能となり,発展途上グリッドにおける実践的産業応用に有意な可能性を秘めている。

For short-term solar irradiance forecasting, the traditional point forecasting methods are rendered less useful due to the non-stationary characteristic of solar power. The amount of operating reserves required to maintain reliable operation of the electric grid rises due to the variability of solar energy. The higher the uncertainty in the generation, the greater the operating-reserve requirements, which translates to an increased cost of operation. In this research work, we propose a unified architecture for multi-time-scale predictions for intra-day solar irradiance forecasting using recurrent neural networks (RNN) and long-short-term memory networks (LSTMs). This paper also lays out a framework for extending this modeling approach to intra-hour forecasting horizons thus, making it a multi-time-horizon forecasting approach, capable of predicting intra-hour as well as intra-day solar irradiance. We develop an end-to-end pipeline to effectuate the proposed architecture. The performance of the prediction model is tested and validated by the methodical implementation. The robustness of the approach is demonstrated with case studies conducted for geographically scattered sites across the United States. The predictions demonstrate that our proposed unified architecture-based approach is effective for multi-time-scale solar forecasts and achieves a lower root-mean-square prediction error when benchmarked against the best-performing methods documented in the literature that use separate models for each time-scale during the day. Our proposed method results in a 71.5% reduction in the mean RMSE averaged across all the test sites compared to the ML-based best-performing method reported in the literature. Additionally, the proposed method enables multi-time-horizon forecasts with real-time inputs, which have a significant potential for practical industry applications in the evolving grid.
翻訳日:2023-08-02 18:45:12 公開日:2023-08-01
# ブラックボックスモデルの付加的説明学習における考察

Considerations When Learning Additive Explanations for Black-Box Models ( http://arxiv.org/abs/1801.08640v4 )

ライセンス: Link先を確認
Sarah Tan, Giles Hooker, Paul Koch, Albert Gordo, Rich Caruana(参考訳) ブラックボックスモデルを説明する多くの方法は、局所的でもグローバル的でも、加法的である。 本稿では,非加法モデルに対する大域的加法説明について検討し,部分的依存,大域的設定に適応したシャプリー説明,蒸留加法説明,勾配に基づく説明の4つの方法に着目した。 ブラックボックスモデルの予測関数における非付加的成分を,異なる方法で特徴付ける方法を示す。 主効果と総効果の概念を用いて加法の説明をアンカーし、加法と非加法の説明を定量的に評価する。 蒸留説明は一般に最も正確な加法説明であるが、非加法成分を明示的にモデル化する木説明のような非加法説明はより正確である傾向がある。 それにもかかわらず、機械学習の実践者は様々なタスクに付加的な説明をうまく活用できることを示した。 これらの考慮は、ブラックボックスモデルの説明にどの説明を信頼し、使用するかを考える際に考慮する必要がある。

Many methods to explain black-box models, whether local or global, are additive. In this paper, we study global additive explanations for non-additive models, focusing on four explanation methods: partial dependence, Shapley explanations adapted to a global setting, distilled additive explanations, and gradient-based explanations. We show that different explanation methods characterize non-additive components in a black-box model's prediction function in different ways. We use the concepts of main and total effects to anchor additive explanations, and quantitatively evaluate additive and non-additive explanations. Even though distilled explanations are generally the most accurate additive explanations, non-additive explanations such as tree explanations that explicitly model non-additive components tend to be even more accurate. Despite this, our user study showed that machine learning practitioners were better able to leverage additive explanations for various tasks. These considerations should be taken into account when considering which explanation to trust and use to explain black-box models.
翻訳日:2023-08-02 18:44:29 公開日:2023-08-01
# 量子応用のための確率最適化アルゴリズム

Stochastic optimization algorithms for quantum applications ( http://arxiv.org/abs/2203.06044v2 )

ライセンス: Link先を確認
J. Gidi, B. Candia, A. D. Mu\~noz-Moller, A. Rojas, L. Pereira, M. Mu\~noz, L. Zambrano, and A. Delgado(参考訳) ハイブリッド古典的量子最適化法は、現在の世代のNISQコンピュータの問題を効率的に解くための重要なツールとなっている。 これらの方法は、量子コンピュータで実行される最適化アルゴリズムを使用し、量子プロセッサで得られる目的関数の値が供給される。 優れた性能を達成するには最適化アルゴリズムの適切な選択が不可欠である。 本稿では、実数体で定義される一階法、二階法、量子自然勾配確率最適化法の使用について概説し、複素数体で定義される新しい確率アルゴリズムを提案する。 すべての方法の性能は、変分量子固有解法、量子状態の量子制御、量子状態推定への応用によって評価される。 一般に、複素数最適化アルゴリズムは、高いハイパーパラメータのキャリブレーションを必要としない複雑な量子自然アルゴリズムに続き、一階複素アルゴリズムは、常に最高の性能を達成する。 特に、複雑な量子自然アルゴリズムのスカラー定式化は、古典的な計算コストを低くして優れた性能を達成することができる。

Hybrid classical quantum optimization methods have become an important tool for efficiently solving problems in the current generation of NISQ computers. These methods use an optimization algorithm executed in a classical computer, fed with values of the objective function obtained in a quantum processor. A proper choice of optimization algorithm is essential to achieve good performance. Here, we review the use of first-order, second-order, and quantum natural gradient stochastic optimization methods, which are defined in the field of real numbers, and propose new stochastic algorithms defined in the field of complex numbers. The performance of all methods is evaluated by means of their application to variational quantum eigensolver, quantum control of quantum states, and quantum state estimation. In general, complex number optimization algorithms perform best, with first-order complex algorithms consistently achieving the best performance, closely followed by complex quantum natural algorithms, which do not require expensive hyperparameters calibration. In particular, the scalar formulation of the complex quantum natural algorithm allows to achieve good performance with low classical computational cost.
翻訳日:2023-08-02 18:38:45 公開日:2023-08-01
# ゼロショット行動認識と局所化のためのユニバーサルプロトタイプトランスポート

Universal Prototype Transport for Zero-Shot Action Recognition and Localization ( http://arxiv.org/abs/2203.03971v2 )

ライセンス: Link先を確認
Pascal Mettes(参考訳) この研究は、トレーニング例がない場合にビデオ内のアクションカテゴリを認識する問題に対処する。 現在の最先端技術は、ビデオからセマンティック空間への普遍的なマッピングを学習することで、このようなゼロショット認識を可能にする。 有効ではあるが、普遍的なアクションとオブジェクトマッピングは意味空間内の特定の領域に偏っている。 多くの目に見えないアクションカテゴリは、テスト中に単純に推論されることはない。 例えば、UCF-101では、目に見えないアクションの4分の1は最先端のユニバーサルアクションモデルでは到達できない。 そこで本稿では,ゼロショット動作認識のためのユニバーサルプロトタイプトランスポートを提案する。 主なアイデアは、セマンティクスのプロトタイプをすべてのテストビデオの配信と一致させることで再配置することだ。 ユニバーサルアクションモデルでは、未確認のアクションプロトタイプから投影されたテストビデオの集合への超球面的最適輸送を通して分布を一致させることを提案する。 結果として生じる輸送結合は、各未確認アクションのターゲットプロトタイプを決定する。 最終結果としてターゲットプロトタイプを直接使用するのではなく,原型および対象プロトタイプにまたがる測地線に沿って,意味的正則化の一形態として,目に見えないアクションプロトタイプを再配置する。 汎用オブジェクトモデルでは,対象プロトタイプと対象プロトタイプの最適なトランスポートに基づいて,対象プロトタイプを定義する手法を概説する。 実験により、ユニバーサルプロトタイプトランスポートは、目に見えないアクションプロトタイプのバイアス選択を減らし、ゼロショット分類と時空間化のためのユニバーサルアクションモデルとオブジェクトモデルの両方を増強することを示した。

This work addresses the problem of recognizing action categories in videos when no training examples are available. The current state-of-the-art enables such a zero-shot recognition by learning universal mappings from videos to a semantic space, either trained on large-scale seen actions or on objects. While effective, we find that universal action and object mappings are biased to specific regions in the semantic space. These biases lead to a fundamental problem: many unseen action categories are simply never inferred during testing. For example on UCF-101, a quarter of the unseen actions are out of reach with a state-of-the-art universal action model. To that end, this paper introduces universal prototype transport for zero-shot action recognition. The main idea is to re-position the semantic prototypes of unseen actions by matching them to the distribution of all test videos. For universal action models, we propose to match distributions through a hyperspherical optimal transport from unseen action prototypes to the set of all projected test videos. The resulting transport couplings in turn determine the target prototype for each unseen action. Rather than directly using the target prototype as final result, we re-position unseen action prototypes along the geodesic spanned by the original and target prototypes as a form of semantic regularization. For universal object models, we outline a variant that defines target prototypes based on an optimal transport between unseen action prototypes and object prototypes. Empirically, we show that universal prototype transport diminishes the biased selection of unseen action prototypes and boosts both universal action and object models for zero-shot classification and spatio-temporal localization.
翻訳日:2023-08-02 18:38:27 公開日:2023-08-01
# AgraSSt: Inlicit Graph Generatorsの解釈可能な評価のための近似グラフスタイン統計

AgraSSt: Approximate Graph Stein Statistics for Interpretable Assessment of Implicit Graph Generators ( http://arxiv.org/abs/2203.03673v4 )

ライセンス: Link先を確認
Wenkai Xu and Gesine Reinert(参考訳) 明示的な形式では利用できないグラフ生成器の品質を評価するために,agrasstという新しい統計手法を提案し,解析する。 特に、agrasstは、学習グラフ生成プロセスが所定の入力グラフに似たグラフを生成することができるかどうかを判断するために使用できる。 ランダムグラフに対するスタイン作用素にインスパイアされたAgraSStのキーアイデアは、グラフ生成器から得られる演算子に基づくカーネルの差分性の構築である。 AgraSStはグラフジェネレータのトレーニング手順に対する解釈可能な批評を提供し、下流タスクの信頼できるサンプルバッチを特定するのに役立つ。 stein`s法を用いて、幅広いランダムグラフモデルのクラスに対して理論的保証を与える。 我々は、既知のグラフ生成手順を持つ合成入力グラフと、グラフの最先端(深度)生成モデルを訓練した実世界の入力グラフの両方について実験結果を提供する。

We propose and analyse a novel statistical procedure, coined AgraSSt, to assess the quality of graph generators that may not be available in explicit form. In particular, AgraSSt can be used to determine whether a learnt graph generating process is capable of generating graphs that resemble a given input graph. Inspired by Stein operators for random graphs, the key idea of AgraSSt is the construction of a kernel discrepancy based on an operator obtained from the graph generator. AgraSSt can provide interpretable criticisms for a graph generator training procedure and help identify reliable sample batches for downstream tasks. Using Stein`s method we give theoretical guarantees for a broad class of random graph models. We provide empirical results on both synthetic input graphs with known graph generation procedures, and real-world input graphs that the state-of-the-art (deep) generative models for graphs are trained on.
翻訳日:2023-08-02 18:37:59 公開日:2023-08-01
# 入力次元の異なるデータセット間でのトランスファーラーニング--線形回帰のアルゴリズムと解析

Transfer-Learning Across Datasets with Different Input Dimensions: An Algorithm and Analysis for the Linear Regression Case ( http://arxiv.org/abs/2202.05069v2 )

ライセンス: Link先を確認
Luis Pedro Silvestrin, Harry van Zanten, Mark Hoogendoorn, Ger Koole(参考訳) 新しいセンサーと監視デバイスの開発により、より多くのデータソースが機械学習モデルの入力として利用できるようになる。 これらは一方、モデルの精度を向上させるのに役立ちます。 しかし、これらの新たな入力と過去のデータを組み合わせることは、まだ十分に詳細に研究されていない課題である。 本研究では,新しいデータと履歴データを組み合わせた転送学習アルゴリズムを提案する。 我々は、線形回帰の場合に焦点をあて、アプローチの利点に関する厳密な理論的研究を行うことができる。 提案手法は負の伝達学習に対して堅牢であることを示し,実データとシミュレーションデータとを実証的に検証する。

With the development of new sensors and monitoring devices, more sources of data become available to be used as inputs for machine learning models. These can on the one hand help to improve the accuracy of a model. On the other hand however, combining these new inputs with historical data remains a challenge that has not yet been studied in enough detail. In this work, we propose a transfer-learning algorithm that combines the new and the historical data, that is especially beneficial when the new data is scarce. We focus the approach on the linear regression case, which allows us to conduct a rigorous theoretical study on the benefits of the approach. We show that our approach is robust against negative transfer-learning, and we confirm this result empirically with real and simulated data.
翻訳日:2023-08-02 18:37:41 公開日:2023-08-01
# 超次元計算におけるベクトルシンボリックアーキテクチャに関する研究(その2):応用,認知モデル,課題

A Survey on Hyperdimensional Computing aka Vector Symbolic Architectures, Part II: Applications, Cognitive Models, and Challenges ( http://arxiv.org/abs/2112.15424v3 )

ライセンス: Link先を確認
Denis Kleyko, Dmitri A. Rachkovskij, Evgeny Osipov, Abbas Rahimi(参考訳) これはHyperdimensional Computing and Vector Symbolic Architectures (HDC/VSA)という名でよく知られるコンピューティングフレームワークに関する2部構成の総合的な調査である。 どちらの名前も高次元の分散表現を使用し、その鍵演算の代数的性質に依存して構造化記号表現とベクトル分散表現の利点を取り入れた計算モデルのファミリーを指す。 Holographic Reduced Representationsは、機械学習領域でよく知られ、家族全体を指すためによく使われる、影響力のあるHDC/VSAモデルである。 しかし、一貫性のため、フィールドを参照するためにHDC/VSAを使用する。 第1部では,HDC/VSAの発展につながる歴史的背景,HDC/VSAモデルの主要な要素,HDC/VSAモデル,HDC/VSAに適した高次元ベクトルへの各種入力データの変換など,この分野の基本的側面について論じる。 第2部では、既存のアプリケーション、認知コンピューティングとアーキテクチャにおけるHDC/VSAの役割、今後の作業の方向性について調査する。 ほとんどのアプリケーションは機械学習/人工知能ドメイン内にありますが、完全なイメージを提供するために他のアプリケーションもカバーしています。 この調査は、新参者も実践者も役に立つと書かれています。

This is Part II of the two-part comprehensive survey devoted to a computing framework most commonly known under the names Hyperdimensional Computing and Vector Symbolic Architectures (HDC/VSA). Both names refer to a family of computational models that use high-dimensional distributed representations and rely on the algebraic properties of their key operations to incorporate the advantages of structured symbolic representations and vector distributed representations. Holographic Reduced Representations is an influential HDC/VSA model that is well-known in the machine learning domain and often used to refer to the whole family. However, for the sake of consistency, we use HDC/VSA to refer to the field. Part I of this survey covered foundational aspects of the field, such as the historical context leading to the development of HDC/VSA, key elements of any HDC/VSA model, known HDC/VSA models, and the transformation of input data of various types into high-dimensional vectors suitable for HDC/VSA. This second part surveys existing applications, the role of HDC/VSA in cognitive computing and architectures, as well as directions for future work. Most of the applications lie within the Machine Learning/Artificial Intelligence domain, however, we also cover other applications to provide a complete picture. The survey is written to be useful for both newcomers and practitioners.
翻訳日:2023-08-02 18:37:29 公開日:2023-08-01
# 深部ニューラルネットワークの未知検出能力に関する統一ベンチマーク

A Unified Benchmark for the Unknown Detection Capability of Deep Neural Networks ( http://arxiv.org/abs/2112.00337v2 )

ライセンス: Link先を確認
Jihyo Kim, Jiin Koo, Sangheum Hwang(参考訳) ディープニューラルネットワークは様々なタスクにおいて優れたパフォーマンスを実現しているが、それらは重要な問題である:完全に未知のサンプルであっても過信予測である。 これらの未知のサンプルのフィルタリングに成功するために多くの研究が提案されているが、それらは、誤分類検出、オープンセット認識、分散検出と呼ばれる、狭く特定のタスクのみを考慮していた。 本研究では,これらのタスクは,理想モデルがすべてのタスクに対して検出能力を持つべきなので,基本的に同一の問題として扱われるべきである,と論じる。 そこで我々は,従来の個別タスクの統合である未知検出タスクを導入し,未知サンプルの幅広いスペクトル上での深部ニューラルネットワークの検出能力を厳密に検証する。 この目的のために、異なるスケールの統一ベンチマークデータセットを構築し、既存の一般的な方法の未知の検出能力を比較した。 我々は、Deep Ensembleが未知の検出において他の手法よりも一貫して優れていることを発見した。 再現可能なコードとベンチマークデータセットは、https://github.com/daintlab/unknown-detection-benchmarksで入手できる。

Deep neural networks have achieved outstanding performance over various tasks, but they have a critical issue: over-confident predictions even for completely unknown samples. Many studies have been proposed to successfully filter out these unknown samples, but they only considered narrow and specific tasks, referred to as misclassification detection, open-set recognition, or out-of-distribution detection. In this work, we argue that these tasks should be treated as fundamentally an identical problem because an ideal model should possess detection capability for all those tasks. Therefore, we introduce the unknown detection task, an integration of previous individual tasks, for a rigorous examination of the detection capability of deep neural networks on a wide spectrum of unknown samples. To this end, unified benchmark datasets on different scales were constructed and the unknown detection capabilities of existing popular methods were subject to comparison. We found that Deep Ensemble consistently outperforms the other approaches in detecting unknowns; however, all methods are only successful for a specific type of unknown. The reproducible code and benchmark datasets are available at https://github.com/daintlab/unknown-detection-benchmarks .
翻訳日:2023-08-02 18:37:06 公開日:2023-08-01
# 統合条件推定最適化

Integrated Conditional Estimation-Optimization ( http://arxiv.org/abs/2110.12351v3 )

ライセンス: Link先を確認
Paul Grigas, Meng Qi, Zuo-Jun Max Shen(参考訳) 多くの実世界の最適化問題は、文脈的特徴情報を用いて推定できる確率分布を持つ不確実なパラメータを含む。 まず,不確定パラメータの分布を推定し,その推定に基づいて目標を最適化する標準的なアプローチとは対照的に,最適化問題の構造を考慮しつつ,確率パラメータの基底条件分布を推定する統合条件推定最適化(iceo)フレームワークを提案する。 ランダムパラメータの条件分布と文脈的特徴の関係を直接モデル化し、下流最適化問題と整合した目標を用いて確率モデルを推定する。 我々のI CEOアプローチは、中等正規性条件下で漸近的に整合であることを示し、さらに一般化境界の形で有限な性能保証を提供する。 計算学的には、I CEO アプローチによる推定は非凸であり、しばしば微分不可能な最適化問題である。 本研究では, 推定条件分布から最適決定への可微分写像を微分可能関数によって近似する一般的な手法を提案し, 非凸問題に適用する勾配に基づくアルゴリズムの性能を大幅に改善する。 また,半代数の場合の多項式最適化解法を提案する。 また,データサンプルの制限やモデルミスマッチなど,異なる状況下での経験的成功を示すために,数値実験を行った。

Many real-world optimization problems involve uncertain parameters with probability distributions that can be estimated using contextual feature information. In contrast to the standard approach of first estimating the distribution of uncertain parameters and then optimizing the objective based on the estimation, we propose an integrated conditional estimation-optimization (ICEO) framework that estimates the underlying conditional distribution of the random parameter while considering the structure of the optimization problem. We directly model the relationship between the conditional distribution of the random parameter and the contextual features, and then estimate the probabilistic model with an objective that aligns with the downstream optimization problem. We show that our ICEO approach is asymptotically consistent under moderate regularity conditions and further provide finite performance guarantees in the form of generalization bounds. Computationally, performing estimation with the ICEO approach is a non-convex and often non-differentiable optimization problem. We propose a general methodology for approximating the potentially non-differentiable mapping from estimated conditional distribution to the optimal decision by a differentiable function, which greatly improves the performance of gradient-based algorithms applied to the non-convex problem. We also provide a polynomial optimization solution approach in the semi-algebraic case. Numerical experiments are also conducted to show the empirical success of our approach in different situations including with limited data samples and model mismatches.
翻訳日:2023-08-02 18:36:20 公開日:2023-08-01
# 注意がすべてではない: 純粋注意力は深さで2倍に低下する

Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth ( http://arxiv.org/abs/2103.03404v2 )

ライセンス: Link先を確認
Yihe Dong, Jean-Baptiste Cordonnier, Andreas Loukas(参考訳) 注意に基づくアーキテクチャは機械学習においてユビキタスになってきたが、その有効性に対する我々の理解は依然として限られている。 本研究は,自己着脱ネットワークを理解する新しい方法を提案する。これらのアウトプットがより小さな項の和に分解され,各層にまたがる注意ヘッドの一連の操作を含むことを示す。 この分解を用いて、自己意図が「一様性」に対して強い帰納バイアスを持つことを示す。 具体的には、スキップ接続や多層パーセプトロン(MLP)を使わずに、出力は2倍指数的にランク1行列に収束する。 一方、接続をスキップし、MLPは出力を退化から停止する。 本実験は,標準変圧器アーキテクチャの異なる変種における同定収束現象を検証する。

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.
翻訳日:2023-08-02 18:35:36 公開日:2023-08-01
# マルチエージェント強化学習によるオーバー・ザ・カウンタ市場シミュレーションに向けて

Towards Multi-Agent Reinforcement Learning driven Over-The-Counter Market Simulations ( http://arxiv.org/abs/2210.07184v2 )

ライセンス: Link先を確認
Nelson Vadori, Leo Ardon, Sumitra Ganesh, Thomas Spooner, Selim Amrouni, Jared Vann, Mengda Xu, Zeyu Zheng, Tucker Balch, Manuela Veloso(参考訳) 外国為替取引の典型例である国外市場での流動性提供者と流動性テイカーエージェントの相互作用に関するゲームについて検討した。 本稿では,共有ポリシー学習と連動した報酬関数のパラメータ化ファミリーの設計が,この問題に対する効率的な解決策となることを示す。 深層強化学習主体のエージェントは、互いに対戦することによって、利益と損失、最適な実行、市場シェアを含む幅広い目的に対して、創発的な行動を学ぶ。 特に、流動性提供者は自然にヘッジとスキイングのバランスをとることを学び、スキーイングは在庫の機能として価格を非対称に設定・販売することを指す。 さらに,ゲーム平衡に制約を課す手法として,rlを用いた新しいキャリブレーションアルゴリズムを提案する。 理論面では、一般化された順序付ポテンシャルゲームと密接に関連する推移性仮定の下で、多エージェントポリシー勾配アルゴリズムの収束率を示すことができる。

We study a game between liquidity provider and liquidity taker agents interacting in an over-the-counter market, for which the typical example is foreign exchange. We show how a suitable design of parameterized families of reward functions coupled with shared policy learning constitutes an efficient solution to this problem. By playing against each other, our deep-reinforcement-learning-driven agents learn emergent behaviors relative to a wide spectrum of objectives encompassing profit-and-loss, optimal execution and market share. In particular, we find that liquidity providers naturally learn to balance hedging and skewing, where skewing refers to setting their buy and sell prices asymmetrically as a function of their inventory. We further introduce a novel RL-based calibration algorithm which we found performed well at imposing constraints on the game equilibrium. On the theoretical side, we are able to show convergence rates for our multi-agent policy gradient algorithm under a transitivity assumption, closely related to generalized ordinal potential games.
翻訳日:2023-08-02 18:29:34 公開日:2023-08-01
# Complement Groverの検索アルゴリズム:振幅抑圧実装

Complement Grover's Search Algorithm: An Amplitude Suppression Implementation ( http://arxiv.org/abs/2209.10484v3 )

ライセンス: Link先を確認
Andrew Vlasic, Salvatore Certo, and Anh Pham(参考訳) グローバーの探索アルゴリズムは量子アルゴリズムの画期的な進歩であり、アイテムのクエリの2倍のスピードアップを表示する。 このアルゴリズムの創設以来、一般回路の特定の状態の準備を含む様々な方法で利用されてきた。 しかし、望ましい項目の数が増えるにつれて、クエリを実行するサブプロセスのゲートの複雑さも増す。 この複雑さに対処するために、クエリの焦点が望ましくない項目に向けられているGroverの検索アルゴリズムの拡張が導出され、クエリされた項目の振幅が抑制される。 アルゴリズムをQAOAにサブプロセスとして実装し、旅行セールスマン問題に適用する。 比較の結果はQAOAと比較される。

Grover's search algorithm was a groundbreaking advancement in quantum algorithms, displaying a quadratic speed-up of querying for items. Since the creation of this algorithm it has been utilized in various ways, including in preparing specific states for the general circuit. However, as the number of desired items increases so does the gate complexity of the sub-process that conducts the query. To counter this complexity, an extension of Grover's search algorithm is derived where the focus of the query is on the undesirable items in order to suppress the amplitude of the queried items. To display the efficacy the algorithm is implemented as a sub-process into QAOA and applied to a traveling salesman problem. For a basis of comparison, the results are compared against QAOA.
翻訳日:2023-08-02 18:29:17 公開日:2023-08-01
# 連続計測によるセンシングのための効率的な情報検索

Efficient Information Retrieval for Sensing via Continuous Measurement ( http://arxiv.org/abs/2209.08777v3 )

ライセンス: Link先を確認
Dayou Yang, Susana F. Huelga, Martin B. Plenio(参考訳) 駆動散逸型量子光学系の連続モニタリングは、量子力学の実装において重要な要素であり、古典的限界を超えた高精度な測定を実現するための重要な戦略を提供する。 この文脈において、関連するメリットの数値は、駆動拡散センサから放射される放射場の量子フィッシャー情報である。 量子クレーマー・ラオ境界によって定義される対応する精度限界の飽和は、通常、カウントやホモダイニングのような時間的局所的な連続測定スキームによって達成されない。 放射場の量子フィッシャー情報の効率的な検索に際し, 時間的に準局所的な測定ベースをマトリックス生成物の状態によって捉えた新しい連続測定戦略を設計する。 このような測定は、センサの放出フィールドを補助オープンシステムである「量子デコーダ」モジュールに注入し、特定の入力行列積をその出力フィールドとして単純な積状態とし、その出力で従来の連続測定を行うことで効果的に実施することができる。 本稿では,量子光入出力チャネルの時間反転を利用したデコーダ構築のための普遍的レシピを考案し,連続計測に基づく汎用センサの量子クレーダ・ラオ精度限界を達成するための普遍的手法を提案する。 副産物として,ジェネリック駆動散逸型オープンセンサの放射場の量子フィッシャー情報の評価に有効な公式を定式化する。 本稿では, 線形力センサ, ファイバ界面非線形エミッタ, 駆動型多体センサを含む非磁性オープンセンサの設計により, 実測的な実験的不完全条件下で頑健に実装できることを実証する。

Continuous monitoring of driven-dissipative quantum optical systems is a crucial element in the implementation of quantum metrology, providing essential strategies for achieving highly precise measurements beyond the classical limit. In this context, the relevant figure of merit is the quantum Fisher information of the radiation field emitted by the driven-dissipative sensor. Saturation of the corresponding precision limit as defined by the quantum Cramer-Rao bound is typically not achieved by conventional, temporally local continuous measurement schemes such as counting or homodyning. To address the outstanding open challenge of efficient retrieval of the quantum Fisher information of the emission field, we design a novel continuous measurement strategy featuring temporally quasilocal measurement bases as captured by matrix product states. Such measurement can be implemented effectively by injecting the emission field of the sensor into an auxiliary open system, a `quantum decoder' module, which `decodes' specific input matrix product states into simple product states as its output field, and performing conventional continuous measurement at the output. We devise a universal recipe for the construction of the decoder by exploiting time reversal transformation of quantum optical input-output channels, thereby establishing a universal method to achieve the quantum Cramer-Rao precision limit for generic sensors based on continuous measurement. As a by-product, we establish an effective formula for the evaluation of the quantum Fisher information of the emission field of generic driven-dissipative open sensors. We illustrate the power of our scheme with paramagnetic open sensor designs including linear force sensors, fibre-interfaced nonlinear emitters, and driven-dissipative many-body sensors, and demonstrate that it can be robustly implemented under realistic experimental imperfections.
翻訳日:2023-08-02 18:28:57 公開日:2023-08-01
# 複数のエッジコスト推定を持つグラフに対する最短経路問題の一般化

A Generalization of the Shortest Path Problem to Graphs with Multiple Edge-Cost Estimates ( http://arxiv.org/abs/2208.11489v4 )

ライセンス: Link先を確認
Eyal Weiss, Ariel Felner, Gal A. Kaminka(参考訳) グラフにおける最短経路問題は、AI理論と応用の基礎である。 既存のアルゴリズムは一般にエッジウェイト計算時間を無視する。 本稿では,重み付き有向グラフの一般化フレームワークを提案する。エッジウェイトを複数回計算可能で,精度と実行時間コストが向上する。 これは、最短経路問題のいくつかの一般化された変種を引き起こす。 最適なコストで最短の低バウンドの経路を求める問題を導入する。 次に,一般化問題に対する2つの完全アルゴリズムを提示し,その効果を実証的に示す。

The shortest path problem in graphs is a cornerstone of AI theory and applications. Existing algorithms generally ignore edge weight computation time. We present a generalized framework for weighted directed graphs, where edge weight can be computed (estimated) multiple times, at increasing accuracy and run-time expense. This raises several generalized variants of the shortest path problem. We introduce the problem of finding a path with the tightest lower-bound on the optimal cost. We then present two complete algorithms for the generalized problem, and empirically demonstrate their efficacy.
翻訳日:2023-08-02 18:28:29 公開日:2023-08-01
# 形式言語による構成性のベンチマーク

Benchmarking Compositionality with Formal Languages ( http://arxiv.org/abs/2208.08195v3 )

ライセンス: Link先を確認
Josef Valvoda, Naomi Saphra, Jonathan Rawski, Adina Williams, Ryan Cotterell(参考訳) 既知の原始概念をより大きな新しい組み合わせに再結合することは、人間の認知能力である。 nlpの大規模ニューラルモデルが、データから学習しながらこの能力を習得できるかどうかは、明らかな疑問である。 本稿では,形式言語の観点からこの問題を考察する。 決定論的有限状態トランスデューサを用いて、構成性を管理する制御可能な特性を持つ非有界な数のデータセットを作成する。 多くのトランスデューサをランダムにサンプリングすることにより、ニューラルネットワークによる合成関係の学習性に寄与する特性を探索する。 モデルは完全に関係を学習するか、全く学習しないかのどちらかです。 キーとなるのは移行カバレッジで、移行毎に400例という、ソフトラーナビリティの制限を設定します。

Recombining known primitive concepts into larger novel combinations is a quintessentially human cognitive capability. Whether large neural models in NLP can acquire this ability while learning from data is an open question. In this paper, we investigate this problem from the perspective of formal languages. We use deterministic finite-state transducers to make an unbounded number of datasets with controllable properties governing compositionality. By randomly sampling over many transducers, we explore which of their properties contribute to learnability of a compositional relation by a neural network. We find that the models either learn the relations completely or not at all. The key is transition coverage, setting a soft learnability limit at 400 examples per transition.
翻訳日:2023-08-02 18:28:20 公開日:2023-08-01
# オートエンコーダに基づく単一チャネル水中音響信号の未知数の音源分離

Source Separation of Unknown Numbers of Single-Channel Underwater Acoustic Signals Based on Autoencoders ( http://arxiv.org/abs/2207.11749v2 )

ライセンス: Link先を確認
Qinggang Sun and Kejun Wang(参考訳) 未知数の信号によるソース分離問題に注目する既存の研究はほとんどなく、システムの性能を評価する方法はまだ明確ではない。 本稿では,これらの2つの問題に対処するために,一定数の出力チャネルを持つ解を提案し,目標への出力のアライメントによって引き起こされる置換問題による次元的災害を回避する。 具体的には、オートエンコーダに基づく2段階アルゴリズムと、ミュートチャネルを有する状況に対する新しい性能評価手法を提案する。 放射された船舶騒音の混合混合実験により, 提案手法は既知の信号数で得られたものと同様の分離性能が得られることがわかった。 提案アルゴリズムは、既知の信号数に対して開発された2つのアルゴリズムとして、高い説明性と拡張性を備え、この枠組みの下での最先端性を得る。

Few existing studies focus on the source separation problem with unknown numbers of signals, and how to evaluate the performances of the systems is not yet clear. We propose a solution with a fixed number of output channels to address these two problems, enabling it to avoid the dimensional disaster caused by the permutation problem induced by the alignment of outputs to targets. Specifically, we propose a two-step algorithm based on autoencoders and a new performance evaluation method for situations with mute channels. Experiments conducted on simulated mixtures of radiated ship noise show that the proposed solution can achieve similar separation performance to that attained with a known number of signals. The proposed algorithm achieved competitive performance as two algorithms developed for known numbers of signals, which is highly explainable and extensible and get the state of the art under this framework.
翻訳日:2023-08-02 18:27:49 公開日:2023-08-01
# 投影パワー法による相関ウィグナーモデルに対するシードグラフマッチング

Seeded graph matching for the correlated Wigner model via the projected power method ( http://arxiv.org/abs/2204.04099v2 )

ライセンス: Link先を確認
Ernesto Araya, Guillaume Braun and Hemant Tyagi(参考訳) emph{graph matching}問題では、2つのグラフをg,h$ で観察し、その頂点間の代入(またはマッチング)を見つけ出すことが目的であり、ある辺合意の測度が最大化される。 この研究において、観察された対 $g,h$ は、相関付き重み付きグラフの一般的なモデルである、相関付きウィグナーモデル(英語版)(relationeded wigner model)から引き出され、このモデルでは、$g$ と $h$ の隣接行列のエントリは独立ガウス行列であり、$g$ の各辺は、パラメータ $\sigma\in [0,1)$ で記述された辺相関と相関していると仮定する。 本稿では,初期部分的正のマッチング(シードと呼ばれる)をサイド情報として与えた,<emph{seed}グラフマッチングアルゴリズムである<emph{projected power method>(ppm)の性能解析を行う。 この結果から, 種子が接地構造マッチングに十分近い場合, 高い確率でPPMは種子を反復的に改良し, 地上構造マッチングを$\mathcal{O}(\log n)$繰り返しで回収することを示した。 この結果から, ppm は定値 $\sigma$ のレジームでも作用することが明らかとなり, スパース erd\h{o}s-r\'enyi モデルに対する \citep{maorud} の解析を (dense) wigner モデルに拡張した。 我々の分析の副産物として、PPMフレームワークはシードグラフマッチングのための最先端アルゴリズムの一部を一般化している。 我々は, 合成データに関する数値実験を行い, 理論的知見を補完する。

In the \emph{graph matching} problem we observe two graphs $G,H$ and the goal is to find an assignment (or matching) between their vertices such that some measure of edge agreement is maximized. We assume in this work that the observed pair $G,H$ has been drawn from the correlated Wigner model -- a popular model for correlated weighted graphs -- where the entries of the adjacency matrices of $G$ and $H$ are independent Gaussians and each edge of $G$ is correlated with one edge of $H$ (determined by the unknown matching) with the edge correlation described by a parameter $\sigma\in [0,1)$. In this paper, we analyse the performance of the \emph{projected power method} (PPM) as a \emph{seeded} graph matching algorithm where we are given an initial partially correct matching (called the seed) as side information. We prove that if the seed is close enough to the ground-truth matching, then with high probability, PPM iteratively improves the seed and recovers the ground-truth matching (either partially or exactly) in $\mathcal{O}(\log n)$ iterations. Our results prove that PPM works even in regimes of constant $\sigma$, thus extending the analysis in \citep{MaoRud} for the sparse Erd\H{o}s-R\'enyi model to the (dense) Wigner model. As a byproduct of our analysis, we see that the PPM framework generalizes some of the state-of-art algorithms for seeded graph matching. We support and complement our theoretical findings with numerical experiments on synthetic data.
翻訳日:2023-08-02 18:27:06 公開日:2023-08-01
# 回帰のための深層バッチアクティブラーニングのためのフレームワークとベンチマーク

A Framework and Benchmark for Deep Batch Active Learning for Regression ( http://arxiv.org/abs/2203.09410v4 )

ライセンス: Link先を確認
David Holzm\"uller, Viktor Zaverkin, Johannes K\"astner, Ingo Steinwart(参考訳) 教師付き学習のためのラベルの取得は高価である。 ニューラルネットワーク回帰のサンプル効率を改善するために,ラベル付きデータのバッチを適応的に選択する能動的学習法を検討した。 ネットワークに依存した)ベースカーネル,カーネル変換,選択メソッドからそのようなメソッドを構築するためのフレームワークを提案する。 本フレームワークは,ニューラルネットワークのガウス過程近似と非ベイズ手法に基づく既存のベイズ手法を包含する。 さらに,よく使われるラスト層の特徴をスケッチされた有限幅神経接核に置き換え,新しいクラスタリング法と組み合わせることを提案する。 異なる手法を評価するため、15個の大きな表付き回帰データセットからなるオープンソースベンチマークを導入する。 提案手法は,我々のベンチマークの最先端性,大規模データセットへのスケール,ネットワークアーキテクチャやトレーニングコードを調整することなく,アウト・オブ・ボックスで動作する。 私たちは、すべてのカーネル、カーネル変換、選択メソッドの効率的な実装を含むオープンソースコードを提供し、結果の再現に使用しています。

The acquisition of labels for supervised learning can be expensive. To improve the sample efficiency of neural network regression, we study active learning methods that adaptively select batches of unlabeled data for labeling. We present a framework for constructing such methods out of (network-dependent) base kernels, kernel transformations, and selection methods. Our framework encompasses many existing Bayesian methods based on Gaussian process approximations of neural networks as well as non-Bayesian methods. Additionally, we propose to replace the commonly used last-layer features with sketched finite-width neural tangent kernels and to combine them with a novel clustering method. To evaluate different methods, we introduce an open-source benchmark consisting of 15 large tabular regression data sets. Our proposed method outperforms the state-of-the-art on our benchmark, scales to large data sets, and works out-of-the-box without adjusting the network architecture or training code. We provide open-source code that includes efficient implementations of all kernels, kernel transformations, and selection methods, and can be used for reproducing our results.
翻訳日:2023-08-02 18:26:27 公開日:2023-08-01
# FBLNet:ドライバー注意予測のためのフィードバックループネットワーク

FBLNet: FeedBack Loop Network for Driver Attention Prediction ( http://arxiv.org/abs/2212.02096v2 )

ライセンス: Link先を確認
Yilong Chen, Zhixiong Nan, Tao Xiang(参考訳) 運転者の注意を運転の観点から予測する問題は、自動運転と補助運転システムにおいて顕著な重要性から研究の焦点が増している。 The driving experience is extremely important for safe driving,a skilled driver is able to effortlessly predict oncoming danger (before it becomes salient) based on the driving experience and quickly pay attention to the corresponding zones.However, the nonobjective driving experience is difficult to model, so a mechanism simulating the driver experience accumulation procedure is absent in existing methods, and the current methods usually follow the technique line of saliency prediction methods to predict driver attention. 本稿では,運転経験の蓄積過程をモデル化するフィードバックループネットワーク(fblnet)を提案する。 オーバー・アンド・オーバーの繰り返しによって、FBLNetは、豊富な歴史的累積的および長期的時間的情報をもたらす漸進的な知識を生成する。 私たちのモデルにおけるインクリメンタルな知識は、人間の運転体験のようなものです。 インクリメンタルな知識の指導の下で,入力画像から抽出したCNN特徴とトランスフォーマー特徴を融合し,運転者の注意力を予測する。 本モデルでは,2つのドライバー注意ベンチマークデータセットの性能向上を図り,既存の手法に対して確固たる優位性を示す。

The problem of predicting driver attention from the driving perspective is gaining increasing research focus due to its remarkable significance for autonomous driving and assisted driving systems. The driving experience is extremely important for safe driving,a skilled driver is able to effortlessly predict oncoming danger (before it becomes salient) based on the driving experience and quickly pay attention to the corresponding zones.However, the nonobjective driving experience is difficult to model, so a mechanism simulating the driver experience accumulation procedure is absent in existing methods, and the current methods usually follow the technique line of saliency prediction methods to predict driver attention. In this paper, we propose a FeedBack Loop Network (FBLNet), which attempts to model the driving experience accumulation procedure. By over-and-over iterations, FBLNet generates the incremental knowledge that carries rich historically-accumulative and long-term temporal information. The incremental knowledge in our model is like the driving experience of humans. Under the guidance of the incremental knowledge, our model fuses the CNN feature and Transformer feature that are extracted from the input image to predict driver attention. Our model exhibits a solid advantage over existing methods, achieving an outstanding performance improvement on two driver attention benchmark datasets.
翻訳日:2023-08-02 18:19:36 公開日:2023-08-01
# マルチモーダル確率的融合プロンプトに基づく少数ショットマルチモーダル感情分析

Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic Fusion Prompts ( http://arxiv.org/abs/2211.06607v2 )

ライセンス: Link先を確認
Xiaocui Yang, Shi Feng, Daling Wang, Pengfei Hong, Soujanya Poria(参考訳) ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。 しかし、この分野の既存の研究は、収集に要する時間と労力のかかる大規模監視データに大きく依存している。 したがって、少数ショットのマルチモーダル感情分析の課題に対処する必要がある。 そこで本研究では,多モード確率的融合プロンプト(multipoint)と呼ばれる手法を提案する。 具体的には、cdsと呼ばれる、一貫性のある分散サンプリングアプローチの導入から始めます。これにより、マイナショットデータセットが、フルデータセットと同じカテゴリの分布を持つことが保証されます。 テキストモダリティに基づいたプロンプトを主に使用する従来のアプローチとは異なり、異なるモダリティ間の不一致を減らすために統一されたマルチモーダルプロンプトを設計し、各マルチモーダルインスタンスのコンテキストに動的にマルチモーダルデモを組み込む。 モデルのロバスト性を高めるために,複数の多種多様なプロンプトから出力予測を融合する確率的融合法を提案する。 6つのデータセットに関する広範な実験は、我々のアプローチの有効性を示しています。 まず,マルチモーダル・ショット・セッティングにおいて,強いベースラインを向上する手法を提案する。 さらに、同じ量のデータ(全データセットの1%)の下で、我々のCDSベースの実験結果は、各クラスの同じ数のインスタンスから構築されたサンプルデータセットに基づいて、大幅に性能が向上した。

Multimodal sentiment analysis has gained significant attention due to the proliferation of multimodal content on social media. However, existing studies in this area rely heavily on large-scale supervised data, which is time-consuming and labor-intensive to collect. Thus, there is a need to address the challenge of few-shot multimodal sentiment analysis. To tackle this problem, we propose a novel method called Multimodal Probabilistic Fusion Prompts (MultiPoint) that leverages diverse cues from different modalities for multimodal sentiment detection in the few-shot scenario. Specifically, we start by introducing a Consistently Distributed Sampling approach called CDS, which ensures that the few-shot dataset has the same category distribution as the full dataset. Unlike previous approaches primarily using prompts based on the text modality, we design unified multimodal prompts to reduce discrepancies between different modalities and dynamically incorporate multimodal demonstrations into the context of each multimodal instance. To enhance the model's robustness, we introduce a probabilistic fusion method to fuse output predictions from multiple diverse prompts for each input. Our extensive experiments on six datasets demonstrate the effectiveness of our approach. First, our method outperforms strong baselines in the multimodal few-shot setting. Furthermore, under the same amount of data (1% of the full dataset), our CDS-based experimental results significantly outperform those based on previously sampled datasets constructed from the same number of instances of each class.
翻訳日:2023-08-02 18:19:18 公開日:2023-08-01
# ミリケルビン温度における超伝導微粒子の高Q磁気浮上と制御

High-Q magnetic levitation and control of superconducting microspheres at millikelvin temperatures ( http://arxiv.org/abs/2211.06289v2 )

ライセンス: Link先を確認
Joachim Hofer, Rudolf Gross, Gerard Higgins, Hans Huebl, Oliver F. Kieler, Reinhold Kleiner, Dieter Koelle, Philip Schmidt, Joshua A. Slater, Michael Trupke, Kevin Uhl, Thomas Weimann, Witlef Wieczorek, Markus Aspelmeyer(参考訳) 反ヘルムホルツ構成の2コイルからなる静磁気トラップにおいて,100マイクロメートルの超伝導鉛スズ球体(質量5.6マイクログラム相当)の浮上を最大240ヘルツまで調整可能な共振周波数で報告した。 球の中心運動は、dc超伝導量子干渉デバイスを用いて磁気的に監視され、光学的に最大2.6e7の品質因子を示す。 また、球運動の3次元磁気フィードバック制御を実証する。 装置は15ミリケルビンの希釈冷蔵庫に格納されている。 極低温振動分離システムを実装することにより,200ヘルツの環境振動を約7桁減衰させることができる。 低温、大質量、高品質の因子と調整可能な共鳴周波数の組み合わせは、質量と長いコヒーレンス時間を持つ未探索の領域で量子物理学をテストするための有望なプラットフォームを提供する。

We report the levitation of a superconducting lead-tin sphere with 100 micrometer diameter (corresponding to a mass of 5.6 micrograms) in a static magnetic trap formed by two coils in an anti-Helmholtz configuration, with adjustable resonance frequencies up to 240 hertz. The center-of-mass motion of the sphere is monitored magnetically using a dc superconducting quantum interference device as well as optically and exhibits quality factors of up to 2.6e7. We also demonstrate 3D magnetic feedback control of the sphere's motion. The setup is housed in a dilution refrigerator operating at 15 millikelvin. By implementing a cryogenic vibration isolation system we can attenuate environmental vibrations at 200 hertz by approximately seven orders of magnitude. The combination of low temperature, large mass and high quality factor as well as adjustable resonance frequencies provides a promising platform for testing quantum physics in previously unexplored regimes with high mass and long coherence times.
翻訳日:2023-08-02 18:18:52 公開日:2023-08-01
# Manifold Constraint と Composite Quadratic Penalty を用いたマルチタスク機能線形回帰モデルの統一解析

A Unified Analysis of Multi-task Functional Linear Regression Models with Manifold Constraint and Composite Quadratic Penalty ( http://arxiv.org/abs/2211.04874v2 )

ライセンス: Link先を確認
Shiyuan He, Hanxuan Ye, Kejun He(参考訳) この研究は、共変量と未知回帰係数(傾き関数と呼ばれる)の両方が曲線であるマルチタスク関数線形回帰モデルを研究する。 傾斜関数の推定には, バイアス, 分散, 計算複雑性のバランスをとるためにペナルテッドスプラインを用いる。 マルチタスク学習のパワーは、傾斜関数に付加的な構造を課すことによってもたらされる。 スプライン係数行列上の二重正則化をもつ一般モデルを提案する。 一 行列多様体の制約、及び 二 第二項の合計としての複合ペナルティ 多くのマルチタスク学習アプローチは、縮小ランクモデルやグラフラプラシア正規化モデルなど、提案モデルの特別なケースとして扱うことができる。 複合ペナルティは、多様体曲率を定量化し、多様体接空間内の対応する固有部分集合を決定するのに役立つ特定のノルムを誘導する。 接空間部分集合の複雑さは、ジェネリック連鎖を通じて測地線近傍の複雑さにブリッジされる。 縮小ランクモデルとグラフラプラシアン正則化モデルに対して、統一収束上限が得られ、特に適用される。 モデルパラメータの設定が異なるため, 推定器の位相遷移挙動について検討する。

This work studies the multi-task functional linear regression models where both the covariates and the unknown regression coefficients (called slope functions) are curves. For slope function estimation, we employ penalized splines to balance bias, variance, and computational complexity. The power of multi-task learning is brought in by imposing additional structures over the slope functions. We propose a general model with double regularization over the spline coefficient matrix: i) a matrix manifold constraint, and ii) a composite penalty as a summation of quadratic terms. Many multi-task learning approaches can be treated as special cases of this proposed model, such as a reduced-rank model and a graph Laplacian regularized model. We show the composite penalty induces a specific norm, which helps to quantify the manifold curvature and determine the corresponding proper subset in the manifold tangent space. The complexity of tangent space subset is then bridged to the complexity of geodesic neighbor via generic chaining. A unified convergence upper bound is obtained and specifically applied to the reduced-rank model and the graph Laplacian regularized model. The phase transition behaviors for the estimators are examined as we vary the configurations of model parameters.
翻訳日:2023-08-02 18:18:35 公開日:2023-08-01
# 透過体局在のための量子センサネットワークアルゴリズム

Quantum Sensor Network Algorithms for Transmitter Localization ( http://arxiv.org/abs/2211.02260v4 )

ライセンス: Link先を確認
Caitao Zhan and Himanshu Gupta(参考訳) 量子センサ(QS)は、様々な物理現象を極度に感度で測定することができる。 QSは原子間干渉計などのいくつかの用途で使用されているが、量子センサネットワーク(QSN)の応用はほとんど提案されていない。 イベント(特に無線信号送信機)の局所化(qsn)の自然な応用について考察する。 本稿では,QSNを用いた送信機のローカライズに有効な量子ベース手法を提案する。 提案手法は,量子状態識別(qsd)問題としてローカライゼーション問題を取り上げ,ローカライゼーション問題への応用における課題に対処する。 特に、量子状態識別ソリューションは、特に状態数(つまり、我々の場合の送信可能位置数)が高い場合、高い誤差確率を被る可能性がある。 この課題は、送信機を第1のレベルで粗粒度、次いで第2のレベルでより微細粒度に局在させる2レベル局所化手法を開発することで解決される。 我々は、qsdの計測演算子を訓練されたパラメータ化ハイブリッド量子古典回路に置き換える新しいスキームを開発することにより、一般計測の不実用性のさらなる課題に対処する。 個別に構築したシミュレータを用いて評価した結果,測定値レベル (1-5m) の局所化精度が得られ, 離散位置の場合, ほぼ完全 (99-100\%) の分類精度が得られた。

A quantum sensor (QS) is able to measure various physical phenomena with extreme sensitivity. QSs have been used in several applications such as atomic interferometers, but few applications of a quantum sensor network (QSN) have been proposed or developed. We look at a natural application of QSN -- localization of an event (in particular, of a wireless signal transmitter). In this paper, we develop effective quantum-based techniques for the localization of a transmitter using a QSN. Our approaches pose the localization problem as a well-studied quantum state discrimination (QSD) problem and address the challenges in its application to the localization problem. In particular, a quantum state discrimination solution can suffer from a high probability of error, especially when the number of states (i.e., the number of potential transmitter locations in our case) can be high. We address this challenge by developing a two-level localization approach, which localizes the transmitter at a coarser granularity in the first level, and then, in a finer granularity in the second level. We address the additional challenge of the impracticality of general measurements by developing new schemes that replace the QSD's measurement operator with a trained parameterized hybrid quantum-classical circuit. Our evaluation results using a custom-built simulator show that our best scheme is able to achieve meter-level (1-5m) localization accuracy; in the case of discrete locations, it achieves near-perfect (99-100\%) classification accuracy.
翻訳日:2023-08-02 18:18:17 公開日:2023-08-01
# 一般化擬似比検定と一類分類器について

On the Generalized Likelihood Ratio Test and One-Class Classifiers ( http://arxiv.org/abs/2210.12494v2 )

ライセンス: Link先を確認
Francesco Ardizzon and Stefano Tomasin(参考訳) 1クラス分類 (one-class classification, occ) は、観測されたサンプルが対象クラスに属するかどうかを決定する問題である。 我々は,対象クラスのサンプルを含むデータセットから,一般確率比検定(GLRT)を行うOCCモデルを学習する問題を考察する。 GLRTは、ターゲットクラスの統計が利用可能であれば、同じ問題を解決する。 glrtはよく知られ、(特定の仮定の下で)最適な分類器である。 この目的のために、マルチ層パーセプトロンニューラルネットワーク(NN)とサポートベクターマシン(SVM)モデルの両方を検討する。 代替クラスのための人工データセットを使用して、2つのクラス分類器として訓練され、ターゲットクラスのデータセットのドメインに対して一様にランダムなサンプルを生成して得られる。 適切な仮定の下で、モデルが(大きなデータセットと共に)gltに収束することを証明する。 さらに,収束時に適切なカーネルを持つ一級最小二乗SVM(OCLSSVM)がGLRTとして動作することを示す。 最後に、広く使われているオートエンコーダ(AE)分類器がGLRTを提供していないことを証明する。

One-class classification (OCC) is the problem of deciding whether an observed sample belongs to a target class. We consider the problem of learning an OCC model that performs as the generalized likelihood ratio test (GLRT), given a dataset containing samples of the target class. The GLRT solves the same problem when the statistics of the target class are available. The GLRT is a well-known and provably optimal (under specific assumptions) classifier. To this end, we consider both the multilayer perceptron neural network (NN) and the support vector machine (SVM) models. They are trained as two-class classifiers using an artificial dataset for the alternative class, obtained by generating random samples, uniformly over the domain of the target-class dataset. We prove that, under suitable assumptions, the models converge (with a large dataset) to the GLRT. Moreover, we show that the one-class least squares SVM (OCLSSVM) with suitable kernels at convergence performs as the GLRT. Lastly, we prove that the widely used autoencoder (AE) classifier does not generally provide the GLRT.
翻訳日:2023-08-02 18:17:36 公開日:2023-08-01
# リーマン最適化によるグラフィカルファクタモデルの学習

Learning Graphical Factor Models with Riemannian Optimization ( http://arxiv.org/abs/2210.11950v2 )

ライセンス: Link先を確認
Alexandre Hippert-Ferrer, Florent Bouchard, Ammar Mian, Titouan Vayer, Arnaud Breloy(参考訳) 図形モデルと因子分析は多変量統計学において確立されたツールである。 これらのモデルは共分散と精度行列によって示される構造にリンクできるが、グラフ学習プロセスでは一般的には併用されない。 そこで本稿では,共分散行列の低ランク構造制約下でのグラフ学習のための柔軟なアルゴリズムフレームワークを提案する。 この問題は楕円分布(ガウスのグラフィカルモデルから重み付き分布への一般化)のペナル化最大推定として表現され、共分散行列は任意に低ランク+対角(低ランク因子モデル)として構造化される。 このクラスの問題の解決はリーマン最適化に取り組み、正定行列の測度と楕円モデルによく適合する定ランクの正半定行列を利用する。 実世界のデータセットに関する数値実験は,提案手法の有効性を示す。

Graphical models and factor analysis are well-established tools in multivariate statistics. While these models can be both linked to structures exhibited by covariance and precision matrices, they are generally not jointly leveraged within graph learning processes. This paper therefore addresses this issue by proposing a flexible algorithmic framework for graph learning under low-rank structural constraints on the covariance matrix. The problem is expressed as penalized maximum likelihood estimation of an elliptical distribution (a generalization of Gaussian graphical models to possibly heavy-tailed distributions), where the covariance matrix is optionally constrained to be structured as low-rank plus diagonal (low-rank factor model). The resolution of this class of problems is then tackled with Riemannian optimization, where we leverage geometries of positive definite matrices and positive semi-definite matrices of fixed rank that are well suited to elliptical models. Numerical experiments on real-world data sets illustrate the effectiveness of the proposed approach.
翻訳日:2023-08-02 18:16:59 公開日:2023-08-01
# RibSeg v2: Rib Labelingと解剖学的中心線抽出のための大規模ベンチマーク

RibSeg v2: A Large-scale Benchmark for Rib Labeling and Anatomical Centerline Extraction ( http://arxiv.org/abs/2210.09309v4 )

ライセンス: Link先を確認
Liang Jin, Shixuan Gu, Donglai Wei, Jason Ken Adhinarta, Kaiming Kuang, Yongjie Jessica Zhang, Hanspeter Pfister, Bingbing Ni, Jiancheng Yang, Ming Li(参考訳) 各種臨床応用において, 自動リブラベリングと解剖学的中心線抽出が必須条件である。 以前の研究では、コミュニティにアクセスできない社内データセットを使用するか、リブラベルの臨床的意義を無視したリブセグメンテーションにフォーカスする。 これらの問題に対処するため、バイナリリブセグメンテーションタスクの以前のデータセット(RibSeg)を、660個のCTスキャン(15,466個の個々のリブ)と、リブラベリングや解剖学的中心線抽出の専門家が手作業で検査したアノテーションで、RibSeg v2という包括的なベンチマークに拡張しました。 RibSeg v2に基づいて,リブラベリングのための深層学習に基づく手法と,中心線抽出のための骨格化に基づく手法を含むパイプラインを開発する。 計算効率を向上させるため,CTスキャンのスパース点クラウド表現を提案し,標準密度のボクセルグリッドと比較した。 さらに,各タスクの課題に対処するため,評価指標の設計と分析を行う。 私たちのデータセット、コード、モデルは、https://github.com/m3dv/ribsegでオープンリサーチを容易にするためにオンラインで利用可能です。

Automatic rib labeling and anatomical centerline extraction are common prerequisites for various clinical applications. Prior studies either use in-house datasets that are inaccessible to communities, or focus on rib segmentation that neglects the clinical significance of rib labeling. To address these issues, we extend our prior dataset (RibSeg) on the binary rib segmentation task to a comprehensive benchmark, named RibSeg v2, with 660 CT scans (15,466 individual ribs in total) and annotations manually inspected by experts for rib labeling and anatomical centerline extraction. Based on the RibSeg v2, we develop a pipeline including deep learning-based methods for rib labeling, and a skeletonization-based method for centerline extraction. To improve computational efficiency, we propose a sparse point cloud representation of CT scans and compare it with standard dense voxel grids. Moreover, we design and analyze evaluation metrics to address the key challenges of each task. Our dataset, code, and model are available online to facilitate open research at https://github.com/M3DV/RibSeg
翻訳日:2023-08-02 18:16:21 公開日:2023-08-01
# FAIR for AI: 学際的・国際的コミュニティ構築の視点

FAIR for AI: An interdisciplinary and international community building perspective ( http://arxiv.org/abs/2210.08973v2 )

ライセンス: Link先を確認
E.A. Huerta, Ben Blaiszik, L. Catherine Brinson, Kristofer E. Bouchard, Daniel Diaz, Caterina Doglioni, Javier M. Duarte, Murali Emani, Ian Foster, Geoffrey Fox, Philip Harris, Lukas Heinrich, Shantenu Jha, Daniel S. Katz, Volodymyr Kindratenko, Christine R. Kirkpatrick, Kati Lassila-Perini, Ravi K. Madduri, Mark S. Neubauer, Fotis E. Psomopoulos, Avik Roy, Oliver R\"ubel, Zhizhen Zhao and Ruike Zhu(参考訳) 2016年、適切なデータ管理と管理のための前提条件として、発見可能、アクセス可能、相互運用可能、再利用可能な(fair)原則の基本的なセットが提案され、学術データの再利用を可能にした。 この原則は、他のデジタル資産にも高いレベルで適用することを目的としており、時間とともに、データを生成するソフトウェア、ツール、アルゴリズム、ワークフローを含むように、公正な指針の原則が再解釈または拡張された。 FAIR原則は現在、AIモデルとデータセットのコンテキストに適応している。 ここでは、FAIRの実践コミュニティにおけるFAIRの原則の定義と採用をリードする各国の研究者の視点、ビジョン、経験を示し、FAIRのAI研究を追求し、インセンティブを与える結果について議論する。 このレポートの資料は2022年6月7日にアルゴンヌ国立研究所で開催されたFAIR for AI Workshopに基づいている。

A foundational set of findable, accessible, interoperable, and reusable (FAIR) principles were proposed in 2016 as prerequisites for proper data management and stewardship, with the goal of enabling the reusability of scholarly data. The principles were also meant to apply to other digital assets, at a high level, and over time, the FAIR guiding principles have been re-interpreted or extended to include the software, tools, algorithms, and workflows that produce data. FAIR principles are now being adapted in the context of AI models and datasets. Here, we present the perspectives, vision, and experiences of researchers from different countries, disciplines, and backgrounds who are leading the definition and adoption of FAIR principles in their communities of practice, and discuss outcomes that may result from pursuing and incentivizing FAIR AI research. The material for this report builds on the FAIR for AI Workshop held at Argonne National Laboratory on June 7, 2022.
翻訳日:2023-08-02 18:15:57 公開日:2023-08-01
# セマンティックシーン理解のためのCNN上のモデルベース不正確なグラフマッチング

Model-based inexact graph matching on top of CNNs for semantic scene understanding ( http://arxiv.org/abs/2301.07468v2 )

ライセンス: Link先を確認
J\'er\'emy Chopin and Jean-Baptiste Fasquel and Harold Mouch\`ere and Rozenn Dahyot and Isabelle Bloch(参考訳) セマンティックセグメンテーションのためのディープラーニングベースのパイプラインは、トレーニングに使用される注釈付きイメージで利用できる構造情報を無視することが多い。 本稿では,興味対象の構造知識を強制する新しい後処理モジュールを提案し,ディープラーニングによるセグメンテーション結果を改善する。 この加群は "many-to-one-or-none" グラフマッチングアプローチに対応し、二次代入問題として定式化される。 提案手法は,2次元RGB画像(FASSEG)の顔分割と3次元MRI(IBSR)の脳分割の2つの公開データセット上のCNNベースセグメンテーション(各種CNNバックボーン)と比較した。 評価は2種類の構造情報(距離と方向の関係、この選択は我々の汎用フレームワークのハイパーパラメータ)を用いて行われる。 FASSEGデータから、我々のモジュールはCNNの精度を約6.3%向上させる(ハウスドルフ距離は22.11から20.71に減少する)。 IBSRのデータでは、改善率は51%(ハウスドルフ距離は11.01から5.4に減少)である。 さらに,我々のアプローチは,深層学習手法の性能をしばしば制限する小さなトレーニングデータセットに弾力性があることが示されている。

Deep learning based pipelines for semantic segmentation often ignore structural information available on annotated images used for training. We propose a novel post-processing module enforcing structural knowledge about the objects of interest to improve segmentation results provided by deep learning. This module corresponds to a "many-to-one-or-none" inexact graph matching approach, and is formulated as a quadratic assignment problem. Our approach is compared to a CNN-based segmentation (for various CNN backbones) on two public datasets, one for face segmentation from 2D RGB images (FASSEG), and the other for brain segmentation from 3D MRIs (IBSR). Evaluations are performed using two types of structural information (distances and directional relations, , this choice being a hyper-parameter of our generic framework). On FASSEG data, results show that our module improves accuracy of the CNN by about 6.3% (the Hausdorff distance decreases from 22.11 to 20.71). On IBSR data, the improvement is of 51% (the Hausdorff distance decreases from 11.01 to 5.4). In addition, our approach is shown to be resilient to small training datasets that often limit the performance of deep learning methods: the improvement increases as the size of the training dataset decreases.
翻訳日:2023-08-02 18:10:12 公開日:2023-08-01
# 機械学習によるリードミューラーサブコードの効率的な復号化

Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes ( http://arxiv.org/abs/2301.06251v2 )

ライセンス: Link先を確認
Mohammad Vahid Jamali, Xiyang Liu, Ashok Vardhan Makkuva, Hessam Mahdavifar, Sewoong Oh, and Pramod Viswanath(参考訳) Reed-Muller (RM) 符号は、一般のバイナリインプットメモリレス対称チャネルの容量を達成し、スケーリング法則の点でランダムコードに匹敵する性能を持つと推測されている。 しかし、一般的なコードパラメータの最大類似デコーダを仮定して、このような結果が確立される。 また、RM符号は制限されたレートのみを許容する。 繰り返しキャンセルリスト(scl)デコーダや最近導入された再帰的射影集約(rpa)デコーダといった効率的なデコーダは、有限長のrm符号で利用可能である。 本稿では,フレキシブルレートのRM符号のサブコードに焦点をあてる。 まず、RPA復号アルゴリズムをRMサブコードに拡張する。 サブRPAと呼ばれるデコードアルゴリズムの複雑さを低減するために、プロジェクションを熟成するための異なるアプローチを検討する。 次に,本アルゴリズムのソフト決定に基づくバージョンであるSoft-subRPAを導出し,サブRPAの性能を向上するだけでなく,識別可能な復号アルゴリズムを実現する。 次に、soft-subrpaアルゴリズムに基づいて、機械学習(ml)モデルをトレーニングして、デコードエラー率を最小化するプロジェクションの \textit{good}集合を探索するフレームワークを提供する。 MLモデルをトレーニングすることで、プロジェクションの数を大幅に少なくして、フルプロジェクションデコーディングのパフォーマンスに非常に近いことが可能になります。 また,rmサブコードの復号化におけるプロジェクションの選択は著しく重要であり,ml支援のプロジェクションプラニング方式では,妥当な数のプロジェクションが与えられれば,全プロジェクションに比べて性能が著しく低下する\textit{good} 選択を見出すことができることを示した。

Reed-Muller (RM) codes achieve the capacity of general binary-input memoryless symmetric channels and are conjectured to have a comparable performance to that of random codes in terms of scaling laws. However, such results are established assuming maximum-likelihood decoders for general code parameters. Also, RM codes only admit limited sets of rates. Efficient decoders such as successive cancellation list (SCL) decoder and recently-introduced recursive projection-aggregation (RPA) decoders are available for RM codes at finite lengths. In this paper, we focus on subcodes of RM codes with flexible rates. We first extend the RPA decoding algorithm to RM subcodes. To lower the complexity of our decoding algorithm, referred to as subRPA, we investigate different approaches to prune the projections. Next, we derive the soft-decision based version of our algorithm, called soft-subRPA, that not only improves upon the performance of subRPA but also enables a differentiable decoding algorithm. Building upon the soft-subRPA algorithm, we then provide a framework for training a machine learning (ML) model to search for \textit{good} sets of projections that minimize the decoding error rate. Training our ML model enables achieving very close to the performance of full-projection decoding with a significantly smaller number of projections. We also show that the choice of the projections in decoding RM subcodes matters significantly, and our ML-aided projection pruning scheme is able to find a \textit{good} selection, i.e., with negligible performance degradation compared to the full-projection case, given a reasonable number of projections.
翻訳日:2023-08-02 18:09:48 公開日:2023-08-01
# 二重スリット実験は量子解釈を区別できるのか?

Can the double-slit experiment distinguish between quantum interpretations? ( http://arxiv.org/abs/2301.02641v2 )

ライセンス: Link先を確認
Ali Ayatollah Rafsanjani, MohammadJavad Kazemi, Alireza Bahrampour, and Mehdi Golshani(参考訳) 量子力学の驚くべき成功にもかかわらず、測定問題や量子到着時間問題といった基本的な問題により、理論の予測は明確で独特な場合もある。 特に、スクリーン上の粒子検出事象の同時時空間分布に関する様々な予測があり、これは量子論の異なる定式化と解釈から導かれる。 この差は典型的には小さいが,本研究では,従来の2重スリット構成により,これらの予測を実験的に区別できることが示唆された。 この実験は、量子力学の基礎の理解を深めるでしょう。

Despite the astonishing successes of quantum mechanics, due to some fundamental problems such as the measurement problem and quantum arrival time problem, the predictions of the theory are in some cases not quite clear and unique. Especially, there are various predictions for the joint spatiotemporal distribution of particle detection events on a screen, which are derived from different formulations and interpretations of the quantum theory. Although the differences are typically small, our studies show that these predictions can be experimentally distinguished by an unconventional double-slit configuration, which is realizable using present-day single-atom interferometry. This experiment would enrich our understanding of the foundations of quantum mechanics.
翻訳日:2023-08-02 18:09:15 公開日:2023-08-01
# 変調マスクを用いた生涯強化学習

Lifelong Reinforcement Learning with Modulating Masks ( http://arxiv.org/abs/2212.11110v3 )

ライセンス: Link先を確認
Eseoghene Ben-Iwhiwhu, Saptarshi Nath, Praveen K. Pilly, Soheil Kolouri, Andrea Soltoggio(参考訳) 生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。 これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。 入力分布の変化を含む複数の教師付き分類タスクの学習に多くの研究が集中しているが、生涯強化学習(LRL)は状態と遷移分布の変化と報酬関数に対処する必要がある。 最近分類のために開発された固定バックボーンネットワークによるマスクの変調は、このような幅広いタスクのバリエーションを扱うのに特に適している。 本稿では,変調マスクを深部LRL,特にPPOおよびIMPALAエージェントに適応させた。 離散RLタスクと連続RLタスクのLRLベースラインとの比較は、優れた性能を示している。 我々はさらに,新しいタスクを学習するときの既往の知識を活用するために,以前に学習したマスクを線形に組み合わせて使用する方法についても検討した。 その結果, マスクを用いたRLは, 生涯学習, より複雑なタスクを学習するための知識構成, 効率的かつ迅速な学習のための知識再利用への有望なアプローチであることが示唆された。

Lifelong learning aims to create AI systems that continuously and incrementally learn during a lifetime, similar to biological learning. Attempts so far have met problems, including catastrophic forgetting, interference among tasks, and the inability to exploit previous knowledge. While considerable research has focused on learning multiple supervised classification tasks that involve changes in the input distribution, lifelong reinforcement learning (LRL) must deal with variations in the state and transition distributions, and in the reward functions. Modulating masks with a fixed backbone network, recently developed for classification, are particularly suitable to deal with such a large spectrum of task variations. In this paper, we adapted modulating masks to work with deep LRL, specifically PPO and IMPALA agents. The comparison with LRL baselines in both discrete and continuous RL tasks shows superior performance. We further investigated the use of a linear combination of previously learned masks to exploit previous knowledge when learning new tasks: not only is learning faster, the algorithm solves tasks that we could not otherwise solve from scratch due to extremely sparse rewards. The results suggest that RL with modulating masks is a promising approach to lifelong learning, to the composition of knowledge to learn increasingly complex tasks, and to knowledge reuse for efficient and faster learning.
翻訳日:2023-08-02 18:08:37 公開日:2023-08-01
# 大規模言語モデルのための並列コンテキストWindows

Parallel Context Windows for Large Language Models ( http://arxiv.org/abs/2212.10947v3 )

ライセンス: Link先を確認
Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Inbal Magar, Omri Abend, Ehud Karpas, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) 長文処理に適用する場合、Large Language Models (LLM) はコンテキストウィンドウによって制限される。 この制限に対処するための既存の取り組みには、専門的なアーキテクチャのトレーニングが含まれており、既製のLLMに簡単に適用できない。 そこで本研究では,市販llmのコンテキストウインドウ制限を緩和する手法であるparallel context windows (pcw)を提案する。 このアプローチの鍵は、長いコンテキストをチャンクに彫り込み(``windows''')、各ウィンドウにのみ適用される注意機構を制限し、ウィンドウにまたがる位置埋め込みを再利用することだ。 本研究の主な成果は,7億7千万から1億7800億のパラメータを持つモデルを用いて,テキスト内学習におけるPCWアプローチを検証し,多様な入力空間と出力空間を持つタスクに対する大幅な改善を示す。 長いコンテキストウインドウが有益であるかもしれない他の設定では、マルチホップ質問と検索強化質問が複数の検索された文書で答えられる。 この結果から,Parallel Context Windows は,長いテキストシーケンスを必要とするさまざまな設定で既製の LLM を適用するための有望な方法として注目されている。 コードをhttps://github.com/ai21labs/parallel-context-windowsで公開しています。

When applied to processing long text, Large Language Models (LLMs) are limited by their context window. Existing efforts to address this limitation involve training specialized architectures, and cannot be easily applied to off-the-shelf LLMs. We present Parallel Context Windows (PCW), a method that alleviates the context window restriction for any off-the-shelf LLM without further training. The key to the approach is to carve a long context into chunks (``windows''), restrict the attention mechanism to apply only within each window, and re-use the positional embeddings across the windows. Our main results test the PCW approach on in-context learning with models that range in size between 750 million and 178 billion parameters, and show substantial improvements for tasks with diverse input and output spaces. We show additional benefits in other settings where long context windows may be beneficial: multi-hop questions and retrieval-augmented question answering with multiple retrieved documents. Our results highlight Parallel Context Windows as a promising method for applying off-the-shelf LLMs in a range of settings that require long text sequences. We make our code publicly available at https://github.com/ai21labs/parallel-context-windows.
翻訳日:2023-08-02 18:08:16 公開日:2023-08-01
# 脳波復号のための深いリーマンネットワーク

Deep Riemannian Networks for EEG Decoding ( http://arxiv.org/abs/2212.10426v6 )

ライセンス: Link先を確認
Daniel Wilson, Robin Tibor Schirrmeister, Lukas Alexander Wilhelm Gemein, Tonio Ball(参考訳) 脳波デコーダ(EEG)の最先端性能は、現在、Deep-Learning (DL) または Riemannian-Geometry-based decoders (RBD) によって達成されている。 近年,Deep Riemannian Networks (DRN) への関心が高まっている。 しかし、より広範なDRNをEEGに応用するには、さらなる洞察が必要である、というトピックは、まだたくさんある。 ネットワークサイズやエンドツーエンドの能力といったアーキテクチャ設計の問題など,これらの要因がモデル性能に与える影響については検討されていない。 さらに、これらのネットワーク内のデータがどのように変換され、それが従来の脳波デコードと相関するかは明らかではない。 本研究の目的は,脳波のDRNを多種多様なパラメーターで解析することで,これらのトピックの領域の基盤となることにある。 ネットワークは2つのパブリックEEGデータセットでテストされ、最先端のConvNetと比較された。 本稿では、エンド・ツー・エンドの脳波spdnet(ee(g)-spdnet)を提案し、この広範囲のエンド・ツー・エンドのdrmが、コンブネットよりも優れており、生理学的に妥当な周波数領域を用いていることを示す。 また、エンド・ツー・エンドの手法は、脳波の古典的アルファ、ベータ、ガンマ周波数帯域を対象とする従来の帯域通過フィルタよりも複雑なフィルタを学習し、チャネル固有のフィルタリング手法の恩恵を受けることを示す。 さらに、アーキテクチャ解析により、ネットワーク全体のリーマン固有情報が失われる可能性があるため、さらなる改善が図られた。 そこで本研究では,手作りのフィルタバンクを必要とせずに,生の脳波からタスク関連情報を推測するためのDRNの設計と訓練方法を示し,高性能な脳波復号のためのEE(G)-SPDNetなどのエンドツーエンドDRNの可能性を強調した。

State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning (DL) or Riemannian-Geometry-based decoders (RBDs). Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability.How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding.
翻訳日:2023-08-02 18:07:54 公開日:2023-08-01
# 非対数凹サンプリングの収束率と対数分割推定

Convergence Rates for Non-Log-Concave Sampling and Log-Partition Estimation ( http://arxiv.org/abs/2303.03237v3 )

ライセンス: Link先を確認
David Holzm\"uller, Francis Bach(参考訳) Gibbsディストリビューションからサンプリングする$p(x) \propto \exp(-V(x)/\varepsilon)$とそれらのログ分割関数の計算は統計学、機械学習、統計物理学の基本的なタスクである。 しかしながら、効率的なアルゴリズムは凸ポテンシャル$V$で知られているが、非凸の場合、最悪の場合、アルゴリズムが必然的に次元性の呪いに苦しむ場合、状況ははるかに困難である。 サンプリングの低温限界と見なすことができる最適化のために、滑らかな関数 $v$ はより高速な収束率を可能にすることが知られている。 具体的には、$d$次元における$m$-times微分可能関数の場合、$n$関数評価を持つアルゴリズムの最適レートは$O(n^{-m/d})$であることが知られており、定数は$m, d$と最適化される関数に依存する可能性がある。 したがって、次元性の呪いは少なくとも収束率の観点から滑らかな函数に対して緩和することができる。 近年、多項式ランタイム $o(n^{3.5})$ でも同様の速さを達成できることが示されており、指数 $3.5$ は $m$ または $d$ から独立している。 したがって、サンプリングとログ分割計算の類似のレートが可能か、あるいは$m$と$d$に依存しない指数で多項式時間で実現可能かどうかを問うのは自然である。 サンプリングおよびログ分割計算の最適レートは、最適化よりも等しく、時として高速であることを示す。 次に,最近期待されている最適化手法の拡張を含む様々な多項式時間サンプリングアルゴリズムを分析し,興味ある振る舞いを呈するが、ほぼ最適に近い速度は示さないことを示す。 また,サンプリング,ログ分割,最適化問題との関係についても考察した。

Sampling from Gibbs distributions $p(x) \propto \exp(-V(x)/\varepsilon)$ and computing their log-partition function are fundamental tasks in statistics, machine learning, and statistical physics. However, while efficient algorithms are known for convex potentials $V$, the situation is much more difficult in the non-convex case, where algorithms necessarily suffer from the curse of dimensionality in the worst case. For optimization, which can be seen as a low-temperature limit of sampling, it is known that smooth functions $V$ allow faster convergence rates. Specifically, for $m$-times differentiable functions in $d$ dimensions, the optimal rate for algorithms with $n$ function evaluations is known to be $O(n^{-m/d})$, where the constant can potentially depend on $m, d$ and the function to be optimized. Hence, the curse of dimensionality can be alleviated for smooth functions at least in terms of the convergence rate. Recently, it has been shown that similarly fast rates can also be achieved with polynomial runtime $O(n^{3.5})$, where the exponent $3.5$ is independent of $m$ or $d$. Hence, it is natural to ask whether similar rates for sampling and log-partition computation are possible, and whether they can be realized in polynomial time with an exponent independent of $m$ and $d$. We show that the optimal rates for sampling and log-partition computation are sometimes equal and sometimes faster than for optimization. We then analyze various polynomial-time sampling algorithms, including an extension of a recent promising optimization approach, and find that they sometimes exhibit interesting behavior but no near-optimal rates. Our results also give further insights on the relation between sampling, log-partition, and optimization problems.
翻訳日:2023-08-02 17:59:43 公開日:2023-08-01
# HLデータセット - シーン、アクション、合理性の視覚的な説明

HL Dataset: Visually-grounded Description of Scenes, Actions and Rationales ( http://arxiv.org/abs/2302.12189v2 )

ライセンス: Link先を確認
Michele Cafagna, Kees van Deemter, Albert Gatt(参考訳) 現在のキャプションデータセットはオブジェクト中心のキャプションに焦点を合わせ、「公園で食べ物を食べる人」など、画像中の可視なオブジェクトを記述する。 これらのデータセットは視覚的コンテンツを認識・記述するビジョン&言語モデルの能力を評価するのに有用であるが、モデルテストや微調整を含む制御された実験をサポートしない。 例えば、自分の描写する場面の種類(「休暇場の人々」)や行動(「ピクニックをする人」)に基づいてイメージを記述することが多い。 このような記述は個人的な経験や常識的な前提に基づいている。 我々は、COCOデータセットから14997の画像を拡張したデータセットを提示し、シーン、アクション、合理性という3つの軸に沿って収集された134,973の人称(高レベル)キャプションを新たにセットした。 さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、3つの軸をそれぞれ組み合わせて合成的に生成された物語キャプションのセットで拡張する。 このデータセットを記述し、広範囲に分析する。 また,高レベルキャプションタスクのベースライン結果も提示する。

Current captioning datasets focus on object-centric captions, describing the visible objects in the image, e.g. "people eating food in a park". Although these datasets are useful to evaluate the ability of Vision & Language models to recognize and describe visual content, they do not support controlled experiments involving model testing or fine-tuning, with more high-level captions, which humans find easy and natural to produce. For example, people often describe images based on the type of scene they depict ('people at a holiday resort') and the actions they perform ('people having a picnic'). Such descriptions draw on personal experience and commonsense assumptions. We present the High-Level Dataset a dataset extending 14997 images from the COCO dataset, aligned with a new set of 134,973 human-annotated (high-level) captions collected along three axes: scenes, actions, and rationales. We further extend this dataset with confidence scores collected from an independent set of readers, as well as a set of narrative captions generated synthetically, by combining each of the three axes. We describe this dataset and analyse it extensively. We also present baseline results for the High-Level Captioning task.
翻訳日:2023-08-02 17:58:43 公開日:2023-08-01
# 拡散優先による画像生成の制御と条件付きテキスト

Controlled and Conditional Text to Image Generation with Diffusion Prior ( http://arxiv.org/abs/2302.11710v2 )

ライセンス: Link先を確認
Pranav Aggarwal, Hareesh Ravi, Naveen Marri, Sachin Kelkar, Fengbin Chen, Vinh Khuc, Midhun Harikumar, Ritiz Tambi, Sudharshan Reddy Kakumanu, Purvak Lapsiya, Alvin Ghouas, Sarah Saber, Malavika Ramprasad, Baldo Faieta, Ajinkya Kale(参考訳) 雑音拡散モデルは、テキストから多様で高品質な画像を生成することで顕著な性能を示している。 テキストから直接画像を生成するStable DiffusionやImagenといったモデルに加えて、数多くのテクニックが提案されている。 DALLE-2では、テキストからCLIPイメージの埋め込みを生成するDiffusion Priorと、CLIPイメージの埋め込みから画像を生成するDiffusion Decoderという2段階のプロセスがある。 拡散プリミティブの機能と中間CLIP表現の利点について検討する。 Diffusion Priorはメモリで使用でき、より大規模なDiffusion Decoderを変更することなく、特定のドメインに対して生成を制限できる。 さらに,色ヒストグラムなどの条件情報を用いて拡散先行法を訓練して生成を制御できることが示唆された。 提案手法がドメイン固有生成のためのプロンプトエンジニアリングやカラーコンディショニング生成のための既存のベースラインよりも優れていることを定量的かつ定性的に示す。 我々は、我々の観察と結果が、拡散に先立ってさらなる研究を行い、その能力を明らかにすると信じている。

Denoising Diffusion models have shown remarkable performance in generating diverse, high quality images from text. Numerous techniques have been proposed on top of or in alignment with models like Stable Diffusion and Imagen that generate images directly from text. A lesser explored approach is DALLE-2's two step process comprising a Diffusion Prior that generates a CLIP image embedding from text and a Diffusion Decoder that generates an image from a CLIP image embedding. We explore the capabilities of the Diffusion Prior and the advantages of an intermediate CLIP representation. We observe that Diffusion Prior can be used in a memory and compute efficient way to constrain the generation to a specific domain without altering the larger Diffusion Decoder. Moreover, we show that the Diffusion Prior can be trained with additional conditional information such as color histogram to further control the generation. We show quantitatively and qualitatively that the proposed approaches perform better than prompt engineering for domain specific generation and existing baselines for color conditioned generation. We believe that our observations and results will instigate further research into the diffusion prior and uncover more of its capabilities.
翻訳日:2023-08-02 17:58:21 公開日:2023-08-01
# モーメントベース正定値部分多様体最適化の簡易化とディープラーニングへの応用

Simplifying Momentum-based Positive-definite Submanifold Optimization with Applications to Deep Learning ( http://arxiv.org/abs/2302.09738v6 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を持つリーマン部分多様体の最適化は、イテレートが部分多様体上に残ることを保証するために、しばしば難しい微分方程式を解く必要があるため、計算的に難しい。 ここでは、アフィン不変距離を持つスパースあるいは構造化対称正定行列のクラスに対するそのような困難を単純化する。 我々は、計量を動的に正規化するリーマン正規座標の一般化バージョンを提案し、その問題をユークリッド空間の非拘束問題へと局所的に変換する。 提案手法は,行列乗算のみを用いることで,構造化共分散の既存手法を単純化し,低精度深層学習のための行列逆フリー2ドル^\text{nd}$-orderオプティマイザを開発する。 コード: https://github.com/yorkerlin/structuredngd-dl

Riemannian submanifold optimization with momentum is computationally challenging because, to ensure that the iterates remain on the submanifold, we often need to solve difficult differential equations. Here, we simplify such difficulties for a class of sparse or structured symmetric positive-definite matrices with the affine-invariant metric. We do so by proposing a generalized version of the Riemannian normal coordinates that dynamically orthonormalizes the metric and locally converts the problem into an unconstrained problem in the Euclidean space. We use our approach to simplify existing approaches for structured covariances and develop matrix-inverse-free $2^\text{nd}$-order optimizers for deep learning with low precision by using only matrix multiplications. Code: https://github.com/yorkerlin/StructuredNGD-DL
翻訳日:2023-08-02 17:57:41 公開日:2023-08-01
# 文脈内検索型言語モデル

In-Context Retrieval-Augmented Language Models ( http://arxiv.org/abs/2302.00083v3 )

ライセンス: Link先を確認
Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) 言語モデル(LM)を生成中の接地コーパスから記述した文書に条件付けした検索言語モデリング(RALM)手法は,言語モデリング性能を著しく向上させることを示した。 さらに、事実的不正確なテキスト生成の問題を緩和し、天然資源の帰属メカニズムを提供する。 既存のRALMアプローチでは、外部情報の取り込みを容易にするため、LMアーキテクチャの変更に重点を置いている。 本稿では, LMアーキテクチャをそのままにして, LMのさらなる訓練を伴わずに, 基盤となる文書を入力に残すという, シンプルな方法を提案する。 In-Context RALMは,市販の汎用検索システム上に構築されており,モデルサイズや多種多様なコーパスに対して驚くほど大きなLMゲインを提供する。 また,文書検索とランキング機構をralm設定に特化することで,さらなる性能向上が期待できることを示す。 In-Context RALM は、特に、事前訓練された LM を変更せずに使用し、API アクセスを介して使用する必要がある設定において、LM の接地率を高める可能性があると結論付けている。

Retrieval-Augmented Language Modeling (RALM) methods, which condition a language model (LM) on relevant documents from a grounding corpus during generation, were shown to significantly improve language modeling performance. In addition, they can mitigate the problem of factually inaccurate text generation and provide natural source attribution mechanism. Existing RALM approaches focus on modifying the LM architecture in order to facilitate the incorporation of external information, significantly complicating deployment. This paper considers a simple alternative, which we dub In-Context RALM: leaving the LM architecture unchanged and prepending grounding documents to the input, without any further training of the LM. We show that In-Context RALM that builds on off-the-shelf general purpose retrievers provides surprisingly large LM gains across model sizes and diverse corpora. We also demonstrate that the document retrieval and ranking mechanism can be specialized to the RALM setting to further boost performance. We conclude that In-Context RALM has considerable potential to increase the prevalence of LM grounding, particularly in settings where a pretrained LM must be used without modification or even via API access.
翻訳日:2023-08-02 17:57:06 公開日:2023-08-01
# 蒸留における教師の逸脱について--不服従にかかわるのか?

On student-teacher deviations in distillation: does it pay to disobey? ( http://arxiv.org/abs/2301.12923v2 )

ライセンス: Link先を確認
Vaishnavh Nagarajan, Aditya Krishna Menon, Srinadh Bhojanapalli, Hossein Mobahi, Sanjiv Kumar(参考訳) 知識蒸留(kd)は,訓練された「教師」ネットワークのソフトな確率を模倣するように学生に訓練することで,「学生」ネットワークのテスト精度を向上させるために広く用いられている。 しかし、近年の研究では、教師の確率に合致するように訓練されているにもかかわらず、生徒はこれらの確率から著しく逸脱するだけでなく、教師よりも成績が良いことが示されている。 本研究は,学生と教師の偏差の正確な性質を特徴付けることによって,この一見パラドックス的な観察を再現することを目的としている。 まず,画像と言語データを用いた実験により,教師の信頼度レベルを体系的に誇張する生徒と,これらの偏差が一致していることを明らかにする。 次に、kd が勾配降下の暗黙のバイアスを誇張し、データの最上位固有方向に沿ってより高速に収束させるという単純な設定で理論的および経験的に確立する。 最後に、この誇張バイアス効果が同時に両方の結果をもたらすことを示す。 (a)自信の誇張と b) 学生の一般化が向上し, 明らかなパラドックスに対する解決法が提供される。 本分析は,kdにおける勾配降下の役割を考察し,理論的および経験的場面において過大なバイアス効果を示すことにより,既存の理論と実践をより深めている。

Knowledge distillation (KD) has been widely-used to improve the test accuracy of a ``student'' network by training the student to mimic soft probabilities of a trained "teacher" network. Yet, it has been shown in recent work that, despite being trained to fit the teacher's probabilities, the student not only significantly deviates from these probabilities, but also performs even better than the teacher. Our work aims to reconcile this seemingly paradoxical observation by characterizing the precise nature of the student-teacher deviations, and by arguing how they can co-occur with better generalization. First, through experiments on image and language data, we identify that these deviations correspond to the student systematically exaggerating the confidence levels of the teacher. Next, we theoretically and empirically establish in some simple settings that KD also exaggerates the implicit bias of gradient descent in converging faster along the top eigendirections of the data. Finally, we demonstrate that this exaggerated bias effect can simultaneously result in both (a) the exaggeration of confidence and (b) the improved generalization of the student, thus offering a resolution to the apparent paradox. Our analysis brings existing theory and practice closer by considering the role of gradient descent in KD and by demonstrating the exaggerated bias effect in both theoretical and empirical settings.
翻訳日:2023-08-02 17:56:44 公開日:2023-08-01
# 規則化とカットオフによるイベント駆動スパイクニューラルネットワークの最適化

Optimising Event-Driven Spiking Neural Network with Regularisation and Cutoff ( http://arxiv.org/abs/2301.09522v2 )

ライセンス: Link先を確認
Dengyu Wu and Gaojie Jin and Han Yu and Xinping Yi and Xiaowei Huang(参考訳) エネルギー効率の恩恵を受ける人工知能ニューラルネットワーク(ANN)の亜種であるスパイキングニューラルネットワーク(SNN)は、CIFAR10/100やImageNetといったベンチマークデータセット上で、ANNのそれに近い精度を達成した。 しかし、フレームベースの入力(イメージなど)と比較すると、ダイナミックビジョンセンサー(DVS)のようなイベントベースの入力は、SNNの非同期動作機構のおかげで、SNNをよりうまく活用することができる。 本稿では,SNNとイベントベース入力の結婚を,任意の時間最適SNN(AOI-SNN)を考慮し,推論中にいつでも終了し,最適な推論結果を得るための提案によって強化する。 AOI-SNNの正則化と遮断という2つの新しい最適化手法が提案されている。 正規化により、最適化性能を持つSNNのトレーニングと構築が可能となり、イベント駆動入力に対するSNNの推論を最適化する。 我々は、CIFAR10-DVS、N-Caltech101、DVS128 Gestureなど、複数のベンチマークイベントベースのデータセットで広範な実験を行う。 実験の結果,本手法は精度とレイテンシにおいて最先端技術よりも優れていることがわかった。

Spiking neural networks (SNNs), a variant of artificial neural networks (ANNs) with the benefit of energy efficiency, have achieved the accuracy close to its ANN counterparts, on benchmark datasets such as CIFAR10/100 and ImageNet. However, comparing with frame-based input (e.g., images), event-based inputs from e.g., Dynamic Vision Sensor (DVS) can make a better use of SNNs thanks to the SNNs' asynchronous working mechanism. In this paper, we strengthen the marriage between SNNs and event-based inputs with a proposal to consider anytime optimal inference SNNs, or AOI-SNNs, which can terminate anytime during the inference to achieve optimal inference result. Two novel optimisation techniques are presented to achieve AOI-SNNs: a regularisation and a cutoff. The regularisation enables the training and construction of SNNs with optimised performance, and the cutoff technique optimises the inference of SNNs on event-driven inputs. We conduct an extensive set of experiments on multiple benchmark event-based datasets, including CIFAR10-DVS, N-Caltech101 and DVS128 Gesture. The experimental results demonstrate that our techniques are superior to the state-of-the-art with respect to the accuracy and latency.
翻訳日:2023-08-02 17:56:19 公開日:2023-08-01
# マルチビュークラスタリングのための低ランクテンソル空間における超ラプラス正則化概念分解

Hyper-Laplacian Regularized Concept Factorization in Low-rank Tensor Space for Multi-view Clustering ( http://arxiv.org/abs/2304.11435v2 )

ライセンス: Link先を確認
Zixiao Yu, Lele Fu, Zhiling Cai, Zhoumin Lu(参考訳) テンソル指向のマルチビューサブスペースクラスタリングは,高次相関評価やマルチビューデータのクラスタリング解析の改善に大きく貢献している。 しかし、既存の調査のほとんどは2つの欠陥によって妨げられている。 まず、自己表現に基づくテンソル部分空間学習は、通常、時間と空間の複雑さを誘導し、埋め込み空間における非線形局所構造を知覚することに制限される。 第2に、テンソル特異値分解(t-SVD)モデルは、それぞれの特異値を再分割する。 本稿では,マルチビュークラスタリングのための低ランクテンソル空間における超ラプラシアン正規化概念分解(hlrcf)を提案する。 具体的には、各ビューの潜在クラスタ単位の表現を探索するために、概念因子化を採用する。 さらに、ハイパーグラフラプラシアン正則化は、潜在空間における非線形局所構造を抽出する能力を持つモデルを与える。 異なるテンソル特異値が構造情報を不等式に関連付けることを考慮し、全てのクラスタワイズ表現からなるテンソルを制約する自己重み付きテンソル Schatten p-norm を開発する。 特に、小さいテンソルは低ランク最適化における時間と空間の複雑さを大幅に減少させる。 最後に、8つのベンチマークデータセットの実験結果から、HLRCFは他のマルチビュー手法よりも優れており、その優れた性能を示している。

Tensor-oriented multi-view subspace clustering has achieved significant strides in assessing high-order correlations and improving clustering analysis of multi-view data. Nevertheless, most of existing investigations are typically hampered by the two flaws. First, self-representation based tensor subspace learning usually induces high time and space complexity, and is limited in perceiving nonlinear local structure in the embedding space. Second, the tensor singular value decomposition (t-SVD) model redistributes each singular value equally without considering the diverse importance among them. To well cope with the issues, we propose a hyper-Laplacian regularized concept factorization (HLRCF) in low-rank tensor space for multi-view clustering. Specifically, we adopt the concept factorization to explore the latent cluster-wise representation of each view. Further, the hypergraph Laplacian regularization endows the model with the capability of extracting the nonlinear local structures in the latent space. Considering that different tensor singular values associate structural information with unequal importance, we develop a self-weighted tensor Schatten p-norm to constrain the tensor comprised of all cluster-wise representations. Notably, the tensor with smaller size greatly decreases the time and space complexity in the low-rank optimization. Finally, experimental results on eight benchmark datasets exhibit that HLRCF outperforms other multi-view methods, showingcasing its superior performance.
翻訳日:2023-08-02 17:51:11 公開日:2023-08-01
# 大規模言語モデルにおけるアライメントの基本限界

Fundamental Limitations of Alignment in Large Language Models ( http://arxiv.org/abs/2304.11082v3 )

ライセンス: Link先を確認
Yotam Wolf, Noam Wies, Oshri Avnery, Yoav Levine, Amnon Shashua(参考訳) 人間と対話する言語モデルを開発する上で重要な側面は、人間のユーザにとって有用で有害な振る舞いを整列させることである。 これは通常、望ましい振る舞いを高め、望ましくない振る舞い、すなわちアライメントと呼ばれるプロセスを抑制する方法でモデルを調整することによって達成される。 本稿では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。 重要なことに、モデルによって提示される確率が有限である任意の挙動に対して、この挙動を出力するためにモデルをトリガーできるプロンプトが存在し、プロンプトの長さが増加する確率が増加する。 これは、望ましくない振る舞いを弱めるが完全に取り除かないアライメントプロセスは、敵対的な攻撃に対して安全ではないことを意味する。 さらに,この枠組みは,人間からのフィードバックからの強化学習などの指導的アライメントアプローチが,望ましくない行動に刺激される傾向があることを示唆している。 さらに、BEBフレームワークにはペルソナの概念が含まれており、モデルが特定のペルソナとして振る舞うように促すことで、一般的にはモデルによって提示される可能性が極めて低い振る舞いを前面に持ち込むことができる。 この理論結果は、現代の"chatGPT jailbreaks"と呼ばれる、敵のユーザがLSMを騙してアライメントガードレールを壊し、悪意のあるペルソナとして行動させることによって、大規模に実証されている。 この結果から,LLMのアライメントにおける基本的な制限が明らかになり,AIの安全性を確保するための信頼性の高いメカニズムを考案する必要が生じた。

An important aspect in developing language models that interact with humans is aligning their behavior to be useful and unharmful for their human users. This is usually achieved by tuning the model in a way that enhances desired behaviors and inhibits undesired ones, a process referred to as alignment. In this paper, we propose a theoretical approach called Behavior Expectation Bounds (BEB) which allows us to formally investigate several inherent characteristics and limitations of alignment in large language models. Importantly, we prove that for any behavior that has a finite probability of being exhibited by the model, there exist prompts that can trigger the model into outputting this behavior, with probability that increases with the length of the prompt. This implies that any alignment process that attenuates undesired behavior but does not remove it altogether, is not safe against adversarial prompting attacks. Furthermore, our framework hints at the mechanism by which leading alignment approaches such as reinforcement learning from human feedback increase the LLM's proneness to being prompted into the undesired behaviors. Moreover, we include the notion of personas in our BEB framework, and find that behaviors which are generally very unlikely to be exhibited by the model can be brought to the front by prompting the model to behave as specific persona. This theoretical result is being experimentally demonstrated in large scale by the so called contemporary "chatGPT jailbreaks", where adversarial users trick the LLM into breaking its alignment guardrails by triggering it into acting as a malicious persona. Our results expose fundamental limitations in alignment of LLMs and bring to the forefront the need to devise reliable mechanisms for ensuring AI safety.
翻訳日:2023-08-02 17:50:45 公開日:2023-08-01
# MapFormer: 事前変更情報による変更検出の強化

MapFormer: Boosting Change Detection by Using Pre-change Information ( http://arxiv.org/abs/2303.17859v2 )

ライセンス: Link先を確認
Maximilian Bernhard, Niklas Strau{\ss}, Matthias Schubert(参考訳) リモートセンシング画像における変化検出は、都市計画、災害管理、気候研究などの様々な応用に不可欠である。 しかし、意味的に変化した領域を識別する既存の方法は、地球表面の特徴を記述した既存の地図の形で意味情報の可用性を見落としている。 本稿では,この情報を両時間画像の変化検出に活用する。 潜在表現の連結による付加情報の統合は、最先端の変更検出方法よりも大幅に優れていることを示す。 この観察に動機づけられて,前変化意味情報をバイタイム画像の隣の入力として使用する,条件変化検出*という新しいタスクを提案する。 余分な情報をフル活用するために、利用可能なセマンティック情報に基づいて特徴処理を可能にするマルチモーダル機能融合モジュールに基づく新しいアーキテクチャである*MapFormer*を提案する。 さらに、視覚表現の学習を導くために、教師付き横断的コントラスト損失を用いる。 提案手法は,DynamicEarthNet と HRSCD のバイナリ変更 IoU において,絶対 11.7 % と 18.4 % で既存の変化検出手法より優れている。 さらに,事前変更のセマンティック情報の品質に対するアプローチの頑健さと,事前変更画像の欠如を実証した。 コードはhttps://github.com/mxbh/mapformerで入手できる。

Change detection in remote sensing imagery is essential for a variety of applications such as urban planning, disaster management, and climate research. However, existing methods for identifying semantically changed areas overlook the availability of semantic information in the form of existing maps describing features of the earth's surface. In this paper, we leverage this information for change detection in bi-temporal images. We show that the simple integration of the additional information via concatenation of latent representations suffices to significantly outperform state-of-the-art change detection methods. Motivated by this observation, we propose the new task of *Conditional Change Detection*, where pre-change semantic information is used as input next to bi-temporal images. To fully exploit the extra information, we propose *MapFormer*, a novel architecture based on a multi-modal feature fusion module that allows for feature processing conditioned on the available semantic information. We further employ a supervised, cross-modal contrastive loss to guide the learning of visual representations. Our approach outperforms existing change detection methods by an absolute 11.7\% and 18.4\% in terms of binary change IoU on DynamicEarthNet and HRSCD, respectively. Furthermore, we demonstrate the robustness of our approach to the quality of the pre-change semantic information and the absence pre-change imagery. The code is available at https://github.com/mxbh/mapformer.
翻訳日:2023-08-02 17:50:17 公開日:2023-08-01
# 単語埋め込みを用いた子育てサブレディットの客効果と個人差の分析

Using word embeddings to analyse audience effects and individual differences in parenting Subreddits ( http://arxiv.org/abs/2303.12759v3 )

ライセンス: Link先を確認
Melody Sepahpour-Fard and Michael Quayle and Maria Schuld and Taha Yasseri(参考訳) 人間は、対話する聴衆に言語を適応させます。 自然環境下での観衆とジェンダーの影響を調査するために,ジェンダーが特に有能な役割を担っている領域,つまり育児を選択する。 r/Daddit、r/Mommit、r/Parentingの3つの人気のある子育てサブレディット(Redditのトピックコミュニティ)からの投稿を収集します。 これら3人のサブレディットはそれぞれ異なる聴衆を集め、父親と母親(明らかにシングルジェンダー)と両親(特別に混合ジェンダー)として自己識別する。 シングルジェンダーとミックスジェンダーの両方で公開しているユーザーのサンプルを選択することで、オーディエンスとジェンダーエフェクトの両方を探索することができる。 コーパスにトークンとしてユーザ名を追加することで,単語埋め込みによる投稿の分析を行う。 このようにして、ユーザトークンとワードトークンを比較し、それらの類似性を測定することができる。 また,行動に著しい変化を示すユーザ(高自己監視者)と,変化の少ないユーザ(低い自己監視者)を比較して,この文脈における個人差を調査した。 調査の結果,r/parenting の利用者はトピックの多様さを議論するのに対し,父親は教育や家庭の事柄を他人に助言することに注力する傾向が見られた。 r/Mommitの母親は、主に医療、睡眠、トイレのトレーニング、食べ物などのトピックについて議論することで、他のグループと区別する。 母も父も子育ての行事を祝い、子どもの身体的外観を単一世代の聴衆で表現したりコメントしたりしている。 個人差に関して言えば、特にr/Parentingでは、高い自己監視者は、サブレディットに関連するトピックについてより議論することで、サブレディットの規範に適合する傾向にある。 本研究は,母親と父親が異なる関心を表わし,グループベースの異なるオーディエンスに対して,彼らの行動を変える方法を示す。

Human beings adapt their language to the audience they interact with. To study the impact of audience and gender in a natural setting, we choose a domain where gender plays a particularly salient role: parenting. We collect posts from the three popular parenting Subreddits (i.e., topical communities on Reddit) r/Daddit, r/Mommit, and r/Parenting. These three Subreddits gather different audiences, respectively, self-identifying as fathers and mothers (ostensibly single-gender), and parents (explicitly mixed-gender). By selecting a sample of users who have published on both a single-gender and a mixed-gender Subreddit, we are able to explore both audience and gender effects. We analyse posts with word embeddings by adding the username as a token in the corpus. This way, we are able to compare user-tokens to word-tokens and measure their similarity. We also investigate individual differences in this context by comparing users who exhibit significant changes in their behaviour (high self-monitors) with those who show less variation (low self-monitors). Results show that r/Parenting users generally discuss a great diversity of topics while fathers focus more on advising others on educational and family matters. Mothers in r/Mommit distinguish themselves from other groups by primarily discussing topics such as medical care, sleep and potty training, and food. Both mothers and fathers celebrate parenting events and describe or comment on the physical appearance of their children with a single-gender audience. In terms of individual differences, we find that, especially on r/Parenting, high self-monitors tend to conform more to the norms of the Subreddit by discussing more of the topics associated with the Subreddit. In conclusion, this study shows how mothers and fathers express different concerns and change their behaviour for different group-based audiences.
翻訳日:2023-08-02 17:49:56 公開日:2023-08-01
# NLOS-NeuS:非線形ニューラルインプシット表面

NLOS-NeuS: Non-line-of-sight Neural Implicit Surface ( http://arxiv.org/abs/2303.12280v2 )

ライセンス: Link先を確認
Yuki Fujimura, Takahiro Kushida, Takuya Funatomi, Yasuhiro Mukaigawa(参考訳) 非視線イメージング(NLOS)は、間接的な光から見える物体に見えないシーンを推測するために行われる。 ニューラル・トランジェント・フィールド(NeTF)は,NLOSシーンにおけるシーンをニューラル・ラディアンス・フィールドとして表現するために提案された。 我々は,NLOSシーンの3次元表面を再構成するために,符号付き距離関数(SDF)でNeTFを神経暗示面に拡張するNLOSニューラル暗示面(NLOS-NeuS)を提案する。 SDFを正しく学習するための損失関数として2つの制約を導入する。 また、第1反転光子の幾何に基づくSDFの下界制約も導入する。 実験結果から,これらの制約はNLOSシーンにおける正しいSDF学習に不可欠であることが示唆された。 NLOS-NeuSを離散化表現法と比較すると,NLOSシーンの細部を保存しながら,滑らかな面を再構成することができる。 我々の知る限りでは、NLOSシーンにおけるボリュームレンダリングを伴うニューラル暗黙の表面に関する最初の研究である。

Non-line-of-sight (NLOS) imaging is conducted to infer invisible scenes from indirect light on visible objects. The neural transient field (NeTF) was proposed for representing scenes as neural radiance fields in NLOS scenes. We propose NLOS neural implicit surface (NLOS-NeuS), which extends the NeTF to neural implicit surfaces with a signed distance function (SDF) for reconstructing three-dimensional surfaces in NLOS scenes. We introduce two constraints as loss functions for correctly learning an SDF to avoid non-zero level-set surfaces. We also introduce a lower bound constraint of an SDF based on the geometry of the first-returning photons. The experimental results indicate that these constraints are essential for learning a correct SDF in NLOS scenes. Compared with previous methods with discretized representation, NLOS-NeuS with the neural continuous representation enables us to reconstruct smooth surfaces while preserving fine details in NLOS scenes. To the best of our knowledge, this is the first study on neural implicit surfaces with volume rendering in NLOS scenes.
翻訳日:2023-08-02 17:49:20 公開日:2023-08-01
# ds-tdnn:グローバルアウェアフィルタを用いた話者照合用デュアルストリームタイムデレイニューラルネットワーク

DS-TDNN: Dual-stream Time-delay Neural Network with Global-aware Filter for Speaker Verification ( http://arxiv.org/abs/2303.11020v3 )

ライセンス: Link先を確認
Yangfu Li, Jiapan Gan, Xiaodan Lin(参考訳) 従来の時間遅延ニューラルネットワーク(tdnn)は、長距離のコンテキストを扱うのに苦労しており、話者情報を表現する能力は、長い発話で制限される。 既存のソリューションは、モデルの複雑さの増加に依存するか、この問題に対処するために、ローカル機能とグローバルコンテキストのバランスをとろうとする。 本研究では,1次元離散フーリエ変換と逆変換の間で学習可能な変換領域フィルタのセットを用いて,グローバルコンテキストをキャプチャする,Global-Aware Filter Layer (GF layer) と呼ばれる新しいモジュールを導入する。 さらに,gf層の性能を向上させるために動的フィルタリング戦略とスパース正規化手法を開発し,過剰充填を防止する。 GF層をベースとした自動話者検証(ASV)のためのDS-TDNNアーキテクチャを提案する。このアーキテクチャは2つのユニークな分岐を用いて局所的特徴とグローバルな特徴を並列に抽出し,異なるスケールの情報を融合するための効率的な戦略を用いる。 Voxceleb および SITW データベースにおける実験により,DS-TDNN は話者検証タスクにおいて ECAPA-TDNN に比べて相対的に 20 % の計算コスト低下と 10 % の相対的な改善を達成することが示された。 この改善は発話の持続時間が増えるにつれてより顕著になる。 さらにDS-TDNNは、任意の長さの発話に対して、一般的なディープ残差モデルやアテンションベースシステムを上回る。

Conventional time-delay neural networks (TDNNs) struggle to handle long-range context, their ability to represent speaker information is therefore limited in long utterances. Existing solutions either depend on increasing model complexity or try to balance between local features and global context to address this issue. To effectively leverage the long-term dependencies of audio signals and constrain model complexity, we introduce a novel module called Global-aware Filter layer (GF layer) in this work, which employs a set of learnable transform-domain filters between a 1D discrete Fourier transform and its inverse transform to capture global context. Additionally, we develop a dynamic filtering strategy and a sparse regularization method to enhance the performance of the GF layer and prevent overfitting. Based on the GF layer, we present a dual-stream TDNN architecture called DS-TDNN for automatic speaker verification (ASV), which utilizes two unique branches to extract both local and global features in parallel and employs an efficient strategy to fuse different-scale information. Experiments on the Voxceleb and SITW databases demonstrate that the DS-TDNN achieves a relative improvement of 10\% together with a relative decline of 20\% in computational cost over the ECAPA-TDNN in speaker verification task. This improvement will become more evident as the utterance's duration grows. Furthermore, the DS-TDNN also beats popular deep residual models and attention-based systems on utterances of arbitrary length.
翻訳日:2023-08-02 17:48:59 公開日:2023-08-01
# mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive Pre-Training of Transformer for Few- and Zero-shot Framing Detection

mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive Pre-Training of Transformers for Few- and Zero-shot Framing Detection ( http://arxiv.org/abs/2303.09901v3 )

ライセンス: Link先を確認
Markus Reiter-Haas, Alexander Ertl, Kevin Innerebner, Elisabeth Lex(参考訳) 本稿では,ゼロショット・スパニッシュ・フレーミング検出タスクの勝利システムについて述べる。 フレーミング検出タスクの課題は、サンプルが数個または0個しかない場合に、14個のフレームのセットを識別することである。 提案手法は,ラベル認識型コントラスト損失関数を用いた多言語変換器に基づく事前学習手法を用いる。 本システムを説明することに加えて, プレトレーニングがフレーミング検出をどのように支援し, 計算フレーミング解析を推し進めるかを実証するために, 埋め込み空間解析およびアブレーション研究を行う。

This paper presents the winning system for the zero-shot Spanish framing detection task, which also achieves competitive places in eight additional languages. The challenge of the framing detection task lies in identifying a set of 14 frames when only a few or zero samples are available, i.e., a multilingual multi-label few- or zero-shot setting. Our developed solution employs a pre-training procedure based on multilingual Transformers using a label-aware contrastive loss function. In addition to describing the system, we perform an embedding space analysis and ablation study to demonstrate how our pre-training procedure supports framing detection to advance computational framing analysis.
翻訳日:2023-08-02 17:48:34 公開日:2023-08-01
# IntelのニューロモーフィックDNSチャレンジ

The Intel Neuromorphic DNS Challenge ( http://arxiv.org/abs/2303.09503v3 )

ライセンス: Link先を確認
Jonathan Timcheck, Sumit Bam Shrestha, Daniel Ben Dayan Rubin, Adam Kupryjanow, Garrick Orchard, Lukasz Pindor, Timothy Shea, and Mike Davies(参考訳) ニューロモルフィックコンピューティング研究の進歩のための重要なイネーブルは、重要なタスクにおいて異なるニューロモルフィックソリューションを透過的に評価し、それらを最先端の従来のソリューションと比較する能力である。 Microsoft DNS ChallengeにインスパイアされたIntel Neuromorphic Deep Noise Suppression Challenge (Intel N-DNS Challenge)は、ユビキタスで商業的なタスクであるリアルタイムオーディオデノイングに取り組む。 音声のノイズ除去は、低帯域幅、時間的性質、低消費電力デバイスとの関連性から、ニューロモルフィックコンピューティングの利点を享受する可能性が高い。 Intel N-DNS Challengeは、アルゴリズム革新を促進するシミュレーションベースのアルゴリズムトラックと、ソリューションを厳格に評価するニューロモルフィックハードウェア(Loihi 2)トラックの2つのトラックで構成されている。 両トラックについて,出力音声品質に加えて,エネルギー,レイテンシ,リソース消費に基づく評価手法を提案する。 我々は、Intel N-DNS Challengeデータセットのスクリプトと評価コードを自由にアクセス可能にし、コミュニティによる金銭的報酬への参加を奨励し、Microsoft NsNet2や製品で使用される独自のIntel Denoisingモデルと比較して、有望なオーディオ品質、高電力効率、低リソース消費を示すニューロモルフィックベースラインソリューションをリリースする。 Intel N-DNS Challengeがニューロモルフィックアルゴリズムの研究、特にリアルタイム信号処理のトレーニングツールや手法の分野でイノベーションを加速させることを期待している。 この課題の勝者たちは、従来の最先端のソリューションと比較して、現在利用可能なニューロモルフィックデバイスにおいて、オーディオのノイズ発生、電力とリソースの大幅な増加といった問題を実現することを期待している。

A critical enabler for progress in neuromorphic computing research is the ability to transparently evaluate different neuromorphic solutions on important tasks and to compare them to state-of-the-art conventional solutions. The Intel Neuromorphic Deep Noise Suppression Challenge (Intel N-DNS Challenge), inspired by the Microsoft DNS Challenge, tackles a ubiquitous and commercially relevant task: real-time audio denoising. Audio denoising is likely to reap the benefits of neuromorphic computing due to its low-bandwidth, temporal nature and its relevance for low-power devices. The Intel N-DNS Challenge consists of two tracks: a simulation-based algorithmic track to encourage algorithmic innovation, and a neuromorphic hardware (Loihi 2) track to rigorously evaluate solutions. For both tracks, we specify an evaluation methodology based on energy, latency, and resource consumption in addition to output audio quality. We make the Intel N-DNS Challenge dataset scripts and evaluation code freely accessible, encourage community participation with monetary prizes, and release a neuromorphic baseline solution which shows promising audio quality, high power efficiency, and low resource consumption when compared to Microsoft NsNet2 and a proprietary Intel denoising model used in production. We hope the Intel N-DNS Challenge will hasten innovation in neuromorphic algorithms research, especially in the area of training tools and methods for real-time signal processing. We expect the winners of the challenge will demonstrate that for problems like audio denoising, significant gains in power and resources can be realized on neuromorphic devices available today compared to conventional state-of-the-art solutions.
翻訳日:2023-08-02 17:48:16 公開日:2023-08-01
# 環境とのチャット:大規模言語モデルを用いた対話型マルチモーダル知覚

Chat with the Environment: Interactive Multimodal Perception Using Large Language Models ( http://arxiv.org/abs/2303.08268v2 )

ライセンス: Link先を確認
Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, and Stefan Wermter(参考訳) 複雑な世界でのプログラミングロボットの振る舞いは、多彩な低レベルのスキルからハイレベルな計画や推論に至るまで、さまざまなレベルで課題に直面している。 最近のLarge Language Models (LLMs) は、数発のロボット計画において顕著な推論能力を示している。 しかし、ロボットが環境と対話し、そのポリシーが展開するにつれて、新しい情報を得られるようにしながら、マルチモーダルな感覚入力と連続的な動作出力にLCMを接地することは依然として困難である。 ロボットがタスクを正しく実行する前に、複数のモダリティ間の感覚情報をサンプリングするために、認識行動の範囲をロボットが決定する必要がある、部分的に観察可能な状態のロボットインタラクションシナリオを開発する。 したがって、対話的知覚フレームワークは、そのバックボーンとしてLLMを用いて提案され、その能力は、結果として生じるマルチモーダル感覚(視覚、音、触覚、プロプレセプション)を解釈し、対話的に獲得した情報に基づいてタスクの実行全体を計画する。 本研究は,マルチモーダル環境における対話型ロボットの動作制御と高レベルな計画・推論能力の提供を可能にすると同時に,環境状態のコンテキストを持ったマルチモーダルモジュールがllmの接地と処理能力の向上に寄与することを示す。 プロジェクトの Web サイトは \href{https://matcha-model.github.io}{\textcolor{blue}{https://matcha-model.github.io/}} にある。

Programming robot behavior in a complex world faces challenges on multiple levels, from dextrous low-level skills to high-level planning and reasoning. Recent pre-trained Large Language Models (LLMs) have shown remarkable reasoning ability in few-shot robotic planning. However, it remains challenging to ground LLMs in multimodal sensory input and continuous action output, while enabling a robot to interact with its environment and acquire novel information as its policies unfold. We develop a robot interaction scenario with a partially observable state, which necessitates a robot to decide on a range of epistemic actions in order to sample sensory information among multiple modalities, before being able to execute the task correctly. An interactive perception framework is therefore proposed with an LLM as its backbone, whose ability is exploited to instruct epistemic actions and to reason over the resulting multimodal sensations (vision, sound, haptics, proprioception), as well as to plan an entire task execution based on the interactively acquired information. Our study demonstrates that LLMs can provide high-level planning and reasoning skills and control interactive robot behavior in a multimodal environment, while multimodal modules with the context of the environmental state help ground the LLMs and extend their processing ability. The project website can be found at \href{https://matcha-model.github.io}{\textcolor{blue}{https://matcha-model.github.io/}}.
翻訳日:2023-08-02 17:47:42 公開日:2023-08-01
# ソーシャルメディア上のデジタルトレースを用いた抑うつ検出 : 知識を考慮した深層学習アプローチ

Depression Detection Using Digital Traces on Social Media: A Knowledge-aware Deep Learning Approach ( http://arxiv.org/abs/2303.05389v2 )

ライセンス: Link先を確認
Wenli Zhang, Jiaheng Xie, Zhu Zhang, Xiang Liu(参考訳) うつ病は世界中で一般的な病気です。 診断は困難であり、診断下にある。 うつ病患者は、常に症状、主要なライフイベント、治療をソーシャルメディアで共有しているため、研究者はうつ病検出のためにソーシャルメディア上でユーザー生成のデジタルトレースに目を向けている。 このような手法は、うつ病と戦う革新的なアプローチを促進し、社会的・経済的負担を軽減することができるため、うつ病と戦う上で明確な利点がある。 しかし、既存の研究の多くは、確立された医学領域の知識をうつ病の検出に組み込む効果的な手段を欠いている。 デザイン科学研究パラダイムに従って,ソーシャルメディア利用者の抑うつリスクを正確に検出し,その検出に寄与する重要な要因を説明するための,dkdd(deep knowledge-aware depression detection)フレームワークを提案する。 実世界のデータを用いた広範囲な実証研究により、ドメイン知識を組み込むことで、この手法が既存の最先端の手法を上回ることを証明します。 本研究は,知識を考慮した機械学習,デジタルトレース利用,およびISにおけるNLP研究において,IS研究に大きな影響を及ぼす。 実際、dkddは早期発見と重要な要因を説明することによって、臨床的うつ病スクリーニングを補完し、人口の精神状態の大規模評価を可能にする。

Depression is a common disease worldwide. It is difficult to diagnose and continues to be underdiagnosed. Because depressed patients constantly share their symptoms, major life events, and treatments on social media, researchers are turning to user-generated digital traces on social media for depression detection. Such methods have distinct advantages in combating depression because they can facilitate innovative approaches to fight depression and alleviate its social and economic burden. However, most existing studies lack effective means to incorporate established medical domain knowledge in depression detection or suffer from feature extraction difficulties that impede greater performance. Following the design science research paradigm, we propose a Deep Knowledge-aware Depression Detection (DKDD) framework to accurately detect social media users at risk of depression and explain the critical factors that contribute to such detection. Extensive empirical studies with real-world data demonstrate that, by incorporating domain knowledge, our method outperforms existing state-of-the-art methods. Our work has significant implications for IS research in knowledge-aware machine learning, digital traces utilization, and NLP research in IS. Practically, by providing early detection and explaining the critical factors, DKDD can supplement clinical depression screening and enable large-scale evaluations of a population's mental health status.
翻訳日:2023-08-02 17:47:14 公開日:2023-08-01
# 深層学習におけるGELU活性化関数 : 総合的な数学的解析と性能

GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance ( http://arxiv.org/abs/2305.12073v2 )

ライセンス: Link先を確認
Minhyeok Lee(参考訳) 最も適切なアクティベーション関数の選択は、学習能力、安定性、計算効率に影響を与えるため、ディープラーニングモデルの有効性において重要な要素である。 近年,gaussian error linear unit (gelu) の活性化関数が主流となり,様々な応用においてrelu (recurtified linear unit) のような従来の関数を上回っている。 本研究では,ゲルの活性化関数に関する厳密な数学的研究を行い,その微分可能性,有界性,定常性,滑らか性について詳細に検討する。 さらに,CIFAR-10,CIFAR-100,STL-10データセットで訓練された残差畳み込みネットワークを実証実験台として,GELU関数の幅広い代替活性化関数との比較を行った。 以上の結果から,geluは他のアクティベーション関数と比較して優れた性能を示し,幅広い深層学習アプリケーションに適用できることを示した。 この総合的研究は、GELUの数学的性質のより深い理解に寄与し、深層学習における特定の目的や制約に最適なアクティベーション関数の選択を目指す実践者に貴重な洞察を提供する。

Selecting the most suitable activation function is a critical factor in the effectiveness of deep learning models, as it influences their learning capacity, stability, and computational efficiency. In recent years, the Gaussian Error Linear Unit (GELU) activation function has emerged as a dominant method, surpassing traditional functions such as the Rectified Linear Unit (ReLU) in various applications. This study presents a rigorous mathematical investigation of the GELU activation function, exploring its differentiability, boundedness, stationarity, and smoothness properties in detail. Additionally, we conduct an extensive experimental comparison of the GELU function against a broad range of alternative activation functions, utilizing a residual convolutional network trained on the CIFAR-10, CIFAR-100, and STL-10 datasets as the empirical testbed. Our results demonstrate the superior performance of GELU compared to other activation functions, establishing its suitability for a wide range of deep learning applications. This comprehensive study contributes to a more profound understanding of the underlying mathematical properties of GELU and provides valuable insights for practitioners aiming to select activation functions that optimally align with their specific objectives and constraints in deep learning.
翻訳日:2023-08-02 17:38:50 公開日:2023-08-01
# 関心領域制御による変圧器による可変レート画像圧縮

Transformer-based Variable-rate Image Compression with Region-of-interest Control ( http://arxiv.org/abs/2305.10807v3 )

ライセンス: Link先を確認
Chia-Hao Kao, Ying-Chieh Weng, Yi-Hsin Chen, Wei-Chen Chiu, Wen-Hsiao Peng(参考訳) 本稿では,トランスベース学習画像圧縮システムを提案する。 関心の領域(ROI)機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。 即時チューニングにインスパイアされ、圧縮のトランスフォーマーベースのオートエンコーダを条件に、プロンプト生成ネットワークを導入する。 プロンプト生成ネットワークは、入力画像、roiマスク、レートパラメータに応じてコンテンツ適応トークンを生成する。 ROIマスクとレートパラメータの分離により、可変レートとROIのコーディングを同時に行う直感的な方法が可能になる。 提案手法の有効性を検証し,他の競合手法よりも優れていることを確認する。

This paper proposes a transformer-based learned image compression system. It is capable of achieving variable-rate compression with a single model while supporting the region-of-interest (ROI) functionality. Inspired by prompt tuning, we introduce prompt generation networks to condition the transformer-based autoencoder of compression. Our prompt generation networks generate content-adaptive tokens according to the input image, an ROI mask, and a rate parameter. The separation of the ROI mask and the rate parameter allows an intuitive way to achieve variable-rate and ROI coding simultaneously. Extensive experiments validate the effectiveness of our proposed method and confirm its superiority over the other competing methods.
翻訳日:2023-08-02 17:38:29 公開日:2023-08-01
# 連続的マルチモーダル知識グラフ構築

Continual Multimodal Knowledge Graph Construction ( http://arxiv.org/abs/2305.08698v2 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Jintian Zhang, Xiaohan Wang, Tongtong Wu, Xi Chen, Yongheng Wang, Huajun Chen(参考訳) マルチモーダル知識グラフ構築(MKGC)は、テキストや画像などの複数のモーダルを使って実体と関係の構造化表現を作成する。 しかし、既存のMKGCモデルは、動的な現実のシナリオにおける新しいエンティティや関係の追加に対処する際の課題に直面している。 現在の知識グラフ構築のための連続的な設定は、主にテキストデータから実体と関係を抽出し、他のマルチモーダルソースを見渡すことに焦点を当てている。 したがって、破壊的忘れの現象に対処し、異なる形式のデータから抽出された過去の知識の保持を確保するために、連続的mkgcの課題を探求する必要がある。 本研究は、生涯にわたるmkgcベンチマークデータセットの開発によって、この複雑なトピックを調査することに焦点を当てている。 マルチメディアデータを用いたMKGCモデルでは,テキストリソースのみを連続的に活用するモデルに比べて,予期せぬパフォーマンスが低いという実証的な結果から,連続学習における一貫したマルチモーダル最適化の長所を担い,安定性と可塑性のトレードオフが向上する,連続的なMKGCのための長寿命マルチモーダル一貫性変換フレームワーク(LMC)を提案する。 本実験は,動的シナリオにおける連続学習手法やマルチモーダルアプローチよりも優れた性能を示す。 コードとデータセットはhttps://github.com/zjunlp/ContinueMKGCで見ることができる。

Multimodal Knowledge Graph Construction (MKGC) involves creating structured representations of entities and relations using multiple modalities, such as text and images. However, existing MKGC models face challenges in handling the addition of new entities and relations in dynamic real-world scenarios. The current continual setting for knowledge graph construction mainly focuses on entity and relation extraction from text data, overlooking other multimodal sources. Therefore, there arises the need to explore the challenge of continual MKGC to address the phenomenon of catastrophic forgetting and ensure the retention of past knowledge extracted from different forms of data. This research focuses on investigating this complex topic by developing lifelong MKGC benchmark datasets. Based on the empirical findings that several typical MKGC models, when trained on multimedia data, might unexpectedly underperform compared to those solely utilizing textual resources in a continual setting, we propose a Lifelong MultiModal Consistent Transformer Framework (LMC) for continual MKGC, which plays the strengths of the consistent multimodal optimization in continual learning and leads to a better stability-plasticity trade-off. Our experiments demonstrate the superior performance of our method over prevailing continual learning techniques or multimodal approaches in dynamic scenarios. Code and datasets can be found at https://github.com/zjunlp/ContinueMKGC.
翻訳日:2023-08-02 17:38:19 公開日:2023-08-01
# MotionBEV:Bird's Eye View を用いた意識認識型オンラインLiDAR移動物体セグメンテーション

MotionBEV: Attention-Aware Online LiDAR Moving Object Segmentation with Bird's Eye View based Appearance and Motion Features ( http://arxiv.org/abs/2305.07336v2 )

ライセンス: Link先を確認
Bo Zhou, Jiapeng Xie, Yan Pan, Jiajie Wu, and Chuanzhao Lu(参考訳) 移動物体を特定することは自律システムにとって必須の機能であり、ポーズ推定、ナビゲーション、衝突回避、静的マップ構築のための重要な情報を提供する。 本稿では,鳥の眼球図(BEV)領域における移動物体の出現・運動特徴をセグメント化するLiDAR移動物体セグメンテーションの高速かつ高精度なフレームワークであるMotionBEVを提案する。 提案手法では,3次元LiDARスキャンを2次元極性BEV表現に変換し,計算効率を向上させる。 具体的には,極性bev座標系における垂直柱上に投影された点雲の連続フレームの高さ差から,簡易な点ネットを用いて出現特徴を学習し,運動特徴の計算を行う。 外観・運動協調モジュール (amcm) で橋渡しされたデュアルブランチネットワークを用いて, 時空間情報を出現・運動の特徴から順応的に分離する。 提案手法は,SemanticKITTI-MOSベンチマークの最先端性能を実現する。 さらに,本手法の実用性を示すために,非繰り返し走査パターンと視野の小さい固体ライダーによって記録されたlidar-mosデータセットを提供する。

Identifying moving objects is an essential capability for autonomous systems, as it provides critical information for pose estimation, navigation, collision avoidance, and static map construction. In this paper, we present MotionBEV, a fast and accurate framework for LiDAR moving object segmentation, which segments moving objects with appearance and motion features in the bird's eye view (BEV) domain. Our approach converts 3D LiDAR scans into a 2D polar BEV representation to improve computational efficiency. Specifically, we learn appearance features with a simplified PointNet and compute motion features through the height differences of consecutive frames of point clouds projected onto vertical columns in the polar BEV coordinate system. We employ a dual-branch network bridged by the Appearance-Motion Co-attention Module (AMCM) to adaptively fuse the spatio-temporal information from appearance and motion features. Our approach achieves state-of-the-art performance on the SemanticKITTI-MOS benchmark. Furthermore, to demonstrate the practical effectiveness of our method, we provide a LiDAR-MOS dataset recorded by a solid-state LiDAR, which features non-repetitive scanning patterns and a small field of view.
翻訳日:2023-08-02 17:37:53 公開日:2023-08-01
# ポテンシャルインバージョン理論

The Potential Inversion Theorem ( http://arxiv.org/abs/2305.07260v4 )

ライセンス: Link先を確認
Alec Shelley, Henry Hunt(参考訳) 量子格子モデルは様々な物理系を記述し、シュロディンガー方程式を数値的に解く標準的な方法である。 ここで、これらのモデルにおける波動関数の確率は、初期条件が厳密に偶数あるいは奇な格子点を占有し、大域的な位相まで存在する限り、ポテンシャルエネルギーの符号反転の下で保存されるというポテンシャル反転定理を証明する。 これは電子対の時間はポジトロニウムのように発展し、したがって結合状態を形成することを意味する。 これらのパラドックス電子対の動力学をシミュレートし、電荷が増加するとより強く結合していることを示す。 ポテンシャル反転定理はブロッホ振動、局在化、粒子-ホール対称性、負のポテンシャル散乱、磁性など、一見無関係ないくつかの物理現象をいかに示すかを示す。

Quantum lattice models describe a wide array of physical systems, and are a canonical way to numerically solve the Schrodinger equation. Here we prove the potential inversion theorem, which says that wavefunction probability in these models is preserved under the sign inversion of the potential energy as long as the initial conditions occupy strictly even or odd lattice sites and are real up to a global phase. This implies that electron pairs time evolve like positronium and therefore form bound states. We simulate the dynamics of these paradoxical electronium pairs and show that they are bound together more strongly if their charge is increased. We show how the potential inversion theorem illustrates several seemingly unrelated physical phenomena, including Bloch oscillations, localization, particle-hole symmetry, negative potential scattering, and magnetism.
翻訳日:2023-08-02 17:37:31 公開日:2023-08-01
# fednoro: クラス不均衡とラベルノイズの不均質性を考慮したノイズロバストフェデレーション学習に向けて

FedNoRo: Towards Noise-Robust Federated Learning by Addressing Class Imbalance and Label Noise Heterogeneity ( http://arxiv.org/abs/2305.05230v2 )

ライセンス: Link先を確認
Nannan Wu, Li Yu, Xuefeng Jiang, Kwang-Ting Cheng, Zengqiang Yan(参考訳) fnll(federated noise label learning)は、プライバシー保護のためのマルチソース分散学習のための有望なツールだ。 既存の研究は、クラスバランスの取れたグローバルデータの仮定に依存しており、複雑なラベルノイズ、特に医療シナリオをモデル化できない可能性がある。 本稿では,まず,グローバルデータがクラス不均衡であり,ラベルノイズが不均一である新しい,より現実的なフェデレートラベルノイズ問題を定式化し,ノイズロバストフェデレート学習のための2段階フレームワークfednoroを提案する。 具体的には、フェデノロの第1段階では、騒がしいクライアント識別のために、ガウス混合モデルに続くクラス毎の損失指標を配置する。 第2段階では、ノイズロバストフェデレーションモデル更新に知識蒸留と距離認識集約関数を併用する。 ICHおよびISIC2019データセットを用いた実験結果は、実世界のFLシナリオにおけるクラス不均衡とラベルノイズの不均一性に対処する最先端FNLL法に対するFedNoRoの優位性を示す。

Federated noisy label learning (FNLL) is emerging as a promising tool for privacy-preserving multi-source decentralized learning. Existing research, relying on the assumption of class-balanced global data, might be incapable to model complicated label noise, especially in medical scenarios. In this paper, we first formulate a new and more realistic federated label noise problem where global data is class-imbalanced and label noise is heterogeneous, and then propose a two-stage framework named FedNoRo for noise-robust federated learning. Specifically, in the first stage of FedNoRo, per-class loss indicators followed by Gaussian Mixture Model are deployed for noisy client identification. In the second stage, knowledge distillation and a distance-aware aggregation function are jointly adopted for noise-robust federated model updating. Experimental results on the widely-used ICH and ISIC2019 datasets demonstrate the superiority of FedNoRo against the state-of-the-art FNLL methods for addressing class imbalance and label noise heterogeneity in real-world FL scenarios.
翻訳日:2023-08-02 17:37:05 公開日:2023-08-01
# 要約の現状

The Current State of Summarization ( http://arxiv.org/abs/2305.04853v2 )

ライセンス: Link先を確認
Fabian Retkowski(参考訳) テキスト情報の爆発的増加に伴い、要約システムはますます重要になっている。 本研究の目的は,抽象的テキスト要約における芸術の現況を簡潔に示すことにある。 そこで,本研究では,プリトレーニングエンコーダ・デコーダモデルと大規模自己回帰型言語モデルへのパラダイムシフトについて概説する。 さらに,要約システム評価の課題や,ゼロショット要約のための命令調整モデルの可能性についても検討する。 最後に,現在商用アプリケーションに統合されている要約システムの概要を紹介する。

With the explosive growth of textual information, summarization systems have become increasingly important. This work aims to concisely indicate the current state of the art in abstractive text summarization. As part of this, we outline the current paradigm shifts towards pre-trained encoder-decoder models and large autoregressive language models. Additionally, we delve further into the challenges of evaluating summarization systems and the potential of instruction-tuned models for zero-shot summarization. Finally, we provide a brief overview of how summarization systems are currently being integrated into commercial applications.
翻訳日:2023-08-02 17:36:44 公開日:2023-08-01
# ビデオ質問応答のための視覚的因果的シーンリファインメント

Visual Causal Scene Refinement for Video Question Answering ( http://arxiv.org/abs/2305.04224v2 )

ライセンス: Link先を確認
Yushen Wei, Yang Liu, Hong Yan, Guanbin Li, Liang Lin(参考訳) 既存のビデオ質問応答法 (VideoQA) は、様々なモダリティ間の素早い相関に悩まされ、支配的な視覚的エビデンスと意図する質問の特定に失敗する。 さらに、これらの手法はブラックボックスとして機能し、QAプロセス中の視覚的シーンの解釈が困難になる。 本稿では,信頼性の高い回答を生成するための視覚的因果シーンとして,重要な映像セグメントやフレームを探索するために,videoqaの因果分析を行い,視覚因果シーンリファインメント(vcsr)という,クロスモーダル因果関係推論の枠組みを提案する。 特に、視覚的因果シーンをセグメントレベルとフレームレベルの両方で明確に見つけるために、一組の因果介入操作を導入する。 vcsrには2つの必須モジュールがあります i)QGRモジュールは、質問セマンティクスによって案内された連続的なビデオフレームを洗練し、因果的前庭介入のためのより代表的な部分的特徴を得る。 二 視覚的言語的因果関係に基づいて視覚的因果関係及び非因果関係の集まりを発見し、対比学習方法でシーン分離介入の因果効果を推定する因果関係分離子(css)モジュール。 NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの大規模な実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を示している。 コードはhttps://github.com/yangliu9208/vcsrで入手できる。

Existing methods for video question answering (VideoQA) often suffer from spurious correlations between different modalities, leading to a failure in identifying the dominant visual evidence and the intended question. Moreover, these methods function as black boxes, making it difficult to interpret the visual scene during the QA process. In this paper, to discover critical video segments and frames that serve as the visual causal scene for generating reliable answers, we present a causal analysis of VideoQA and propose a framework for cross-modal causal relational reasoning, named Visual Causal Scene Refinement (VCSR). Particularly, a set of causal front-door intervention operations is introduced to explicitly find the visual causal scenes at both segment and frame levels. Our VCSR involves two essential modules: i) the Question-Guided Refiner (QGR) module, which refines consecutive video frames guided by the question semantics to obtain more representative segment features for causal front-door intervention; ii) the Causal Scene Separator (CSS) module, which discovers a collection of visual causal and non-causal scenes based on the visual-linguistic causal relevance and estimates the causal effect of the scene-separating intervention in a contrastive learning manner. Extensive experiments on the NExT-QA, Causal-VidQA, and MSRVTT-QA datasets demonstrate the superiority of our VCSR in discovering visual causal scene and achieving robust video question answering. The code is available at https://github.com/YangLiu9208/VCSR.
翻訳日:2023-08-02 17:36:36 公開日:2023-08-01
# ブラックボックス変分推論における確率収束保証

Provable convergence guarantees for black-box variational inference ( http://arxiv.org/abs/2306.03638v2 )

ライセンス: Link先を確認
Justin Domke, Guillaume Garrigos and Robert Gower(参考訳) ブラックボックス変分推論は広く用いられているが、確率最適化が成功するという証拠はない。 これは既存の確率的最適化証明の理論的ギャップ、すなわち異常なノイズ境界を持つ勾配推定器の挑戦と、複合的な非スムース目的によるものである。 密度ガウス変分族に対しては、再パラメータ化に基づく既存の勾配推定器が二次雑音境界を満たすことを観察し、この境界を用いた近位および近位確率勾配勾配の新規収束保証を与える。 これは、現実的な推論問題に対してブラックボックス変分推論が収束するという最初の厳密な保証を提供する。

While black-box variational inference is widely used, there is no proof that its stochastic optimization succeeds. We suggest this is due to a theoretical gap in existing stochastic optimization proofs-namely the challenge of gradient estimators with unusual noise bounds, and a composite non-smooth objective. For dense Gaussian variational families, we observe that existing gradient estimators based on reparameterization satisfy a quadratic noise bound and give novel convergence guarantees for proximal and projected stochastic gradient descent using this bound. This provides the first rigorous guarantee that black-box variational inference converges for realistic inference problems.
翻訳日:2023-08-02 17:29:51 公開日:2023-08-01
# w-procer: 重み付き原型的コントラスト学習による医療用少数ショットエンティティ認識

W-procer: Weighted Prototypical Contrastive Learning for Medical Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2305.18624v5 )

ライセンス: Link先を確認
Mingchen Li, Yang Ye, Jeremy Yeung, Huixue Zhou, Huaiyuan Chu, Rui Zhang(参考訳) 対照的学習は、NER(Non-shot Name Entity Regniation)の一般的なソリューションとなっている。 従来の構成では、同じラベルを持つトークン間の距離を減らし、異なるラベルを持つトークン間の距離を増やそうとしている。 しかし、医療分野では、OUTSIDE (O) として注釈付けされたエンティティが多数存在し、現在の対照的な学習方法によってOUTSIDE (O) とラベル付けされていない他のエンティティに非推奨にプッシュされ、ラベルのセマンティックな表現のためのノイズの多いプロトタイプで終わるが、OUTSIDE (O) にラベル付けされたエンティティがラベル付けされたエンティティに関連するものも多い。 この課題に対処するために,医用フリューショット名義エンティティ認識のためのWeighted Prototypeal Contrastive Learning (W-PROCER) という新しい手法を提案する。 当社のアプローチは主に,プロトタイプベースの契約損失と重み付けネットワークの構築を中心に展開している。 これらのコンポーネントは、外部(o)トークンから負のサンプルを区別し、コントラスト学習の識別能力を高める上で、モデルを支援する上で重要な役割を果たす。 実験の結果,提案するW-PROCERフレームワークは,3つのベンチマークデータセットの強いベースラインを著しく上回ることがわかった。

Contrastive learning has become a popular solution for few-shot Name Entity Recognization (NER). The conventional configuration strives to reduce the distance between tokens with the same labels and increase the distance between tokens with different labels. The effect of this setup may, however, in the medical domain, there are a lot of entities annotated as OUTSIDE (O), and they are undesirably pushed apart to other entities that are not labeled as OUTSIDE (O) by the current contrastive learning method end up with a noisy prototype for the semantic representation of the label, though there are many OUTSIDE (O) labeled entities are relevant to the labeled entities. To address this challenge, we propose a novel method named Weighted Prototypical Contrastive Learning for Medical Few Shot Named Entity Recognization (W-PROCER). Our approach primarily revolves around constructing the prototype-based contractive loss and weighting network. These components play a crucial role in assisting the model in differentiating the negative samples from OUTSIDE (O) tokens and enhancing the discrimination ability of contrastive learning. Experimental results show that our proposed W-PROCER framework significantly outperforms the strong baselines on the three medical benchmark datasets.
翻訳日:2023-08-02 17:29:39 公開日:2023-08-01
# タイニー部分空間における微調整現象:事前訓練された言語モデルの固有のタスク固有部分空間の探索

Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific Subspaces of Pre-trained Language Models ( http://arxiv.org/abs/2305.17446v2 )

ライセンス: Link先を確認
Zhong Zhang, Bang Liu, Junming Shao(参考訳) 事前学習された言語モデル(plm)は過度にパラメータ化され、有意な冗長性を有し、plmの自由度が小さいことが知られている。 本稿では,その観察に動機づけられたplmの再パラメータ化と微調整の問題について,タスク固有の部分空間の発見という新たな視点から検討する。 具体的には、与えられたタスクの微調整プロセスのダイナミクスを利用してパラメータ最適化軌道を学習し、そのタスク固有の部分空間を明らかにする。 鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。 さらに、部分空間の微調整中に現れるいくつかの外界次元を観察する。 これらの次元の無効化はモデルの性能を著しく低下させる。 これは、これらの次元がタスク固有の知識を下流のタスクに誘導するのに重要であることを示唆している。

Pre-trained language models (PLMs) are known to be overly parameterized and have significant redundancy, indicating a small degree of freedom of the PLMs. Motivated by the observation, in this paper, we study the problem of re-parameterizing and fine-tuning PLMs from a new perspective: Discovery of intrinsic task-specific subspace. Specifically, by exploiting the dynamics of the fine-tuning process for a given task, the parameter optimization trajectory is learned to uncover its intrinsic task-specific subspace. A key finding is that PLMs can be effectively fine-tuned in the subspace with a small number of free parameters. Beyond, we observe some outlier dimensions emerging during fine-tuning in the subspace. Disabling these dimensions degrades the model performance significantly. This suggests that these dimensions are crucial to induce task-specific knowledge to downstream tasks.
翻訳日:2023-08-02 17:29:13 公開日:2023-08-01
# 確率ゲームにおける報酬機械による強化学習

Reinforcement Learning With Reward Machines in Stochastic Games ( http://arxiv.org/abs/2305.17372v2 )

ライセンス: Link先を確認
Jueming Hu, Jean-Raphael Gaglione, Yanze Wang, Zhe Xu, Ufuk Topcu, and Yongming Liu(参考訳) 複雑タスクを伴う確率ゲームにおけるマルチエージェント強化学習について, 報酬関数が非マルコフ型である場合について検討する。 我々は報酬機を利用して複雑なタスクの高度な知識を取り入れる。 確率ゲーム(QRM-SG)の報酬機を用いたQラーニングと呼ばれるアルゴリズムを開発し,各エージェントのNash平衡における最適応答戦略を学習する。 QRM-SGでは、拡張状態空間におけるナッシュ平衡におけるQ関数を定義する。 拡張状態空間は、確率ゲームの状態と報酬マシンの状態を統合する。 各エージェントはシステム内のすべてのエージェントのQ関数を学習する。 我々は,QRM-SGで学習したQ関数が,学習中の各段階のステージゲームが大域的最適点またはサドル点を持つ場合,ナッシュ平衡においてQ関数に収束することが証明され,エージェントは,この時点でのベストレスポンス戦略に基づいてQ関数を更新する。 lemke-howson法を用いて,現在のq関数に対する最善応答戦略を導出する。 3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。 QRM-SGは,ケーススタディIで約7500回,ケーススタディIIで1000回,ケーススタディIIIで1500回,ナッシュQ-ラーニングやMADDPGといったベースライン手法がナッシュ平衡に収束しない場合に,最も優れた応答戦略を学習する。

We investigate multi-agent reinforcement learning for stochastic games with complex tasks, where the reward functions are non-Markovian. We utilize reward machines to incorporate high-level knowledge of complex tasks. We develop an algorithm called Q-learning with reward machines for stochastic games (QRM-SG), to learn the best-response strategy at Nash equilibrium for each agent. In QRM-SG, we define the Q-function at a Nash equilibrium in augmented state space. The augmented state space integrates the state of the stochastic game and the state of reward machines. Each agent learns the Q-functions of all agents in the system. We prove that Q-functions learned in QRM-SG converge to the Q-functions at a Nash equilibrium if the stage game at each time step during learning has a global optimum point or a saddle point, and the agents update Q-functions based on the best-response strategy at this point. We use the Lemke-Howson method to derive the best-response strategy given current Q-functions. The three case studies show that QRM-SG can learn the best-response strategies effectively. QRM-SG learns the best-response strategies after around 7500 episodes in Case Study I, 1000 episodes in Case Study II, and 1500 episodes in Case Study III, while baseline methods such as Nash Q-learning and MADDPG fail to converge to the Nash equilibrium in all three case studies.
翻訳日:2023-08-02 17:28:58 公開日:2023-08-01
# Diable: テーブル上の操作として効率的な対話状態追跡

Diable: Efficient Dialogue State Tracking as Operations on Tables ( http://arxiv.org/abs/2305.17020v2 )

ライセンス: Link先を確認
Pietro Lesci, Yoshinari Fujinuma, Momchil Hardalov, Chao Shang, Lluis Marquez(参考訳) 対話状態追跡システム(DST)は、全対話履歴を入力として使用し、現在の状態を全てのスロットでリストとして表現し、各対話ターンでスクラッチから全状態を生成する。 このアプローチは、特にスロットの数が大きく、会話が長い場合、非効率である。 本稿では,効率的なdstシステムの設計と実装を簡略化し,大規模言語モデルを容易にプラグアンドプレイできるタスク形式であるdiableを提案する。 対話状態をテーブルとして表現し,テーブル操作タスクとしてDSTを定式化する。 各ターンで、システムは対話コンテキストに基づいてテーブル操作を生成することにより、前の状態を更新する。 MultiWozデータセットの大規模な実験がDiableを実証 i)強い効率的なDSTベースラインを上回る。 (ii) 競争力のあるジョイントゴール精度を維持しつつ, 現在の最先端手法よりも2.4倍の時間効率を有すること, (iii) テーブル操作アプローチのため、騒がしいデータアノテーションに対して堅牢である。

Sequence-to-sequence state-of-the-art systems for dialogue state tracking (DST) use the full dialogue history as input, represent the current state as a list with all the slots, and generate the entire state from scratch at each dialogue turn. This approach is inefficient, especially when the number of slots is large and the conversation is long. We propose Diable, a new task formalisation that simplifies the design and implementation of efficient DST systems and allows one to easily plug and play large language models. We represent the dialogue state as a table and formalise DST as a table manipulation task. At each turn, the system updates the previous state by generating table operations based on the dialogue context. Extensive experimentation on the MultiWoz datasets demonstrates that Diable (i) outperforms strong efficient DST baselines, (ii) is 2.4x more time efficient than current state-of-the-art methods while retaining competitive Joint Goal Accuracy, and (iii) is robust to noisy data annotations due to the table operations approach.
翻訳日:2023-08-02 17:28:30 公開日:2023-08-01
# 多モデル生成逆数ネットワークに基づく確率力学の高精度生成

Accurate generation of stochastic dynamics based on multi-model Generative Adversarial Networks ( http://arxiv.org/abs/2305.15920v2 )

ライセンス: Link先を確認
Daniele Lanzoni, Olivier Pierre-Louis, Francesco Montalenti(参考訳) generative adversarial networks (gans) はテキストや画像生成といった分野において大きな可能性を示している。 ごく最近の統計力学モデルへのGANの利用の試みが報告されている。 ここでは、格子上の原型確率過程に適用することにより、このアプローチを定量的に検証する。 元のデータに適切にノイズを加えることで、ジェネレータと判別器の損失関数の両方を理想値に近づけることに成功した。 重要なことに、ノイズにもかかわらずモデルの離散性は維持される。 逆向きのアプローチでは典型的なように、収束限界の周りの振動も大きなエポックで持続する。 これはモデルの選択と生成した軌道の品質を損なう。 ランダムにジェネレータを選択すると,各ステップで確率軌道が進行する単純なマルチモデル手法が,精度を著しく向上させることを示した。 これは、予測平衡確率分布と脱走時間分布の両方の定量的解析によって説明される。 報告された結果に基づき,gansは機械学習手法によって複雑な統計力学に取り組む有望なツールであると信じている。

Generative Adversarial Networks (GANs) have shown immense potential in fields such as text and image generation. Only very recently attempts to exploit GANs to statistical-mechanics models have been reported. Here we quantitatively test this approach by applying it to a prototypical stochastic process on a lattice. By suitably adding noise to the original data we succeed in bringing both the Generator and the Discriminator loss functions close to their ideal value. Importantly, the discreteness of the model is retained despite the noise. As typical for adversarial approaches, oscillations around the convergence limit persist also at large epochs. This undermines model selection and the quality of the generated trajectories. We demonstrate that a simple multi-model procedure where stochastic trajectories are advanced at each step upon randomly selecting a Generator leads to a remarkable increase in accuracy. This is illustrated by quantitative analysis of both the predicted equilibrium probability distribution and of the escape-time distribution. Based on the reported findings, we believe that GANs are a promising tool to tackle complex statistical dynamics by machine learning techniques
翻訳日:2023-08-02 17:28:13 公開日:2023-08-01
# AlpacaFarm:人間のフィードバックから学ぶ方法のシミュレーションフレームワーク

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback ( http://arxiv.org/abs/2305.14387v2 )

ライセンス: Link先を確認
Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto(参考訳) ChatGPTのような大規模言語モデル(LLM)は、ユーザ命令をうまく従えるため、広く採用されている。 これらのLLMの開発には、人間のフィードバックによるトレーニングを必要とする複雑なワークフローが伴う。 この命令追跡プロセスの複製と理解には、データ収集の高コスト、信頼できる評価の欠如、参照メソッドの実装の欠如という3つの大きな課題がある。 低コストでフィードバックから学ぶための研究と開発を可能にするシミュレータAlpacaFarmでこれらの課題に対処する。 まず、群衆労働者よりも45倍安い人間のフィードバックをシミュレートし、人間と高い合意を示すllmプロンプトをデザインする。 第2に,実世界インタラクションで得られたヒューマンインストラクションに対して,自動評価を行い,検証する。 第3に,ペアによるフィードバックから学ぶいくつかのメソッド (ppo,best-of-n,expert iterationなど) のリファレンス実装をコントリビュートする。 最後に、AlpacaFarmのエンドツーエンド検証として、実際の10k対のフィードバックに対して11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータに基づいてトレーニングされたモデルのランキングと一致することを示す。 AlpacaFarmで可能な研究の実証として、報酬モデルを用いた手法は教師付き微調整よりも大幅に改善され、我々の参照PPO実装はDavinci003に対する勝利率を+10%向上させることがわかった。 https://github.com/tatsu-lab/alpaca_farm.com/alpacaFarmのすべてのコンポーネントをリリースします。

Large language models (LLMs) such as ChatGPT have seen widespread adoption due to their ability to follow user instructions well. Developing these LLMs involves a complex yet poorly understood workflow requiring training with human feedback. Replicating and understanding this instruction-following process faces three major challenges: the high cost of data collection, the lack of trustworthy evaluation, and the absence of reference method implementations. We address these challenges with AlpacaFarm, a simulator that enables research and development for learning from feedback at a low cost. First, we design LLM prompts to simulate human feedback that are 45x cheaper than crowdworkers and display high agreement with humans. Second, we propose an automatic evaluation and validate it against human instructions obtained on real-world interactions. Third, we contribute reference implementations for several methods (PPO, best-of-n, expert iteration, and more) that learn from pairwise feedback. Finally, as an end-to-end validation of AlpacaFarm, we train and evaluate eleven models on 10k pairs of real human feedback and show that rankings of models trained in AlpacaFarm match rankings of models trained on human data. As a demonstration of the research possible in AlpacaFarm, we find that methods that use a reward model can substantially improve over supervised fine-tuning and that our reference PPO implementation leads to a +10% improvement in win-rate against Davinci003. We release all components of AlpacaFarm at https://github.com/tatsu-lab/alpaca_farm.
翻訳日:2023-08-02 17:27:56 公開日:2023-08-01
# 量子電気力学の枠組みにおけるアハロノフ・ボーム相のゲージ依存性

Gauge dependence of the Aharonov-Bohm phase in a quantum electrodynamics framework ( http://arxiv.org/abs/2305.13995v2 )

ライセンス: Link先を確認
A. Hayashi(参考訳) Aharonov-Bohm (AB) 相は通常、ソレノイドのような外部電流源によって生成される電磁ベクトルポテンシャルの線積分と関連付けられる。 この解釈によれば、積分はベクトルポテンシャルのゲージ選択に依存するため、非閉経路のAB位相は観測できない。 荷電粒子と外部電流の相互作用によるAB効果を説明する最近の試みは、量子光子の交換によるものであり、AB相のシフトは荷電粒子と外部電流源との相互作用エネルギーの変化に比例すると仮定されている。 その結果、これらの試みは、経路に沿ったab相変化はゲージの選択に依存しず、非閉経路のab相シフトは原則的に測定可能であると主張する。 本稿では,この主張を批判的に検証し,この手法により得られた位相が実際にゲージ依存であり,非閉路の観測可能でないことを示す。 また,非閉鎖経路のAB位相シフトを観測するための提案実験について,簡単な批判的考察を行った。

The Aharonov-Bohm (AB) phase is usually associated with a line integral of the electromagnetic vector potential generated by an external current source, such as a solenoid. According to this interpretation, the AB phase of a nonclosed path cannot be observed, as the integral depends on the gauge choice of the vector potential. Recent attempts to explain the AB effect through the interaction between a charged particle and an external current, mediated by the exchange of quantum photons, have assumed that the AB phase shift is proportional to the change in interaction energy between the charged particle and the external current source. As a result, these attempts argue that the AB phase change along a path does not depend on the gauge choice, and that the AB phase shift for a nonclosed path is in principle measurable. In this paper, we critically examine this claim and demonstrate that the phase obtained through this approach is actually gauge-dependent and not an observable for a nonclosed path. We also provide a brief critical discussion of the proposed experiment for observing the AB phase shift of a nonclosed path.
翻訳日:2023-08-02 17:27:28 公開日:2023-08-01
# 集中認識タスクにおける基礎モデルの利用状況に関する批判的考察

A Critical Look at the Current Usage of Foundation Model for Dense Recognition Task ( http://arxiv.org/abs/2307.02862v2 )

ライセンス: Link先を確認
Shiqi Yang, Atsushi Hashimoto, Yoshitaka Ushiku(参考訳) 近年, 画像認識や生成など多くの分野において, 膨大なモダリティデータを学習した大規模モデルは, 基礎モデルと呼ばれることが多いが, 顕著な達成を達成している。 当初のアプリケーションでは大きな成功を収めたものの、これらの基盤モデルが他のダウンストリームタスクにも適用できるかどうかはまだ不明である。 本稿では,事前学習した基礎モデルに基づく識別的高密度化タスクの手法に関する簡単な調査を行う。 また,Stable Diffusionに基づく既存の開語彙セグメンテーション手法の予備的検討を行い,セグメンテーションのための拡散モデルの展開方法が最適でないことを示す。 これは、下流タスクに基礎モデルを採用するための将来の研究のための洞察を提供することを目的としている。

In recent years large model trained on huge amount of cross-modality data, which is usually be termed as foundation model, achieves conspicuous accomplishment in many fields, such as image recognition and generation. Though achieving great success in their original application case, it is still unclear whether those foundation models can be applied to other different downstream tasks. In this paper, we conduct a short survey on the current methods for discriminative dense recognition tasks, which are built on the pretrained foundation model. And we also provide some preliminary experimental analysis of an existing open-vocabulary segmentation method based on Stable Diffusion, which indicates the current way of deploying diffusion model for segmentation is not optimal. This aims to provide insights for future research on adopting foundation model for downstream task.
翻訳日:2023-08-02 17:19:31 公開日:2023-08-01
# 推論かリサイティングか? 反事実的タスクによる言語モデルの能力と限界の検討

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks ( http://arxiv.org/abs/2307.02477v2 )

ライセンス: Link先を確認
Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Aky\"urek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim(参考訳) 幅広いタスクにわたる最近の言語モデルの印象的なパフォーマンスは、それらが抽象的な推論スキルを持っていることを示唆している。 これらのスキルは一般的に、移行可能か、あるいは事前トレーニング中に特定のタスクに特化しているか? これらの効果を解消するために,標準タスクの既定の仮定から逸脱する"counterfactual"タスク変種に基づく評価フレームワークを提案する。 11のタスクの組にわたって、反ファクトな変形に対して非自明なパフォーマンスを観察するが、しかしながら、パフォーマンスはデフォルト条件よりも大幅に、一貫して低下する。 これは、現在のLMは抽象的なタスク解決スキルをある程度持っているが、タスク解決のための狭義の非参照可能な手順にも依存していることを示唆している。 これらの結果は、これらの振る舞いの側面を区別する言語モデルのパフォーマンスをより注意深く解釈する動機となった。

The impressive performance of recent language models across a wide range of tasks suggests that they possess a degree of abstract reasoning skills. Are these skills general and transferable, or specialized to specific tasks seen during pretraining? To disentangle these effects, we propose an evaluation framework based on "counterfactual" task variants that deviate from the default assumptions underlying standard tasks. Across a suite of 11 tasks, we observe nontrivial performance on the counterfactual variants, but nevertheless find that performance substantially and consistently degrades compared to the default conditions. This suggests that while current LMs may possess abstract task-solving skills to a degree, they often also rely on narrow, non-transferable procedures for task-solving. These results motivate a more careful interpretation of language model performance that teases apart these aspects of behavior.
翻訳日:2023-08-02 17:19:17 公開日:2023-08-01
# MaskBEV:鳥眼視3D点雲のオブジェクト検出とフットプリント完了

MaskBEV: Joint Object Detection and Footprint Completion for Bird's-eye View 3D Point Clouds ( http://arxiv.org/abs/2307.01864v2 )

ライセンス: Link先を確認
William Guimont-Martin, Jean-Michel Fortin, Fran\c{c}ois Pomerleau, Philippe Gigu\`ere(参考訳) ライダーポイントクラウドにおける最近のオブジェクト検出の研究は、主にオブジェクト周辺の境界ボックスの予測に焦点を当てている。 この予測は通常、アンカーベースまたはアンカーフリーの検出器を使って境界ボックスを予測し、オブジェクトが適切に動作するための明確な事前知識を必要とする。 これらの制約を緩和するために,鳥眼ビュー (BEV) を用いた物体検出ニューラルネットワークであるMaskBEVを提案する。 MaskBEVは検出されたオブジェクトのフットプリントを表す一連のBEVインスタンスマスクを予測する。 さらに,1回のパスで物体検出と足跡完了を可能にする。 MaskBEVはまた、検出問題を分類の観点から純粋に再構成し、通常はリグレッションによって境界ボックスを予測する。 本研究では,SemanticKITTIとKITTIの両方のデータセット上でのMaskBEVの性能評価を行い,アーキテクチャの利点と限界を分析した。

Recent works in object detection in LiDAR point clouds mostly focus on predicting bounding boxes around objects. This prediction is commonly achieved using anchor-based or anchor-free detectors that predict bounding boxes, requiring significant explicit prior knowledge about the objects to work properly. To remedy these limitations, we propose MaskBEV, a bird's-eye view (BEV) mask-based object detector neural architecture. MaskBEV predicts a set of BEV instance masks that represent the footprints of detected objects. Moreover, our approach allows object detection and footprint completion in a single pass. MaskBEV also reformulates the detection problem purely in terms of classification, doing away with regression usually done to predict bounding boxes. We evaluate the performance of MaskBEV on both SemanticKITTI and KITTI datasets while analyzing the architecture advantages and limitations.
翻訳日:2023-08-02 17:19:04 公開日:2023-08-01
# RdSOBA:レンダリングされたシャドウオブジェクトアソシエーションデータセット

RdSOBA: Rendered Shadow-Object Association Dataset ( http://arxiv.org/abs/2306.17358v2 )

ライセンス: Link先を確認
Xinhao Tao, Junyan Cao, Li Niu(参考訳) 画像構成は、背景画像に前景オブジェクトを挿入して合成画像を得る。 本研究では,合成画像をよりリアルにするために,挿入された前景オブジェクトに対する可塑性影の生成に焦点をあてる。 既存の小規模なデータセットDESOBAを補うため、3Dレンダリング技術を備えたRdSOBAと呼ばれる大規模データセットを作成しました。 具体的には、3Dシーンに3Dオブジェクトのグループを配置し、制御可能なレンダリング技術を用いてオブジェクトの影のない画像を得る。 Datasetはhttps://github.com/bcmi/Rendered-Shadow-Generation-Dataset-RdSOBAで入手できる。

Image composition refers to inserting a foreground object into a background image to obtain a composite image. In this work, we focus on generating plausible shadows for the inserted foreground object to make the composite image more realistic. To supplement the existing small-scale dataset DESOBA, we created a large-scale dataset called RdSOBA with 3D rendering techniques. Specifically, we place a group of 3D objects in the 3D scene, and get the images without or with object shadows using controllable rendering techniques. Dataset is available at https://github.com/bcmi/Rendered-Shadow-Generation-Dataset-RdSOBA.
翻訳日:2023-08-02 17:18:50 公開日:2023-08-01
# プログラミング教育のための生成AI: ChatGPT, GPT-4, Human Tutorsのベンチマーク

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors ( http://arxiv.org/abs/2306.17156v3 )

ライセンス: Link先を確認
Tung Phung, Victor-Alexandru P\u{a}durean, Jos\'e Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares(参考訳) 生成型AIと大規模言語モデルは、入門プログラミングに次世代の教育技術を活用することによって、コンピューティング教育の強化に大いに貢献する。 最近の研究は、プログラミング教育に関連する様々なシナリオについてこれらのモデルを研究しているが、それらは、既に時代遅れのモデルや特定のシナリオのみを考えるため、いくつかの理由で制限されている。 その結果、包括的なプログラミング教育シナリオのための最先端モデルをベンチマークする体系的な研究が欠如している。 本研究では,chatgpt (gpt-3.5) と gpt-4 の2つのモデルを体系的に評価し,その性能を人間の指導者と比較した。 オンラインプラットフォームから5つのPythonプログラミング問題と実世界のバグジープログラムを評価し,専門家によるアノテーションによるパフォーマンス評価を行った。 以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。 これらの結果は、GPT-4がいまだに苦戦している設定も強調し、これらのモデルの性能を改善する技術開発におけるエキサイティングな方向性を提供する。

Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.
翻訳日:2023-08-02 17:18:38 公開日:2023-08-01
# chipformer: オフライン決定変換による転送可能なチップ配置

ChiPFormer: Transferable Chip Placement via Offline Decision Transformer ( http://arxiv.org/abs/2306.14744v2 )

ライセンス: Link先を確認
Yao Lai, Jinxin Liu, Zhentao Tang, Bin Wang, Jianye Hao, Ping Luo(参考訳) 配置は現代のチップ設計において重要なステップであり、チップキャンバス上の回路モジュールの位置を決定することを目的としている。 近年の研究では、強化学習(RL)がチップ配置における人的性能を向上させることが示されている。 しかし、そのようなrlベースのアプローチは、半導体回路の長いトレーニング時間と低転送能力に苦しむ。 これらの課題を解決するため,チップ配置をオフラインRL定式化として,固定オフラインデータから転送可能な配置ポリシーを学習可能なChiPFormerを提案する。 ChiPFormerには、先行技術にはないいくつかの利点がある。 まず、ChiPFormerはオフライン配置設計を利用して、マルチタスク設定で転送可能なポリシーをより効率的に学習する。 第二に、ChiPFormerは目に見えないチップ回路の効率的な微調整を促進し、配置ランタイムを数時間から数分に短縮することができる。 第3に、32個のチップ回路に対する広範な実験により、ChiPFormerはランタイムを10倍に削減しながら配置品質を著しく向上することを示した。 deliverablesはhttps://sites.google.com/view/chipformer/homeでリリースされている。

Placement is a critical step in modern chip design, aiming to determine the positions of circuit modules on the chip canvas. Recent works have shown that reinforcement learning (RL) can improve human performance in chip placement. However, such an RL-based approach suffers from long training time and low transfer ability in unseen chip circuits. To resolve these challenges, we cast the chip placement as an offline RL formulation and present ChiPFormer that enables learning a transferable placement policy from fixed offline data. ChiPFormer has several advantages that prior arts do not have. First, ChiPFormer can exploit offline placement designs to learn transferable policies more efficiently in a multi-task setting. Second, ChiPFormer can promote effective finetuning for unseen chip circuits, reducing the placement runtime from hours to minutes. Third, extensive experiments on 32 chip circuits demonstrate that ChiPFormer achieves significantly better placement quality while reducing the runtime by 10x compared to recent state-of-the-art approaches in both public benchmarks and realistic industrial tasks. The deliverables are released at https://sites.google.com/view/chipformer/home.
翻訳日:2023-08-02 17:17:47 公開日:2023-08-01
# 明示的な遷移確率を持つ分離拡散モデル

Decoupled Diffusion Models with Explicit Transition Probability ( http://arxiv.org/abs/2306.13720v2 )

ライセンス: Link先を確認
Yuhang Huang and Zheng Qin and Xinwang Liu and Kai Xu(参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。 本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。 特に, ito拡散過程に基づくddm (decoupled diffusion models) と呼ばれる新しい拡散パラダイムを提案し, 雑音経路を標準ワイナー過程で制御しながら, 画像分布を明示的な遷移確率で近似する。 拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。 我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。 さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。 実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。 また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。

Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
翻訳日:2023-08-02 17:17:02 公開日:2023-08-01
# Jina Embeddings: 高性能な文埋め込みモデルの新しいセット

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models ( http://arxiv.org/abs/2307.11224v2 )

ライセンス: Link先を確認
Michael G\"unther, Louis Milliken, Jonathan Geuter, Georgios Mastrapas, Bo Wang, Han Xiao(参考訳) Jina Embeddingsは、様々なテキスト入力を数値表現に変換するのに有効な高性能な文埋め込みモデルの集合を構成する。 モデルは、密集検索や意味的テキスト類似性のような応用において優れている。 本稿では、高品質なペアワイズおよびトリプルトデータセットの作成から始まった、jina埋め込みの開発について述べる。 データセット作成におけるデータクリーニングの重要な役割を強調し、モデルトレーニングプロセスに関する深い洞察を与え、massive textual embedded benchmark(mteb)を用いた包括的なパフォーマンス評価で締めくくっている。 モデルの否定に対する意識を高めるために,否定文と非否定文の新たなトレーニングと評価データセットを構築し,それをコミュニティに公開しました。

Jina Embeddings constitutes a set of high-performance sentence embedding models adept at translating various textual inputs into numerical representations, thereby capturing the semantic essence of the text. The models excel in applications such as dense retrieval and semantic textual similarity. This paper details the development of Jina Embeddings, starting with the creation of high-quality pairwise and triplet datasets. It underlines the crucial role of data cleaning in dataset preparation, gives in-depth insights into the model training process, and concludes with a comprehensive performance evaluation using the Massive Textual Embedding Benchmark (MTEB). To increase the model's awareness of negations, we constructed a novel training and evaluation dataset of negated and non-negated statements, which we make publicly available to the community.
翻訳日:2023-08-02 17:10:18 公開日:2023-08-01
# 都市インフラ相互依存ネットワークにおける脆弱ノードの検出

Detecting Vulnerable Nodes in Urban Infrastructure Interdependent Network ( http://arxiv.org/abs/2307.09866v2 )

ライセンス: Link先を確認
Jinzhu Mao, Liu Cao, Chen Gao, Huandong Wang, Hangyu Fan, Depeng Jin, Yong Li(参考訳) 都市インフラの脆弱性の理解と特徴付けは、都市の定期走行に不可欠な技術施設であり、ネットワークの形で自然に存在することを指すものであり、私たちにとって大きな価値があります。 潜在的なアプリケーションには、脆弱な設備の保護や堅牢なトポロジの設計などが含まれる。 異なるトポロジー特性とインフラストラクチャーの脆弱性とそれらの複雑な進化メカニズムとの間に強い相関関係があるため、ヒューリスティック解析や機械支援解析はそのようなシナリオに対処するのに不足している。 本稿では,相互依存型ネットワークを異種グラフとしてモデル化し,都市システムの脆弱性を正確に評価するために,実世界のデータに基づいてトレーニング可能な強化学習付きグラフニューラルネットワークに基づくシステムを提案する。 本システムでは,異種グラフの理解と解析に深層学習手法を活用し,カスケード障害のリスクを把握し,都市の脆弱なインフラを発見する。 様々な要求による広範囲な実験は、システムの表現力だけでなく、特定のコンポーネントの能力や必要性も示しています。

Understanding and characterizing the vulnerability of urban infrastructures, which refers to the engineering facilities essential for the regular running of cities and that exist naturally in the form of networks, is of great value to us. Potential applications include protecting fragile facilities and designing robust topologies, etc. Due to the strong correlation between different topological characteristics and infrastructure vulnerability and their complicated evolution mechanisms, some heuristic and machine-assisted analysis fall short in addressing such a scenario. In this paper, we model the interdependent network as a heterogeneous graph and propose a system based on graph neural network with reinforcement learning, which can be trained on real-world data, to characterize the vulnerability of the city system accurately. The presented system leverages deep learning techniques to understand and analyze the heterogeneous graph, which enables us to capture the risk of cascade failure and discover vulnerable infrastructures of cities. Extensive experiments with various requests demonstrate not only the expressive power of our system but also transferring ability and necessity of the specific components.
翻訳日:2023-08-02 17:10:02 公開日:2023-08-01
# ハイパーボックスに基づく分類のためのエンドツーエンドニューラルネットワークトレーニング

End-to-End Neural Network Training for Hyperbox-Based Classification ( http://arxiv.org/abs/2307.09269v2 )

ライセンス: Link先を確認
Denis Mayr Lima Martins and Christian L\"ulf and Fabian Gieseke(参考訳) ハイパーボックスに基づく分類は、データの決定を直交する多次元ボックス(すなわちハイパーボックス)の連続として表現し、しばしば解釈可能であり、人間が読める有望な技術と見なされている。 しかし、既存のメソッドは、今や多くのアプリケーションドメインが直面するデータ量の増加を効率的に処理できない。 このギャップに対処するために、ニューラルネットワークを介してハイパーボックスベースの分類のための、新しい、完全に差別化可能なフレームワークを提案する。 従来の研究とは対照的に、我々のハイパーボックスモデルはエンドツーエンドで効率的にトレーニングすることができ、トレーニング時間が大幅に短縮され、より優れた分類結果が得られる。

Hyperbox-based classification has been seen as a promising technique in which decisions on the data are represented as a series of orthogonal, multidimensional boxes (i.e., hyperboxes) that are often interpretable and human-readable. However, existing methods are no longer capable of efficiently handling the increasing volume of data many application domains face nowadays. We address this gap by proposing a novel, fully differentiable framework for hyperbox-based classification via neural networks. In contrast to previous work, our hyperbox models can be efficiently trained in an end-to-end fashion, which leads to significantly reduced training times and superior classification results.
翻訳日:2023-08-02 17:09:45 公開日:2023-08-01
# ChatGPTの行動は時間とともにどのように変化するのか?

How is ChatGPT's behavior changing over time? ( http://arxiv.org/abs/2307.09009v2 )

ライセンス: Link先を確認
Lingjiao Chen and Matei Zaharia and James Zou(参考訳) GPT-3.5とGPT-4は2つの最も広く使われている大規模言語モデル(LLM)である。 しかし、これらのモデルがいつどのように更新されるかは不透明である。 ここでは, GPT-3.5 と GPT-4 の2023年3月版と6月版を多種多様なタスクで評価する。 1)数学の問題, 2)敏感で危険な質問 3) 意見調査 4)マルチホップ知識集約質問。 5) コードの生成。 6)米国の医療免許試験及び 7) 視覚的推論。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。 例えば、GPT-4(2023年3月)は素数対合成数(84%の精度)を特定するのに適していたが、GPT-4(2023年6月)はこれらの同じ質問(51%の精度)では不十分であった。 これは部分的には、GPT-4のアメニティが減少し、思考の連鎖が進行するにつれて説明される。 興味深いことに、GPT-3.5は6月で3月よりずっと良かった。 GPT-4は6月に3月よりセンシティブな質問や世論調査への回答が少なくなった。 GPT-4は6月のマルチホップ問題では3月より優れていたが、GPT-3.5のパフォーマンスは低下した。 GPT-4とGPT-3.5は、コード生成のフォーマットミスが3月よりも多かった。 総じて, LLM サービスの動作は比較的短時間で大きく変化し, LLM の継続的モニタリングの必要性が浮き彫りになった。

GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on several diverse tasks: 1) math problems, 2) sensitive/dangerous questions, 3) opinion surveys, 4) multi-hop knowledge-intensive questions, 5) generating code, 6) US Medical License tests, and 7) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was reasonable at identifying prime vs. composite numbers (84% accuracy) but GPT-4 (June 2023) was poor on these same questions (51% accuracy). This is partly explained by a drop in GPT-4's amenity to follow chain-of-thought prompting. Interestingly, GPT-3.5 was much better in June than in March in this task. GPT-4 became less willing to answer sensitive questions and opinion survey questions in June than in March. GPT-4 performed better at multi-hop questions in June than in March, while GPT-3.5's performance dropped on this task. Both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. Overall, our findings show that the behavior of the "same" LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLMs.
翻訳日:2023-08-02 17:09:32 公開日:2023-08-01
# サイクル一貫性に基づく教師なしディープグラフマッチング

Unsupervised Deep Graph Matching Based on Cycle Consistency ( http://arxiv.org/abs/2307.08930v4 )

ライセンス: Link先を確認
Siddharth Tourani, Carsten Rother and Muhammad Haris Khan and Bogdan Savchynskyy(参考訳) 我々は,教師なし深度グラフマッチングの疎密な領域と,画像のキーポイントマッチングへの応用に寄与する。 標準の \emph{supervised} アプローチとは対照的に、本手法ではキーポイント対間の基底真理対応は不要である。 代わりに、同じオブジェクトカテゴリの画像間のマッチングの一貫性を強制することにより、自己監視される。 マッチングと一貫性損失は離散的であるため、それらの微分は直接学習には使用できない。 組合せ解のブラックボックス微分に関する最近の結果に基づいて,本手法を原理的に構築することにより,この問題に対処する。 この手法は任意のネットワークアーキテクチャや組合せ解法と互換性があるため,非常に柔軟である。 実験により,本手法は教師なしグラフマッチングのための新しい最先端技術であることがわかった。

We contribute to the sparsely populated area of unsupervised deep graph matching with application to keypoint matching in images. Contrary to the standard \emph{supervised} approach, our method does not require ground truth correspondences between keypoint pairs. Instead, it is self-supervised by enforcing consistency of matchings between images of the same object category. As the matching and the consistency loss are discrete, their derivatives cannot be straightforwardly used for learning. We address this issue in a principled way by building our method upon the recent results on black-box differentiation of combinatorial solvers. This makes our method exceptionally flexible, as it is compatible with arbitrary network architectures and combinatorial solvers. Our experimental evaluation suggests that our technique sets a new state-of-the-art for unsupervised graph matching.
翻訳日:2023-08-02 17:09:08 公開日:2023-08-01
# pair then relation: pair-net for panoptic scene graph generation

Pair then Relation: Pair-Net for Panoptic Scene Graph Generation ( http://arxiv.org/abs/2307.08699v2 )

ライセンス: Link先を確認
Jinghao Wang, Zhengyu Wen, Xiangtai Li, Zujin Guo, Jingkang Yang, Ziwei Liu(参考訳) Panoptic Scene Graph(PSG)は、SGG(Scene Graph Generation)において、ボックスの代わりにパノスコープセグメンテーションを使用してより包括的なシーングラフ表現を作成することを目的とした課題である。 SGGと比較すると、PSGはピクセルレベルのセグメント出力と完全な関係探索(物と物の関係も考慮している)という難題がいくつかある。 したがって、現在のPSGメソッドは性能が限られており、下流のタスクやアプリケーションを妨げる。 本研究の目的は、PSGの新しい強力なベースラインを設計することである。 そこで我々はまず,既存のPSGモデルのボトルネックを特定するための詳細な分析を行い,従来のPSG法では無視されていた,オブジェクト間のペアワイズリコールが重要な要因であることを確認した。 これらと最近のクエリベースのフレームワークに基づいて,ペア・オータ・リレーション(pair-net)という新たなフレームワークを提案する。ペア・プロポーザル・ネットワーク(ppn)を使用して,サブジェクタとオブジェクトの間のスパースなペア・アズ・リレーションを学習およびフィルタリングする。 さらに,2つのオブジェクトペアの疎結合性も観察し,PPN内の軽量マトリックス学習器を設計し,ペア提案生成のためのペアワイド関係を直接学習する。 広範なアブレーションと分析を通じて,本手法はsegmenter solidベースラインを活用することで大幅に改善した。 特に,psgベンチマークでは,psgformerと比較して絶対値が10\%以上向上し,最新の結果が得られた。 この記事のコードはhttps://github.com/king159/Pair-Net.comで公開されている。

Panoptic Scene Graph (PSG) is a challenging task in Scene Graph Generation (SGG) that aims to create a more comprehensive scene graph representation using panoptic segmentation instead of boxes. Compared to SGG, PSG has several challenging problems: pixel-level segment outputs and full relationship exploration (It also considers thing and stuff relation). Thus, current PSG methods have limited performance, which hinders downstream tasks or applications. The goal of this work aims to design a novel and strong baseline for PSG. To achieve that, we first conduct an in-depth analysis to identify the bottleneck of the current PSG models, finding that inter-object pair-wise recall is a crucial factor that was ignored by previous PSG methods. Based on this and the recent query-based frameworks, we present a novel framework: Pair then Relation (Pair-Net), which uses a Pair Proposal Network (PPN) to learn and filter sparse pair-wise relationships between subjects and objects. Moreover, we also observed the sparse nature of object pairs for both Motivated by this, we design a lightweight Matrix Learner within the PPN, which directly learn pair-wised relationships for pair proposal generation. Through extensive ablation and analysis, our approach significantly improves upon leveraging the segmenter solid baseline. Notably, our method achieves new state-of-the-art results on the PSG benchmark, with over 10\% absolute gains compared to PSGFormer. The code of this paper is publicly available at https://github.com/king159/Pair-Net.
翻訳日:2023-08-02 17:08:56 公開日:2023-08-01
# ファクトパスによるブラックボックスモデルの記述と可視化

Explaining and visualizing black-box models through counterfactual paths ( http://arxiv.org/abs/2307.07764v3 )

ライセンス: Link先を確認
Bastian Pfeifer, Mateusz Krzyzinski, Hubert Baniecki, Anna Saranti, Andreas Holzinger, Przemyslaw Biecek(参考訳) 説明可能なAI(XAI)は、ブラックボックスモデルを透過的で解釈可能なものにすることを目的として、機械学習研究においてますます重要になっている分野である。 本稿では,特徴の条件付き置換によって生成される反事実パスを用いたxaiの新しいアプローチを提案する。 このアルゴリズムは、モデル予測に最も影響を及ぼす特徴の逐次的置換を識別することで、特徴量を測定する。 ドメイン知識を組み込んだ知識グラフの反事実パスに基づいて説明を生成するのに特に適しています。 対実パスは、ブラックボックスモデルの説明と視覚化の両方において、現在のXAI法にグラフ次元を付加する。 人工的および医療的データを用いた実験は、我々のアプローチの実用性を示している。

Explainable AI (XAI) is an increasingly important area of machine learning research, which aims to make black-box models transparent and interpretable. In this paper, we propose a novel approach to XAI that uses the so-called counterfactual paths generated by conditional permutations of features. The algorithm measures feature importance by identifying sequential permutations of features that most influence changes in model predictions. It is particularly suitable for generating explanations based on counterfactual paths in knowledge graphs incorporating domain knowledge. Counterfactual paths introduce an additional graph dimension to current XAI methods in both explaining and visualizing black-box models. Experiments with synthetic and medical data demonstrate the practical applicability of our approach.
翻訳日:2023-08-02 17:08:30 公開日:2023-08-01
# 画像の雑音化と光子の生成的蓄積

Image Denoising and the Generative Accumulation of Photons ( http://arxiv.org/abs/2307.06607v2 )

ライセンス: Link先を確認
Alexander Krull, Hector Basevi, Benjamin Salmon, Andre Zeug, Franziska M\"uller, Samuel Tonks, Leela Muppala, Ales Leonardis(参考訳) ショットノイズ劣化画像とノイズ除去の新たな視点を提示する。 検出器格子上の光子の逐次蓄積として画像形成を見ることで、次の光子がどこに着くかを予測するために訓練されたネットワークが、実際は最小平均二乗誤差(MMSE)分解タスクを解決していることを示す。 この新たな視点は,3つのコントリビューションを可能にする。我々は,自己監督的認知のための新しい戦略を提示する。我々は,画像に少量の光子を反復サンプリングして,可能な解の後部からサンプリングする新しい方法を提案する。 この過程を空のキャンバスから始めることによって、完全な生成モデルを導出する。 我々はこのアプローチを光子の生成的蓄積(GAP)と呼ぶ。 本手法は4つの新しい蛍光顕微鏡データセットを定量的・定性的に評価し,コミュニティに公開する予定である。 教師付き,自己監督型,教師なしのベースラインを上回っているか,あるいはオンパーで実行する。

We present a fresh perspective on shot noise corrupted images and noise removal. By viewing image formation as the sequential accumulation of photons on a detector grid, we show that a network trained to predict where the next photon could arrive is in fact solving the minimum mean square error (MMSE) denoising task. This new perspective allows us to make three contributions: We present a new strategy for self-supervised denoising, We present a new method for sampling from the posterior of possible solutions by iteratively sampling and adding small numbers of photons to the image. We derive a full generative model by starting this process from an empty canvas. We call this approach generative accumulation of photons (GAP). We evaluate our method quantitatively and qualitatively on 4 new fluorescence microscopy datasets, which will be made available to the community. We find that it outperforms supervised, self-supervised and unsupervised baselines or performs on-par.
翻訳日:2023-08-02 17:08:18 公開日:2023-08-01
# SAS Video-QA: 効率的なビデオ質問応答のための自己適応サンプリング

SAS Video-QA: Self-Adaptive Sampling for Efficient Video Question-Answering ( http://arxiv.org/abs/2307.04192v3 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria(参考訳) ビデオ質問応答は、ビデオ理解の分野における基本的な課題である。ビデオ変換器を備えた現在の視覚言語モデル(VLM)では、時間的モデリングが可能であり、優れた結果が得られるが、計算能力の巨大なコストがかかるため、リアルタイムアプリケーションシナリオへのデプロイには高すぎる。 An economical workaround only samples a small portion of frames to represent the main content of that video and tune an image--text model on these sampled frames. Recent video understanding models usually randomly sample a set of frames or clips, regardless of internal correlations between their visual contents, nor their relevance to the problem. We argue that such kinds of aimless sampling may omit the key frames from which the correct answer can be deduced, and the situation gets worse when the sampling sparsity increases, which always happens as the video lengths increase. To mitigate this issue, we propose two frame sampling strategies, namely the most domain frames (MDF) and most implied frames (MIF), to maximally preserve those frames that are most likely vital to the given questions. MDF passively minimizes the risk of key frame omission in a bootstrap manner, while MIS actively searches key frames customized for each video--question pair with the assistance of auxiliary models. 3つの高度なVLM(CLIP, GIT, All-in-one)による3つの公開データセットに対する実験結果から,提案手法が画像テキスト事前学習モデルの性能を向上させることを示す。 本論文で提案されている手法に関するソースコードはhttps://github.com/declare-lab/sas-vqa.comで公開されている。

Video question--answering is a fundamental task in the field of video understanding. Although current vision--language models (VLMs) equipped with Video Transformers have enabled temporal modeling and yielded superior results, they are at the cost of huge computational power and thus too expensive to deploy in real-time application scenarios. An economical workaround only samples a small portion of frames to represent the main content of that video and tune an image--text model on these sampled frames. Recent video understanding models usually randomly sample a set of frames or clips, regardless of internal correlations between their visual contents, nor their relevance to the problem. We argue that such kinds of aimless sampling may omit the key frames from which the correct answer can be deduced, and the situation gets worse when the sampling sparsity increases, which always happens as the video lengths increase. To mitigate this issue, we propose two frame sampling strategies, namely the most domain frames (MDF) and most implied frames (MIF), to maximally preserve those frames that are most likely vital to the given questions. MDF passively minimizes the risk of key frame omission in a bootstrap manner, while MIS actively searches key frames customized for each video--question pair with the assistance of auxiliary models. The experimental results on three public datasets from three advanced VLMs (CLIP, GIT and All-in-one) demonstrate that our proposed strategies can boost the performance for image--text pretrained models. The source codes pertaining to the method proposed in this paper are publicly available at https://github.com/declare-lab/sas-vqa.
翻訳日:2023-08-02 17:08:04 公開日:2023-08-01
# 広い非調和ポテンシャルにおける粒子動力学のウィグナー解析

Wigner Analysis of Particle Dynamics in Wide Nonharmonic Potentials ( http://arxiv.org/abs/2307.14106v2 )

ライセンス: Link先を確認
Andreu Riera-Campeny and Marc Roda-Llordes and Piotr T. Grochowski and Oriol Romero-Isart(参考訳) 非調和ポテンシャルにおける粒子の1次元運動の時間発展を概ね記述したウィグナー関数の解析的表現を導出する。 この結果は、広いポテンシャルと小さなゆらぎ、すなわち初期状態の1つよりも大きな大きさの空間展開を可能にするが、関連する動的長さスケール(例えば、回転点間の距離)よりも小さく保たれるポテンシャルの配置において優れた近似を与える。 解析結果は,古典物理学と量子物理学の相互作用と非線形力学におけるデコヒーレンスの影響を解明する。 この解析結果は、非線形力学を用いて大規模粒子のマクロ量子状態を生成する提案を設計、最適化、理解するのに役立つ。

We derive an analytical expression of a Wigner function that approximately describes the time evolution of the one-dimensional motion of a particle in a nonharmonic potential. Our result provides an excellent approximation in the regime of wide potentials and small fluctuations, namely potentials that enable spatial expansions orders of magnitude larger than the one of the initial state but that remain smaller compared to the relevant dynamical length scale (e.g., distance between turning points). Our analytical result elucidates the interplay between classical and quantum physics and the impact of decoherence during nonlinear dynamics. This analytical result is instrumental to design, optimize and understand proposals using nonlinear dynamics to generate macroscopic quantum states of massive particles.
翻訳日:2023-08-02 16:59:23 公開日:2023-08-01
# 3dセマンティックサブスペーストラバーサ : 形状編集機能付き3d生成モデルの実現

3D Semantic Subspace Traverser: Empowering 3D Generative Model with Shape Editing Capability ( http://arxiv.org/abs/2307.14051v3 )

ライセンス: Link先を確認
Ruowei Wang, Yu Liu, Pei Su, Jianwei Zhang, Qijun Zhao(参考訳) 形状生成は、3dコンテンツ作成のための様々な表現として3d形状を生成する実践である。 従来の3次元形状生成の研究は、意味情報の重要性を考慮せずに、形状の質と構造に焦点を合わせてきた。 したがって、このような生成モデルは、しばしば、形状構造の意味的一貫性を維持したり、生成中の形状の意味的属性を操作できない。 本稿では,カテゴリ固有の3次元形状の生成と編集に意味属性を利用する3Dセマンティックサブスペーストラバーサという新しい意味生成モデルを提案する。 提案手法は3次元形状表現として暗黙関数を利用し,新しい潜在空間GANと線形部分空間モデルを組み合わせて,局所潜在空間における意味的次元を探索する。 部分空間の各次元は特定の意味属性に対応し、それらの次元の係数をトラバースすることで生成された形状の属性を編集することができる。 実験の結果,提案手法は複雑な構造を持つ妥当な形状を生成でき,意味属性の編集が可能となった。 コードとトレーニングされたモデルはhttps://github.com/trepangcat/3d_semantic_subspace_traverserで入手できる。

Shape generation is the practice of producing 3D shapes as various representations for 3D content creation. Previous studies on 3D shape generation have focused on shape quality and structure, without or less considering the importance of semantic information. Consequently, such generative models often fail to preserve the semantic consistency of shape structure or enable manipulation of the semantic attributes of shapes during generation. In this paper, we proposed a novel semantic generative model named 3D Semantic Subspace Traverser that utilizes semantic attributes for category-specific 3D shape generation and editing. Our method utilizes implicit functions as the 3D shape representation and combines a novel latent-space GAN with a linear subspace model to discover semantic dimensions in the local latent space of 3D shapes. Each dimension of the subspace corresponds to a particular semantic attribute, and we can edit the attributes of generated shapes by traversing the coefficients of those dimensions. Experimental results demonstrate that our method can produce plausible shapes with complex structures and enable the editing of semantic attributes. The code and trained models are available at https://github.com/TrepangCat/3D_Semantic_Subspace_Traverser
翻訳日:2023-08-02 16:59:09 公開日:2023-08-01
# AIDE: 補助駆動知覚のためのビジョン駆動型マルチビュー、マルチモーダル、マルチタスクデータセット

AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving Perception ( http://arxiv.org/abs/2307.13933v2 )

ライセンス: Link先を確認
Dingkang Yang, Shuai Huang, Zhi Xu, Zhenpeng Li, Shunli Wang, Mingcheng Li, Yuzheng Wang, Yang Liu, Kun Yang, Zhaoyu Chen, Yan Wang, Jing Liu, Peixuan Zhang, Peng Zhai, Lihua Zhang(参考訳) ドライバーの気晴らしは、過去10年間の交通事故の重要な原因となっている。 視覚駆動運転監視システムの開発が進んでいるにもかかわらず、包括的認識データセットの欠如は道路の安全と交通安全を制限している。 本稿では,車内と車外の両方の文脈情報を自然なシナリオで考察する,AIDE(AssIstive Driving pErception dataset)を提案する。 AIDEは、ドライバとシーンのマルチビュー設定、顔、体、姿勢、ジェスチャーのマルチモーダルアノテーション、理解を促進するための4つの実用的タスクデザインなど、三つの特徴を通じて、総合的なドライバー監視を促進する。 aideを徹底的に検討するために、広範囲なメソッドを通じて3種類のベースラインフレームワークに関する実験的なベンチマークを提供する。 さらに、2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。 また、AIDEおよびベンチマークにおけるキーコンポーネントの重要性と合理性についても系統的に検討する。 プロジェクトリンクはhttps://github.com/ydk122024/AIDE。

Driver distraction has become a significant cause of severe traffic accidents over the past decade. Despite the growing development of vision-driven driver monitoring systems, the lack of comprehensive perception datasets restricts road safety and traffic security. In this paper, we present an AssIstive Driving pErception dataset (AIDE) that considers context information both inside and outside the vehicle in naturalistic scenarios. AIDE facilitates holistic driver monitoring through three distinctive characteristics, including multi-view settings of driver and scene, multi-modal annotations of face, body, posture, and gesture, and four pragmatic task designs for driving understanding. To thoroughly explore AIDE, we provide experimental benchmarks on three kinds of baseline frameworks via extensive methods. Moreover, two fusion strategies are introduced to give new insights into learning effective multi-stream/modal representations. We also systematically investigate the importance and rationality of the key components in AIDE and benchmarks. The project link is https://github.com/ydk122024/AIDE.
翻訳日:2023-08-02 16:58:47 公開日:2023-08-01
# 多エージェント協調知覚のための時空間認識

Spatio-Temporal Domain Awareness for Multi-Agent Collaborative Perception ( http://arxiv.org/abs/2307.13929v2 )

ライセンス: Link先を確認
Kun Yang, Dingkang Yang, Jingyu Zhang, Mingcheng Li, Yang Liu, Jing Liu, Hanqi Wang, Peng Sun, Liang Song(参考訳) 車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自動運転車の知覚性能を著しく向上させる可能性がある。 しかし、この新たな研究で実用的な情報共有を実現する上で、いくつかの課題が残っている。 本稿では,道路上のエージェント間の時空間的認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。 具体的にはSCOPEには3つの異なる長所がある。 一 標的エージェントの現在の表現を高めるために、時間的文脈の効果的な意味的手がかりを考えること。 二 異種エージェントから知覚的に重要な空間情報を集約し、多スケールの特徴的相互作用による局在誤差を克服する。 三 適応融合パラダイムによる補完的貢献に基づいて、対象エージェントのマルチソース表現を統合すること。 スコープを徹底的に評価するために,3つのデータセット上での協調的3次元物体検出タスクの現実シナリオとシミュレーションシナリオの両方を検討する。 大規模な実験は、我々のアプローチの優位性と提案したコンポーネントの必要性を実証する。

Multi-agent collaborative perception as a potential application for vehicle-to-everything communication could significantly improve the perception performance of autonomous vehicles over single-agent perception. However, several challenges remain in achieving pragmatic information sharing in this emerging research. In this paper, we propose SCOPE, a novel collaborative perception framework that aggregates the spatio-temporal awareness characteristics across on-road agents in an end-to-end manner. Specifically, SCOPE has three distinct strengths: i) it considers effective semantic cues of the temporal context to enhance current representations of the target agent; ii) it aggregates perceptually critical spatial information from heterogeneous agents and overcomes localization errors via multi-scale feature interactions; iii) it integrates multi-source representations of the target agent based on their complementary contributions by an adaptive fusion paradigm. To thoroughly evaluate SCOPE, we consider both real-world and simulated scenarios of collaborative 3D object detection tasks on three datasets. Extensive experiments demonstrate the superiority of our approach and the necessity of the proposed components.
翻訳日:2023-08-02 16:58:28 公開日:2023-08-01
# PyTorch内部のバグに関する実証的研究

An Empirical Study on Bugs Inside PyTorch: A Replication Study ( http://arxiv.org/abs/2307.13777v2 )

ライセンス: Link先を確認
Sharon Chee Yin Ho and Vahid Majdinasab and Mohayeminul Islam and Diego Elias Costa and Emad Shihab and Foutse Khomh and Sarah Nadi and Muhammad Raza(参考訳) ソフトウェアシステムは、複雑なデータパターンを識別し、インテリジェントな振る舞いをパワーアップする際、ますますディープラーニングコンポーネントに依存している。 ソフトウェア開発におけるこの変更の主要な実現要因は、簡単に使えるディープラーニングライブラリの提供である。 PyTorchやTensorFlowといったライブラリは、さまざまなインテリジェントシステムに権限を与え、さまざまなアルゴリズムと設定オプションを提供し、多数のシステムのドメインに適用できる。 しかし、これらの人気のあるディープラーニングライブラリのバグは、それらを可能にするシステムの品質に希少な結果をもたらす可能性があるため、それらのライブラリでどのようにバグが特定され、修正されるかを理解することが重要である。 TensorFlowのバグ識別と修正プロセスを調査するJiaらの研究に触発されて、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けました。 PyTorchの開発中に発見されたバグの原因と症状を調査し,プロジェクトの局所性を評価し,バグ修正のパターンを抽出する。 結果は、pytorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに似ていることを強調する。 最後に、私たちの結果とTensorFlowの研究を比較し、バグ識別と修正プロセスの類似点と相違点を強調します。

Software systems are increasingly relying on deep learning components, due to their remarkable capability of identifying complex data patterns and powering intelligent behaviour. A core enabler of this change in software development is the availability of easy-to-use deep learning libraries. Libraries like PyTorch and TensorFlow empower a large variety of intelligent systems, offering a multitude of algorithms and configuration options, applicable to numerous domains of systems. However, bugs in those popular deep learning libraries also may have dire consequences for the quality of systems they enable; thus, it is important to understand how bugs are identified and fixed in those libraries. Inspired by a study of Jia et al., which investigates the bug identification and fixing process at TensorFlow, we characterize bugs in the PyTorch library, a very popular deep learning framework. We investigate the causes and symptoms of bugs identified during PyTorch's development, and assess their locality within the project, and extract patterns of bug fixes. Our results highlight that PyTorch bugs are more like traditional software projects bugs, than related to deep learning characteristics. Finally, we also compare our results with the study on TensorFlow, highlighting similarities and differences across the bug identification and fixing process.
翻訳日:2023-08-02 16:58:14 公開日:2023-08-01
# ビッグデータと情報技術の両面剣--オープンバンキングの注意点

The Double-Edged Sword of Big Data and Information Technology for the Disadvantaged: A Cautionary Tale from Open Banking ( http://arxiv.org/abs/2307.13408v2 )

ライセンス: Link先を確認
Savina Dine Kim and Galina Andreeva and Michael Rovatsos(参考訳) 本稿では、オープンバンキングを例として、一見中立なデータと機械学習(ML)のような強力な技術を組み合わせた公正性の隠れた含意を分析し、実証する。 オープンバンキングは金融サービスの革命に火をつけ、顧客獲得、管理、保持、リスク評価の新たな機会を開く。 しかし、トランザクションデータの粒度は、機密性や禁止された特性に対する未通知プロキシが間接的な差別につながる可能性がある場合の害の可能性を秘めている。 この背景から、新型コロナウイルスとインフレの増大による世界的な懸念である金融脆弱性(FV)の次元を調査する。 具体的には、公正な解釈のレンズを通して、FVにつながる行動要素とそのリスク、不利なグループへの影響を理解することを目的とする。 英国フィンテック銀行のユニークなデータセットを用いて、安全な使用法を同時に警告しながら、きめ細かいトランザクションデータのパワーを実証する。 FVの可能性を予測するために3つのML分類器を比較し、クラスタリングにより異なる大きさとFVの形式を示すグループを特定し、特徴組合せの効果を強調する。 以上の結果から,金融行動の工学的特徴は,個人情報の省略,特に機密性や保護特性を予測し,オープンバンキングデータの隠れた危険性に光を当てることが示唆された。 我々は,この新たな技術環境において,無意識による公平性は効果がないと結論づける。

This research article analyses and demonstrates the hidden implications for fairness of seemingly neutral data coupled with powerful technology, such as machine learning (ML), using Open Banking as an example. Open Banking has ignited a revolution in financial services, opening new opportunities for customer acquisition, management, retention, and risk assessment. However, the granularity of transaction data holds potential for harm where unnoticed proxies for sensitive and prohibited characteristics may lead to indirect discrimination. Against this backdrop, we investigate the dimensions of financial vulnerability (FV), a global concern resulting from COVID-19 and rising inflation. Specifically, we look to understand the behavioral elements leading up to FV and its impact on at-risk, disadvantaged groups through the lens of fair interpretation. Using a unique dataset from a UK FinTech lender, we demonstrate the power of fine-grained transaction data while simultaneously cautioning its safe usage. Three ML classifiers are compared in predicting the likelihood of FV, and groups exhibiting different magnitudes and forms of FV are identified via clustering to highlight the effects of feature combination. Our results indicate that engineered features of financial behavior can be predictive of omitted personal information, particularly sensitive or protected characteristics, shedding light on the hidden dangers of Open Banking data. We discuss the implications and conclude fairness via unawareness is ineffective in this new technological environment.
翻訳日:2023-08-02 16:57:55 公開日:2023-08-01
# MARIO:グラフコントラスト学習におけるOOD一般化のためのモデル非依存レシピ

MARIO: Model Agnostic Recipe for Improving OOD Generalization of Graph Contrastive Learning ( http://arxiv.org/abs/2307.13055v2 )

ライセンス: Link先を確認
Yun Zhu, Haizhou Shi, Zhenshuo Zhang, Siliang Tang(参考訳) 本研究では,教師なし学習法をグラフデータ上で一般化するood(out-of-distribution)の問題について検討する。 グラフニューラルネットワーク(gnn)はラベルが利用可能な場合でも、分布シフトに敏感であることが示されているため、このシナリオは特に難しい。 この課題に対処するために,我々は,unsupervised graph contrastive learning method のununderline{m}odel-\underline{a}gnostic \underline{r}ecipe for \underline{i}mproving \underline{o}od generalizability を提案する。 MARIOは、既存のフレームワークの限界を克服するために、分散シフトロストグラフの対照的な手法を開発するための2つの原則を紹介している。 一 汎用表現を達成するための情報ボトルネック(IB)原則及び (ii)不変表現を得るために逆データ拡張を組み込んだ不変原理。 我々の知る限りでは、これはノードレベルのタスクに特に焦点をあてたグラフ対照的学習のOOD一般化問題を調査する最初の研究である。 実験により,本手法はOODテストセット上での最先端性能を実証し,既存手法と比較した場合の分布内テストセットにおける同等性能を維持する。 私たちのメソッドのソースコードは、https://github.com/ZhuYun97/MARIOで確認できます。

In this work, we investigate the problem of out-of-distribution (OOD) generalization for unsupervised learning methods on graph data. This scenario is particularly challenging because graph neural networks (GNNs) have been shown to be sensitive to distributional shifts, even when labels are available. To address this challenge, we propose a \underline{M}odel-\underline{A}gnostic \underline{R}ecipe for \underline{I}mproving \underline{O}OD generalizability of unsupervised graph contrastive learning methods, which we refer to as MARIO. MARIO introduces two principles aimed at developing distributional-shift-robust graph contrastive methods to overcome the limitations of existing frameworks: (i) Information Bottleneck (IB) principle for achieving generalizable representations and (ii) Invariant principle that incorporates adversarial data augmentation to obtain invariant representations. To the best of our knowledge, this is the first work that investigates the OOD generalization problem of graph contrastive learning, with a specific focus on node-level tasks. Through extensive experiments, we demonstrate that our method achieves state-of-the-art performance on the OOD test set, while maintaining comparable performance on the in-distribution test set when compared to existing approaches. The source code for our method can be found at: https://github.com/ZhuYun97/MARIO
翻訳日:2023-08-02 16:57:28 公開日:2023-08-01
# emotionprompt: 感情刺激による大規模言語モデル強化のための心理学の活用

EmotionPrompt: Leveraging Psychology for Large Language Models Enhancement via Emotional Stimulus ( http://arxiv.org/abs/2307.11760v3 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Kaijie Zhu, Yixuan Zhang, Wenxin Hou, Jianxun Lian, Xing Xie(参考訳) 大規模言語モデル(LLM)は、推論、言語理解、数学問題解決など多くの分野で大きな成果を上げており、人工知能(AGI)にとって重要なステップと考えられている。 しかしながら、LSMのプロンプトに対する感受性は、日常的に採用する上で大きなボトルネックとなっている。 本稿では,心理学からインスピレーションを得て,情緒的インテリジェンスを探求し,LLMの性能を高めるための感情プロンプトを提案する。 EmotionPromptは、感情刺激をプロンプトに組み込むという、驚くほど単純な原理で機能する。 実験の結果,同一のプロンプトテンプレートを用いて,チャットgpt,vicuna-13b,bloom,t5の8つのタスクにおいて,感情プロンプトがオリジナルのゼロショットプロンプトとゼロショットコットを大きく上回ることがわかった。 さらに、感情プロンプトは真理性と情報性の両方を改善するために観察された。 我々は、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求するための新たな道のりであると信じている。

Large language models (LLMs) have achieved significant performance in many fields such as reasoning, language understanding, and math problem-solving, and are regarded as a crucial step to artificial general intelligence (AGI). However, the sensitivity of LLMs to prompts remains a major bottleneck for their daily adoption. In this paper, we take inspiration from psychology and propose EmotionPrompt to explore emotional intelligence to enhance the performance of LLMs. EmotionPrompt operates on a remarkably straightforward principle: the incorporation of emotional stimulus into prompts. Experimental results demonstrate that our EmotionPrompt, using the same single prompt templates, significantly outperforms original zero-shot prompt and Zero-shot-CoT on 8 tasks with diverse models: ChatGPT, Vicuna-13b, Bloom, and T5. Further, EmotionPrompt was observed to improve both truthfulness and informativeness. We believe that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for humans-LLMs interaction.
翻訳日:2023-08-02 16:57:02 公開日:2023-08-01
# SkullGAN: 生成逆ネットワークを用いた合成スカルCT生成

SkullGAN: Synthetic Skull CT Generation with Generative Adversarial Networks ( http://arxiv.org/abs/2308.00206v1 )

ライセンス: Link先を確認
Kasra Naftchi-Ardebili, Karanpartap Singh, Reza Pourabolghasem, Pejman Ghanouni, Gerald R. Popelka, Kim Butts Pauly(参考訳) 深層学習は、人間の頭蓋骨を含む様々な医療応用の可能性を秘めている。 この課題を克服するために、合成頭蓋骨ctスライスの大規模なデータセットを作成し、実際の画像への依存度を低減し、機械学習と医療の統合を加速する、ジェネレーティブ・リバーサリー・ネットワーク(gan)であるscradganを提案する。 提案手法では,38名の被験者のCTスライスを2億以上のパラメータからなるニューラルネットワークであるSkullGANに供給した。 合成頭蓋骨画像は, 頭蓋密度比(SDR), 平均厚さ, 平均強度の3つの定量的特徴に基づいて評価した。 さらに t-distributed stochastic neighbor embedded (t-SNE) を用いて解析し, SkullGAN 識別器を分類器として適用した。 その結果,SkullGANにより生成された画像は,実際の頭蓋骨に類似した定量的な特徴を示した。 さらに、SkullGANの判別器を適用し、SkullGANの判別器は実頭蓋骨画像の56.5%、SkullGAN生成画像の55.9%を実数として分類し(理論的最適値50%)、SkullGAN生成した頭蓋骨セットが実頭蓋骨セットと区別できないことを示した。 そのため、SkullGANは人間の頭蓋骨を含む医療応用のためのニューラルネットワークのトレーニングに必要な大量の合成頭蓋骨CTセグメントを生成することができる。 これにより、アクセス、資本、時間、ドメイン専門知識の必要性など、大規模で高品質なトレーニングデータセットの作成に伴う課題が軽減される。

Deep learning offers potential for various healthcare applications involving the human skull but requires extensive datasets of curated medical images. To overcome this challenge, we propose SkullGAN, a generative adversarial network (GAN), to create large datasets of synthetic skull CT slices, reducing reliance on real images and accelerating the integration of machine learning into healthcare. In our method, CT slices of 38 subjects were fed to SkullGAN, a neural network comprising over 200 million parameters. The synthetic skull images generated were evaluated based on three quantitative radiological features: skull density ratio (SDR), mean thickness, and mean intensity. They were further analyzed using t-distributed stochastic neighbor embedding (t-SNE) and by applying the SkullGAN discriminator as a classifier. The results showed that SkullGAN-generated images demonstrated similar key quantitative radiological features to real skulls. Further definitive analysis was undertaken by applying the discriminator of SkullGAN, where the SkullGAN discriminator classified 56.5% of a test set of real skull images and 55.9% of the SkullGAN-generated images as reals (the theoretical optimum being 50%), demonstrating that the SkullGAN-generated skull set is indistinguishable from the real skull set - within the limits of our nonlinear classifier. Therefore, SkullGAN makes it possible to generate large numbers of synthetic skull CT segments, necessary for training neural networks for medical applications involving the human skull. This mitigates challenges associated with preparing large, high-quality training datasets, such as access, capital, time, and the need for domain expertise.
翻訳日:2023-08-02 16:01:28 公開日:2023-08-01
# バイアスに指示:認知バイアスを排除した指導型言語モデル

Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias ( http://arxiv.org/abs/2308.00225v1 )

ライセンス: Link先を確認
Itay Itzhak, Gabriel Stanovsky, Nir Rosenfeld, Yonatan Belinkov(参考訳) 近年の研究では、人間のフィードバックから命令のチューニングと学習が、大言語モデル(lms)の能力を大幅に向上させることが示された。 これらのチューニング手法は、モデルに高品質なテキストを生成することができるが、より暗黙的な認知バイアスがこれらの微調整モデルに生じる可能性があると推測する。 我々の研究は、これらの微調整されたモデルは、事前訓練された前任者では、欠落または欠落しているバイアスを示す証拠を提供する。 この現象の程度を3つの認知バイアス(デコイ効果、確実性効果、信念バイアス)で検討し、いずれも人間の意思決定や推論に影響を与えることが知られている。 本研究は,Flan-T5,GPT3.5,GPT4などの指導訓練を受けたモデルにおいて,これらのバイアスの存在を強調した。 本研究は、より信頼性が高くバイアスのない言語モデルの開発に不可欠である、命令調整型LMにおける認知バイアスの理解に向けたステップを構成する。

Recent studies show that instruction tuning and learning from human feedback improve the abilities of large language models (LMs) dramatically. While these tuning methods can make models generate high-quality text, we conjecture that more implicit cognitive biases may arise in these fine-tuned models. Our work provides evidence that these fine-tuned models exhibit biases that were absent or less pronounced in their pretrained predecessors. We examine the extent of this phenomenon in three cognitive biases - the decoy effect, the certainty effect, and the belief bias - all of which are known to influence human decision-making and reasoning. Our findings highlight the presence of these biases in various models, especially those that have undergone instruction tuning, such as Flan-T5, GPT3.5, and GPT4. This research constitutes a step toward comprehending cognitive biases in instruction-tuned LMs, which is crucial for the development of more reliable and unbiased language models.
翻訳日:2023-08-02 15:53:18 公開日:2023-08-01
# 弱-強測定遷移に及ぼすスクイーズの影響

Influence of squeezing on the weak-to-strong measurement transition ( http://arxiv.org/abs/2308.00222v1 )

ライセンス: Link先を確認
Kevin Araya-Sossa and Miguel Orszag(参考訳) 本研究では,任意の測定値の観測可能な$a$を用いて,システムポインターカップリングを伴う遷移係数$\gamma$を介して,コヒーレントなスクイーズドポインタ状態の測定遷移について検討する。 さらに,ポインターの位置と運動量の変化は,条件付き期待値と同様に弱値を一般化する遷移値として定義される新しい値との関係を確立することを示す。 さらに、コヒーレント圧縮されたポインタ状態の$r$と$\phi_{\xi}$パラメータを調整するだけで異なる測定規則を達成するための新しい戦略を導入し、量子力学の基礎をテストする興味深い方法を開いた。 提案手法は,2色レーザービームを照射したトラップイオンに理論的に応用され,将来の実験装置で実装される可能性が高い。

In this work, we study the measurement transition for a coherent squeezed pointer state through a transition factor $\Gamma$ that involves a system-pointer coupling by using an arbitrary measured observable $A$. In addition, we show that the shift in the pointer's position and momentum establishes a relationship with a new value defined as the transition value, which generalizes the weak value as well as the conditional expectaction value. Furthermore, a new strategy is introduced to achieve different measurement regimes by just adjusting the $r$ and $\phi_{\xi}$ parameters of the coherent squeezed pointer state, opening an interesting way to test quantum mechanics foundations. Our scheme has been theoretically applied in a trapped ion illuminated by a bichromatic laser beam, with a high potential to be implemented in future experimental setups.
翻訳日:2023-08-02 15:53:00 公開日:2023-08-01
# 識別を超えた進化: 言語モデルのためのマルチビット透かし

Advancing Beyond Identification: Multi-bit Watermark for Language Models ( http://arxiv.org/abs/2308.00221v1 )

ライセンス: Link先を確認
KiYoon Yoo, Wonhyuk Ahn, Nojun Kwak(参考訳) 本研究の目的は,機械生成テキストの識別よりも,大規模言語モデルの誤用に積極的に取り組むことである。 既存の手法は検出に重点を置いているが、悪意のある誤用によっては、敵ユーザーの反作用を追跡する要求がある。 そこで本研究では,言語モデル生成中にトレーサブルなマルチビット情報を埋め込み,カラーリスト化によるマルチビット透かし(COLOR)を提案する。 ゼロビット透かし(Kirchenbauer et al., 2023a)の利点を生かして、COLORはモデルアクセスなしに抽出し、オンザフライで埋め込み、テキストの品質を維持し、同時にゼロビット検出を可能にする。 予備実験では、32ビットメッセージの91.9%の精度で中程度の長さのテキスト($500トークン)への埋め込みに成功した。 この研究は、言語モデルの誤用を効果的に対処するための戦略を推し進める。

This study aims to proactively tackle misuse of large language models beyond identification of machine-generated text. While existing methods focus on detection, some malicious misuses demand tracing the adversary user for counteracting them. To address this, we propose "Multi-bit Watermark through Color-listing" (COLOR), embedding traceable multi-bit information during language model generation. Leveraging the benefits of zero-bit watermarking (Kirchenbauer et al., 2023a), COLOR enables extraction without model access, on-the-fly embedding, and maintains text quality, while allowing zero-bit detection all at the same time. Preliminary experiments demonstrates successful embedding of 32-bit messages with 91.9% accuracy in moderate-length texts ($\sim$500 tokens). This work advances strategies to counter language model misuse effectively.
翻訳日:2023-08-02 15:52:44 公開日:2023-08-01
# 医療画像分割における結合損失の境界差

Boundary Difference Over Union Loss For Medical Image Segmentation ( http://arxiv.org/abs/2308.00220v1 )

ライセンス: Link先を確認
Fan Sun and Zhiming Luo and Shaozi Li(参考訳) 臨床診断には医用画像分割が不可欠である。 しかし, 医用画像分割における現在の損失は, 境界分割を導くために提案される損失が少なく, 全体分割結果に主眼を置いている。 存在するものは、しばしば他の損失と組み合わせて使用し、効果のない結果をもたらす必要がある。 この問題に対処するため,我々は,境界領域分割を導くために,結合損失(境界dou損失)の境界差と呼ばれる,単純かつ効果的な損失を開発した。 差分集合と部分交叉集合の和に対する予測と基底真理の差分集合の比率を計算して得られる。 私たちの損失はリージョンの計算にのみ依存するので、追加の損失を必要とせずに、実装やトレーニングが簡単になります。 さらに,境界領域に対する注意を適応的に調整するためにターゲットサイズを用いる。 UNet, TransUNet, Swin-UNetを2つのデータセット(ACDC, Synapse)で実験した結果, 損失関数の有効性が示された。 コードはhttps://github.com/sunfan-bvb/BoundaryDoULossで入手できる。

Medical image segmentation is crucial for clinical diagnosis. However, current losses for medical image segmentation mainly focus on overall segmentation results, with fewer losses proposed to guide boundary segmentation. Those that do exist often need to be used in combination with other losses and produce ineffective results. To address this issue, we have developed a simple and effective loss called the Boundary Difference over Union Loss (Boundary DoU Loss) to guide boundary region segmentation. It is obtained by calculating the ratio of the difference set of prediction and ground truth to the union of the difference set and the partial intersection set. Our loss only relies on region calculation, making it easy to implement and training stable without needing any additional losses. Additionally, we use the target size to adaptively adjust attention applied to the boundary regions. Experimental results using UNet, TransUNet, and Swin-UNet on two datasets (ACDC and Synapse) demonstrate the effectiveness of our proposed loss function. Code is available at https://github.com/sunfan-bvb/BoundaryDoULoss.
翻訳日:2023-08-02 15:52:29 公開日:2023-08-01
# 音方向マップを用いた多方向視聴覚ナビゲーション

Multi-goal Audio-visual Navigation using Sound Direction Map ( http://arxiv.org/abs/2308.00219v1 )

ライセンス: Link先を確認
Haru Kondoh and Asako Kanezaki(参考訳) 過去数年間、深層強化学習エージェントを用いた屋内環境におけるナビゲーションタスクに関する研究が盛んに行われている。 これらのタスクのほとんどは、一人称イメージの形式で視覚情報のみを使用して、1つの目標にナビゲートする。 近年では、視覚情報と聴覚情報を同時に使用して音源へのナビゲートを行うタスクや、複数の目標を持つナビゲーションタスクも提案されている。 しかし,複数の音源が目標である状況において,これらの2種類のタスクを組み合わせて視覚情報と聴覚情報を併用する汎用ナビゲーションタスクは提案されていない。 本稿では,この汎用タスクのための新しいフレームワークであるマルチゴールオーディオ・ビジュアルナビゲーションを提案する。 まず, 課題を詳細に定義し, 様々な状況で実験を行い, 現行のナビゲーションタスクと比較して, 複数方向の音声・視覚ナビゲーションタスクの難易度について検討する。 本研究は,複数方向の視聴覚ナビゲーションにおいて,音源の分離が暗黙的に必要であることを示す。 次に,この課題の難しさを軽減するために,過去の記憶を生かしながら,複数の音源を動的に局所化する音方向マップ (SDM) を提案する。 実験の結果,sdmの使用により,目標数に関わらず,複数のベースラインメソッドのパフォーマンスが著しく向上することがわかった。

Over the past few years, there has been a great deal of research on navigation tasks in indoor environments using deep reinforcement learning agents. Most of these tasks use only visual information in the form of first-person images to navigate to a single goal. More recently, tasks that simultaneously use visual and auditory information to navigate to the sound source and even navigation tasks with multiple goals instead of one have been proposed. However, there has been no proposal for a generalized navigation task combining these two types of tasks and using both visual and auditory information in a situation where multiple sound sources are goals. In this paper, we propose a new framework for this generalized task: multi-goal audio-visual navigation. We first define the task in detail, and then we investigate the difficulty of the multi-goal audio-visual navigation task relative to the current navigation tasks by conducting experiments in various situations. The research shows that multi-goal audio-visual navigation has the difficulty of the implicit need to separate the sources of sound. Next, to mitigate the difficulties in this new task, we propose a method named sound direction map (SDM), which dynamically localizes multiple sound sources in a learning-based manner while making use of past memories. Experimental results show that the use of SDM significantly improves the performance of multiple baseline methods, regardless of the number of goals.
翻訳日:2023-08-02 15:52:09 公開日:2023-08-01
# 階層型V2Gコーディネートを用いた深層強化学習型電池システム

Deep Reinforcement Learning-Based Battery Conditioning Hierarchical V2G Coordination for Multi-Stakeholder Benefits ( http://arxiv.org/abs/2308.00218v1 )

ライセンス: Link先を確認
Yubao Zhang, Xin Chen, Yi Gu, Zhicheng Li and Wu Kai(参考訳) 電気自動車(EV)の普及とEVエレクトロニクスの進歩に伴い、再生可能エネルギー利用と電力グリッド安定性を促進するために、V2G技術と大規模スケジューリング戦略が出現している。 本研究では, 深部強化学習(DRL)とProof of Stakeアルゴリズムに基づく多階層型階層型V2Gコーディネートを提案する。 さらに、マルチステークホルダには、電力グリッド、EVアグリゲータ(EVA)、ユーザが含まれており、提案した戦略はマルチステークホルダーのメリットを得ることができる。 グリッド側では負荷変動と再生可能エネルギー消費が考慮され、EVA側ではエネルギー制約と充電コストが考慮される。 電池SOXの3つの重要なバッテリコンディショニングパラメータは、充電状態、電力状態、健康状態を含むユーザ側で考慮される。 4つの典型的なベースラインと比較して、マルチステイクホルダ階層の協調戦略は、再生可能エネルギー消費量を増大させ、負荷変動を緩和し、evaのエネルギー需要を満たし、現実的な運用条件下での充電コストとバッテリーの劣化を低減することができる。

With the growing prevalence of electric vehicles (EVs) and advancements in EV electronics, vehicle-to-grid (V2G) techniques and large-scale scheduling strategies have emerged to promote renewable energy utilization and power grid stability. This study proposes a multi-stakeholder hierarchical V2G coordination based on deep reinforcement learning (DRL) and the Proof of Stake algorithm. Furthermore, the multi-stakeholders include the power grid, EV aggregators (EVAs), and users, and the proposed strategy can achieve multi-stakeholder benefits. On the grid side, load fluctuations and renewable energy consumption are considered, while on the EVA side, energy constraints and charging costs are considered. The three critical battery conditioning parameters of battery SOX are considered on the user side, including state of charge, state of power, and state of health. Compared with four typical baselines, the multi-stakeholder hierarchical coordination strategy can enhance renewable energy consumption, mitigate load fluctuations, meet the energy demands of EVA, and reduce charging costs and battery degradation under realistic operating conditions.
翻訳日:2023-08-02 15:51:48 公開日:2023-08-01
# tripartite-optomechanical systemにおけるスクイーズによる絡み合いの発生

Generation of entanglement via squeezing on a tripartite-optomechanical system ( http://arxiv.org/abs/2308.00216v1 )

ライセンス: Link先を確認
Kevin Araya-Sossa and Miguel Orszag(参考訳) 本研究では、量子エンタングルメントを量子ビットと共振器が直接結合した分散ハイブリッドシステムにおいて制御する新しい手法を提案する。 劇的な遷移は、振動モードに関連するスクイーズパラメータを調整するだけで起こる。 スクイーズ振幅が大きくなると、最大エンタングルメントは突然、特定のスクイーズ位相においてゼロになる。 この戦略を適用した後、キュービットキャビティ共振器システムから分割の絡み合わせを生成することもできる。 絡み合った qubit-cavity 状態は、直接相互作用がなくても、スクイーズによって生成される。 また,原子,光学的,振動的損失が量子絡み合いに与える影響を解析した。 最後に、これらの概念をすべて実装するための将来の実現について議論し、特に$(2 \otimes 2 \otimes n)$-dimensional の3成分系外における単元系の概念を一般化するためのさらなる研究を促進する。

We introduce a new strategy to regulate the quantum entanglement in a dispersive-hybrid system where a qubit is directly coupled to a cavity and a resonator. A dramatic transition takes place by only tuning the squeezing parameters associated with the vibrational mode. As the squeezing amplitude becomes larger, the maximal entanglement abruptly falls to zero at specific squeezing phases. It is also possible to generate entanglement for bipartitions from the qubit-cavity-resonator system after applying this strategy. Entangled qubit-cavity states are created through squeezing, even though there is no direct interaction between them. We also analyze the effect of atomic, optical, and vibrational losses on the quantum entanglement. Finally, we discuss future realizations to implement all these ideas and promote further studies to generalize the concept of monogamy in tripartite systems outside qubit-composite states, in particular, $(2 \otimes 2 \otimes n)$-dimensional systems.
翻訳日:2023-08-02 15:51:24 公開日:2023-08-01
# CHIPS法時代におけるタレントショートメントから労働力の卓越:国内チップ生産における持続可能未来のためのハーネスング産業4.0パラダイム

From Talent Shortage to Workforce Excellence in the CHIPS Act Era: Harnessing Industry 4.0 Paradigms for a Sustainable Future in Domestic Chip Production ( http://arxiv.org/abs/2308.00215v1 )

ライセンス: Link先を確認
Aida Damanpak Rizi (1), Antika Roy (1), Rouhan Noor (1), Hyo Kang (1), Nitin Varshney (1), Katja Jacob (2), Sindia Rivera-Jimenez (1), Nathan Edwards (3), Volker J. Sorger (1), Hamed Dalir (1), Navid Asadizanjani (1) ((1) University of Florida, Gainesville, FL, USA, (2) ZEISS Microscopy, Jena, Germany, (3) US Partnership for Assured Electronics (USPAE))(参考訳) CHIPS法は、国内チップ製造における自己持続可能な未来に向けて米国を推し進めている。 製造、組立、試験、包装のアウトソース化は労働環境を低下させ、CHIPS法の一部として半導体会社が新しい製造現場を建設するのに大きな制限を課している。 それに応えて、学術機関、産業、政府、様々なコンソーシアム、組織間の体系的な同盟が生まれ、次世代の才能を教育し、導入するためのパイプラインが確立された。 安定した連続的な人材の流れを確立するには、かなりの時間的投資が必要であり、特にアメリカの労働力のための現在の製造所における職場の望ましくない要因となる保証は不要である。 本稿では,産業4.0,自動化・拡張現実(AR)/バーチャルリアリティ(VR)の2つのパラダイムの実現可能性について検討し,現在進行中の労働開発を補完し,中核的な製造プロセスの触媒化による職場の嗜好性を最適化し,現在進行中の人材不足と先進的な包装に向けての道筋の中で,有望な能力を備えた教育・乗務・職業的領域を効果的に強化する。

The CHIPS Act is driving the U.S. towards a self-sustainable future in domestic chip production. Decades of outsourced manufacturing, assembly, testing, and packaging has diminished the workforce ecosystem, imposing major limitations on semiconductor companies racing to build new fabrication sites as part of the CHIPS Act. In response, a systemic alliance between academic institutions, the industry, government, various consortiums, and organizations has emerged to establish a pipeline to educate and onboard the next generation of talent. Establishing a stable and continuous flow of talent requires significant time investments and comes with no guarantees, particularly factoring in the low workplace desirability in current fabrication houses for U.S workforce. This paper will explore the feasibility of two paradigms of Industry 4.0, automation and Augmented Reality(AR)/Virtual Reality(VR), to complement ongoing workforce development efforts and optimize workplace desirability by catalyzing core manufacturing processes and effectively enhancing the education, onboarding, and professional realms-all with promising capabilities amid the ongoing talent shortage and trajectory towards advanced packaging.
翻訳日:2023-08-02 15:50:53 公開日:2023-08-01
# neural tuned tomography (nett) と masked neural radiance fields (mnerf) を用いたロバストな単視点コーンビームx線ポーズ推定

Robust Single-view Cone-beam X-ray Pose Estimation with Neural Tuned Tomography (NeTT) and Masked Neural Radiance Fields (mNeRF) ( http://arxiv.org/abs/2308.00214v1 )

ライセンス: Link先を確認
Chaochao Zhou, Syed Hasib Akhter Faruqui, Abhinav Patel, Ramez N. Abdalla, Michael C. Hurley, Ali Shaibani, Matthew B. Potts, Babak S. Jahromi, Leon Cho, Sameer A. Ansari, Donald R. Cantrell(参考訳) 画像誘導・ミニ侵襲的医療手順における多くのタスクは、X線投影を用いて3次元空間のターゲットに到達するポーズ推定問題としてキャストすることができる。 近年,RGBカメラビューの合成とポーズ推定において,光学反射材料の微分可能レンダリングの進歩により最先端の性能を実現している。 そこで本稿では,X線プロジェクションを用いた放射能オブジェクトのポーズ推定手法を導入し,このタスクにおける最適なビュー合成の重要性を実証する。 まず、Digitally Reconstructed Radiographs(DRR)を効率的に計算し、TensorFlow内の自動微分を利用するアルゴリズム(DiffDRR)を開発する。 従来のcbct再構成アルゴリズムと連動して,ランダム初期化ポーズから合成されたdrrと対象ポーズにおける真のフルオロスコープ画像との類似性を定量化する損失関数を用いて,勾配降下によるポーズ推定を行う。 我々は,高忠実度ビュー合成のための2つの新しい手法,NeTT(Neural Tuned Tomography)とマスク型Neural Radiance Fields(mNeRF)を提案する。 どちらの手法もCBCTに依存しており、NeTTはCBCT密度を直接最適化し、mNeRFの非ゼロ値はCBCTから区切られた解剖学的領域の3Dマスクによって制約される。 我々は、NeTTとmNeRFの両方が、我々のフレームワーク内でのポーズ推定を著しく改善することを示した。 3dg未満の3次元角度誤差でポーズ推定を成功させることで,NTTとmNeRFはいずれも93%以上の成功率で同様の結果が得られることがわかった。 さらに,1つの被験者に対してトレーニングしたNeTTは,高忠実度DRRを合成し,他の被験者に対してロバストなポーズ推定を行うことができることを示す。 したがって,NeTTは蛍光投射を用いたロバストポーズ推定の魅力的な選択肢である可能性が示唆された。

Many tasks performed in image-guided, mini-invasive, medical procedures can be cast as pose estimation problems, where an X-ray projection is utilized to reach a target in 3D space. Recent advances in the differentiable rendering of optically reflective materials have enabled state-of-the-art performance in RGB camera view synthesis and pose estimation. Expanding on these prior works, we introduce new methods for pose estimation of radiolucent objects using X-ray projections, and we demonstrate the critical role of optimal view synthesis in performing this task. We first develop an algorithm (DiffDRR) that efficiently computes Digitally Reconstructed Radiographs (DRRs) and leverages automatic differentiation within TensorFlow. In conjunction with classic CBCT reconstruction algorithms, we perform pose estimation by gradient descent using a loss function that quantifies the similarity of the DRR synthesized from a randomly initialized pose and the true fluoroscopic image at the target pose. We propose two novel methods for high-fidelity view synthesis, Neural Tuned Tomography (NeTT) and masked Neural Radiance Fields (mNeRF). Both methods rely on classic CBCT; NeTT directly optimizes the CBCT densities, while the non-zero values of mNeRF are constrained by a 3D mask of the anatomic region segmented from CBCT. We demonstrate that both NeTT and mNeRF distinctly improve pose estimation within our framework. By defining a successful pose estimate to be a 3D angle error of less than 3 deg, we find that NeTT and mNeRF can achieve similar results, both with overall success rates more than 93%. Furthermore, we show that a NeTT trained for a single subject can generalize to synthesize high-fidelity DRRs and ensure robust pose estimations for all other subjects. Therefore, we suggest that NeTT is an attractive option for robust pose estimation using fluoroscopic projections.
翻訳日:2023-08-02 15:50:12 公開日:2023-08-01
# シーン分離とデータ選択:リアルタイムビデオストリーム解析のための時間分割アルゴリズム

Scene Separation & Data Selection: Temporal Segmentation Algorithm for Real-Time Video Stream Analysis ( http://arxiv.org/abs/2308.00210v1 )

ライセンス: Link先を確認
Yuelin Xin, Zihan Zhou, Yuxuan Xia(参考訳) リアルタイムビデオストリームの解釈に使用される時間分割アルゴリズムである2SDS(Scene separation and Data Selection algorithm)を提案する。 ビデオで時間情報を利用するcnnベースのモデルを補完する。 2SDSは、2フレーム間の画像差を合成することにより、ビデオストリーム内のシーン間の変化を検出することができる。 ビデオをセグメント(シーン)に分割し、CNNモデルと組み合わせることで、2SDSはシーンごとに最適な結果を選択することができる。 本稿では,2SDSの背景となる基本的な手法と概念について論じるとともに,2SDSに関する予備実験結果を示す。 これらの実験で、2sdsは90%以上の精度を達成した。

We present 2SDS (Scene Separation and Data Selection algorithm), a temporal segmentation algorithm used in real-time video stream interpretation. It complements CNN-based models to make use of temporal information in videos. 2SDS can detect the change between scenes in a video stream by com-paring the image difference between two frames. It separates a video into segments (scenes), and by combining itself with a CNN model, 2SDS can select the optimal result for each scene. In this paper, we will be discussing some basic methods and concepts behind 2SDS, as well as presenting some preliminary experiment results regarding 2SDS. During these experiments, 2SDS has achieved an overall accuracy of over 90%.
翻訳日:2023-08-02 15:49:30 公開日:2023-08-01
# lgvit: 視覚トランスフォーマーを加速するダイナミック早期エグジット

LGViT: Dynamic Early Exiting for Accelerating Vision Transformer ( http://arxiv.org/abs/2308.00255v1 )

ライセンス: Link先を確認
Guanyu Xu, Jiawei Hao, Li Shen, Han Hu, Yong Luo, Hui Lin, Jialie Shen(参考訳) 近年,マルチメディアサービスを提供するためのリソース制限エッジデバイス上での強力な視覚変換器(ViT)の効率的な展開と高速化が注目されている。 早期退避は推論を加速するための実現可能なソリューションであるが、ほとんどの研究は自然言語処理(NLP)における畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルに焦点を当てている。 さらに, 早期終了法のViTへの直接適用により, 性能が著しく低下する可能性がある。 この課題に対処するために、我々はViTにおける早期終了の有効性を体系的に検討し、浅層内部分類器における特徴表現の不足と深層内部分類器における目標意味情報を捕捉する能力に制限があることを指摘した。 そこで我々は, 局所認識ヘッドとグローバルアグリゲーションヘッドという異種エグジットヘッドを組み込んだ, LGViT と呼ばれる一般 ViT の早期エグジットフレームワークを提案し, 効率・精度のトレードオフを実現する。 特に,2種類の頭部から抽出した大域的・局所的な情報の融合を促進するために,凍結した背骨によるエンドツーエンドのトレーニングと自己蒸留を含む新しい2段階のトレーニング手法を開発した。 3つのビジョンデータセット上で3つの人気のあるViTバックボーンを用いて広範な実験を行う。 その結果,LGViTは1.8ドル以上のスピードアップで競争性能を達成できることがわかった。

Recently, the efficient deployment and acceleration of powerful vision transformers (ViTs) on resource-limited edge devices for providing multimedia services have become attractive tasks. Although early exiting is a feasible solution for accelerating inference, most works focus on convolutional neural networks (CNNs) and transformer models in natural language processing (NLP).Moreover, the direct application of early exiting methods to ViTs may result in substantial performance degradation. To tackle this challenge, we systematically investigate the efficacy of early exiting in ViTs and point out that the insufficient feature representations in shallow internal classifiers and the limited ability to capture target semantic information in deep internal classifiers restrict the performance of these methods. We then propose an early exiting framework for general ViTs termed LGViT, which incorporates heterogeneous exiting heads, namely, local perception head and global aggregation head, to achieve an efficiency-accuracy trade-off. In particular, we develop a novel two-stage training scheme, including end-to-end training and self-distillation with the backbone frozen to generate early exiting ViTs, which facilitates the fusion of global and local information extracted by the two types of heads. We conduct extensive experiments using three popular ViT backbones on three vision datasets. Results demonstrate that our LGViT can achieve competitive performance with approximately 1.8 $\times$ speed-up.
翻訳日:2023-08-02 15:41:57 公開日:2023-08-01
# 一般化線形モデルのベストサブセット選択:スプライシング法による高速で一貫性のあるアルゴリズム

Best-Subset Selection in Generalized Linear Models: A Fast and Consistent Algorithm via Splicing Technique ( http://arxiv.org/abs/2308.00251v1 )

ライセンス: Link先を確認
Junxian Zhu, Jin Zhu, Borui Tang, Xuanyu Chen, Hongmei Lin, Xueqin Wang(参考訳) 高次元一般化線形モデルでは、応答変動を適切に考慮したスパースモデルを特定することが重要である。 最良の部分集合は、このタイプの問題の聖杯と見なされているが、計算効率または統計的保証を達成することは困難である。 本稿では,高速アルゴリズムを用いて高い精度で最適なサブセットを選択することにより,この障害を克服する。 正規性条件における最良部分集合回復アルゴリズムの提案と実演を行った。 軽度条件下では,本アルゴリズムの計算複雑性は,サンプルサイズと寸法で多項式的にスケールする。 提案手法の統計的特性を示すことに加えて,既存の変数選択法や係数推定法よりも優れた数値実験を行った。 実行時解析では,glmnetやncvregのような一般的な変数選択ツールキットと比較して,約4倍の高速化を実現している。

In high-dimensional generalized linear models, it is crucial to identify a sparse model that adequately accounts for response variation. Although the best subset section has been widely regarded as the Holy Grail of problems of this type, achieving either computational efficiency or statistical guarantees is challenging. In this article, we intend to surmount this obstacle by utilizing a fast algorithm to select the best subset with high certainty. We proposed and illustrated an algorithm for best subset recovery in regularity conditions. Under mild conditions, the computational complexity of our algorithm scales polynomially with sample size and dimension. In addition to demonstrating the statistical properties of our method, extensive numerical experiments reveal that it outperforms existing methods for variable selection and coefficient estimation. The runtime analysis shows that our implementation achieves approximately a fourfold speedup compared to popular variable selection toolkits like glmnet and ncvreg.
翻訳日:2023-08-02 15:41:33 公開日:2023-08-01
# 自己監督型画像デノイングのパワーを解き放つ:総合的なレビュー

Unleashing the Power of Self-Supervised Image Denoising: A Comprehensive Review ( http://arxiv.org/abs/2308.00247v1 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou, Yuanzhou Wei, Xiao Yang, Yuan Gu(参考訳) ディープラーニングの出現は、画像のデノイジング技術に革命的な変革をもたらした。 しかし、現実のシナリオにおける教師付き手法のためのノイズクリーンペアの獲得という永続的な課題は、より実践的な自己監督型イメージデノイングの探索を必要としている。 本稿では,この問題に対する効果的な解決法を提供する,自己教師付き画像分類法に着目した。 本総括的レビューでは,自己教師付き画像分割手法の最近の進歩を,一般法,ブラインドスポットネットワーク(bsn)に基づく方法,トランスフォーマティブ法という3つの異なるクラスに分類した。 各クラスについて,その実践的応用とともに簡潔な理論解析を提供する。 これらの手法の有効性を評価するため,古典的アルゴリズムをベンチマークとして,様々なデータセットに対して定量的および定性的な実験結果を示す。 また,本手法の限界を批判的に議論し,今後の研究に期待できる方向性を提案する。 自己監督型イメージデノベーションの最近の展開を概観することにより、このレビューはこの分野の研究者や実践者にとって貴重な情報源となり、この新興領域の理解を深め、さらなる進歩を促す。

The advent of deep learning has brought a revolutionary transformation to image denoising techniques. However, the persistent challenge of acquiring noise-clean pairs for supervised methods in real-world scenarios remains formidable, necessitating the exploration of more practical self-supervised image denoising. This paper focuses on self-supervised image denoising methods that offer effective solutions to address this challenge. Our comprehensive review thoroughly analyzes the latest advancements in self-supervised image denoising approaches, categorizing them into three distinct classes: General methods, Blind Spot Network (BSN)-based methods, and Transformer-based methods. For each class, we provide a concise theoretical analysis along with their practical applications. To assess the effectiveness of these methods, we present both quantitative and qualitative experimental results on various datasets, utilizing classical algorithms as benchmarks. Additionally, we critically discuss the current limitations of these methods and propose promising directions for future research. By offering a detailed overview of recent developments in self-supervised image denoising, this review serves as an invaluable resource for researchers and practitioners in the field, facilitating a deeper understanding of this emerging domain and inspiring further advancements.
翻訳日:2023-08-02 15:41:17 公開日:2023-08-01
# 特徴マスク型自動エンコーディングと感情伝達学習を用いた脳波に基づく認知負荷分類

EEG-based Cognitive Load Classification using Feature Masked Autoencoding and Emotion Transfer Learning ( http://arxiv.org/abs/2308.00246v1 )

ライセンス: Link先を確認
Dustin Pulver, Prithila Angkan, Paul Hungler, and Ali Etemad(参考訳) 認知的負荷(Cognitive Load)は、タスク完了に必要な精神的な労力の量であり、パフォーマンスと意思決定の成果において重要な役割を果たし、その分類と分析は様々な敏感な領域において不可欠である。 本稿では,脳波(eeg)を用いた認知負荷分類のための新しい解法を提案する。 本モデルでは,感情と認知負荷の伝達学習を用いたトランスフォーマーアーキテクチャを用いる。 感情関連脳波データセットの自己教師付きマスク自動エンコーディングと,凍った重みと微調整を併用した転送学習を用いて,下流の認知負荷分類を行う。 本手法を評価するために,脳波を用いた2つの感情データセット(SEEDとSEED-IV)を用いて事前学習を行い,CL-Driveデータセットを下流認知負荷分類に用いる。 実験の結果,提案手法は従来の単段階完全教師付き学習よりも優れた結果が得られることがわかった。 さらに,提案手法の異なる側面の影響を評価するため,詳細なアブレーションと感度の研究を行った。 本研究は,認知負荷に着目した情緒コンピューティングにおける文学の発展に寄与し,自己教師付き事前学習を用いたクロスドメイントランスファー学習の分野における新たな研究道を開く。

Cognitive load, the amount of mental effort required for task completion, plays an important role in performance and decision-making outcomes, making its classification and analysis essential in various sensitive domains. In this paper, we present a new solution for the classification of cognitive load using electroencephalogram (EEG). Our model uses a transformer architecture employing transfer learning between emotions and cognitive load. We pre-train our model using self-supervised masked autoencoding on emotion-related EEG datasets and use transfer learning with both frozen weights and fine-tuning to perform downstream cognitive load classification. To evaluate our method, we carry out a series of experiments utilizing two publicly available EEG-based emotion datasets, namely SEED and SEED-IV, for pre-training, while we use the CL-Drive dataset for downstream cognitive load classification. The results of our experiments show that our proposed approach achieves strong results and outperforms conventional single-stage fully supervised learning. Moreover, we perform detailed ablation and sensitivity studies to evaluate the impact of different aspects of our proposed solution. This research contributes to the growing body of literature in affective computing with a focus on cognitive load, and opens up new avenues for future research in the field of cross-domain transfer learning using self-supervised pre-training.
翻訳日:2023-08-02 15:40:56 公開日:2023-08-01
# The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models

The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models ( http://arxiv.org/abs/2308.00245v1 )

ライセンス: Link先を確認
Haonan Li, Yu Hao, Yizhuo Zhai, Zhiyun Qian(参考訳) 静的分析は、バグを特定し緩和するためのソフトウェア工学で広く使われているテクニックである。 しかし、大きなハードルは、精度とスケーラビリティの微妙なバランスを達成することである。 大規模言語モデル(LLM)は将来的な代替手段を提供する。最近の進歩は、コードを解釈、生成、デバッグする素晴らしい機能を示している。 しかし、バグのロジックは複雑で、洗練された推論と複数の関数にまたがる大きな分析範囲を必要とする。 したがって、この時点では、LLMは静的解析を補完する補助役としてよりよく使われる。 本稿では,LUM支援静的解析のオープンスペースを深く掘り下げ,Use-before-initialization (UBI) バグをケーススタディとして用いた。 この目的のために,静的解析ツールとLLMの両方を併用した完全自動化エージェントLLiftを開発した。 エージェントとプロンプトを慎重に設計することで、バグ固有のモデリング、大きな問題の範囲、LLMの非決定論的性質など、多くの課題を克服できます。 実世界のシナリオでテストされ、静的解析によって生成された1000近い潜在的なUBIバグを分析し、LLiftは極めて強力な能力を示し、高い精度(50%)とリコールレート(100%)を示す。 また、Linuxカーネルの13のUBIバグも特定している。 本研究は,LLMを用いた広範囲な実世界のデータセットのバグ発見における新たな機会と方法論の道を開くものである。

Static analysis is a widely used technique in software engineering for identifying and mitigating bugs. However, a significant hurdle lies in achieving a delicate balance between precision and scalability. Large Language Models (LLMs) offer a promising alternative, as recent advances demonstrate remarkable capabilities in comprehending, generating, and even debugging code. Yet, the logic of bugs can be complex and require sophisticated reasoning and a large analysis scope spanning multiple functions. Therefore, at this point, LLMs are better used in an assistive role to complement static analysis. In this paper, we take a deep dive into the open space of LLM-assisted static analysis, using use-before-initialization (UBI) bugs as a case study. To this end, we develop LLift, a fully automated agent that interfaces with both a static analysis tool and an LLM. By carefully designing the agent and the prompts, we are able to overcome a number of challenges, including bug-specific modeling, the large problem scope, the non-deterministic nature of LLMs, etc. Tested in a real-world scenario analyzing nearly a thousand potential UBI bugs produced by static analysis, LLift demonstrates an extremely potent capability, showcasing a high precision (50%) and recall rate (100%). It even identified 13 previously unknown UBI bugs in the Linux kernel. This research paves the way for new opportunities and methodologies in the use of LLMs for bug discovery in extensive, real-world datasets.
翻訳日:2023-08-02 15:40:33 公開日:2023-08-01
# 効率的な古代中国語訳に向けて:データセット、モデル、そして評価

Towards Effective Ancient Chinese Translation: Dataset, Model, and Evaluation ( http://arxiv.org/abs/2308.00240v1 )

ライセンス: Link先を確認
Geyang Guo, Jiarong Yang, Fengyuan Lu, Jiaxin Qin, Tianyi Tang, Wayne Xin Zhao(参考訳) 古代中国を解釈することは、広大な中国文学、伝統、文明を理解する鍵となった。 本稿では,古漢訳のためのエリヤを提案する。 データセットの観点からは、さまざまな資料から古代中国資料を収集、清浄し、分類し、現在まで最も広範な古代中国資料を形成する。 モデルの観点からは、古代中国を指向したeryaトレーニング手法を考案する。 本研究では,2つの共同作業タスクを設計する: disyllabic aligned substitution (DAS) と dual masked language model (DMLM) である。 評価の観点から, 古代中国語の翻訳品質を異なるシナリオで判断し, 既存モデルの古代中国語翻訳能力を評価するベンチマークを構築した。 GPT-3.5 モデルに対して +12.0 BLEU 以上の BLEU と ERNIE Bot よりも優れた評価結果が得られた。 その後の微調整は、+6.2 bleuゲインを持つeryaモデルの優れた転送能力を示す。 上記のリソースはすべてhttps://github.com/RUCAIBox/Erya.comでリリースしています。

Interpreting ancient Chinese has been the key to comprehending vast Chinese literature, tradition, and civilization. In this paper, we propose Erya for ancient Chinese translation. From a dataset perspective, we collect, clean, and classify ancient Chinese materials from various sources, forming the most extensive ancient Chinese resource to date. From a model perspective, we devise Erya training method oriented towards ancient Chinese. We design two jointly-working tasks: disyllabic aligned substitution (DAS) and dual masked language model (DMLM). From an evaluation perspective, we build a benchmark to judge ancient Chinese translation quality in different scenarios and evaluate the ancient Chinese translation capacities of various existing models. Our model exhibits remarkable zero-shot performance across five domains, with over +12.0 BLEU against GPT-3.5 models and better human evaluation results than ERNIE Bot. Subsequent fine-tuning further shows the superior transfer capability of Erya model with +6.2 BLEU gain. We release all the above-mentioned resources at https://github.com/RUCAIBox/Erya.
翻訳日:2023-08-02 15:40:06 公開日:2023-08-01
# 高密度ピラミッドトランスフォーマによる分割塩分ランキング

Partitioned Saliency Ranking with Dense Pyramid Transformers ( http://arxiv.org/abs/2308.00236v1 )

ライセンス: Link先を確認
Chengxiao Sun, Yan Xu, Jialun Pei, Haopeng Fang and He Tang(参考訳) 近年、インスタンスレベルでの給与の程度を評価することに焦点を当てた課題として、給与ランキングが登場している。 主観的でありながら、人間でさえ、すべての有能な事例の正確な順序を特定するのに苦労する。 従来のアプローチでは、固有の曖昧さを明示的に解決していない有能なインスタンスのランクスコアを直接ソートすることで、サリエンシのランク付けを行っている。 この制限を克服するため,我々は,未注文のsalientインスタンスをパーティショニングに分割し,それらのパーティション間の相関関係に基づいてランク付けするパーティショニングパラダイムを提案する。 分割パラダイムによるランキングは、他のサリエンシーランキングモデルのパフォーマンスを一貫して改善するため、一般的な意味では曖昧さを緩和する。 さらに,大域的なクロススケールインタラクションを実現するために,高密度ピラミッドトランスフォーマ (dpt) を導入する。 広範な実験により、我々のアプローチが既存の手法よりも優れていることが証明された。 我々のメソッドのコードは \url{https://github.com/ssecv/PSR} で入手できる。

In recent years, saliency ranking has emerged as a challenging task focusing on assessing the degree of saliency at instance-level. Being subjective, even humans struggle to identify the precise order of all salient instances. Previous approaches undertake the saliency ranking by directly sorting the rank scores of salient instances, which have not explicitly resolved the inherent ambiguities. To overcome this limitation, we propose the ranking by partition paradigm, which segments unordered salient instances into partitions and then ranks them based on the correlations among these partitions. The ranking by partition paradigm alleviates ranking ambiguities in a general sense, as it consistently improves the performance of other saliency ranking models. Additionally, we introduce the Dense Pyramid Transformer (DPT) to enable global cross-scale interactions, which significantly enhances feature interactions with reduced computational burden. Extensive experiments demonstrate that our approach outperforms all existing methods. The code for our method is available at \url{https://github.com/ssecv/PSR}.
翻訳日:2023-08-02 15:39:46 公開日:2023-08-01
# Capsa: ディープニューラルネットワークのリスクを定量化する統一フレームワーク

Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks ( http://arxiv.org/abs/2308.00231v1 )

ライセンス: Link先を確認
Sadhana Lolla, Iaroslav Elistratov, Alejandro Perez, Elaheh Ahmadi, Daniela Rus, Alexander Amini(参考訳) 大規模ディープニューラルネットワーク(NN)の現代的普及は、複雑な問題に対する異常なパフォーマンスによってもたらされるが、特に困難なシナリオにおいて、突然、予期せぬ、しばしば破滅的な失敗に悩まされている。 NNにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。 具体的には、これらの手法は重要なエンジニアリング変更を必要とし、しばしば特定の設定のためにのみ開発され、簡単には構成できない。 ここではリスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介する。 capsaは、さまざまなリスクメトリクスを並列に定量化するために、複数の形式のリスクを定量化し、異なるアルゴリズムを組み合わせるための方法論を提供する。 capsaフレームワーク内で最先端の不確実性推定アルゴリズムを実装し、複雑な知覚データセットにベンチマークすることで、capsaを検証する。 そこで本研究では,capsa が aleatoric uncertainty, epistemic uncertainty, bias estimation を単一手続きで容易に構成できることを示し,このアプローチがnn リスクの包括的認識にどのように寄与するかを示す。

The modern pervasiveness of large-scale deep neural networks (NNs) is driven by their extraordinary performance on complex problems but is also plagued by their sudden, unexpected, and often catastrophic failures, particularly on challenging scenarios. Existing algorithms that provide risk-awareness to NNs are complex and ad-hoc. Specifically, these methods require significant engineering changes, are often developed only for particular settings, and are not easily composable. Here we present capsa, a framework for extending models with risk-awareness. Capsa provides a methodology for quantifying multiple forms of risk and composing different algorithms together to quantify different risk metrics in parallel. We validate capsa by implementing state-of-the-art uncertainty estimation algorithms within the capsa framework and benchmarking them on complex perception datasets. We demonstrate capsa's ability to easily compose aleatoric uncertainty, epistemic uncertainty, and bias estimation together in a single procedure, and show how this approach provides a comprehensive awareness of NN risk.
翻訳日:2023-08-02 15:39:28 公開日:2023-08-01
# シーン・セマンティック特徴を用いたマルチモーダル感情認識

Using Scene and Semantic Features for Multi-modal Emotion Recognition ( http://arxiv.org/abs/2308.00228v1 )

ライセンス: Link先を確認
Zhifeng Wang and Ramesh Sankaranarayana(参考訳) 感情の自動認識は、幅広い応用のホットトピックである。 近年、感情の自動認識の分野で多くの研究がなされている。 この目的のために、主に発話、表情、ポーズといった人の特徴を使うことに焦点が当てられている。 しかし,情緒認識のためのシーン処理や意味的特徴の探索は限定的であった。 本稿では,マルチモーダル感情認識にシーンと意味的特徴,および個人的特徴を併用する手法を提案する。 シーン機能は、対象者が操作している環境やコンテキストを記述する。 セマンティクス機能は、環境に存在するオブジェクトと、その属性と対象者との関係を含むことができる。 さらに、修正されたEmbraceNetを使用して、画像から特徴を抽出し、身体と特徴を同時に学習するように訓練する。 身体とポーズの両方の特徴を融合させることで、特に部分的に欠落したデータを扱う場合のモデルの正確性と堅牢性を向上させることができる。 これは、身体とポーズの両方の特徴を持つことで、画像中の被写体をより完全に表現できるため、身体の一部が欠けた場合でも、モデルがより正確な予測を行うのに役立つためである。 ベンチマークEMOTICデータセット上で,本手法の有効性を示す。 感情カテゴリー26種の平均精度は40.39 %であり,従来のアプローチに比べて5 % 向上している。

Automatic emotion recognition is a hot topic with a wide range of applications. Much work has been done in the area of automatic emotion recognition in recent years. The focus has been mainly on using the characteristics of a person such as speech, facial expression and pose for this purpose. However, the processing of scene and semantic features for emotion recognition has had limited exploration. In this paper, we propose to use combined scene and semantic features, along with personal features, for multi-modal emotion recognition. Scene features will describe the environment or context in which the target person is operating. The semantic feature can include objects that are present in the environment, as well as their attributes and relationships with the target person. In addition, we use a modified EmbraceNet to extract features from the images, which is trained to learn both the body and pose features simultaneously. By fusing both body and pose features, the EmbraceNet can improve the accuracy and robustness of the model, particularly when dealing with partially missing data. This is because having both body and pose features provides a more complete representation of the subject in the images, which can help the model to make more accurate predictions even when some parts of body are missing. We demonstrate the efficiency of our method on the benchmark EMOTIC dataset. We report an average precision of 40.39\% across the 26 emotion categories, which is a 5\% improvement over previous approaches.
翻訳日:2023-08-02 15:39:08 公開日:2023-08-01
# 建築設計のためのAI駆動パラメトリックモデリングとBIMの実験

Experiments on Generative AI-Powered Parametric Modeling and BIM for Architectural Design ( http://arxiv.org/abs/2308.00227v1 )

ライセンス: Link先を確認
Jaechang Ko, John Ajibefun, Wei Yan(参考訳) 本稿では、ChatGPTやVerasなどの生成AIツールをパラメトリックモデリングとビルディングインフォメーションモデリング(BIM)で活用し、設計プロセスを強化する新しいアーキテクチャ設計フレームワークを提案する。 この研究は、3Dアーキテクチャ設計におけるChatGPTと生成AIの可能性を実験し、テキストおよび2D画像生成における使用を超えて拡張した。 提案されたフレームワークは、アーキテクトとAIのコラボレーションを促進し、設計アイデアの迅速な探索と、コンテキストに敏感で創造的な設計生成を促進する。 スクリプトのためのChatGPTと、広く使われているパラメトリックモデリングとBIMツールでデザインアイデアを生成するVerasを統合することで、設計意図を伝える直感的で強力な方法がアーキテクトに提供され、より効率的で創造的で協調的なデザインプロセスが実現される。

This paper introduces a new architectural design framework that utilizes generative AI tools including ChatGPT and Veras with parametric modeling and Building Information Modeling (BIM) to enhance the design process. The study experiments with the potential of ChatGPT and generative AI in 3D architectural design, extending beyond its use in text and 2D image generation. The proposed framework promotes collaboration between architects and AI, facilitating a quick exploration of design ideas and producing context-sensitive, creative design generation. By integrating ChatGPT for scripting and Veras for generating design ideas with widely used parametric modeling and BIM tools, the framework provides architects with an intuitive and powerful method to convey design intent, leading to more efficient, creative, and collaborative design processes.
翻訳日:2023-08-02 15:38:46 公開日:2023-08-01
# 複合データセットに適用したデータ協調分析と非iid設定への投影データの導入

Data Collaboration Analysis applied to Compound Datasets and the Introduction of Projection data to Non-IID settings ( http://arxiv.org/abs/2308.00280v1 )

ライセンス: Link先を確認
Akihiro Mizoguchi, Anna Bogdanova, Akira Imakura, and Tetsuya Sakurai(参考訳) 薬物の市場投入にかかる時間と費用を考えると、機械学習を用いてその構造に基づく化合物の性質を予測するための研究が数多く行われている。 フェデレーション学習は、予測精度を高めるために複合データセットに適用され、潜在的にプロプライエタリな情報を保護している。 しかし、フェデレートされた学習は、同一かつ独立に分散されていない(非IID)設定、すなわち、データのパーティショニングは大きなラベルバイアスを持ち、大きなラベルバイアスを持つ傾向がある複合データセットには適さないと考えられている。 この制限に対処するために、我々は分散機械学習の代替手法を用いて、DC(Data collaboration analysis)と呼ばれるオープンソースからの複合データを化学化した。 また、補助的なPubChemデータを利用した改良手法であるプロジェクションデータ(DCPd)を用いたデータ協調分析も提案した。 これにより、中間表現の作成のための投影データに対する個々のユーザ側データ変換の品質が向上する。 フェデレーション平均化法(federated averaging, fedavg, dc, dcpd)の受信者動作特性曲線(roc-auc)と精度リコール曲線(pr-auc)におけるaucの分類精度を5つの複合データセットで比較した。 非IID設定の機械学習性能はDCPd,DC,FedAvgの順であるが,同一かつ独立に分散したIID設定ではほぼ同じであった。 また, 他の手法と比較して, ラベルバイアスの程度が異なる実験において, dcpdは分類精度が無視できない低下を示した。 このように、dcpdは、連合学習の課題の一つである非iid設定における低パフォーマンスに対処することができる。

Given the time and expense associated with bringing a drug to market, numerous studies have been conducted to predict the properties of compounds based on their structure using machine learning. Federated learning has been applied to compound datasets to increase their prediction accuracy while safeguarding potentially proprietary information. However, federated learning is encumbered by low accuracy in not identically and independently distributed (non-IID) settings, i.e., data partitioning has a large label bias, and is considered unsuitable for compound datasets, which tend to have large label bias. To address this limitation, we utilized an alternative method of distributed machine learning to chemical compound data from open sources, called data collaboration analysis (DC). We also proposed data collaboration analysis using projection data (DCPd), which is an improved method that utilizes auxiliary PubChem data. This improves the quality of individual user-side data transformations for the projection data for the creation of intermediate representations. The classification accuracy, i.e., area under the curve in the receiver operating characteristic curve (ROC-AUC) and AUC in the precision-recall curve (PR-AUC), of federated averaging (FedAvg), DC, and DCPd was compared for five compound datasets. We determined that the machine learning performance for non-IID settings was in the order of DCPd, DC, and FedAvg, although they were almost the same in identically and independently distributed (IID) settings. Moreover, the results showed that compared to other methods, DCPd exhibited a negligible decline in classification accuracy in experiments with different degrees of label bias. Thus, DCPd can address the low performance in non-IID settings, which is one of the challenges of federated learning.
翻訳日:2023-08-02 15:33:28 公開日:2023-08-01
# 雑音負サンプル自己補正によるロバスト正無ラベル学習

Robust Positive-Unlabeled Learning via Noise Negative Sample Self-correction ( http://arxiv.org/abs/2308.00279v1 )

ライセンス: Link先を確認
Zhangchi Zhu, Lu Wang, Pu Zhao, Chao Du, Wei Zhang, Hang Dong, Bo Qiao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang(参考訳) ポジティブでラベルのないデータからの学習は、文学におけるポジティブ・アンラベル(pu)学習として知られているが、近年は注目を集めている。 pu学習における一般的なアプローチは、ラベルのないデータから偽陰性のセットをアドホックしきい値を使ってサンプリングすることで、従来の教師あり手法を正と負の両方のサンプルに適用できる。 ラベルなしデータのラベルの不確実性のため、ラベルなし陽性サンプルを否定的なサンプルとして誤分類する誤りが必然的に現れ、トレーニングプロセス中に蓄積する可能性がある。 これらのエラーは、しばしばパフォーマンスの低下とモデルの不安定につながる。 ラベルの不確実性の影響を軽減し,正およびラベルのないデータによる学習の堅牢性を向上させるために,人間の学習の性質に動機づけられた学習戦略を取り入れた,堅牢なPU学習手法を提案する。 同様の直感は、カリキュラム学習において、より複雑なケースを導入する前に、訓練の初期段階で簡単なケースのみを使用するために利用されてきた。 具体的には,ラベルノイズが大きいラベルなしのサンプルと,ラベルなしのサンプルを高い確率で識別するために,新しい「ハードネス」尺度を用いる。 次に、反復的なトレーニング戦略により、トレーニングプロセス中の負のサンプルの選択を反復的に微調整し、トレーニングの初期段階により多くの `easy'' サンプルを含める。 幅広い学習課題に対する大規模な実験的検証は、この手法が正および未ラベルのデータによる学習の精度と安定性を効果的に改善できることを示している。 私たちのコードはhttps://github.com/woriazzc/Robust-PUで利用可能です。

Learning from positive and unlabeled data is known as positive-unlabeled (PU) learning in literature and has attracted much attention in recent years. One common approach in PU learning is to sample a set of pseudo-negatives from the unlabeled data using ad-hoc thresholds so that conventional supervised methods can be applied with both positive and negative samples. Owing to the label uncertainty among the unlabeled data, errors of misclassifying unlabeled positive samples as negative samples inevitably appear and may even accumulate during the training processes. Those errors often lead to performance degradation and model instability. To mitigate the impact of label uncertainty and improve the robustness of learning with positive and unlabeled data, we propose a new robust PU learning method with a training strategy motivated by the nature of human learning: easy cases should be learned first. Similar intuition has been utilized in curriculum learning to only use easier cases in the early stage of training before introducing more complex cases. Specifically, we utilize a novel ``hardness'' measure to distinguish unlabeled samples with a high chance of being negative from unlabeled samples with large label noise. An iterative training strategy is then implemented to fine-tune the selection of negative samples during the training process in an iterative manner to include more ``easy'' samples in the early stage of training. Extensive experimental validations over a wide range of learning tasks show that this approach can effectively improve the accuracy and stability of learning with positive and unlabeled data. Our code is available at https://github.com/woriazzc/Robust-PU
翻訳日:2023-08-02 15:32:57 公開日:2023-08-01
# クラスはクラスタではない:次元削減のラベルベース評価の改善

Classes are not Clusters: Improving Label-based Evaluation of Dimensionality Reduction ( http://arxiv.org/abs/2308.00278v1 )

ライセンス: Link先を確認
Hyeon Jeon, Yun-Hsin Kuo, Micha\"el Aupetit, Kwan-Liu Ma, and Jinwook Seo(参考訳) 次元還元(dr)埋め込みの信頼性を評価する一般的な方法は、ラベル付きクラスがどのようにコンパクトで互いに分離されたクラスタを形成するかを定量化することである。 このアプローチは、クラスが元の高次元空間のクリアクラスタとして残るという仮定に基づいている。 しかし実際には、この仮定に違反する可能性がある。単一のクラスを複数のクラスタに分割することができ、複数のクラスをひとつのクラスタにマージすることができる。 したがって、クラスラベルを用いた評価の信頼性を常に保証することはできない。 本稿では,ラベル信頼性とラベル連続性(label-t&c)という2つの新しい品質指標を提案する。 クラスが元の空間で十分にクラスタ化されていると仮定する代わりに、ラベル・T&Cは(1)元の空間と埋め込み空間においてクラスがクラスタを形成する程度を推定し、(2)両者の違いを評価する。 定量的評価により, DRの埋込みがクラスタ構造をどれだけよく保存するかを評価する上で, DR評価尺度(例えば, 信頼性と継続性, Kullback-Leibler の偏差など)が広く用いられている。 さらに, DR法とそのハイパーパラメータの内在特性を明らかにするために, Label-T&C が有効であることを示す事例研究を行った。

A common way to evaluate the reliability of dimensionality reduction (DR) embeddings is to quantify how well labeled classes form compact, mutually separated clusters in the embeddings. This approach is based on the assumption that the classes stay as clear clusters in the original high-dimensional space. However, in reality, this assumption can be violated; a single class can be fragmented into multiple separated clusters, and multiple classes can be merged into a single cluster. We thus cannot always assure the credibility of the evaluation using class labels. In this paper, we introduce two novel quality measures -- Label-Trustworthiness and Label-Continuity (Label-T&C) -- advancing the process of DR evaluation based on class labels. Instead of assuming that classes are well-clustered in the original space, Label-T&C work by (1) estimating the extent to which classes form clusters in the original and embedded spaces and (2) evaluating the difference between the two. A quantitative evaluation showed that Label-T&C outperform widely used DR evaluation measures (e.g., Trustworthiness and Continuity, Kullback-Leibler divergence) in terms of the accuracy in assessing how well DR embeddings preserve the cluster structure, and are also scalable. Moreover, we present case studies demonstrating that Label-T&C can be successfully used for revealing the intrinsic characteristics of DR techniques and their hyperparameters.
翻訳日:2023-08-02 15:32:28 公開日:2023-08-01
# 対称および因子群不変関数に対する普遍的アーキテクチャによるワッサーシュタイン距離のニューラル近似

Neural approximation of Wasserstein distance via a universal architecture for symmetric and factorwise group invariant functions ( http://arxiv.org/abs/2308.00273v1 )

ライセンス: Link先を確認
Samantha Chen, Yusu Wang(参考訳) 複雑なオブジェクト間の距離関数(wasserstein距離など)を学習することは、機械学習アプリケーションにおいて共通の目標である。 しかし、そのような複素対象(例えば点集合やグラフ)上の函数は、しばしば、置換や剛変換のような様々な群作用に不変であることが求められる。 したがって、そのような複素対象上の連続かつ対称な積函数(例えば距離函数)もそのような群作用の積に不変でなければならない。 これらの関数を対称的および因子的群不変量(あるいは略して SFGI 関数)と呼ぶ。 本稿ではまず,SFGI関数を近似する汎用ニューラルネットワークアーキテクチャを提案する。 本論文の主な貢献は、この一般的なニューラルネットワークとスケッチのアイデアを組み合わせることで、ポイントセット間の$p$-th wasserstein距離を近似できる特定かつ効率的なニューラルネットワークを開発することである。 非常に重要なことに、必要となるモデルの複雑さは入力点集合のサイズに依存しない。 理論的には、我々の知る限りでは、これはモデル複雑性の有界なワッサースタイン距離を近似する能力を持つニューラルネットワークが存在することを示す最初の結果である。 本研究は対称関数の普遍近似を用いた幾何学問題に対するスケッチアイデアの興味深い統合を提供する。 実験的な面から、我々は新たに提案したニューラルネットワークアーキテクチャが他のモデル(SOTA Siamese Autoencoderベースのアプローチを含む)よりも比較的高い性能を示すことを示す。 特に、私たちのニューラルネットワークは、SOTA Siamese AEよりもはるかに高速で一般化し、訓練を行ないます。 最後に、この一連の調査は、幅広い幾何学的最適化問題(例えば、計量空間における$k$-means)を解決する効果的なニューラルネットワーク設計の探求に有用である。

Learning distance functions between complex objects, such as the Wasserstein distance to compare point sets, is a common goal in machine learning applications. However, functions on such complex objects (e.g., point sets and graphs) are often required to be invariant to a wide variety of group actions e.g. permutation or rigid transformation. Therefore, continuous and symmetric product functions (such as distance functions) on such complex objects must also be invariant to the product of such group actions. We call these functions symmetric and factor-wise group invariant (or SFGI functions in short). In this paper, we first present a general neural network architecture for approximating SFGI functions. The main contribution of this paper combines this general neural network with a sketching idea to develop a specific and efficient neural network which can approximate the $p$-th Wasserstein distance between point sets. Very importantly, the required model complexity is independent of the sizes of input point sets. On the theoretical front, to the best of our knowledge, this is the first result showing that there exists a neural network with the capacity to approximate Wasserstein distance with bounded model complexity. Our work provides an interesting integration of sketching ideas for geometric problems with universal approximation of symmetric functions. On the empirical front, we present a range of results showing that our newly proposed neural network architecture performs comparatively or better than other models (including a SOTA Siamese Autoencoder based approach). In particular, our neural network generalizes significantly better and trains much faster than the SOTA Siamese AE. Finally, this line of investigation could be useful in exploring effective neural network design for solving a broad range of geometric optimization problems (e.g., $k$-means in a metric space).
翻訳日:2023-08-02 15:32:00 公開日:2023-08-01
# 超高精細画像反射除去ベンチマーク

Benchmarking Ultra-High-Definition Image Reflection Removal ( http://arxiv.org/abs/2308.00265v1 )

ライセンス: Link先を確認
Zhenyuan Zhang, Zhenbo Song, Kaihao Zhang, Wenhan Luo, Zhaoxin Fan, Jianfeng Lu(参考訳) 深層学習に基づく手法は、単一画像反射除去(SIRR)の課題において大きな成功を収めた。 しかし、これらの手法の大部分は高精細/標準精細(hd/sd)画像に焦点を合わせ、超精細(uhd)画像のような高精細画像は無視している。 本稿では,現代のデバイスが捉えたUHD画像の普及に伴い,UHD SIRRの問題点に対処することを目的とする。 具体的には,UHDRR4KとUHDRR8Kという2つの大規模UHDデータセットを合成する。 UHDRR4Kデータセットは、それぞれトレーニング用とテスト用のイメージの2999ドルと168ドルの四つ組で構成され、UHDRR8Kデータセットは1,014ドルと105ドルの四つ組を含んでいる。 我々の知る限りでは、これらの2つのデータセットはSIRRのための最初の大規模UHDデータセットである。 そして,提案したデータセットを用いて6つの最先端SIRR手法の総合評価を行う。 この結果に基づき,これらの手法の長所と限界について,uhd画像に適用した場合の詳細な議論を行う。 最後に,リフレクション除去のためのrrformerというトランスフォーマティブアーキテクチャを提案する。 RRFormerは、Prepossessing Embedding Module、セルフアテンション特徴抽出モジュール、マルチスケール空間特徴抽出モジュールの3つのモジュールから構成されている。 これらのモジュールはそれぞれ、ハイパーカラム特徴、大域的および部分的注意特徴、およびマルチスケール空間特徴を抽出する。 有効トレーニングを確保するために, 画素損失, 特徴損失, 対向損失の3つの項を利用する。 我々は、RRFormerが非UHDデータセットと提案したUHDRRデータセットの両方で最先端の性能を達成する実験結果を通して示す。 コードとデータセットはhttps://github.com/Liar-zzy/Benchmarking-Ultra-High-Definition-Single-Image-Reflection-Removalで公開されている。

Deep learning based methods have achieved significant success in the task of single image reflection removal (SIRR). However, the majority of these methods are focused on High-Definition/Standard-Definition (HD/SD) images, while ignoring higher resolution images such as Ultra-High-Definition (UHD) images. With the increasing prevalence of UHD images captured by modern devices, in this paper, we aim to address the problem of UHD SIRR. Specifically, we first synthesize two large-scale UHD datasets, UHDRR4K and UHDRR8K. The UHDRR4K dataset consists of $2,999$ and $168$ quadruplets of images for training and testing respectively, and the UHDRR8K dataset contains $1,014$ and $105$ quadruplets. To the best of our knowledge, these two datasets are the first largest-scale UHD datasets for SIRR. Then, we conduct a comprehensive evaluation of six state-of-the-art SIRR methods using the proposed datasets. Based on the results, we provide detailed discussions regarding the strengths and limitations of these methods when applied to UHD images. Finally, we present a transformer-based architecture named RRFormer for reflection removal. RRFormer comprises three modules, namely the Prepossessing Embedding Module, Self-attention Feature Extraction Module, and Multi-scale Spatial Feature Extraction Module. These modules extract hypercolumn features, global and partial attention features, and multi-scale spatial features, respectively. To ensure effective training, we utilize three terms in our loss function: pixel loss, feature loss, and adversarial loss. We demonstrate through experimental results that RRFormer achieves state-of-the-art performance on both the non-UHD dataset and our proposed UHDRR datasets. The code and datasets are publicly available at https://github.com/Liar-zzy/Benchmarking-Ultra-High-Definition-Single-Image-Reflection-Removal.
翻訳日:2023-08-02 15:31:35 公開日:2023-08-01
# マルチモダリティマルチロス融合ネットワーク

Multi-Modality Multi-Loss Fusion Network ( http://arxiv.org/abs/2308.00264v1 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Jaywon Koo, Julia Hirschberg(参考訳) 本研究では,複数のモダリティにまたがる特徴の最適選択と融合について検討し,これらをニューラルネットワークで組み合わせ,感情検出を改善する。 異なる融合法を比較し,マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響を調べ,サブネット性能に関する有用な知見を明らかにした。 我々の最良のモデルは3つのデータセット(CMU-MOSI、CMU-MOSEI、CH-SIMS)の最先端性能を達成し、ほとんどの指標において他の手法よりも優れています。 マルチモーダル機能のトレーニングにより、単一のモダリティテストが改善され、データセットアノテーションスキーマに基づいた融合メソッドの設計がモデルパフォーマンスを向上させることが判明した。 これらの結果は、ニューラルネットワークにおける感情検出を強化するための最適化された特徴選択および融合アプローチへのロードマップを示唆する。

In this work we investigate the optimal selection and fusion of features across multiple modalities and combine these in a neural network to improve emotion detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying useful findings relating to subnet performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS), and outperforms the other methods in most metrics. We have found that training on multimodal features improves single modality testing and designing fusion methods based on dataset annotation schema enhances model performance. These results suggest a roadmap towards an optimized feature selection and fusion approach for enhancing emotion detection in neural networks.
翻訳日:2023-08-02 15:31:04 公開日:2023-08-01
# 双方向量子通信とバッファ集約による非同期フェデレーション学習

Asynchronous Federated Learning with Bidirectional Quantized Communications and Buffered Aggregation ( http://arxiv.org/abs/2308.00263v1 )

ライセンス: Link先を確認
Tomas Ortega, Hamid Jafarkhani(参考訳) Asynchronous Federated Learning with Buffered Aggregation (FedBuff)は、その効率性と高いスケーラビリティで知られている最先端のアルゴリズムである。 しかし,量子化通信では検討されていない通信コストが高い。 この問題に対処するために,我々は,サーバとクライアントの間で共有された"隠れ"状態を確立し,直接量子化によるエラー伝播を回避する量子化スキームを用いた新しいアルゴリズム(qafel)を提案する。 このアプローチは、クライアントとサーバのインタラクション中に送信されるデータを著しく削減しながら、高い精度を実現する。 我々はQAFeLの理論的収束保証を提供し、標準ベンチマークの実験で分析を裏付ける。

Asynchronous Federated Learning with Buffered Aggregation (FedBuff) is a state-of-the-art algorithm known for its efficiency and high scalability. However, it has a high communication cost, which has not been examined with quantized communications. To tackle this problem, we present a new algorithm (QAFeL), with a quantization scheme that establishes a shared "hidden" state between the server and clients to avoid the error propagation caused by direct quantization. This approach allows for high precision while significantly reducing the data transmitted during client-server interactions. We provide theoretical convergence guarantees for QAFeL and corroborate our analysis with experiments on a standard benchmark.
翻訳日:2023-08-02 15:30:49 公開日:2023-08-01
# algonauts project 2023チャレンジ: uark-ualbanyチームによるソリューション

The Algonauts Project 2023 Challenge: UARK-UAlbany Team Solution ( http://arxiv.org/abs/2308.00262v1 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Xudong Liu, Xin Li, Khoa Luu(参考訳) この研究は、algonauts project 2023 challengeのソリューションを提示します。 この課題の主な目的は、複雑な自然の視覚シーンを観察する参加者の脳反応を予測するために計算モデルを使用することである。 目標は、画像に対する最も信頼できる反応が観察された領域であるため、視覚的脳全体の脳反応を予測することである。 この課題に取り組むために,2段階のトレーニングプロセスを通じて,画像ベースの脳エンコーダを構築した。 当初、すべての被験者のデータを用いた事前訓練エンコーダを作成しました。 次に個々の被験者を微調整した。 各ステップは、多様性を導入するために、異なる損失機能や目的など、異なるトレーニング戦略を採用した。 最終的に、我々のソリューションは複数のユニークなエンコーダのアンサンブルを構成する。 コードはhttps://github.com/uark-cviu/algonauts2023で入手できる。

This work presents our solutions to the Algonauts Project 2023 Challenge. The primary objective of the challenge revolves around employing computational models to anticipate brain responses captured during participants' observation of intricate natural visual scenes. The goal is to predict brain responses across the entire visual brain, as it is the region where the most reliable responses to images have been observed. We constructed an image-based brain encoder through a two-step training process to tackle this challenge. Initially, we created a pretrained encoder using data from all subjects. Next, we proceeded to fine-tune individual subjects. Each step employed different training strategies, such as different loss functions and objectives, to introduce diversity. Ultimately, our solution constitutes an ensemble of multiple unique encoders. The code is available at https://github.com/uark-cviu/Algonauts2023
翻訳日:2023-08-02 15:30:38 公開日:2023-08-01
# 無駄なモデリング能力の低減による画素ベースmimの改善

Improving Pixel-based MIM by Reducing Wasted Modeling Capability ( http://arxiv.org/abs/2308.00261v1 )

ライセンス: Link先を確認
Yuan Liu, Songyang Zhang, Jiacheng Chen, Zhaohui Yu, Kai Chen, Dahua Lin(参考訳) Masked Image Modeling (MIM)では大きな進歩があった。 既存のmimメソッドは、レコンストラクションターゲットに基づく2つのグループ(ピクセルベースとトークンベース)に大まかに分類できる。 前者はより単純なパイプラインとより低い計算コストを提供するが、高周波の詳細に偏りがあることが知られている。 本稿では,この画素ベースMIMの限界を実証するための実証的研究を行い,浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。 この設計を基本手法であるMAEに組み込むことで、画素ベースのMIMの無駄なモデリング能力を低減し、収束性を改善し、下流の様々なタスクにまたがる非自明な改善を実現する。 私たちの知る限りでは、標準ビジョントランスフォーマー(vit)のような等方性アーキテクチャのマルチレベル機能融合を体系的に調査した最初の人物です。 特に、より小さなモデル(例えば、ViT-S)に適用すると、微調整の1.2\%、線形プローブの2.8\%、セマンティックセグメンテーションの2.6\%といった大きな性能向上が得られる。 コードとモデルはhttps://github.com/open-mmlab/mmpretrainで入手できる。

There has been significant progress in Masked Image Modeling (MIM). Existing MIM methods can be broadly categorized into two groups based on the reconstruction target: pixel-based and tokenizer-based approaches. The former offers a simpler pipeline and lower computational cost, but it is known to be biased toward high-frequency details. In this paper, we provide a set of empirical studies to confirm this limitation of pixel-based MIM and propose a new method that explicitly utilizes low-level features from shallow layers to aid pixel reconstruction. By incorporating this design into our base method, MAE, we reduce the wasted modeling capability of pixel-based MIM, improving its convergence and achieving non-trivial improvements across various downstream tasks. To the best of our knowledge, we are the first to systematically investigate multi-level feature fusion for isotropic architectures like the standard Vision Transformer (ViT). Notably, when applied to a smaller model (e.g., ViT-S), our method yields significant performance gains, such as 1.2\% on fine-tuning, 2.8\% on linear probing, and 2.6\% on semantic segmentation. Code and models are available at https://github.com/open-mmlab/mmpretrain.
翻訳日:2023-08-02 15:30:25 公開日:2023-08-01
# AQUILA: 遅延集約勾配の適応量子化によるコミュニケーション効率の良いフェデレーション学習

AQUILA: Communication Efficient Federated Learning with Adaptive Quantization of Lazily-Aggregated Gradients ( http://arxiv.org/abs/2308.00258v1 )

ライセンス: Link先を確認
Zihao Zhao, Yuzhu Mao, Zhenpeng Shi, Yang Liu, Tian Lan, Wenbo Ding, and Xiao-Ping Zhang(参考訳) プライバシを保存する分散学習手法であるフェデレートラーニング(FL)の普及は、大規模モデルの伝達によって生じる高い通信オーバーヘッドの課題によって妨げられている。 これらのオーバーヘッドを軽減するために設計された既存の適応量子化法は、トレーニングラウンド毎に一様デバイスに参加するという非現実的な仮定の下で動作します。 さらに、これらの手法は、手動量子化レベルの選択が必要であり、しばしばローカルデバイスのデータに固有のバイアスを見落とし、グローバルモデルの堅牢性に影響を与えるため、適応性に制限されている。 本稿では,これらの問題を効果的に処理し,FLの効率性とロバスト性を高めるために考案された新しい適応フレームワークであるAQUILAを紹介する。 AQUILAは、デバイス更新の品質と有用性を優先する高度なデバイス選択方法を統合する。 デバイスが格納する正確なグローバルモデルを利用することで、より正確なデバイス選択基準を可能にし、モデルの偏差を低減し、ハイパーパラメータ調整の必要性を制限できる。 さらに、AQUILAは、モデル収束性を確保しつつ通信効率を向上させるために最適化された革新的な量子化基準を示す。 また,非iidデータやヘテロジニアスモデルアーキテクチャなど,多様な非均質なfl設定に対して同等のモデル性能を維持しながら,aquilaが通信コストを大幅に削減できることを実証した。

The widespread adoption of Federated Learning (FL), a privacy-preserving distributed learning methodology, has been impeded by the challenge of high communication overheads, typically arising from the transmission of large-scale models. Existing adaptive quantization methods, designed to mitigate these overheads, operate under the impractical assumption of uniform device participation in every training round. Additionally, these methods are limited in their adaptability due to the necessity of manual quantization level selection and often overlook biases inherent in local devices' data, thereby affecting the robustness of the global model. In response, this paper introduces AQUILA (adaptive quantization of lazily-aggregated gradients), a novel adaptive framework devised to effectively handle these issues, enhancing the efficiency and robustness of FL. AQUILA integrates a sophisticated device selection method that prioritizes the quality and usefulness of device updates. Utilizing the exact global model stored by devices, it enables a more precise device selection criterion, reduces model deviation, and limits the need for hyperparameter adjustments. Furthermore, AQUILA presents an innovative quantization criterion, optimized to improve communication efficiency while assuring model convergence. Our experiments demonstrate that AQUILA significantly decreases communication costs compared to existing methods, while maintaining comparable model performance across diverse non-homogeneous FL settings, such as Non-IID data and heterogeneous model architectures.
翻訳日:2023-08-02 15:30:04 公開日:2023-08-01
# 生成モデル発声能力向上のための人間のフィードバックに基づく領域適応

Domain Adaptation based on Human Feedback for Enhancing Generative Model Denoising Abilities ( http://arxiv.org/abs/2308.00307v1 )

ライセンス: Link先を確認
Hyun-Cheol Park, Sung Ho Kang(参考訳) 人的フィードバックを生成モデルに適用するにはどうすればよいか? 本稿では,この問いに対する回答として,人間フィードバックを用いた雑音化問題と領域適応法について述べる。 深層生成モデルは、画像の雑音化において印象的な結果を示している。 しかし、現在の画像記述モデルは、訓練されたものと異なる領域に適用した場合、しばしば不適切な結果をもたらす。 見えないデータに対して ‘Good' と `Bad' の結果がある場合、 `Bad' の結果の品質を上げる方法がある。 ほとんどの手法はモデルの一般化に基づくアプローチを用いる。 しかし、これらの方法は、未熟なドメインの訓練や適応のためにターゲットイメージを必要とする。 本稿では,非対象領域に対する非対象画像を取り扱うとともに,特定の失敗画像を改善する。 そこで本研究では,人間のフィードバックを利用して異なる領域で発生する不適切な結果を微調整する手法を提案する。 まず、ノイズの多いMNIST 桁 '0' 画像のみを用いて、画像に雑音を与えるジェネレータを訓練する。 ソースドメインでトレーニングされたデノージングジェネレータは、ターゲットドメインイメージに適用されると意図しない結果になる。 ドメイン適応を実現するため、雑音像生成画像データセットを構築し、報酬モデルで人間のフィードバックを予測する。 最後に、補助損失関数を持つ報酬モデルを用いて、異なるドメイン上のジェネレータを微調整し、対象ドメインに通知機能を転送することを目的とした。 提案手法は,あるドメインで訓練されたジェネレータを,別のドメインからのフィードバックによって効率的に微調整できる可能性を示し,異なるドメインにおける認知能力を高める。

How can we apply human feedback into generative model? As answer of this question, in this paper, we show the method applied on denoising problem and domain adaptation using human feedback. Deep generative models have demonstrated impressive results in image denoising. However, current image denoising models often produce inappropriate results when applied to domains different from the ones they were trained on. If there are `Good' and `Bad' result for unseen data, how to raise up quality of `Bad' result. Most methods use an approach based on generalization of model. However, these methods require target image for training or adapting unseen domain. In this paper, to adapting domain, we deal with non-target image for unseen domain, and improve specific failed image. To address this, we propose a method for fine-tuning inappropriate results generated in a different domain by utilizing human feedback. First, we train a generator to denoise images using only the noisy MNIST digit '0' images. The denoising generator trained on the source domain leads to unintended results when applied to target domain images. To achieve domain adaptation, we construct a noise-image denoising generated image data set and train a reward model predict human feedback. Finally, we fine-tune the generator on the different domain using the reward model with auxiliary loss function, aiming to transfer denoising capabilities to target domain. Our approach demonstrates the potential to efficiently fine-tune a generator trained on one domain using human feedback from another domain, thereby enhancing denoising abilities in different domains.
翻訳日:2023-08-02 15:22:53 公開日:2023-08-01
# Skills-in-Context Prompting:大規模言語モデルにおける構成性の解き放つ

Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models ( http://arxiv.org/abs/2308.00304v1 )

ライセンス: Link先を確認
Jiaao Chen, Xiaoman Pan, Dian Yu, Kaiqiang Song, Xiaoyang Wang, Dong Yu, Jianshu Chen(参考訳) 本稿では,大規模言語モデル (LLM) における合成一般化能力を新しいタイプのプロンプト戦略で導入する問題を考察する。 構成的一般化は、人間のような知能の重要な推論能力である、自分たちが見たものよりも難しい問題(すなわち、難しい一般化)をLLMが解決する権限を与える。 しかし、現在最先端のLLMでさえ、このタイプの推論に苦戦している。 このギャップを埋めるために、我々はLLMにより複雑な問題を解決するための基本的なスキルの作り方を指示するスキル・イン・コンテクスト(SKiC)プロンプトを提案する。 同じプロンプトコンテキスト内でスキルと構成例の両方を示すことが重要であることが分かりました。 テストプラが2つもあれば、SKiCはスキルと構成能力の強い相乗効果を加速させます。 特に、革新的なスキル構成を必要とする目に見えない問題を解決するためにllmを力づけ、幅広い挑戦的な構成性タスクでほぼ完全な一般化を達成する。 興味深いことに、SKiCプロンプトはLSMの潜在能力を解き放ち、初期の事前訓練とアライメントの段階で獲得した既存の内部スキルを活用することができる。 これにより、LLMはこれらの内部能力の活性化と構成によって、目に見えない複雑な問題を解くことができる。

We consider the problem of eliciting compositional generalization capabilities in large language models (LLMs) with a novel type of prompting strategy. Compositional generalization empowers the LLMs to solve problems that are harder than the ones they have seen (i.e., easy-to-hard generalization), which is a critical reasoning capability of human-like intelligence. However, even the current state-of-the-art LLMs still struggle with this form of reasoning. To bridge this gap, we propose skills-in-context (SKiC) prompting, which instructs LLMs how to compose basic skills to resolve more complex problems. We find that it is crucial to demonstrate both the skills and the compositional examples within the same prompting context. With as few as two examplars, our SKiC prompting initiates strong synergies between skills and their composition capabilities. Notably, it empowers LLMs to solve unseen problems that require innovative skill compositions, achieving near-perfect generalization on a broad range of challenging compositionality tasks. Intriguingly, SKiC prompting unlocks the latent potential of LLMs, enabling them to leverage pre-existing internal skills acquired during earlier pretraining and alignment stages, even when these skills are not explicitly presented in the prompting context. This results in the capability of LLMs to solve unseen complex problems by activating and composing these internal competencies.
翻訳日:2023-08-02 15:22:13 公開日:2023-08-01
# カモフラージュ物体検出のための拡散モデル

Diffusion Model for Camouflaged Object Detection ( http://arxiv.org/abs/2308.00303v1 )

ライセンス: Link先を確認
Zhennan Chen, Rongrong Gao, Tian-Zhu Xiang, Fan Lin(参考訳) camouflaged object detectionは、バックグラウンドと非常に似たオブジェクトを識別することを目的とした、難しいタスクである。 そこで,本稿では,拡散モデルのノイズから画像へのデノージングを強力に行うため,迷彩物体検出のための拡散ベースフレームワークdiffcodを提案し,このフレームワークは,迷彩物体分割タスクを雑音マスクからオブジェクトマスクへのデノージング拡散プロセスとして捉える。 具体的には、被写体マスクが地対面マスクからランダム分布に拡散し、設計されたモデルは、このノイズ処理を逆転することを学習する。 減音学習を強化するために、先行入力画像が符号化され、減音拡散モデルに統合され、拡散過程を導く。 さらに、画像から抽出した条件意味的特徴と拡散雑音の埋め込みとを相互注意機構を介して相互作用させ、聴覚学習を強化するインジェクションアテンションモジュール(IAM)を設計する。 4つの広く使われているcodベンチマークデータセットに関する広範囲な実験により、提案手法は、既存の11の最先端手法、特にカモフラージュされたオブジェクトの詳細なテクスチャセグメンテーションに比べて良好な性能が得られることが示された。 私たちのコードは、https://github.com/ZNan-Chen/diffCOD.comで公開されます。

Camouflaged object detection is a challenging task that aims to identify objects that are highly similar to their background. Due to the powerful noise-to-image denoising capability of denoising diffusion models, in this paper, we propose a diffusion-based framework for camouflaged object detection, termed diffCOD, a new framework that considers the camouflaged object segmentation task as a denoising diffusion process from noisy masks to object masks. Specifically, the object mask diffuses from the ground-truth masks to a random distribution, and the designed model learns to reverse this noising process. To strengthen the denoising learning, the input image prior is encoded and integrated into the denoising diffusion model to guide the diffusion process. Furthermore, we design an injection attention module (IAM) to interact conditional semantic features extracted from the image with the diffusion noise embedding via the cross-attention mechanism to enhance denoising learning. Extensive experiments on four widely used COD benchmark datasets demonstrate that the proposed method achieves favorable performance compared to the existing 11 state-of-the-art methods, especially in the detailed texture segmentation of camouflaged objects. Our code will be made publicly available at: https://github.com/ZNan-Chen/diffCOD.
翻訳日:2023-08-02 15:21:50 公開日:2023-08-01
# オンライン連続学習のためのオンラインプロトタイプ学習

Online Prototype Learning for Online Continual Learning ( http://arxiv.org/abs/2308.00301v1 )

ライセンス: Link先を確認
Yujie Wei, Jiaxin Ye, Zhizhong Huang, Junping Zhang, Hongming Shan(参考訳) オンライン連続学習(cl)は、新しいデータに適応し、破滅的な忘れを緩和しながら、シングルパスデータストリームから継続的に学習する問題を研究している。 近年、古いデータの小さなサブセットを格納することで、再生ベースの手法は有望な性能を示している。 本稿では, 従来, サンプル貯蔵や, 破滅的忘れに対する知識蒸留に重点を置いてきた手法と異なり, オンライン学習モデルがなぜ, ショートカット学習の新たな視点から, うまく一般化できないのかを理解することを目的とする。 オンラインCLにおけるショートカット学習は,学習した特徴に偏りがあり,新たなタスクに一般化できない,知識蒸留に悪影響を及ぼすおそれがある。 本稿では,オンラインCLのためのオンラインプロトタイプ学習(OnPro)フレームワークを提案する。 まず,近距離学習と判別的特徴から代表的特徴を学習し,クラス混乱を回避し,新しいクラスを学習しながら見受けられた全てのクラスをうまく分離する平衡状態を達成するオンラインプロトタイプ平衡を提案する。 第二に,オンラインプロトタイプのフィードバックにより,誤分類が容易なクラスを検知し,その境界を強化する新しい適応型プロトタイプフィードバック機構を考案する。 広く使用されているベンチマークデータセットの大規模な実験結果は、最先端のベースラインメソッドよりもOnProの優れたパフォーマンスを示している。 ソースコードはhttps://github.com/weilllllls/onpro。

Online continual learning (CL) studies the problem of learning continuously from a single-pass data stream while adapting to new data and mitigating catastrophic forgetting. Recently, by storing a small subset of old data, replay-based methods have shown promising performance. Unlike previous methods that focus on sample storage or knowledge distillation against catastrophic forgetting, this paper aims to understand why the online learning models fail to generalize well from a new perspective of shortcut learning. We identify shortcut learning as the key limiting factor for online CL, where the learned features may be biased, not generalizable to new tasks, and may have an adverse impact on knowledge distillation. To tackle this issue, we present the online prototype learning (OnPro) framework for online CL. First, we propose online prototype equilibrium to learn representative features against shortcut learning and discriminative features to avoid class confusion, ultimately achieving an equilibrium status that separates all seen classes well while learning new classes. Second, with the feedback of online prototypes, we devise a novel adaptive prototypical feedback mechanism to sense the classes that are easily misclassified and then enhance their boundaries. Extensive experimental results on widely-used benchmark datasets demonstrate the superior performance of OnPro over the state-of-the-art baseline methods. Source code is available at https://github.com/weilllllls/OnPro.
翻訳日:2023-08-02 15:21:28 公開日:2023-08-01
# テキストVQAにおけるVの作成

Making the V in Text-VQA Matter ( http://arxiv.org/abs/2308.00295v1 )

ライセンス: Link先を確認
Shamanthak Hegde, Soumya Jahagirdar and Shankar Gangisetty(参考訳) テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。 VQAタスクと比較して、シーン・テキスト間の関係の理解がかなり必要になります。 近年の研究では、データセット内の質問と回答のペアは画像中のテキストに重点を置いているが、視覚的特徴にはあまり重要ではないことが示されている。 このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如によりバイアスのある回答を予測する。 例えば、"what is written on the signboard?"のような質問では、モデルによって予測される答えは常に"stop"であり、モデルが画像を無視するようにします。 これらの課題に対処するため、テキストベースのVQAの外部知識としてVQAデータセットを用いて、OCR機能や質問機能とともに視覚的特徴(TextVQAでVを重要視する)を学習する方法を提案する。 具体的には、TextVQAデータセットとVQAデータセットを組み合わせて、この組み合わせデータセット上でモデルをトレーニングします。 このような単純かつ効果的なアプローチは、画像に含まれる画像特徴とテキストの理解と相関性を高め、質問への回答を改善するのに役立つ。 さらに、異なるデータセット上でモデルをテストし、質的および定量的な結果を比較する。

Text-based VQA aims at answering questions by reading the text present in the images. It requires a large amount of scene-text relationship understanding compared to the VQA task. Recent studies have shown that the question-answer pairs in the dataset are more focused on the text present in the image but less importance is given to visual features and some questions do not require understanding the image. The models trained on this dataset predict biased answers due to the lack of understanding of visual context. For example, in questions like "What is written on the signboard?", the answer predicted by the model is always "STOP" which makes the model to ignore the image. To address these issues, we propose a method to learn visual features (making V matter in TextVQA) along with the OCR features and question features using VQA dataset as external knowledge for Text-based VQA. Specifically, we combine the TextVQA dataset and VQA dataset and train the model on this combined dataset. Such a simple, yet effective approach increases the understanding and correlation between the image features and text present in the image, which helps in the better answering of questions. We further test the model on different datasets and compare their qualitative and quantitative results.
翻訳日:2023-08-02 15:21:03 公開日:2023-08-01
# oct画像による網膜疾患分類のための眼底疾患対応蒸留モデル

Fundus-Enhanced Disease-Aware Distillation Model for Retinal Disease Classification from OCT Images ( http://arxiv.org/abs/2308.00291v1 )

ライセンス: Link先を確認
Lehan Wang, Weihang Dai, Mei Jin, Chubin Ou, and Xiaomeng Li(参考訳) 光コヒーレンス断層撮影(oct)は眼科検査の新規かつ効果的なスクリーニングツールである。 OCT画像の収集は、眼底画像よりも比較的高価であるため、既存の手法では、眼底画像から追加の文脈で限られたOCTデータを補完するためにマルチモーダル学習を使用している。 しかし、マルチモーダルフレームワークには両方のモーダルのアイペアデータセットが必要であり、臨床での使用には実用的ではない。 この問題に対処するために, OCT画像から網膜疾患を分類する新しい基盤型疾患認識蒸留モデル(FDDM)を提案する。 本研究の枠組みは,非ペア型眼底画像を利用してトレーニング中のoctモデルを強化し,検査時の眼底画像の使用を必要とせず,その実用性と臨床利用効率を大幅に改善する。 具体的には, 基礎モデルからoctモデルへの蒸留病関連情報に適合する新しいクラスプロトタイプと, 両形態の疾患分布の一貫性を強制する新しいクラス類似性アライメントを提案する。 実験結果から,本手法は網膜疾患分類における単一モーダル,多モーダルおよび最先端蒸留法よりも優れていた。 コードはhttps://github.com/xmed-lab/FDDMで入手できる。

Optical Coherence Tomography (OCT) is a novel and effective screening tool for ophthalmic examination. Since collecting OCT images is relatively more expensive than fundus photographs, existing methods use multi-modal learning to complement limited OCT data with additional context from fundus images. However, the multi-modal framework requires eye-paired datasets of both modalities, which is impractical for clinical use. To address this problem, we propose a novel fundus-enhanced disease-aware distillation model (FDDM), for retinal disease classification from OCT images. Our framework enhances the OCT model during training by utilizing unpaired fundus images and does not require the use of fundus images during testing, which greatly improves the practicality and efficiency of our method for clinical use. Specifically, we propose a novel class prototype matching to distill disease-related information from the fundus model to the OCT model and a novel class similarity alignment to enforce consistency between disease distribution of both modalities. Experimental results show that our proposed approach outperforms single-modal, multi-modal, and state-of-the-art distillation methods for retinal disease classification. Code is available at https://github.com/xmed-lab/FDDM.
翻訳日:2023-08-02 15:20:42 公開日:2023-08-01
# 実践的・自動ドメイン適応のための教師なし評価指標の検討

A Study of Unsupervised Evaluation Metrics for Practical and Automatic Domain Adaptation ( http://arxiv.org/abs/2308.00287v1 )

ライセンス: Link先を確認
Minghao Chen, Zepeng Gao, Shuai Zhao, Qibo Qiu, Wenxiao Wang, Binbin Lin, Xiaofei He(参考訳) unsupervised domain adaptation(uda)メソッドは、ラベルのないターゲットドメインへのモデル転送を容易にする。 しかし、これらの手法はハイパーパラメータチューニングとモデル選択のためのラベル付きターゲット検証セットを必要とする。 本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。 まず,モデル予測の相互情報に基づく計量から始める。 経験分析を通して、この計量の3つの主要な問題を特定する。 1)ソース構造を考慮に入れない。 2) 容易に攻撃することができる。 3) ソースとターゲットの特徴の過剰な無視による負の転送の検出に失敗する。 最初の2つの問題に対処するために、情報源の精度を指標に組み込み、トレーニング中に保持される新しいMLP分類器を採用し、その結果を大幅に改善する。 最終課題に対処するため、この拡張メトリックをデータ拡張と統合し、ACM(Augmentation Consistency Metric)と呼ばれる新しい教師なしUDAメトリックを作成した。 さらに,これまでの実験環境の欠点を実証し,提案手法の有効性を検証するために大規模実験を行った。 さらに、我々の測定値を用いて最適なハイパーパラメータ集合を自動検索し、4つの共通ベンチマークで手動チューニングしたセットよりも優れた性能を実現する。 コードはもうすぐ入手できる。

Unsupervised domain adaptation (UDA) methods facilitate the transfer of models to target domains without labels. However, these methods necessitate a labeled target validation set for hyper-parameter tuning and model selection. In this paper, we aim to find an evaluation metric capable of assessing the quality of a transferred model without access to target validation labels. We begin with the metric based on mutual information of the model prediction. Through empirical analysis, we identify three prevalent issues with this metric: 1) It does not account for the source structure. 2) It can be easily attacked. 3) It fails to detect negative transfer caused by the over-alignment of source and target features. To address the first two issues, we incorporate source accuracy into the metric and employ a new MLP classifier that is held out during training, significantly improving the result. To tackle the final issue, we integrate this enhanced metric with data augmentation, resulting in a novel unsupervised UDA metric called the Augmentation Consistency Metric (ACM). Additionally, we empirically demonstrate the shortcomings of previous experiment settings and conduct large-scale experiments to validate the effectiveness of our proposed metric. Furthermore, we employ our metric to automatically search for the optimal hyper-parameter set, achieving superior performance compared to manually tuned sets across four common benchmarks. Codes will be available soon.
翻訳日:2023-08-02 15:20:20 公開日:2023-08-01
# ハイパーベイズ最適化による予測モデリング

Predictive Modeling through Hyper-Bayesian Optimization ( http://arxiv.org/abs/2308.00285v1 )

ライセンス: Link先を確認
Manisha Senadeera, Santu Rana, Sunil Gupta, Svetha Venkatesh(参考訳) モデル選択はベイズ最適化(BO)のようなモデルベース最適化手法の不可欠な問題である。 現在のアプローチでは、しばしばモデル選択を推定問題として扱い、最適化イテレーションから得られる観測で定期的に更新される。 本稿では,両立を効率的に行うための代替手法を提案する。 具体的には,関数の最適化を高速化する単一目的に対して,モデル選択とBOを統合する新しい手法を提案する。 このアルゴリズムは、モデル空間のBOと関数空間のBOの間を行き来し、そこで推奨されたモデルの良さをスコア関数によって捉え、フィードバックし、モデルが関数空間の収束にどれだけ役立ったかを測定する。 スコア関数は、関数空間におけるBOの移動特性の影響を中和し、モデル選択問題を定常に保つように導出される。 これにより、関数空間におけるモデル選択とBOの両方が素早く収束する。 サンプル効率の改善に加えて、ブラックボックス機能に関する情報も出力する。 収束性が証明され, 実験結果は標準BOに比べて有意に改善した。

Model selection is an integral problem of model based optimization techniques such as Bayesian optimization (BO). Current approaches often treat model selection as an estimation problem, to be periodically updated with observations coming from the optimization iterations. In this paper, we propose an alternative way to achieve both efficiently. Specifically, we propose a novel way of integrating model selection and BO for the single goal of reaching the function optima faster. The algorithm moves back and forth between BO in the model space and BO in the function space, where the goodness of the recommended model is captured by a score function and fed back, capturing how well the model helped convergence in the function space. The score function is derived in such a way that it neutralizes the effect of the moving nature of the BO in the function space, thus keeping the model selection problem stationary. This back and forth leads to quick convergence for both model selection and BO in the function space. In addition to improved sample efficiency, the framework outputs information about the black-box function. Convergence is proved, and experimental results show significant improvement compared to standard BO.
翻訳日:2023-08-02 15:19:58 公開日:2023-08-01
# CLAMS:ビジュアルクラスタリングにおける知覚変数推定のためのクラスタ曖昧度測定

CLAMS: A Cluster Ambiguity Measure for Estimating Perceptual Variability in Visual Clustering ( http://arxiv.org/abs/2308.00284v1 )

ライセンス: Link先を確認
Hyeon Jeon, Ghulam Jilani Quadri, Hyunwook Lee, Paul Rosen, Danielle Albers Szafir, and Jinwook Seo(参考訳) 視覚的クラスタリングは、さまざまな分析タスク(例えば、クラスタ識別)をサポートする分散プロットにおける一般的な知覚タスクである。 しかし、同じ散乱体であっても、個人差とあいまいなクラスタ境界により、クラスタの知覚方法(すなわち、視覚的クラスタリング)が異なる可能性がある。 このような知覚的変動性は、視覚的クラスタリングに基づくデータ解析の信頼性に疑問を呈するが、この変動性を効果的に評価する体系的な方法が欠如している。 本研究では,クラスタアンビグニティ(Cluster Ambiguity)と呼ばれる視覚クラスタリングの実行における知覚的変動について検討する。 この目的のために,モノクロ散乱体におけるクラスタのあいまいさを自動的に予測するデータ駆動型視覚品質尺度であるCLAMSを導入する。 まず、クラスタの視覚的分離(例えば、クラスタ間の近接やサイズの違い)に影響を与える重要な要因を特定するための質的研究を行う。 研究結果に基づき,2つのクラスタの分離性を評価する回帰モジュールを配置した。 次に、clamは、モジュールが生成するクラスタ間の全ての対分離性の集計結果を分析することにより、クラスタのあいまいさを予測する。 CLAMSは、基底真理クラスタの曖昧さを予測するために広く使われているクラスタリング技術より優れている。 一方、CLAMSは人間のアノテーションと同等の性能を示す。 CLAMSを用いたデータマイニング手法の最適化とベンチマークのための2つのアプリケーションを提案することで,本研究を締めくくっている。 CLAMSのインタラクティブなデモは clusterambiguity.dev で公開されている。

Visual clustering is a common perceptual task in scatterplots that supports diverse analytics tasks (e.g., cluster identification). However, even with the same scatterplot, the ways of perceiving clusters (i.e., conducting visual clustering) can differ due to the differences among individuals and ambiguous cluster boundaries. Although such perceptual variability casts doubt on the reliability of data analysis based on visual clustering, we lack a systematic way to efficiently assess this variability. In this research, we study perceptual variability in conducting visual clustering, which we call Cluster Ambiguity. To this end, we introduce CLAMS, a data-driven visual quality measure for automatically predicting cluster ambiguity in monochrome scatterplots. We first conduct a qualitative study to identify key factors that affect the visual separation of clusters (e.g., proximity or size difference between clusters). Based on study findings, we deploy a regression module that estimates the human-judged separability of two clusters. Then, CLAMS predicts cluster ambiguity by analyzing the aggregated results of all pairwise separability between clusters that are generated by the module. CLAMS outperforms widely-used clustering techniques in predicting ground truth cluster ambiguity. Meanwhile, CLAMS exhibits performance on par with human annotators. We conclude our work by presenting two applications for optimizing and benchmarking data mining techniques using CLAMS. The interactive demo of CLAMS is available at clusterambiguity.dev.
翻訳日:2023-08-02 15:19:42 公開日:2023-08-01
# ZADU: 次元削減埋め込みの信頼性を評価するPythonライブラリ

ZADU: A Python Library for Evaluating the Reliability of Dimensionality Reduction Embeddings ( http://arxiv.org/abs/2308.00282v1 )

ライセンス: Link先を確認
Hyeon Jeon, Aeri Cho, Jinhwa Jang, Soohyun Lee, Jake Hyun, Hyung-Kwon Ko, Jaemin Jo, Jinwook Seo(参考訳) 次元還元(dr)技術は入力された高次元データの元の構造を歪め、不完全な低次元埋め込みを生成する。 DR埋め込みの信頼性を評価するために, 様々な歪み測定法が提案されている。 しかし, 実際に歪曲対策を実施・実施するのは, 時間と手間がかかる。 この問題に対処するため,歪み対策を提供するPythonライブラリZADUを提案する。 ZADUはインストールと実行が簡単であるだけでなく、3つの重要な機能を通じてDR埋め込みの包括的な評価を可能にする。 まず,本図書館は幅広い歪み対策を扱っている。 第二に、歪み測定の実行を自動的に最適化し、複数の測定を実行するのに必要な実行時間を大幅に削減する。 最後に、ライブラリは個々の点が全体の歪みにどのように寄与するかを知らせ、DR埋め込みの詳細な解析を容易にする。 DR埋め込みを最適化する実世界のシナリオをシミュレートすることで,我々の最適化手法が歪み対策の実行時間を大幅に短縮することを確認した。 最後に、zaduのアプリケーションとして、ユーザーが埋め込みの各領域が歪みに苦しむ程度を表す歪みの可視化を簡単に作成できるzaduvisという別のライブラリを提案する。

Dimensionality reduction (DR) techniques inherently distort the original structure of input high-dimensional data, producing imperfect low-dimensional embeddings. Diverse distortion measures have thus been proposed to evaluate the reliability of DR embeddings. However, implementing and executing distortion measures in practice has so far been time-consuming and tedious. To address this issue, we present ZADU, a Python library that provides distortion measures. ZADU is not only easy to install and execute but also enables comprehensive evaluation of DR embeddings through three key features. First, the library covers a wide range of distortion measures. Second, it automatically optimizes the execution of distortion measures, substantially reducing the running time required to execute multiple measures. Last, the library informs how individual points contribute to the overall distortions, facilitating the detailed analysis of DR embeddings. By simulating a real-world scenario of optimizing DR embeddings, we verify that our optimization scheme substantially reduces the time required to execute distortion measures. Finally, as an application of ZADU, we present another library called ZADUVis that allows users to easily create distortion visualizations that depict the extent to which each region of an embedding suffers from distortions.
翻訳日:2023-08-02 15:19:19 公開日:2023-08-01
# 部分観測によるアルゴリズムフェアネスのモニタリング

Monitoring Algorithmic Fairness under Partial Observations ( http://arxiv.org/abs/2308.00341v1 )

ライセンス: Link先を確認
Thomas A. Henzinger, Konstantin Kueffner, Kaushik Mallik(参考訳) AIと機械学習のソフトウェアは、人間に影響を与える決定を下すのにますます使われているので、彼らが公平で偏見を持っていなければならない。 設計時バイアス低減対策を補完するため,最近,運用システムのアルゴリズム的公正性を監視するため,実行時検証技術が導入されている。 以前の監視技術は、(未知の)監視システムの状態の完全な可観測性を前提としている。 さらに、異なるイベントの確率よりも算術式として指定された公正性のみを監視することができる。 本研究では,部分観測マルコフ連鎖(pomc)としてモデル化されたシステムと,事象列上の数値関数の期待値に算術式を含む仕様にフェアネスモニタリングを拡張した。 唯一の仮定は、基礎となる POMC が非周期的であり、定常分布から始まり、その混合時間に制限があるということである。 これらの仮定により、監視されたPOMCの実行可能な全分散に対する所定のプロパティを、単一の実行だけを観察して見積もることができる。 我々のモニターはシステムの長時間の経過を観察し、新しい観測の後、そのシステムの公平さや偏見をPACの推定値に更新する。 モニタは計算量的に軽量であり,プロトタイプ実装を用いて実世界の実例でその効果を実証する。

As AI and machine-learned software are used increasingly for making decisions that affect humans, it is imperative that they remain fair and unbiased in their decisions. To complement design-time bias mitigation measures, runtime verification techniques have been introduced recently to monitor the algorithmic fairness of deployed systems. Previous monitoring techniques assume full observability of the states of the (unknown) monitored system. Moreover, they can monitor only fairness properties that are specified as arithmetic expressions over the probabilities of different events. In this work, we extend fairness monitoring to systems modeled as partially observed Markov chains (POMC), and to specifications containing arithmetic expressions over the expected values of numerical functions on event sequences. The only assumptions we make are that the underlying POMC is aperiodic and starts in the stationary distribution, with a bound on its mixing time being known. These assumptions enable us to estimate a given property for the entire distribution of possible executions of the monitored POMC, by observing only a single execution. Our monitors observe a long run of the system and, after each new observation, output updated PAC-estimates of how fair or biased the system is. The monitors are computationally lightweight and, using a prototype implementation, we demonstrate their effectiveness on several real-world examples.
翻訳日:2023-08-02 15:13:57 公開日:2023-08-01
# 深層強化学習を用いた異種ロボットシステムの目標探索とナビゲーション

Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning ( http://arxiv.org/abs/2308.00331v1 )

ライセンス: Link先を確認
Yun Chen, Jiaping Xiao(参考訳) 協調的な異種ロボットシステムは、目標探索およびナビゲーションタスクの効率を大幅に向上させることができる。 本論文では,未知の環境下での探索・救助ミッションのためのUAVとUGVからなる異種ロボットシステムを設計する。 システムはターゲットを検索し、深い強化学習アルゴリズムによって学習されたポリシーを用いて、迷路のような鉱山環境をナビゲートすることができる。 訓練中、同時に2つのロボットを訓練した場合、その協力に関する報酬が適切に得られない場合がある。 そこで本研究では,多段階強化学習フレームワークと好奇心モジュールを導入し,エージェントが訪問しない環境を探索することを促す。 シミュレーション環境における実験により,本フレームワークは未知の目標位置での探索とナビゲーションを実現するために異種ロボットシステムを訓練することができるが,既存のベースラインは適用できない。

Collaborative heterogeneous robot systems can greatly improve the efficiency of target search and navigation tasks. In this paper, we design a heterogeneous robot system consisting of a UAV and a UGV for search and rescue missions in unknown environments. The system is able to search for targets and navigate to them in a maze-like mine environment with the policies learned through deep reinforcement learning algorithms. During the training process, if two robots are trained simultaneously, the rewards related to their collaboration may not be properly obtained. Hence, we introduce a multi-stage reinforcement learning framework and a curiosity module to encourage agents to explore unvisited environments. Experiments in simulation environments show that our framework can train the heterogeneous robot system to achieve the search and navigation with unknown target locations while existing baselines may not, and accelerate the training speed.
翻訳日:2023-08-02 15:13:35 公開日:2023-08-01
# 混合整数プログラムに有効な解を生成するための閾値認識学習

Threshold-aware Learning to Generate Feasible Solutions for Mixed Integer Programs ( http://arxiv.org/abs/2308.00327v1 )

ライセンス: Link先を確認
Taehyun Yoon, Jinwon Choi, Hyokun Yun, Sungbin Lim(参考訳) 組合せ最適化(CO)問題に対する高品質な実現可能な解を限られた時間で見つけることは、その離散的性質のため困難である。 近年,co問題に対処するための機械学習(ml)手法が増えている。 neural dive (nd) は co 問題をモデル化するためのフレームワークである mixed integer programs (mip) において偏離散変数割当を生成するための学習ベースのアプローチの1つである。 しかし、ndの大きな欠点はmlとmipの目的、すなわちプライマルバウンドに対する変数値の分類精度の差が大きいことである。 本研究は,特定範囲の可変割当率(カバレッジ)が高品質な実現可能な解をもたらすことを考察し,学習目標とMIP目標のギャップを埋めることを提案する。 そこで,本稿では,ポストホック法と学習に基づくカバレッジ最適化手法を提案する。 提案手法の鍵となる考え方は,検索空間の制限を共同で学習し,学習した検索空間のカバレッジを予測することである。 実験結果から、ニューラルネットワークを学習して高品質な実現可能なソリューションを見つけるためのカバレッジを推定することで、NeurIPS ML4COデータセットの最先端のパフォーマンスが達成されることが示された。 特に,本手法は作業負荷調整データセットの性能に優れており,その最適性ギャップは0.45%であり,SCIPよりも10倍改善されている。

Finding a high-quality feasible solution to a combinatorial optimization (CO) problem in a limited time is challenging due to its discrete nature. Recently, there has been an increasing number of machine learning (ML) methods for addressing CO problems. Neural diving (ND) is one of the learning-based approaches to generating partial discrete variable assignments in Mixed Integer Programs (MIP), a framework for modeling CO problems. However, a major drawback of ND is a large discrepancy between the ML and MIP objectives, i.e., variable value classification accuracy over primal bound. Our study investigates that a specific range of variable assignment rates (coverage) yields high-quality feasible solutions, where we suggest optimizing the coverage bridges the gap between the learning and MIP objectives. Consequently, we introduce a post-hoc method and a learning-based approach for optimizing the coverage. A key idea of our approach is to jointly learn to restrict the coverage search space and to predict the coverage in the learned search space. Experimental results demonstrate that learning a deep neural network to estimate the coverage for finding high-quality feasible solutions achieves state-of-the-art performance in NeurIPS ML4CO datasets. In particular, our method shows outstanding performance in the workload apportionment dataset, achieving the optimality gap of 0.45%, a ten-fold improvement over SCIP within the one-minute time limit.
翻訳日:2023-08-02 15:13:21 公開日:2023-08-01
# きめ細かいスポーツ、ヨガ、ダンスの姿勢認識:ベンチマーク分析

Fine-Grained Sports, Yoga, and Dance Postures Recognition: A Benchmark Analysis ( http://arxiv.org/abs/2308.00323v1 )

ライセンス: Link先を確認
Asish Bera, Mita Nasipuri, Ondrej Krejcar, and Debotosh Bhattacharjee(参考訳) 人体位置推定はコンピュータビジョンの複雑な問題である。 近年、健康状態を維持するためのスポーツ、ヨガ、ダンス(SYD)の姿勢について研究が進められている。 SYDポーズカテゴリは、身体部分の複雑な動きによるきめ細かい画像分類タスクとみなされる。 深層畳み込みニューラルネットワーク (CNN) は, 様々な人体推定問題の解法において, 大幅な性能向上を実現している。 ヨガの姿勢認識には, 深層学習技術, きめ細かいスポーツ, ダンス認識が重要な課題となっている。 しかしながら、クラス間およびクラス内バリエーションが十分であるベンチマーク公開画像データセットは、スポーツやダンスの姿勢分類に対処するためにはまだ利用できない。 この制限を解決するために,スポーツカテゴリー102種目とダンススタイル12種目という2つの画像データセットを提案する。 2つの公開データセットであるYoga-82は82クラスで、Yoga-107は107クラスである。 これら4つのSYDデータセットは、標準バックボーンCNN上にパッチベースのアテンション(PbA)機構を統合する、提案されたディープモデルであるSYD-Netで実験される。 pbaモジュールは、一様および多スケールのパッチから文脈情報を学習するセルフアテンション機構を活用し、パッチ間の意味的相関を理解するために識別的特徴を強調する。 さらに、ランダム消去データ拡張を適用して性能を向上させる。 提案したSYD-Netは5つのベースCNNを用いてYoga-82の最先端の精度を達成した。 他のデータセットに対するSYD-Netの精度は、その効率を暗示している。 私たちのsports-102とdance-12データセットはhttps://sites.google.com/view/syd-net/homeで公開されている。

Human body-pose estimation is a complex problem in computer vision. Recent research interests have been widened specifically on the Sports, Yoga, and Dance (SYD) postures for maintaining health conditions. The SYD pose categories are regarded as a fine-grained image classification task due to the complex movement of body parts. Deep Convolutional Neural Networks (CNNs) have attained significantly improved performance in solving various human body-pose estimation problems. Though decent progress has been achieved in yoga postures recognition using deep learning techniques, fine-grained sports, and dance recognition necessitates ample research attention. However, no benchmark public image dataset with sufficient inter-class and intra-class variations is available yet to address sports and dance postures classification. To solve this limitation, we have proposed two image datasets, one for 102 sport categories and another for 12 dance styles. Two public datasets, Yoga-82 which contains 82 classes and Yoga-107 represents 107 classes are collected for yoga postures. These four SYD datasets are experimented with the proposed deep model, SYD-Net, which integrates a patch-based attention (PbA) mechanism on top of standard backbone CNNs. The PbA module leverages the self-attention mechanism that learns contextual information from a set of uniform and multi-scale patches and emphasizes discriminative features to understand the semantic correlation among patches. Moreover, random erasing data augmentation is applied to improve performance. The proposed SYD-Net has achieved state-of-the-art accuracy on Yoga-82 using five base CNNs. SYD-Net's accuracy on other datasets is remarkable, implying its efficiency. Our Sports-102 and Dance-12 datasets are publicly available at https://sites.google.com/view/syd-net/home.
翻訳日:2023-08-02 15:12:57 公開日:2023-08-01
# 条件付き独立と伝達学習によるスケーラブル量子計測誤差軽減

Scalable quantum measurement error mitigation via conditional independence and transfer learning ( http://arxiv.org/abs/2308.00320v1 )

ライセンス: Link先を確認
ChangWon Lee, Daniel K. Park(参考訳) 量子システムにおける測定誤差を量子誤差補正に頼ることなく軽減することは、量子技術の実用化において重要である。 深層学習に基づく量子計測誤差軽減は非線形雑音を補正する能力により線形反転法よりも有利である。 しかし、スケーラビリティはどちらの方法にも課題である。 本研究では,遠隔量子ビットの条件付き独立性を生かし,転送学習技術を取り入れたスケーラブルな量子計測誤差軽減手法を提案する。 条件付き独立仮定を利用して、エラー軽減に使用されるニューラルネットワークのサイズを指数関数的に削減する。 この拡張は、機械学習モデルがうまく収束するのに必要なトレーニングデータ数を減らすというメリットも提供する。 さらに、転送学習の導入は、一定のスピードアップを提供する。 7量子ビットと13量子ビットのIBM量子デバイスを用いた実験により,本手法の有効性を検証し,優れた誤差低減性能を示し,本手法の有効性を強調した。

Mitigating measurement errors in quantum systems without relying on quantum error correction is of critical importance for the practical development of quantum technology. Deep learning-based quantum measurement error mitigation has exhibited advantages over the linear inversion method due to its capability to correct non-linear noise. However, scalability remains a challenge for both methods. In this study, we propose a scalable quantum measurement error mitigation method that leverages the conditional independence of distant qubits and incorporates transfer learning techniques. By leveraging the conditional independence assumption, we achieve an exponential reduction in the size of neural networks used for error mitigation. This enhancement also offers the benefit of reducing the number of training data needed for the machine learning model to successfully converge. Additionally, incorporating transfer learning provides a constant speedup. We validate the effectiveness of our approach through experiments conducted on IBM quantum devices with 7 and 13 qubits, demonstrating excellent error mitigation performance and highlighting the efficiency of our method.
翻訳日:2023-08-02 15:12:28 公開日:2023-08-01
# LimeAttack: テキスト・ラベル・アタックのための局所的説明可能な方法

LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial Attack ( http://arxiv.org/abs/2308.00319v1 )

ライセンス: Link先を確認
Hai Zhu and Zhaoqing Yang and Weiwei Shang and Yuren Wu(参考訳) 自然言語処理モデルは、逆の例に弱い。 以前のテキストによる敵意攻撃では、単語重要度ランキングを計算し、敵意の例を生成するために、勾配や信頼度スコアが採用されている。 しかし、この情報は現実世界では利用できない。 そこで我々は,より現実的で困難なハードラベル攻撃に着目し,攻撃者がモデルに問い合わせるだけで,個別の予測ラベルを得られるようにした。 既存のハードラベル攻撃アルゴリズムは、ランダムな置換によって敵の例を初期化し、複雑なヒューリスティックアルゴリズムを用いて敵の摂動を最適化する傾向にある。 これらのメソッドは大量のモデルクエリを必要とし、攻撃成功率は逆初期化によって制限される。 本稿では,局所的説明可能な手法を用いて単語重要度ランキングを近似し,ビーム探索を用いて最適な解を求める,新しいハードラベル攻撃アルゴリズムであるlimeattackを提案する。 大規模な実験では、LimeAttackは同じクエリ予算で既存のハードラベル攻撃と比較して、攻撃性能が向上している。 さらに,LimeAttackの大規模言語モデルに対する有効性を評価し,大言語モデルに対する敵対的な例が依然として重大な脅威であることを示す。 LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。

Natural language processing models are vulnerable to adversarial examples. Previous textual adversarial attacks adopt gradients or confidence scores to calculate word importance ranking and generate adversarial examples. However, this information is unavailable in the real world. Therefore, we focus on a more realistic and challenging setting, named hard-label attack, in which the attacker can only query the model and obtain a discrete prediction label. Existing hard-label attack algorithms tend to initialize adversarial examples by random substitution and then utilize complex heuristic algorithms to optimize the adversarial perturbation. These methods require a lot of model queries and the attack success rate is restricted by adversary initialization. In this paper, we propose a novel hard-label attack algorithm named LimeAttack, which leverages a local explainable method to approximate word importance ranking, and then adopts beam search to find the optimal solution. Extensive experiments show that LimeAttack achieves the better attacking performance compared with existing hard-label attack under the same query budget. In addition, we evaluate the effectiveness of LimeAttack on large language models, and results indicate that adversarial examples remain a significant threat to large language models. The adversarial examples crafted by LimeAttack are highly transferable and effectively improve model robustness in adversarial training.
翻訳日:2023-08-02 15:12:14 公開日:2023-08-01
# pixel to policy: 内外の強化学習のためのdqnエンコーダ

Pixel to policy: DQN Encoders for within & cross-game reinforcement learning ( http://arxiv.org/abs/2308.00318v1 )

ライセンス: Link先を確認
Ashrya Agrawal, Priyanshi Shah, Sourabh Prakash(参考訳) 強化学習は様々なタスクや環境に適用できる。 これらの環境の多くは同様の共有構造を持ち、他のタスクでのRL性能を改善するために利用することができる。 トランスファー学習は、さまざまなタスクや環境にまたがって転送可能で、より効率的な学習と幅広いタスクのパフォーマンス向上につながるポリシを学習することで、この共有構造を活用するために使用することができる。 この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。 さらに,複数のゲーム環境においてトレーニングされたモデルの性能について検討し,汎用ゲームプレイングエージェントの開発と,dqnを用いた事前学習エンコーダの転送と,同一ゲームまたは別のゲームでのトレーニングを目標とした。 我々のDQNモデルは、Deepmindの100万エピソードよりも大幅に低い20kエピソードで人間レベルのパフォーマンスを上回り、平均46.16の報酬を得る。 Assault と Space Invader の環境における平均報酬は 533.42 と 402.17 であり、これらの困難な環境における注目すべき性能を示している。

Reinforcement Learning can be applied to various tasks, and environments. Many of these environments have a similar shared structure, which can be exploited to improve RL performance on other tasks. Transfer learning can be used to take advantage of this shared structure, by learning policies that are transferable across different tasks and environments and can lead to more efficient learning as well as improved performance on a wide range of tasks. This work explores as well as compares the performance between RL models being trained from the scratch and on different approaches of transfer learning. Additionally, the study explores the performance of a model trained on multiple game environments, with the goal of developing a universal game-playing agent as well as transfer learning a pre-trained encoder using DQN, and training it on the same game or a different game. Our DQN model achieves a mean episode reward of 46.16 which even beats the human-level performance with merely 20k episodes which is significantly lower than deepmind's 1M episodes. The achieved mean rewards of 533.42 and 402.17 on the Assault and Space Invader environments respectively, represent noteworthy performance on these challenging environments.
翻訳日:2023-08-02 15:11:49 公開日:2023-08-01
# 対立サンプルのハーネス化によるゼロショット学習

Zero-Shot Learning by Harnessing Adversarial Samples ( http://arxiv.org/abs/2308.00313v1 )

ライセンス: Link先を確認
Zhi Chen, Pengfei Zhang, Jingjing Li, Sen Wang, Zi Huang(参考訳) ゼロショット学習(英: zero-shot learning, zsl)とは、一見したクラスから得られる知識、すなわち視覚的な関係と意味的な関係を一般化し、無意味なクラスを認識することを目的としている。 しかし、シングルラベルの監督にのみ依存する従来の拡張手法では意味情報を維持できず、結果として意味歪みの問題が発生するため、このアプローチはZSLに悪影響を及ぼす可能性がある。 言い換えれば、画像の議論は、ある画像の意味(例えば属性)情報を偽造することがある。 意味歪み問題を緩和しながら画像強化の利点を生かし,Harnessing Adversarial Samples (HAS)による新たなZSLアプローチを提案する。 HASは,(1) 正ラベルを維持しつつ, 負のクラスに類似する拡張を強制する堅牢な生成, (2) 元のデータ多様体からの大きなずれを回避するために潜在空間制約を導入することによる信頼性の高い生成, 3) それぞれの意味属性の局所性に応じて画像を調整することで属性ベースの摂動を取り入れることによる多様な生成という3つの重要な側面を考慮に入れ,ZSLを進化させる。 3つの顕著なゼロショットベンチマークデータセットに関する総合的な実験を通じて、ZSLと一般化ゼロショット学習(GZSL)のシナリオにおいて、我々の敵対的サンプルアプローチの有効性を実証する。 ソースコードはhttps://github.com/uqzhichen/haszslで入手できます。

Zero-Shot Learning (ZSL) aims to recognize unseen classes by generalizing the knowledge, i.e., visual and semantic relationships, obtained from seen classes, where image augmentation techniques are commonly applied to improve the generalization ability of a model. However, this approach can also cause adverse effects on ZSL since the conventional augmentation techniques that solely depend on single-label supervision is not able to maintain semantic information and result in the semantic distortion issue consequently. In other words, image argumentation may falsify the semantic (e.g., attribute) information of an image. To take the advantage of image augmentations while mitigating the semantic distortion issue, we propose a novel ZSL approach by Harnessing Adversarial Samples (HAS). HAS advances ZSL through adversarial training which takes into account three crucial aspects: (1) robust generation by enforcing augmentations to be similar to negative classes, while maintaining correct labels, (2) reliable generation by introducing a latent space constraint to avert significant deviations from the original data manifold, and (3) diverse generation by incorporating attribute-based perturbation by adjusting images according to each semantic attribute's localization. Through comprehensive experiments on three prominent zero-shot benchmark datasets, we demonstrate the effectiveness of our adversarial samples approach in both ZSL and Generalized Zero-Shot Learning (GZSL) scenarios. Our source code is available at https://github.com/uqzhichen/HASZSL.
翻訳日:2023-08-02 15:11:26 公開日:2023-08-01
# 二重ロバストなインスタンス強化型対向訓練

Doubly Robust Instance-Reweighted Adversarial Training ( http://arxiv.org/abs/2308.00311v1 )

ライセンス: Link先を確認
Daouda Sow, Sen Lin, Zhangyang Wang, Yingbin Liang(参考訳) 対向データに重要度重みを割り当てることは、限定されたモデル容量で対向ロバストなネットワークを訓練する上で大きな成功を収めた。 しかし、既存のインスタンス重み付き対位訓練(AT)手法は、これらの重みを決定するためにヒューリスティックスや幾何学的解釈に大きく依存しているため、厳密な理論的正当性を欠いている。 さらに、近年の研究では、一部のクラスに属するデータポイントが、他のクラスよりも敵の攻撃に対して脆弱な場合など、トレーニングディストリビューション全体での非一様で堅牢なパフォーマンスに苦しむことが示されている。 そこで本論文では,分散ロバスト最適化(DRO)手法を探索することで重み付けを重要とし,また,最も脆弱な例に対するロバスト性を向上する,新しい二重ローバストインスタンス再重み付けATフレームワークを提案する。 特に、kl-divergence正規化損失関数を最適化することで、重み付けの重要性が得られ、理論収束保証で新しいアルゴリズムを考案できる。 標準分類データセットの実験では,提案手法は平均ロバストな性能で最先端のベースライン手法よりも優れており,同時に最も弱いデータポイントに対する攻撃に対するロバスト性も向上している。 コードはもうすぐ入手できる。

Assigning importance weights to adversarial data has achieved great success in training adversarially robust networks under limited model capacity. However, existing instance-reweighted adversarial training (AT) methods heavily depend on heuristics and/or geometric interpretations to determine those importance weights, making these algorithms lack rigorous theoretical justification/guarantee. Moreover, recent research has shown that adversarial training suffers from a severe non-uniform robust performance across the training distribution, e.g., data points belonging to some classes can be much more vulnerable to adversarial attacks than others. To address both issues, in this paper, we propose a novel doubly-robust instance reweighted AT framework, which allows to obtain the importance weights via exploring distributionally robust optimization (DRO) techniques, and at the same time boosts the robustness on the most vulnerable examples. In particular, our importance weights are obtained by optimizing the KL-divergence regularized loss function, which allows us to devise new algorithms with a theoretical convergence guarantee. Experiments on standard classification datasets demonstrate that our proposed approach outperforms related state-of-the-art baseline methods in terms of average robust performance, and at the same time improves the robustness against attacks on the weakest data points. Codes will be available soon.
翻訳日:2023-08-02 15:10:56 公開日:2023-08-01
# GradOrth: 勾配の直交投影による簡易かつ効率的な分布検出

GradOrth: A Simple yet Efficient Out-of-Distribution Detection with Orthogonal Projection of Gradients ( http://arxiv.org/abs/2308.00310v1 )

ライセンス: Link先を確認
Sima Behpour, Thang Doan, Xin Li, Wenbin He, Liang Gou, Liu Ren(参考訳) 現実世界のアプリケーションに機械学習モデルの安全なデプロイを保証するためには、OOD(out-of-distriion)データの検出が不可欠である。 しかし、既存のOOD検出手法は、主に特徴マップや全勾配空間情報に依存して、事前学習されたネットワークにおける最も重要なパラメータの役割を無視するOODスコアを導出する。 本研究では,OODデータを識別する重要な特徴が分布内データ(ID)の下位部分空間にあるという興味深い観察に基づいて,GradOrthと呼ばれる新しい手法を提案する。 特に,分布内データにとって重要と考えられる部分空間上の勾配投影のノルムを計算し,OODデータを同定する。 大きな直交射影値(すなわち小さな射影値)は、サンプルをOODとして示し、IDデータの弱い相関を捉えている。 この単純で効果的な方法は優れた性能を示し、現在の最先端法と比較して95%の真正率 (fpr95) で平均偽陽性率を8%まで低下させた。

Detecting out-of-distribution (OOD) data is crucial for ensuring the safe deployment of machine learning models in real-world applications. However, existing OOD detection approaches primarily rely on the feature maps or the full gradient space information to derive OOD scores neglecting the role of most important parameters of the pre-trained network over in-distribution (ID) data. In this study, we propose a novel approach called GradOrth to facilitate OOD detection based on one intriguing observation that the important features to identify OOD data lie in the lower-rank subspace of in-distribution (ID) data. In particular, we identify OOD data by computing the norm of gradient projection on the subspaces considered important for the in-distribution data. A large orthogonal projection value (i.e. a small projection value) indicates the sample as OOD as it captures a weak correlation of the ID data. This simple yet effective method exhibits outstanding performance, showcasing a notable reduction in the average false positive rate at a 95% true positive rate (FPR95) of up to 8% when compared to the current state-of-the-art methods.
翻訳日:2023-08-02 15:10:28 公開日:2023-08-01
# 不確実領域予測による形状完了

Shape Completion with Prediction of Uncertain Regions ( http://arxiv.org/abs/2308.00377v1 )

ライセンス: Link先を確認
Matthias Humt, Dominik Winkelbauer, Ulrich Hillenbrand(参考訳) 形状完了、すなわち、部分的な観察から物体の完全な形状を予測することは、いくつかの下流タスク、特にロボット操作に非常に関係がある。 物体形状復元における実把握の計画や予測を行う場合,重度の幾何学的不確かさの表示は不可欠である。 特に、あいまいなオブジェクトビューが与えられた場合、オブジェクト部分全体に関する拡張領域において、既約不確実性が存在する可能性がある。 そこで本研究では,不確かさインジケータの直接予測により,地域空間占有率の予測手法の直接的な拡張として,不確かさ領域を予測する2つの新しい手法を提案する。 これらの手法を確率的形状完了のための2つの既知のアプローチと比較する。 さらに,不確実領域に対する地中アノテーションを用いたオブジェクトビューの奥行き画像から,シェープネットから派生したデータセットを生成する。 このデータセットをトレーニングし、既知の、新しいオブジェクトインスタンスおよび合成および実データに対する不確実な領域の形状完了と予測において各手法をテストする。 直接不確実性予測は, 不確かさ領域のセグメンテーションにおいて, はるかに精度が高いが, 両手法は, 整形および不確かさ領域予測において2つの基準線を上回り, 予測不確実性領域を避けることにより, 全ての試験方法の把握精度が向上する。 Web: https://github.com/DLR-RM/shape-completion

Shape completion, i.e., predicting the complete geometry of an object from a partial observation, is highly relevant for several downstream tasks, most notably robotic manipulation. When basing planning or prediction of real grasps on object shape reconstruction, an indication of severe geometric uncertainty is indispensable. In particular, there can be an irreducible uncertainty in extended regions about the presence of entire object parts when given ambiguous object views. To treat this important case, we propose two novel methods for predicting such uncertain regions as straightforward extensions of any method for predicting local spatial occupancy, one through postprocessing occupancy scores, the other through direct prediction of an uncertainty indicator. We compare these methods together with two known approaches to probabilistic shape completion. Moreover, we generate a dataset, derived from ShapeNet, of realistically rendered depth images of object views with ground-truth annotations for the uncertain regions. We train on this dataset and test each method in shape completion and prediction of uncertain regions for known and novel object instances and on synthetic and real data. While direct uncertainty prediction is by far the most accurate in the segmentation of uncertain regions, both novel methods outperform the two baselines in shape completion and uncertain region prediction, and avoiding the predicted uncertain regions increases the quality of grasps for all tested methods. Web: https://github.com/DLR-RM/shape-completion
翻訳日:2023-08-02 15:02:35 公開日:2023-08-01
# 学習可能拡張による深部画像調和

Deep Image Harmonization with Learnable Augmentation ( http://arxiv.org/abs/2308.00376v1 )

ライセンス: Link先を確認
Li Niu, Junyan Cao, Wenyan Cong, Liqing Zhang(参考訳) 画像調和の目標は、合成画像の前景の外観を調整し、画像全体を調和させることである。 ペアトレーニング画像を構築するために、既存のデータセットは、実画像の前景の照明統計を調整して合成複合画像を生成する異なる方法を採用する。 しかしながら、異なるデータセットにはかなりのドメインギャップがあり、小規模データセットのパフォーマンスはトレーニングデータ不足によって制限される。 本研究では,小型データセットの照明多様性を向上し,調和性能を向上させるための学習可能な拡張について検討する。 特に,筆者らが設計したsymthetic composite network (syconet) は,前景マスクとランダムベクターを備えた実画像を取り込んで,この実画像の前景に適用して合成合成合成画像を生成する適切な色変換を学習する。 画像調和のための学習可能拡張の有効性を総合実験で実証した。 SycoNetのコードはhttps://github.com/bcmi/SycoNet-Adaptive-Image-Harmonizationで公開されている。

The goal of image harmonization is adjusting the foreground appearance in a composite image to make the whole image harmonious. To construct paired training images, existing datasets adopt different ways to adjust the illumination statistics of foregrounds of real images to produce synthetic composite images. However, different datasets have considerable domain gap and the performances on small-scale datasets are limited by insufficient training data. In this work, we explore learnable augmentation to enrich the illumination diversity of small-scale datasets for better harmonization performance. In particular, our designed SYthetic COmposite Network (SycoNet) takes in a real image with foreground mask and a random vector to learn suitable color transformation, which is applied to the foreground of this real image to produce a synthetic composite image. Comprehensive experiments demonstrate the effectiveness of our proposed learnable augmentation for image harmonization. The code of SycoNet is released at https://github.com/bcmi/SycoNet-Adaptive-Image-Harmonization.
翻訳日:2023-08-02 15:02:10 公開日:2023-08-01
# 回路レベルの雑音下でのイジングマシンによる量子誤差補正

Quantum error correction with an Ising machine under circuit-level noise ( http://arxiv.org/abs/2308.00369v1 )

ライセンス: Link先を確認
Jun Fujisaki, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato, Tatsuya Sakashita, Yusaku Takeuchi, Keisuke Fujii(参考訳) シンドローム測定の結果からエラー位置を推定する効率的な復号は、量子誤差補正の前提条件である。 実際の量子コンピューティング装置の場合、測定誤差を含む回路レベルのノイズの存在下での復号は考慮すべきである。 本研究では,Ising型最適化問題として誤り推定問題を解く回路レベルのノイズデコーダを開発する。 回路レベルの雑音下での表面符号のしきい値定理が約0.4%の誤差閾値で再現されることを確認する。 また、他のマッチングベースのデコーダと比較して、Yエラー検出率を改善することができるデコーダの利点を示す。 その結果,最小重みの完全マッチングアルゴリズムと比較して,より低い論理誤差率が得られることがわかった。

Efficient decoding to estimate error locations from outcomes of syndrome measurement is the prerequisite for quantum error correction. Decoding in presence of circuit-level noise including measurement errors should be considered in case of actual quantum computing devices. In this work, we develop a decoder for circuit-level noise that solves the error estimation problems as Ising-type optimization problems. We confirm that the threshold theorem in the surface code under the circuitlevel noise is reproduced with an error threshold of approximately 0.4%. We also demonstrate the advantage of the decoder through which the Y error detection rate can be improved compared with other matching-based decoders. Our results reveal that a lower logical error rate can be obtained using our algorithm compared with that of the minimum-weight perfect matching algorithm.
翻訳日:2023-08-02 15:01:51 公開日:2023-08-01
# Fountain -- リスク識別のための知識表現と言語モデルを組み合わせたインテリジェントコンテキストアシスタント

Fountain -- an intelligent contextual assistant combining knowledge representation and language models for manufacturing risk identification ( http://arxiv.org/abs/2308.00364v1 )

ライセンス: Link先を確認
Saurabh Kumar, Daniel Fuchs, Klaus Spindler(参考訳) 大量生産中の承認された設計やプロセスからの逸脱は、予期せぬリスクを引き起こす可能性がある。 しかし、これらの変化は製品設計特性の変化や製造工程の適応によって必要となることがある。 大きな課題は、ワークフローの早い段階でこれらのリスクを特定し、保証請求につながる障害を回避することだ。 我々は,既存の設計基準やプロセス基準,提案した逸脱の記述に基づくリスクの特定を支援する,逸脱管理ワークフローに統合されたコンテキストアシスタントとしてFontainを開発した。 製造の文脈では、アシスタントが説明可能かつ一貫性のあるレコメンデーションを提供することが重要です。 これを以下の2つの構成要素の組み合わせで達成します 1)ドメイン固有の意味的類似性のために微調整された言語モデル 2) 材料請求書,故障モード及び効果分析(fmea)及び顧客から報告された先行的故障から派生した特性グラフの形での知識表現。 本稿では、工学領域における事前学習言語モデルの選択と適応、コンテキストアシスタントとのユーザインタラクションに基づく継続的モデル更新、知識表現に基づく説明可能なレコメンデーションのための因果連鎖の作成について述べる。 さらに、製造組織内のほとんどのエンジニアリングチームで既に利用可能な適度な計算インフラを使用してモデル適応が実現可能であることを実証し、これらのメソッドをデプロイしやすいように既存のアプリケーションと統合するための標準CPUインスタンス上で推論を行うことができることを示した。

Deviations from the approved design or processes during mass production can lead to unforeseen risks. However, these changes are sometimes necessary due to changes in the product design characteristics or an adaptation in the manufacturing process. A major challenge is to identify these risks early in the workflow so that failures leading to warranty claims can be avoided. We developed Fountain as a contextual assistant integrated in the deviation management workflow that helps in identifying the risks based on the description of the existing design and process criteria and the proposed deviation. In the manufacturing context, it is important that the assistant provides recommendations that are explainable and consistent. We achieve this through a combination of the following two components 1) language models finetuned for domain specific semantic similarity and, 2) knowledge representation in the form of a property graph derived from the bill of materials, Failure Modes and Effect Analysis (FMEA) and prior failures reported by customers. Here, we present the nuances of selecting and adapting pretrained language models for an engineering domain, continuous model updates based on user interaction with the contextual assistant and creating the causal chain for explainable recommendations based on the knowledge representation. Additionally, we demonstrate that the model adaptation is feasible using moderate computational infrastructure already available to most engineering teams in manufacturing organizations and inference can be performed on standard CPU only instances for integration with existing applications making these methods easily deployable.
翻訳日:2023-08-02 15:01:40 公開日:2023-08-01
# グローバル誘導型特徴変換と関係蒸留による深部画像調和

Deep Image Harmonization with Globally Guided Feature Transformation and Relation Distillation ( http://arxiv.org/abs/2308.00356v1 )

ライセンス: Link先を確認
Li Niu, Linfeng Tan, Xinhao Tao, Junyan Cao, Fengjun Guo, Teng Long, Liqing Zhang(参考訳) 合成画像が与えられると、画像調和は前景照明を背景と整合するように調整することを目的としている。 従来の手法では、前景の特徴を変換して競争性能を実現する方法が検討されてきた。 本研究では,グローバル情報を用いて前景の特徴変換を導くことにより,大幅な改善が期待できることを示す。 また,変換エンコーダの特徴を中間的に管理できる実画像から合成画像へのフォアグラウンド・バックグラウンド関係の転送を提案する。 また,既存の調和データセットの欠点を考慮し,自然照明変動をシミュレートしたccharmonyデータセットも提供する。 iHarmony4と提案したデータセットの大規模な実験により,本手法の優位性を実証した。 私たちのccHarmonyデータセットはhttps://github.com/bcmi/Image-Harmonization-Dataset-ccHarmonyで公開されています。

Given a composite image, image harmonization aims to adjust the foreground illumination to be consistent with background. Previous methods have explored transforming foreground features to achieve competitive performance. In this work, we show that using global information to guide foreground feature transformation could achieve significant improvement. Besides, we propose to transfer the foreground-background relation from real images to composite images, which can provide intermediate supervision for the transformed encoder features. Additionally, considering the drawbacks of existing harmonization datasets, we also contribute a ccHarmony dataset which simulates the natural illumination variation. Extensive experiments on iHarmony4 and our contributed dataset demonstrate the superiority of our method. Our ccHarmony dataset is released at https://github.com/bcmi/Image-Harmonization-Dataset-ccHarmony.
翻訳日:2023-08-02 15:01:16 公開日:2023-08-01
# Lowis3D: 言語駆動のオープンワールドインスタンスレベルの3Dシーン理解

Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding ( http://arxiv.org/abs/2308.00353v1 )

ライセンス: Link先を確認
Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan Qi(参考訳) オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未認識のオブジェクトカテゴリを見つけ、認識することを目的としている。 モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。 2dオープンワールド認識の最近の進歩の鍵となる要素は、幅広い語彙概念をカバーするインターネットからの大規模画像テキストペアが利用可能であることだ。 しかし、この成功は、3Dテキストペアの不足のため、3Dシナリオで再現することは困難である。 この課題に対処するために,3次元シーンの多視点画像のキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習された視覚言語基盤モデルを提案する。 これにより,3次元形状と意味豊かなキャプションとの明確な関連性を確立することができる。 さらに、オブジェクトレベルの分類のためのキャプションからのきめ細かい視覚的意味表現の学習を強化するために、3Dポイントとマルチビューイメージ間の3次元幾何を利用した意味認識埋め込みを学習するための階層的ポイントキャプチャーアソシエーション法を設計する。 さらに,オープンワールド設定における新規クラスのローカライズチャレンジに取り組むために,インスタンスレベルの擬似監督を用いてラベルなしデータに対してオブジェクトグループ化モジュールをトレーニングするデバイアス付きインスタンスローカライズを開発した。 これにより、インスタンスグループ化の一般化能力が大幅に向上し、新しいオブジェクトを正確に見つけることができる。 室内と屋外のシーンを3つのデータセットでカバーし、3Dセマンティック、例えば、パノプティックセグメンテーションタスクについて広範な実験を行った。 我々の手法は、セマンティックセグメンテーション(34.5%$\sim$65.3%)、インスタンスセグメンテーション(21.8%$\sim$54.0%)、パン光学セグメンテーション(14.7%$\sim$43.3%)において、ベースライン手法よりも優れている。 コードは利用可能だ。

Open-world instance-level scene understanding aims to locate and recognize unseen object categories that are not present in the annotated dataset. This task is challenging because the model needs to both localize novel 3D objects and infer their semantic categories. A key factor for the recent progress in 2D open-world perception is the availability of large-scale image-text pairs from the Internet, which cover a wide range of vocabulary concepts. However, this success is hard to replicate in 3D scenarios due to the scarcity of 3D-text pairs. To address this challenge, we propose to harness pre-trained vision-language (VL) foundation models that encode extensive knowledge from image-text pairs to generate captions for multi-view images of 3D scenes. This allows us to establish explicit associations between 3D shapes and semantic-rich captions. Moreover, to enhance the fine-grained visual-semantic representation learning from captions for object-level categorization, we design hierarchical point-caption association methods to learn semantic-aware embeddings that exploit the 3D geometry between 3D points and multi-view images. In addition, to tackle the localization challenge for novel classes in the open-world setting, we develop debiased instance localization, which involves training object grouping modules on unlabeled data using instance-level pseudo supervision. This significantly improves the generalization capabilities of instance grouping and thus the ability to accurately locate novel objects. We conduct extensive experiments on 3D semantic, instance, and panoptic segmentation tasks, covering indoor and outdoor scenes across three datasets. Our method outperforms baseline methods by a significant margin in semantic segmentation (e.g. 34.5%$\sim$65.3%), instance segmentation (e.g. 21.8%$\sim$54.0%) and panoptic segmentation (e.g. 14.7%$\sim$43.3%). Code will be available.
翻訳日:2023-08-02 15:01:02 公開日:2023-08-01
# MetaGPT: マルチエージェント協調フレームワークのためのメタプログラミング

MetaGPT: Meta Programming for Multi-Agent Collaborative Framework ( http://arxiv.org/abs/2308.00352v1 )

ライセンス: Link先を確認
Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu(参考訳) 近年,大規模言語モデル(llm)によるマルチエイジェントによるタスク自動解決において顕著な進歩がみられている。 しかし、既存の研究は主に幻覚の問題による複雑なタスクの探索と調査を欠いた単純なタスクに焦点を当てている。 この種の幻覚は、複数の知的エージェントが相互に相互作用することで無限に増幅され、複雑な問題に取り組む際に失敗する。それ以前には、LLM駆動のマルチエージェントコラボレーションにメタプログラミングアプローチとして効果的なヒューマンワークフローを注入する革新的フレームワークであるMetaGPTを紹介した。 特にMetaGPTは、まずSOP(Standardized Operating Procedures)をプロンプトにエンコードし、構造化された調整を促進する。 そして、アウトプットの検証と複合的なエラーの低減のために、ドメイン専門のエージェントに人間のプロフェッショナルを並列させる。 このように、metagptは、様々なエージェントに多様な役割を割り当てるためにアセンブリラインワークモデルを利用して、複雑なマルチエージェント協調問題を効果的かつ凝集的に分解するフレームワークを構築します。 本稿では,既存の対話型・チャット型マルチエージェントシステムに対して,協調性の高い包括的ソリューションを開発する上で,MetaGPTの能力を示す実験を行った。 これは、人間のドメイン知識をマルチエイジェントに組み込む可能性の基礎となり、複雑な現実世界の課題に取り組むための新しい道を開く。 このプロジェクトのGitHubリポジトリは、https://github.com/geekan/MetaGPTで公開されている。

Recently, remarkable progress has been made in automated task-solving through the use of multi-agents driven by large language models (LLMs). However, existing works primarily focuses on simple tasks lacking exploration and investigation in complicated tasks mainly due to the hallucination problem. This kind of hallucination gets amplified infinitely as multiple intelligent agents interact with each other, resulting in failures when tackling complicated problems.Therefore, we introduce MetaGPT, an innovative framework that infuses effective human workflows as a meta programming approach into LLM-driven multi-agent collaboration. In particular, MetaGPT first encodes Standardized Operating Procedures (SOPs) into prompts, fostering structured coordination. And then, it further mandates modular outputs, bestowing agents with domain expertise paralleling human professionals to validate outputs and reduce compounded errors. In this way, MetaGPT leverages the assembly line work model to assign diverse roles to various agents, thus establishing a framework that can effectively and cohesively deconstruct complex multi-agent collaborative problems. Our experiments conducted on collaborative software engineering tasks illustrate MetaGPT's capability in producing comprehensive solutions with higher coherence relative to existing conversational and chat-based multi-agent systems. This underscores the potential of incorporating human domain knowledge into multi-agents, thus opening up novel avenues for grappling with intricate real-world challenges. The GitHub repository of this project is made publicly available on: https://github.com/geekan/MetaGPT
翻訳日:2023-08-02 15:00:21 公開日:2023-08-01
# 低ランク近似を用いたグリーン関数の学習

Learning Green's Function Efficiently Using Low-Rank Approximations ( http://arxiv.org/abs/2308.00350v1 )

ライセンス: Link先を確認
Kishan Wimalawarne, Taiji Suzuki, Sophie Langer(参考訳) 深層学習モデルを用いてグリーン関数を学習することで、偏微分方程式の異なるクラスを解くことができる。 グリーン関数に対する深層学習の実践的な制限は、計算的に高価なモンテカルロ積分近似の繰り返しである。 低ランク分解によるグリーン関数の学習を提案し,評価のための領域データとモンテカルロ検定を分離して冗長な計算を除去するアーキテクチャを提案する。 実験により,提案手法はMOD-Netと比較して計算時間を向上し,PINNとMOD-Netに比較して精度が向上することを示した。

Learning the Green's function using deep learning models enables to solve different classes of partial differential equations. A practical limitation of using deep learning for the Green's function is the repeated computationally expensive Monte-Carlo integral approximations. We propose to learn the Green's function by low-rank decomposition, which results in a novel architecture to remove redundant computations by separate learning with domain data for evaluation and Monte-Carlo samples for integral approximation. Using experiments we show that the proposed method improves computational time compared to MOD-Net while achieving comparable accuracy compared to both PINNs and MOD-Net.
翻訳日:2023-08-02 14:59:58 公開日:2023-08-01
# 逆ロバスト性に対するディープニューラルネットワークの不確かさ推定に基づく動的アンサンブル選択

Dynamic ensemble selection based on Deep Neural Network Uncertainty Estimation for Adversarial Robustness ( http://arxiv.org/abs/2308.00346v1 )

ライセンス: Link先を確認
Ruoxi Qin, Linyuan Wang, Xuehui Du, Xingyuan Chen, Bin Yan(参考訳) ディープニューラルネットワークは、画像認識の大幅な効率性を達成した。 しかしながら、実用上の広範囲なデータ不確実性の下では、認識の堅牢性は脆弱である。 不確実性は、避けられない環境騒音と、さらに重要なのは、敵の攻撃の可能性にある。 動的手法は、攻撃の武器競争における防衛イニシアチブを効果的に改善し、敵の例を防衛することができる。 従来の動的手法が入力や決定に依存するのとは異なり、この研究はモデルをホワイトボックス攻撃から保護し、ロバスト性を改善するために動的アンサンブル選択技術を通じてモデルレベルの動的属性を探索する。 具体的には、トレーニング段階では、ディリクレ分布はサブモデルの予測分布の前に適用され、パラメータ空間の多様性制約は軽量なサブモデルの下で導入され、代替エンサンベルモデル空間を構築する。 テストフェーズでは、最終的な予測に対する不確かさ値のランクに基づいて特定のサブモデルを動的に選択し、アンサンブルロバスト性および精度の大多数の正確な原理を保証する。 従来の動的手法や静的逆転写モデルと比較すると, 動的特性と多様性特性を組み合わせることで, 精度を損なうことなく, 顕著なロバスト性が得られる。

The deep neural network has attained significant efficiency in image recognition. However, it has vulnerable recognition robustness under extensive data uncertainty in practical applications. The uncertainty is attributed to the inevitable ambient noise and, more importantly, the possible adversarial attack. Dynamic methods can effectively improve the defense initiative in the arms race of attack and defense of adversarial examples. Different from the previous dynamic method depend on input or decision, this work explore the dynamic attributes in model level through dynamic ensemble selection technology to further protect the model from white-box attacks and improve the robustness. Specifically, in training phase the Dirichlet distribution is apply as prior of sub-models' predictive distribution, and the diversity constraint in parameter space is introduced under the lightweight sub-models to construct alternative ensembel model spaces. In test phase, the certain sub-models are dynamically selected based on their rank of uncertainty value for the final prediction to ensure the majority accurate principle in ensemble robustness and accuracy. Compared with the previous dynamic method and staic adversarial traning model, the presented approach can achieve significant robustness results without damaging accuracy by combining dynamics and diversity property.
翻訳日:2023-08-02 14:59:48 公開日:2023-08-01
# 最適化フライング対応パッチを用いた深層学習型マルチロータのキドナッピング

Kidnapping Deep Learning-based Multirotors using Optimized Flying Adversarial Patches ( http://arxiv.org/abs/2308.00344v1 )

ライセンス: Link先を確認
Pia Hanfeld, Khaled Wahba, Marina M.-C. H\"ohne, Michael Bussmann, Wolfgang H\"onig(参考訳) マルチローターのような自律飛行ロボットは、例えばポーズ推定など、カメラ画像に基づいて予測を行うディープラーニングモデルに依存することが多い。 これらのモデルは、トレーニング領域外の入力画像に適用した場合、驚くべき結果を予測することができる。 この障害は、例えば、ニューラルネットワークの予測を操作するために環境に置かれる小さなイメージ、いわゆる敵パッチを計算することによって、敵攻撃によって悪用される。 そこで本稿では,複数の画像が他の1つの飛行ロボットに装着され,対象のマルチロケータの視野内に配置される空飛ぶ対向パッチを紹介する。 攻撃ロボットを導入することで、システムは敵のマルチロボットシステムに拡張される。 効果的な攻撃のために,複数の敵パッチと入力画像の位置を同時に最適化する3つの手法を比較した。 提案手法は, 敵パッチ数に比例して拡張可能であることを示す。 さらに,人間に追従するはずのロボットを誘拐するために,計算された敵パッチを用いた新たな攻撃ポリシーを用いて,2つのロボットによる物理的飛行を実証する。

Autonomous flying robots, such as multirotors, often rely on deep learning models that makes predictions based on a camera image, e.g. for pose estimation. These models can predict surprising results if applied to input images outside the training domain. This fault can be exploited by adversarial attacks, for example, by computing small images, so-called adversarial patches, that can be placed in the environment to manipulate the neural network's prediction. We introduce flying adversarial patches, where multiple images are mounted on at least one other flying robot and therefore can be placed anywhere in the field of view of a victim multirotor. By introducing the attacker robots, the system is extended to an adversarial multi-robot system. For an effective attack, we compare three methods that simultaneously optimize multiple adversarial patches and their position in the input image. We show that our methods scale well with the number of adversarial patches. Moreover, we demonstrate physical flights with two robots, where we employ a novel attack policy that uses the computed adversarial patches to kidnap a robot that was supposed to follow a human.
翻訳日:2023-08-02 14:59:26 公開日:2023-08-01
# driveadapter:エンドツーエンド自動運転における知覚と計画の結合障壁を破る

DriveAdapter: Breaking the Coupling Barrier of Perception and Planning in End-to-End Autonomous Driving ( http://arxiv.org/abs/2308.00398v1 )

ライセンス: Link先を確認
Xiaosong Jia, Yulu Gao, Li Chen, Junchi Yan, Patrick Langechuan Liu, Hongyang Li(参考訳) エンドツーエンドの自動運転は、生のセンサーデータを入力として、ego車両の予定軌道や制御信号を直接出力する、完全に微分可能なシステムを構築することを目的としている。 最先端のメソッドは通常 'Teacher-Student' パラダイムに従う。 教師モデルは、運転戦略を学ぶために特権情報(周囲のエージェントとマップ要素の基底状態)を使用する。 学習モデルでは,生のセンサデータのみにアクセスでき,教師モデルが収集したデータに対して行動クローニングを行う。 学習計画において知覚部分のノイズを除去することにより、最先端の作業は、結合した作業よりもはるかに少ないデータでより良いパフォーマンスを達成することができる。 しかし,現在の教師・教師パラダイムでは,生センサ入力の冗長でノイズの多い性質と,行動のクローン化のカジュアルな混乱の問題から,学生モデルでは計画ヘッドをスクラッチから学習する必要がある。 本研究は,教師の強いモデルを直接採用して計画を行い,生徒モデルが認知的部分に集中する可能性について検討することを目的とする。 また,SOTA認識モデルを用いた場合であっても,教師モデルの必要な入力を直接学習させることで,予測された特権入力と接地トラストとの間の大きな分配ギャップから生じる運転性能が低下することが判明した。 この目的のために,DriveAdapterを提案する。DriveAdapterは,学生(知覚)と教師(計画)モジュール間の機能アライメント目的機能を備えたアダプタである。 また、純粋学習型教師モデル自体が不完全であり、時折安全ルールを破るので、不完全教師機能のためのマスクを用いた行動誘導型特徴学習法を提案し、手作りルールの先行を学習プロセスに注入する。

End-to-end autonomous driving aims to build a fully differentiable system that takes raw sensor data as inputs and directly outputs the planned trajectory or control signals of the ego vehicle. State-of-the-art methods usually follow the `Teacher-Student' paradigm. The Teacher model uses privileged information (ground-truth states of surrounding agents and map elements) to learn the driving strategy. The student model only has access to raw sensor data and conducts behavior cloning on the data collected by the teacher model. By eliminating the noise of the perception part during planning learning, state-of-the-art works could achieve better performance with significantly less data compared to those coupled ones. However, under the current Teacher-Student paradigm, the student model still needs to learn a planning head from scratch, which could be challenging due to the redundant and noisy nature of raw sensor inputs and the casual confusion issue of behavior cloning. In this work, we aim to explore the possibility of directly adopting the strong teacher model to conduct planning while letting the student model focus more on the perception part. We find that even equipped with a SOTA perception model, directly letting the student model learn the required inputs of the teacher model leads to poor driving performance, which comes from the large distribution gap between predicted privileged inputs and the ground-truth. To this end, we propose DriveAdapter, which employs adapters with the feature alignment objective function between the student (perception) and teacher (planning) modules. Additionally, since the pure learning-based teacher model itself is imperfect and occasionally breaks safety rules, we propose a method of action-guided feature learning with a mask for those imperfect teacher features to further inject the priors of hand-crafted rules into the learning process.
翻訳日:2023-08-02 14:54:04 公開日:2023-08-01
# 超伝導マイクロ波共振器の単一量子以下の量子回路冷凍

Quantum-circuit refrigeration of a superconducting microwave resonator well below a single quantum ( http://arxiv.org/abs/2308.00397v1 )

ライセンス: Link先を確認
Arto Viitanen, Timm M\"orstedt, Wallace S. Teixeira, Maaria Tiiri, Jukka R\"abin\"a, Matti Silveri, Mikko M\"ott\"onen(参考訳) 超伝導4.7GHz共振器用単接合型量子回路冷凍機(QCR)について実験を行った。 トランスモン量子ビットの助けを借りて、異なる共振器フォック状態の個体数を測定し、設計された電磁環境の温度への信頼性の高いアクセスと共振器への影響を提供する。 我々は、コヒーレントかつ熱共振器の状態を示し、QCRが供給するオンデマンドの散逸は、たとえ1K以上でも、平均して光子のごく一部に駆動できることを示し、QCRは、dcバイアス電圧またはギガヘルツrf駆動で動作可能であるか、またはこれらの組み合わせで動作可能であることを観察した。 rfドライブの帯域幅は回路自体によって制限されず、2.9GHz連続、10nsパルスドライブが共振器の同じ所望の冷凍に繋がることを示す。 これらの観測は、フォック状態が解決できず、QCRが遅い充電ダイナミクスを示した以前の研究の欠点に答える。 そこで本研究では, 開量子系, 量子熱力学, 超伝導量子ビットを高速にリセットするための汎用的手法を提案する。

We experimentally demonstrate a recently proposed single-junction quantum-circuit refrigerator (QCR) as an in-situ-tunable low-temperature environment for a superconducting 4.7-GHz resonator. With the help of a transmon qubit, we measure the populations of the different resonator Fock states, thus providing reliable access to the temperature of the engineered electromagnetic environment and its effect on the resonator. We demonstrate coherent and thermal resonator states and that the on-demand dissipation provided by the QCR can drive these to a small fraction of a photon on average, even if starting above 1 K. We observe that the QCR can be operated either with a dc bias voltage or a gigahertz rf drive, or a combination of these. The bandwidth of the rf drive is not limited by the circuit itself and consequently, we show that 2.9-GHz continuous and 10-ns-pulsed drives lead to identical desired refrigeration of the resonator. These observations answer to the shortcomings of previous works where the Fock states were not resolvable and the QCR exhibited slow charging dynamics. Thus this work introduces a versatile tool to study open quantum systems, quantum thermodynamics, and to quickly reset superconducting qubits.
翻訳日:2023-08-02 14:53:31 公開日:2023-08-01
# ナビゲーションと着陸のための合成イベントベース視覚データセットの作成について

On the Generation of a Synthetic Event-Based Vision Dataset for Navigation and Landing ( http://arxiv.org/abs/2308.00394v1 )

ライセンス: Link先を確認
Lo\"ic J. Azzalini and Emmanuel Blazquez and Alexander Hadjiivanov and Gabriele Meoni and Dario Izzo(参考訳) イベントベースカメラは、センサ面内の特定の画素位置において、予め設定された大きさのシーン輝度の変化が検出されたときにイベントを出力する。 この新しいカメラの高ダイナミックレンジと時間分解能と組み合わされたスパースと非同期出力は、ナビゲーションと着陸のためのイベントベースカメラの研究を動機付けている。 しかしながら、この一連の研究をサポートするための現実世界と合成データセットの欠如は、オンボード使用に対する考慮を制限している。 本稿では,目標物体接近時の最適着陸軌道からイベントベース視覚データセットを生成するための方法論とソフトウェアパイプラインを提案する。 本研究では,惑星と小惑星による月面の光学的画像のシーケンスを,境界条件の変化によって得られた最適降下軌道のセットに沿って,異なる視点で構築する。 生成された画像シーケンスは、イベントベースのカメラエミュレータによってイベントストリームに変換される。 このパイプラインは,500の軌跡のデータセットを構築し,イベントストリームとモーションフィールド・グランド・トゥルートデータを完備することにより,現実のイベントベースの表面特徴表現を生成できることを実証する。 我々は、このパイプラインを使用して、入力としてイベントが与えられた様々な宇宙船のポーズ再構成問題をサポートするために、新しいイベントベースのビジョンデータセットが生成されることを予測し、提案手法が神経形態的視覚と誘導ナビゲーションと制御の交点で働く研究者の注意を引き付けることを期待している。

An event-based camera outputs an event whenever a change in scene brightness of a preset magnitude is detected at a particular pixel location in the sensor plane. The resulting sparse and asynchronous output coupled with the high dynamic range and temporal resolution of this novel camera motivate the study of event-based cameras for navigation and landing applications. However, the lack of real-world and synthetic datasets to support this line of research has limited its consideration for onboard use. This paper presents a methodology and a software pipeline for generating event-based vision datasets from optimal landing trajectories during the approach of a target body. We construct sequences of photorealistic images of the lunar surface with the Planet and Asteroid Natural Scene Generation Utility at different viewpoints along a set of optimal descent trajectories obtained by varying the boundary conditions. The generated image sequences are then converted into event streams by means of an event-based camera emulator. We demonstrate that the pipeline can generate realistic event-based representations of surface features by constructing a dataset of 500 trajectories, complete with event streams and motion field ground truth data. We anticipate that novel event-based vision datasets can be generated using this pipeline to support various spacecraft pose reconstruction problems given events as input, and we hope that the proposed methodology would attract the attention of researchers working at the intersection of neuromorphic vision and guidance navigation and control.
翻訳日:2023-08-02 14:53:11 公開日:2023-08-01
# AIOps領域における時系列異常検出手法の検討

A Survey of Time Series Anomaly Detection Methods in the AIOps Domain ( http://arxiv.org/abs/2308.00393v1 )

ライセンス: Link先を確認
Zhenyu Zhong, Qiliang Fan, Jiacheng Zhang, Minghua Ma, Shenglin Zhang, Yongqian Sun, Qingwei Lin, Yuzhi Zhang, Dan Pei(参考訳) インターネットベースのサービスは驚くべき成功を収め、大量のキーパフォーマンス指標(KPI)を単変量または多変量時系列として生成している。 これらの時系列の監視と分析は、研究者、サービスオペレータ、オンコールエンジニアがサービス障害や重要なイベントを示す異常または異常を検出するために不可欠である。 可用性と性能の問題に対処するため、多数の高度な異常検出手法が出現している。 このレビューは、ai機能を使用して運用ワークフローの自動化と最適化を行う、ai for it operations(aiops)における時系列異常検出の包括的な概要を提供する。 さらに,近年の進歩に基づいて,実世界と次世代の時系列異常検出の今後の方向性を探る。

Internet-based services have seen remarkable success, generating vast amounts of monitored key performance indicators (KPIs) as univariate or multivariate time series. Monitoring and analyzing these time series are crucial for researchers, service operators, and on-call engineers to detect outliers or anomalies indicating service failures or significant events. Numerous advanced anomaly detection methods have emerged to address availability and performance issues. This review offers a comprehensive overview of time series anomaly detection in Artificial Intelligence for IT operations (AIOps), which uses AI capabilities to automate and optimize operational workflows. Additionally, it explores future directions for real-world and next-generation time-series anomaly detection based on recent advancements.
翻訳日:2023-08-02 14:52:51 公開日:2023-08-01
# 深部低温におけるCMOSオンチップ温度測定

CMOS on-chip thermometry at deep cryogenic temperatures ( http://arxiv.org/abs/2308.00392v1 )

ライセンス: Link先を確認
Grayson M. Noah, Thomas Swift, Mathieu de Kruijf, Alberto Gomez-Saiz, John J. L. Morton and M. Fernando Gonzalez-Zalba(参考訳) 正確なオンチップ温度センサは、動作中のチップ周囲の局所加熱を理解し、監視するために、現代のCMOS集積回路(IC)の最適性能に欠かせない。 量子コンピュータの開発は、シリコンと酸化ケイ素の熱伝導率が低下する深い低温温度(典型的には0.01 - 4 K)を動作させるICへの関心を大いに刺激し、冷却電力予算の制限により、局所的なオンチップ温度センサーがより重要になった。 本稿では, 相補的金属酸化物半導体(CMOS)製造プロセスに固有のオンチップ温度測定法について述べる。 これには、室温で使用される二次的および一次的な温度測定方法や、超伝導やクーロン遮断のような低温で発生する現象を利用する方法が含まれる。 本手法の感度を温度関数として評価し, オンチップ加熱素子による局所余剰温度の測定に利用した。 本研究は,ミリKelivinの範囲から室温まで,CMOSチップに容易に一体化可能な温度測定法を示す。

Accurate on-chip temperature sensing is critical for the optimal performance of modern CMOS integrated circuits (ICs), to understand and monitor localized heating around the chip during operation. The development of quantum computers has stimulated much interest in ICs operating a deep cryogenic temperatures (typically 0.01 - 4 K), in which the reduced thermal conductivity of silicon and silicon oxide, and the limited cooling power budgets make local on-chip temperature sensing even more important. Here, we report four different methods for on-chip temperature measurements native to complementary metal-oxide-semiconductor (CMOS) industrial fabrication processes. These include secondary and primary thermometry methods and cover conventional thermometry structures used at room temperature as well as methods exploiting phenomena which emerge at cryogenic temperatures, such as superconductivity and Coulomb blockade. We benchmark the sensitivity of the methods as a function of temperature and use them to measure local excess temperature produced by on-chip heating elements. Our results demonstrate thermometry methods that may be readily integrated in CMOS chips with operation from the milliKelivin range to room temperature.
翻訳日:2023-08-02 14:52:39 公開日:2023-08-01
# 交通流予測のためのグラフ変換器

Counterfactual Graph Transformer for Traffic Flow Prediction ( http://arxiv.org/abs/2308.00391v1 )

ライセンス: Link先を確認
Ying Yang, Kai Du, Xingyuan Dai, and Jianwu Fang(参考訳) 交通流予測 (TFP) は知的交通システム(ITS)の基本的問題であり,交通流の時空間依存性を潜在的混雑予測のためにモデル化する。 近年,多種類の注意機構を備えたグラフモデルが有望な性能を達成している。 しかし、既存のトラフィックフロー予測手法では、データセットからバイアスパターンを継承し、解釈性に欠ける傾向にある。 そこで,本稿では,tfp用に特別に設計されたインスタンスレベルの説明器(例えば,重要な部分グラフを見つける)を用いた,対置グラフトランスフォーマー(cgt)モデルを提案する。 時間次元の入力センサ機能とグラフトランスフォーマタモジュール上のグラフ構造に乗じて摂動マスク生成器を設計し,空間的および時間的反事実的説明を得る。 入力データ特徴量とグラフ構造に最適な摂動マスクを探索することで、後続のtfpタスクの簡潔で支配的なデータやグラフエッジリンクを得ることができる。 対向摂動後のグラフトランスフォーマモデルの再訓練を行った結果,改良され解釈可能なトラヒックフロー予測が得られる。 実世界の3つの公開データセットの大規模な結果は、CGTが信頼できる説明を生成でき、トラフィックフロー予測に期待できることを示している。

Traffic flow prediction (TFP) is a fundamental problem of the Intelligent Transportation System (ITS), as it models the latent spatial-temporal dependency of traffic flow for potential congestion prediction. Recent graph-based models with multiple kinds of attention mechanisms have achieved promising performance. However, existing methods for traffic flow prediction tend to inherit the bias pattern from the dataset and lack interpretability. To this end, we propose a Counterfactual Graph Transformer (CGT) model with an instance-level explainer (e.g., finding the important subgraphs) specifically designed for TFP. We design a perturbation mask generator over input sensor features at the time dimension and the graph structure on the graph transformer module to obtain spatial and temporal counterfactual explanations. By searching the optimal perturbation masks on the input data feature and graph structures, we can obtain the concise and dominant data or graph edge links for the subsequent TFP task. After re-training the utilized graph transformer model after counterfactual perturbation, we can obtain improved and interpretable traffic flow prediction. Extensive results on three real-world public datasets show that CGT can produce reliable explanations and is promising for traffic flow prediction.
翻訳日:2023-08-02 14:52:18 公開日:2023-08-01
# アクティブフィードバックをもつ工学的不安定な量子状態

Engineering unsteerable quantum states with active feedback ( http://arxiv.org/abs/2308.00384v1 )

ライセンス: Link先を確認
Samuel Morales, Yuval Gefen, Igor Gornyi, Alex Zazunov, Reinhold Egger(参考訳) 量子回路において,各アンシラ量子ビット(検出器)を単一系量子ビットに接続し,少数のステアリング演算子から選択した単純な結合を用いて量子状態生成のためのアクティブステアリングプロトコルを提案する。 ワンタイムステップでの期待コスト関数の利得を最大化するように決定する。 これらのプロトコルを複数のマルチキュービットモデルに適用する。 私たちの結果は3つの目覚ましい洞察に支えられている。 まず、標準忠実度が有用なコスト関数を与えないことを示し、代わりに、局所忠実度項を含むことでステアリングを成功させる。 第2に、ステアリングダイナミクスは各システムキュービットに別々に作用するが、生成した目標状態の絡み合いが導入され、ステップ毎にアンシラキュービット対でベル測定を行うことで、自由に調整することができる。 これは、エンタングルメントスワッピングの弱い測定変種を実装している。 第3に、数値シミュレーションにより、アクティブステアリングプロトコルは、n$-qubit w 状態のような受動的に制御不能な状態を含む任意に指定された目標状態に到達できることが示されている。

We propose active steering protocols for quantum state preparation in quantum circuits where each ancilla qubit (detector) is connected to a single system qubit, employing a simple coupling selected from a small set of steering operators. The decision is made such that the expected cost function gain in one time step is maximized. We apply these protocols to several many-qubit models. Our results are underlined by three remarkable insights. First, we show that the standard fidelity does not give a useful cost function; instead, successful steering is achieved by including local fidelity terms. Second, although the steering dynamics acts on each system qubit separately, entanglement in the generated target state is introduced, and can be tuned at will, by performing Bell measurements on ancilla qubit pairs after every time step. This implements a weak-measurement variant of entanglement swapping. Third, numerical simulations suggest that the active steering protocol can reach arbitrarily designated target states, including passively unsteerable states such as the $N$-qubit W state.
翻訳日:2023-08-02 14:51:56 公開日:2023-08-01
# 電流応力を最小化したデュアルアクティブブリッジコンバータの人工知能に基づく三相シフト変調

Artificial-Intelligence-Based Triple Phase Shift Modulation for Dual Active Bridge Converter with Minimized Current Stress ( http://arxiv.org/abs/2308.00382v1 )

ライセンス: Link先を確認
Xinze Li, Xin Zhang, Fanfan Lin, Changjiang Sun, Kezhi Mao(参考訳) デュアルアクティブブリッジ(DAB)コンバータは、その卓越した電力密度と双方向の電力伝達能力のために多くの用途で人気がある。 現在までに、トリプル位相シフト(TPS)はDABコンバータの最も先進的な変調技術の一つとみなすことができる。 ゼロ電圧切替範囲を広げ、電力効率を大幅に向上できる。 現在、DABコンバータの電流応力は、TPS変調を小型化、高効率化するための重要な性能指標となっている。 しかし、DABコンバータがTPS変調下にある場合の電流応力を最小限に抑えるため、解析過程と実現過程には2つの困難がある。 まず、TPS変調における3次変調変数は、異なる動作モードにおける電流応力の解析に困難をもたらす。 この解析と推論のプロセスは計算の重荷を生じさせ、また精度も低くなる。 次に、tps変調を実現するために、変調変数の最適化後にルックアップテーブルを採用すると、ルックアップテーブルの離散性により変調性能が不満足となる。 そこで本稿では,AIベースのTPS変調(AI-TPSM)戦略を提案する。 ニューラルネットワーク(nn)とファジィ推論システム(fis)は、上記の2つの困難に対処するために利用される。 提案したAI-TPSMでは、電流応力を最小限にするためのTPS変調の最適化が、エンジニアの作業負担を軽減し、精度を向上させるための高度な自動化を享受する。 本稿では,提案するAI-TPSMの有効性を1kWのプロトタイプを用いて実験的に検証した。

The dual active bridge (DAB) converter has been popular in many applications for its outstanding power density and bidirectional power transfer capacity. Up to now, triple phase shift (TPS) can be considered as one of the most advanced modulation techniques for DAB converter. It can widen zero voltage switching range and improve power efficiency significantly. Currently, current stress of the DAB converter has been an important performance indicator when TPS modulation is applied for smaller size and higher efficiency. However, to minimize the current stress when the DAB converter is under TPS modulation, two difficulties exist in analysis process and realization process, respectively. Firstly, three degrees of modulation variables in TPS modulation bring challenges to the analysis of current stress in different operating modes. This analysis and deduction process leads to heavy computational burden and also suffers from low accuracy. Secondly, to realize TPS modulation, if a lookup table is adopted after the optimization of modulation variables, modulation performance will be unsatisfactory because of the discrete nature of lookup table. Therefore, an AI-based TPS modulation (AI-TPSM) strategy is proposed in this paper. Neural network (NN) and fuzzy inference system (FIS) are utilized to deal with the two difficulties mentioned above. With the proposed AI-TPSM, the optimization of TPS modulation for minimized current stress will enjoy high degree of automation which can relieve engineers' working burden and improve accuracy. In the end of this paper, the effectiveness of the proposed AI-TPSM has been experimentally verified with a 1 kW prototype.
翻訳日:2023-08-02 14:51:35 公開日:2023-08-01
# 完全zvs範囲と最適効率を有するデュアルアクティブブリッジコンバータの人工知能に基づくハイブリッド拡張位相シフト変調

Artificial-Intelligence-Based Hybrid Extended Phase Shift Modulation for the Dual Active Bridge Converter with Full ZVS Range and Optimal Efficiency ( http://arxiv.org/abs/2308.00381v1 )

ライセンス: Link先を確認
Xinze Li, Xin Zhang, Fanfan Lin, Changjiang Sun, Kezhi Mao(参考訳) デュアルアクティブブリッジ(DAB)コンバータは、ワイヤレス充電、電気自動車、再生可能エネルギーなど、多くの一般的な用途において重要な実現手段である。 ZVSレンジと効率は、DABコンバータの2つの重要なパフォーマンス指標である。 所望のZVSと効率性を得るためには、変調を慎重に設計する必要がある。 ハイブリッド変調は、いくつかの単一の変調戦略を総合的な性能を達成するために考慮している。 従来、ハイブリッド変調の設計には、調和的アプローチや分割的アプローチが用いられるが、それらは時間を要するモデル構築プロセスや不正確さに苦しむ。 そこで,人工インテリジェンスに基づくハイブリッド位相シフト(HEPS)変調を提案する。 一般に、HEPS変調は、高いモデル精度を維持しながら、煩雑なモデル構築プロセスを緩和する自動化方式で開発される。 HEPS変調では、2つのESS戦略が全操作範囲にわたる全ZVS操作で最適効率を実現すると考えられる。 具体的には、ZVSのデータ駆動モデルの構築と効率向上のために、最先端のアンサンブル学習アルゴリズムである極端な勾配向上(XGBoost)を採用する。 その後、状態ベース適応速度制限付き粒子群最適化(PSO-SAVL)を用いて、最適なESS戦略を選択し、変調パラメータを最適化する。 1kWのハードウェア実験により、HEPSの有効性が検証され、最大97.1%の最適効率とフルレンジZVS動作を実現した。

Dual active bridge (DAB) converter is the key enabler in many popular applications such as wireless charging, electric vehicle and renewable energy. ZVS range and efficiency are two significant performance indicators for DAB converter. To obtain the desired ZVS and efficiency performance, modulation should be carefully designed. Hybrid modulation considers several single modulation strategies to achieve good comprehensive performance. Conventionally, to design a hybrid modulation, harmonic approach or piecewise approach is used, but they suffer from time-consuming model building process and inaccuracy. Therefore, an artificial-intelligence-based hybrid extended phase shift (HEPS) modulation is proposed. Generally, the HEPS modulation is developed in an automated fashion, which alleviates cumbersome model building process while keeping high model accuracy. In HEPS modulation, two EPS strategies are considered to realize optimal efficiency with full ZVS operation over entire operating ranges. Specifically, to build data-driven models of ZVS and efficiency performance, extreme gradient boosting (XGBoost), which is a state-of-the-art ensemble learning algorithm, is adopted. Afterwards, particle swarm optimization with state-based adaptive velocity limit (PSO-SAVL) is utilized to select the best EPS strategy and optimize modulation parameters. With 1 kW hardware experiments, the feasibility of HEPS has been verified, achieving optimal efficiency with maximum of 97.1% and full-range ZVS operation.
翻訳日:2023-08-02 14:51:12 公開日:2023-08-01
# 巨視的量子3-boxパラドックス:弱巨視的実在論との一貫性を見つける

A macroscopic quantum three-box paradox: finding consistency with weak macroscopic realism ( http://arxiv.org/abs/2308.00379v1 )

ライセンス: Link先を確認
C. Hatharasinghe, M. Thenabadu, P. D. Drummond and M. D. Reid(参考訳) 量子三箱パラドックス(quantum three-box paradox)は、3つの箱の1つに重ね合わせられたボールを考える。 BobがBox 1またはBoxを開いて測定する 2. ユニタリ操作(シャッフル)を行った後、アリスは、ボールが箱を開けた後にボールを検出した場合、どの箱を開けたかにかかわらず、ボブによってボールが検出されたことを確実に推測することができる。 3. パラドックスは、もしその箱が開いていたなら、ボールはどちらかの箱の中に確実に見つかっただろう。 パラドックスの解法には、ボブの計測は非侵襲的に行えない、あるいは実在論は量子レベルでは仮定できないというものがある。 ここでは、パラドックスのマクロバージョンを構築することにより、前者の議論のケースを強化する。 マクロ現実主義は、ボブやアリスが箱を開ける前に、ボールが箱の1つに入っていることを意味する。 このパラドックスとマクロ的リアリズムの整合性を示すが、Alice や Bob が Boxes を開く前にシステムに適用するために慎重に定義された(弱マクロ的リアリズム、wMR)場合、準備やシャッフルに関連するユニタリ操作の後である。 ユニタリ操作のダイナミクスを解き、混合状態と比較することにより、wmrの予測と量子力学の間の一致を示す: このパラドックスは、アリスのシャッフルが(ボックス3上の)局所演算と非局所演算の両方を結合している場合にのみ現れる。 以前の研究の後、マクロなパラドックスはレゲット・ガルグの不等式に反するもので、wMRが保持している場合、非侵襲的な測定可能性を意味する。

The quantum three-box paradox considers a ball prepared in a superposition of being in one of three Boxes. Bob makes measurements by opening either Box 1 or Box 2. After performing some unitary operations (shuffling), Alice can infer with certainty that the ball was detected by Bob, regardless of which box he opened, if she detects the ball after opening Box 3. The paradox is that the ball would have been found with certainty in either box, if that box had been opened. Resolutions of the paradox include that Bob's measurement cannot be made non-invasively, or else that realism cannot be assumed at the quantum level. Here, we strengthen the case for the former argument, by constructing macroscopic versions of the paradox. Macroscopic realism implies that the ball is in one of the boxes, prior to Bob or Alice opening any boxes. We demonstrate consistency of the paradox with macroscopic realism, if carefully defined (as weak macroscopic realism, wMR) to apply to the system at the times prior to Alice or Bob opening any Boxes, but after the unitary operations associated with preparation or shuffling. By solving for the dynamics of the unitary operations, and comparing with mixed states, we demonstrate agreement between the predictions of wMR and quantum mechanics: The paradox only manifests if Alice's shuffling combines both local operations (on Box 3) and nonlocal operations, on the other Boxes. Following previous work, the macroscopic paradox is shown to correspond to a violation of a Leggett-Garg inequality, which implies non-invasive measurability, if wMR holds.
翻訳日:2023-08-02 14:50:49 公開日:2023-08-01
# 物理音場を優先した生成的逆ネットワーク

Generative adversarial networks with physical sound field priors ( http://arxiv.org/abs/2308.00426v1 )

ライセンス: Link先を確認
Xenofon Karakonstantis and Efren Fernandez-Grande(参考訳) 本稿では,GANを用いた音場の時空間再構成のための深層学習に基づくアプローチを提案する。 本手法は平面波ベースを利用して室内の圧力の統計的分布を学習し,限られた測定値から音場を正確に再構成する。 提案手法の性能を2つの確立されたデータセットを用いて評価し,最先端の手法と比較した。 その結果, 高周波数域, 測定領域を超えて外挿した場合に, 精度, エネルギー保持率の面で改良された復元性能が得られることがわかった。 さらに,提案手法は,性能を犠牲にすることなく,様々な計測位置や構成を処理できる。 提案手法は,音響問題に先立って物理的に情報を得ることのできる生成モデルを用いて,音場再構成に有望なアプローチを提供することを示す。

This paper presents a deep learning-based approach for the spatio-temporal reconstruction of sound fields using Generative Adversarial Networks (GANs). The method utilises a plane wave basis and learns the underlying statistical distributions of pressure in rooms to accurately reconstruct sound fields from a limited number of measurements. The performance of the method is evaluated using two established datasets and compared to state-of-the-art methods. The results show that the model is able to achieve an improved reconstruction performance in terms of accuracy and energy retention, particularly in the high-frequency range and when extrapolating beyond the measurement region. Furthermore, the proposed method can handle a varying number of measurement positions and configurations without sacrificing performance. The results suggest that this approach provides a promising approach to sound field reconstruction using generative models that allow for a physically informed prior to acoustics problems.
翻訳日:2023-08-02 14:42:48 公開日:2023-08-01
# 談話認識テキストの簡易化:複雑な文から連結命題へ

Discourse-Aware Text Simplification: From Complex Sentences to Linked Propositions ( http://arxiv.org/abs/2308.00425v1 )

ライセンス: Link先を確認
Christina Niklaus, Matthias Cetto, Andr\'e Freitas, Siegfried Handschuh(参考訳) 複雑な構文を示す文は、文の長さと複雑さによって予測品質が劣化する下流自然言語処理アプリケーションの大きな障害となる。 text simplification(ts)のタスクは、この状況を改善する可能性がある。 リオーダリング、削除、分割といった一連の書き換え操作を使用して、処理を容易にするために文を修正することを目的としている。 第一に、彼らはそれを変換するよりも入力を保持する傾向があるという非常に保守的なアプローチに従い、第二に、文の真の意味を推測するために文節や文にまたがるコンテキストが必要とされるテキストの凝集性を無視します。 そこで本研究では,これらの問題に対処するために,複雑な英語文を意味的文脈内で分割し,再現する,談話認識型tsアプローチを提案する。 言語的に接地された変換段階に基づき、複雑な文は下流のアプリケーションで容易に分析できる単純な正準構造を持つ短い発話に変換される。 文分割では,これまでほとんど検討されていないTSタスクに対処する。 さらに,この文脈では,ソース文を自己完結した最小意味単位に分解することを目的として,最小性の概念を導入する。 重要な文脈情報が欠落しているために解釈が難しい文列に入力を分解するのを避けるため、分割命題間の意味的文脈を階層構造と意味的関係の形で組み込む。 このようにして、最小命題のセマンティック階層を生成して、単純化された文の上にセマンティック層を置く複雑なアサーションの新たな表現を生み出す。

Sentences that present a complex syntax act as a major stumbling block for downstream Natural Language Processing applications whose predictive quality deteriorates with sentence length and complexity. The task of Text Simplification (TS) may remedy this situation. It aims to modify sentences in order to make them easier to process, using a set of rewriting operations, such as reordering, deletion, or splitting. State-of-the-art syntactic TS approaches suffer from two major drawbacks: first, they follow a very conservative approach in that they tend to retain the input rather than transforming it, and second, they ignore the cohesive nature of texts, where context spread across clauses or sentences is needed to infer the true meaning of a statement. To address these problems, we present a discourse-aware TS approach that splits and rephrases complex English sentences within the semantic context in which they occur. Based on a linguistically grounded transformation stage that uses clausal and phrasal disembedding mechanisms, complex sentences are transformed into shorter utterances with a simple canonical structure that can be easily analyzed by downstream applications. With sentence splitting, we thus address a TS task that has hardly been explored so far. Moreover, we introduce the notion of minimality in this context, as we aim to decompose source sentences into a set of self-contained minimal semantic units. To avoid breaking down the input into a disjointed sequence of statements that is difficult to interpret because important contextual information is missing, we incorporate the semantic context between the split propositions in the form of hierarchical structures and semantic relationships. In that way, we generate a semantic hierarchy of minimal propositions that leads to a novel representation of complex assertions that puts a semantic layer on top of the simplified sentences.
翻訳日:2023-08-02 14:42:35 公開日:2023-08-01
# Space Debris: ディープラーニングベースのイメージ拡張はソリューションの一部か?

Space Debris: Are Deep Learning-based Image Enhancements part of the Solution? ( http://arxiv.org/abs/2308.00408v1 )

ライセンス: Link先を確認
Michele Jamrozik, Vincent Gaudilli\`ere, Mohamed Adel Musallam and Djamila Aouada(参考訳) 現在地球を周回している宇宙ゴミの量は、加速ペースで持続不可能なレベルに達している。 軌道で定義された、登録された宇宙船と不正/不活性な空間 ``objects'' の検出、追跡、識別および区別は、資産保護にとって重要である。 本研究の主な目的は、可視光スペクトルの単眼カメラで捉えた際の限界や画像アーチファクトを克服するために、ディープニューラルネットワーク(DNN)ソリューションの有効性を検討することである。 本研究では,ImageNetデータセット上に事前トレーニングしたハイブリッドなUNet-ResNet34ディープラーニングアーキテクチャを開発した。 画像の劣化には、ぼやけ、露出の問題、コントラストの低下、ノイズなどが含まれる。 また、教師付きDLに適した空間データも不足している。 本研究で開発されたures34pモデルと,空間で撮影された画像に関連するディープラーニング画像強調法における既存の技術との比較を行った。 視覚検査の結果,UNetモデルでは空間的画像劣化の補正が可能であり,さらに計算複雑性の低減を図ることができることがわかった。

The volume of space debris currently orbiting the Earth is reaching an unsustainable level at an accelerated pace. The detection, tracking, identification, and differentiation between orbit-defined, registered spacecraft, and rogue/inactive space ``objects'', is critical to asset protection. The primary objective of this work is to investigate the validity of Deep Neural Network (DNN) solutions to overcome the limitations and image artefacts most prevalent when captured with monocular cameras in the visible light spectrum. In this work, a hybrid UNet-ResNet34 Deep Learning (DL) architecture pre-trained on the ImageNet dataset, is developed. Image degradations addressed include blurring, exposure issues, poor contrast, and noise. The shortage of space-generated data suitable for supervised DL is also addressed. A visual comparison between the URes34P model developed in this work and the existing state of the art in deep learning image enhancement methods, relevant to images captured in space, is presented. Based upon visual inspection, it is determined that our UNet model is capable of correcting for space-related image degradations and merits further investigation to reduce its computational complexity.
翻訳日:2023-08-02 14:42:06 公開日:2023-08-01
# 直交アレイによるMDS近傍及び近量子MDS符号

Near MDS and near quantum MDS codes via orthogonal arrays ( http://arxiv.org/abs/2308.00406v1 )

ライセンス: Link先を確認
Shanqi Pang, Chaomeng Zhang, Mengqian Chen, Miaomiao Zhang(参考訳) MDS(NMDS)符号は有限幾何の興味深い対象と密接に関連しており、コンビネータや暗号に優れた応用がある。 しかし、NMDSコードの構築には多くの未解決問題が存在する。 本稿では,対称直交配列(OAs)を用いて,NMDS,$m$-MDS,およびほぼ極端なNMDS符号を多数構築する。 非対称なOAと混合アルファベット上の量子誤り訂正符号(QECC)の関係を確立する。 量子最大距離分離可能(qmds)符号は、現在まで全ての文献において1に等しい次元の混合アルファベット上では見出されていないため、混合アルファベット上の量子最大距離分離可能(nqmds)符号の定義が提案されている。 非対称なOAsを用いて、そのような符号を多数取得する。

Near MDS (NMDS) codes are closely related to interesting objects in finite geometry and have nice applications in combinatorics and cryptography. But there are many unsolved problems about construction of NMDS codes. In this paper, by using symmetrical orthogonal arrays (OAs), we construct a lot of NMDS, $m$-MDS and almost extremal NMDS codes. We establish a relation between asymmetrical OAs and quantum error correcting codes (QECCs) over mixed alphabets. Since quantum maximum distance separable (QMDS) codes over mixed alphabets with the dimension equal to one have not been found in all the literature so far, the definition of a near quantum maximum distance separable (NQMDS) code over mixed alphabets is proposed. By using asymmetrical OAs, we obtain many such codes.
翻訳日:2023-08-02 14:41:48 公開日:2023-08-01
# altmetricsのメリットは? オンライン視認性と引用効果の関連性に及ぼすチームジェンダー構成の影響

Who benefits from altmetrics? The effect of team gender composition on the link between online visibility and citation impact ( http://arxiv.org/abs/2308.00405v1 )

ライセンス: Link先を確認
Orsolya V\'as\'arhelyi and Em\H{o}ke-\'Agnes Horv\'at(参考訳) オンライン科学の普及は、学者の仕事を促進するために急速に重要になっている。 近年の文献では、女性の論文は男性よりも学術的な引用が少ないという、女性の研究の可視性の欠如が示されている。 インフォメトリとサイエントメトリのコミュニティは、オンラインの可視性における性別ベースの不平等を一時的に検証した。 しかしながら、科学的作業のオンライン共有と、性別の異なるチームに対する引用の影響との関係は、まだ未定である。 ここでは、オンラインの視認性が、女性が性別に基づく引用ペナルティを克服するのに役立つかどうかを考察する。 本研究は,コンピュータ科学,工学,社会科学の3分野を対象とし,男女別表現,オンライン科学普及プラクティスの採用,引用文化について分析を行った。 チームにおける男女構成やオンライン視認性が引用数に与える影響を識別するために,粗い正確なマッチングを適用して擬似実験的な設定を行う。 オンラインの視認性は研究領域全体の引用に肯定的に影響するのに対し、チームの性別構成はこれらの研究領域の視認性と異なる相互作用を示す。 本研究は, 性別による引用パターンとオンラインの可視性に関する重要な知見を提供し, 引用ギャップの減少に関する情報的議論を招いた。

Online science dissemination has quickly become crucial in promoting scholars' work. Recent literature has demonstrated a lack of visibility for women's research, where women's articles receive fewer academic citations than men's. The informetric and scientometric community has briefly examined gender-based inequalities in online visibility. However, the link between online sharing of scientific work and citation impact for teams with different gender compositions remains understudied. Here we explore whether online visibility is helping women overcome the gender-based citation penalty. Our analyses cover the three broad research areas of Computer Science, Engineering, and Social Sciences, which have different gender representation, adoption of online science dissemination practices, and citation culture. We create a quasi-experimental setting by applying Coarsened Exact Matching, which enables us to isolate the effects of team gender composition and online visibility on the number of citations. We find that online visibility positively affects citations across research areas, while team gender composition interacts differently with visibility in these research areas. Our results provide essential insights into gendered citation patterns and online visibility, inviting informed discussions about decreasing the citation gap.
翻訳日:2023-08-02 14:41:33 公開日:2023-08-01
# グラフ協調フィルタリングの神話に挑戦する: 推論と再現性に基づく分析

Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis ( http://arxiv.org/abs/2308.00404v1 )

ライセンス: Link先を確認
Vito Walter Anelli, Daniele Malitesta, Claudio Pomo, Alejandro Bellog\'in, Tommaso Di Noia, Eugenio Di Sciascio(参考訳) グラフニューラルネットワークベースモデル(GNN)の成功は、ユーザとアイテムを二部グラフとして効果的にモデル化することで、大幅に進歩したレコメンデーションシステムである。 しかしながら、多くのオリジナルのグラフベースの研究は、分析対象の特定の構成に対する妥当性を検証することなく、ベースライン論文の結果を採用することが多い。 私たちの研究は、結果の再現性に注目してこの問題に対処しています。 一般的な3つのベンチマークデータセット(Gowalla、Yelp 2018、Amazon Book)上で、NGCF、DGCF、LightGCN、SGL、UltraGCN、GFCFの6つの人気グラフレコメンデーションモデルの結果の再現に成功したコードを示す。 さらに,これらのグラフモデルと従来の協調フィルタリングモデルとの比較を行った。 さらに、既存の文献に確立された設定を欠いた2つの新しいデータセット(allrecipesとbookcrossing)に研究を拡張した。 これらのデータセットのパフォーマンスが以前のベンチマークと異なるため、特定のデータセット特性がレコメンデーション精度に与える影響を分析する。 ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴に影響されるモデルを特定することを目的とする。 実験を再現するコードは、https://github.com/sisinflab/graph-rss-reproducibilityで利用可能です。

The success of graph neural network-based models (GNNs) has significantly advanced recommender systems by effectively modeling users and items as a bipartite, undirected graph. However, many original graph-based works often adopt results from baseline papers without verifying their validity for the specific configuration under analysis. Our work addresses this issue by focusing on the replicability of results. We present a code that successfully replicates results from six popular and recent graph recommendation models (NGCF, DGCF, LightGCN, SGL, UltraGCN, and GFCF) on three common benchmark datasets (Gowalla, Yelp 2018, and Amazon Book). Additionally, we compare these graph models with traditional collaborative filtering models that historically performed well in offline evaluations. Furthermore, we extend our study to two new datasets (Allrecipes and BookCrossing) that lack established setups in existing literature. As the performance on these datasets differs from the previous benchmarks, we analyze the impact of specific dataset characteristics on recommendation accuracy. By investigating the information flow from users' neighborhoods, we aim to identify which models are influenced by intrinsic features in the dataset structure. The code to reproduce our experiments is available at: https://github.com/sisinflab/Graph-RSs-Reproducibility.
翻訳日:2023-08-02 14:41:13 公開日:2023-08-01
# 合成医用画像におけるグローバル一貫性の定量化

Metrics to Quantify Global Consistency in Synthetic Medical Images ( http://arxiv.org/abs/2308.00402v1 )

ライセンス: Link先を確認
Daniel Scholz, Benedikt Wiestler, Daniel Rueckert, Martin J. Menten(参考訳) 画像合成は、例えばデータ拡張やモダリティ間画像変換など、医療画像処理においてますます採用されている。 これらの重要な応用では、生成した画像は高い生物学的正当性を満たす必要がある。 これらの画像の特別な要件は、全体的一貫性、すなわち画像のすべての部分が現実的かつ有意義な方法で一致するように、全体的一貫性と構造化である。 しかし、確立された画質指標はこの合成画像の特性を明示的に定量化していない。 本研究では,合成画像の全体的一貫性を画像単位で測定できる2つの指標を提案する。 グローバルな一貫性を測定するために、現実的な画像は、例えば、全身MRIにおける人の体脂肪など、描写された物体やシーンを通して一貫した特性を示すと仮定する。 そこで我々は,教師付きニューラルネットワークを用いて,パッチ上の画像の明示的な属性を予測・比較することにより,グローバル一貫性を定量化する。 次に, 自己教師付き学習ネットワークによって予測される暗黙的画像特徴の類似性を測定することにより, この戦略をラベルなし設定に適用する。 その結果、パッチ上の合成画像の明示的な属性の予測は、一貫性のない画像とグローバルに一貫性のある画像とを区別できることがわかった。 画像の暗黙的な表現は、グローバル一貫性を評価するのにあまり敏感ではないが、ラベル付きデータが利用できない場合、まだ利用できる。 FIDなどの確立された指標と比較して,本手法は画像毎のグローバルな一貫性を明示的に測定することができ,単一の合成画像の生物学的妥当性を専用に分析することができる。

Image synthesis is increasingly being adopted in medical image processing, for example for data augmentation or inter-modality image translation. In these critical applications, the generated images must fulfill a high standard of biological correctness. A particular requirement for these images is global consistency, i.e an image being overall coherent and structured so that all parts of the image fit together in a realistic and meaningful way. Yet, established image quality metrics do not explicitly quantify this property of synthetic images. In this work, we introduce two metrics that can measure the global consistency of synthetic images on a per-image basis. To measure the global consistency, we presume that a realistic image exhibits consistent properties, e.g., a person's body fat in a whole-body MRI, throughout the depicted object or scene. Hence, we quantify global consistency by predicting and comparing explicit attributes of images on patches using supervised trained neural networks. Next, we adapt this strategy to an unlabeled setting by measuring the similarity of implicit image features predicted by a self-supervised trained network. Our results demonstrate that predicting explicit attributes of synthetic images on patches can distinguish globally consistent from inconsistent images. Implicit representations of images are less sensitive to assess global consistency but are still serviceable when labeled data is unavailable. Compared to established metrics, such as the FID, our method can explicitly measure global consistency on a per-image basis, enabling a dedicated analysis of the biological plausibility of single synthetic images.
翻訳日:2023-08-02 14:40:45 公開日:2023-08-01
# videopro:インタラクティブなビデオプログラミングのためのビジュアル分析アプローチ

VideoPro: A Visual Analytics Approach for Interactive Video Programming ( http://arxiv.org/abs/2308.00401v1 )

ライセンス: Link先を確認
Jianben He, Xingbo Wang, Kam Kwai Wong, Xijie Huang, Changjian Chen, Zixin Chen, Fengjie Wang, Min Zhu, and Huamin Qu(参考訳) 実世界のビデオ分析のために教師付き機械学習モデルを構築するには、かなりのラベル付きデータが必要である。 データプログラミングは、ユーザが定義したラベリング関数で大規模にラベル付きデータを生成することを約束する一方で、ビデオ内の高次元および複雑な時間情報は、ラベリング関数を効果的に構成し評価するための追加の課題をもたらす。 本稿では,人間の労力を削減したモデルステアリングのためのフレキシブルでスケーラブルなビデオデータプログラミングを支援するビジュアル分析手法であるVideoProを提案する。 まず,映像から人間の理解可能なイベントをコンピュータビジョン技術を用いて抽出し,ラベル付け機能のアトミックコンポーネントとして扱う。 さらに,これらのイベントの逐次パターンを特徴付け,効率的なデータラベリングのためのラベリング関数テンプレートとして機能する2段階テンプレートマイニングアルゴリズムを提案する。 VideoProのビジュアルインターフェースは、ラベル付けテンプレートの多面的探索、検査、適用を容易にし、大規模なビデオデータの効率的なプログラミングを可能にする。 さらに,プログラムがモデル性能に与える影響をモニタし,反復プログラミングプロセス中に情報調整を行うこともできる。 2つのケーススタディとエキスパートインタビューを用いて,提案手法の効率性と有効性を示す。

Constructing supervised machine learning models for real-world video analysis require substantial labeled data, which is costly to acquire due to scarce domain expertise and laborious manual inspection. While data programming shows promise in generating labeled data at scale with user-defined labeling functions, the high dimensional and complex temporal information in videos poses additional challenges for effectively composing and evaluating labeling functions. In this paper, we propose VideoPro, a visual analytics approach to support flexible and scalable video data programming for model steering with reduced human effort. We first extract human-understandable events from videos using computer vision techniques and treat them as atomic components of labeling functions. We further propose a two-stage template mining algorithm that characterizes the sequential patterns of these events to serve as labeling function templates for efficient data labeling. The visual interface of VideoPro facilitates multifaceted exploration, examination, and application of the labeling templates, allowing for effective programming of video data at scale. Moreover, users can monitor the impact of programming on model performance and make informed adjustments during the iterative programming process. We demonstrate the efficiency and effectiveness of our approach with two case studies and expert interviews.
翻訳日:2023-08-02 14:40:19 公開日:2023-08-01
# zrigf:ゼロリソースイメージ・グラウンド対話生成のための革新的なマルチモーダルフレームワーク

ZRIGF: An Innovative Multimodal Framework for Zero-Resource Image-Grounded Dialogue Generation ( http://arxiv.org/abs/2308.00400v1 )

ライセンス: Link先を確認
Bo Zhang, Jian Wang, Hui Ma, Bo Xu, and Hongfei Lin(参考訳) 画像に基づく対話システムは,視覚情報の統合により,高品質な応答生成を実現した。 しかし、現在のモデルは、画像とテキストのモダリティの相違が主な原因で、ゼロリソースのシナリオでそのような情報を効果的に活用するのに苦労している。 この課題を克服するために、ゼロリソース環境での対話生成のための画像基底情報を同化するZRIGFと呼ばれる革新的なマルチモーダルフレームワークを提案する。 ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。 コントラストプレトレーニングには、画像とテキストを統一された符号化ベクトル空間にマッピングするテキスト画像マッチングモジュールと、事前トレーニングされた視覚的特徴を保存し、さらにマルチモーダルな機能アライメントを促進するテキスト支援マスク画像モデリングモジュールが含まれている。 生成事前学習では、マルチモーダル融合モジュールと情報伝達モジュールを用いて、調和したマルチモーダル表現に基づく洞察豊かな応答を生成する。 テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。 さらに,イメージ接地対話データセットに完全ゼロリソースシナリオを適用し,新たなドメインにおけるフレームワークの堅牢な一般化能力を示す。 コードはhttps://github.com/zhangbo-nlp/ZRIGFで入手できる。

Image-grounded dialogue systems benefit greatly from integrating visual information, resulting in high-quality response generation. However, current models struggle to effectively utilize such information in zero-resource scenarios, mainly due to the disparity between image and text modalities. To overcome this challenge, we propose an innovative multimodal framework, called ZRIGF, which assimilates image-grounded information for dialogue generation in zero-resource situations. ZRIGF implements a two-stage learning strategy, comprising contrastive pre-training and generative pre-training. Contrastive pre-training includes a text-image matching module that maps images and texts into a unified encoded vector space, along with a text-assisted masked image modeling module that preserves pre-training visual features and fosters further multimodal feature alignment. Generative pre-training employs a multimodal fusion module and an information transfer module to produce insightful responses based on harmonized multimodal representations. Comprehensive experiments conducted on both text-based and image-grounded dialogue datasets demonstrate ZRIGF's efficacy in generating contextually pertinent and informative responses. Furthermore, we adopt a fully zero-resource scenario in the image-grounded dialogue dataset to demonstrate our framework's robust generalization capabilities in novel domains. The code is available at https://github.com/zhangbo-nlp/ZRIGF.
翻訳日:2023-08-02 14:39:56 公開日:2023-08-01
# ニューラルチャート要約における幻覚への対処

Tackling Hallucinations in Neural Chart Summarization ( http://arxiv.org/abs/2308.00399v1 )

ライセンス: Link先を確認
Saad Obaid ul Islam, Iza \v{S}krjanec, Ond\v{r}ej Du\v{s}ek and Vera Demberg(参考訳) テキスト生成における幻覚は、システムが入力に基づかないテキストを生成するときに起こる。 本研究では,ニューラルチャートの要約における幻覚の問題に取り組む。 分析の結果、チャート要約トレーニングデータセットのターゲット側は、しばしば追加情報を含み、幻覚につながることが示されている。 本稿では,学習データを前処理する自然言語推論(nli)に基づく手法を提案し,その手法が幻覚を有意に減少させることを示す。 また、入力シーケンスの長距離依存性を短くし、タイトルや伝説などのチャート関連情報を追加することで、全体的なパフォーマンスが向上することがわかった。

Hallucinations in text generation occur when the system produces text that is not grounded in the input. In this work, we tackle the problem of hallucinations in neural chart summarization. Our analysis shows that the target side of chart summarization training datasets often contains additional information, leading to hallucinations. We propose a natural language inference (NLI) based method to preprocess the training data and show through human evaluation that our method significantly reduces hallucinations. We also found that shortening long-distance dependencies in the input sequence and adding chart-related information like title and legends improves the overall performance.
翻訳日:2023-08-02 14:39:34 公開日:2023-08-01
# パームプリント検証のための物理駆動スペクトル整合フェデレート学習

Physics-Driven Spectrum-Consistent Federated Learning for Palmprint Verification ( http://arxiv.org/abs/2308.00451v1 )

ライセンス: Link先を確認
Ziyuan Yang and Andrew Beng Jin Teoh and Bob Zhang and Lu Leng and Yi Zhang(参考訳) バイオメトリックスとしてのpalmprintは、その識別能力とロバスト性によって近年注目を集めている。 しかし、既存の手法は主に1つのスペクトルにおけるパームプリントの検証を改善する。 さらに、分散サーバクライアントベースのデプロイメントでは、パームプリント検証システムは、クライアントが集中サーバ上でモデルトレーニングを行うためにプライベートデータを送信する必要があるため、プライバシの不安が増す。 そこで本研究では,PSFed-Palmと呼ばれるパームプリント検証のための物理駆動型スペクトル一貫性学習手法を提案する。 PSFed-Palmは、異なる波長スペクトルの固有の物理的特性に基づいており、類似の波長で取得された画像は、高い類似性を示す。 本手法は,まずクライアントを短波長群と長波長群に分割し,それぞれの局所スペクトル画像の波長範囲に応じて分離する。 次に,短波長および短スペクトル画像に関連する局所モデルの最適化方向を制約する短スペクトルおよび長スペクトル用アンカーモデルを提案する。 具体的には、対応するアンカーモデルと整合するモデルパラメータと特徴表現を強制するスペクトル一貫性損失を設計する。 最後に,グローバルモデルとの整合性を確保するため,局所モデルに制約を課し,モデルドリフトを効果的に防止する。 この尺度は、ローカルデータを共有する必要がないため、データのプライバシ保護中にスペクトル一貫性を保証する。 提案したPSFed-Palm法の有効性を検証するために大規模な実験を行った。 提案したPSFed-Palmは、限られたトレーニングデータにもかかわらず、魅力的なパフォーマンスを示している。 コードはhttps://github.com/Zi-YuanYang/PSFed-Palm.comで公開される。

Palmprint as biometrics has gained increasing attention recently due to its discriminative ability and robustness. However, existing methods mainly improve palmprint verification within one spectrum, which is challenging to verify across different spectrums. Additionally, in distributed server-client-based deployment, palmprint verification systems predominantly necessitate clients to transmit private data for model training on the centralized server, thereby engendering privacy apprehensions. To alleviate the above issues, in this paper, we propose a physics-driven spectrum-consistent federated learning method for palmprint verification, dubbed as PSFed-Palm. PSFed-Palm draws upon the inherent physical properties of distinct wavelength spectrums, wherein images acquired under similar wavelengths display heightened resemblances. Our approach first partitions clients into short- and long-spectrum groups according to the wavelength range of their local spectrum images. Subsequently, we introduce anchor models for short- and long-spectrum, which constrain the optimization directions of local models associated with long- and short-spectrum images. Specifically, a spectrum-consistent loss that enforces the model parameters and feature representation to align with their corresponding anchor models is designed. Finally, we impose constraints on the local models to ensure their consistency with the global model, effectively preventing model drift. This measure guarantees spectrum consistency while protecting data privacy, as there is no need to share local data. Extensive experiments are conducted to validate the efficacy of our proposed PSFed-Palm approach. The proposed PSFed-Palm demonstrates compelling performance despite only a limited number of training data. The codes will be released at https://github.com/Zi-YuanYang/PSFed-Palm.
翻訳日:2023-08-02 14:34:09 公開日:2023-08-01
# タキオンの共変量子場理論

Covariant quantum field theory of tachyons ( http://arxiv.org/abs/2308.00450v1 )

ライセンス: Link先を確認
Jerzy Paczos, Kacper D\k{e}bski, Szymon Cedrowski, Szymon Charzy\'nski, Krzysztof Turzy\'nski, Artur Ekert, Andrzej Dragan(参考訳) 量子化されたタキオン場に関する3つの主要な誤解:下から無界なエネルギースペクトル、フレーム依存で不安定な真空状態、そして非共変可換規則は、あまりに小さなヒルベルト空間においてローレンツ群を誤って表現した結果である。 この空間を2倍にすることで、これらの問題を全て排除するタキオン場の適切な量子化を可能にする明示的な共変フレームワークを確立する。 相対論的共分散を維持するために導かれるこのスキームは、アハロノフらによって開発された二状態形式論も引き出す。 [1]は量子論の好ましい解釈である。

Three major misconceptions concerning quantized tachyon fields: the energy spectrum unbounded from below, the frame-dependent and unstable vacuum state, and the non-covariant commutation rules, are shown to be a result of misrepresenting the Lorentz group in a too small Hilbert space. By doubling this space we establish an explicitly covariant framework that allows for the proper quantization of the tachyon fields eliminating all of these issues. Our scheme that is derived to maintain the relativistic covariance also singles out the two-state formalism developed by Aharonov et al. [1] as a preferred interpretation of the quantum theory.
翻訳日:2023-08-02 14:33:25 公開日:2023-08-01
# 大規模言語モデルのためのツールの構造埋め込み

Structural Embeddings of Tools for Large Language Models ( http://arxiv.org/abs/2308.00447v1 )

ライセンス: Link先を確認
Eren Unlu(参考訳) 大規模言語モデル(llm)の現状は、外部ツールの導入を必要とすることは明らかである。 単純な代数的および論理的推論の欠如は十分に文書化されており、研究者はLLMを外部ツールで操作できるフレームワークを開発するよう促した。 特定のタスクに対するツール利用のオントロジ的性質は、DAG(Directed Acyclic Graph)でうまく定式化することができる。 本稿の中心的な目的は,近い将来のllm-toolインタラクションにおけるグラフベースアプローチの重要性を強調することである。 ツールの目的と機能を階層的にグラフエンコードするLLMを用いて指数関数的に増加する外部ツールのオーケストレーションを導くための例フレームワークを提案する。 CoT(Chain-of-Thought)のテキストセグメントが、ここで定義されたツールとして想像できると仮定すると、グラフベースのフレームワークは、その特定の方向への新しい道も舗装できる。

It is evident that the current state of Large Language Models (LLMs) necessitates the incorporation of external tools. The lack of straightforward algebraic and logical reasoning is well documented and prompted researchers to develop frameworks which allow LLMs to operate via external tools. The ontological nature of tool utilization for a specific task can be well formulated with a Directed Acyclic Graph (DAG). The central aim of the paper is to highlight the importance of graph based approaches to LLM-tool interaction in near future. We propose an exemplary framework to guide the orchestration of exponentially increasing numbers of external tools with LLMs,where objectives and functionalities of tools are graph encoded hierarchically. Assuming that textual segments of a Chain-of-Thought (CoT) can be imagined as a tool as defined here, the graph based framework can pave new avenues in that particular direction as well.
翻訳日:2023-08-02 14:32:52 公開日:2023-08-01
# 焦点付き線形アテンションを用いたFLatten Transformer:視覚変換器

FLatten Transformer: Vision Transformer using Focused Linear Attention ( http://arxiv.org/abs/2308.00442v1 )

ライセンス: Link先を確認
Dongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang(参考訳) 視覚タスクにTransformerモデルを適用する場合、自己注意の二次計算複雑性は永続的な課題である。 一方、線形注意は、注意深く設計されたマッピング関数を通じてソフトマックス操作を近似することにより、線形複雑性を持つより効率的な代替手段を提供する。 しかし、現在の線形注意アプローチは、著しい性能低下またはマッピング関数から追加の計算オーバーヘッドをもたらすかのどちらかである。 本稿では,高効率と表現性の両方を実現するために,新しいFocusted Linear Attentionモジュールを提案する。 具体的には, フォーカス能力と特徴の多様性という2つの視点から, 線形注意力の低下に寄与する要因を最初に分析した。 これらの制限を克服するために,計算複雑性を低く保ちながら自己注意の表現性を高めるため,単純で効果的なマッピング機能と効率的なランク復元モジュールを導入する。 広範な実験により,様々な高度な視覚トランスフォーマーに適用可能なリニアアテンションモジュールが,複数のベンチマークで一貫した性能向上を実現していることが示された。 コードはhttps://github.com/LeapLabTHU/FLatten-Transformerで入手できる。

The quadratic computation complexity of self-attention has been a persistent challenge when applying Transformer models to vision tasks. Linear attention, on the other hand, offers a much more efficient alternative with its linear complexity by approximating the Softmax operation through carefully designed mapping functions. However, current linear attention approaches either suffer from significant performance degradation or introduce additional computation overhead from the mapping functions. In this paper, we propose a novel Focused Linear Attention module to achieve both high efficiency and expressiveness. Specifically, we first analyze the factors contributing to the performance degradation of linear attention from two perspectives: the focus ability and feature diversity. To overcome these limitations, we introduce a simple yet effective mapping function and an efficient rank restoration module to enhance the expressiveness of self-attention while maintaining low computation complexity. Extensive experiments show that our linear attention module is applicable to a variety of advanced vision Transformers, and achieves consistently improved performances on multiple benchmarks. Code is available at https://github.com/LeapLabTHU/FLatten-Transformer.
翻訳日:2023-08-02 14:32:24 公開日:2023-08-01
# 量子回路のシンボリック検証のための決定図

Decision Diagrams for Symbolic Verification of Quantum Circuits ( http://arxiv.org/abs/2308.00440v1 )

ライセンス: Link先を確認
Xin Hong, Wei-Jia Huang, Wei-Chen Chien, Yuan Feng, Min-Hsiu Hsieh, Sanjiang Li, Chia-Shun Yeh and Mingsheng Ying(参考訳) 量子コンピューティングの急速な発展に伴い、量子回路の自動検証がますます重要になっている。 いくつかの決定図(DD)が量子回路シミュレーションと検証に導入されているが、いずれもシンボリック計算をサポートしていない。 しかし、シンボリックオブジェクトのアルゴリズムによる操作は、いくつかの検証タスクにおいて不可欠でないとしても重要であると認識されている。 本稿では,シンボリックオブジェクトを操作し,量子回路をシンボリック項で検証する最初の決定ダイアグラム手法を提案する。 注目すべき例として、シンボリックテンソル決定図(シンボリックTDD)は、3分で160量子フーリエ変換回路の機能を検証することができる。 さらに、Bernstein-Vaziraniアルゴリズム、Groverのアルゴリズム、ビットフリップ誤り訂正符号に示されているように、シンボリックTDDは、ユーザが供給するオーラクルや古典的な制御による量子回路の効率的な検証を可能にする。

With the rapid development of quantum computing, automatic verification of quantum circuits becomes more and more important. While several decision diagrams (DDs) have been introduced in quantum circuit simulation and verification, none of them supports symbolic computation. Algorithmic manipulations of symbolic objects, however, have been identified as crucial, if not indispensable, for several verification tasks. This paper proposes the first decision-diagram approach for operating symbolic objects and verifying quantum circuits with symbolic terms. As a notable example, our symbolic tensor decision diagrams (symbolic TDD) could verify the functionality of the 160-qubit quantum Fourier transform circuit within three minutes. Moreover, as demonstrated on Bernstein-Vazirani algorithm, Grover's algorithm, and the bit-flip error correction code, the symbolic TDD enables efficient verification of quantum circuits with user-supplied oracles and/or classical controls.
翻訳日:2023-08-02 14:32:08 公開日:2023-08-01
# 小型量子フォトニック回路のための電気プログラム型周波数コム

Electrically-programmable frequency comb for compact quantum photonic circuits ( http://arxiv.org/abs/2308.00439v1 )

ライセンス: Link先を確認
Shakir Ullah, Mehmet Emre Tasgin, Rasim Volga Ovali, Mehmet G\"unay(参考訳) 近年、コンパクトでプログラマブルなフォトニック量子コンピュータ(pqcs)の最初のプロトタイプが実証されている。 ループライクなアーキテクチャでタイムビンエンコーディングを利用することで、プログラム可能な量子状態の生成と、1つの回路上で異なる~(プログラム可能)論理ゲートの実行を可能にした。 実際、よりコンパクトさと利用可能な量子状態の複雑さにはまだ空間がある:フォトニック回路~(pcs)は異なる周波数で機能することができる。 これにより、異なる周波数が互いに通信できる光学部品が必要となる。 このコンポーネントはPCに統合可能であり、多周波量子状態とPQCのプログラム可能な生成のための電圧によって制御されなければならない。 本稿では,周波数コムに必須な4波混合過程を制御するデバイスを提案する。 非線形ファノ共鳴を用いる。 デバイスが生成する絡み合いは、印加電圧によって連続的に調整でき、nm厚のワイヤを介してデバイスに届けることができる。 デバイスは統合可能でCMOS互換で、数百フェムト秒のタイムスケールで動作する。

Recent efforts have demonstrated the first prototypes of compact and programmable photonic quantum computers~(PQCs). Utilization of time-bin encoding in loop-like architectures enabled a programmable generation of quantum states and execution of different~(programmable) logic gates on a single circuit. Actually, there is still space for better compactness and complexity of available quantum states: photonic circuits~(PCs) can function at different frequencies. This necessitates an optical component, which can make different frequencies talk with each other. This component should be integrable into PCs and be controlled -- preferably -- by voltage for programmable generation of multifrequency quantum states and PQCs. Here, we propose a device that controls a four-wave mixing process, essential for frequency combs. We utilize nonlinear Fano resonances. Entanglement generated by the device can be tuned continuously by the applied voltage which can be delivered to the device via nm-thick wires. The device is integrable, CMOS-compatible, and operates within a timescale of hundreds of femtoseconds.
翻訳日:2023-08-02 14:31:54 公開日:2023-08-01
# SelfCheck:LDMを使って独自のステップバイステップ推論をゼロショットする

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning ( http://arxiv.org/abs/2308.00436v1 )

ライセンス: Link先を確認
Ning Miao, Yee Whye Teh, Tom Rainforth(参考訳) 大規模言語モデル(llms)の最近の進歩、特にcot(chain-of-thoughts)の発明により、推論問題を解決できるようになった。 しかし、最強のLLMでさえ、非線形思考と多段階推論を必要とするより複雑な問題に苦戦している。 本研究では,LLMが外部資源に頼らずに,自己の誤りを認識できるかどうかを考察する。 特に,ステップバイステップの推論において,個々のエラーを識別するために使用できるかどうかについて検討する。 そこで本研究では,このような誤りを識別するゼロショット検証手法を提案する。 次に,この検証手法を用いて質問応答の重み付き投票を行うことにより,質問応答性能を向上させる。 本手法は,GSM8K,MathQA,MATHの3つの数学データセット上で検証し,誤差の認識に成功し,最終的な予測性能を向上させる。

The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require non-linear thinking and multi-step reasoning. In this work, we explore whether LLMs have the ability to recognize their own errors, without resorting to external resources. In particular, we investigate whether they can be used to identify individual errors within a step-by-step reasoning. To this end, we propose a zero-shot verification scheme to recognize such errors. We then use this verification scheme to improve question-answering performance, by using it to perform weighted voting on different generated answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and find that it successfully recognizes errors and, in turn, increases final predictive performance.
翻訳日:2023-08-02 14:31:38 公開日:2023-08-01
# 局所忠実度距離による動的量子臨界の識別

Distinguishing dynamical quantum criticality through local fidelity distances ( http://arxiv.org/abs/2308.00435v1 )

ライセンス: Link先を確認
Ruchira V Bhat and Soumya Bera(参考訳) 局所量子忠実度距離を用いて、可積分および非可積分一次元イジング鎖における動的量子相転移の研究を行う。 量子状態遷移を記述するために2つの量子状態を区別するための標準的尺度であるロスシュミットエコーとは異なり、局所的忠実性はシステムを特徴づける部分のみを必要とする。 2つのサブシステム密度行列間の量子距離の非解析性は、有限サイズ系において臨界時間と対応する臨界指数を合理的に同定する。 さらに、エンタングルメントエントロピーが時間の振動成長を特徴とする特定のクエンチプロトコルに対して、局所量子忠実度の上界からの距離測度を提案する。 この局所距離は、初期および焼成されたサブシステム密度行列の固有値分布の差を符号化し、臨界特性を定量化する。 代替距離測度は、より広い範囲のモデルにおける動的量子相転移を調べるために用いられ、絡み合いの観点からの遷移についての洞察を得るための意味を持つ。

Using local quantum fidelity distances, we study the dynamical quantum phase transition in integrable and non-integrable one-dimensional Ising chains. Unlike the Loschmidt echo, the standard measure for distinguishing between two quantum states to describe the dynamical quantum phase transition, the local fidelity requires only a part of the system to characterize it. The non-analyticities in the quantum distance between two subsystem density matrices identify the critical time and the corresponding critical exponent reasonably well in a finite-size system. Moreover, we propose a distance measure from the upper bound of the local quantum fidelity for certain quench protocols where the entanglement entropy features oscillatory growth in time. This local distance encodes the difference between the eigenvalue distribution of the initial and quenched subsystem density matrices and quantifies the critical properties. The alternative distance measure could be employed to examine the dynamical quantum phase transitions in a broader range of models, with implications for gaining insights into the transition from the entanglement perspective.
翻訳日:2023-08-02 14:31:20 公開日:2023-08-01
# 視覚異常検出のためのパッチワイズオートエンコーダ

Patch-wise Auto-Encoder for Visual Anomaly Detection ( http://arxiv.org/abs/2308.00429v1 )

ライセンス: Link先を確認
Yajie Cui, Zhaoxiang Liu, Shiguo Lian(参考訳) 異常の前兆のない異常検出は困難である。 教師なし異常検出の分野では、従来のオートエンコーダ(AE)は、通常の画像のみをトレーニングすることで、異常画像を正しく再構成できないという仮定に基づいて失敗する傾向にある。 これに対し,パッチワイド自動エンコーダ(パッチAE)フレームワークを提案する。 画像の各パッチは、学習した特徴表現の空間分布の特徴ベクトル、すなわちパッチワイド再構成によって再構成され、AEの異常感度が保証される。 私たちの方法は単純で効率的です。 Mvtec ADベンチマークの最先端性能を向上し,本モデルの有効性を実証する。 これは実用的な産業応用シナリオにおいて大きな可能性を示している。

Anomaly detection without priors of the anomalies is challenging. In the field of unsupervised anomaly detection, traditional auto-encoder (AE) tends to fail based on the assumption that by training only on normal images, the model will not be able to reconstruct abnormal images correctly. On the contrary, we propose a novel patch-wise auto-encoder (Patch AE) framework, which aims at enhancing the reconstruction ability of AE to anomalies instead of weakening it. Each patch of image is reconstructed by corresponding spatially distributed feature vector of the learned feature representation, i.e., patch-wise reconstruction, which ensures anomaly-sensitivity of AE. Our method is simple and efficient. It advances the state-of-the-art performances on Mvtec AD benchmark, which proves the effectiveness of our model. It shows great potential in practical industrial application scenarios.
翻訳日:2023-08-02 14:31:05 公開日:2023-08-01
# オフライン手書きシグネチャ検証のためのコタップレットロスを用いたマルチスケールグローバル・地域特徴学習

Multiscale Global and Regional Feature Learning Using Co-Tuplet Loss for Offline Handwritten Signature Verification ( http://arxiv.org/abs/2308.00428v1 )

ライセンス: Link先を確認
Fu-Hsien Huang and Hsin-Min Lu(参考訳) 手書き署名検証は、法律や金融機関によって広く認められている重要な生体認証手法である。 しかし, 自動署名検証システムの開発は, 文字間類似性, 文字内変動, 署名サンプル数の制限による課題を提起している。 これらの課題に対処するために,オフライン手書き署名検証のための新しいメトリック学習損失であるコ・タップレット損失を用いたマルチスケール・グローバル・地域特徴学習ネットワーク(mgrnet)を提案する。 MGRNetは、様々な空間スケールからグローバルおよび地域情報を共同で学習し、それを統合して識別的特徴を生成する。 これにより、実際の署名と熟練した署名との詳細な局所的な違いを検知しながら、シグネチャストローク全体の情報をキャプチャすることができる。 さらに,ネットワークの識別能力を高めるために,複数の正負の例と負の例を同時に考慮して,距離メトリクスを学習するコタップレット損失を提案する。 文字間の類似性や文字間の変動に対処し、情報的な例に焦点を当てることで、コタップレット損失は典型的なメートル法学習損失の限界に対処する。 さらに、このスクリプトのための堅牢なシステム開発を容易にするため、大規模な中国語署名データセットであるHanSigを開発した。 データセットはhttps://github.com/ashleyfhh/hansigで入手できる。 異なる言語における4つのベンチマークデータセットの実験結果は、最先端の手法と比較して、提案手法の有望な性能を示す。

Handwritten signature verification is a significant biometric verification method widely acknowledged by legal and financial institutions. However, the development of automatic signature verification systems poses challenges due to inter-writer similarity, intra-writer variations, and the limited number of signature samples. To address these challenges, we propose a multiscale global and regional feature learning network (MGRNet) with the co-tuplet loss, a new metric learning loss, for offline handwritten signature verification. MGRNet jointly learns global and regional information from various spatial scales and integrates it to generate discriminative features. Consequently, it can capture overall signature stroke information while detecting detailed local differences between genuine and skilled-forged signatures. To enhance the discriminative capability of our network further, we propose the co-tuplet loss, which simultaneously considers multiple positive and negative examples to learn distance metrics. By dealing with inter-writer similarity and intra-writer variations and focusing on informative examples, the co-tuplet loss addresses the limitations of typical metric learning losses. Additionally, we develop HanSig, a large-scale Chinese signature dataset, to facilitate the development of robust systems for this script. The dataset is available at https://github.com/ashleyfhh/HanSig. Experimental results on four benchmark datasets in different languages demonstrate the promising performance of our method in comparison to state-of-the-art approaches.
翻訳日:2023-08-02 14:30:50 公開日:2023-08-01
# 医学教育における大規模非構造化テキストデータの検索生成と代表ベクトル要約

Retrieval Augmented Generation and Representative Vector Summarization for large unstructured textual data in Medical Education ( http://arxiv.org/abs/2308.00479v1 )

ライセンス: Link先を確認
S. S. Manathunga and Y. A. Illangasekara(参考訳) 大規模言語モデルは、コンテンツ生成やチャットボットなど、さまざまなタスクにますます使われています。 一般タスクにおける印象的なパフォーマンスにもかかわらず、LLMは幻覚の問題を和らげ、有害な回答を生み出すために、ドメイン固有のタスクを適用する際に、整列する必要がある。 Retrieval Augmented Generation (RAG) は、非パラメトリックなナレッジベースをLSMに簡単に取り付け、操作することができる。 本稿では医学教育分野におけるRAGの適用について論じる。 代表ベクトルを用いた大規模非構造化テキストデータの抽出・抽象的要約手法を提案する。

Large Language Models are increasingly being used for various tasks including content generation and as chatbots. Despite their impressive performances in general tasks, LLMs need to be aligned when applying for domain specific tasks to mitigate the problems of hallucination and producing harmful answers. Retrieval Augmented Generation (RAG) allows to easily attach and manipulate a non-parametric knowledgebases to LLMs. Applications of RAG in the field of medical education are discussed in this paper. A combined extractive and abstractive summarization method for large unstructured textual data using representative vectors is proposed.
翻訳日:2023-08-02 14:23:06 公開日:2023-08-01
# DINO-CXR:胸部X線分類のための視覚変換器を用いた自己監督法

DINO-CXR: A self supervised method based on vision transformer for chest X-ray classification ( http://arxiv.org/abs/2308.00475v1 )

ライセンス: Link先を確認
Mohammadreza Shakouri, Fatemeh Iranmanesh, Mahdi Eftekhari(参考訳) ラベル付き胸部X線データセットの可用性は、医療画像法の開発において重要なボトルネックとなっている。 自己教師付き学習(ssl)はラベルなしのデータでモデルをトレーニングすることでこの問題を軽減することができる。 さらに、自己監督型事前訓練は、自然画像の視覚的認識において有望な結果をもたらすが、医療画像解析においてはあまり考慮されていない。 本研究では,胸部X線分類のための視覚変換器をベースとした自己監督法であるDINO-CXRを提案する。 肺炎とCOVID-19の両方の検出において提案法の有効性を示すために比較分析を行った。 定量的解析により,提案手法は精度で最先端の手法より優れており,AUCとF-1のスコアで比較できるが,ラベル付きデータは非常に少ない。

The limited availability of labeled chest X-ray datasets is a significant bottleneck in the development of medical imaging methods. Self-supervised learning (SSL) can mitigate this problem by training models on unlabeled data. Furthermore, self-supervised pretraining has yielded promising results in visual recognition of natural images but has not been given much consideration in medical image analysis. In this work, we propose a self-supervised method, DINO-CXR, which is a novel adaptation of a self-supervised method, DINO, based on a vision transformer for chest X-ray classification. A comparative analysis is performed to show the effectiveness of the proposed method for both pneumonia and COVID-19 detection. Through a quantitative analysis, it is also shown that the proposed method outperforms state-of-the-art methods in terms of accuracy and achieves comparable results in terms of AUC and F-1 score while requiring significantly less labeled data.
翻訳日:2023-08-02 14:22:56 公開日:2023-08-01
# 最終層再評価は, 相関関係のロバスト性に十分か?

Is Last Layer Re-Training Truly Sufficient for Robustness to Spurious Correlations? ( http://arxiv.org/abs/2308.00473v1 )

ライセンス: Link先を確認
Phuong Quynh Le, J\"org Schl\"otterer and Christin Seifert(参考訳) 経験的リスク最小化(experience risk minimization, erm)でトレーニングされたモデルは、スプリアスな特徴、すなわち、それらの予測は、クラスラベルと強く相関するが因果的推論を欠く、望ましくない補助的特徴に基づいていることが知られている。 この振る舞いは、特に、反対のクラスのスプリアス特徴やスプリアス特徴を欠いているが、スプリアス特徴がある相関クラスのサンプル群の精度を低下させる。 最近提案されたDeep Feature Reweighting (DFR)法は、これらの最悪のグループの精度を向上させる。 ERMモードがコア機能を十分に学習できるという主論に基づいて、DFRは分類モデルの最後の層を小さなグループバランスのデータセットで再訓練するのみである。 本研究では,DFRの医療領域における現実的データへの適用性について検討する。 さらに, 最終層再トレーニングの有効性の背景を考察し, DFRは, 最悪の集団の精度を向上する可能性を秘めているものの, 急激な相関関係が生じる可能性が示唆された。

Models trained with empirical risk minimization (ERM) are known to learn to rely on spurious features, i.e., their prediction is based on undesired auxiliary features which are strongly correlated with class labels but lack causal reasoning. This behavior particularly degrades accuracy in groups of samples of the correlated class that are missing the spurious feature or samples of the opposite class but with the spurious feature present. The recently proposed Deep Feature Reweighting (DFR) method improves accuracy of these worst groups. Based on the main argument that ERM mods can learn core features sufficiently well, DFR only needs to retrain the last layer of the classification model with a small group-balanced data set. In this work, we examine the applicability of DFR to realistic data in the medical domain. Furthermore, we investigate the reasoning behind the effectiveness of last-layer retraining and show that even though DFR has the potential to improve the accuracy of the worst group, it remains susceptible to spurious correlations.
翻訳日:2023-08-02 14:22:40 公開日:2023-08-01
# コントラスト強調スペクトルマンモグラフィにおける仮想コントラスト強調のための深層学習法

A Deep Learning Approach for Virtual Contrast Enhancement in Contrast Enhanced Spectral Mammography ( http://arxiv.org/abs/2308.00471v1 )

ライセンス: Link先を確認
Aurora Rofena, Valerio Guarrasi, Marina Sarli, Claudia Lucia Piccolo, Matteo Sammarra, Bruno Beomonte Zobel, Paolo Soda(参考訳) コントラスト強調スペクトルマンモグラフィ(cesm)は、まずヨウ素化造影剤の静脈内投与を必要とし、その後、標準マンモグラフィに匹敵する低エネルギー画像と高エネルギー画像のボットを収集する二重エネルギーマンモグラフィ技術である。 2つのスキャンが組み合わされ、コントラスト強調を示す再結合画像が得られる。 乳がん診断におけるcesm診断の利点にもかかわらず、造影剤の使用は副作用を引き起こす可能性があり、cesmは標準のマンモグラフィよりも高い放射線線量を持つ患者を照射する。 これらの制限に対処するため、この研究は、CESMのコントラスト強化のための深層生成モデルを使用することを提案し、CESMのコントラストフリー化と放射線線量削減を目指している。 我々のディープネットワークは、オートエンコーダと、Pix2PixとCycleGANという2つのジェネレーティブ・アドバイサル・ネットワークから構成されており、低エネルギー画像のみから合成組換え画像を生成する。 我々は,この研究のさらなる貢献として,1138枚の画像を含む新しいCESMデータセットを用いて,このモデルの性能を定量的かつ定性的に分析し,また,放射線学者の評価も活用する。 その結果、CycleGANは合成組換え画像を生成する最も有望なディープネットワークであり、この分野における仮想コントラスト強化のための人工知能技術の可能性を強調した。

Contrast Enhanced Spectral Mammography (CESM) is a dual-energy mammographic imaging technique that first needs intravenously administration of an iodinated contrast medium; then, it collects bot a low-energy image, comparable to standard mammography, and a high-energy image. The two scans are then combined to get a recombined image showing contrast enhancement. Despite CESM diagnostic advantages for breast cancer diagnosis, the use of contrast medium can cause side effects, and CESM also beams patients with a higher radiation dose compared to standard mammography. To address these limitations this work proposes to use deep generative models for virtual contrast enhancement on CESM, aiming to make the CESM contrast-free as well as to reduce the radiation dose. Our deep networks, consisting of an autoencoder and two Generative Adversarial Networks, the Pix2Pix, and the CycleGAN, generate synthetic recombined images solely from low-energy images. We perform an extensive quantitative and qualitative analysis of the model's performance, also exploiting radiologists' assessments, on a novel CESM dataset that includes 1138 images that, as a further contribution of this work, we make publicly available. The results show that CycleGAN is the most promising deep network to generate synthetic recombined images, highlighting the potential of artificial intelligence techniques for virtual contrast enhancement in this field.
翻訳日:2023-08-02 14:22:21 公開日:2023-08-01
# 鏡の自然進化戦略

Mirror Natural Evolution Strategies ( http://arxiv.org/abs/2308.00469v1 )

ライセンス: Link先を確認
Haishan Ye(参考訳) zeroth-order optimizationは機械学習アプリケーションで広く使われている。 しかし、ゼロ次最適化の理論的研究は、ランダム方向の(ゼロ次)関数値差を用いて(一階)勾配を近似するアルゴリズムに焦点を当てている。 勾配とヘッセン情報をゼロ次クエリで近似するアルゴリズムの理論はあまり研究されていない。 本稿では,ゼロ階探索で近似された一階情報と二階情報の両方を利用するゼロ階最適化理論に焦点をあてる。 まずパラメータ $(\mu, \sigma)$ を持つ新しい再パラメータ付き目的関数を提案する。 この再パラメータ化された対象関数は、元の目的関数の最小値とヘッセン逆値でそれぞれ最適となるが、摂動は小さい。 そこで我々は,提案する再パラメータ化目標を最小化するための新しいアルゴリズムを提案し,その手法を<textt{mines} (mirror descent natural evolution strategy) と呼ぶ。 ここで、 \texttt{MiNES} の推定共分散行列は、収束率 $\widetilde{\mathcal{O}}(1/k)$ で対象関数のヘッセン行列の逆数に収束し、$k$ は反復数、$\widetilde{\mathcal{O}}(\cdot)$ は定数と $\log$ 項を隠す。 また、 texttt{MiNES} の明示的な収束率と共分散行列が収束率を促進する方法も提供する。

The zeroth-order optimization has been widely used in machine learning applications. However, the theoretical study of the zeroth-order optimization focus on the algorithms which approximate (first-order) gradients using (zeroth-order) function value difference at a random direction. The theory of algorithms which approximate the gradient and Hessian information by zeroth-order queries is much less studied. In this paper, we focus on the theory of zeroth-order optimization which utilizes both the first-order and second-order information approximated by the zeroth-order queries. We first propose a novel reparameterized objective function with parameters $(\mu, \Sigma)$. This reparameterized objective function achieves its optimum at the minimizer and the Hessian inverse of the original objective function respectively, but with small perturbations. Accordingly, we propose a new algorithm to minimize our proposed reparameterized objective, which we call \texttt{MiNES} (mirror descent natural evolution strategy). We show that the estimated covariance matrix of \texttt{MiNES} converges to the inverse of Hessian matrix of the objective function with a convergence rate $\widetilde{\mathcal{O}}(1/k)$, where $k$ is the iteration number and $\widetilde{\mathcal{O}}(\cdot)$ hides the constant and $\log$ terms. We also provide the explicit convergence rate of \texttt{MiNES} and how the covariance matrix promotes the convergence rate.
翻訳日:2023-08-02 14:21:55 公開日:2023-08-01
# 米国都市における長期持続的開発のための衛星画像データセット

A Satellite Imagery Dataset for Long-Term Sustainable Development in United States Cities ( http://arxiv.org/abs/2308.00465v1 )

ライセンス: Link先を確認
Yanxin Xi, Yu Liu, Tong Li, Jintao Ding, Yunke Zhang, Sasu Tarkoma, Yong Li, and Pan Hui(参考訳) 都市は経済成長を促進し社会ニーズを満たすために持続可能な開発目標(sdgs)を達成する上で重要な役割を担っている。 特に衛星画像は持続可能な都市開発を研究するための潜在的なデータ源である。 しかし、米国の総合データセットでは、複数の都市、複数年、複数のスケール、SDGモニタリングのための複数の指標が不足している。 米国都市におけるsdg研究を支援するために,25の持続可能な開発指標を含む5つのsdgを対象としたディープラーニングモデルを用いた衛星画像データセットを開発した。 提案されたデータセットは、2014年から2023年までの米国人口100都市と対応する国勢調査ブロックグループをカバーしている。 具体的には,衛星画像を収集し,最先端の物体検出と意味セグメンテーションモデルを用いて物体を識別し,都市のバードズ・アイ・ビューを観察する。 さらに、人口、夜間光、調査、建築環境データを収集し、貧困、健康、教育、不平等、生活環境に関するSDGを描写する。 このデータセットは、都市政策立案者や研究者がSDGに関する研究を進めるのに役立つと期待している。

Cities play an important role in achieving sustainable development goals (SDGs) to promote economic growth and meet social needs. Especially satellite imagery is a potential data source for studying sustainable urban development. However, a comprehensive dataset in the United States (U.S.) covering multiple cities, multiple years, multiple scales, and multiple indicators for SDG monitoring is lacking. To support the research on SDGs in U.S. cities, we develop a satellite imagery dataset using deep learning models for five SDGs containing 25 sustainable development indicators. The proposed dataset covers the 100 most populated U.S. cities and corresponding Census Block Groups from 2014 to 2023. Specifically, we collect satellite imagery and identify objects with state-of-the-art object detection and semantic segmentation models to observe cities' bird's-eye view. We further gather population, nighttime light, survey, and built environment data to depict SDGs regarding poverty, health, education, inequality, and living environment. We anticipate the dataset to help urban policymakers and researchers to advance SDGs-related studies, especially applying satellite imagery to monitor long-term and multi-scale SDGs in cities.
翻訳日:2023-08-02 14:21:23 公開日:2023-08-01
# メトリック学習における中心コントラスト損失

Center Contrastive Loss for Metric Learning ( http://arxiv.org/abs/2308.00458v1 )

ライセンス: Link先を確認
Bolun Cai, Pengfei Xiong, Shangxuan Tian(参考訳) コントラスト学習は、計量学習における主要な研究課題である。 しかしながら、効果的なコントラストペアのサンプリングは、バッチサイズ、不均衡なデータ分散、過剰フィッティングのリスクといった要因によって、依然として課題となっている。 本稿では,クラス毎のセンタバンクを維持し,コントラスト損失を用いてカテゴリセンタとクエリデータポイントを比較する,センタコントラスト損失と呼ばれる新しいメトリック学習関数を提案する。 センターバンクは、適切に設計されたサンプルマイニングを必要とせず、モデル収束を促進するためにリアルタイムで更新される。 カテゴリセンターは、各クラスの監督信号を再均衡させるために、適切に最適化された分類プロキシである。 さらに, クラス内変異を低減し, クラス間差異を改善し, 組込みの判別能力を向上させることで, コントラスト法と分類法の利点を両立させた。 図1に示すように、我々の損失でトレーニングされた標準ネットワーク(ResNet50)が、最先端の性能とより高速な収束を実現することを示す実験結果である。

Contrastive learning is a major studied topic in metric learning. However, sampling effective contrastive pairs remains a challenge due to factors such as limited batch size, imbalanced data distribution, and the risk of overfitting. In this paper, we propose a novel metric learning function called Center Contrastive Loss, which maintains a class-wise center bank and compares the category centers with the query data points using a contrastive loss. The center bank is updated in real-time to boost model convergence without the need for well-designed sample mining. The category centers are well-optimized classification proxies to re-balance the supervisory signal of each class. Furthermore, the proposed loss combines the advantages of both contrastive and classification methods by reducing intra-class variations and enhancing inter-class differences to improve the discriminative power of embeddings. Our experimental results, as shown in Figure 1, demonstrate that a standard network (ResNet50) trained with our loss achieves state-of-the-art performance and faster convergence.
翻訳日:2023-08-02 14:21:04 公開日:2023-08-01
# DMFC-GraspNet:クラッタシーンにおける微分可能な多指ロボットグラフ生成

DMFC-GraspNet: Differentiable Multi-Fingered Robotic Grasp Generation in Cluttered Scenes ( http://arxiv.org/abs/2308.00456v1 )

ライセンス: Link先を確認
Philipp Bl\"attner, Johannes Brand, Gerhard Neumann, Ngo Anh Vien(参考訳) ロボットハンドリングは、ロボットのオブジェクト操作に必要な基本的なスキルである。 人間の手の構造を模倣する多指ロボットハンドは、複雑なオブジェクト操作を行う可能性がある。 しかしながら、現在のマルチフィンガーロボットグリップ技術は、推論時間毎に1つのグリップしか予測せず、その汎用性と効率を制限している。 本稿では,この課題に主に2つの貢献をした微分可能多指把持生成ネットワーク(dmfc-graspnet)を提案する。 まず, 広義かつ密集した把握予測を可能にする新しい把握表現を予測できるニューラル・グラブ・プランナーを提案する。 第二に, 多指ロボットハンドの密なラベリングのためのシーン作成とラベルマッピング手法を開発し, 基底真理の密結合を可能にした。 提案手法をシミュレーション研究により評価し,既存手法と比較した。 提案手法は, 汎用性, 密集度を予測し, ロボットグルーピングの分野を推し進める上で有効であることを示す。

Robotic grasping is a fundamental skill required for object manipulation in robotics. Multi-fingered robotic hands, which mimic the structure of the human hand, can potentially perform complex object manipulations. Nevertheless, current techniques for multi-fingered robotic grasping frequently predict only a single grasp for each inference time, limiting their versatility and efficiency. This paper proposes a differentiable multi-fingered grasp generation network (DMFC-GraspNet) with two main contributions to address this challenge. Firstly, a novel neural grasp planner is proposed, which predicts a new grasp representation to enable versatile and dense grasp predictions. Secondly, a scene creation and label mapping method is developed for dense labeling of multi-fingered robotic hands, which allows a dense association of ground truth grasps. The proposed approach is evaluated through simulation studies and compared to existing approaches. The results demonstrate the effectiveness of the proposed approach in predicting versatile and dense grasps, and in advancing the field of robotic grasping.
翻訳日:2023-08-02 14:20:45 公開日:2023-08-01
# ViT2EEG:EEGデータのためのハイブリッド事前学習型視覚変換器の活用

ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data ( http://arxiv.org/abs/2308.00454v1 )

ライセンス: Link先を確認
Ruiqi Yang, Eric Modesitt(参考訳) 本研究では,imagenetで事前学習したハイブリッド視覚トランスフォーマ(vit)モデルを用いて,脳波計(eeg)回帰タスクに適用する。 もともとは画像分類タスクのためにトレーニングされたものの、EEGデータに基づいて微調整された場合、このモデルは、ImageNet重みなしでトレーニングされた同じアーキテクチャのViTを含む他のモデルと比較して、顕著なパフォーマンス向上を示している。 この発見は、モデル一般化の伝統的な理解に挑戦し、一見無関係な画像データで事前訓練されたTransformerモデルが、適切な微調整パイプラインでEEG回帰タスクの貴重な事前情報を提供できることを示唆している。 このアプローチの成功は、視覚タスクの文脈でViTモデルによって抽出された特徴が、EEG予測モデリングの目的のために容易に変換できることを示唆している。 この方法論を神経科学や関連する分野だけでなく、一般的にデータ収集が実用的、経済的、倫理的な制約によって制限されるタスクにも活用することを推奨する。 本研究は,従来の目的とは明らかに異なるタスクにおける事前学習モデルの可能性を示すものである。

In this study, we demonstrate the application of a hybrid Vision Transformer (ViT) model, pretrained on ImageNet, on an electroencephalogram (EEG) regression task. Despite being originally trained for image classification tasks, when fine-tuned on EEG data, this model shows a notable increase in performance compared to other models, including an identical architecture ViT trained without the ImageNet weights. This discovery challenges the traditional understanding of model generalization, suggesting that Transformer models pretrained on seemingly unrelated image data can provide valuable priors for EEG regression tasks with an appropriate fine-tuning pipeline. The success of this approach suggests that the features extracted by ViT models in the context of visual tasks can be readily transformed for the purpose of EEG predictive modeling. We recommend utilizing this methodology not only in neuroscience and related fields, but generally for any task where data collection is limited by practical, financial, or ethical constraints. Our results illuminate the potential of pretrained models on tasks that are clearly distinct from their original purpose.
翻訳日:2023-08-02 14:20:27 公開日:2023-08-01
# ディープラーニングモデルに対するパッチロバスト性認定のための多数不変手法

A Majority Invariant Approach to Patch Robustness Certification for Deep Learning Models ( http://arxiv.org/abs/2308.00452v1 )

ライセンス: Link先を確認
Qilin Zhou, Zhengyuan Wei, Haipeng Wang, and W.K. Chan(参考訳) パッチ堅牢性認証は、サンプル上の特定のバウンド内のパッチがディープラーニングモデルを操作して異なるラベルを予測することを保証します。 しかし、既存の技術では、分類器やパッチ領域レベルで厳格なバーを満たせないサンプルを検証できない。 本稿ではMajorCertを提案する。 MajorCertはまず、すべての可能なラベルセットを、下層の分類器で同じサンプルの同じパッチ領域で操作し、その組み合わせを要素的に列挙し、最後に、これらの組み合わせの大多数の不変量がサンプルを認証するためにそのままであるかどうかをチェックする。

Patch robustness certification ensures no patch within a given bound on a sample can manipulate a deep learning model to predict a different label. However, existing techniques cannot certify samples that cannot meet their strict bars at the classifier or patch region levels. This paper proposes MajorCert. MajorCert firstly finds all possible label sets manipulatable by the same patch region on the same sample across the underlying classifiers, then enumerates their combinations element-wise, and finally checks whether the majority invariant of all these combinations is intact to certify samples.
翻訳日:2023-08-02 14:20:11 公開日:2023-08-01
# 視覚的注意情報は皮質反応で追跡できるが網膜では追跡できない:自然画像を用いた電気生理学的マウスデータから

Visual attention information can be traced on cortical response but not on the retina: evidence from electrophysiological mouse data using natural images as stimuli ( http://arxiv.org/abs/2308.00526v1 )

ライセンス: Link先を確認
Nikos Melanitis and Konstantina Nikita(参考訳) 視覚的注意は視覚世界を理解する基盤を形成する。 本研究は,視覚的注意の生物学的基盤を研究するための計算手法に従う。 マウスの網膜および皮質電気生理学的データを解析した。 視覚刺激は、現実世界のシーンを描いた自然画像である。 その結果, 一次視覚野 (V1) では, 約10 % のニューロンのサブセットが, 正常と非正常の視覚野に対して異なる反応を示した。 網膜反応では視覚注意情報は得られなかった。 網膜は視覚注意に関するナイーブであり、視覚注意情報を解釈するために皮質反応が変調される。 実験動物実験は、我々がこの研究で追跡した視覚的注意の生物学的基盤をさらに探求するために設計されるかもしれない。 応用・翻訳科学において,本研究は,視覚障害者に対する人工視覚知覚を,網膜または大脳皮質に装着した電子インプラントにより生成する視覚補綴システムの設計に寄与する。

Visual attention forms the basis of understanding the visual world. In this work we follow a computational approach to investigate the biological basis of visual attention. We analyze retinal and cortical electrophysiological data from mouse. Visual Stimuli are Natural Images depicting real world scenes. Our results show that in primary visual cortex (V1), a subset of around $10\%$ of the neurons responds differently to salient versus non-salient visual regions. Visual attention information was not traced in retinal response. It appears that the retina remains naive concerning visual attention; cortical response gets modulated to interpret visual attention information. Experimental animal studies may be designed to further explore the biological basis of visual attention we traced in this study. In applied and translational science, our study contributes to the design of improved visual prostheses systems -- systems that create artificial visual percepts to visually impaired individuals by electronic implants placed on either the retina or the cortex.
翻訳日:2023-08-02 14:14:23 公開日:2023-08-01
# 伝達エンサンブル学習に基づく糖尿病網膜症分類のための深層畳み込みニューラルネットワーク

Transfer-Ensemble Learning based Deep Convolutional Neural Networks for Diabetic Retinopathy Classification ( http://arxiv.org/abs/2308.00525v1 )

ライセンス: Link先を確認
Susmita Ghosh and Abhiroop Chatterjee(参考訳) 本稿では,糖尿病網膜症(dr)の5つの分類を,vgg16とinception v3という2つの一般的な畳み込みニューラルネットワークに基づくアンサンブルアプローチを用いて行う。 提案モデルは,糖尿病網膜症の分類性能を高めるために,2つのネットの強みを活用することを目的としている。 アンサンブルモデルアーキテクチャは、学習した表現を効果的に活用するために、各トレーニング済みモデルのレイヤの一部を凍結する。 出力特徴マップを固定長ベクトルに変換するために、グローバル平均プーリング層が追加される。 これらのベクトルは連結され、入力画像の連結表現を形成する。 アンサンブルモデルは、糖尿病網膜症画像(APTOS)のデータセットを用いてトレーニングされ、トレーニングと検証セットに分割される。 トレーニングの過程で、モデルは網膜画像を対応する糖尿病網膜症クラスに分類することを学ぶ。 試験セットにおける実験結果は,96.4%の精度でdr分類を行うためのアンサンブルモデルの有効性を示す。

This article aims to classify diabetic retinopathy (DR) disease into five different classes using an ensemble approach based on two popular pre-trained convolutional neural networks: VGG16 and Inception V3. The proposed model aims to leverage the strengths of the two individual nets to enhance the classification performance for diabetic retinopathy. The ensemble model architecture involves freezing a portion of the layers in each pre-trained model to utilize their learned representations effectively. Global average pooling layers are added to transform the output feature maps into fixed-length vectors. These vectors are then concatenated to form a consolidated representation of the input image. The ensemble model is trained using a dataset of diabetic retinopathy images (APTOS), divided into training and validation sets. During the training process, the model learns to classify the retinal images into the corresponding diabetic retinopathy classes. Experimental results on the test set demonstrate the efficacy of the proposed ensemble model for DR classification achieving an accuracy of 96.4%.
翻訳日:2023-08-02 14:14:08 公開日:2023-08-01
# surveylm: 拡張言語モデルの振る舞いにおける新たな価値観を探求するプラットフォーム

SurveyLM: A platform to explore emerging value perspectives in augmented language models' behaviors ( http://arxiv.org/abs/2308.00521v1 )

ライセンス: Link先を確認
Steve J. Bickley, Ho Fai Chan, Bang Dao, Benno Torgler, Son Tran(参考訳) 白書では,複雑な社会的文脈における動的に変化する態度と価値の視点を通して,拡張言語モデル(ALM)の創発的アライメント行動を分析するプラットフォームであるSurveyLMについて述べる。 社会人工知能(AI)システム(ALM)は、特定の正しい応答がない場合や、応答が文脈的要因に大きく依存している場合など、微妙な社会的シナリオの中で機能するため、アライメントのダイナミクスを深く理解する必要がある。 そこで本稿では,従来社会行動研究に用いられてきた調査・実験手法を適用し,ALMを体系的に評価し,アライメントや創発的行動に対する前例のない洞察を与える。 さらに、SurveyLMプラットフォームはALM自身のフィードバックを活用して、調査と実験の設計を強化し、ALMの未使用の側面を活用し、リソースを維持しながら高品質なサーベイフレームワークの開発とテストを促進する。 SurveyLMを通じて、ALMの創発的行動に影響を与える要因を明らかにし、人間の意図や期待との整合を促進し、高度社会AIシステムの開発と展開に寄与することを目指している。 このホワイトペーパーは、プラットフォームが堅牢な結果を提供する可能性を強調し、研究のアライメントと将来のソーシャルAIシステムに対するその意味を強調します。

This white paper presents our work on SurveyLM, a platform for analyzing augmented language models' (ALMs) emergent alignment behaviors through their dynamically evolving attitude and value perspectives in complex social contexts. Social Artificial Intelligence (AI) systems, like ALMs, often function within nuanced social scenarios where there is no singular correct response, or where an answer is heavily dependent on contextual factors, thus necessitating an in-depth understanding of their alignment dynamics. To address this, we apply survey and experimental methodologies, traditionally used in studying social behaviors, to evaluate ALMs systematically, thus providing unprecedented insights into their alignment and emergent behaviors. Moreover, the SurveyLM platform leverages the ALMs' own feedback to enhance survey and experiment designs, exploiting an underutilized aspect of ALMs, which accelerates the development and testing of high-quality survey frameworks while conserving resources. Through SurveyLM, we aim to shed light on factors influencing ALMs' emergent behaviors, facilitate their alignment with human intentions and expectations, and thereby contributed to the responsible development and deployment of advanced social AI systems. This white paper underscores the platform's potential to deliver robust results, highlighting its significance to alignment research and its implications for future social AI systems.
翻訳日:2023-08-02 14:13:25 公開日:2023-08-01
# NormKD: 知識蒸留のための正規化ログ

NormKD: Normalized Logits for Knowledge Distillation ( http://arxiv.org/abs/2308.00520v1 )

ライセンス: Link先を確認
Zhihao Chi, Tu Zheng, Hengjia Li, Zheng Yang, Boxi Wu, Binbin Lin, Deng Cai(参考訳) ログベースの知識蒸留は、ほとんどのケースで機能ベースの手法がより良く機能するため、近年は注目されなくなっている。 それでも、ロジット出力を軟化するための重要なハイパーパラメータである温度を再調査する際には、まだポテンシャルが失われていないことが分かっています。 以前の作品のほとんどにおいて、蒸留手順全体の固定値として設定されていた。 しかし, 異なる試料からのロジットは多種多様であるため, 単一の温度で全て等度に軟化することは不可能であり, 以前の作業では各試料の知識が不十分に伝達される可能性がある。 本稿では,ハイパーパラメータ温度を再現し,単一値である場合に各試料から十分な知識を抽出できないことを明らかにする。 そこで本研究では,サンプルのロジット分布の特性に応じて各試料の温度をカスタマイズすることを目的として,正規化知識蒸留(NormKD)を提案する。 バニラkdと比較すると、normkdは計算コストやストレージコストがほとんどないが、cirar-100やimagenetでは画像分類がかなり優れている。 さらに、NormKDは、他のロジットベースのメソッドに簡単に適用でき、機能ベースのメソッドに近づいたり、より良くなったパフォーマンスを実現することができる。

Logit based knowledge distillation gets less attention in recent years since feature based methods perform better in most cases. Nevertheless, we find it still has untapped potential when we re-investigate the temperature, which is a crucial hyper-parameter to soften the logit outputs. For most of the previous works, it was set as a fixed value for the entire distillation procedure. However, as the logits from different samples are distributed quite variously, it is not feasible to soften all of them to an equal degree by just a single temperature, which may make the previous work transfer the knowledge of each sample inadequately. In this paper, we restudy the hyper-parameter temperature and figure out its incapability to distill the knowledge from each sample sufficiently when it is a single value. To address this issue, we propose Normalized Knowledge Distillation (NormKD), with the purpose of customizing the temperature for each sample according to the characteristic of the sample's logit distribution. Compared to the vanilla KD, NormKD barely has extra computation or storage cost but performs significantly better on CIRAR-100 and ImageNet for image classification. Furthermore, NormKD can be easily applied to the other logit based methods and achieve better performance which can be closer to or even better than the feature based method.
翻訳日:2023-08-02 14:13:01 公開日:2023-08-01
# バイオメディカル応用のためのマーカーレス人間のポーズ推定

Markerless human pose estimation for biomedical applications: a survey ( http://arxiv.org/abs/2308.00519v1 )

ライセンス: Link先を確認
Andrea Avogaro, Federico Cunico, Bodo Rosenhahn and Francesco Setti(参考訳) Markerless Human Pose Estimation (HPE)は、多くの分野のアプリケーションにおける意思決定と評価を支援する可能性を証明した。 HPEは、設定の容易さ、ポータビリティ、コストの安いため、伝統的なマーカーベースのモーションキャプチャシステムよりも好まれる。 しかし, 生物医学におけるhpeの活用はまだ検討中である。 本稿では,HPEの最近のバイオメディカル応用について概説する。 本稿では,HPEアプローチの主な特徴について検討し,その特徴が生体医学的応用に重要であるか否かを考察する。 また,HPEがすでに使用されている地域や,研究者や実践者が続く特異点や傾向も確認した。 HPEに対する25のアプローチと、運動発達評価、神経筋再生、歩行・姿勢分析に適用される40以上のHPEの研究を含む。 我々は,マーカーレスHPEが遠隔医療のパラダイムに向けて,病院や診療所外の診断・リハビリテーションを拡大する大きな可能性を秘めていると結論付けた。

Markerless Human Pose Estimation (HPE) proved its potential to support decision making and assessment in many fields of application. HPE is often preferred to traditional marker-based Motion Capture systems due to the ease of setup, portability, and affordable cost of the technology. However, the exploitation of HPE in biomedical applications is still under investigation. This review aims to provide an overview of current biomedical applications of HPE. In this paper, we examine the main features of HPE approaches and discuss whether or not those features are of interest to biomedical applications. We also identify those areas where HPE is already in use and present peculiarities and trends followed by researchers and practitioners. We include here 25 approaches to HPE and more than 40 studies of HPE applied to motor development assessment, neuromuscolar rehabilitation, and gait & posture analysis. We conclude that markerless HPE offers great potential for extending diagnosis and rehabilitation outside hospitals and clinics, toward the paradigm of remote medical care.
翻訳日:2023-08-02 14:12:38 公開日:2023-08-01
# シーンテキスト認識のための関係コントラスト学習

Relational Contrastive Learning for Scene Text Recognition ( http://arxiv.org/abs/2308.00508v1 )

ライセンス: Link先を確認
Jinglei Zhang, Tiancheng Lin, Yi Xu, Kai Chen, Rui Zhang(参考訳) 文脈認識手法は、単語から意味的前処理を取り入れることで、教師付きテキスト認識において大きな成功を収めた。 このような事前の文脈情報は、異種テキストと背景からテキストプリミティブの関係と解釈でき、表現学習に効果的な自己教師付きラベルを提供することができると論じる。 しかし、テキスト関係は語彙依存によるデータセットの有限サイズに限定されており、過剰な適合と表現の堅牢性の妥協の問題を引き起こす。 そこで本研究では,rclstr:relation contrastive learning for scene text recognition という統一フレームワークを設計,再編成,階層化,相互作用を通じてテキスト関係を充実させる。 因果性に基づいて,3つのモジュールが文脈先行によるバイアスを抑制し,表現ロバスト性を保証することを理論的に説明する。 表現品質実験により,本手法は最先端の自己教師型STR法よりも優れていた。 コードはhttps://github.com/ThunderVVV/RCLSTRで公開されている。

Context-aware methods achieved great success in supervised scene text recognition via incorporating semantic priors from words. We argue that such prior contextual information can be interpreted as the relations of textual primitives due to the heterogeneous text and background, which can provide effective self-supervised labels for representation learning. However, textual relations are restricted to the finite size of dataset due to lexical dependencies, which causes the problem of over-fitting and compromises representation robustness. To this end, we propose to enrich the textual relations via rearrangement, hierarchy and interaction, and design a unified framework called RCLSTR: Relational Contrastive Learning for Scene Text Recognition. Based on causality, we theoretically explain that three modules suppress the bias caused by the contextual prior and thus guarantee representation robustness. Experiments on representation quality show that our method outperforms state-of-the-art self-supervised STR methods. Code is available at https://github.com/ThunderVVV/RCLSTR.
翻訳日:2023-08-02 14:12:20 公開日:2023-08-01
# ニューラル距離とテクスチャ認識変換器を併用した多相CTによる膵癌の予後予測の改善

Improved Prognostic Prediction of Pancreatic Cancer Using Multi-Phase CT by Integrating Neural Distance and Texture-Aware Transformer ( http://arxiv.org/abs/2308.00507v1 )

ライセンス: Link先を確認
Hexin Dong, Jiawen Yao, Yuxing Tang, Mingze Yuan, Yingda Xia, Jian Zhou, Hong Lu, Jingren Zhou, Bin Dong, Le Lu, Li Zhang, Zaiyi Liu, Yu Shi, Ling Zhang(参考訳) 膵管腺癌 (PDAC) は致命的な致死性癌であり, 腫瘍と血管の関与が切除性に大きく影響し, 全身的に生存する。 しかし、現在の予後予測法では腫瘍と近くの重要な血管との関係を明示的に正確に調査することができない。 本稿では, 異なる患者のCT像における腫瘍と血管の正確な関係を記述し, 予後予測の主要な特徴として, 学習可能なニューラル距離を提案する。 また,CNNやLSTMを用いたダイナミックコントラストCT画像の腫瘍拡張パターンを利用した既存モデルと異なり,CNNやトランスフォーマーモジュールを用いて局所的・大域的特徴を融合させることにより,マルチフェーズコントラストCTにおける腫瘍関連テクスチャ特徴の抽出を改善し,マルチフェーズCT画像間で抽出された特徴をさらに強化した。 pdac患者1,070名を対象に,マルチセンター(n=4)データセットにおいて,提案法と既存の手法を広範囲に評価・比較し,その臨床的有用性を確認した。 先進的リスクマーカーは術前因子の中で生存率の最も高い予測因子であり,neoadjuvant療法の恩恵を受けるリスクの高い患者を選定するための確立された臨床因子と組み合わせる可能性を秘めている。

Pancreatic ductal adenocarcinoma (PDAC) is a highly lethal cancer in which the tumor-vascular involvement greatly affects the resectability and, thus, overall survival of patients. However, current prognostic prediction methods fail to explicitly and accurately investigate relationships between the tumor and nearby important vessels. This paper proposes a novel learnable neural distance that describes the precise relationship between the tumor and vessels in CT images of different patients, adopting it as a major feature for prognosis prediction. Besides, different from existing models that used CNNs or LSTMs to exploit tumor enhancement patterns on dynamic contrast-enhanced CT imaging, we improved the extraction of dynamic tumor-related texture features in multi-phase contrast-enhanced CT by fusing local and global features using CNN and transformer modules, further enhancing the features extracted across multi-phase CT images. We extensively evaluated and compared the proposed method with existing methods in the multi-center (n=4) dataset with 1,070 patients with PDAC, and statistical analysis confirmed its clinical effectiveness in the external test set consisting of three centers. The developed risk marker was the strongest predictor of overall survival among preoperative factors and it has the potential to be combined with established clinical factors to select patients at higher risk who might benefit from neoadjuvant therapy.
翻訳日:2023-08-02 14:12:04 公開日:2023-08-01
# テキスト文書の説明可能なグラフスペクトルクラスタリング

Explainable Graph Spectral Clustering of Text Documents ( http://arxiv.org/abs/2308.00504v1 )

ライセンス: Link先を確認
Bart{\l}omiej Starosta, Mieczys{\l}aw A. K{\l}opotek, S{\l}awomir T. Wierzcho\'n(参考訳) スペクトルクラスタリング法は、様々な形状や密度のクラスタを表現できることで知られている。 しかし、例えばテキスト文書に適用した場合、特に文書の内容と明確な関係を持たないスペクトル空間に埋め込まれているため、そのようなアルゴリズムの結果をユーザに説明するのは難しい。 そのため、クラスタリングの結果を説明するための詳細な方法が必要不可欠である。 本稿では,この目標への貢献について述べる。 本稿では,組合せラプラシアン系グラフスペクトルクラスタリングの結果について考察する。 これは組合せラプラシアン埋め込み、$K$-埋め込み(この論文で提案されている)および項ベクトル空間埋め込みの同値性を示すことに基づいている。 したがって、テキストの内容とクラスタリング結果との間にブリッジが構築される。 このアプローチの理論的背景を提供する。 k$-embedding は好適なブロック行列条件下でのラプラシアン埋め込みをよく示し、他の条件下では近似が十分であることを示した。

Spectral clustering methods are known for their ability to represent clusters of diverse shapes, densities etc. However, results of such algorithms, when applied e.g. to text documents, are hard to explain to the user, especially due to embedding in the spectral space which has no obvious relation to document contents. Therefore there is an urgent need to elaborate methods for explaining the outcome of the clustering. This paper presents a contribution towards this goal. We present a proposal of explanation of results of combinatorial Laplacian based graph spectral clustering. It is based on showing (approximate) equivalence of combinatorial Laplacian embedding, $K$-embedding (proposed in this paper) and term vector space embedding. Hence a bridge is constructed between the textual contents and the clustering results. We provide theoretical background for this approach. We performed experimental study showing that $K$-embedding approximates well Laplacian embedding under favourable block matrix conditions and show that approximation is good enough under other conditions.
翻訳日:2023-08-02 14:11:36 公開日:2023-08-01
# 2次元T1強調CE-MRI画像における脳腫瘍の正確な分類のためのL2Normalized Space Attention Network

An L2-Normalized Spatial Attention Network For Accurate And Fast Classification Of Brain Tumors In 2D T1-Weighted CE-MRI Images ( http://arxiv.org/abs/2308.00491v1 )

ライセンス: Link先を確認
Grace Billingsley, Julia Dietlmeier, Vivek Narayanaswamy, Andreas Spanias and Noel E. OConnor(参考訳) 本稿では,MRI画像における脳腫瘍の分類のための高精度かつ高速な分類網を提案する。 我々は,メニンギオーマ,グリオーマ,ピトピトリーの3種類の脳腫瘍を含む2次元T1強調CE-MRIデータセットを用いて実験を行った。 訓練中,オーバーフィット対策としてl2正規化空間注意機構を導入する。 このデータセットの最先端技術と比較し,l2正規化された空間的注意をベースラインネットワークに組み込むことで,性能が1.79ポイント向上したことを示す。 我々のモデルと事前訓練されたVGG16をアンサンブルで組み合わせることで、実行速度を犠牲にしてさらに精度を向上することができる。 私たちのコードはhttps://github.com/juliadietlmeier/MRI_image_classificationで公開されています。

We propose an accurate and fast classification network for classification of brain tumors in MRI images that outperforms all lightweight methods investigated in terms of accuracy. We test our model on a challenging 2D T1-weighted CE-MRI dataset containing three types of brain tumors: Meningioma, Glioma and Pituitary. We introduce an l2-normalized spatial attention mechanism that acts as a regularizer against overfitting during training. We compare our results against the state-of-the-art on this dataset and show that by integrating l2-normalized spatial attention into a baseline network we achieve a performance gain of 1.79 percentage points. Even better accuracy can be attained by combining our model in an ensemble with the pretrained VGG16 at the expense of execution speed. Our code is publicly available at https://github.com/juliadietlmeier/MRI_image_classification
翻訳日:2023-08-02 14:11:20 公開日:2023-08-01
# Copula for Instance-wise Feature Selection and Ranking

Copula for Instance-wise Feature Selection and Ranking ( http://arxiv.org/abs/2308.00549v1 )

ライセンス: Link先を確認
Hanyu Peng, Guanhua Fang, Ping Li(参考訳) インスタンス毎の機能選択とランキング手法は、ニューラルネットワークのコンテキストにおいて、各サンプルに対するタスクフレンドリな機能の適切な選択を可能にする。 しかし、機能サブセットが独立であると仮定する既存のアプローチは、機能間の依存性を考慮すると不完全である。 この制限に対処するため,変数間の相関を捉える強力な数学的手法であるガウスコプラを,追加の変更を伴わずに現在の特徴選択フレームワークに組み込むことを提案する。 性能比較と解釈性の観点から,合成データと実データの両方における実験結果から,本手法は有意義な相関を捉えることができることが示された。

Instance-wise feature selection and ranking methods can achieve a good selection of task-friendly features for each sample in the context of neural networks. However, existing approaches that assume feature subsets to be independent are imperfect when considering the dependency between features. To address this limitation, we propose to incorporate the Gaussian copula, a powerful mathematical technique for capturing correlations between variables, into the current feature selection framework with no additional changes needed. Experimental results on both synthetic and real datasets, in terms of performance comparison and interpretability, demonstrate that our method is capable of capturing meaningful correlations.
翻訳日:2023-08-02 14:03:39 公開日:2023-08-01
# RGB-based CLIP Vision-Language Model を用いた衛星画像中の雲の存在検出

Detecting Cloud Presence in Satellite Images Using the RGB-based CLIP Vision-Language Model ( http://arxiv.org/abs/2308.00541v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Robert Atkinson, Christos Tachtatzis(参考訳) この研究は、雲によって影響を受ける衛星画像を特定するために、事前訓練されたCLIPビジョン言語モデルの能力を探求する。 テキストプロンプトによる純粋にゼロショット操作や微調整によるアプローチなど,クラウド存在検出にこのモデルを用いるいくつかの手法を提案し評価した。 さらに、異なるデータセットとセンサータイプ(Sentinel-2とLandsat-8)間でのメソッドの転送性をテストする。 CLIPがクラウド存在検知タスクにおいて非自明な性能を達成できることは、センシングのモダリティやセンサバンドをまたいで一般化できることが明らかである。 また, 低コストの微調整段階では, 真の負の上昇がみられた。 以上の結果から,CLIPモデルで学習した表現は,雲を含む衛星画像処理に有用であることが示唆された。

This work explores capabilities of the pre-trained CLIP vision-language model to identify satellite images affected by clouds. Several approaches to using the model to perform cloud presence detection are proposed and evaluated, including a purely zero-shot operation with text prompts and several fine-tuning approaches. Furthermore, the transferability of the methods across different datasets and sensor types (Sentinel-2 and Landsat-8) is tested. The results that CLIP can achieve non-trivial performance on the cloud presence detection task with apparent capability to generalise across sensing modalities and sensing bands. It is also found that a low-cost fine-tuning stage leads to a strong increase in true negative rate. The results demonstrate that the representations learned by the CLIP model can be useful for satellite image processing tasks involving clouds.
翻訳日:2023-08-02 14:03:28 公開日:2023-08-01
# アクティブで健康な老化アプリの早期ドロップアウト予測

Predicting Early Dropouts of an Active and Healthy Ageing App ( http://arxiv.org/abs/2308.00539v1 )

ライセンス: Link先を確認
Vasileios Perifanis, Ioanna Michailidi, Giorgos Stamatelatos, George Drosatos, Pavlos S. Efraimidis(参考訳) 本研究では,アクティブで健康な老化アプリの早期ドロップアウトを予測するための機械学習手法を提案する。 提案されたアルゴリズムは、IUPESM WC 2022の一部としてIFMBE Scientific Challenge 2022に提出された。 与えられたデータベースを処理し、7つのデータセットを生成しました。 我々は,動的かつ静的な特徴を用いてユーザの定着度を予測する分類モデルの構築に,事前処理手法を用いた。 我々は11のオフィシャルランを提出し、その結果、機械学習アルゴリズムが高品質な順守予測を提供することを示した。 その結果,動的特徴はモデルの分類性能に正の影響を与えることがわかった。 データセットの非バランス性のため,SMOTEやADASYNなどのオーバーサンプリング手法を用いて分類性能を向上した。 オーバーサンプリングアプローチは10倍の大幅な改善をもたらした。 我々の手法は2022年のIFMBE Scientific Challengeで優勝した。

In this work, we present a machine learning approach for predicting early dropouts of an active and healthy ageing app. The presented algorithms have been submitted to the IFMBE Scientific Challenge 2022, part of IUPESM WC 2022. We have processed the given database and generated seven datasets. We used pre-processing techniques to construct classification models that predict the adherence of users using dynamic and static features. We submitted 11 official runs and our results show that machine learning algorithms can provide high-quality adherence predictions. Based on the results, the dynamic features positively influence a model's classification performance. Due to the imbalanced nature of the dataset, we employed oversampling methods such as SMOTE and ADASYN to improve the classification performance. The oversampling approaches led to a remarkable improvement of 10\%. Our methods won first place in the IFMBE Scientific Challenge 2022.
翻訳日:2023-08-02 14:03:14 公開日:2023-08-01
# PressureTransferNet:3次元シミュレート・プレッシャマップを用いた人属性動的地圧プロファイル転送

PressureTransferNet: Human Attribute Guided Dynamic Ground Pressure Profile Transfer using 3D simulated Pressure Maps ( http://arxiv.org/abs/2308.00538v1 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Vitor Fortes Rey, Bo Zhou, Sungho Suh, Paul Lukowicz(参考訳) 本研究では,地圧情報を用いた新しい人間行動認識法である pressure transfernet を提案する。 本手法は, 個体の既存の圧力データを利用することにより, 特定の活動に対する身体特異的な動的地圧プロファイルを生成する。 pressuretransfernetは、ソース圧力マップとターゲットヒューマン属性ベクトルを入力とするエンコーダ/デコーダモデルであり、ターゲット属性を反映した新しい圧力マップを生成する。 モデルをトレーニングするために、センサシミュレーションを使用して、さまざまな属性と圧力プロファイルを持つ多様なデータセットを作成する。 実世界のデータセットの評価は、異なるシナリオにわたって人間の属性を地圧プロファイルに正確に転送する効果を示している。 物理ベースの深層学習モデルを用いて合成圧力形状の忠実性を視覚的に確認し,接地領域において0.79の2次r-平方値を達成する。 f1スコア(0.911$\pm$0.015)の物理圧力マットデータによる分類による検証は、合成圧力マップの正確性を示し、この手法はデータの強化、ノイズ除去、センサシミュレーション、異常検出に有用である。 応用はスポーツ科学、リハビリテーション、生体力学に及び、HARシステムの開発に寄与する。

We propose PressureTransferNet, a novel method for Human Activity Recognition (HAR) using ground pressure information. Our approach generates body-specific dynamic ground pressure profiles for specific activities by leveraging existing pressure data from different individuals. PressureTransferNet is an encoder-decoder model taking a source pressure map and a target human attribute vector as inputs, producing a new pressure map reflecting the target attribute. To train the model, we use a sensor simulation to create a diverse dataset with various human attributes and pressure profiles. Evaluation on a real-world dataset shows its effectiveness in accurately transferring human attributes to ground pressure profiles across different scenarios. We visually confirm the fidelity of the synthesized pressure shapes using a physics-based deep learning model and achieve a binary R-square value of 0.79 on areas with ground contact. Validation through classification with F1 score (0.911$\pm$0.015) on physical pressure mat data demonstrates the correctness of the synthesized pressure maps, making our method valuable for data augmentation, denoising, sensor simulation, and anomaly detection. Applications span sports science, rehabilitation, and bio-mechanics, contributing to the development of HAR systems.
翻訳日:2023-08-02 14:03:01 公開日:2023-08-01
# 動的特徴量に基づくグラフ埋め込みによる電力グリッドトポロジ変化のための過渡安定度学習

Graph Embedding Dynamic Feature-based Supervised Contrastive Learning of Transient Stability for Changing Power Grid Topologies ( http://arxiv.org/abs/2308.00537v1 )

ライセンス: Link先を確認
Zijian Lv, Xin Chen, Zijian Feng(参考訳) オンライン過渡安定性の正確な予測は、外乱に直面した場合の電力系統の安定性を確保するために不可欠である。 従来の過渡的スタビリティ解析は時間領域シミュレーションに応答するが、パワーグリッドのトポロジー変化に迅速に適用することはできない。 高次元電力グリッド構造情報を低次元ノードグラフ埋め込みストリーミングデータにベクトル化するために,グラフ埋め込み動的特徴量(GEDF)が提案されている。 過渡安定性 gedf-based supervised contrastive learning (gedf-scl) モデルでは,電力グリッドトポロジ情報を考慮した過渡安定性を予測するために教師付きコントラスト学習を用いる。 提案したGEDF-SCLモデルの性能を評価するため,IEEE 39-busシステムモデルに基づいて様々なトポロジの電力グリッドを生成する。 N-1 と N-$\bm{m}$-1 をこれらの発電系トポロジ上でシミュレーションすることにより、過渡的な運用データを得た。 実験の結果,GEDF-SCLモデルは過渡安定度予測において高い精度を達成でき,電力グリッドトポロジの変化によく適応できることがわかった。

Accurate online transient stability prediction is critical for ensuring power system stability when facing disturbances. While traditional transient stablity analysis replies on the time domain simulations can not be quickly adapted to the power grid toplogy change. In order to vectorize high-dimensional power grid topological structure information into low-dimensional node-based graph embedding streaming data, graph embedding dynamic feature (GEDF) has been proposed. The transient stability GEDF-based supervised contrastive learning (GEDF-SCL) model uses supervised contrastive learning to predict transient stability with GEDFs, considering power grid topology information. To evaluate the performance of the proposed GEDF-SCL model, power grids of varying topologies were generated based on the IEEE 39-bus system model. Transient operational data was obtained by simulating N-1 and N-$\bm{m}$-1 contingencies on these generated power system topologies. Test result demonstrated that the GEDF-SCL model can achieve high accuracy in transient stability prediction and adapt well to changing power grid topologies.
翻訳日:2023-08-02 14:02:36 公開日:2023-08-01
# 生成型adversarial networkを用いたグラフコントラスト学習

Graph Contrastive Learning with Generative Adversarial Network ( http://arxiv.org/abs/2308.00535v1 )

ライセンス: Link先を確認
Cheng Wu, Chaokun Wang, Jingcao Xu, Ziyang Liu, Kai Zheng, Xiaowei Wang, Yang Song, Kun Gai(参考訳) グラフニューラルネットワーク(GNN)は、教師付きエンドツーエンドトレーニングを通じて、多くの下流タスクのノード表現を活用できる有望な結果を実証している。 実世界のアプリケーションにおけるラベル不足問題に対処するため、グラフコントラスト学習(GCL)は、元のグラフから生成された拡張ビュー内のノード間の相互情報を最大化することにより、制限あるいはラベルなしでGNNをトレーニングするために利用される。 しかし、グラフの分布はビュー生成において考慮されていないため、既存のほとんどの文献では未確認のエッジが無知となり、実験ではGCLの性能を向上させることが実証的に示されている。 この目的のために、GCLのビューの分布を学習するために、グラフ生成敵ネットワーク(GAN)を統合することを提案する。 一 増補用のグラフの特徴を自動的に把握し、 二 グラフGANモデルとGCLモデルとを共同で訓練すること。 具体的には,グラフ表現学習のための新たなジェネレーティブ・コントラスト学習ネットワークであるGACNを提案する。 GACNはビュージェネレータとビュー判別器を開発し、敵のスタイルで自動的に拡張ビューを生成する。 次に、GACNはこれらのビューを利用してGNNエンコーダをトレーニングし、2つの慎重に設計された自己教師付き学習損失をトレーニングする。 さらに,すべてのGACNモジュールを共同でトレーニングするための最適化フレームワークを設計する。 7つの実世界のデータセットに関する広範囲な実験により、gacnはgclの高品質な拡張ビューを生成でき、12の最先端のベースラインメソッドよりも優れていることが示されている。 注目すべきことに、提案したGACNは、生成したデータ拡張のビューが、オンラインネットワークにおけるよく知られた優先的なアタッチメントルールに最終的に準拠することを発見した。

Graph Neural Networks (GNNs) have demonstrated promising results on exploiting node representations for many downstream tasks through supervised end-to-end training. To deal with the widespread label scarcity issue in real-world applications, Graph Contrastive Learning (GCL) is leveraged to train GNNs with limited or even no labels by maximizing the mutual information between nodes in its augmented views generated from the original graph. However, the distribution of graphs remains unconsidered in view generation, resulting in the ignorance of unseen edges in most existing literature, which is empirically shown to be able to improve GCL's performance in our experiments. To this end, we propose to incorporate graph generative adversarial networks (GANs) to learn the distribution of views for GCL, in order to i) automatically capture the characteristic of graphs for augmentations, and ii) jointly train the graph GAN model and the GCL model. Specifically, we present GACN, a novel Generative Adversarial Contrastive learning Network for graph representation learning. GACN develops a view generator and a view discriminator to generate augmented views automatically in an adversarial style. Then, GACN leverages these views to train a GNN encoder with two carefully designed self-supervised learning losses, including the graph contrastive loss and the Bayesian personalized ranking Loss. Furthermore, we design an optimization framework to train all GACN modules jointly. Extensive experiments on seven real-world datasets show that GACN is able to generate high-quality augmented views for GCL and is superior to twelve state-of-the-art baseline methods. Noticeably, our proposed GACN surprisingly discovers that the generated views in data augmentation finally conform to the well-known preferential attachment rule in online networks.
翻訳日:2023-08-02 14:02:16 公開日:2023-08-01
# 車両軌道と運転意図予測のための新しい時間的多ゲート混合エキスパートアプローチ

A Novel Temporal Multi-Gate Mixture-of-Experts Approach for Vehicle Trajectory and Driving Intention Prediction ( http://arxiv.org/abs/2308.00533v1 )

ライセンス: Link先を確認
Renteng Yuan, Mohamed Abdel-Aty, Qiaojun Xiang, Zijin Wang, Ou Zheng(参考訳) 自動走行車や高度な運転支援システムにとって、正確な車両軌道予測は不可欠である。 車両軌道予測は、縦方向の位置予測と横方向の位置予測という2つの重要なタスクから構成される。 運転意図と車両運動には有意な相関関係がある。 既存の作業では、縦位置、横位置、運転意図の関係を考慮せずに、3つのタスクを別々に行うことが多い。 本稿では,車両軌道と運転意図を同時に予測するための,時間的マルチゲート混合(TMMOE)モデルを提案する。 提案するモデルは,共有層,エキスパート層,完全接続層という3つのレイヤで構成される。 モデルでは、共有層は時間的畳み込みネットワーク(TCN)を用いて時間的特徴を抽出する。 そして、専門家層が構築され、3つのタスクに応じて異なる情報を特定する。 さらに、完全接続層は、予測結果を統合およびエクスポートするために使用される。 性能向上のために、マルチタスク損失関数を構築するために不確実性アルゴリズムを用いる。 最後に、公開されたCitySimデータセットは、TMMOEモデルを評価し、LSTMモデルよりも優れた性能を示し、最も高い分類と回帰結果を達成する。 キーワード:車両軌道予測、運転意図分類、マルチタスク

Accurate Vehicle Trajectory Prediction is critical for automated vehicles and advanced driver assistance systems. Vehicle trajectory prediction consists of two essential tasks, i.e., longitudinal position prediction and lateral position prediction. There is a significant correlation between driving intentions and vehicle motion. In existing work, the three tasks are often conducted separately without considering the relationships between the longitudinal position, lateral position, and driving intention. In this paper, we propose a novel Temporal Multi-Gate Mixture-of-Experts (TMMOE) model for simultaneously predicting the vehicle trajectory and driving intention. The proposed model consists of three layers: a shared layer, an expert layer, and a fully connected layer. In the model, the shared layer utilizes Temporal Convolutional Networks (TCN) to extract temporal features. Then the expert layer is built to identify different information according to the three tasks. Moreover, the fully connected layer is used to integrate and export prediction results. To achieve better performance, uncertainty algorithm is used to construct the multi-task loss function. Finally, the publicly available CitySim dataset validates the TMMOE model, demonstrating superior performance compared to the LSTM model, achieving the highest classification and regression results. Keywords: Vehicle trajectory prediction, driving intentions Classification, Multi-task
翻訳日:2023-08-02 14:01:46 公開日:2023-08-01
# 混雑予測のための変動ラベル相関強調法

Variational Label-Correlation Enhancement for Congestion Prediction ( http://arxiv.org/abs/2308.00529v1 )

ライセンス: Link先を確認
Biao Liu, Congyu Qiao, Ning Xu, Xin Geng, Ziran Zhu, Jun Yang(参考訳) 大規模設計の物理的設計プロセスは時間を要する作業であり、しばしば数時間から数日を要し、ルーティングは最も重要で複雑なステップである。 集積回路(IC)の複雑さが増大するにつれて、正確なルーティング品質予測への需要が高まっている。 正確な混雑予測は、設計上の欠陥を早期に特定し、回路設計と資源の保存を加速する。 現在の混雑予測手法の進歩にもかかわらず、主に見過ごされている重要な側面は、混雑予測における異なるグリッド間の空間的ラベル相関である。 空間ラベル相関は回路設計の基本的な特徴であり、グリッドの混雑状態は孤立しないが、隣接するグリッドの条件に本質的に影響される。 周辺グリッド間の空間的ラベル相関をフル活用するために, 局所的なラベル相関と周辺グリッドの影響を受けやすい局所的なラベル相関重とを関連づけた, VAriational Label-Correlation Enhancement for Congestion Prediction(VAriational Label-Correlation Enhancement for Congestion Prediction)を提案する。 ours} はこの重みを推定するために変分推論技術を利用し、空間依存を組み込むことで回帰モデルの性能を高める。 実験結果は、スーパーブルー回路線を用いた公開の \texttt{ispd2011} および \texttt{dac2012}ベンチマークにおける {\ours} の優れた有効性を検証する。

The physical design process of large-scale designs is a time-consuming task, often requiring hours to days to complete, with routing being the most critical and complex step. As the the complexity of Integrated Circuits (ICs) increases, there is an increased demand for accurate routing quality prediction. Accurate congestion prediction aids in identifying design flaws early on, thereby accelerating circuit design and conserving resources. Despite the advancements in current congestion prediction methodologies, an essential aspect that has been largely overlooked is the spatial label-correlation between different grids in congestion prediction. The spatial label-correlation is a fundamental characteristic of circuit design, where the congestion status of a grid is not isolated but inherently influenced by the conditions of its neighboring grids. In order to fully exploit the inherent spatial label-correlation between neighboring grids, we propose a novel approach, {\ours}, i.e., VAriational Label-Correlation Enhancement for Congestion Prediction, which considers the local label-correlation in the congestion map, associating the estimated congestion value of each grid with a local label-correlation weight influenced by its surrounding grids. {\ours} leverages variational inference techniques to estimate this weight, thereby enhancing the regression model's performance by incorporating spatial dependencies. Experiment results validate the superior effectiveness of {\ours} on the public available \texttt{ISPD2011} and \texttt{DAC2012} benchmarks using the superblue circuit line.
翻訳日:2023-08-02 14:01:10 公開日:2023-08-01
# マルチモーダルミーム感情分類のためのユニモーダル中間訓練

Unimodal Intermediate Training for Multimodal Meme Sentiment Classification ( http://arxiv.org/abs/2308.00528v1 )

ライセンス: Link先を確認
Muzhaffar Hazman, Susan McKeever, Josephine Griffith(参考訳) インターネットミームは、自動感情分類のためのユーザー生成コンテンツの挑戦的な形態である。 ラベル付きミームの可用性は、マルチモーダルミームの感情分類器を開発する上での障壁である。 ラベル付きミームの不足に対処するために,ユニモーダル(画像のみとテキストのみ)データを用いたマルチモーダルミーム分類器のトレーニングを補完する。 そこで本研究では,比較的豊富な感情適応型ユニモーダルデータを用いた教師付き中間訓練の変種を提案する。 その結果,ユニモーダルテキストデータの導入により統計的に有意な性能改善が得られた。 さらに,ラベル付きミームのトレーニングセットを,下流モデルの性能を低下させることなく40%削減できることを示した。

Internet Memes remain a challenging form of user-generated content for automated sentiment classification. The availability of labelled memes is a barrier to developing sentiment classifiers of multimodal memes. To address the shortage of labelled memes, we propose to supplement the training of a multimodal meme classifier with unimodal (image-only and text-only) data. In this work, we present a novel variant of supervised intermediate training that uses relatively abundant sentiment-labelled unimodal data. Our results show a statistically significant performance improvement from the incorporation of unimodal text data. Furthermore, we show that the training set of labelled memes can be reduced by 40% without reducing the performance of the downstream model.
翻訳日:2023-08-02 14:00:43 公開日:2023-08-01
# 低照度ヘイザイシナリオの可視性向上

Visibility Enhancement for Low-light Hazy Scenarios ( http://arxiv.org/abs/2308.00591v1 )

ライセンス: Link先を確認
Chaoqun Zhuang, Yunfei Liu, Sijia Wen, Feng Lu(参考訳) 夕暮れや早朝には低照度なシーンがよく現れる。 低照度画像の視覚的強調は不適切な問題である。 画像のデハージングや低照度化には多くの方法が提案されているが, 簡単に統合すれば, このタスクに満足できる結果が得られない。 本稿では,低照度ハジーシナリオの可視性を高める新しい手法を提案する。 この課題に対処するために,クロスコンシステンシー・デハージング・エンハンスメント・フレームワークと,低照度ハジーデータセットの物理シミュレーションという2つの重要な手法を提案する。 具体的には、異なるサブタスクからのヒントをフル活用することで、入力画像の可視性を高めるように設計されている。 提案する低照度ヘイジーイメージングモデルにより, 地表面のデータセットを生成するように設計した。 実験の結果,提案手法はSSIM(9.19%)やPSNR(5.03%)など,様々な指標でSOTAソリューションよりも優れていた。 また,人間の視覚知覚による提案手法の有効性と必要性を実証するために,実画像のユーザ調査を行った。

Low-light hazy scenes commonly appear at dusk and early morning. The visual enhancement for low-light hazy images is an ill-posed problem. Even though numerous methods have been proposed for image dehazing and low-light enhancement respectively, simply integrating them cannot deliver pleasing results for this particular task. In this paper, we present a novel method to enhance visibility for low-light hazy scenarios. To handle this challenging task, we propose two key techniques, namely cross-consistency dehazing-enhancement framework and physically based simulation for low-light hazy dataset. Specifically, the framework is designed for enhancing visibility of the input image via fully utilizing the clues from different sub-tasks. The simulation is designed for generating the dataset with ground-truths by the proposed low-light hazy imaging model. The extensive experimental results show that the proposed method outperforms the SOTA solutions on different metrics including SSIM (9.19%) and PSNR(5.03%). In addition, we conduct a user study on real images to demonstrate the effectiveness and necessity of the proposed method by human visual perception.
翻訳日:2023-08-02 13:55:09 公開日:2023-08-01
# 複数のモダリティを持つ人物クラスタリングのための関係認識分布表現ネットワーク

Relation-Aware Distribution Representation Network for Person Clustering with Multiple Modalities ( http://arxiv.org/abs/2308.00588v1 )

ライセンス: Link先を確認
Kaijian Liu, Shixiang Tang, Ziyue Li, Zhishuai Li, Lei Bai, Feng Zhu, Rui Zhao(参考訳) 顔、体、声を含むマルチモーダルな手がかりによる人的クラスタリングは、映画解析やアイデンティティベースの映画編集など、さまざまなタスクに不可欠である。 マルチビュークラスタリングのような関連する手法は、主にマルチモーダル機能をジョイント機能空間に投影する。 しかし、マルチモーダルな手掛かりの特徴は通常、モダリティ特有の一意性とのセマンティックギャップのために弱い相関関係にある。 結果として、これらの手法は人的クラスタリングには適さない。 本稿では,複数モーダル手がかりの分布表現を生成するための関係認識分布表現ネットワーク(RAD-Net)を提案する。 手がかりの分布表現は、この手がかりと全てのモダリティからの他のすべての手がかりの関係からなるベクトルであり、モダリティ非依存であり、人的クラスタリングに適している。 そこで我々は,分布表現を構成するグラフベースの手法を導入し,周期的な更新ポリシーを用いて分布表現を段階的に洗練する。 本稿では,ビデオPerson-Clustering Dataset(VPCD)とVoxCeleb2マルチビュークラスタリングデータセットにおいて,Fスコアの+6%と+8.2%を大幅に改善する。 コードは受理次第公開される予定だ。

Person clustering with multi-modal clues, including faces, bodies, and voices, is critical for various tasks, such as movie parsing and identity-based movie editing. Related methods such as multi-view clustering mainly project multi-modal features into a joint feature space. However, multi-modal clue features are usually rather weakly correlated due to the semantic gap from the modality-specific uniqueness. As a result, these methods are not suitable for person clustering. In this paper, we propose a Relation-Aware Distribution representation Network (RAD-Net) to generate a distribution representation for multi-modal clues. The distribution representation of a clue is a vector consisting of the relation between this clue and all other clues from all modalities, thus being modality agnostic and good for person clustering. Accordingly, we introduce a graph-based method to construct distribution representation and employ a cyclic update policy to refine distribution representation progressively. Our method achieves substantial improvements of +6% and +8.2% in F-score on the Video Person-Clustering Dataset (VPCD) and VoxCeleb2 multi-view clustering dataset, respectively. Codes will be released publicly upon acceptance.
翻訳日:2023-08-02 13:54:49 公開日:2023-08-01
# 量子カーネルを用いた支持ベクトル回帰を用いた半教師付き異常検出

Semisupervised Anomaly Detection using Support Vector Regression with Quantum Kernel ( http://arxiv.org/abs/2308.00583v1 )

ライセンス: Link先を確認
Kilian Tscharke, Sebastian Issel, Pascal Debus(参考訳) 異常検出(AD)は、他のデータから何らかの方法で逸脱する観測や事象を特定することである。 機械学習技術は、大規模データの隠れパターンや偏差を検出することによって、このプロセスを自動化することに成功した。 機械学習のための量子コンピューティングの可能性は広く認識されており、適切な量子機械学習(QML)アルゴリズムを開発するための広範な研究努力につながっている。 特に、NISQデバイスに対するQMLアルゴリズムの探索は、完全に揺れている。 しかし、NISQデバイスは、量子コヒーレンス時間に制限があり、量子ビット数が低く、エラー率が高いため、さらなる課題が生じる。 NISQデバイス上でのQMLに対する有望なアプローチとして量子カーネル推定に基づくカーネル手法が登場し、理論的な保証、汎用性、およびNISQ制約との互換性を提供する。 特に量子カーネル推定を利用したベクトルマシン(SVM)は,様々な教師付き学習タスクで成功を収めている。 しかし、ADの文脈では、半教師あり学習は極めて関連性が高いが、この分野での研究は限られている。 本稿では,量子カーネルによる支持ベクトル回帰(SVR)の再構成損失に基づく半教師付きADへのアプローチを提案する。 この新モデルは変分量子カーネルと量子カーネルの1クラス分類器の代替であり、量子オートエンコーダを量子ベースラインとして、SVRを放射基底関数(RBF)カーネルとし、古典的オートエンコーダを古典的ベースラインとして比較する。 実世界の10のADデータセットと1つの玩具データセットでベンチマークを行い、我々の量子カーネルを用いたSVRモデルはRBFカーネルと他のすべてのモデルよりも優れた性能を示し、全てのデータセットに対して最高平均AUCを達成する。 さらに、我々のqsvrは11のデータセットのうち9の量子オートエンコーダよりも優れています。

Anomaly detection (AD) involves identifying observations or events that deviate in some way from the rest of the data. Machine learning techniques have shown success in automating this process by detecting hidden patterns and deviations in large-scale data. The potential of quantum computing for machine learning has been widely recognized, leading to extensive research efforts to develop suitable quantum machine learning (QML) algorithms. In particular, the search for QML algorithms for near-term NISQ devices is in full swing. However, NISQ devices pose additional challenges due to their limited qubit coherence times, low number of qubits, and high error rates. Kernel methods based on quantum kernel estimation have emerged as a promising approach to QML on NISQ devices, offering theoretical guarantees, versatility, and compatibility with NISQ constraints. Especially support vector machines (SVM) utilizing quantum kernel estimation have shown success in various supervised learning tasks. However, in the context of AD, semisupervised learning is of great relevance, and yet there is limited research published in this area. This paper introduces an approach to semisupervised AD based on the reconstruction loss of a support vector regression (SVR) with quantum kernel. This novel model is an alternative to the variational quantum and quantum kernel one-class classifiers, and is compared to a quantum autoencoder as quantum baseline and a SVR with radial-basis-function (RBF) kernel as well as a classical autoencoder as classical baselines. The models are benchmarked extensively on 10 real-world AD data sets and one toy data set, and it is shown that our SVR model with quantum kernel performs better than the SVR with RBF kernel as well as all other models, achieving highest mean AUC over all data sets. In addition, our QSVR outperforms the quantum autoencoder on 9 out of 11 data sets.
翻訳日:2023-08-02 13:54:25 公開日:2023-08-01
# PVG: 視覚認識のためのプログレッシブビジョングラフ

PVG: Progressive Vision Graph for Vision Recognition ( http://arxiv.org/abs/2308.00574v1 )

ライセンス: Link先を確認
Jiafu Wu, Jian Li, Jiangning Zhang, Boshen Zhang, Mingmin Chi, Yabiao Wang, Chengjie Wang(参考訳) 畳み込みベースのビジョンバックボーンネットワークとトランスフォーマーベースのビジョンバックボーンネットワークはそれぞれ、不規則なオブジェクトをキャプチャするための柔軟性のないグリッドやシーケンス構造に画像を処理します。 vision gnn (vig) は複雑な画像に対してグラフレベルの機能を採用しているが、隣接ノードの選択の不正確性、高価なノード情報集約計算、深層でのオーバースモーシングなど、いくつかの問題がある。 上記の課題に対処するために,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。 PVGは以前の研究と比較すると、以下の3つの主要コンポーネントを含んでいる。 1)グローバルグラフブランチのチャネルを徐々に増やし,レイヤが深まるにつれて局所ブランチのチャネルを減少させることにより,第2次類似性を導入するための段階的分離グラフ構築(psgc) 2) Max pooling and mathematical expectation (MaxE) による近隣ノードの情報収集・更新モジュール 3)グラフエラーリニアユニット(GraphLU)により,低値情報を緩和形式で強化し,画像の詳細情報の圧縮を減らし,過度なスムーシングを緩和する。 例えば、当社のPVG-Sは、GNNベースのVG-Sを+0.9で上回り、パラメータが18.5%減少するImageNet-1Kで83.0%のTop-1精度を得る一方、最大のPVG-Bは84.2%でVG-Bよりも改善されている。 さらに、PVG-Sは、COCOデータセット上のViG-Sよりも+1.3ボックスAPと+0.4マスクAPのゲインを得る。

Convolution-based and Transformer-based vision backbone networks process images into the grid or sequence structures, respectively, which are inflexible for capturing irregular objects. Though Vision GNN (ViG) adopts graph-level features for complex images, it has some issues, such as inaccurate neighbor node selection, expensive node information aggregation calculation, and over-smoothing in the deep layers. To address the above problems, we propose a Progressive Vision Graph (PVG) architecture for vision recognition task. Compared with previous works, PVG contains three main components: 1) Progressively Separated Graph Construction (PSGC) to introduce second-order similarity by gradually increasing the channel of the global graph branch and decreasing the channel of local branch as the layer deepens; 2) Neighbor nodes information aggregation and update module by using Max pooling and mathematical Expectation (MaxE) to aggregate rich neighbor information; 3) Graph error Linear Unit (GraphLU) to enhance low-value information in a relaxed form to reduce the compression of image detail information for alleviating the over-smoothing. Extensive experiments on mainstream benchmarks demonstrate the superiority of PVG over state-of-the-art methods, e.g., our PVG-S obtains 83.0% Top-1 accuracy on ImageNet-1K that surpasses GNN-based ViG-S by +0.9 with the parameters reduced by 18.5%, while the largest PVG-B obtains 84.2% that has +0.5 improvement than ViG-B. Furthermore, our PVG-S obtains +1.3 box AP and +0.4 mask AP gains than ViG-S on COCO dataset.
翻訳日:2023-08-02 13:53:53 公開日:2023-08-01
# 高速ユニタリ制御を持つ開マルコフ量子系の到達性, 冷却性, 安定性

Reachability, Coolability, and Stabilizability of Open Markovian Quantum Systems with Fast Unitary Control ( http://arxiv.org/abs/2308.00561v1 )

ライセンス: Link先を確認
Emanuel Malvetti, Frederik vom Ende, Gunther Dirr, Thomas Schulte-Herbr\"uggen(参考訳) 高速かつ完全なハミルトニアン制御を持つ開マルコフ量子系は、量子状態を記述する密度行列の固有値のダイナミクスをモデル化する標準単純体上の等価制御系に還元することができる。 マルコフ量子系の冷却への即時適用による到達性と安定化性に関する質問に答えるための制御系について検討する。 ある種の興味のあるタスクに対して、制御ハミルトニアンが時間非依存に選択できることが示される。 -- 還元図は、クラスが高速制御によって誘導される状態の同値類間の散逸的相互変換の例である。

Open Markovian quantum systems with fast and full Hamiltonian control can be reduced to an equivalent control system on the standard simplex modelling the dynamics of the eigenvalues of the density matrix describing the quantum state. We explore this reduced control system for answering questions on reachability and stabilizability with immediate applications to the cooling of Markovian quantum systems. We show that for certain tasks of interest, the control Hamiltonian can be chosen time-independent. -- The reduction picture is an example of dissipative interconversion between equivalence classes of states, where the classes are induced by fast controls.
翻訳日:2023-08-02 13:52:57 公開日:2023-08-01
# トラベルセールスマン問題に対する強化学習に基づく非自己回帰解法

Reinforcement Learning-based Non-Autoregressive Solver for Traveling Salesman Problems ( http://arxiv.org/abs/2308.00560v1 )

ライセンス: Link先を確認
Yubin Xiao, Di Wang, Huanhuan Chen, Boyang Li, Wei Pang, Xuan Wu, Hao Li, Dong Xu, Yanchun Liang, and You Zhou(参考訳) トラベリングセールスマン問題(TSP)は、様々な分野のアプリケーションと組み合わせ最適化においてよく知られた問題である。 しかし、既存のTSPソルバは、低レイテンシで高品質なソリューションを作成する際の課題に直面している。 この問題に対処するために,特殊設計したグラフニューラルネットワーク(GNN)を用いて,非自己回帰(NAR)方式でTSPソリューションを生成するNAR4TSPを提案する。 さらに、NAR4TSPは強化強化学習(RL)戦略を用いて訓練されており、従来の教師付き学習ベースNARモデルのトレーニングに使用される高価なラベルへの依存を排除している。 我々の知る限り、NAR4TSPはRLとNARデコーディングをうまく組み合わせた最初のTSPソルバである。 合成TSPインスタンスと実世界のTSPインスタンスの両方の実験結果は、NAR4TSPがソリューションの品質、推論レイテンシ、一般化能力の点で4つの最先端モデルを上回っていることを示している。 最後に, NAR4TSPの復号化過程の可視化と, NAR4TSPをエンド・ツー・エンドで実装する可能性とその有効性を示す全体的な経路計画について述べる。

The Traveling Salesman Problem (TSP) is a well-known problem in combinatorial optimization with applications in various domains. However, existing TSP solvers face challenges in producing high-quality solutions with low latency. To address this issue, we propose NAR4TSP, which produces TSP solutions in a Non-Autoregressive (NAR) manner using a specially designed Graph Neural Network (GNN), achieving faster inference speed. Moreover, NAR4TSP is trained using an enhanced Reinforcement Learning (RL) strategy, eliminating the dependency on costly labels used to train conventional supervised learning-based NAR models. To the best of our knowledge, NAR4TSP is the first TSP solver that successfully combines RL and NAR decoding. The experimental results on both synthetic and real-world TSP instances demonstrate that NAR4TSP outperforms four state-of-the-art models in terms of solution quality, inference latency, and generalization ability. Lastly, we present visualizations of NAR4TSP's decoding process and its overall path planning to showcase the feasibility of implementing NAR4TSP in an end-to-end manner and its effectiveness, respectively.
翻訳日:2023-08-02 13:52:46 公開日:2023-08-01
# スパイク依存局所情報を用いたディープスパイクニューラルネットワークの勾配スケーリング

Gradient Scaling on Deep Spiking Neural Networks with Spike-Dependent Local Information ( http://arxiv.org/abs/2308.00558v1 )

ライセンス: Link先を確認
Seongsik Park, Jeonghee Jo, Jongkil Park, Yeonjoo Jeong, Jaewook Kim, Suyoun Lee, Joon Young Kwak, Inho Kim, Jong-Keuk Park, Kyeong Seok Lee, Gye Weon Hwang, Hyun Jae Jang(参考訳) deep spiking neural networks (snns)は、ディープニューラルネットワークアーキテクチャからモデルキャパシティ、snsの運用からエネルギー効率まで、ニューラルネットワークを約束している。 近年,深部SNNを訓練するために,代理勾配を有する時空間バックプロパゲーション(STBP)が提案されている。 深部SNNはSTBPで訓練されているが、スパイク情報を完全に活用することはできない。 本研究では,前スパイクと後スパイクの関係である局所スパイク情報を用いた勾配スケーリングを提案する。 スパイク間の因果性を考慮すると、深層SNNのトレーニング性能を向上させることができる。 実験の結果,CIFAR10やCIFAR100などの画像分類タスクに勾配スケーリングを適用することで,より精度の高いスパイクを実現することができた。

Deep spiking neural networks (SNNs) are promising neural networks for their model capacity from deep neural network architecture and energy efficiency from SNNs' operations. To train deep SNNs, recently, spatio-temporal backpropagation (STBP) with surrogate gradient was proposed. Although deep SNNs have been successfully trained with STBP, they cannot fully utilize spike information. In this work, we proposed gradient scaling with local spike information, which is the relation between pre- and post-synaptic spikes. Considering the causality between spikes, we could enhance the training performance of deep SNNs. According to our experiments, we could achieve higher accuracy with lower spikes by adopting the gradient scaling on image classification tasks, such as CIFAR10 and CIFAR100.
翻訳日:2023-08-02 13:52:28 公開日:2023-08-01
# ランダム変動による局所発振器強度変化を用いた離散変調連続可変量子鍵分布に対する量子ハッキング

Quantum hacking against discrete-modulated continuous-variable quantum key distribution using modified local oscillator intensity attack with random fluctuations ( http://arxiv.org/abs/2308.00557v1 )

ライセンス: Link先を確認
Lu Fan, Yiming Bian, Mingze Wu, Yichen Zhang, and Song Yu(参考訳) 実効連続可変量子鍵分布系の局所発振器は、鍵分布過程の間いつでも変動し、盗聴器が盗聴行動を隠すためのセキュリティの抜け穴を開く可能性がある。 そこで本研究では,よりステルスな量子攻撃法について検討し,離散変調型連続可変量子鍵分布系における局所発振強度のランダム揺らぎをシミュレーションする。 理論シミュレーションにより、両通信相手は平均局部発振器強度とショットノイズを監視したとしても、チャネルパラメータを誤算し、修正攻撃モデルによる秘密鍵レートを過大評価することが示された。 特に、lo強度のランダムなゆらぎのeavesdropperの操作は、実験パラメータが常に半定義のプログラムモデリングの制約に使用される、現実的な離散変調連続変数量子鍵分散システムにおけるパラメータ推定を阻害する。 局部発振器のランダムなゆらぎによって引き起こされる修正攻撃は、監視技術の精度に高い要求を与える局所発振器強度をリアルタイムに監視することによってのみ除去できる。 さらに、パイロット強度のランダムなゆらぎを操作することで、実際のローカル発振器システムでも同様の量子ハッキングが発生し、攻撃の強い適応性と重要な役割を示す。

The local oscillator in practical continuous-variable quantum key distribution system fluctuates at any time during the key distribution process, which may open security loopholes for the eavesdropper to hide her eavesdropping behaviors. Based on this, we investigate a more stealthy quantum attack where the eavesdroppers simulates random fluctuations of local oscillator intensity in a practical discrete-modulated continuous-variable quantum key distribution system. Theoretical simulations show that both communicating parties will misestimate channel parameters and overestimate the secret key rate due to the modified attack model, even though they have monitored the mean local oscillator intensity and shot-noise as commonly used. Specifically, the eavesdropper's manipulation of random fluctuations in LO intensity disturbs the parameter estimation in realistic discrete-modulated continuous-variable quantum key distribution system, where the experimental parameters are always used for constraints of the semidefinite program modeling. The modified attack introduced by random fluctuations of local oscillator can only be eliminated by monitoring the local oscillator intensity in real time which places a higher demand on the accuracy of monitoring technology. Moreover, similar quantum hacking will also occur in practical local local oscillator system by manipulating the random fluctuations in pilot intensity, which shows the strong adaptability and the important role of the proposed attack.
翻訳日:2023-08-02 13:52:17 公開日:2023-08-01
# ロバスト線形回帰:一般ノルムの相転移と精密トレードオフ

Robust Linear Regression: Phase-Transitions and Precise Tradeoffs for General Norms ( http://arxiv.org/abs/2308.00556v1 )

ライセンス: Link先を確認
Elvis Dohmatob, Meyer Scetbon(参考訳) 本稿では,線形回帰モデルに対するテスト時間逆攻撃の影響を調査し,与えられた標準予測性能(精度)を維持しながら,任意のモデルが到達可能なロバスト性の最適レベルを決定する。 定量的推定により、異なる体制における敵の堅牢性と精度の基本的なトレードオフを明らかにする。 標準精度を損なうことなく、堅牢性が達成可能な体制と、トレードオフが避けられないような体制とを区別する正確な特徴付けを求める。 実験の結果は, 様々な設定の簡単な実験で実証された。 この研究は、任意の性質の共分散行列と攻撃規範に適用され、この分野の以前の業績を超えて拡張される。

In this paper, we investigate the impact of test-time adversarial attacks on linear regression models and determine the optimal level of robustness that any model can reach while maintaining a given level of standard predictive performance (accuracy). Through quantitative estimates, we uncover fundamental tradeoffs between adversarial robustness and accuracy in different regimes. We obtain a precise characterization which distinguishes between regimes where robustness is achievable without hurting standard accuracy and regimes where a tradeoff might be unavoidable. Our findings are empirically confirmed with simple experiments that represent a variety of settings. This work applies to feature covariance matrices and attack norms of any nature, and extends beyond previous works in this area.
翻訳日:2023-08-02 13:51:52 公開日:2023-08-01
# NeRT:一般教師なし乱流緩和のための暗黙的ニューラル表現

NeRT: Implicit Neural Representations for General Unsupervised Turbulence Mitigation ( http://arxiv.org/abs/2308.00622v1 )

ライセンス: Link先を確認
Weiyun Jiang, Vivek Boominathan, Ashok Veeraraghavan(参考訳) 大気と水の乱気流の緩和問題は、コンピュータビジョンと光学のコミュニティにおける長年の逆問題として現れてきた。 しかし、現在の手法はトレーニングデータセットの品質に大きく依存するか、静的シーン、動的シーン、テキスト再構成など、さまざまなシナリオを一般化できないかのいずれかである。 大気・水乱流緩和(NeRT)のための一般暗黙的ニューラル表現を提案する。 NeRTは暗黙の神経表現と物理的に正しい傾きと青の乱流モデルを活用して、何十もの歪んだ入力画像しか持たないクリーンで歪みのないイメージを再構成する。 さらに,NeRTは大気および水乱流データセットの質的,定量的な評価を通じて,最先端技術よりも優れていることを示す。 さらに,実環境からの非制御乱流を除去するNeRTの能力を実証した。 最後に、NeRTを連続的にキャプチャしたビデオシーケンスに組み込んで、48 \times$ speedupを実証します。

The atmospheric and water turbulence mitigation problems have emerged as challenging inverse problems in computer vision and optics communities over the years. However, current methods either rely heavily on the quality of the training dataset or fail to generalize over various scenarios, such as static scenes, dynamic scenes, and text reconstructions. We propose a general implicit neural representation for unsupervised atmospheric and water turbulence mitigation (NeRT). NeRT leverages the implicit neural representations and the physically correct tilt-then-blur turbulence model to reconstruct the clean, undistorted image, given only dozens of distorted input images. Moreover, we show that NeRT outperforms the state-of-the-art through various qualitative and quantitative evaluations of atmospheric and water turbulence datasets. Furthermore, we demonstrate the ability of NeRT to eliminate uncontrolled turbulence from real-world environments. Lastly, we incorporate NeRT into continuously captured video sequences and demonstrate $48 \times$ speedup.
翻訳日:2023-08-02 13:45:03 公開日:2023-08-01
# LHCb頂点検出器におけるトラック再構成のための量子アルゴリズム

A quantum algorithm for track reconstruction in the LHCb vertex detector ( http://arxiv.org/abs/2308.00619v1 )

ライセンス: Link先を確認
Davide Nicotra, Miriam Lucio Martinez, Jacco Andreas de Vries, Marcel Merk, Kurt Driessens, Ronald Leonard Westra, Domenica Dibenedetto and Daniel Hugo C\'ampora P\'erez(参考訳) 高エネルギー物理学は、近未来の高光度時代のリアルタイムイベントレコンストラクションにおいて、ますます計算上の課題に直面している。 LHCb vertex 検出器をユースケースとして,Ising-like Hamiltonian の線形代数的アプローチによる最小化に基づく粒子軌道再構成の新しいアルゴリズムを探索する。 古典的行列逆転法を用いることで、現在の最先端技術と同様のパフォーマンスを追跡するが、時間のスケーリングの複雑さは悪化する。 この問題を解決するため,HHLハミルトンシミュレーションと読み出し問題による制限にもかかわらず,Harrow-Hassadim-Lloyd (HHL)アルゴリズムを用いて量子アルゴリズムの実装を提案する。 本論文では,高エネルギー物理における実時間粒子軌道再構成に量子コンピューティングを活用する可能性について述べる。

High-energy physics is facing increasingly computational challenges in real-time event reconstruction for the near-future high-luminosity era. Using the LHCb vertex detector as a use-case, we explore a new algorithm for particle track reconstruction based on the minimisation of an Ising-like Hamiltonian with a linear algebra approach. The use of a classical matrix inversion technique results in tracking performance similar to the current state-of-the-art but with worse scaling complexity in time. To solve this problem, we also present an implementation as quantum algorithm, using the Harrow-Hassadim-Lloyd (HHL) algorithm: this approach can potentially provide an exponential speedup as a function of the number of input hits over its classical counterpart, in spite of limitations due to the well-known HHL Hamiltonian simulation and readout problems. The findings presented in this paper shed light on the potential of leveraging quantum computing for real-time particle track reconstruction in high-energy physics.
翻訳日:2023-08-02 13:44:49 公開日:2023-08-01
# 境界存在下での無質量スカラー場における区間の絡み合いエントロピー

Entanglement entropies of an interval for the massless scalar field in the presence of a boundary ( http://arxiv.org/abs/2308.00614v1 )

ライセンス: Link先を確認
Benoit Estienne, Yacine Ikhlef, Andrei Rotaru, Erik Tonni(参考訳) ダイリクレおよびノイマン境界条件が課される場合, 半直線上または有限セグメント上において, 質量のないコンパクトボソンの区間の絡み合いエントロピーについて検討した。 これらの境界共形場理論モデルでは、分岐点ねじれ場の方法を用いてツイスト作用素の2点関数の解析式を得る。 decompactification regimeでは、これらの連続体の解析的予測は、対応するエンタングルメントエントロピーの無質量調和列における格子の数値結果と比較され、良好な一致が得られた。 これらの解析結果の量子クエンチの文脈への応用についても論じる。

We study the entanglement entropies of an interval for the massless compact boson either on the half line or on a finite segment, when either Dirichlet or Neumann boundary conditions are imposed. In these boundary conformal field theory models, the method of the branch point twist fields is employed to obtain analytic expressions for the two-point functions of twist operators. In the decompactification regime, these analytic predictions in the continuum are compared with the lattice numerical results in massless harmonic chains for the corresponding entanglement entropies, finding good agreement. The application of these analytic results in the context of quantum quenches is also discussed.
翻訳日:2023-08-02 13:44:07 公開日:2023-08-01
# データ不均衡を考慮した脳MRI画像からの脳腫瘍検出のための費用感受性ニューラルネットワーク

Explainable Cost-Sensitive Deep Neural Networks for Brain Tumor Detection from Brain MRI Images considering Data Imbalance ( http://arxiv.org/abs/2308.00608v1 )

ライセンス: Link先を確認
Md Tanvir Rouf Shawon, G. M. Shahariar Shibli, Farzad Ahmed and Sajib Kumar Saha Joy(参考訳) 本稿では,脳腫瘍の診断に要する時間を削減するために,畳み込みニューラルネットワーク(CNN), ResNet50, InceptionV3, EfficientNetB0, NASNetMobileモデルを用いて脳腫瘍を効率よく検出し,脳腫瘍を分類する自動システムを提案する。 CNN、ResNet50、InceptionV3、EfficientNetB0、NASNetMobileの5つのモデルを含む自動パイプラインが提案されている。 提案アーキテクチャの性能はバランスの取れたデータセットで評価され、微調整されたInceptionV3モデルに対して99.33%の精度が得られた。 さらに、説明可能なaiアプローチは、モデルの潜在挙動を視覚化するために組み込まれ、ブラックボックスの振る舞いを理解する。 トレーニングプロセスをさらに最適化するために,従来のモデルよりも約4%精度が向上した不均衡データセットを扱うために,コストに敏感なニューラルネットワークアプローチが提案されている。 コスト感受性のInceptionV3(CS-InceptionV3)とCNN(CS-CNN)はそれぞれ92.31%、リコール値は1.00である。 提案モデルは, 腫瘍検出精度の向上に大きな可能性を示し, 実用化に向けてさらなる展開が必要である。 私たちはデータセットを提供し、その実装をhttps://github.com/shahariar-shibli/Explainable-Cost-Sensitive-Deep-Neural-Networks-for-Brain-Tumor- Detection-from-Brain-MRI-Imagesで公開しました。

This paper presents a research study on the use of Convolutional Neural Network (CNN), ResNet50, InceptionV3, EfficientNetB0 and NASNetMobile models to efficiently detect brain tumors in order to reduce the time required for manual review of the report and create an automated system for classifying brain tumors. An automated pipeline is proposed, which encompasses five models: CNN, ResNet50, InceptionV3, EfficientNetB0 and NASNetMobile. The performance of the proposed architecture is evaluated on a balanced dataset and found to yield an accuracy of 99.33% for fine-tuned InceptionV3 model. Furthermore, Explainable AI approaches are incorporated to visualize the model's latent behavior in order to understand its black box behavior. To further optimize the training process, a cost-sensitive neural network approach has been proposed in order to work with imbalanced datasets which has achieved almost 4% more accuracy than the conventional models used in our experiments. The cost-sensitive InceptionV3 (CS-InceptionV3) and CNN (CS-CNN) show a promising accuracy of 92.31% and a recall value of 1.00 respectively on an imbalanced dataset. The proposed models have shown great potential in improving tumor detection accuracy and must be further developed for application in practical solutions. We have provided the datasets and made our implementations publicly available at - https://github.com/shahariar-shibli/Explainable-Cost-Sensitive-Deep-Neural-Networks-for-Brain-Tumor- Detection-from-Brain-MRI-Images
翻訳日:2023-08-02 13:42:31 公開日:2023-08-01
# ワンホットエンコーディングを超えて:イメージ分類器を駆動するセマンティックスを注入する

Beyond One-Hot-Encoding: Injecting Semantics to Drive Image Classifiers ( http://arxiv.org/abs/2308.00607v1 )

ライセンス: Link先を確認
Alan Perotti, Simone Bertolotto, Eliana Pastor, Andr\'e Panisson(参考訳) 画像には現実世界のオントロジーに関連する意味情報が含まれている:犬種は哺乳類の類似性を共有し、食べ物の写真は家庭の環境によく描かれる。 しかし、画像分類のための機械学習モデルを訓練する場合、オブジェクトクラス間の相対的類似性は通常、1ホットコードラベルとペアリングされる。 この論理によれば、イメージを「スプーン」とラベル付けすると、「ティースプーン」と「シャーク」はトレーニング損失の点で等しく間違っている。 この限界を克服するために、オントロジとセマンティックな知識を反映した追加の目標の統合を検討し、モデルの解釈性と信頼性を改善する。 分類ラベルに関するあらゆる種類の意味情報から、追加の損失項を導出できる汎用的アプローチを提案する。 まず,このアプローチをオントロジーや単語埋め込みに適用する方法を示し,得られた情報がどのように教師あり学習プロセスを促進するかについて議論する。 第2に、画像分類器の訓練に意味豊かな損失を使用し、精度、誤り重大度、内部表現の学習のトレードオフを分析する。 最後に,このアプローチを,説明可能性と敵対的ロバスト性の観点からさらに活用する方法について論じる。 コードリポジトリ: https://github.com/s1m0n38/semantic-encodings

Images are loaded with semantic information that pertains to real-world ontologies: dog breeds share mammalian similarities, food pictures are often depicted in domestic environments, and so on. However, when training machine learning models for image classification, the relative similarities amongst object classes are commonly paired with one-hot-encoded labels. According to this logic, if an image is labelled as 'spoon', then 'tea-spoon' and 'shark' are equally wrong in terms of training loss. To overcome this limitation, we explore the integration of additional goals that reflect ontological and semantic knowledge, improving model interpretability and trustworthiness. We suggest a generic approach that allows to derive an additional loss term starting from any kind of semantic information about the classification label. First, we show how to apply our approach to ontologies and word embeddings, and discuss how the resulting information can drive a supervised learning process. Second, we use our semantically enriched loss to train image classifiers, and analyse the trade-offs between accuracy, mistake severity, and learned internal representations. Finally, we discuss how this approach can be further exploited in terms of explainability and adversarial robustness. Code repository: https://github.com/S1M0N38/semantic-encodings
翻訳日:2023-08-02 13:41:57 公開日:2023-08-01
# 普遍量子コンピューティングの能力決定:次元表現性による制御可能性の検証

Determining the ability for universal quantum computing: Testing controllability via dimensional expressivity ( http://arxiv.org/abs/2308.00606v1 )

ライセンス: Link先を確認
Fernando Gago-Encinas, Tobias Hartung, Daniel M. Reich, Karl Jansen, and Christiane P. Koch(参考訳) 演算子制御性(Operator Controllability)は、SU(N) において任意のユニタリを実装する能力であり、普遍量子コンピューティングの前提条件である。 制御可能性テストは、外部制御の数を減らすために量子デバイスの設計に使用できる。 しかし、その実用性は、量子ビット数に対する数値的な取り組みの指数的スケーリングによって妨げられている。 本稿では,パラメタライズド量子回路に基づくハイブリッド量子古典アルゴリズムを提案する。 制御性は,次元的表現性解析によって得られる独立パラメータの数に関連していることを示す。 最寄りの結合と局所制御を持つキュービットアレイへのアルゴリズムの適用を例示する。 本研究は,量子チップの資源効率設計への系統的アプローチを提供する。

Operator controllability refers to the ability to implement an arbitrary unitary in SU(N) and is a prerequisite for universal quantum computing. Controllability tests can be used in the design of quantum devices to reduce the number of external controls. Their practical use is hampered, however, by the exponential scaling of their numerical effort with the number of qubits. Here, we devise a hybrid quantum-classical algorithm based on a parametrized quantum circuit. We show that controllability is linked to the number of independent parameters, which can be obtained by dimensional expressivity analysis. We exemplify the application of the algorithm to qubit arrays with nearest-neighbour couplings and local controls. Our work provides a systematic approach to the resource-efficient design of quantum chips.
翻訳日:2023-08-02 13:41:34 公開日:2023-08-01
# MonoNext: ConvNextを使った3Dモノクロオブジェクト検出

MonoNext: A 3D Monocular Object Detection with ConvNext ( http://arxiv.org/abs/2308.00596v1 )

ライセンス: Link先を確認
Marcelo Eduardo Pederiva, Jos\'e Mario De Martino and Alessandro Zimmer(参考訳) 自律運転認識タスクは、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト追跡の主要なセンサーとして、カメラに大きく依存している。 しかし、カメラが捉えたRGB画像には深度情報がないため、3D検出タスクでは大きな課題となる。 この欠落したデータを補うために、LIDARやRADARのようなマッピングセンサーが正確な3Dオブジェクト検出に使われている。 精度は高いが、マルチセンサーモデルは高価であり、高い計算要求を必要とする。 対照的に、モノクロ3Dオブジェクト検出モデルは、より高速で安価で実装が容易な3D検出ソリューションを提供することで、ますます人気が高まっている。 本稿では,空間格子を用いてシーン内のオブジェクトをマッピングするMonoNextという,異なるマルチタスク学習手法を提案する。 MonoNextは、ConvNextネットワークに基づく直接的なアプローチを採用し、3Dバウンディングボックスアノテートデータのみを必要とする。 KITTIデータセットを用いた実験では,MonoNextは最先端のアプローチに匹敵する高精度かつ競争的な性能を達成した。 さらに、より多くのトレーニングデータを追加することで、mononextは自身を越え、高い精度を達成した。

Autonomous driving perception tasks rely heavily on cameras as the primary sensor for Object Detection, Semantic Segmentation, Instance Segmentation, and Object Tracking. However, RGB images captured by cameras lack depth information, which poses a significant challenge in 3D detection tasks. To supplement this missing data, mapping sensors such as LIDAR and RADAR are used for accurate 3D Object Detection. Despite their significant accuracy, the multi-sensor models are expensive and require a high computational demand. In contrast, Monocular 3D Object Detection models are becoming increasingly popular, offering a faster, cheaper, and easier-to-implement solution for 3D detections. This paper introduces a different Multi-Tasking Learning approach called MonoNext that utilizes a spatial grid to map objects in the scene. MonoNext employs a straightforward approach based on the ConvNext network and requires only 3D bounding box annotated data. In our experiments with the KITTI dataset, MonoNext achieved high precision and competitive performance comparable with state-of-the-art approaches. Furthermore, by adding more training data, MonoNext surpassed itself and achieved higher accuracies.
翻訳日:2023-08-02 13:41:24 公開日:2023-08-01
# 相対論的スピン1/2粒子のユニタリシフトパラメータ推定のための誤差トレードオフ関係

Error tradeoff relation for estimating the unitary-shift parameter of a relativistic spin-1/2 particle ( http://arxiv.org/abs/2308.00669v1 )

ライセンス: Link先を確認
Shin Funada, Jun Suzuki(参考訳) 本稿では,相対論的スピン1/2系における2つのユニタリシフトパラメータを推定するための非自明なトレードオフ関係の存在について考察する。 パラメトリックモデルが古典的でありながら、移動観察者は同時に2つのパラメータを推定できないことが示されている。 この古典モデルから真の量子モデルへの遷移は、量子フィッシャー情報行列の1パラメータ族を用いて解析的に研究される。 本稿では,トレードオフ関係の存在を検知できるだけでなく,その強度を評価する指標を用いることを提案する。 本稿では,提案する指標に基づき,トレードオフ関係の性質を詳細に検討する。

The purpose of this paper is to discuss the existence of a nontrivial tradeoff relation for estimating two unitary-shift parameters in a relativistic spin-1/2 system. It is shown that any moving observer cannot estimate two parameters simultaneously, even though a parametric model is classical in the rest frame. This transition from the classical model to a genuine quantum model is investigated analytically using a one-parameter family of quantum Fisher information matrices. This paper proposes to use an indicator that can not only detect the existence of a tradeoff relation but can also evaluate its strength. Based on the proposed indicator, this paper investigates the nature of the tradeoff relation in detail.
翻訳日:2023-08-02 13:34:54 公開日:2023-08-01
# VQEにおける分子対称性:ベンゼンのトラップイオンシミュレーションのための二重アプローチ

Molecular Symmetry in VQE: A Dual Approach for Trapped-Ion Simulations of Benzene ( http://arxiv.org/abs/2308.00667v1 )

ライセンス: Link先を確認
Joshua Goings and Luning Zhao and Jacek Jakowski and Titus Morris and Raphael Pooser(参考訳) 生体分子、触媒、新規物質などの複雑な化学系を理解することは、量子シミュレーションの中心的な目標である。 変分量子固有解法(VQE)アルゴリズムと適切なアンサッツの併用による短期戦略のヒンジ。 しかし、化学にインスパイアされた多くのアンサットの直接的な応用は、禁止的に深い回路を生み出す。 本研究では, トラップイオン量子デバイスに適した回路最適化手法を用いて, 複雑な化学シミュレーションの実現可能性を高める。 この手法は、単一結合クラスタの深さをシングルとダブル(uCCSD)アンザッツの回路コンパイルで小さくすることを目的としており、これは現在のノイズ量子デバイスにおいて大きな課題である。 さらに、対称性に触発された古典的ポスト選択法を用いて、量子オーバーヘッドを加えることなく、結果をさらに洗練し、エネルギー測定の誤差を最小化する。 我々の戦略は、軌道からキュービットへの最適マッピング、絡み合うゲートの最小化のための項の並べ替え、余剰パラメータを排除するために分子スピンと点群対称性の活用を含む。 既知の分子対称性に基づくポストセレクションによる誤差緩和は、結果をミリハートリーの精度に改善する。 これらの手法はベンゼン分子シミュレーションに適用され、69の2量子ビット絡み操作を持つ8量子ビット回路の構築を可能にし、量子ハードウェア上で実行される変分量子固有ソルバ(vqe)回路の限界を押し上げた。

Understanding complex chemical systems -- such as biomolecules, catalysts, and novel materials -- is a central goal of quantum simulations. Near-term strategies hinge on the use of variational quantum eigensolver (VQE) algorithms combined with a suitable ansatz. However, straightforward application of many chemically-inspired ansatze yields prohibitively deep circuits. In this work, we employ several circuit optimization methods tailored for trapped-ion quantum devices to enhance the feasibility of intricate chemical simulations. The techniques aim to lessen the depth of the unitary coupled cluster with singles and doubles (uCCSD) ansatz's circuit compilation, a considerable challenge on current noisy quantum devices. Furthermore, we use symmetry-inspired classical post-selection methods to further refine the outcomes and minimize errors in energy measurements, without adding quantum overhead. Our strategies encompass optimal mapping from orbital to qubit, term reordering to minimize entangling gates, and the exploitation of molecular spin and point group symmetry to eliminate redundant parameters. The inclusion of error mitigation via post-selection based on known molecular symmetries improves the results to near milli-Hartree accuracy. These methods, when applied to a benzene molecule simulation, enabled the construction of an 8-qubit circuit with 69 two-qubit entangling operations, pushing the limits for variational quantum eigensolver (VQE) circuits executed on quantum hardware to date.
翻訳日:2023-08-02 13:34:45 公開日:2023-08-01
# ゼロショット文字認識に向けて:ラディカルレベルアノテーション付きゴールド標準データセット

Toward Zero-shot Character Recognition: A Gold Standard Dataset with Radical-level Annotations ( http://arxiv.org/abs/2308.00655v1 )

ライセンス: Link先を確認
Xiaolei Diao, Daqian Shi, Jian Li, Lida Shi, Mingzhe Yue, Ruihua Qi, Chuntao Li, Hao Xu(参考訳) 光文字認識(OCR)法は、ストリートビューテキスト認識や文書解析など、様々なタスクに応用されている。 近年、ゼロショットOCRは、データ分散の不均衡を伴う実用的なOCRシナリオを考えるため、研究コミュニティの関心を喚起している。 しかし、文字をラジカルに分解することで分割・コンカレント認識戦略を適用するようなゼロショット手法を評価するためのベンチマークが欠如している。 一方、他の重要なOCRタスクとしての過激な認識は、モデルトレーニングに対する過激なレベルのアノテーションを欠いている。 本稿では,従来の手法であるACCIDの要件を満たすために,ラジカルレベルのアノテーションと文字レベルのアノテーションの両方を含む古代中国語の文字画像データセットを構築し,ラジカルレベルのアノテーションには,ラジカルなカテゴリ,ラジカルな位置,構造的関係が含まれる。 ACCIDの適応性を高めるため,トレーニングサンプルを増強するスプライシングベースの合成文字アルゴリズムを提案し,画像の画質向上のために画像デノナイズ手法を適用した。 文字分解と組換えを導入し,ゼロショットOCRのベースライン手法を提案する。 実験の結果,ACCIDとベースラインモデルの定量的および定性的妥当性が示された。

Optical character recognition (OCR) methods have been applied to diverse tasks, e.g., street view text recognition and document analysis. Recently, zero-shot OCR has piqued the interest of the research community because it considers a practical OCR scenario with unbalanced data distribution. However, there is a lack of benchmarks for evaluating such zero-shot methods that apply a divide-and-conquer recognition strategy by decomposing characters into radicals. Meanwhile, radical recognition, as another important OCR task, also lacks radical-level annotation for model training. In this paper, we construct an ancient Chinese character image dataset that contains both radical-level and character-level annotations to satisfy the requirements of the above-mentioned methods, namely, ACCID, where radical-level annotations include radical categories, radical locations, and structural relations. To increase the adaptability of ACCID, we propose a splicing-based synthetic character algorithm to augment the training samples and apply an image denoising method to improve the image quality. By introducing character decomposition and recombination, we propose a baseline method for zero-shot OCR. The experimental results demonstrate the validity of ACCID and the baseline model quantitatively and qualitatively.
翻訳日:2023-08-02 13:34:21 公開日:2023-08-01
# 偏微分方程式のアナログ量子シミュレーション

Analog quantum simulation of partial differential equations ( http://arxiv.org/abs/2308.00646v1 )

ライセンス: Link先を確認
Shi Jin and Nana Liu(参考訳) 量子シミュレータはもともと1つの偏微分方程式(PDE)、特にシュロディンガー方程式をシミュレートするために提案された。 量子シミュレータは他のPDEを効率的にシミュレートできるのか? PDEの計算方法(古典と量子の両方)はデジタルであるが(PDEはまず離散化されなければならない)、PDEは連続的な自由度を持つ。 これはアナログ表現がより自然であることが示唆される。 デジタル量子自由度は通常、量子ビットによって記述されるが、アナログまたは連続量子自由度は量子モデで表される。 シュロディンジェライゼーション(Schrodingerisation)と呼ばれる手法に基づいて、D+1 qumod 上のアナログあるいは連続変数ハミルトニアンシミュレーションを使用できる(D+1)-量子系に直接D次元線形PDEをマッピングする方法を示す。 この非常に単純な方法論は、まずPDEを識別する必要はないし、線形PDEだけでなく、非線形PDEや非線形ODEのシステムにも適用できる。 この手法を用いて、リウヴィル方程式、熱方程式、フォッカー・プランク方程式、ブラック・シェール方程式、波動方程式、マクスウェル方程式などを示す。 また、不確かさの定量化において重要な線形PDEに対する新しいプロトコルを考案し、アナログや連続変数のフレームワークがいかに自然であるかを明らかにした。 これはまた、いくつかのPDEがそれらの量子系に対して自然にハミルトニアンを用いることで、アナログ量子系上で直接シミュレートされる可能性を高める。

Quantum simulators were originally proposed for simulating one partial differential equation (PDE) in particular - Schrodinger's equation. Can quantum simulators also efficiently simulate other PDEs? While most computational methods for PDEs - both classical and quantum - are digital (PDEs must be discretised first), PDEs have continuous degrees of freedom. This suggests that an analog representation can be more natural. While digital quantum degrees of freedom are usually described by qubits, the analog or continuous quantum degrees of freedom can be captured by qumodes. Based on a method called Schrodingerisation, we show how to directly map D-dimensional linear PDEs onto a (D+1)-qumode quantum system where analog or continuous-variable Hamiltonian simulation on D+1 qumodes can be used. This very simple methodology does not require one to discretise PDEs first, and it is not only applicable to linear PDEs but also to some nonlinear PDEs and systems of nonlinear ODEs. We show some examples using this method, including the Liouville equation, heat equation, Fokker-Planck equation, Black-Scholes equations, wave equation and Maxwell's equations. We also devise new protocols for linear PDEs with random coefficients, important in uncertainty quantification, where it is clear how the analog or continuous-variable framework is most natural. This also raises the possibility that some PDEs may be simulated directly on analog quantum systems by using Hamiltonians natural for those quantum systems.
翻訳日:2023-08-02 13:34:01 公開日:2023-08-01
# 自動車両衝突データベースのコンパラビリティ

Comparability of Automated Vehicle Crash Databases ( http://arxiv.org/abs/2308.00645v1 )

ライセンス: Link先を確認
Noah Goodall(参考訳) 高度な運転支援システムは多くの後期モデル車両で利用可能であり、自動運転システムは公道でテストされている。 規制当局と開発者は、自動衝突率とベースラインの人力衝突率を比較して、これらの車両の安全性を評価し続けている。 広く注目されている自動走行車と従来型の車両事故データベースはいくつかあるが、これらのデータベースは基礎となる仮定と包含基準が異なる。 データベース間のクラッシュレートは、もしあれば、大きなフィルタリングと正規化のみと直接比較することができる。 本稿では,現在の自動走行車およびベースラインの人力事故データベースをレビューし,その可視性を評価する。 レコメンデーションは、標準化とコンテキスト化の両方の観点から、既存のデータベースに組み込むことのできる追加のデータフィールドの互換性を改善するために提示される。 これらの発見は、研究者、規制当局、自動運転車開発者の運転自動化システムの安全性評価を支援する可能性がある。

Advanced driving assistance systems are available on many late-model vehicles, and automated driving systems are testing on public roads. Regulators and developers continue to assess the safety of these vehicles by comparing automated vehicle crash rates to baseline, human-driven crash rates. While there are several widely-cited automated vehicle and conventional vehicle crash databases, these databases have different underlying assumptions and inclusion criteria. Crash rates among databases may be directly comparable only with significant filtering and normalization, if at all. This paper reviews current automated vehicle and baseline human-driven crash databases and evaluates their comparability. Recommendations are presented to improve their comparability, both in terms of normalization and contextualization, as well as additional data fields that can be incorporated into existing databases. These findings may assist researchers, regulators, and automated vehicle developers attempting to evaluate the safety of driving automation systems.
翻訳日:2023-08-02 13:33:31 公開日:2023-08-01
# 焼成相互作用量子系における拡散複雑性進化

Spread complexity evolution in quenched interacting quantum systems ( http://arxiv.org/abs/2308.00636v1 )

ライセンス: Link先を確認
Mamta Gautam, Kunal Pal, Kuntal Pal, Ankit Gill, Nitesh Jaiswal, and Tapobrata Sarkar(参考訳) 分離された相互作用量子多体系における拡散複雑性(SC)の時間進化を,突然のクエンチを受けると解析する。 可積分モデルとカオスモデルの両方において,異なる時間スケールにおけるscの時間発展特性の違いを分析した。 クエンチの後しばらくの間、scはハミルトニアンの初期状態や性質に関わらず普遍的な二次成長を示し、この成長の時間スケールは状態の局所密度によって決定される。 次相のSCの特性は系の性質に依存し,初期状態の生存確率がガウス的か指数的であるかによって,SCは2次的に成長し続けるか,線形成長を示す可能性があることを示す。 後期におけるscの挙動を理解するために,ガウス直交アンサンブル内の完全ランダム行列と乱れを持つスピン1/2系という2つのモデルにおいて突然のクエンチを考える。 我々は,スピン-1/2系の全ランダム行列モデルとカオス相について,初期における線形成長と後期における飽和を観測した。 完全なランダム行列の場合、中間時間領域のピークを示すが、この特徴はスピン-1/2系では顕著ではない。

We analyse time evolution of spread complexity (SC) in an isolated interacting quantum many-body system when it is subjected to a sudden quench. The differences in characteristics of the time evolution of the SC for different time scales is analysed, both in integrable and chaotic models. For a short time after the quench, the SC shows universal quadratic growth, irrespective of the initial state or the nature of the Hamiltonian, with the time scale of this growth being determined by the local density of states. The characteristics of the SC in the next phase depend upon the nature of the system, and we show that depending upon whether the survival probability of an initial state is Gaussian or exponential, the SC can continue to grow quadratically, or it can show linear growth. To understand the behaviour of the SC at late times, we consider sudden quenches in two models, a full random matrix in the Gaussian orthogonal ensemble, and a spin-1/2 system with disorder. We observe that for the full random matrix model and the chaotic phase of the spin-1/2 system, the complexity shows linear growth at early times and saturation at late times. The full random matrix case shows a peak in the intermediate time region, whereas this feature is less prominent in the spin-1/2 system, as we explain.
翻訳日:2023-08-02 13:33:15 公開日:2023-08-01
# 意思決定システムのためのヘシアン・アウェアベイズ最適化

Hessian-Aware Bayesian Optimization for Decision Making Systems ( http://arxiv.org/abs/2308.00629v1 )

ライセンス: Link先を確認
Mohit Rajpal, Lac Gia Tran, Yehong Zhang, Bryan Kian Hsiang Low(参考訳) 意思決定システムを最適化するための多くのアプローチは、環境からの情報的フィードバックを必要とする勾配に基づく手法に依存している。 しかし、そのようなフィードバックが疎い場合や非形式的な場合、そのようなアプローチは性能が低下する可能性がある。 ベイズ最適化のような微分自由なアプローチは勾配フィードバックの品質への依存を緩和するが、複雑な意思決定システムの高次元設定ではスケールが不十分であることが知られている。 この問題は、システムが共有目標を達成するために協力する複数のアクター間のインタラクションを必要とする場合、悪化する。 次元的課題に対処するため,我々は,役割の概念を通じてアクタインタラクションのダイナミクスをモデル化するコンパクトな多層アーキテクチャを提案する。 さらに,Hessian-aware Bayesian Optimizationを導入し,多数のパラメータでパラメータ化された多層アーキテクチャを効率的に最適化する。 実験の結果,提案手法は資源制約と不正なフィードバック設定の下で,複数のベンチマークで効果的に動作することがわかった。

Many approaches for optimizing decision making systems rely on gradient based methods requiring informative feedback from the environment. However, in the case where such feedback is sparse or uninformative, such approaches may result in poor performance. Derivative-free approaches such as Bayesian Optimization mitigate the dependency on the quality of gradient feedback, but are known to scale poorly in the high-dimension setting of complex decision making systems. This problem is exacerbated if the system requires interactions between several actors cooperating to accomplish a shared goal. To address the dimensionality challenge, we propose a compact multi-layered architecture modeling the dynamics of actor interactions through the concept of role. Additionally, we introduce Hessian-aware Bayesian Optimization to efficiently optimize the multi-layered architecture parameterized by a large number of parameters. Experimental results demonstrate that our method (HA-GP-UCB) works effectively on several benchmarks under resource constraints and malformed feedback settings.
翻訳日:2023-08-02 13:32:55 公開日:2023-08-01
# human-m3:屋外シーンにおける3次元ポーズ推定のためのマルチビューマルチモーダルデータセット

Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes ( http://arxiv.org/abs/2308.00628v1 )

ライセンス: Link先を確認
Bohao Fan, Siqi Wang, Wenzhao Zheng, Jianjiang Feng, Jie Zhou(参考訳) 屋外環境における3次元ポーズ推定は近年注目を集めている。 しかし、屋外シーンに関連する一般的な3Dポーズデータセットには多様性が欠けており、主に1種類のモダリティ(RGB画像またはポイントクラウド)しか利用せず、各シーンに1人だけを特徴付けることが多い。 この限られたデータセットインフラストラクチャの範囲は、利用可能なデータの変動をかなり妨げます。 本稿では、屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドを含む、屋外マルチモーダルマルチビューマルチパーソンヒューマンポーズデータベースであるHuman-M3を提案する。 正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。 これは、屋外のマルチパーソンシーンにおける以前のマルチビューrgbビデオに存在する不正確な人間のローカライズと一致したあいまいさを解消し、信頼できる地上真理アノテーションを生成するロバストなpointcloud検出と追跡の恩恵を受ける。 複数の異なるモダリティアルゴリズムの評価は、このデータベースが将来の研究に挑戦的で適していることを示している。 さらに,マルチモーダルデータ入力に基づく3次元ポーズ推定アルゴリズムを提案し,マルチモーダルデータ入力による3次元ポーズ推定の利点を示す。 コードとデータはhttps://github.com/soullessrobot/Human-M3-Datasetで公開される。

3D human pose estimation in outdoor environments has garnered increasing attention recently. However, prevalent 3D human pose datasets pertaining to outdoor scenes lack diversity, as they predominantly utilize only one type of modality (RGB image or pointcloud), and often feature only one individual within each scene. This limited scope of dataset infrastructure considerably hinders the variability of available data. In this article, we propose Human-M3, an outdoor multi-modal multi-view multi-person human pose database which includes not only multi-view RGB videos of outdoor scenes but also corresponding pointclouds. In order to obtain accurate human poses, we propose an algorithm based on multi-modal data input to generate ground truth annotation. This benefits from robust pointcloud detection and tracking, which solves the problem of inaccurate human localization and matching ambiguity that may exist in previous multi-view RGB videos in outdoor multi-person scenes, and generates reliable ground truth annotations. Evaluation of multiple different modalities algorithms has shown that this database is challenging and suitable for future research. Furthermore, we propose a 3D human pose estimation algorithm based on multi-modal data input, which demonstrates the advantages of multi-modal data input for 3D human pose estimation. Code and data will be released on https://github.com/soullessrobot/Human-M3-Dataset.
翻訳日:2023-08-02 13:32:39 公開日:2023-08-01
# JIANG:中国のオープンファンデーション言語モデル

JIANG: Chinese Open Foundation Language Model ( http://arxiv.org/abs/2308.00624v1 )

ライセンス: Link先を確認
Qinhua Duan, Wenchao Gu, Yujia Chen, Wenxin Mao, Zewen Tian, Hui Cao(参考訳) 大規模言語モデル技術の進歩に伴い、様々なタスクにまたがる人間のものに近づいた機能を披露している。 この業績は企業や科学研究機関から大きな関心を集め、これらのモデルの研究と開発に多大な投資をもたらした。 この時期には多数の大型モデルが登場しているが、その大半は主に英語のデータに基づいて訓練されている。 中国語など他の言語では優れたパフォーマンスを示すが、語彙設計や訓練コーパスなどの要因により、その潜在能力は制限されている。 そのため、中国語で能力を完全に表現する能力は不足している。 この問題に対処するために,中国語用に特別に設計されたjiang ( chinese pinyin of ginger) というモデルを紹介する。 我々は、モデルをトレーニングするために相当量の中国製コーパスを集め、その構造を最適化した。 広範な実験結果から,本モデルの優れた性能を示す。

With the advancements in large language model technology, it has showcased capabilities that come close to those of human beings across various tasks. This achievement has garnered significant interest from companies and scientific research institutions, leading to substantial investments in the research and development of these models. While numerous large models have emerged during this period, the majority of them have been trained primarily on English data. Although they exhibit decent performance in other languages, such as Chinese, their potential remains limited due to factors like vocabulary design and training corpus. Consequently, their ability to fully express their capabilities in Chinese falls short. To address this issue, we introduce the model named JIANG (Chinese pinyin of ginger) specifically designed for the Chinese language. We have gathered a substantial amount of Chinese corpus to train the model and have also optimized its structure. The extensive experimental results demonstrate the excellent performance of our model.
翻訳日:2023-08-02 13:32:15 公開日:2023-08-01
# DNA類似性のための効率的な量子カウントと量子コンテンツ対応メモリ

Efficient Quantum Counting and Quantum Content-Addressable Memory for DNA similarity ( http://arxiv.org/abs/2308.00699v1 )

ライセンス: Link先を確認
Jan Balewski, Daan Camps, Katherine Klymko, Andrew Tritt(参考訳) 本稿では,CAM(Content-Addressable Memory)の量子アナログであるQCAMについて述べる。 当社のqcam実装はgroverの探索アルゴリズムを活用し,qcam oracleの高最適化量子回路実装を提案する。 回路構成は、QBArtエンコーディングを生成するために、前処理で使用した並列制御の回転ゲートを用いている。 これらの回路は高い量子並列性を持ち、臨界深度を減少させる。 QCAMで使用されるGroverイテレータの反復回数は真マッチングの数に依存するため、入力に依存する。 さらに,観測可能な1つの測定値からGroverイテレーションの最適数を推定できる量子カウントアルゴリズム(HEQC)のハードウェア効率のよい実装を提案する。 2つのdna配列から得られた2組のk-mer間のjaccard類似性を計算するためのqcamアプリケーションを示す。

We present QCAM, a quantum analogue of Content-Addressable Memory (CAM), useful for finding matches in two sequences of bit-strings. Our QCAM implementation takes advantage of Grover's search algorithm and proposes a highly-optimized quantum circuit implementation of the QCAM oracle. Our circuit construction uses the parallel uniformly controlled rotation gates, which were used in previous work to generate QBArt encodings. These circuits have a high degree of quantum parallelism which reduces their critical depth. The optimal number of repetitions of the Grover iterator used in QCAM depends on the number of true matches and hence is input dependent. We additionally propose a hardware-efficient implementation of the quantum counting algorithm (HEQC) that can infer the optimal number of Grover iterations from the measurement of a single observable. We demonstrate the QCAM application for computing the Jaccard similarity between two sets of k-mers obtained from two DNA sequences.
翻訳日:2023-08-02 13:23:53 公開日:2023-08-01
# 可逆ワームホール実験における学習ハミルトニアンの信頼性とロバスト性について

Debating the Reliability and Robustness of the Learned Hamiltonian in the Traversable Wormhole Experiment ( http://arxiv.org/abs/2308.00697v1 )

ライセンス: Link先を確認
Galina Weinstein(参考訳) 論文はdaniel jafferisらによる"traversable wormhole dynamics on a quantum processor"に関する論文"nature"について論じている。 この実験では、GoogleのSycamore量子プロセッサを使用して、学習されたハミルトンでスパースSYKモデルをシミュレートした。 その後、ブライス・コブリン、トーマス・シュスター、ノーマン・ヤオがハミルトンの信頼性について懸念を抱き、Jafferisとチームはこの問題に対処した。 最近、wormhole experiment sagaにアップデートがあった。 通勤するハミルトニアンを無効化の避けられない運命から救うために、Ping Gaoの最近の論文は、ワームホールを通して遠隔操作の概念を再活性化する創造的な解決策を提案した。 本稿は、現在進行中の議論と、Kobrinらによるコメントに対処する最近の取り組みについて、引き続き、Kobrinらの課題に対処する努力に懐疑的です。 その性質上、通勤ハミルトニアンは非可換ハミルトニアンのようなカオス的な振る舞いを示さない。 さらに、現実のSycamoreプロセッサの実現可能性を理解するためには、ハミルトンのノイズに対する感度を評価することが常に不可欠です。

The paper discusses Daniel Jafferis et al.'s "Nature" publication on "Traversable wormhole dynamics on a quantum processor." The experiment utilized Google's Sycamore quantum processor to simulate a sparse SYK model with a learned Hamiltonian. A debate ensued when Bryce Kobrin, Thomas Schuster, and Norman Yao raised concerns about the learned Hamiltonian's reliability, which Jafferis and the team addressed. Recently, there has been an update in the wormhole experiment saga. In an attempt to rescue the commuting Hamiltonian from its inevitable fate of being invalidated, a recent paper by Ping Gao proposed a creative solution to reinvigorate the concept within the context of teleportation through wormholes. This paper delves into the ongoing debate and the recent endeavor to address the comments made by Kobrin et al. I remain skeptical about the efforts to address Kobrin et al.'s challenges. By its nature, a commuting Hamiltonian does not exhibit chaotic behavior like non-commuting Hamiltonians. Moreover, it's always essential to assess the sensitivity of the Hamiltonian to noise to understand its practical feasibility for the real-world Sycamore processor.
翻訳日:2023-08-02 13:23:38 公開日:2023-08-01
# 資源の相対エントロピーの連続性

Continuity of the relative entropy of resource ( http://arxiv.org/abs/2308.00696v1 )

ライセンス: Link先を確認
Ludovico Lami, Maksim E. Shirokov(参考訳) 資源の相対エントロピー(自由状態の集合に対する相対エントロピー距離)の局所的連続性の基準を得る。 この基準のいくつかの基本的な概要が提示されている。 多部量子系における絡み合いの相対エントロピーへの応用を考察する。 特に、多成分絡み合いの相対エントロピーの局所連続性は、量子相互情報の局所連続性から従うことが示されている。

A criterion of local continuity of the relative entropy of resource -- the relative entropy distance to the set of free states -- is obtained. Several basic corollaries of this criterion are presented. Applications to the relative entropy of entanglement in multipartite quantum systems are considered. It is shown, in particular, that local continuity of any relative entropy of multipartite entanglement follows from local continuity of the quantum mutual information.
翻訳日:2023-08-02 13:23:16 公開日:2023-08-01
# LISA:大規模言語モデルによるセグメンテーションの推論

LISA: Reasoning Segmentation via Large Language Model ( http://arxiv.org/abs/2308.00692v1 )

ライセンス: Link先を確認
Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, Jiaya Jia(参考訳) 近年、知覚システムは目覚ましい進歩を遂げているが、視覚認識タスクを実行する前には、対象物やカテゴリを明示的な人間の指示に頼っている。 このようなシステムには、暗黙のユーザの意図を積極的に推論し理解する能力がない。 本研究では,新たなセグメンテーションタスク,すなわちセグメンテーションの推論を提案する。 このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。 さらに,評価のために複雑な推論と世界知識を取り入れた,1000以上のイメージインストラクションペアからなるベンチマークを構築した。 最後に,llm(multi-modal large language model)の言語生成機能を継承すると同時に,セグメンテーションマスクを生成する能力も備えた,大規模言語指示セグメンテーションアシスタントであるlisaを提案する。 従来の語彙をSEGトークンで拡張し,セグメンテーション機能を開放するための埋め込み・マスクパラダイムを提案する。 興味深いことに、LISAは次のようなケースを扱うことができる。 1) 複雑な推論 2) 世界の知識 3) 説明的回答 4)マルチターン会話。 また、推論不要データセットのみをトレーニングした場合、ロバストなゼロショット能力を示す。 さらに、モデルを239個の推論セグメンテーションイメージインストラクションペアで微調整することで、さらにパフォーマンスが向上する。 提案手法は,新しい推論セグメンテーション機能を解き放つだけでなく,複雑な推論セグメンテーションと標準参照セグメンテーションタスクの両方において有効であることを示す。 コード、モデル、デモはhttps://github.com/dvlab-research/LISAにある。

Although perception systems have made remarkable advancements in recent years, they still rely on explicit human instruction to identify the target objects or categories before executing visual recognition tasks. Such systems lack the ability to actively reason and comprehend implicit user intentions. In this work, we propose a new segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text. Furthermore, we establish a benchmark comprising over one thousand image-instruction pairs, incorporating intricate reasoning and world knowledge for evaluation purposes. Finally, we present LISA: large Language Instructed Segmentation Assistant, which inherits the language generation capabilities of the multi-modal Large Language Model (LLM) while also possessing the ability to produce segmentation masks. We expand the original vocabulary with a <SEG> token and propose the embedding-as-mask paradigm to unlock the segmentation capability. Remarkably, LISA can handle cases involving: 1) complex reasoning; 2) world knowledge; 3) explanatory answers; 4) multi-turn conversation. Also, it demonstrates robust zero-shot capability when trained exclusively on reasoning-free datasets. In addition, fine-tuning the model with merely 239 reasoning segmentation image-instruction pairs results in further performance enhancement. Experiments show our method not only unlocks new reasoning segmentation capabilities but also proves effective in both complex reasoning segmentation and standard referring segmentation tasks. Code, models, and demo are at https://github.com/dvlab-research/LISA.
翻訳日:2023-08-02 13:23:10 公開日:2023-08-01
# AnyLoc: ユニバーサルな視覚的場所認識を目指して

AnyLoc: Towards Universal Visual Place Recognition ( http://arxiv.org/abs/2308.00688v1 )

ライセンス: Link先を確認
Nikhil Keetha, Avneesh Mishra, Jay Karhade, Krishna Murthy Jatavallabhula, Sebastian Scherer, Madhava Krishna, Sourav Garg(参考訳) 視覚的位置認識(VPR)はロボットの局所化に不可欠である。 これまでのところ、最もパフォーマンスの高いVPRアプローチは環境に特化しており、構造化された環境(主に都市部での運転)で強いパフォーマンスを示す一方で、その性能は非構造化環境で著しく低下し、ほとんどのアプローチが堅牢な実環境への展開に脆弱である。 本研究は,vprの普遍的な解決法を開発することを目的としている。この手法は,再訓練や微調整をすることなく,広い範囲の構造化・非構造化環境(都市,屋外,屋内,空中,水中,地下環境)にまたがる。 このような汎用的なVPRソリューションを構築する上で,VPR固有のトレーニングを伴わない市販の自己教師型モデルから派生した汎用的特徴表現が正しい基盤であることを実証する。 これらの派生した機能と教師なしの機能集約を組み合わせることで、AnyLocというメソッドが既存のアプローチよりも最大4倍高いパフォーマンスを実現できます。 さらに,これらの特徴のセマンティクス特性を特徴付け,類似した環境からデータセットをカプセル化したユニークなドメインを明らかにすることで,性能が6%向上した。 私たちの詳細な実験と分析は、どこでも、いつでも、そしてanyviewを通じてデプロイ可能なvprソリューションを構築するための基盤となります。 私たちは読者に対して、プロジェクトページとインタラクティブなデモを探索することを勧めています。

Visual Place Recognition (VPR) is vital for robot localization. To date, the most performant VPR approaches are environment- and task-specific: while they exhibit strong performance in structured environments (predominantly urban driving), their performance degrades severely in unstructured environments, rendering most approaches brittle to robust real-world deployment. In this work, we develop a universal solution to VPR -- a technique that works across a broad range of structured and unstructured environments (urban, outdoors, indoors, aerial, underwater, and subterranean environments) without any re-training or fine-tuning. We demonstrate that general-purpose feature representations derived from off-the-shelf self-supervised models with no VPR-specific training are the right substrate upon which to build such a universal VPR solution. Combining these derived features with unsupervised feature aggregation enables our suite of methods, AnyLoc, to achieve up to 4X significantly higher performance than existing approaches. We further obtain a 6% improvement in performance by characterizing the semantic properties of these features, uncovering unique domains which encapsulate datasets from similar environments. Our detailed experiments and analysis lay a foundation for building VPR solutions that may be deployed anywhere, anytime, and across anyview. We encourage the readers to explore our project page and interactive demos: https://anyloc.github.io/.
翻訳日:2023-08-02 13:22:44 公開日:2023-08-01
# ハイパーベクターから学ぶ:ハイパーベクターエンコーディングに関する調査

Learning from Hypervectors: A Survey on Hypervector Encoding ( http://arxiv.org/abs/2308.00685v1 )

ライセンス: Link先を確認
Sercan Aygun, Mehran Shoushtari Moghadam, M. Hassan Najafi, Mohsen Imani(参考訳) 超次元コンピューティング(Hyperdimensional Computing、HDC)は、脳の構造を模倣し、強力で効率的な処理と学習モデルを提供する新しいコンピューティングパラダイムである。 HDCでは、データは1Kから10Kの長さの超ベクトルと呼ばれる長いベクトルで符号化される。 文献は、意図した用途に応じて直交または相関した超ベクトルを生成するいくつかの符号化技術を提供する。 文献における既存の調査は、システム入力、一次計算、最終的な出力を含むHDCシステム全体の側面に焦点を当てることが多い。 しかし、この研究はより具体的なアプローチを取る。 HDCシステムの入力とハイパーベクターの生成をゼロとし、ハイパーベクターエンコーディングプロセスに直接影響を及ぼす。 この調査は、異なる研究から発生する超ベクトル生成のための様々な手法をまとめ、それらに関連する限界、課題、潜在的利益を探求する。 この調査の総合的な調査を通じて、読者はHDCの様々なエンコーディングタイプを深く理解し、多様なアプリケーションのためのハイパーベクター生成の複雑なプロセスに関する洞察を得る。

Hyperdimensional computing (HDC) is an emerging computing paradigm that imitates the brain's structure to offer a powerful and efficient processing and learning model. In HDC, the data are encoded with long vectors, called hypervectors, typically with a length of 1K to 10K. The literature provides several encoding techniques to generate orthogonal or correlated hypervectors, depending on the intended application. The existing surveys in the literature often focus on the overall aspects of HDC systems, including system inputs, primary computations, and final outputs. However, this study takes a more specific approach. It zeroes in on the HDC system input and the generation of hypervectors, directly influencing the hypervector encoding process. This survey brings together various methods for hypervector generation from different studies and explores the limitations, challenges, and potential benefits they entail. Through a comprehensive exploration of this survey, readers will acquire a profound understanding of various encoding types in HDC and gain insights into the intricate process of hypervector generation for diverse applications.
翻訳日:2023-08-02 13:22:22 公開日:2023-08-01
# CodeBPE:ソースコードに基づく大規模言語モデルのサブトークン化オプションの調査

CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code ( http://arxiv.org/abs/2308.00683v1 )

ライセンス: Link先を確認
Nadezhda Chirkova, Sergey Troshin(参考訳) 最近の研究は、ソースコードに対する大規模言語モデルの事前訓練を広く採用し、ソースコード固有の事前訓練目標を提案し、ソースコードに対するトランスフォーマーベースの言語モデルアーキテクチャの適用性を検討した。 本研究は,このようなモデルの他の重要な側面,すなわち異なるサブトケライズオプションの影響を調査し,コード固有性を考慮した最も効率的で長寿命なサブトケライズを特定することを目的としている。 ダウンストリーム性能低下を伴わずに平均長を17%減らすサブトケンジングを提案し,慎重に選択したサブトケンジングが0.5-2%向上し,ある程度の長さが増加する可能性が示唆された。

Recent works have widely adopted large language model pretraining for source code, suggested source code-specific pretraining objectives and investigated the applicability of various Transformer-based language model architectures for source code. This work investigates another important aspect of such models, namely the effect of different subtokenization options, and aims at identifying most effective and length-efficient subtokenizations, taking into account code specifics. We propose subtokenziation that reduces average length by 17% without downstream performance drop, and show that a carefully chosen subtokenization may improve quality by 0.5-2%, possibly with some length increase.
翻訳日:2023-08-02 13:22:02 公開日:2023-08-01
# 視覚符号化モデルに対するスケーリング則の適用性

Applicability of scaling laws to vision encoding models ( http://arxiv.org/abs/2308.00678v1 )

ライセンス: Link先を確認
Takuya Matsuyama, Kota S Sasaki, Shinji Nishimoto(参考訳) 本稿では,Algonauts Project 2023 Challengeへの参加の一環として,脳活動を予測する高性能視覚符号化モデルの構築方法について検討した。 この課題は、参加者が画像を見ている間、機能的MRI(fMRI)によって記録された脳活動を提供する。 86Mから4.3Bまでのパラメータサイズを持ついくつかのビジョンモデルを使用して予測モデルを構築した。 高精度なモデルを構築するためには,(1)fMRIトレーニングセットのサンプルサイズが予測精度をどのように変化させるか,という2つの主な側面に注目した。 2)視覚野全体の予測精度は視覚モデルのパラメータサイズによってどのように変化するか? その結果,トレーニング中のサンプルサイズが増加すると,スケーリング則により予測精度が向上することがわかった。 同様に、視覚モデルのパラメータサイズが大きくなると、スケーリング法則に従って予測精度が向上することがわかった。 これらの結果は、fMRIトレーニングセットのサンプルサイズの増加と視覚モデルのパラメータサイズの増加が脳のより正確な視覚モデルに寄与し、視覚神経科学のより深い理解につながることを示唆している。

In this paper, we investigated how to build a high-performance vision encoding model to predict brain activity as part of our participation in the Algonauts Project 2023 Challenge. The challenge provided brain activity recorded by functional MRI (fMRI) while participants viewed images. Several vision models with parameter sizes ranging from 86M to 4.3B were used to build predictive models. To build highly accurate models, we focused our analysis on two main aspects: (1) How does the sample size of the fMRI training set change the prediction accuracy? (2) How does the prediction accuracy across the visual cortex vary with the parameter size of the vision models? The results show that as the sample size used during training increases, the prediction accuracy improves according to the scaling law. Similarly, we found that as the parameter size of the vision models increases, the prediction accuracy improves according to the scaling law. These results suggest that increasing the sample size of the fMRI training set and the parameter size of visual models may contribute to more accurate visual models of the brain and lead to a better understanding of visual neuroscience.
翻訳日:2023-08-02 13:21:49 公開日:2023-08-01
# 大規模な言語モデルでゼロショットツール使用を可能にするツールドキュメント

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models ( http://arxiv.org/abs/2308.00675v1 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister(参考訳) 現在、大きな言語モデル(LLM)は、ツールの使用例をいくつか示すことで、新しいツールを使用するように教えられている。 残念なことに、デモは入手が難しく、間違ったデモが選択された場合、望ましくない偏見のある使用になる可能性がある。 デモが容易に利用できる稀なシナリオであっても、提供すべき数と提供すべきものを決定するための原則的な選択プロトコルは存在しない。 タスクが複雑化するにつれて、選択検索は組合せ的に増加し、常に難解になる。 私たちの仕事はデモの代替となるツールドキュメントを提供しています。 デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。 我々は,視覚と言語の両方にまたがる6つの課題に関する3つの主要な経験的発見を通して,我々の主張を裏付ける。 まず、既存のベンチマークでは、ツールドキュメンテーションのみによるゼロショットプロンプトは、適切なツールの使用を誘発するのに十分であり、少ないプロンプトと同等のパフォーマンスを達成する。 第2に、数百のツールapiが利用可能な、新たに収集された現実的なツール利用データセットでは、ツールドキュメントがデモよりもはるかに価値が高いことを示します。 第3に,ツールとして公開された未公開の最先端モデルを用いて,画像生成と動画追跡に取り組むことで,ツールドキュメントのメリットを強調する。 最後に、ツールドキュメンテーションを使用して、新しいアプリケーションを自動で有効にできる可能性を強調します。 GroundingDino、Stable Diffusion、XMem、SAMのドキュメントだけを使用することで、LLMは、リリースされたばかりの Grounded-SAM と Track Anything モデルの機能を再発明することができます。

Today, large language models (LLMs) are taught to use new tools by providing a few demonstrations of the tool's usage. Unfortunately, demonstrations are hard to acquire, and can result in undesirable biased usage if the wrong demonstration is chosen. Even in the rare scenario that demonstrations are readily available, there is no principled selection protocol to determine how many and which ones to provide. As tasks grow more complex, the selection search grows combinatorially and invariably becomes intractable. Our work provides an alternative to demonstrations: tool documentation. We advocate the use of tool documentation, descriptions for the individual tool usage, over demonstrations. We substantiate our claim through three main empirical findings on 6 tasks across both vision and language modalities. First, on existing benchmarks, zero-shot prompts with only tool documentation are sufficient for eliciting proper tool usage, achieving performance on par with few-shot prompts. Second, on a newly collected realistic tool-use dataset with hundreds of available tool APIs, we show that tool documentation is significantly more valuable than demonstrations, with zero-shot documentation significantly outperforming few-shot without documentation. Third, we highlight the benefits of tool documentations by tackling image generation and video tracking using just-released unseen state-of-the-art models as tools. Finally, we highlight the possibility of using tool documentation to automatically enable new applications: by using nothing more than the documentation of GroundingDino, Stable Diffusion, XMem, and SAM, LLMs can re-invent the functionalities of the just-released Grounded-SAM and Track Anything models.
翻訳日:2023-08-02 13:21:26 公開日:2023-08-01
# 深層学習によるパウリスピン遮断の同定

Identifying Pauli spin blockade using deep learning ( http://arxiv.org/abs/2202.00574v4 )

ライセンス: Link先を確認
Jonas Schuff, Dominic T. Lennon, Simon Geyer, David L. Craig, Federico Fedele, Florian Vigneau, Leon C. Camenzind, Andreas V. Kuhlmann, G. Andrew D. Briggs, Dominik M. Zumb\"uhl, Dino Sejdinovic, Natalia Ares(参考訳) パウリスピンブロック(psb)は、高温でもスピン量子ビットの初期化と読み出しのための優れた資源として利用できるが、識別は困難である。 電荷輸送測定を用いてPSBを自動的に識別できる機械学習アルゴリズムを提案する。 PSBデータの不足は、シミュレーションデータを用いてアルゴリズムを訓練し、デバイス間検証によって回避される。 シリコン電界効果トランジスタデバイスへのアプローチを実証し、異なるテストデバイス上で96%の精度を報告し、このアプローチがデバイス変動にロバストであることを示す。 このアプローチは、あらゆる種類の量子ドットデバイスで採用されることが期待される。

Pauli spin blockade (PSB) can be employed as a great resource for spin qubit initialisation and readout even at elevated temperatures but it can be difficult to identify. We present a machine learning algorithm capable of automatically identifying PSB using charge transport measurements. The scarcity of PSB data is circumvented by training the algorithm with simulated data and by using cross-device validation. We demonstrate our approach on a silicon field-effect transistor device and report an accuracy of 96% on different test devices, giving evidence that the approach is robust to device variability. The approach is expected to be employable across all types of quantum dot devices.
翻訳日:2023-08-02 11:39:06 公開日:2023-08-01
# 多変量極端のスペクトル学習

Spectral learning of multivariate extremes ( http://arxiv.org/abs/2111.07799v3 )

ライセンス: Link先を確認
Marco Avella Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極度の依存構造を解析するためのスペクトルクラスタリングアルゴリズムを提案する。 より具体的には、極値理論における角測度やスペクトル測度によって特徴づけられる多変量極値の漸近依存に焦点をあてる。 本研究は, 極端サンプルから構築したランダムな$k$-nearest近傍グラフ, すなわち, 半径が大きなしきい値を超えるランダムベクトルの角部に基づいて, スペクトルクラスタリングの理論的性能について検討する。 特に、線形因子モデルから生じる極度の漸近分布を導出し、ある条件下では、スペクトルクラスタリングが、このモデルで生じる極度のクラスターを一貫して識別できることを証明する。 この結果を利用して,角測度の学習のための簡易な一貫した推定手法を提案する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose a spectral clustering algorithm for analyzing the dependence structure of multivariate extremes. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory. Our work studies the theoretical performance of spectral clustering based on a random $k$-nearest neighbor graph constructed from an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. In particular, we derive the asymptotic distribution of extremes arising from a linear factor model and prove that, under certain conditions, spectral clustering can consistently identify the clusters of extremes arising in this model. Leveraging this result we propose a simple consistent estimation strategy for learning the angular measure. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2023-08-02 11:38:54 公開日:2023-08-01
# ニューラルネットワーク量子状態を用いたスケーラブルな想像時間発展

Scalable Imaginary Time Evolution with Neural Network Quantum States ( http://arxiv.org/abs/2307.15521v2 )

ライセンス: Link先を確認
Eimantas Ledinauskas and Egidijus Anisimovas(参考訳) ニューラルネットワーク量子状態(NQS)としての量子波関数の表現は、多体量子系の基底状態を見つけるための強力な変分アンサッツを提供する。 しかし、複雑な変動地形のため、従来の手法では量子幾何テンソルの計算を使い、その結果最適化技術が複雑になる。 我々は、計量テンソルの計算をバイパスし、代わりにユークリッド計量による一階勾配降下にのみ依存するアプローチを導入する。 これにより、より大きなニューラルネットワークの応用と、他の機械学習ドメインからのより標準的な最適化方法の利用が可能になる。 本手法は,シュロディンガー方程式に基づく目標波動関数を構築し,その目標を近似するためにニューラルネットワークを訓練することにより,仮想時間発展の原理を活用する。 反復最適化により、近似状態は基底状態に向かって漸進収束する。 2次元J1-J2ハイゼンベルクモデルを用いた数値実験により, 直接エネルギー損失最小化と比較して, 安定性とエネルギー精度が向上した。 提案手法は,確率的再構成による密度行列再正規化法とNQS最適化との競合性を示す。

The representation of a quantum wave function as a neural network quantum state (NQS) provides a powerful variational ansatz for finding the ground states of many-body quantum systems. Nevertheless, due to the complex variational landscape, traditional methods often employ the computation of quantum geometric tensor, consequently complicating optimization techniques. We introduce an approach that bypasses the computation of the metric tensor and instead relies exclusively on first-order gradient descent with Euclidean metric. This allows for the application of larger neural networks and the use of more standard optimization methods from other machine learning domains. Our approach leverages the principle of imaginary time evolution by constructing a target wave function derived from the Schrodinger equation, and then training the neural network to approximate this target. Through iterative optimization, the approximated state converges progressively towards the ground state. We demonstrate the benefits of our method via numerical experiments with 2D J1-J2 Heisenberg model, which showcase enhanced stability and energy accuracy in comparison to direct energy loss minimization. Importantly, our approach displays competitiveness with the well-established density matrix renormalization group method and NQS optimization with stochastic reconfiguration.
翻訳日:2023-08-02 11:35:22 公開日:2023-08-01
# 文脈内学習の学習行動の検討--教師付き学習との比較

Investigating the Learning Behaviour of In-context Learning: A Comparison with Supervised Learning ( http://arxiv.org/abs/2307.15411v2 )

ライセンス: Link先を確認
Xindi Wang, Yufei Wang, Can Xu, Xiubo Geng, Bowen Zhang, Chongyang Tao, Frank Rudzicz, Robert E. Mercer and Daxin Jiang(参考訳) 大規模言語モデル(llm)は、いくつかのトレーニング例から新しいタスクを明示的に事前学習することなく学習する、インコンテキスト学習(icl)において顕著な能力を示している。 しかし、LSMの成功にもかかわらず、ICLが与えられたプロンプトからどのように知識を学ぶかについてはほとんど理解されていない。 本稿では, iclの学習行動の理解に向けて, iclと教師付き学習(sl)を用いて, 同じ実演例を用いて同一のllmを訓練し, 分類タスクにおけるラベル摂動(雑音ラベル, ラベル不均衡)下での性能について検討する。 まず、大規模な実験により、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を及ぼすことがわかったが、不均衡なラベルはすべてのモデルサイズでICLにはほとんど影響しない。 第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。

Large language models (LLMs) have shown remarkable capacity for in-context learning (ICL), where learning a new task from just a few training examples is done without being explicitly pre-trained. However, despite the success of LLMs, there has been little understanding of how ICL learns the knowledge from the given prompts. In this paper, to make progress toward understanding the learning behaviour of ICL, we train the same LLMs with the same demonstration examples via ICL and supervised learning (SL), respectively, and investigate their performance under label perturbations (i.e., noisy labels and label imbalance) on a range of classification tasks. First, via extensive experiments, we find that gold labels have significant impacts on the downstream in-context performance, especially for large language models; however, imbalanced labels matter little to ICL across all model sizes. Second, when comparing with SL, we show empirically that ICL is less sensitive to label perturbations than SL, and ICL gradually attains comparable performance to SL as the model size increases.
翻訳日:2023-08-02 11:35:01 公開日:2023-08-01
# 浅自由度ReLUネットワークを用いた雑音補間学習

Noisy Interpolation Learning with Shallow Univariate ReLU Networks ( http://arxiv.org/abs/2307.15396v2 )

ライセンス: Link先を確認
Nirmit Joshi, Gal Vardi, Nathan Srebro(参考訳) 雑音下不定形回帰のための最小ノルム(2層reluネットワーク)による補間の漸近オーバーフィッティング挙動について検討した。 オーバーフィッティングは$l_1$の損失、$l_p$の損失は$p<2$だが、$p\geq 2$は破滅的である。

We study the asymptotic overfitting behavior of interpolation with minimum norm ($\ell_2$ of the weights) two-layer ReLU networks for noisy univariate regression. We show that overfitting is tempered for the $L_1$ loss, and any $L_p$ loss for $p<2$, but catastrophic for $p\geq 2$.
翻訳日:2023-08-02 11:34:40 公開日:2023-08-01
# KNNを用いたテキスト分類におけるGzip vs. bag-of-words

Gzip versus bag-of-words for text classification with KNN ( http://arxiv.org/abs/2307.15002v3 )

ライセンス: Link先を確認
Juri Opitz(参考訳) KNNベースのテキスト分類(gzip)における圧縮距離の有効性は近年注目されている。 本稿では,より単純な手段も有効であり,圧縮は不要であることを示す。 実際、'bag-of-words'マッチングは類似またはより良い結果を得ることができ、より効率的である。

The effectiveness of compression distance in KNN-based text classification ('gzip') has recently garnered lots of attention. In this note we show that simpler means can also be effective, and compression may not be needed. Indeed, a 'bag-of-words' matching can achieve similar or better results, and is more efficient.
翻訳日:2023-08-02 11:34:31 公開日:2023-08-01
# 分布外一般化のための位相マッチング

Phase Matching for Out-of-Distribution Generalization ( http://arxiv.org/abs/2307.12622v3 )

ライセンス: Link先を確認
Chengming Hu, Yeqian Du, Rui Wang, Hao Chen(参考訳) 視覚信号の明確な分解法として機能するフーリエ変換は、畳み込みニューラルネットワーク(CNN)の分布外一般化挙動を説明するために用いられる。 従来の研究では、振幅スペクトルは分布シフトによる乱れの影響を受けやすいことが示されている。 一方、位相スペクトルは、堅牢な視覚表現学習に不可欠である高度に構造化された空間情報を保存する。 しかし、相スペクトルの空間的関係は以前の研究では未解明のままである。 本稿では,領域一般化(dg)と周波数成分の関係を明らかにし,位相スペクトルの空間的関係を明らかにすることを目的とする。 具体的には,まず位相スペクトルを半因果因子,振幅スペクトルを非因果因子として解釈するフーリエ型構造因果モデルを提案する。 次に,DG問題に対処するための位相マッチング(PhaMa)を提案する。 本手法は振幅スペクトルの摂動を導入し,位相成分に一致する空間関係を確立する。 提案手法は,複数のベンチマーク実験により,領域一般化および分布外ロバスト性タスクにおける最先端性能を実現することを示す。

The Fourier transform, serving as an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Convolutional Neural Networks (CNNs). Previous studies have indicated that the amplitude spectrum is susceptible to the disturbance caused by distribution shifts. On the other hand, the phase spectrum preserves highly-structured spatial information, which is crucial for robust visual representation learning. However, the spatial relationships of phase spectrum remain unexplored in previous researches. In this paper, we aim to clarify the relationships between Domain Generalization (DG) and the frequency components, and explore the spatial relationships of the phase spectrum. Specifically, we first introduce a Fourier-based structural causal model which interprets the phase spectrum as semi-causal factors and the amplitude spectrum as non-causal factors. Then, we propose Phase Matching (PhaMa) to address DG problems. Our method introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components. Through experiments on multiple benchmarks, we demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks.
翻訳日:2023-08-02 11:34:26 公開日:2023-08-01
# DISPEL: ドメイン特化解放によるドメインの一般化

DISPEL: Domain Generalization via Domain-Specific Liberating ( http://arxiv.org/abs/2307.07181v3 )

ライセンス: Link先を確認
Chia-Yuan Chang, Yu-Neng Chuang, Guanchu Wang, Mengnan Du, Na Zou(参考訳) ドメイン一般化(domain generalization)は、限られたソースドメインのみをトレーニングすることで、未発見のテストドメインでうまく機能する一般化モデルを学ぶことを目的としている。 しかし、既存のドメイン一般化アプローチは、しばしば予測不能なノイズをもたらすか、ドメインラベルの収集を必要とする。 これらの課題に対処するために、基礎となる特徴群をドメイン共有機能とドメイン固有機能に分類することで、異なる視点からドメイン一般化問題を考察する。 それでも、ドメイン固有の特徴は、入力データと区別することが困難である。 本研究では,埋め込み空間における未定義かつ識別不能なドメイン特有な特徴をフィルタする,処理後の細粒度マスキング手法であるdomain-specific liberating (dispel)を提案する。 具体的には、disPELは、各入力データに固有のマスクを生成するマスクジェネレータを使用して、ドメイン固有の特徴をフィルタリングする。 DISPELフレームワークは、どの微調整モデルにも非常に柔軟に適用できる。 我々は,設計対象の損失を最適化することにより,一般化性能を保証するための一般化誤差を導出する。 5つのベンチマーク実験の結果は、DIPSELが既存の手法より優れており、様々なアルゴリズムをさらに一般化できることを示している。

Domain generalization aims to learn a generalization model that can perform well on unseen test domains by only training on limited source domains. However, existing domain generalization approaches often bring in prediction-irrelevant noise or require the collection of domain labels. To address these challenges, we consider the domain generalization problem from a different perspective by categorizing underlying feature groups into domain-shared and domain-specific features. Nevertheless, the domain-specific features are difficult to be identified and distinguished from the input data. In this work, we propose DomaIn-SPEcific Liberating (DISPEL), a post-processing fine-grained masking approach that can filter out undefined and indistinguishable domain-specific features in the embedding space. Specifically, DISPEL utilizes a mask generator that produces a unique mask for each input data to filter domain-specific features. The DISPEL framework is highly flexible to be applied to any fine-tuned models. We derive a generalization error bound to guarantee the generalization performance by optimizing a designed objective loss. The experimental results on five benchmarks demonstrate DISPEL outperforms existing methods and can further generalize various algorithms.
翻訳日:2023-08-02 11:34:08 公開日:2023-08-01
# 3dvrスケッチによる3d形状のプロトタイピングと探索

3D VR Sketch Guided 3D Shape Prototyping and Exploration ( http://arxiv.org/abs/2306.10830v4 )

ライセンス: Link先を確認
Ling Luo, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, Yulia Gryaditskaya(参考訳) 3D形状モデリングは、労働集約的で、時間がかかり、長年の専門知識を必要とする。 3次元形状モデリングを容易にするために,3次元vrスケッチを条件とする3次元形状生成ネットワークを提案する。 スケッチは初心者がアートトレーニングなしで作成し,任意のカテゴリの幾何学的リアルな3D形状を再構築することを目的としている。 スケッチの曖昧さに対処するため,本手法では,スケッチの構造に合致した複数の3次元形状を作成する。 本手法を注意深く設計し,段階的にモデルを訓練し,多モード3次元形状表現を活用し,限られたトレーニングデータによるトレーニングを支援する。 生成した3次元形状の現実性を保証するために、3次元形状の潜在空間の分布をモデル化する正規化フローを利用する。 入力スケッチに対する生成した3次元形状の忠実性を促進するために,訓練過程の異なる段階に展開する専用損失を提案する。 コードはhttps://github.com/rowl1ng/3dsketch2shapeで入手できる。

3D shape modeling is labor-intensive, time-consuming, and requires years of expertise. To facilitate 3D shape modeling, we propose a 3D shape generation network that takes a 3D VR sketch as a condition. We assume that sketches are created by novices without art training and aim to reconstruct geometrically realistic 3D shapes of a given category. To handle potential sketch ambiguity, our method creates multiple 3D shapes that align with the original sketch's structure. We carefully design our method, training the model step-by-step and leveraging multi-modal 3D shape representation to support training with limited training data. To guarantee the realism of generated 3D shapes we leverage the normalizing flow that models the distribution of the latent space of 3D shapes. To encourage the fidelity of the generated 3D shapes to an input sketch, we propose a dedicated loss that we deploy at different stages of the training process. The code is available at https://github.com/Rowl1ng/3Dsketch2shape.
翻訳日:2023-08-02 11:33:45 公開日:2023-08-01
# 変分拡散モデル2.0:単純なデータ拡張によるelboとしての拡散モデル目標の理解

Variational Diffusion Models 2.0: Understanding Diffusion Model Objectives as the ELBO with Simple Data Augmentation ( http://arxiv.org/abs/2303.00848v5 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 最も高い知覚品質を達成するために、最先端拡散モデルは、最大可能性とエビデンス下界(ELBO)の目的とは大きく異なる目的で最適化される。 本研究では,拡散モデルの目的がELBOと密接に関連していることを明らかにする。 具体的には,様々な騒音レベルにおけるelboの重み付き積分に共通に使用される拡散モデルがすべて等価であることを示し,その重み付けが使用する特定の目的に依存することを示した。 単調な重み付けの条件下では、接続はさらに近くなり、拡散の目的はELBOと等しくなり、単純なデータ拡張、すなわちガウス雑音摂動と結合する。 この条件は、多くの最先端拡散モデルに当てはまることを示す。 実験では、新しい単調重み付けを探索し、その効果を実証し、高分解能imagenetベンチマークで最先端のfidスコアを得る。

To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.
翻訳日:2023-08-02 11:33:15 公開日:2023-08-01
# 機械学習の音響反転によるリアルタイム音声感情検出に対するプライバシ

Privacy against Real-Time Speech Emotion Detection via Acoustic Adversarial Evasion of Machine Learning ( http://arxiv.org/abs/2211.09273v3 )

ライセンス: Link先を確認
Brian Testa, Yi Xiao, Harshit Sharma, Avery Gump, and Asif Salekin(参考訳) Amazon EchoやGoogle Homeのようなスマートスピーカー音声アシスタント(VA)は、スマートホームデバイスとIoT(Internet of Things)技術とのシームレスな統合によって広く採用されている。 これらのvaサービスは、特に私たちのスピーチへのアクセスのために、プライバシーの懸念を引き起こします。 本研究は,音声感情認識(SER)によるユーザの感情の非可算かつ無許可な監視という,そのようなユースケースを考察する。 本稿では,音声の書き起こし関連部分を保ちながら,ユーザの感情情報を隠蔽する付加ノイズを生成するDARE-GPを提案する。 DARE-GPは、制約付き遺伝的プログラミング手法を用いて、ターゲットユーザーの感情的内容を表すスペクトル周波数特性を学習し、このプライバシー保護を提供する普遍的対向的音声摂動を生成する。 既存の作品とは異なり、DARE-GPは次のように提供している。 イ 前例のない発話をリアルタイムに保護すること。 b) 前述のブラックボックスSER分類子に対する c) 音声転写を保護しながら,かつ d) 現実的で音響的な環境ではそうする。 さらに、この回避は、知識のある敵が使う防御に対して堅牢である。 本研究は,2つの市販スマートスピーカーに対して,覚醒語システムと一体化した小型フォームファクタ(ラズベリーパイ)を用いて音響評価を行い,実世界のリアルタイム展開の有効性を評価する。

Smart speaker voice assistants (VAs) such as Amazon Echo and Google Home have been widely adopted due to their seamless integration with smart home devices and the Internet of Things (IoT) technologies. These VA services raise privacy concerns, especially due to their access to our speech. This work considers one such use case: the unaccountable and unauthorized surveillance of a user's emotion via speech emotion recognition (SER). This paper presents DARE-GP, a solution that creates additive noise to mask users' emotional information while preserving the transcription-relevant portions of their speech. DARE-GP does this by using a constrained genetic programming approach to learn the spectral frequency traits that depict target users' emotional content, and then generating a universal adversarial audio perturbation that provides this privacy protection. Unlike existing works, DARE-GP provides: a) real-time protection of previously unheard utterances, b) against previously unseen black-box SER classifiers, c) while protecting speech transcription, and d) does so in a realistic, acoustic environment. Further, this evasion is robust against defenses employed by a knowledgeable adversary. The evaluations in this work culminate with acoustic evaluations against two off-the-shelf commercial smart speakers using a small-form-factor (raspberry pi) integrated with a wake-word system to evaluate the efficacy of its real-world, real-time deployment.
翻訳日:2023-08-02 11:32:44 公開日:2023-08-01
# 競合するニューラルネットワークのための因果的発見と知識注入(付録付き)

Causal Discovery and Knowledge Injection for Contestable Neural Networks (with Appendices) ( http://arxiv.org/abs/2205.09787v4 )

ライセンス: Link先を確認
Fabrizio Russo and Francesca Toni(参考訳) ニューラルネットワークは機械学習タスクの解決に効果的であることが証明されているが、関連する因果関係を学ぶかどうかは不明だが、ブラックボックスの性質はモデルラーがそれらを理解しデバッグすることが困難である。 本稿では,ニューラルネットワークを内蔵したマシンが学習した因果グラフを露呈し,機械に再注入する前に因果グラフを修正して機械と競合することを可能にすることによって,これらの問題を克服する新しい手法を提案する。 学習したモデルは、グラフに準拠し、専門家の知識に準拠することが保証されている。 モデル動作にウィンドウを構築し,知識注入を可能にすることにより,データから発見された因果構造に基づいてネットワークをデバッグし,予測の基盤となる。 実および合成表データを用いた実験により,本手法は,soma正規化ネットワークと比較して,入力層が最大7倍小さく,予測性能が2.4倍まで向上することを示した。

Neural networks have proven to be effective at solving machine learning tasks but it is unclear whether they learn any relevant causal relationships, while their black-box nature makes it difficult for modellers to understand and debug them. We propose a novel method overcoming these issues by allowing a two-way interaction whereby neural-network-empowered machines can expose the underpinning learnt causal graphs and humans can contest the machines by modifying the causal graphs before re-injecting them into the machines. The learnt models are guaranteed to conform to the graphs and adhere to expert knowledge, some of which can also be given up-front. By building a window into the model behaviour and enabling knowledge injection, our method allows practitioners to debug networks based on the causal structure discovered from the data and underpinning the predictions. Experiments with real and synthetic tabular data show that our method improves predictive performance up to 2.4x while producing parsimonious networks, up to 7x smaller in the input layer, compared to SOTA regularised networks.
翻訳日:2023-08-02 11:32:19 公開日:2023-08-01
# クロスモーダル相互意味論の探索による視聴覚セグメンテーション

Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics ( http://arxiv.org/abs/2307.16620v2 )

ライセンス: Link先を確認
Chen Liu, Peike Li, Xingqun Qi, Hu Zhang, Lincheng Li, Dadong Wang, Xin Yu(参考訳) オーディオ・ビジュアルセグメンテーション(avs)タスクは、所定のビデオから音声オブジェクトをセグメンテーションすることを目的としている。 既存の作品は、主に音声とビデオの視覚的特徴を融合させ、音を鳴らす物体マスクを実現することに焦点を当てている。 しかし,先行技術では,音声情報によらず,映像中の特定の有能な物体を分割する傾向が見られた。 これは、サウンドオブジェクトがしばしばAVSデータセットで最も健全なものであるためです。 したがって、現在のAVSメソッドは、データセットバイアスのため、真のサウンドオブジェクトのローカライズに失敗する可能性がある。 本稿では,データセットのバイアスを克服するための音声・視覚インスタンス対応セグメンテーション手法を提案する。 本手法は,まず対象セグメンテーションネットワークによってビデオ内の潜在的発音対象を局所化し,その後,所定の音声と音響対象候補を関連付ける。 私たちは、ある物体が1つのビデオで音を立てる物体であるだけでなく、別のビデオでサイレントな物体であることに気づきました。 これにより、オブジェクトセグメンテーションネットワークのトレーニングにおけるあいまいさが引き起こされ、サウンドオブジェクトだけが対応するセグメンテーションマスクを持つようになる。 そこで我々は、あいまいさを軽減するために、サイレントオブジェクト認識セグメンテーションの目的を提案する。 さらに、音声のカテゴリ情報は、特に複数の音源について不明であるため、音声と視覚のセマンティックな相関を探索し、音声を潜在的対象と関連付けることを提案する。 具体的には、予測されたオーディオカテゴリスコアを潜在的なインスタンスマスクに反映し、これらのスコアは、不可聴なインスタンスを抑圧しながら対応するインスタンスを強調する。 出席したインスタンスマスクを接地真面に類似させるように強制すると、音声と視覚のセマンティクスの相関関係を確立することができる。 AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。

The audio-visual segmentation (AVS) task aims to segment sounding objects from a given video. Existing works mainly focus on fusing audio and visual features of a given video to achieve sounding object masks. However, we observed that prior arts are prone to segment a certain salient object in a video regardless of the audio information. This is because sounding objects are often the most salient ones in the AVS dataset. Thus, current AVS methods might fail to localize genuine sounding objects due to the dataset bias. In this work, we present an audio-visual instance-aware segmentation approach to overcome the dataset bias. In a nutshell, our method first localizes potential sounding objects in a video by an object segmentation network, and then associates the sounding object candidates with the given audio. We notice that an object could be a sounding object in one video but a silent one in another video. This would bring ambiguity in training our object segmentation network as only sounding objects have corresponding segmentation masks. We thus propose a silent object-aware segmentation objective to alleviate the ambiguity. Moreover, since the category information of audio is unknown, especially for multiple sounding sources, we propose to explore the audio-visual semantic correlation and then associate audio with potential objects. Specifically, we attend predicted audio category scores to potential instance masks and these scores will highlight corresponding sounding instances while suppressing inaudible ones. When we enforce the attended instance masks to resemble the ground-truth mask, we are able to establish audio-visual semantics correlation. Experimental results on the AVS benchmarks demonstrate that our method can effectively segment sounding objects without being biased to salient objects.
翻訳日:2023-08-02 11:26:31 公開日:2023-08-01
# 国際関係の言語への深く掘り下げ--ユネスコの要約記録のnlpに基づく分析

Deep Dive into the Language of International Relations: NLP-based Analysis of UNESCO's Summary Records ( http://arxiv.org/abs/2307.16573v2 )

ライセンス: Link先を確認
Joanna Wojciechowska, Mateusz Sypniewski, Maria \'Smigielska, Igor Kami\'nski, Emilia Wi\'snios, Hanna Schreiber, Bartosz Pieli\'nski(参考訳) 文化遺産は世界各国が関心を持つ国際関係の場である。 ユネスコ世界遺産リスト(UNESCO World Heritage List)とユネスコ人文科学遺産代表リスト(UNESCO Representative List of the Intangible Cultural Heritage of Humanity)の碑文は、しばしば国家間の緊張と紛争につながる。 本研究は,これらの課題に対処するため,上記の2つのリストに対する記述に関する意思決定プロセスに関する貴重な洞察を提供する自動ツールを開発する。 本稿では,ユネスコの要約記録に基づくトピックモデリングとテンション検出手法を提案する。 我々の分析では, 緊張の同定において, 72%の補正精度が得られた。 さらに、我々は、外交官、弁護士、政治科学者、国際関係研究者向けに、選択された文書から段落の効率的な探索と、選択された話題に関する特定の話者からの発言を容易にするアプリケーションを開発した。 この応用は、国際遺産登録手続きにおける複雑な意思決定ダイナミクスの理解を深めるための貴重な資源である。

Cultural heritage is an arena of international relations that interests all states worldwide. The inscription process on the UNESCO World Heritage List and the UNESCO Representative List of the Intangible Cultural Heritage of Humanity often leads to tensions and conflicts among states. This research addresses these challenges by developing automatic tools that provide valuable insights into the decision-making processes regarding inscriptions to the two lists mentioned above. We propose innovative topic modelling and tension detection methods based on UNESCO's summary records. Our analysis achieved a commendable accuracy rate of 72% in identifying tensions. Furthermore, we have developed an application tailored for diplomats, lawyers, political scientists, and international relations researchers that facilitates the efficient search of paragraphs from selected documents and statements from specific speakers about chosen topics. This application is a valuable resource for enhancing the understanding of complex decision-making dynamics within international heritage inscription procedures.
翻訳日:2023-08-02 11:26:03 公開日:2023-08-01
# 非剛性グラフプレースレジストレーションを用いた汎用ツールの学習

Learning Generalizable Tool Use with Non-rigid Grasp-pose Registration ( http://arxiv.org/abs/2307.16499v2 )

ライセンス: Link先を確認
Malte Mosbach and Sven Behnke(参考訳) ヒューマンインテリジェンスの目覚しい特徴であるツールの使用は、複雑な接触と高次元のアクション空間のため、ロボット工学において難しい問題である。 本研究では,ツール使用行動の強化学習を可能にする新しい手法を提案する。 我々のアプローチは、ひとつのデモンストレーションだけで新しいカテゴリのツールの操作を学ぶためのスケーラブルな方法を提供する。 そこで本研究では,多指ロボットハンドの把持構成を新しい物体に一般化する手法を提案する。 これは、適切な初期化と形をした報酬信号を通じてポリシー検索を導くために使用される。 学習したポリシーは複雑なツールの使用タスクを解決し、テスト時に見えないツールに一般化する。 トレーニングされたポリシーの可視化とビデオはhttps://maltemosbach.github.io/ generalizable_tool_useで公開されている。

Tool use, a hallmark feature of human intelligence, remains a challenging problem in robotics due the complex contacts and high-dimensional action space. In this work, we present a novel method to enable reinforcement learning of tool use behaviors. Our approach provides a scalable way to learn the operation of tools in a new category using only a single demonstration. To this end, we propose a new method for generalizing grasping configurations of multi-fingered robotic hands to novel objects. This is used to guide the policy search via favorable initializations and a shaped reward signal. The learned policies solve complex tool use tasks and generalize to unseen tools at test time. Visualizations and videos of the trained policies are available at https://maltemosbach.github.io/generalizable_tool_use.
翻訳日:2023-08-02 11:25:46 公開日:2023-08-01
# L3DMC:混合曲率空間による蒸留による生涯学習

L3DMC: Lifelong Learning using Distillation via Mixed-Curvature Space ( http://arxiv.org/abs/2307.16459v2 )

ライセンス: Link先を確認
Kaushik Roy, Peyman Moghadam, Mehrtash Harandi(参考訳) 組込み空間の幾何学的形成は、新しい概念を逐次学習しながら変化するため、生涯学習(L3)モデルの性能は一連のタスクで訓練されると劣化する。 既存のL3アプローチの大半は、データの複雑な幾何学構造をモデル化するのに必ずしも適さない固定曲率(例えば、ゼロ曲率ユークリッド空間)で動く。 さらに, 蒸留法では, 低次元埋め込みに直接制約を適用し, モデルを高度に安定させることでL3モデルを新しい概念の学習から遠ざけている。 そこで本研究では, 複雑な幾何学的構造をモデル化し, 維持することにより, 既に習得した知識を維持するため, 混合曲率空間で動作する蒸留戦略L3DMCを提案する。 固定曲率空間(ユークリッドおよび双曲)の投影された低次元埋め込みを正定値カーネル関数を用いて高次元のケルネルヒルベルト空間(RKHS)に埋め込み、リッチ表現を実現することを提案する。 その後、新しいサンプル表現とRKHSの古い表現を用いた部分空間との差を最小化してL3モデルを最適化する。 L3DMCは、複数の固定曲率空間の表現力を組み合わせた古い知識を忘れずに、新しい知識をよりよく適応することができ、高次元のRKHSで実行される。 3つのベンチマークによる詳細な実験により,L3設定での医用画像分類における蒸留法の有効性が示された。 コード実装はhttps://github.com/csiro-robotics/L3DMCで公開されています。

The performance of a lifelong learning (L3) model degrades when it is trained on a series of tasks, as the geometrical formation of the embedding space changes while learning novel concepts sequentially. The majority of existing L3 approaches operate on a fixed-curvature (e.g., zero-curvature Euclidean) space that is not necessarily suitable for modeling the complex geometric structure of data. Furthermore, the distillation strategies apply constraints directly on low-dimensional embeddings, discouraging the L3 model from learning new concepts by making the model highly stable. To address the problem, we propose a distillation strategy named L3DMC that operates on mixed-curvature spaces to preserve the already-learned knowledge by modeling and maintaining complex geometrical structures. We propose to embed the projected low dimensional embedding of fixed-curvature spaces (Euclidean and hyperbolic) to higher-dimensional Reproducing Kernel Hilbert Space (RKHS) using a positive-definite kernel function to attain rich representation. Afterward, we optimize the L3 model by minimizing the discrepancies between the new sample representation and the subspace constructed using the old representation in RKHS. L3DMC is capable of adapting new knowledge better without forgetting old knowledge as it combines the representation power of multiple fixed-curvature spaces and is performed on higher-dimensional RKHS. Thorough experiments on three benchmarks demonstrate the effectiveness of our proposed distillation strategy for medical image classification in L3 settings. Our code implementation is publicly available at https://github.com/csiro-robotics/L3DMC.
翻訳日:2023-08-02 11:25:35 公開日:2023-08-01
# 連続学習のためのサブスペース蒸留

Subspace Distillation for Continual Learning ( http://arxiv.org/abs/2307.16419v2 )

ライセンス: Link先を確認
Kaushik Roy, Christian Simon, Peyman Moghadam, Mehrtash Harandi(参考訳) 連続学習における究極の目的は、新しいタスクを学習しながら、前のタスクで学んだ知識を保存することである。 従来の知識を忘れないように,ニューラルネットワークの潜在出力空間の多様体構造を考慮した新しい知識蒸留手法を提案する。 そこで本研究では,データ多様体を1次まで近似し,線形部分空間の利点を生かして構造をモデル化し,新しい概念を学習しながらニューラルネットワークの知識を維持することを提案する。 部分空間を用いたモデリングは、雑音に対する堅牢性など、いくつかの興味深い特性を提供しており、連続学習における破滅的学習の軽減に有効であることを示す。 また,分類問題と分割問題の両方に対処するために,提案手法をどのように適用できるかを論じる。 提案手法は,Pascal VOCやTiny-Imagenetなど,いくつかの課題のあるデータセットにおいて,様々な連続的な学習方法よりも優れていることを示す。 さらに,提案手法と既存の学習手法をシームレスに組み合わせ,その性能を向上させる方法を示す。 この記事のコードはhttps://github.com/csiro-robotics/sdclで入手できる。

An ultimate objective in continual learning is to preserve knowledge learned in preceding tasks while learning new tasks. To mitigate forgetting prior knowledge, we propose a novel knowledge distillation technique that takes into the account the manifold structure of the latent/output space of a neural network in learning novel tasks. To achieve this, we propose to approximate the data manifold up-to its first order, hence benefiting from linear subspaces to model the structure and maintain the knowledge of a neural network while learning novel concepts. We demonstrate that the modeling with subspaces provides several intriguing properties, including robustness to noise and therefore effective for mitigating Catastrophic Forgetting in continual learning. We also discuss and show how our proposed method can be adopted to address both classification and segmentation problems. Empirically, we observe that our proposed method outperforms various continual learning methods on several challenging datasets including Pascal VOC, and Tiny-Imagenet. Furthermore, we show how the proposed method can be seamlessly combined with existing learning approaches to improve their performances. The codes of this article will be available at https://github.com/csiro-robotics/SDCL.
翻訳日:2023-08-02 11:25:07 公開日:2023-08-01
# マルチモーダルエンティティアライメントにおける不確かであいまいな視覚モダリティの再考

Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment ( http://arxiv.org/abs/2307.16210v2 )

ライセンス: Link先を確認
Zhuo Chen, Lingbing Guo, Yin Fang, Yichi Zhang, Jiaoyan Chen, Jeff Z. Pan, Yangning Li, Huajun Chen, Wen Zhang(参考訳) エンティティアライメント(EA)の重要な拡張として、マルチモーダルエンティティアライメント(MMEA)は、関連する視覚情報を利用して、異なる知識グラフ(KG)間で同一のエンティティを識別することを目的としている。 しかし、既存のmmeaアプローチは主にマルチモーダルエンティティの特徴の融合パラダイムに集中しているが、視覚画像の欠如と内在的な曖昧さという広範囲にわたる現象によって生じる課題は無視されている。 本稿では,提案するデータセットmmea-umvmにおける最新のmmeaモデルのベンチマークにより,視覚モダリティの不完全性のさらなる分析を行い,モデル性能を評価するための標準(非イテレーティブ)および反復訓練パラダイムを用いて,バイリンガルとモノリンガルをカバーするアライメントkgのタイプについて述べる。 本研究は、モダリティの不完全性に直面したモデルがモダリティノイズを過大に満たし、モダリティの欠落率の高い性能振動や低下を示すことを示唆する。 これは、追加のマルチモーダルデータがeaに悪影響を及ぼす可能性があることを証明している。 これらの課題に対処するために、不確実で曖昧な視覚的モダリティに対処するために、堅牢なマルチモーダルエンティティアライメントアプローチであるUMAEAを導入する。 97のベンチマークスプリットすべてでSOTA性能を継続的に達成し、パラメータや時間消費が制限された既存のベースラインを大幅に上回り、他のモデルの特定された制限を効果的に緩和する。 コードとベンチマークデータはhttps://github.com/zjukg/UMAEA.comで公開されています。

As a crucial extension of entity alignment (EA), multi-modal entity alignment (MMEA) aims to identify identical entities across disparate knowledge graphs (KGs) by exploiting associated visual information. However, existing MMEA approaches primarily concentrate on the fusion paradigm of multi-modal entity features, while neglecting the challenges presented by the pervasive phenomenon of missing and intrinsic ambiguity of visual images. In this paper, we present a further analysis of visual modality incompleteness, benchmarking latest MMEA models on our proposed dataset MMEA-UMVM, where the types of alignment KGs covering bilingual and monolingual, with standard (non-iterative) and iterative training paradigms to evaluate the model performance. Our research indicates that, in the face of modality incompleteness, models succumb to overfitting the modality noise, and exhibit performance oscillations or declines at high rates of missing modality. This proves that the inclusion of additional multi-modal data can sometimes adversely affect EA. To address these challenges, we introduce UMAEA , a robust multi-modal entity alignment approach designed to tackle uncertainly missing and ambiguous visual modalities. It consistently achieves SOTA performance across all 97 benchmark splits, significantly surpassing existing baselines with limited parameters and time consumption, while effectively alleviating the identified limitations of other models. Our code and benchmark data are available at https://github.com/zjukg/UMAEA.
翻訳日:2023-08-02 11:24:48 公開日:2023-08-01
# 2次元前方ソナーの仰角推定の自己教師あり学習における運動変性

Motion Degeneracy in Self-supervised Learning of Elevation Angle Estimation for 2D Forward-Looking Sonar ( http://arxiv.org/abs/2307.16160v2 )

ライセンス: Link先を確認
Yusheng Wang, Yonghoon Ji, Chujie Wu, Hiroshi Tsuchiya, Hajime Asama, Atsushi Yamashita(参考訳) 2Dフォワードのソナーは水中ロボットの知覚に欠かせないセンサーだ。 この分野でよく知られた問題は、ソナーイメージング中に標高方向の欠落情報を推定することである。 フライスルーミッションでは、3dマッピングとロボットナビゲーションのために画像あたりの3d情報を見積もる必要がある。 最近の学習に基づく手法は、その強みを実証しているが、まだ欠点がある。 教師あり学習法は高品質な結果を得たが、3d接地ラベルの取得にはさらなる努力が必要かもしれない。 既存の自己監督法では,3次元教師付き合成画像による事前訓練が必要である。 本研究は, 合成画像を用いた事前学習を行なわずに, 高度角推定の安定な自己教師付き学習を実現することを目的とする。 自己監督学習中の障害は、運動変性の問題によって引き起こされる可能性がある。 まず,主監視信号に関連する2次元前方ソナーの運動場を解析する。 現代の学習フレームワークを用いて,学習データセットが効果的な動作で構築されている場合,ネットワークは合成データの知識を必要とせず,自己教師ありで訓練できることを示す。 シミュレーションと実実験の両方が提案手法を検証する。

2D forward-looking sonar is a crucial sensor for underwater robotic perception. A well-known problem in this field is estimating missing information in the elevation direction during sonar imaging. There are demands to estimate 3D information per image for 3D mapping and robot navigation during fly-through missions. Recent learning-based methods have demonstrated their strengths, but there are still drawbacks. Supervised learning methods have achieved high-quality results but may require further efforts to acquire 3D ground-truth labels. The existing self-supervised method requires pretraining using synthetic images with 3D supervision. This study aims to realize stable self-supervised learning of elevation angle estimation without pretraining using synthetic images. Failures during self-supervised learning may be caused by motion degeneracy problems. We first analyze the motion field of 2D forward-looking sonar, which is related to the main supervision signal. We utilize a modern learning framework and prove that if the training dataset is built with effective motions, the network can be trained in a self-supervised manner without the knowledge of synthetic data. Both simulation and real experiments validate the proposed method.
翻訳日:2023-08-02 11:24:18 公開日:2023-08-01
# 構造保存合成:MRI-CT翻訳用マスクガン

Structure-Preserving Synthesis: MaskGAN for Unpaired MR-CT Translation ( http://arxiv.org/abs/2307.16143v2 )

ライセンス: Link先を確認
Minh Hieu Phan, Zhibin Liao, Johan W. Verjans, Minh-Son To(参考訳) 医療画像合成は、ペアデータの不足のため難しい課題である。 いくつかの方法では、不適切なデータを活用するためにcycleganを適用しているが、しばしば解剖学をシフトする不正確なマッピングを生成する。 この問題は、ソースとターゲットのモダリティのイメージが極めて不一致である場合にさらに悪化する。 近年,補足的セグメンテーションネットワークを導入してこの問題に対処する手法が提案されている。 残念ながら、この戦略にはコストと時間を要するピクセルレベルのアノテーションが必要です。 この問題を解決するために,自動抽出された粗いマスクを利用して構造整合性を実現する新しい費用効率のフレームワークMaskGANを提案する。 本手法では, マスクジェネレータを用いて解剖学的構造を概説し, コンテンツジェネレータを用いてCTコンテンツを合成する。 広範囲にわたる実験により、MaskGANは、小児の急速な成長によりMRIとCTスキャンが著しく不一致している、挑戦的な小児科のデータセット上で、最先端の合成方法よりも優れていることが示された。 具体的には、MaskGANは専門家のアノテーションを必要とせずに解剖学的構造を保存できる。 この論文のコードはhttps://github.com/HieuPhan33/MaskGAN.comにある。

Medical image synthesis is a challenging task due to the scarcity of paired data. Several methods have applied CycleGAN to leverage unpaired data, but they often generate inaccurate mappings that shift the anatomy. This problem is further exacerbated when the images from the source and target modalities are heavily misaligned. Recently, current methods have aimed to address this issue by incorporating a supplementary segmentation network. Unfortunately, this strategy requires costly and time-consuming pixel-level annotations. To overcome this problem, this paper proposes MaskGAN, a novel and cost-effective framework that enforces structural consistency by utilizing automatically extracted coarse masks. Our approach employs a mask generator to outline anatomical structures and a content generator to synthesize CT contents that align with these structures. Extensive experiments demonstrate that MaskGAN outperforms state-of-the-art synthesis methods on a challenging pediatric dataset, where MR and CT scans are heavily misaligned due to rapid growth in children. Specifically, MaskGAN excels in preserving anatomical structures without the need for expert annotations. The code for this paper can be found at https://github.com/HieuPhan33/MaskGAN.
翻訳日:2023-08-02 11:24:02 公開日:2023-08-01
# イベントカメラでダイナミックオクルージョンの裏側を見る

Seeing Behind Dynamic Occlusions with Event Cameras ( http://arxiv.org/abs/2307.15829v2 )

ライセンス: Link先を確認
Rong Zou, Manasi Muglikar, Nico Messikommer, Davide Scaramuzza(参考訳) ほこり、ほこり、雨滴、雪などの望ましくないカメラの閉塞は、コンピュータビジョンシステムの性能を著しく低下させる可能性がある。 動的咬合は連続的な変化パターンのため特に困難である。 既存の咬合除去法は、現在合成開口イメージングまたは画像インパインティングを使用している。 しかし、背景強度を幻覚させるために複数の視点やユーザ生成マスクを必要とするため、ダイナミックオクルージョンの問題に直面している。 本研究では,動的閉塞の存在下での単一視点から背景を再構築する新しい手法を提案する。 私たちのソリューションは、従来のカメラとイベントカメラの組み合わせに初めて依存しています。 閉塞が背景画像を横切ると、強度の変化が起こり、イベントが引き起こされる。 これらのイベントは、前景と背景の間の相対的な強度変化を高い時間分解能で追加情報を提供し、背景コンテンツの真の再構築を可能にする。 我々は,このアプローチを評価するために,同期画像とイベントシーケンスからなる最初の大規模データセットを提案する。 提案手法は, データセット上のPSNRにおいて, 3dBによる画像の描画方法よりも優れていることを示す。

Unwanted camera occlusions, such as debris, dust, rain-drops, and snow, can severely degrade the performance of computer-vision systems. Dynamic occlusions are particularly challenging because of the continuously changing pattern. Existing occlusion-removal methods currently use synthetic aperture imaging or image inpainting. However, they face issues with dynamic occlusions as these require multiple viewpoints or user-generated masks to hallucinate the background intensity. We propose a novel approach to reconstruct the background from a single viewpoint in the presence of dynamic occlusions. Our solution relies for the first time on the combination of a traditional camera with an event camera. When an occlusion moves across a background image, it causes intensity changes that trigger events. These events provide additional information on the relative intensity changes between foreground and background at a high temporal resolution, enabling a truer reconstruction of the background content. We present the first large-scale dataset consisting of synchronized images and event sequences to evaluate our approach. We show that our method outperforms image inpainting methods by 3dB in terms of PSNR on our dataset.
翻訳日:2023-08-02 11:23:41 公開日:2023-08-01
# 自分のゲームでバックドアアタックを破る

Beating Backdoor Attack at Its Own Game ( http://arxiv.org/abs/2307.15539v2 )

ライセンス: Link先を確認
Min Liu, Alberto Sangiovanni-Vincentelli, Xiangyu Yue(参考訳) ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であり、クリーンデータに対するネットワークのパフォーマンスに影響せず、トリガーパターンが追加されるとネットワークの動作を操作する。 既存の防御手法は攻撃成功率を大幅に低下させたが、クリーンなデータの予測精度は依然としてクリーンなモデルに大きく遅れている。 背後攻撃のステルス性や有効性に着想を得て,有害サンプルを標的とした非敵バックドアを注入する,単純かつ高効率な防御フレームワークを提案する。 バックドア攻撃の一般的な手順に従い、疑わしいサンプルの小さなセットを検出し、それらを毒殺戦略を適用する。 非敵のバックドアは一度起動すると、毒物データに対する攻撃者のバックドアを抑制するが、クリーンデータへの影響は限られている。 防御は、データ前処理中に、標準のエンドツーエンドトレーニングパイプラインを変更することなく行うことができる。 我々は、異なるアーキテクチャと代表的攻撃を持つ複数のベンチマークで広範な実験を行う。 その結果, クリーンデータに対する性能低下が最も低く, 最先端の防御効果が得られた。 我々の枠組みが示す驚くべき防御能力を考えると、バックドアの防御にもっと注意を払う必要がある。 コードはhttps://github.com/damianliumin/non-adversarial_backdoorで入手できる。

Deep neural networks (DNNs) are vulnerable to backdoor attack, which does not affect the network's performance on clean data but would manipulate the network behavior once a trigger pattern is added. Existing defense methods have greatly reduced attack success rate, but their prediction accuracy on clean data still lags behind a clean model by a large margin. Inspired by the stealthiness and effectiveness of backdoor attack, we propose a simple but highly effective defense framework which injects non-adversarial backdoors targeting poisoned samples. Following the general steps in backdoor attack, we detect a small set of suspected samples and then apply a poisoning strategy to them. The non-adversarial backdoor, once triggered, suppresses the attacker's backdoor on poisoned data, but has limited influence on clean data. The defense can be carried out during data preprocessing, without any modification to the standard end-to-end training pipeline. We conduct extensive experiments on multiple benchmarks with different architectures and representative attacks. Results demonstrate that our method achieves state-of-the-art defense effectiveness with by far the lowest performance drop on clean data. Considering the surprising defense ability displayed by our framework, we call for more attention to utilizing backdoor for backdoor defense. Code is available at https://github.com/damianliumin/non-adversarial_backdoor.
翻訳日:2023-08-02 11:23:24 公開日:2023-08-01