このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230406となっている論文です。

PDF登録状況(公開日: 20230406)

TitleAuthorsAbstract論文公表日・翻訳日
# FFTとGPUを用いた超高速ゼルニケモーメント

Ultra-Fast Zernike Moments using FFT and GPU ( http://arxiv.org/abs/2304.14492v1 )

ライセンス: Link先を確認
Mohammed Al-Rawi(参考訳) Zernike モーメントは、様々なマシンビジョンアプリケーションに適用される不変機能を生成するために使用できる。 しかし、遅い実装と数値安定性の問題に悩まされている。 本稿では,Fast Fourier Transform (FFT) とGPUによるZernike計算手法を提案する。 この方法は高精度なモーメントを高次まで生成することができ、4K解像度画像のザーニークモーメントをリアルタイムで計算することができる。 fft法を用いて計算したツェルニケモーメントの数値的精度を直交性を用いて解析し, 数値安定性において他の手法に勝ることを示す。 提案手法は単純で高速で,複数のプログラミングフレームワークで利用可能な巨大なGPU-FFTライブラリを利用することができる。

Zernike moments can be used to generate invariant features that are applied in various machine vision applications. They, however, suffer from slow implementation and numerical stability problems. We propose a novel method for computing Zernike using Fast Fourier Transform (FFT) and GPU computing. The method can be used to generate accurate moments up to high orders, and can compute Zernike moments of 4K resolution images in real-time. Numerical accuracies of Zernike moments computed with the proposed FFT approach have been analyzed using the orthogonality property and the results show that they beat other methods in numerical stability. The proposed method is simple and fast and can make use of the huge GPU-FFT libraries that are available in several programming frameworks.
翻訳日:2023-05-07 16:21:18 公開日:2023-04-06
# deeponetsを用いた燃焼化学加速の枠組み

A Framework for Combustion Chemistry Acceleration with DeepONets ( http://arxiv.org/abs/2304.12188v1 )

ライセンス: Link先を確認
Anuj Kumar (1), Tarek Echekki (1) ((1) North Carolina State University)(参考訳) 深部演算子ネットワーク(DeepONets)に基づく燃焼化学加速法を開発した。 このスキームは、熱化学的スカラーの溶液が小さく柔軟な時間インクリメントで新しい溶液に投影されるように、改良されたディープネットアーキテクチャによる燃焼反応ダイナミクスの同定に基づいている。 このアプローチは、計算コストの高い剛体化学の統合を必要とせずに、効率的に化学加速を実装するように設計されている。 また,修正されたDeepOnetを用いた遅延空間の動的識別フレームワークも提案され,計算効率の向上と提案方式の適用性の向上が図られた。 このスキームは、水素酸化の単純な化学動力学に基づいて、n-ドデカンの高温酸化と低温酸化のより複雑な化学動力学を実証する。 提案フレームワークは, 化学動力学を正確に学習し, 各用途に対応する種および温度時間プロファイルを効率よく再現する。 また,提案手法では,外挿性能の優れた超大型の高速化も観測されている。

A combustion chemistry acceleration scheme is developed based on deep operator networks (DeepONets). The scheme is based on the identification of combustion reaction dynamics through a modified DeepOnet architecture such that the solutions of thermochemical scalars are projected to new solutions in small and flexible time increments. The approach is designed to efficiently implement chemistry acceleration without the need for computationally expensive integration of stiff chemistry. An additional framework of latent-space dynamics identification with modified DeepOnet is also proposed which enhances the computational efficiency and widens the applicability of the proposed scheme. The scheme is demonstrated on simple chemical kinetics of hydrogen oxidation to more complex chemical kinetics of n-dodecane high- and low-temperature oxidations. The proposed framework accurately learns the chemical kinetics and efficiently reproduces species and temperature temporal profiles corresponding to each application. In addition, a very large speed-up with a great extrapolation capability is also observed with the proposed scheme.
翻訳日:2023-04-30 07:49:00 公開日:2023-04-06
# ChatGPT:人間中心人工知能(HCAI)の立場から考える、集団認知の武器、倫理的課題と対応

ChatGPT: More than a Weapon of Mass Deception, Ethical challenges and responses from the Human-Centered Artificial Intelligence (HCAI) perspective ( http://arxiv.org/abs/2304.11215v1 )

ライセンス: Link先を確認
Alejo Jose G. Sison, Marco Tulio Daza, Roberto Gozalo-Brizuela and Eduardo C. Garrido-Merch\'an(参考訳) 本稿では、ChatGPTを生成AIの一種として使用することによって生じる倫理的問題について考察し、Human-Centered Artificial Intelligence(HCAI)フレームワークに基づく応答を提案する。 HCAIフレームワークは、人間の幸福を大いなる挑戦として言及し、人間の繁栄の科学である倫理と完全に一致させながら、人事の強化、強化、強化のツールとして技術を理解するのが適切である。 さらにHCAIは、ChatGPTアセスメントに適用される信頼性、安全性、信頼性の高いAIのための目標、原則、手順、構造を提供します。 ChatGPTが提示する主な危険は、大量騙し(WMD)の武器として使われる確率と、詐欺に関わる犯罪行為の有効化である。 我々はその可能性と限界をよりよく理解するために技術的仕様をレビューする。 次に、ChatGPTの誤用や悪用を軽減するための技術(透かし、スタイル、検知器、ファクトチェック)と非技術(使用条件、透明性、教育者配慮、HITL)の両方を提案し、ベストプラクティス(創造的書面、非創造的書面、教育、学習)を推奨する。 個人および社会福祉におけるchatgptの適正な利用の確保における人間の役割について考察した。

This article explores the ethical problems arising from the use of ChatGPT as a kind of generative AI and suggests responses based on the Human-Centered Artificial Intelligence (HCAI) framework. The HCAI framework is appropriate because it understands technology above all as a tool to empower, augment, and enhance human agency while referring to human wellbeing as a grand challenge, thus perfectly aligning itself with ethics, the science of human flourishing. Further, HCAI provides objectives, principles, procedures, and structures for reliable, safe, and trustworthy AI which we apply to our ChatGPT assessments. The main danger ChatGPT presents is the propensity to be used as a weapon of mass deception (WMD) and an enabler of criminal activities involving deceit. We review technical specifications to better comprehend its potentials and limitations. We then suggest both technical (watermarking, styleme, detectors, and fact-checkers) and non-technical measures (terms of use, transparency, educator considerations, HITL) to mitigate ChatGPT misuse or abuse and recommend best uses (creative writing, non-creative writing, teaching and learning). We conclude with considerations regarding the role of humans in ensuring the proper use of ChatGPT for individual and social wellbeing.
翻訳日:2023-04-30 07:47:36 公開日:2023-04-06
# 内部製品アレーの低遅延オンライン乗算器

Low-Latency Online Multiplier with Reduced Activities and Minimized Interconnect for Inner Product Arrays ( http://arxiv.org/abs/2304.12946v1 )

ライセンス: Link先を確認
Muhammad Usman, Milos Ercegovac, Jeong-A Lee(参考訳) 乗算は不可欠であり、信号処理やニューラルネットワークを含む多くの現代のアプリケーションにおける中核的な操作の1つである。 従来の右から左への乗算器は, 電力消費, 面積利用, 臨界経路遅延に大きく寄与する。 本稿では,オンラインあるいは左利き(LR)演算に基づく低レイテンシ乗算器を提案する。 オンライン算術は、最も大きな桁の第1の操作モードのため、データ依存に関係なく連続した操作を重複させることができる。 最上位の桁を最初に生成するには冗長数システムを使用し、キャリーフリーな加算を行うことができるので、演算の遅延はオペランドビット幅とは無関係である。 操作は、左から右へ直列に数字で行われ、スライスアクティビティが徐々に増加し、再構成可能なデバイスの実装に適している。 オンラインアルゴリズムの連続的性質とアクティブスライスの段階的増減は相互接続と信号活動を最小限に抑え、結果として面積と消費電力の全体的な削減をもたらす。 オンライン乗算器は,2つの入力をシリアルで,一方をシリアルで,他方を並列で提示する。 提案した乗算器のパイプラインおよび非パイプライン設計は、Synopsys Design Compiler上でGSCL 45nm技術で合成されている。 より詳細な比較分析は広く使われているパフォーマンス指標を用いて行われている。 その結果,提案したオンライン乗算器はRL乗算器よりも優れていた。

Multiplication is indispensable and is one of the core operations in many modern applications including signal processing and neural networks. Conventional right-to-left (RL) multiplier extensively contributes to the power consumption, area utilization and critical path delay in such applications. This paper proposes a low latency multiplier based on online or left-to-right (LR) arithmetic which can increase throughput and reduce latency by digit-level pipelining. Online arithmetic enables overlapping successive operations regardless of data dependency because of the most significant digit first mode of operation. To produce most significant digit first, it uses redundant number system and we can have a carry-free addition, therefore, the delay of the arithmetic operation is independent of operand bit width. The operations are performed digit by digit serially from left to right which allows gradual increase in the slice activities making it suitable for implementation on reconfigurable devices. Serial nature of the online algorithm and gradual increment/decrement of active slices minimize the interconnects and signal activities resulting in overall reduction of area and power consumption. We present online multipliers with; both inputs in serial, and one in serial and one in parallel. Pipelined and non-pipelined designs of the proposed multipliers have been synthesized with GSCL 45nm technology on Synopsys Design Compiler. Thorough comparative analysis has been performed using widely used performance metrics. The results show that the proposed online multipliers outperform the RL multipliers.
翻訳日:2023-04-30 07:30:17 公開日:2023-04-06
# elegansnet: 簡単な科学報告と最初の実験

ElegansNet: a brief scientific report and initial experiments ( http://arxiv.org/abs/2304.13538v1 )

ライセンス: Link先を確認
Francesco Bardozzo, Andrea Terlizzi, Pietro Li\`o, Roberto Tagliaferri(参考訳) 本研究報告では,コネクトームトポロジーとディープラーニングシステムとの相互作用をより深く理解することを目的として,現実世界の神経回路を模倣したニューラルネットワークelegansnetを紹介する。 提案手法は、生物の神経回路の強力な表現能力を利用して、ニューラルネットワークに似たトポロジを持つ改良されたディープラーニングシステムの設計と生成を行う。 Caenorhabditis elegans Connectomeはその完全性、妥当なサイズ、機能的なニューロンクラスアノテーションのために参照として使用される。 単純な生物のコネクトームはニューロン間の特定の機能的関係を示し、学習可能なテンソルネットワークに変換され、現代的なアーキテクチャに統合され、複雑なタスクを効率的に解くことができるバイオプラウソブルな構造を提供する。 モデルの性能は、ランダムに繋がったネットワークに対して実証され、グローバルベンチマークでランク付けされた人工ネットワークと比較される。 最初のケースでは、ElegansNetはランダムな有線ネットワークよりも優れています。 興味深いことに、ElegansNetモデルはWatts-Strogatz小世界特性に基づくモデルとわずかに類似した性能を示している。 トランスフォーマーやアテンションベースのオートエンコーダといった最先端の人工ニューラルネットワークと比較すると、elegansnetは、教師付き画像分類タスクと教師なし手書きの数字再構成の両方において、よく知られたディープラーニングと伝統的なモデルよりも優れており、検証セットでは、cifar10で99.99%、mnist unsupで99.84%のtop-1精度を達成している。

This research report introduces ElegansNet, a neural network that mimics real-world neuronal network circuitry, with the goal of better understanding the interplay between connectome topology and deep learning systems. The proposed approach utilizes the powerful representational capabilities of living beings' neuronal circuitry to design and generate improved deep learning systems with a topology similar to natural networks. The Caenorhabditis elegans connectome is used as a reference due to its completeness, reasonable size, and functional neuron classes annotations. It is demonstrated that the connectome of simple organisms exhibits specific functional relationships between neurons, and once transformed into learnable tensor networks and integrated into modern architectures, it offers bio-plausible structures that efficiently solve complex tasks. The performance of the models is demonstrated against randomly wired networks and compared to artificial networks ranked on global benchmarks. In the first case, ElegansNet outperforms randomly wired networks. Interestingly, ElegansNet models show slightly similar performance with only those based on the Watts-Strogatz small-world property. When compared to state-of-the-art artificial neural networks, such as transformers or attention-based autoencoders, ElegansNet outperforms well-known deep learning and traditional models in both supervised image classification tasks and unsupervised hand-written digits reconstruction, achieving top-1 accuracy of 99.99% on Cifar10 and 99.84% on MNIST Unsup on the validation sets.
翻訳日:2023-04-30 07:20:35 公開日:2023-04-06
# グラフデータアノテートのための統合アクティブラーニングフレームワークとソフトウェアソースコード性能予測への応用

A Unified Active Learning Framework for Annotating Graph Data with Application to Software Source Code Performance Prediction ( http://arxiv.org/abs/2304.13032v1 )

ライセンス: Link先を確認
Peter Samoaa, Linus Aronsson, Antonio Longa, Philipp Leitner, Morteza Haghir Chehreghani(参考訳) ソフトウェアシステムのパフォーマンスエンジニアリングを含む多くの機械学習およびデータ分析アプリケーションは、大量のアノテーションとラベル付きデータを必要とするが、事前には利用できない可能性がある。 アノテーションを取得するには、しばしばかなりの時間、労力、計算資源が必要であるため、難しい。 この課題に対処するため,ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。 まず、ソースコードを抽象構文木(ast)に解析し、データとフローエッジを制御することで拡張します。 次に、ソースコードのツリー表現をフロー拡張ASTグラフ(FA-AST)表現に変換する。 グラフ表現に基づいて、様々なグラフ埋め込み(教師なしおよび教師なし)を潜在空間に構築する。 このような埋め込みを前提として、回帰法や回帰に適したクエリ戦略を用いてアクティブな学習を行うことができるため、このフレームワークはタスクに依存しないものとなる。 このフレームワークでは、アクティブな学習や受動的学習、例えば部分的に利用可能なラベルやラベルのないテストデータに異なるレベルの情報を使用することが与える影響を調査します。 我々のアプローチは、ソースコードの構造に基づいて、異なるソフトウェアパフォーマンス予測(実行時間)のためのAIモデルへの投資を改善することを目的としている。 実世界の実験では、すべてのデータの小さなサブセットに対してラベルを問合せすることで、優れたパフォーマンスが達成できることがわかった。

Most machine learning and data analytics applications, including performance engineering in software systems, require a large number of annotations and labelled data, which might not be available in advance. Acquiring annotations often requires significant time, effort, and computational resources, making it challenging. We develop a unified active learning framework, specializing in software performance prediction, to address this task. We begin by parsing the source code to an Abstract Syntax Tree (AST) and augmenting it with data and control flow edges. Then, we convert the tree representation of the source code to a Flow Augmented-AST graph (FA-AST) representation. Based on the graph representation, we construct various graph embeddings (unsupervised and supervised) into a latent space. Given such an embedding, the framework becomes task agnostic since active learning can be performed using any regression method and query strategy suited for regression. Within this framework, we investigate the impact of using different levels of information for active and passive learning, e.g., partially available labels and unlabeled test data. Our approach aims to improve the investment in AI models for different software performance predictions (execution time) based on the structure of the source code. Our real-world experiments reveal that respectable performance can be achieved by querying labels for only a small subset of all the data.
翻訳日:2023-04-30 07:18:51 公開日:2023-04-06
# 知識追跡のための注意的Q行列学習

Attentive Q-Matrix Learning for Knowledge Tracing ( http://arxiv.org/abs/2304.08168v1 )

ライセンス: Link先を確認
Zhongfeng Jia, Wei Su, Jiamin Liu, Wenli Yue(参考訳) 過去10年間の知的学習システム(ITS)の急速な発展に伴い、個別の学習指導を提供するため、学生の知識状態の追跡がますます重要になっている。 これは、学生が過去のプラットフォーム上でのインタラクションに基づいて知識概念(KC、問題解決に必要なスキル)をモデル化する知識追跡(KT)の主案である。 多くのKTモデルが提案され、最近顕著な性能を示している。 しかし、これらのモデルの多くは質問をインデックスするために概念を使用する。つまり、質問に対して事前に定義されたスキルタグは、その質問に正しく答えるために必要なkcsを示すために事前に必要となる。 これは、質問がスキルタグによってうまく整理されていない場合が多い大規模なオンライン教育プラットフォームに適用するのは非常に困難である。 本稿では,q-matrix-based attentive knowledge tracing(qakt)を提案する。q-matrix-based attentive knowledge tracing(qakt)は,その性能を犠牲にすることなく,事前に定義されたスキルタグが存在しないシーンに注意手法を適用することができるエンドツーエンドのスタイルモデルである。 QAKTは,Q-matrixとRaschモデルに基づく新しいハイブリッド埋め込み手法により,問題を階層的にモデル化し,q-matrixを学生のシーケンスに基づいて効率的に学習することができる。 一方、QAKTのアーキテクチャは、複数のスキルに関連する質問に親しみやすいことを保証する。 様々なオープンデータセットの実験を行った結果、我々のモデルは最先端のKT手法と同じような、あるいはそれ以上のパフォーマンスを示すことを実証的に検証した。 さらなる実験の結果、QAKTが学習したq行列は、既存のITSのデータマイニングタスクに役立つ、人間の専門家によってラベル付けされたものよりも非常にモデルに依存し、情報に十分であることが示唆された。

As the rapid development of Intelligent Tutoring Systems (ITS) in the past decade, tracing the students' knowledge state has become more and more important in order to provide individualized learning guidance. This is the main idea of Knowledge Tracing (KT), which models students' mastery of knowledge concepts (KCs, skills needed to solve a question) based on their past interactions on platforms. Plenty of KT models have been proposed and have shown remarkable performance recently. However, the majority of these models use concepts to index questions, which means the predefined skill tags for each question are required in advance to indicate the KCs needed to answer that question correctly. This makes it pretty hard to apply on large-scale online education platforms where questions are often not well-organized by skill tags. In this paper, we propose Q-matrix-based Attentive Knowledge Tracing (QAKT), an end-to-end style model that is able to apply the attentive method to scenes where no predefined skill tags are available without sacrificing its performance. With a novel hybrid embedding method based on the q-matrix and Rasch model, QAKT is capable of modeling problems hierarchically and learning the q-matrix efficiently based on students' sequences. Meanwhile, the architecture of QAKT ensures that it is friendly to questions associated with multiple skills and has outstanding interpretability. After conducting experiments on a variety of open datasets, we empirically validated that our model shows similar or even better performance than state-of-the-art KT methods. Results of further experiments suggest that the q-matrix learned by QAKT is highly model-agnostic and more information-sufficient than the one labeled by human experts, which could help with the data mining tasks in existing ITSs.
翻訳日:2023-04-23 04:34:47 公開日:2023-04-06
# 深いメトリクス学習のためのロバストな校正プロキシ損失

Robust Calibrate Proxy Loss for Deep Metric Learning ( http://arxiv.org/abs/2304.09162v1 )

ライセンス: Link先を確認
Xinyue Li, Jian Wang, Wei Song, Yanling Du, Zhixiang Liu(参考訳) ディープメトリックラーニングにおける主要な研究は、プロキシベースの方法とペアベースの方法の2つのジャンルに分けられる。 プロキシベースの手法は、トレーニングの複雑さが低く、ネットワークの収束が速いため、広く注目を集めている。 しかし、これらの手法にはネットワークによってpoxy最適化が行われるため制限があるため、プロキシが実際のクラスのデータの特徴を正確に表現することは困難である。 本稿では、実際のサンプル情報を用いてプロキシベースの損失の類似性計算を改善し、クラス機能の中心にプロキシ最適化を制約するキャリブレーション損失を導入するCalibrate Proxy(CP)構造を提案する。 同時に,各クラスに対して少数のプロキシを設定し,クラス内差が検索性能に与える影響を緩和した。 提案手法の有効性は,3つの公開データセットと複数の合成ラベル・ノイズデータセットに対する広範な実験により評価された。 その結果,本手法は正規データと雑音データの両方において,一般的なプロキシベース損失の性能を効果的に向上できることがわかった。

The mainstream researche in deep metric learning can be divided into two genres: proxy-based and pair-based methods. Proxy-based methods have attracted extensive attention due to the lower training complexity and fast network convergence. However, these methods have limitations as the poxy optimization is done by network, which makes it challenging for the proxy to accurately represent the feature distrubtion of the real class of data. In this paper, we propose a Calibrate Proxy (CP) structure, which uses the real sample information to improve the similarity calculation in proxy-based loss and introduces a calibration loss to constraint the proxy optimization towards the center of the class features. At the same time, we set a small number of proxies for each class to alleviate the impact of intra-class differences on retrieval performance. The effectiveness of our method is evaluated by extensive experiments on three public datasets and multiple synthetic label-noise datasets. The results show that our approach can effectively improve the performance of commonly used proxy-based losses on both regular and noisy datasets.
翻訳日:2023-04-23 04:18:55 公開日:2023-04-06
# 機械学習による株価予測可能性とビジネスサイクル

Stock Price Predictability and the Business Cycle via Machine Learning ( http://arxiv.org/abs/2304.09937v1 )

ライセンス: Link先を確認
Li Rong Wang, Hsuan Fu, Xiuyi Fan(参考訳) ビジネスサイクルが機械学習(ML)予測に与える影響について検討する。 S&P 500指数を用いて、ほとんどのリセッションにおいてMLモデルは悪化し、リセッション履歴やリスクフリー率の含みが必ずしもパフォーマンスを向上しないことがわかった。 モデルが良好に機能する不況を調査した結果、他の不況よりも市場のボラティリティが低いことが判明した。 これは、パフォーマンスの改善はML手法の利点によるものではなく、市場を安定させる効果的な金融政策のような要因によるものであることを意味する。 ml実践者は、不況と拡張の両方でモデルを評価することを推奨します。

We study the impacts of business cycles on machine learning (ML) predictions. Using the S&P 500 index, we find that ML models perform worse during most recessions, and the inclusion of recession history or the risk-free rate does not necessarily improve their performance. Investigating recessions where models perform well, we find that they exhibit lower market volatility than other recessions. This implies that the improved performance is not due to the merit of ML methods but rather factors such as effective monetary policies that stabilized the market. We recommend that ML practitioners evaluate their models during both recessions and expansions.
翻訳日:2023-04-23 04:08:02 公開日:2023-04-06
# 知能筆記法 : 7段階の動作によるユーザビリティ向上

Approach Intelligent Writing Assistants Usability with Seven Stages of Action ( http://arxiv.org/abs/2304.02822v1 )

ライセンス: Link先を確認
Avinash Bhat, Disha Shrivastava, Jin L.C. Guo(参考訳) 大規模言語モデル(llm)が記述アシスタントとしての可能性を秘めているが、それらはモデル出力の一貫性や流動性、信頼性、生成されたコンテンツの所有権、モデルパフォーマンスの予測可能性といった問題に悩まされ、ユーザビリティを制限している。 本稿では,知的書記アシスタントのインタラクション設計にアプローチするための枠組みとして,ノーマンの7つの行動段階を採用することを提案する。 ソフトウェアチュートリアルのオーサリングの例を提供し,タスク記述に対するフレームワークの適用性を説明する。 また, LLM ベースのツールのインタラクション設計の研究を合成するためのツールとして, このフレームワークについて論じ, アクションの段階をサポートするツールの例を示す。 最後に,人間-LLMインタラクション研究のためのフレームワークの可能性について概説する。

Despite the potential of Large Language Models (LLMs) as writing assistants, they are plagued by issues like coherence and fluency of the model output, trustworthiness, ownership of the generated content, and predictability of model performance, thereby limiting their usability. In this position paper, we propose to adopt Norman's seven stages of action as a framework to approach the interaction design of intelligent writing assistants. We illustrate the framework's applicability to writing tasks by providing an example of software tutorial authoring. The paper also discusses the framework as a tool to synthesize research on the interaction design of LLM-based tools and presents examples of tools that support the stages of action. Finally, we briefly outline the potential of a framework for human-LLM interaction research.
翻訳日:2023-04-16 22:33:48 公開日:2023-04-06
# チャットボットの記憶の中の誤情報を見よ!

Those Aren't Your Memories, They're Somebody Else's: Seeding Misinformation in Chat Bot Memories ( http://arxiv.org/abs/2304.05371v1 )

ライセンス: Link先を確認
Conor Atkins, Benjamin Zi Hao Zhao, Hassan Jameel Asghar, Ian Wood, Mohamed Ali Kaafar(参考訳) chit-chatボットの新たな発展の1つは、過去の会話からの情報を記憶し、エンゲージメントと応答の一貫性を高める長期記憶メカニズムである。 このボットは、会話相手(例えば特定の色の好みを述べるなど)から個人性に関する知識を抽出するように設計されている。 本稿では,このメモリ機構が意図しない動作を引き起こすことを示す。 特に、個人的発言と情報的発言を組み合わせれば、ボットは長期的な記憶の中で個人的知識と合わせて、情報的発言を記憶することができることがわかった。 つまり、ボットは、会話の話題に関連する情報を思い出すときに事実のステートメントとして再現する誤情報を思い出すように騙すことができる。 この脆弱性をParlAIプラットフォーム上に実装されたBlenderBot 2フレームワーク上で実証し、より最新ではるかに大きなBlenderBot 3モデルの例を示す。 誤情報を150例生成し,そのうち114例(76%)がBlenderBot 2で記憶された。 さらに, 入力された記憶に関連する複数の質問に応答して, 不適切な会話を交わした後, この誤報がリコールされるリスクについても検討した。 blenderbot 2.0のメモリのみとメモリとインターネット検索モードの組み合わせで評価を行った。 これらの変数の組み合わせから,12,890の会話を生成し,回答の誤報を分析した。 その結果、チャットボットが誤情報に関する質問を受けた場合、その誤情報が長期記憶にある事実として、誤情報に応答する確率は328%であった。

One of the new developments in chit-chat bots is a long-term memory mechanism that remembers information from past conversations for increasing engagement and consistency of responses. The bot is designed to extract knowledge of personal nature from their conversation partner, e.g., stating preference for a particular color. In this paper, we show that this memory mechanism can result in unintended behavior. In particular, we found that one can combine a personal statement with an informative statement that would lead the bot to remember the informative statement alongside personal knowledge in its long term memory. This means that the bot can be tricked into remembering misinformation which it would regurgitate as statements of fact when recalling information relevant to the topic of conversation. We demonstrate this vulnerability on the BlenderBot 2 framework implemented on the ParlAI platform and provide examples on the more recent and significantly larger BlenderBot 3 model. We generate 150 examples of misinformation, of which 114 (76%) were remembered by BlenderBot 2 when combined with a personal statement. We further assessed the risk of this misinformation being recalled after intervening innocuous conversation and in response to multiple questions relevant to the injected memory. Our evaluation was performed on both the memory-only and the combination of memory and internet search modes of BlenderBot 2. From the combinations of these variables, we generated 12,890 conversations and analyzed recalled misinformation in the responses. We found that when the chat bot is questioned on the misinformation topic, it was 328% more likely to respond with the misinformation as fact when the misinformation was in the long-term memory.
翻訳日:2023-04-16 22:16:32 公開日:2023-04-06
# 柔軟性を保証した生物配列核

Biological Sequence Kernels with Guaranteed Flexibility ( http://arxiv.org/abs/2304.03775v1 )

ライセンス: Link先を確認
Alan Nawzad Amin, Eli Nathan Weinstein, Debora Susan Marks(参考訳) 機械学習を生物配列に適用する - dna、rna、タンパク質は、人間の健康、環境持続可能性、基本的な生物学的理解を前進させる巨大な可能性を秘めている。 しかし、既存の機械学習手法の多くは、この問題領域では効果がなく、信頼できない。 我々はこれらの課題をカーネルのレンズを通して理論的に研究する。 カーネルに基づく手法はユビキタスであり、分子表現型予測、新規タンパク質の設計、配列分布の比較などに用いられる。 カーネルを明示的に使用しない多くのメソッドは、ディープラーニングと物理ベースの技術の両方を含む、暗黙的にそれらに依存している。 他の種類のデータに対するカーネルは理論的によく研究されているが、生物学的シーケンス空間(離散、可変長列)の構造や、シーケンス類似性の生物学的概念は、ユニークな数学的課題を呈している。 生物配列の核が配列空間上の任意の関数を近似し、異なる配列分布を区別できるかどうかを形式的に解析する。 特に,生物系列核が普遍的かつ特性的であり,分布の空間をメトリゼーションする条件を定式化する。 生物配列に対する既存のカーネルベースの機械学習手法の多くは,我々の条件に適合せず,結果として深刻な失敗を生じさせる可能性がある。 我々は、既存のカーネルを条件を満たすように変更し、精度と信頼性を強く保証する、単純で計算可能な方法を開発した。 我々の証明技術は、離散質量で核の理論を構築し拡張する。 シミュレーションと実際の生体データを用いて理論的結果を示す。

Applying machine learning to biological sequences - DNA, RNA and protein - has enormous potential to advance human health, environmental sustainability, and fundamental biological understanding. However, many existing machine learning methods are ineffective or unreliable in this problem domain. We study these challenges theoretically, through the lens of kernels. Methods based on kernels are ubiquitous: they are used to predict molecular phenotypes, design novel proteins, compare sequence distributions, and more. Many methods that do not use kernels explicitly still rely on them implicitly, including a wide variety of both deep learning and physics-based techniques. While kernels for other types of data are well-studied theoretically, the structure of biological sequence space (discrete, variable length sequences), as well as biological notions of sequence similarity, present unique mathematical challenges. We formally analyze how well kernels for biological sequences can approximate arbitrary functions on sequence space and how well they can distinguish different sequence distributions. In particular, we establish conditions under which biological sequence kernels are universal, characteristic and metrize the space of distributions. We show that a large number of existing kernel-based machine learning methods for biological sequences fail to meet our conditions and can as a consequence fail severely. We develop straightforward and computationally tractable ways of modifying existing kernels to satisfy our conditions, imbuing them with strong guarantees on accuracy and reliability. Our proof techniques build on and extend the theory of kernels with discrete masses. We illustrate our theoretical results in simulation and on real biological data sets.
翻訳日:2023-04-11 19:50:19 公開日:2023-04-06
# チームジャンボビスタのカロリー予測におけるコンフォメーション回帰

Conformal Regression in Calorie Prediction for Team Jumbo-Visma ( http://arxiv.org/abs/2304.03778v1 )

ライセンス: Link先を確認
Kristian van Kuijk, Mark Dirksen and Christof Seiler(参考訳) UCIワールドトゥールレース(UCI WorldTour races, UCI WorldTour races)は、最上位の男子ロードサイクリングツアーで、選手の体力と耐久力を低下させるイベントである。 team jumbo-vismaのコーチは長い間、カレンダー上の各レースのオランダチームの各ライダーのエネルギー需要を予測する責任を負ってきた。 これらは、レースを通して高いレベルのパフォーマンスを維持するために必要なエネルギーと資源を確保するために見積もられなければならない。 しかしこのタスクは、レースのスピードと出力を正確に見積もる必要があるため、時間と課題の両方がある。 伝統的に、エネルギー需要を予測するアプローチはコーチの判断と経験に依存しているが、この方法は制限があり、しばしば不正確な予測につながる。 本稿では,サイクリングレースにおけるエネルギー需要を予測するための,より効果的なアプローチを提案する。 回帰モデルを用いて速度とパワーを予測することにより、各ステージ毎の各ライダーのカロリーを即座に見積もることができます。 さらに,自転車レースにおけるチームジャンボ-ビスマライダーの速度とパワーの推定における不確実性を定量的に比較する。 jackknife+, jackknife-minmax, jackknife-minmax-after-bootstrap, cv+, cv-minmax, conformalized quantile regression (cqr) および inductive conformal prediction (icp) 法の共形予測における経験的解析により, minmax 法を除くすべての手法が妥当な予測間隔を達成し, 決定に十分タイトな予測間隔を生成することが明らかとなった。 さらに、固定サイズの予測間隔を計算する手法は、低い値に対してより厳密な間隔を生成する。 入力空間にわたって異なる長さの間隔を計算する手法、すなわちCQR法とICP法のうち、ICPはより重要なレベルでより厳密な予測間隔を計算する。

UCI WorldTour races, the premier men's elite road cycling tour, are grueling events that put riders' physical fitness and endurance to the test. The coaches of Team Jumbo-Visma have long been responsible for predicting the energy needs of each rider of the Dutch team for every race on the calendar. Those must be estimated to ensure riders have the energy and resources necessary to maintain a high level of performance throughout a race. This task, however, is both time-consuming and challenging, as it requires precise estimates of race speed and power output. Traditionally, the approach to predicting energy needs has relied on coaches' judgement and experience, but this method has its limitations and often leads to inaccurate predictions. In this paper, we propose a new, more effective approach to predicting energy needs for cycling races. By predicting the speed and power with regression models, we provide the coaches with calorie needs estimate for each individual rider per stage instantly. In addition, we compare methods to quantify uncertainty in estimating the speed and power of Team Jumbo-Visma riders for cycling races. The empirical analysis of the jackknife+, jackknife-minmax, jackknife-minmax-after-bootstrap, CV+, CV-minmax, conformalized quantile regression (CQR) and inductive conformal prediction (ICP) methods in conformal prediction reveals all methods except minmax based methods achieve valid prediction intervals while producing prediction intervals tight enough to be used for decision making. Furthermore, methods computing prediction intervals of fixed size produce significantly tighter intervals for low significance value. Among the methods computing intervals of varying length across the input space, namely the CQR and ICP methods, ICP computes tighter prediction intervals at larger significance level.
翻訳日:2023-04-11 19:37:45 公開日:2023-04-06
# 気象予測のためのディープラーニングモデルにおける誘導バイアス

Inductive biases in deep learning models for weather prediction ( http://arxiv.org/abs/2304.04664v1 )

ライセンス: Link先を確認
Jannik Thuemmel (1), Matthias Karlbauer (1), Sebastian Otte (1), Christiane Zarfl (1), Georg Martius (2), Nicole Ludwig (1), Thomas Scholten (1), Ulrich Friedrich (3), Volker Wulfmeyer (4), Bedartha Goswami (1), Martin V. Butz (1) ((1) University of T\"ubingen, (2) Max Planck Institute for Intelligent Systems, (3) Deutscher Wetterdienst, (4) University of Hohenheim)(参考訳) 深層学習は最近、複雑な地球系プロセスの純粋データ駆動モデルを定式化できるため、地球科学で大きな人気を集めています。 深層学習に基づく天気予報(DLWP)モデルはここ数年で大きく進歩し、比較的少ない計算コストで確立された数値天気予報(NWP)モデルに匹敵する予測スキルを達成した。 数百万のパラメータで正確で信頼性があり、抽出可能なDLWPモデルをトレーニングするために、モデル設計は、データとモデル化プロセスに関する構造的仮定を符号化する適切な帰納的バイアスを組み込む必要がある。 適切に選択すると、これらのバイアスはより高速な学習とより優れた一般化を可能にする。 インダクティブバイアスはdlwpモデルの成功において重要な役割を果たすが、しばしば明示的に述べられておらず、モデルのパフォーマンスにどのように寄与するかはいまだ不明である。 本稿では,6つの最先端dlwpモデルの帰納的バイアスをレビューおよび分析し,入力データ,予測対象,損失コンポーネント,ディープラーニングアーキテクチャの階層設計,最適化手法の5つの重要な設計要素を深く見ていく。 5つの設計要素のそれぞれの設計選択が構造的仮定にどのように関係しているかを示す。 近年のDLWPコミュニティの発展を踏まえると,DLWPの将来は,大規模データベースで事前訓練された大規模モデル – 自己教師付き学習による大規模モデル – と,より困難なサブシーズンからシーズンのスケールでも,モデルが競争力のある予測を提供する明示的な物理インフォームによる帰納的バイアス – を,より広範な利用が期待できる。

Deep learning has recently gained immense popularity in the Earth sciences as it enables us to formulate purely data-driven models of complex Earth system processes. Deep learning-based weather prediction (DLWP) models have made significant progress in the last few years, achieving forecast skills comparable to established numerical weather prediction (NWP) models with comparatively lesser computational costs. In order to train accurate, reliable, and tractable DLWP models with several millions of parameters, the model design needs to incorporate suitable inductive biases that encode structural assumptions about the data and modelled processes. When chosen appropriately, these biases enable faster learning and better generalisation to unseen data. Although inductive biases play a crucial role in successful DLWP models, they are often not stated explicitly and how they contribute to model performance remains unclear. Here, we review and analyse the inductive biases of six state-of-the-art DLWP models, involving a deeper look at five key design elements: input data, forecasting objective, loss components, layered design of the deep learning architectures, and optimisation methods. We show how the design choices made in each of the five design elements relate to structural assumptions. Given recent developments in the broader DL community, we anticipate that the future of DLWP will likely see a wider use of foundation models -- large models pre-trained on big databases with self-supervised learning -- combined with explicit physics-informed inductive biases that allow the models to provide competitive forecasts even at the more challenging subseasonal-to-seasonal scales.
翻訳日:2023-04-11 14:33:41 公開日:2023-04-06
# 一般化線形計画法における座標線形分散低減

Coordinate Linear Variance Reduction for Generalized Linear Programming ( http://arxiv.org/abs/2111.01842v4 )

ライセンス: Link先を確認
Chaobing Song, Cheuk Yin Lin, Stephen J. Wright, Jelena Diakonikolas(参考訳) 一般化線形プログラム (glp) のクラスを, 単純かつ非滑らかな凸正規化子と単純凸集合制約を含む大規模構成で検討した。 GLP を等価凸凹 min-max 問題として再構成することにより、この問題の線形構造を用いて効率よくスケーラブルな一階述語アルゴリズムを設計できることを示し、これを「emph{Coordinate Linear Variance Reduction} (\textsc{clvr}; クレーバー」と発音する) と呼ぶ。 \textsc{clvr} はスペクトルノルムではなく、線形制約行列(GLP)の最大行ノルムに依存する(GLP)に対して、より複雑な結果をもたらす。 正規化項と制約が分離可能であるとき、 \textsc{clvr} は、その複雑性を行列次元ではなく (GLP) における線形制約行列の 0 個の非零要素の数に制限する効率的な遅延更新戦略を認める。 一方,線形プログラムの特別な場合には,シャープネスを利用して,経験的線形収束を得るために, \textsc{clvr} のリスタートスキームを提案する。 次に,$f$-divergence と wasserstein メトリクスの両方に基づく曖昧性集合を持つ分布的ロバスト最適化(dro)問題を,疎結合な補助変数を導入することで (glps) に再構成できることを示す。 理論的保証は、ウォールクロック時間とデータパス数の観点からアルゴリズムの実用性を検証する数値実験で補う。

We study a class of generalized linear programs (GLP) in a large-scale setting, which includes simple, possibly nonsmooth convex regularizer and simple convex set constraints. By reformulating (GLP) as an equivalent convex-concave min-max problem, we show that the linear structure in the problem can be used to design an efficient, scalable first-order algorithm, to which we give the name \emph{Coordinate Linear Variance Reduction} (\textsc{clvr}; pronounced "clever"). \textsc{clvr} yields improved complexity results for (GLP) that depend on the max row norm of the linear constraint matrix in (GLP) rather than the spectral norm. When the regularization terms and constraints are separable, \textsc{clvr} admits an efficient lazy update strategy that makes its complexity bounds scale with the number of nonzero elements of the linear constraint matrix in (GLP) rather than the matrix dimensions. On the other hand, for the special case of linear programs, by exploiting sharpness, we propose a restart scheme for \textsc{clvr} to obtain empirical linear convergence. Then we show that Distributionally Robust Optimization (DRO) problems with ambiguity sets based on both $f$-divergence and Wasserstein metrics can be reformulated as (GLPs) by introducing sparsely connected auxiliary variables. We complement our theoretical guarantees with numerical experiments that verify our algorithm's practical effectiveness, in terms of wall-clock time and number of data passes.
翻訳日:2023-04-10 15:52:07 公開日:2023-04-06
# Likelihood-free Frequentist推論: 正しい条件付きカバー付き信頼セット

Likelihood-Free Frequentist Inference: Confidence Sets with Correct Conditional Coverage ( http://arxiv.org/abs/2107.03920v6 )

ライセンス: Link先を確認
Niccol\`o Dalmasso, Luca Masserano, David Zhao, Rafael Izbicki, Ann B. Lee(参考訳) 多くの科学分野において、複雑なシステムの可能性関数を暗黙的に符号化するコンピュータシミュレータが広く使われている。 古典的な統計手法は、いわゆる「可能性のない推論」(LFI)の設定、特に漸近的および低次元のレギュレーションの外部にはあまり適していない。 フローの正規化のような新しい機械学習手法は、LFI法のサンプル効率とキャパシティに革命をもたらしたが、小さなサンプルサイズに対して適切な条件付き信頼セットを生成するかどうかには疑問が残る。 本稿では,古典統計学を現代機械学習と統合して提示する。 (i)名目範囲の有限サンプル保証付き信頼集合のニーマン構成の実際的手順 (ii)パラメータ空間全体の条件付きカバレッジを推定する診断。 我々はこの枠組みを「確率自由頻発的推論(lf2i)」と呼んでいる。 確率比のようなテスト統計を定義するあらゆる方法は、LF2I機械を利用して、固定パラメータ設定でモンテカルロの高価なサンプルを使わずに有効な信頼セットと診断を作成することができる。 パラメータ空間上のオッズ関数の最大化と積分を行う2つのテスト統計(acoreとbff)のパワーについて検討した。 本稿では,LF2Iの信頼性セットにおける誤りの原因を概説し,LF2Iのメリットと課題について論じる。

Many areas of science make extensive use of computer simulators that implicitly encode likelihood functions of complex systems. Classical statistical methods are poorly suited for these so-called likelihood-free inference (LFI) settings, particularly outside asymptotic and low-dimensional regimes. Although new machine learning methods, such as normalizing flows, have revolutionized the sample efficiency and capacity of LFI methods, it remains an open question whether they produce confidence sets with correct conditional coverage for small sample sizes. This paper unifies classical statistics with modern machine learning to present (i) a practical procedure for the Neyman construction of confidence sets with finite-sample guarantees of nominal coverage, and (ii) diagnostics that estimate conditional coverage over the entire parameter space. We refer to our framework as likelihood-free frequentist inference (LF2I). Any method that defines a test statistic, like the likelihood ratio, can leverage the LF2I machinery to create valid confidence sets and diagnostics without costly Monte Carlo samples at fixed parameter settings. We study the power of two test statistics (ACORE and BFF), which, respectively, maximize versus integrate an odds function over the parameter space. Our paper discusses the benefits and challenges of LF2I, with a breakdown of the sources of errors in LF2I confidence sets.
翻訳日:2023-04-10 15:50:43 公開日:2023-04-06
# 動的マルチモーダル核融合

Dynamic Multimodal Fusion ( http://arxiv.org/abs/2204.00102v2 )

ライセンス: Link先を確認
Zihui Xue, Radu Marculescu(参考訳) 深層マルチモーダル学習は近年大きな進歩を遂げている。 しかし、現在の融合アプローチは本質的に静的であり、異なるマルチモーダルデータの様々な計算要求を考慮せずに、同一の計算でマルチモーダル入力を処理し融合する。 本研究では,マルチモーダルデータを適応的に融合し,推論中にデータ依存のフォワードパスを生成する新しい手法であるdynamic multimodal fusion (dynmm)を提案する。 そこで本研究では,マルチモーダル機能に基づくオンザフライのモダリティレベルあるいはフュージョンレベルの決定と,計算効率を高めるリソース認識損失関数を提案する。 様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。 例えば、dynmmは計算コストを46.5%削減でき(cmu-moseiセンチメント分析)、静的融合アプローチと比較して21%以上のセーブ(nyu depth v2 semantic segmentation)でセグメンテーション性能を向上させることができる。 我々は,本手法が動的マルチモーダルネットワーク設計への新たな方向性を開き,幅広いマルチモーダルタスクに応用できると考えている。

Deep multimodal learning has achieved great progress in recent years. However, current fusion approaches are static in nature, i.e., they process and fuse multimodal inputs with identical computation, without accounting for diverse computational demands of different multimodal data. In this work, we propose dynamic multimodal fusion (DynMM), a new approach that adaptively fuses multimodal data and generates data-dependent forward paths during inference. To this end, we propose a gating function to provide modality-level or fusion-level decisions on-the-fly based on multimodal features and a resource-aware loss function that encourages computational efficiency. Results on various multimodal tasks demonstrate the efficiency and wide applicability of our approach. For instance, DynMM can reduce the computation costs by 46.5% with only a negligible accuracy loss (CMU-MOSEI sentiment analysis) and improve segmentation performance with over 21% savings in computation (NYU Depth V2 semantic segmentation) when compared with static fusion approaches. We believe our approach opens a new direction towards dynamic multimodal network design, with applications to a wide range of multimodal tasks.
翻訳日:2023-04-10 15:41:51 公開日:2023-04-06
# 価値の異文化間差異に対する事前学習言語モデルの探索

Probing Pre-Trained Language Models for Cross-Cultural Differences in Values ( http://arxiv.org/abs/2203.13722v2 )

ライセンス: Link先を確認
Arnav Arora, Lucie-Aim\'ee Kaffee, Isabelle Augenstein(参考訳) 言語は人々が持つ社会的、文化的、政治的価値に関する情報を埋め込む。 以前の研究は、事前学習言語モデル(PTLM)で符号化された社会的および潜在的に有害なバイアスを調査してきた。 しかし、これらのモデルに埋め込まれた価値が文化によってどのように変化するのか、体系的な研究は行われていない。 本稿では,これらのモデルに文化のどの価値が組み込まれているのか,既存の理論や異文化間価値調査と一致しているかを調査するためのプローブを紹介する。 PTLMは文化全体における価値の差異を捉えているが、確立した価値調査と弱く一致している。 本稿では,異文化間におけるミスアライメントモデルの利用と,PTLMと価値調査の整合性について論じる。

Language embeds information about social, cultural, and political values people hold. Prior work has explored social and potentially harmful biases encoded in Pre-Trained Language models (PTLMs). However, there has been no systematic study investigating how values embedded in these models vary across cultures. In this paper, we introduce probes to study which values across cultures are embedded in these models, and whether they align with existing theories and cross-cultural value surveys. We find that PTLMs capture differences in values across cultures, but those only weakly align with established value surveys. We discuss implications of using mis-aligned models in cross-cultural settings, as well as ways of aligning PTLMs with value surveys.
翻訳日:2023-04-10 15:41:29 公開日:2023-04-06
# 共変量をもつネットワークに対するベイズコミュニティ検出

Bayesian community detection for networks with covariates ( http://arxiv.org/abs/2203.02090v2 )

ライセンス: Link先を確認
Luyi Shen, Arash Amini, Nathaniel Josephs, and Lizhen Lin(参考訳) 様々な分野におけるネットワークデータの普及と、それらから有用な情報を抽出する必要性が、関連するモデルやアルゴリズムの急速な発展を促している。 ネットワークデータを用いた様々な学習タスクのうち、コミュニティ検出、ノードクラスタの発見、あるいは"コミュニティ"は、科学コミュニティで最も注目を集めている。 多くの現実世界のアプリケーションでは、ネットワークデータは、理想的には推論に活用されるべきノードまたはエッジ共変数の形で追加情報を伴うことが多い。 本稿では,共変量付きネットワークのコミュニティ検出に関する限定的な文献を,共変量依存ランダム分割を用いたベイズ確率ブロックモデルを提案する。 前述したように、共変数はクラスタメンバシップの事前分布を指定することで明示的に表現されます。 我々のモデルは、コミュニティメンバーシップを含む全てのパラメータ推定の不確かさをモデル化する柔軟性を持っている。 重要なのは、既存の手法の多くと異なり、我々のモデルは、後から推測することでコミュニティの数を学習する能力を持っています。 我々のモデルは,分類的・連続的共変量を持つ高密度ネットワークとスパースネットワークの両方において,コミュニティ検出に適用でき,MCMCアルゴリズムは良好な混合特性を有する。 提案手法は,既存のモデルよりも優れた性能を,総合シミュレーション実験と2つの実データへの適用により実証する。

The increasing prevalence of network data in a vast variety of fields and the need to extract useful information out of them have spurred fast developments in related models and algorithms. Among the various learning tasks with network data, community detection, the discovery of node clusters or "communities," has arguably received the most attention in the scientific community. In many real-world applications, the network data often come with additional information in the form of node or edge covariates that should ideally be leveraged for inference. In this paper, we add to a limited literature on community detection for networks with covariates by proposing a Bayesian stochastic block model with a covariate-dependent random partition prior. Under our prior, the covariates are explicitly expressed in specifying the prior distribution on the cluster membership. Our model has the flexibility of modeling uncertainties of all the parameter estimates including the community membership. Importantly, and unlike the majority of existing methods, our model has the ability to learn the number of the communities via posterior inference without having to assume it to be known. Our model can be applied to community detection in both dense and sparse networks, with both categorical and continuous covariates, and our MCMC algorithm is very efficient with good mixing properties. We demonstrate the superior performance of our model over existing models in a comprehensive simulation study and an application to two real datasets.
翻訳日:2023-04-10 15:40:05 公開日:2023-04-06
# pssmと単語埋め込みを用いたインフルエンザaウイルス宿主の予測

Predicting Influenza A Viral Host Using PSSM and Word Embeddings ( http://arxiv.org/abs/2201.01140v3 )

ライセンス: Link先を確認
Yanhua Xu, Dominik Wojtczak(参考訳) インフルエンザウイルスの急速な変異は公衆の健康を脅かす。 異なる宿主を持つウイルスの再配列は致命的なパンデミックを引き起こす可能性がある。 しかし、インフルエンザウイルスが異なる種間を循環できるため、感染の間または感染後のウイルスの原宿主を検出することは困難である。 したがって、ウイルス宿主の早期かつ迅速な検出は、ウイルスのさらなる拡散を減少させるのに役立つ。 我々は,位置特異的スコアリングマトリクス(pssm)に由来する特徴を持つ様々な機械学習モデルを用いて,ウイルスの起源を推定するために,単語埋め込みと単語エンコーディングから学習した特徴について述べる。 その結果,PSSMモデルの性能は95%程度に達し,F1は約96%であった。 単語埋め込みモデルを用いて得られたMCCは約96%であり、F1は約97%である。

The rapid mutation of the influenza virus threatens public health. Reassortment among viruses with different hosts can lead to a fatal pandemic. However, it is difficult to detect the original host of the virus during or after an outbreak as influenza viruses can circulate between different species. Therefore, early and rapid detection of the viral host would help reduce the further spread of the virus. We use various machine learning models with features derived from the position-specific scoring matrix (PSSM) and features learned from word embedding and word encoding to infer the origin host of viruses. The results show that the performance of the PSSM-based model reaches the MCC around 95%, and the F1 around 96%. The MCC obtained using the model with word embedding is around 96%, and the F1 is around 97%.
翻訳日:2023-04-10 15:39:45 公開日:2023-04-06
# 自己教師付き学習のためのオブジェクトアウェア・クロッピング

Object-Aware Cropping for Self-Supervised Learning ( http://arxiv.org/abs/2112.00319v2 )

ライセンス: Link先を確認
Shlok Mishra, Anshul Shah, Ankan Bansal, Abhyuday Jagannatha, Janit Anjaria, Abhishek Sharma, David Jacobs, Dilip Krishnan(参考訳) 近年の自己教師付き学習の成功の核となる要素は、自己教師付き学習におけるポジティブな視点として使用される画像のサブリージョンを選択するクロップデータ拡張である。 基礎となる前提は、与えられた画像のランダムに切り取られた領域が、学習された表現がキャプチャする対象に関する情報を共有することである。 この仮定は、主に大きな中心オブジェクトがあるimagenetのようなデータセットで満たされており、これはフルイメージのランダムな作物に存在する可能性が高い。 しかし、OpenImagesやCOCOなどの他のデータセットでは、実際の未処理データの表現がより多いため、画像内には通常、複数の小さなオブジェクトが存在する。 本研究では,通常のランダムトリミングに基づく自己教師型学習が,そのようなデータセット上では不十分であることを示す。 対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。 これにより、モデルはオブジェクトとシーンレベルのセマンティック表現の両方を学ぶことができる。 オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。 例えば、OpenImagesでは、MoCo-v2ベースの事前学習によるランダムなシーンレベルの作付けよりも8.8%mAPの改善を実現している。 また,COCOとPASCAL-VOCのオブジェクト検出とセグメンテーションタスクにおいて,最先端の自己教師型学習手法よりも大幅な改善が見られた。 私たちのアプローチは効率的でシンプルで汎用的で、既存のコントラストと非一貫性の学習フレームワークで使用できます。

A core component of the recent success of self-supervised learning is cropping data augmentation, which selects sub-regions of an image to be used as positive views in the self-supervised loss. The underlying assumption is that randomly cropped and resized regions of a given image share information about the objects of interest, which the learned representation will capture. This assumption is mostly satisfied in datasets such as ImageNet where there is a large, centered object, which is highly likely to be present in random crops of the full image. However, in other datasets such as OpenImages or COCO, which are more representative of real world uncurated data, there are typically multiple small objects in an image. In this work, we show that self-supervised learning based on the usual random cropping performs poorly on such datasets. We propose replacing one or both of the random crops with crops obtained from an object proposal algorithm. This encourages the model to learn both object and scene level semantic representations. Using this approach, which we call object-aware cropping, results in significant improvements over scene cropping on classification and object detection benchmarks. For example, on OpenImages, our approach achieves an improvement of 8.8% mAP over random scene-level cropping using MoCo-v2 based pre-training. We also show significant improvements on COCO and PASCAL-VOC object detection and segmentation tasks over the state-of-the-art self-supervised learning approaches. Our approach is efficient, simple and general, and can be used in most existing contrastive and non-contrastive self-supervised learning frameworks.
翻訳日:2023-04-10 15:39:33 公開日:2023-04-06
# dnoized mdps: 世界そのものよりも優れた世界モデルを学ぶ

Denoised MDPs: Learning World Models Better Than the World Itself ( http://arxiv.org/abs/2206.15477v6 )

ライセンス: Link先を確認
Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian(参考訳) 信号とノイズを分離し、クリーンな抽象化で推論する能力は、知性にとって不可欠である。 この能力により、人間はあらゆるニュアンス要因を考慮せずに、現実世界のタスクを効率的に実行できる。 エージェントはどんな情報を安全にノイズとして捨てられるのか? 本研究は,自然界の情報を,制御可能性と報酬との関係に基づいて4種類に分類し,制御可能かつ報酬関連のある情報として有用な情報を定式化する。 この枠組みは、強化学習(RL)における表現学習における様々な先行研究によって取り除かれた種類情報を明確化し、特定のノイズ障害を明示的に判断する認知型MDPを学習する手法を提案する。 DeepMind Control Suite と RoboDesk の変種に関する大規模な実験は、政策最適化制御タスクだけでなく、関節位置回帰の非制御タスクにおいても、生の観測だけでなく、以前の作業よりも優れた性能を示す。

The ability to separate signal from noise, and reason with clean abstractions, is critical to intelligence. With this ability, humans can efficiently perform real world tasks without considering all possible nuisance factors.How can artificial agents do the same? What kind of information can agents safely discard as noises? In this work, we categorize information out in the wild into four types based on controllability and relation with reward, and formulate useful information as that which is both controllable and reward-relevant. This framework clarifies the kinds information removed by various prior work on representation learning in reinforcement learning (RL), and leads to our proposed approach of learning a Denoised MDP that explicitly factors out certain noise distractors. Extensive experiments on variants of DeepMind Control Suite and RoboDesk demonstrate superior performance of our denoised world model over using raw observations alone, and over prior works, across policy optimization control tasks as well as the non-control task of joint position regression.
翻訳日:2023-04-10 15:32:32 公開日:2023-04-06
# 極性分子の双極子相互作用によるロバストな核スピン絡み合い

Robust nuclear spin entanglement via dipolar interactions in polar molecules ( http://arxiv.org/abs/2205.00190v2 )

ライセンス: Link先を確認
Timur V. Tscherbul, Jun Ye, and Ana Maria Rey(参考訳) 電気双極子相互作用を用いた超低温の$^1\Sigma$および$^2\Sigma$極性分子の核および/または電子スピンの強絡状態のオンデマンド生成のための一般的なプロトコルを提案する。 スピン-1/2自由度をスピンレベルと回転分子レベルの組み合わせで符号化することにより、電気双極子相互作用に対する効率的な磁気制御により、IsingとXXZ形式の効果的なスピン-スピン相互作用の出現を理論的に実証する。 これらの相互作用を用いて、長時間のクラスタとスピン状態を生成する方法を示す。

We propose a general protocol for on-demand generation of robust entangled states of nuclear and/or electron spins of ultracold $^1\Sigma$ and $^2\Sigma$ polar molecules using electric dipolar interactions. By encoding a spin-1/2 degree of freedom in a combined set of spin and rotational molecular levels, we theoretically demonstrate the emergence of effective spin-spin interactions of the Ising and XXZ forms, enabled by efficient magnetic control over electric dipolar interactions. We show how to use these interactions to create long-lived cluster and squeezed spin states.
翻訳日:2023-04-10 15:30:17 公開日:2023-04-06
# ギャップレス超流動体または超伝導体の創発的$U(1)$対称性と$\tau$-$\sigma$双対性

Emergent $U(1)$ Symmetries and $\tau$-$\sigma$ Duality in Gapless Superfluids or Superconductors ( http://arxiv.org/abs/2208.10486v2 )

ライセンス: Link先を確認
Fei Zhou(参考訳) 超流動は、凝縮のため通常の$U(1)$対称性を自発的に破る。 本論では,創発的 u(1)$ 対称性の6つのクラスを,ギャップのない位相超流動の広いクラス(安定相に属するか量子臨界である)の赤外限界に自然に現れることを示す。 我々が検討したギャップレス状態において、創発的$U(1)$対称性群は、$SO(4)$群に代数的に同型な$Spin(4)=SU(2) \otimes SU(2)$群に埋め込まれる。 対称性に関連するすべての$U(1)$の電荷は、$SU(2)$のスピン群またはそれと同値の下でさらに不変であるが、常に$SO(3,1)$群のより高い時空ローレンツ対称性を破る。 創発的 $u(1)$ 対称性は、相互作用が十分に強く、結果として強い結合状態が完全にガッピングされる場合に限り、さらに自発的に破られる。 しかし、状態が空隙のない状態であれば、空隙のないローレンツ対称の反部分に比べて、より低い時空対称性を示す可能性があるにもかかわらず、創発的な u(1)$ 対称性は常に存在する。 我々の関心の限界において、ローレンツ対称性の有無にかかわらず、すべての空隙のない実フェルミオンを特定し、これらは全て赤外限界における創発的な$U(1)$対称性を示し、赤外における創発的な$U(1)$対称性は、相互作用するギャップのない超流動状態や超伝導状態の幅広いクラスにおいて固有のものであり、通常は赤外安定な固定点が創発的特性を規定する高次元においてよく定義されると主張する。

A superfluid spontaneously breaks the usual $U(1)$ symmetry because of condensation. In this article, we illustrate six classes of emergent $U(1)$ symmetries naturally appear in infrared limits in a broad class of gapless topological superfluids (that either belong to a stable phase or are quantum critical). In gapless states we have considered, emergent $U(1)$ symmetry groups are embedded in an $Spin(4)=SU(2) \otimes SU(2)$ group that are algebraically isomorphic to an $SO(4)$ group. All $U(1)$ charges associated with symmetries are further invariant under an $SU(2)$ spin group or an equivalent of it but always break pre-existing higher space-time Lorentz symmetry of $SO(3,1)$ group. Emergent $U(1)$ symmetries can be further spontaneously broken only if interactions are strong enough and resultant strong coupling states become fully gapped. However if states remain gapless, emergent $U(1)$ symmetries are always present, despite that these states may exhibit much lower space-time symmetries compared to their weakly interacting gapless Lorentz symmetric counter parts. In the limit of our interests, we have identified all possible gapless real fermions with or without Lorentz symmetries and find that they all display emergent $U(1)$ symmetries in the infrared limit.We argue emergent $U(1)$ symmetries in infrared are intrinsic in a broad class of interacting gapless superfluid or superconducting states and are typically well defined in high dimensions where there are infrared stable fixed points dictating emergent properties.
翻訳日:2023-04-10 15:22:52 公開日:2023-04-06
# Retweet-BERT: 言語特徴とソーシャルネットワーク上の情報拡散を用いた政治的学習検出

Retweet-BERT: Political Leaning Detection Using Language Features and Information Diffusion on Social Networks ( http://arxiv.org/abs/2207.08349v4 )

ライセンス: Link先を確認
Julie Jiang, Xiang Ren, Emilio Ferrara(参考訳) ソーシャルメディア利用者の政治的傾きを見積もるのは、ソーシャルメディア消費の増加を考えると、より困難な問題である。 Retweet-BERTは、シンプルでスケーラブルなモデルで、Twitterユーザーの政治的傾向を推定する。 Retweet-BERTは、retweetネットワーク構造とユーザのプロファイル記述に使用される言語を活用する。 我々の仮定は、同様のイデオロギーを共有する人々の間で、ネットワークや言語学のパターンがホモフィリーであることに由来する。 Retweet-BERTは、他の最先端のベースラインと競合するパフォーマンスを示し、最近の2つのTwitterデータセット(COVID-19データセットと2020年の米国大統領選挙データセット)で96%-97%のマクロF1を達成した。 また,トレーニングデータにないユーザに対して,Retweet-BERTの性能検証を行う。 最後に、covid-19のケーススタディで、twitterに政治エコーチャンバーが存在することを示し、主に右利きユーザーの間で存在していることを示す。 私たちのコードはオープンソースで、データは公開されています。

Estimating the political leanings of social media users is a challenging and ever more pressing problem given the increase in social media consumption. We introduce Retweet-BERT, a simple and scalable model to estimate the political leanings of Twitter users. Retweet-BERT leverages the retweet network structure and the language used in users' profile descriptions. Our assumptions stem from patterns of networks and linguistics homophily among people who share similar ideologies. Retweet-BERT demonstrates competitive performance against other state-of-the-art baselines, achieving 96%-97% macro-F1 on two recent Twitter datasets (a COVID-19 dataset and a 2020 United States presidential elections dataset). We also perform manual validation to validate the performance of Retweet-BERT on users not in the training data. Finally, in a case study of COVID-19, we illustrate the presence of political echo chambers on Twitter and show that it exists primarily among right-leaning users. Our code is open-sourced and our data is publicly available.
翻訳日:2023-04-10 15:21:34 公開日:2023-04-06
# 連続条件付き映像予測のための統一モデル

A unified model for continuous conditional video prediction ( http://arxiv.org/abs/2210.05810v2 )

ライセンス: Link先を確認
Xi Ye, Guillaume-Alexandre Bilodeau(参考訳) video future frame predictionやvideo frame interpolationのような異なる条件付きビデオ予測タスクは、共通する多くの特性を共有しているにもかかわらず、通常タスク関連モデルによって解決される。 さらに、ほとんどの条件付きビデオ予測モデルは離散予測しか達成できない。 本稿では,これら2つの課題を同時に解決する統一モデルを提案する。 入力された時空間座標を、コンテキスト時空間座標とコンテキストピクセル値が与えられた対象画素値にマッピングするニューラルプロセスとして条件付きビデオ予測を定式化できることを示す。 具体的には、座標とコンテキストピクセルの特徴の暗黙的なニューラルネットワーク表現を、トランスフォーマティブベースの非自己回帰条件付きビデオ予測モデルに供給する。 タスク固有モデルは、複数のデータセット上での映像フレーム予測とビデオ補間において、以前の作業より優れている。 重要なことに、モデルは任意の高いフレームレート、すなわち連続的な予測で補間または予測することができる。 ソースコードは \url{https://npvp.github.io} で入手できる。

Different conditional video prediction tasks, like video future frame prediction and video frame interpolation, are normally solved by task-related models even though they share many common underlying characteristics. Furthermore, almost all conditional video prediction models can only achieve discrete prediction. In this paper, we propose a unified model that addresses these two issues at the same time. We show that conditional video prediction can be formulated as a neural process, which maps input spatio-temporal coordinates to target pixel values given context spatio-temporal coordinates and context pixel values. Specifically, we feed the implicit neural representation of coordinates and context pixel features into a Transformer-based non-autoregressive conditional video prediction model. Our task-specific models outperform previous work for video future frame prediction and video interpolation on multiple datasets. Importantly, the model is able to interpolate or predict with an arbitrary high frame rate, i.e., continuous prediction. Our source code is available at \url{https://npvp.github.io}.
翻訳日:2023-04-10 15:13:25 公開日:2023-04-06
# 4H-SiCにおける単一浅いシリコン空孔中心のキャラクタリゼーション

Characterization of single shallow silicon-vacancy centers in 4H-SiC ( http://arxiv.org/abs/2209.12722v2 )

ライセンス: Link先を確認
Harpreet Singh, Mario Alex Hollberg, Misagh Ghezellou, Jawad Ul-Hassan, Florian Kaiser and Dieter Suter(参考訳) 浅い負電荷のシリコン空洞中心は、磁気量子センシングやその他の量子応用に応用されている。 表面付近(100nm)の空隙中心はスピン緩和率と光スピン偏光率が異なるため、光学的に検出された磁気共鳴(odmr)信号に影響を及ぼす。 そのため、これらの中心を特徴付けることが不可欠である。 ここでは、そのような中心の関連するスピン特性を示す。 odmrは最大6パーセントのコントラストを持ち,最先端技術よりも優れているため,ほとんどのセンシングアプリケーションで関連するゼロフィールドスプリットを決定することができた。 また、信号が単一中心から発生したことを検証し、異なる電子状態間の遷移率を抽出するために強度相関データも提示する。

Shallow negatively charged silicon-vacancy centers have applications in magnetic quantum sensing and other quantum applications. Vacancy centers near the surface (within 100 nm) have different spin relaxation rates and optical spin polarization, affecting the optically detected magnetic resonance (ODMR) signal. This makes it essential to characterize these centers. Here we present the relevant spin properties of such centers. ODMR with a contrast of up to 6 %, which is better than the state of the art, allowed us to determine the zero field splitting, which is relevant for most sensing applications. We also present intensity-correlation data to verify that the signal originates from a single center and to extract transition rates between different electronic states.
翻訳日:2023-04-10 15:13:11 公開日:2023-04-06
# 実演からの高速長寿命適応逆強化学習

Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations ( http://arxiv.org/abs/2209.11908v6 )

ライセンス: Link先を確認
Letian Chen, Sravan Jayanthi, Rohan Paleja, Daniel Martin, Viacheslav Zakharov, Matthew Gombolay(参考訳) 実証から学ぶ(LfD)アプローチは、エンドユーザーに対して、望ましい振る舞いのデモを通じてロボットに新しいタスクを教えること、ロボット工学へのアクセスを民主化する。 しかしながら、現在のLfDフレームワークは、異種人間のデモへの迅速な適応や、ユビキタスなロボティクスアプリケーションへの大規模展開ができない。 本稿では,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。 提案手法は,学習した戦略を活用して,新しいデモンストレーションに迅速に適応するためのポリシミックスを構築し,エンドユーザーパーソナライズを迅速に行えるようにし,(2)デモ全体にわたって共通知識を蒸留し,正確なタスク推論を実現し,(3)生涯展開に必要な場合にのみモデルを拡張し,ポリシミックスを通じてすべての行動を近似可能な,簡潔なプロトタイプ戦略のセットを維持する。 flairが適応性(不均質なユーザ固有のタスク選択に適応するロボット)、効率性(サンプル効率の高い適応を実現するロボット)、スケーラビリティ(ハイパフォーマンスを維持しながらデモ数とサブリニアに成長するモデル)を達成することを実証的に検証する。 FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、ポリシーミックスを使用したデモモデリングに必要なエピソードが平均78%減少した。 最後に,テーブルテニスにおけるFLAIRの成功を実証し,FLAIRをより高いタスク (p<.05) とパーソナライズ性能 (p<.05) で評価した。

Learning from Demonstration (LfD) approaches empower end-users to teach robots novel tasks via demonstrations of the desired behaviors, democratizing access to robotics. However, current LfD frameworks are not capable of fast adaptation to heterogeneous human demonstrations nor the large-scale deployment in ubiquitous robotics applications. In this paper, we propose a novel LfD framework, Fast Lifelong Adaptive Inverse Reinforcement learning (FLAIR). Our approach (1) leverages learned strategies to construct policy mixtures for fast adaptation to new demonstrations, allowing for quick end-user personalization, (2) distills common knowledge across demonstrations, achieving accurate task inference; and (3) expands its model only when needed in lifelong deployments, maintaining a concise set of prototypical strategies that can approximate all behaviors via policy mixtures. We empirically validate that FLAIR achieves adaptability (i.e., the robot adapts to heterogeneous, user-specific task preferences), efficiency (i.e., the robot achieves sample-efficient adaptation), and scalability (i.e., the model grows sublinearly with the number of demonstrations while maintaining high performance). FLAIR surpasses benchmarks across three control tasks with an average 57% improvement in policy returns and an average 78% fewer episodes required for demonstration modeling using policy mixtures. Finally, we demonstrate the success of FLAIR in a table tennis task and find users rate FLAIR as having higher task (p<.05) and personalization (p<.05) performance.
翻訳日:2023-04-10 15:12:59 公開日:2023-04-06
# エゴセントリックビデオタスク翻訳

Egocentric Video Task Translation ( http://arxiv.org/abs/2212.06301v2 )

ライセンス: Link先を確認
Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani(参考訳) 異なるビデオ理解タスクは通常、独立して扱われ、異なるタイプのキュレートされたデータ(例えば、あるデータセットでスポーツを分類し、別のデータセットで動物を追跡するなど)でも扱われる。 しかし、ウェアラブルカメラでは、周囲の世界に携わる人々の没入的な自我中心の視点は、手動操作、空間内のナビゲーション、人間と人間のインタラクションといった、人の目標によって連続的に展開されるビデオ理解タスクの相互接続の網を提示する。 より統一的なアプローチが必要だ、と私たちは主張する。 我々はegotask translation (egot2) を提案する。これは別々のタスクに最適化されたモデルの集合を取り込み、それらのアウトプットを変換して、それらのいずれかまたはすべてのパフォーマンスを一度に向上させる。 従来のトランスファーやマルチタスク学習とは異なり、egot2のflippedデザインでは、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、異種タスク間のシナジーをキャプチャし、タスク競合を緩和する。 Ego4Dの幅広いビデオタスクにおけるモデルを実証し、既存の転送パラダイムよりも優位性を示し、Ego4D 2022ベンチマークの4つの課題で上位にランクされた結果を得る。

Different video understanding tasks are typically treated in isolation, and even with distinct types of curated data (e.g., classifying sports in one dataset, tracking animals in another). However, in wearable cameras, the immersive egocentric perspective of a person engaging with the world around them presents an interconnected web of video understanding tasks -- hand-object manipulations, navigation in the space, or human-human interactions -- that unfold continuously, driven by the person's goals. We argue that this calls for a much more unified approach. We propose EgoTask Translation (EgoT2), which takes a collection of models optimized on separate tasks and learns to translate their outputs for improved performance on any or all of them at once. Unlike traditional transfer or multi-task learning, EgoT2's flipped design entails separate task-specific backbones and a task translator shared across all tasks, which captures synergies between even heterogeneous tasks and mitigates task competition. Demonstrating our model on a wide array of video tasks from Ego4D, we show its advantages over existing transfer paradigms and achieve top-ranked results on four of the Ego4D 2022 benchmark challenges.
翻訳日:2023-04-10 15:05:31 公開日:2023-04-06
# ラベルなしデータによるバックドアクリーニング

Backdoor Cleansing with Unlabeled Data ( http://arxiv.org/abs/2211.12044v3 )

ライセンス: Link先を確認
Lu Pang, Tao Sun, Haibin Ling, Chao Chen(参考訳) ディープニューラルネットワーク(DNN)の計算需要が増大しているため、企業や組織はトレーニングプロセスをアウトソースし始めている。 しかし、外部で訓練されたDNNはバックドア攻撃を受ける可能性がある。 このような攻撃、すなわち不審なモデルを後処理してバックドアの動作を緩和し、クリーン入力に対する通常の予測能力は妥協されないようにすることが重要である。 バックドアの異常な挙動を取り除くために、既存の手法は主にラベル付きクリーンサンプルに頼っている。 しかし、トレーニングデータはエンドユーザーには利用できないことが多いため、このような要件は非現実的かもしれない。 本稿では,そのような障壁を回避する可能性を検討する。 トレーニングラベルを必要とせず,新たな防御手法を提案する。 本手法は, 層単位の重み付け再初期化と知識蒸留を慎重に設計することにより, 正常な動作において, 疑わしいネットワークのバックドア挙動を効果的に浄化することができる。 実験では,ラベルを使わずにトレーニングした手法が,ラベルを用いた最新の防御手法とほぼ同等であることを示す。 また, 分配外データにおいても, 有望な防御結果が得られている。 この方法はとても実用的です。 コードはhttps://github.com/luluppang/bcu.com/。

Due to the increasing computational demand of Deep Neural Networks (DNNs), companies and organizations have begun to outsource the training process. However, the externally trained DNNs can potentially be backdoor attacked. It is crucial to defend against such attacks, i.e., to postprocess a suspicious model so that its backdoor behavior is mitigated while its normal prediction power on clean inputs remain uncompromised. To remove the abnormal backdoor behavior, existing methods mostly rely on additional labeled clean samples. However, such requirement may be unrealistic as the training data are often unavailable to end users. In this paper, we investigate the possibility of circumventing such barrier. We propose a novel defense method that does not require training labels. Through a carefully designed layer-wise weight re-initialization and knowledge distillation, our method can effectively cleanse backdoor behaviors of a suspicious network with negligible compromise in its normal behavior. In experiments, we show that our method, trained without labels, is on-par with state-of-the-art defense methods trained using labels. We also observe promising defense results even on out-of-distribution data. This makes our method very practical. Code is available at: https://github.com/luluppang/BCU.
翻訳日:2023-04-10 15:03:23 公開日:2023-04-06
# PINTO: Prompt-Generated Rationals を用いた忠実な言語推論

PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales ( http://arxiv.org/abs/2211.01562v3 )

ライセンス: Link先を確認
Peifeng Wang, Aaron Chan, Filip Ilievski, Muhao Chen, Xiang Ren(参考訳) ニューラルネットワークモデル(LM)は、事前訓練されたパラメータに符号化された潜在知識を利用することで、様々な言語ベースの推論タスクにおいて印象的な結果を得た。 この推論プロセスをより明確にするために、最近の研究は、LMの内部知識の合理化を訓練したり、自由テキストの合理性を生成するように促したりすることで、同じLMまたは別個の理性理論によるタスク予測を導くことができる。 しかし、LMの合理化には高価な合理化アノテーションや計算が必要であり、それらの合理化がLMのタスク性能を改善したり、LMの意思決定を忠実に反映することを保証することはない。 本稿では,即時学習による合理化を行うLMパイプラインであるPINTOを提案し,反実正則化による合理化を忠実に行うことを学ぶ。 まず、PINTOは、凍結した合理化LMにフリーテキスト論理を生成することによって、タスク入力に適した推論過程をマップする。 第二に、pintoの推論lmを微調整し、生成した論理を文脈としてタスクを解き、一方、論理が摂動した場合の自信の薄い予測を出力するように正規化する。 4つのデータセットでPINTOはLMの一般化能力を大幅に向上し,分布内および分布外の両方で高い性能を示すことを示した。 また,PINTOの合理性は,競争ベースラインによって生成されるものよりもタスク予測に忠実であることがわかった。

Neural language models (LMs) have achieved impressive results on various language-based reasoning tasks by utilizing latent knowledge encoded in their own pretrained parameters. To make this reasoning process more explicit, recent works retrieve a rationalizing LM's internal knowledge by training or prompting it to generate free-text rationales, which can be used to guide task predictions made by either the same LM or a separate reasoning LM. However, rationalizing LMs require expensive rationale annotation and/or computation, without any assurance that their generated rationales improve LM task performance or faithfully reflect LM decision-making. In this paper, we propose PINTO, an LM pipeline that rationalizes via prompt-based learning, and learns to faithfully reason over rationales via counterfactual regularization. First, PINTO maps out a suitable reasoning process for the task input by prompting a frozen rationalizing LM to generate a free-text rationale. Second, PINTO's reasoning LM is fine-tuned to solve the task using the generated rationale as context, while regularized to output less confident predictions when the rationale is perturbed. Across four datasets, we show that PINTO significantly improves the generalization ability of the reasoning LM, yielding higher performance on both in-distribution and out-of-distribution test sets. Also, we find that PINTO's rationales are more faithful to its task predictions than those generated by competitive baselines.
翻訳日:2023-04-10 15:02:33 公開日:2023-04-06
# Neural Shape Compiler: テキスト、ポイントクラウド、プログラム間の変換のための統一フレームワーク

Neural Shape Compiler: A Unified Framework for Transforming between Text, Point Cloud, and Program ( http://arxiv.org/abs/2212.12952v2 )

ライセンス: Link先を確認
Tiange Luo, Honglak Lee, Justin Johnson(参考訳) 3次元形状は、低レベルの幾何学から部分ベースの階層から言語への相補的な抽象化を持ち、異なるレベルの情報を伝える。 本稿では,一対の形状抽象化を変換する統一フレームワークを提案する。 $\textit{Text}$ $\Longleftrightarrow$ $\textit{Point Cloud}$ $\Longleftrightarrow$ $\textit{Program}$。 抽象変換を条件付き生成プロセスとしてモデル化するために,$\textbf{neural shape compiler}$を提案する。 3つの抽象型の3次元形状を統一された離散形状コードに変換し、提案された$\textit{ShapeCode Transformer}$を通じて各形状コードを他の抽象型のコードに変換する。 point cloudコードは、$\textit{point}$vqvaeによってクラスに依存しない方法で取得される。 Text2Shape、ShapeGlot、ABO、Genre、Program Syntheticのデータセットでは、Neural Shape Compilerは$\textit{Text}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Program}$, Point Cloud Completionタスクの長所を示している。 さらに、Neural Shape Compilerは、すべての異種データとタスクを共同でトレーニングすることの恩恵を受ける。

3D shapes have complementary abstractions from low-level geometry to part-based hierarchies to languages, which convey different levels of information. This paper presents a unified framework to translate between pairs of shape abstractions: $\textit{Text}$ $\Longleftrightarrow$ $\textit{Point Cloud}$ $\Longleftrightarrow$ $\textit{Program}$. We propose $\textbf{Neural Shape Compiler}$ to model the abstraction transformation as a conditional generation process. It converts 3D shapes of three abstract types into unified discrete shape code, transforms each shape code into code of other abstract types through the proposed $\textit{ShapeCode Transformer}$, and decodes them to output the target shape abstraction. Point Cloud code is obtained in a class-agnostic way by the proposed $\textit{Point}$VQVAE. On Text2Shape, ShapeGlot, ABO, Genre, and Program Synthetic datasets, Neural Shape Compiler shows strengths in $\textit{Text}$ $\Longrightarrow$ $\textit{Point Cloud}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Text}$, $\textit{Point Cloud}$ $\Longrightarrow$ $\textit{Program}$, and Point Cloud Completion tasks. Additionally, Neural Shape Compiler benefits from jointly training on all heterogeneous data and tasks.
翻訳日:2023-04-10 14:53:55 公開日:2023-04-06
# 離散MCMCを用いたタンパク質のプラグ&プレイによる進化

Plug & Play Directed Evolution of Proteins with Gradient-based Discrete MCMC ( http://arxiv.org/abs/2212.09925v2 )

ライセンス: Link先を確認
Patrick Emami, Aidan Perreault, Jeffrey Law, David Biagioni, Peter C. St. John(参考訳) 機械学習に基づくタンパク質工学の長年の目標は、既知のタンパク質の機能を改善する新しい突然変異の発見を加速することである。 タンパク質言語モデルや配列からタンパク質機能を予測する教師なしモデルなど,さまざまな教師なしモデルの混合とマッチングを支援する,サイリコのタンパク質進化のためのサンプリングフレームワークを提案する。 これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。 我々のフレームワークは、個別のタンパク質空間に直接分布する専門家の製品を構築することによって、モデル微調整や再訓練なしにこれを実現する。 古典的指向進化の典型であるブルート力探索やランダムサンプリングに代えて、グラデーションを用いた高速MCMCサンプリングを導入し、有望な突然変異を提案する。 シリコでは,650mパラメータのタンパク質言語モデルを含む,さまざまな事前学習された非教師なしモデルを対象に,幅広い適応環境における進化実験を実施した。 本研究は, 野生型タンパク質から複数の変異を推定し, 進化可能性の高い変異を効率よく発見できることを実証し, 機械学習に基づくタンパク質工学の実践的, 効果的な新しいパラダイムを提案できることを示す。

A long-standing goal of machine-learning-based protein engineering is to accelerate the discovery of novel mutations that improve the function of a known protein. We introduce a sampling framework for evolving proteins in silico that supports mixing and matching a variety of unsupervised models, such as protein language models, and supervised models that predict protein function from sequence. By composing these models, we aim to improve our ability to evaluate unseen mutations and constrain search to regions of sequence space likely to contain functional proteins. Our framework achieves this without any model fine-tuning or re-training by constructing a product of experts distribution directly in discrete protein space. Instead of resorting to brute force search or random sampling, which is typical of classic directed evolution, we introduce a fast MCMC sampler that uses gradients to propose promising mutations. We conduct in silico directed evolution experiments on wide fitness landscapes and across a range of different pre-trained unsupervised models, including a 650M parameter protein language model. Our results demonstrate an ability to efficiently discover variants with high evolutionary likelihood as well as estimated activity multiple mutations away from a wild type protein, suggesting our sampler provides a practical and effective new paradigm for machine-learning-based protein engineering.
翻訳日:2023-04-10 14:53:16 公開日:2023-04-06
# 時間依存ハミルトニアンに対する最小4次トロッタライズ式

Minimum Fourth-Order Trotterization Formula for a Time-Dependent Hamiltonian ( http://arxiv.org/abs/2212.06788v2 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Asir Abrar, Isaac L. Chuang, Sho Sugiura(参考訳) 時間プロパゲータ $e^{\delta t A}$ for duration $\delta t$ が2つの非可換部分 $A=X+Y$ からなるとき、トロッタ化はプロパゲータを約$X$ と $Y$ の指数関数の積に分解する。 量子コンピュータや古典コンピュータでは様々なトロタライズ公式が使われているが、時間依存のジェネレータ$Aでトロタライズを行う場合はあまり知られていない。 (t)$。 その困難さは、プロパゲーターが時間順序指数 $\mathcal{T}\exp(\int_{\mu-\delta t/2}^{\mu+\delta t/2}A となることである。 (s)ds)$ は二階式以上である。 ここに、$aで (t)時間依存係数$Aの2つの演算子$X$と$Y$の和で与えられる$ (t) = x (t)X + y (t)Y$、誤差が$O(\delta t^5)$である4階トロッター化式を得る。 この公式は、x$ と y$ の7つの指数から成り、指数関数が 7 未満の4階の対数化公式は存在しないことを証明している。 そのエラーは、時間に依存しない公式で知られている$\gamma_5$と、$aの時間依存に固有の新しいコントリビューション$\upsilon_5$である。 (t)$。 最後に, ハミルトニアン検定では, 11個の指数関数を含む時依存の鈴木式ほど誤差が小さいことを数値的に示す。

When a time propagator $e^{\delta t A}$ for duration $\delta t$ consists of two noncommuting parts $A=X+Y$, Trotterization approximately decomposes the propagator into a product of exponentials of $X$ and $Y$. Various Trotterization formulas have been utilized in quantum and classical computers, but much less is known for the Trotterization with the time-dependent generator $A(t)$. Its difficulty is that the propagator becomes a time-ordered exponential $\mathcal{T}\exp(\int_{\mu-\delta t/2}^{\mu+\delta t/2}A(s)ds)$ for more than the second-order formula. Here, for $A(t)$ given by the sum of two operators $X$ and $Y$ with time-dependent coefficients $A(t) = x(t) X + y(t) Y$, we obtain a fourth-order Trotterization formula, whose error is $O(\delta t^5)$. The formula consists of seven exponentials of $X$ and $Y$, and we prove that there is no fourth-order Trotterization formula with fewer than seven exponentials. Its error consists of the contribution $\Gamma_5$ known for the time-independent formula plus a new contribution $\Upsilon_5$ which is intrinsic to the time dependence of $A(t)$. Finally, we numerically demonstrate that for the Hamiltonian tested our formula has errors as small as the time-dependent fourth-order Suzuki formula involving eleven exponentials.
翻訳日:2023-04-10 14:52:54 公開日:2023-04-06
# レグレッション・水平政策グラディエントの観点からのLQR制御の再検討

Revisiting LQR Control from the Perspective of Receding-Horizon Policy Gradient ( http://arxiv.org/abs/2302.13144v2 )

ライセンス: Link先を確認
Xiangyuan Zhang, Tamer Ba\c{s}ar(参考訳) 本稿では,制御アプリケーションのためのモデルフリー学習フレームワークであるreceding-horizon policy gradient(rhpg)の観点から,離散時間線形二次レギュレータ(lqr)問題を再検討する。 我々は,rhpg の最適 lqr 解に近い安定性および$\epsilon$ の制御ポリシーを学習するために,詳細なサンプル複雑性解析を行い,初期化のための安定化制御ポリシーを知る必要はない。 カルマンフィルタの学習におけるRHPGの最近の応用と組み合わせて、線形制御におけるRHPGの一般的な適用性および線形解析による推定を実証する。

We revisit in this paper the discrete-time linear quadratic regulator (LQR) problem from the perspective of receding-horizon policy gradient (RHPG), a newly developed model-free learning framework for control applications. We provide a fine-grained sample complexity analysis for RHPG to learn a control policy that is both stabilizing and $\epsilon$-close to the optimal LQR solution, and our algorithm does not require knowing a stabilizing control policy for initialization. Combined with the recent application of RHPG in learning the Kalman filter, we demonstrate the general applicability of RHPG in linear control and estimation with streamlined analyses.
翻訳日:2023-04-10 14:44:24 公開日:2023-04-06
# 学生教師フレームワークにおけるランダム特徴モデルのオンライン学習

Online Learning for the Random Feature Model in the Student-Teacher Framework ( http://arxiv.org/abs/2303.14083v2 )

ライセンス: Link先を確認
Roman Worschech and Bernd Rosenow(参考訳) ディープニューラルネットワークは、重みが増加するにつれて性能が向上し、過度にパラメータ化されるような予測アルゴリズムとして広く使われている。 我々は,第1層が凍結され,第2層がトレーニング可能である2層ニューラルネットワークをランダム特徴モデルと呼ぶ。 学習力学のための微分方程式の集合を導出することにより、学生-教師フレームワークの文脈における過度なパラメトリゼーションを考察する。 隠れた層の大きさと入力次元の任意の有限比について、学生は完全一般化できず、非零漸近一般化誤差を計算する。 学生の隠れた層の大きさが入力次元よりも指数関数的に大きいときのみ、完全一般化へのアプローチが可能となる。

Deep neural networks are widely used prediction algorithms whose performance often improves as the number of weights increases, leading to over-parametrization. We consider a two-layered neural network whose first layer is frozen while the last layer is trainable, known as the random feature model. We study over-parametrization in the context of a student-teacher framework by deriving a set of differential equations for the learning dynamics. For any finite ratio of hidden layer size and input dimension, the student cannot generalize perfectly, and we compute the non-zero asymptotic generalization error. Only when the student's hidden layer size is exponentially larger than the input dimension, an approach to perfect generalization is possible.
翻訳日:2023-04-10 14:35:57 公開日:2023-04-06
# VideoXum:ビデオの視覚的およびテクスチャ的要約

VideoXum: Cross-modal Visual and Textural Summarization of Videos ( http://arxiv.org/abs/2303.12060v2 )

ライセンス: Link先を確認
Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo(参考訳) ビデオ要約は、ソースビデオから最も重要な情報を抽出して、短縮されたクリップまたはテキストナラティブを生成することを目的としている。 伝統的に、出力がビデオかテキストかによって異なる方法が提案されており、視覚的要約とテキスト要約の2つの意味的関連タスクの相関を無視している。 我々は新しい共同ビデオとテキスト要約タスクを提案する。 目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成し、まとめてクロスモーダル要約と呼ぶことである。 生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。 この目的のために、私たちはまず、大規模な人間アノテーション付きデータセットであるVideoXumを構築しました。 データセットはActivityNetに基づいて再注釈される。 長さ要件を満たさない動画をフィルタリングした後、新しいデータセットには14,001本のビデオが残っています。 再注釈付きデータセットの各ビデオには、人間の注釈付きビデオサマリーと対応するナラティブサマリーがあります。 次に,提案課題に対処するため,新しいエンドツーエンドモデルであるVTSUM-BILPを設計する。 さらに,VT-CLIPScoreと呼ばれる新しい尺度を提案し,モダリティ間要約のセマンティック一貫性を評価する。 提案手法は,この課題において有望な性能を達成し,今後の研究のためのベンチマークを確立する。

Video summarization aims to distill the most important information from a source video to produce either an abridged clip or a textual narrative. Traditionally, different methods have been proposed depending on whether the output is a video or text, thus ignoring the correlation between the two semantically related tasks of visual summarization and textual summarization. We propose a new joint video and text summarization task. The goal is to generate both a shortened video clip along with the corresponding textual summary from a long video, collectively referred to as a cross-modal summary. The generated shortened video clip and text narratives should be semantically well aligned. To this end, we first build a large-scale human-annotated dataset -- VideoXum (X refers to different modalities). The dataset is reannotated based on ActivityNet. After we filter out the videos that do not meet the length requirements, 14,001 long videos remain in our new dataset. Each video in our reannotated dataset has human-annotated video summaries and the corresponding narrative summaries. We then design a novel end-to-end model -- VTSUM-BILP to address the challenges of our proposed task. Moreover, we propose a new metric called VT-CLIPScore to help evaluate the semantic consistency of cross-modality summary. The proposed model achieves promising performance on this new task and establishes a benchmark for future research.
翻訳日:2023-04-10 14:35:13 公開日:2023-04-06
# clinical bertscore:臨床における自動音声認識性能の向上

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings ( http://arxiv.org/abs/2303.05737v3 )

ライセンス: Link先を確認
Joel Shor, Ruyue Agnes Bi, Subhashini Venugopalan, Steven Ibara, Roman Goldenberg, Ehud Rivlin(参考訳) 医学的文脈における自動音声認識(ASR)は、時間を節約し、コストを削減し、報告精度を高め、医師のバーンアウトを減らす可能性がある。 しかし、医療業界は医療関連転写ミスを避けることの重要性から、この技術の採用が遅れている。 本研究は,臨床関連ミスを他者よりもペナルティ化するASR尺度であるクリニカルBERTScore(CBERTScore)を提示する。 この尺度は、他の指標(WER, BLUE, METEORなど)と比較して、医学的文章に対する臨床的嗜好とより密接に一致していることが示される。 CTP(Crisian Transcript Preference benchmark)と呼ばれる149のリアルな医療文章に関する18の臨床好みのベンチマークを収集し、CBERTScoreが臨床医の好みとより密に一致していることを示し、臨床を意識したASR指標をさらに発展させるために、コミュニティのためにベンチマークをリリースする。

Automatic Speech Recognition (ASR) in medical contexts has the potential to save time, cut costs, increase report accuracy, and reduce physician burnout. However, the healthcare industry has been slower to adopt this technology, in part due to the importance of avoiding medically-relevant transcription mistakes. In this work, we present the Clinical BERTScore (CBERTScore), an ASR metric that penalizes clinically-relevant mistakes more than others. We demonstrate that this metric more closely aligns with clinician preferences on medical sentences as compared to other metrics (WER, BLUE, METEOR, etc), sometimes by wide margins. We collect a benchmark of 18 clinician preferences on 149 realistic medical sentences called the Clinician Transcript Preference benchmark (CTP), demonstrate that CBERTScore more closely matches what clinicians prefer, and release the benchmark for the community to further develop clinically-aware ASR metrics.
翻訳日:2023-04-10 14:34:36 公開日:2023-04-06
# 局所内在的次元エントロピー

Local Intrinsic Dimensional Entropy ( http://arxiv.org/abs/2304.02223v2 )

ライセンス: Link先を確認
Rohan Ghosh, Mehul Motani(参考訳) ほとんどのエントロピー測度は、サンプル空間 X 上の確率分布の拡散に依存し、最大エントロピー到達可能なスケールはサンプル空間の濃度 |X| に比例する。 有限 |x| に対して、これは単射への不変性など多くの重要な性質を満たすロバストなエントロピー測度を与えるが、連続空間(|x|=無限性)では同じことが当てはまらない。 さらに、R と R^d (d in Z+) は(カントールの対応論から)同じ濃度を持つので、濃度依存エントロピー測度はデータ次元を符号化することはできない。 本研究では,連続空間におけるエントロピー測度の定義における濃度と分布の広がりの役割について疑問視する。 分布の局所固有次元の平均値は、ID-エントロピー(ID-Entropy)と呼ばれ、連続空間の強エントロピー測度として機能し、データの次元を捉えることができる。 ID-エントロピーは多くの望ましい性質を満足し、条件付きエントロピー、関節エントロピー、相互情報不変量にまで拡張できる。 ID-エントロピーは新たな情報ボトルネックの原則と因果関係ももたらします。 ディープラーニングの文脈では、フィードフォワードアーキテクチャにおいて、ターゲット関数がリプシッツ連続であるとき、隠れ層のIDエントロピーが、分類器とオートエンコーダの両方の一般化ギャップを直接制御していることを示す。 本研究は, 連続空間において, 統計的アプローチではなく構造的手法を用いると, 内在的なデータ次元を保存するエントロピー尺度が得られ, 各種アーキテクチャの研究に関係があることを主に示している。

Most entropy measures depend on the spread of the probability distribution over the sample space X, and the maximum entropy achievable scales proportionately with the sample space cardinality |X|. For a finite |X|, this yields robust entropy measures which satisfy many important properties, such as invariance to bijections, while the same is not true for continuous spaces (where |X|=infinity). Furthermore, since R and R^d (d in Z+) have the same cardinality (from Cantor's correspondence argument), cardinality-dependent entropy measures cannot encode the data dimensionality. In this work, we question the role of cardinality and distribution spread in defining entropy measures for continuous spaces, which can undergo multiple rounds of transformations and distortions, e.g., in neural networks. We find that the average value of the local intrinsic dimension of a distribution, denoted as ID-Entropy, can serve as a robust entropy measure for continuous spaces, while capturing the data dimensionality. We find that ID-Entropy satisfies many desirable properties and can be extended to conditional entropy, joint entropy and mutual-information variants. ID-Entropy also yields new information bottleneck principles and also links to causality. In the context of deep learning, for feedforward architectures, we show, theoretically and empirically, that the ID-Entropy of a hidden layer directly controls the generalization gap for both classifiers and auto-encoders, when the target function is Lipschitz continuous. Our work primarily shows that, for continuous spaces, taking a structural rather than a statistical approach yields entropy measures which preserve intrinsic data dimensionality, while being relevant for studying various architectures.
翻訳日:2023-04-10 14:27:28 公開日:2023-04-06
# 部分空間エンコーダ法による非線形状態空間同定の初期化手法

Initialization Approach for Nonlinear State-Space Identification via the Subspace Encoder Approach ( http://arxiv.org/abs/2304.02119v2 )

ライセンス: Link先を確認
Rishi Ramkannan, Gerben I. Beintema, Roland T\'oth, Maarten Schoukens(参考訳) subnetニューラルネットワークアーキテクチャは、入出力データから非線形状態空間モデルを識別するために開発された。 これを実現するために、ロールアウトされた非線形状態空間方程式と、ニューラルネットワークとしてパラメータ化された状態エンコーダ関数を組み合わせたエンコーダ関数を導入し、過去の入力出力データから現在の状態を再構築する。 これにより、ロールアウト状態空間モデルの前方シミュレーションが可能になる。 このアプローチは高精度で一貫したモデル推定を提供することを示したが、トレーニングプロセスの効率的な初期化により、その収束性を著しく改善することができる。 本稿では,Best Linear Approximation (BLA) を用いた部分空間エンコーダ手法の初期化について述べる。 BLAが提供する状態空間行列とその関連再構成可能性マップを用いて、ネットワークの状態遷移部とエンコーダの両方を初期化する。 改良初期化スキームの性能は、wiener-hammersteinシミュレーションの例とベンチマークデータセットで評価される。 その結果, 弱非線形系では, 線形再構成可能性マップに基づく初期化がより高速に収束し, より良いモデル品質が得られることがわかった。

The SUBNET neural network architecture has been developed to identify nonlinear state-space models from input-output data. To achieve this, it combines the rolled-out nonlinear state-space equations and a state encoder function, both parameterised as neural networks The encoder function is introduced to reconstruct the current state from past input-output data. Hence, it enables the forward simulation of the rolled-out state-space model. While this approach has shown to provide high-accuracy and consistent model estimation, its convergence can be significantly improved by efficient initialization of the training process. This paper focuses on such an initialisation of the subspace encoder approach using the Best Linear Approximation (BLA). Using the BLA provided state-space matrices and its associated reconstructability map, both the state-transition part of the network and the encoder are initialized. The performance of the improved initialisation scheme is evaluated on a Wiener-Hammerstein simulation example and a benchmark dataset. The results show that for a weakly nonlinear system, the proposed initialisation based on the linear reconstructability map results in a faster convergence and a better model quality.
翻訳日:2023-04-10 14:26:55 公開日:2023-04-06
# 準メトリック学習による最適ゴールリーチ強化学習

Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning ( http://arxiv.org/abs/2304.01203v3 )

ライセンス: Link先を確認
Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang(参考訳) 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。 本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。 従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。 実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。 オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。

In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.
翻訳日:2023-04-10 14:25:30 公開日:2023-04-06
# ビデオにおける未バイアスシーングラフ生成

Unbiased Scene Graph Generation in Videos ( http://arxiv.org/abs/2304.00733v2 )

ライセンス: Link先を確認
Sayak Nag, Kyle Min, Subarna Tripathi, Amit K. Roy Chowdhury(参考訳) 映像からの動的シーングラフ生成(SGG)の課題は、シーン固有のダイナミクス、モデル予測の時間的変動、画像ベースSGGの既存の課題に加えて、視覚的関係の長期分布などにより複雑かつ困難である。 動的sggの既存の手法は、上述の課題、特に長期にわたる関係の分散に対処せずに、複雑なアーキテクチャを用いて時空間的コンテキストを捉えることに重点を置いている。 これはしばしばバイアス付きシーングラフの生成につながる。 これらの課題に対処するために,我々はテンプラと呼ばれる新しいフレームワークを紹介している。 TEMPURAは、トランスフォーマーに基づくシーケンスモデリングによりオブジェクトレベルの時間的整合性を採用し、メモリ誘導学習を用いて非バイアス関係表現を合成し、ガウス混合モデル(GMM)を用いて視覚関係の予測的不確実性を減衰させる。 広範囲な実験により,既存の手法に比べて,より偏りのないシーングラフの生成において,性能が大幅に向上すること(場合によっては最大10%)を実証した。

The task of dynamic scene graph generation (SGG) from videos is complicated and challenging due to the inherent dynamics of a scene, temporal fluctuation of model predictions, and the long-tailed distribution of the visual relationships in addition to the already existing challenges in image-based SGG. Existing methods for dynamic SGG have primarily focused on capturing spatio-temporal context using complex architectures without addressing the challenges mentioned above, especially the long-tailed distribution of relationships. This often leads to the generation of biased scene graphs. To address these challenges, we introduce a new framework called TEMPURA: TEmporal consistency and Memory Prototype guided UnceRtainty Attenuation for unbiased dynamic SGG. TEMPURA employs object-level temporal consistencies via transformer-based sequence modeling, learns to synthesize unbiased relationship representations using memory-guided training, and attenuates the predictive uncertainty of visual relations using a Gaussian Mixture Model (GMM). Extensive experiments demonstrate that our method achieves significant (up to 10% in some cases) performance gain over existing methods highlighting its superiority in generating more unbiased scene graphs.
翻訳日:2023-04-10 14:25:20 公開日:2023-04-06
# G-Eval:ヒトのアライメントが向上したGPT-4を用いたNLG評価

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment ( http://arxiv.org/abs/2303.16634v2 )

ライセンス: Link先を確認
Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu and Chenguang Zhu(参考訳) 自然言語生成システム(NLG)が生成するテキストの品質を自動測定することは困難である。 BLEUやROUGEのような従来の基準ベースのメトリクスは、人間の判断、特に創造性と多様性を必要とするタスクに対して、相対的に低い相関があることが示されている。 近年の研究では、人間の参照を欠く新しいタスクに適用できるという利点がある、NLG評価のための基準のない指標として、大規模言語モデル(LLM)を使用することが提案されている。 しかしながら、これらのLDMベースの評価器は、中規模の神経評価器よりも人間との対応が低い。 本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)とフォームフィリング・パラダイムを併用し,NLG出力の品質を評価するフレームワークであるG-Evalを提案する。 テキスト要約と対話生成という2つの世代タスクを実験する。 gpt-4 をバックボーンモデルとした g-eval は, 総和作業において 0.514 のスピアマン相関を達成し, 従来の手法を大差で上回った。 また, LLM に基づく評価器の挙動を予備解析し, LLM 生成テキストに対するバイアスを有する LLM に基づく評価器の可能性を明らかにする。

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present G-Eval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that G-Eval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts.
翻訳日:2023-04-10 14:24:18 公開日:2023-04-06
# 離散積分による任意の有限次元に対する単純ZXおよびZH計算

Simple ZX and ZH calculi for arbitrary finite dimensions, via discrete integrals ( http://arxiv.org/abs/2304.03310v1 )

ライセンス: Link先を確認
Niel de Beaudrap and Richard D. P. East(参考訳) zx計算とzh計算は、量子演算の性質やテンソルネットワークによって記述された他の多重線形作用素を表現するためにダイアグラムを用いる。 これらの計算は、図形の変換を通じてテンソルネットワークの代数的操作である「書き換え規則」を含む。 図式がテンソルネットワークを表す方法は意味写像(semantic map)を通じて行われ、各図に合成的に意味を割り当てる。 わずかに異なる意味マップは、ある目的または他の目的(例えばユニタリ回路の解析と計算複雑性の分析)により、わずかに異なる書き換えシステムをもたらす。 離散集合上の測度論の簡単な応用を通じて、任意の次元 d>1 のクウディッツに対する zx と zh 図に対する意味写像を記述し、ユニタリ回路を表現するのに適し、単純な書き換え規則を許す。 そのような場合、D=2 の場合、ZX および ZH 図形の [arXiv:2006.02557] の ' well-tempered' 意味論を再現する。 本稿では,ZX計算の「安定化器フラグメント」とZH計算の「マルチハラクターフラグメント」の書き直しルールを示し,この2つの計算を単一の「ZXH計算」として相互運用可能にする関係を示す。

The ZX calculus and the ZH calculus use diagrams to denote and to compute properties of quantum operations, and other multi-linear operators described by tensor networks. These calculi involve 'rewrite rules', which are algebraic manipulations of the tensor networks through transformations of diagrams. The way in which diagrams denote tensor networks is through a semantic map, which assigns a meaning to each diagram in a compositional way. Slightly different semantic maps, which may prove more convenient for one purpose or another (e.g., analysing unitary circuits versus analysing counting complexity), give rise to slightly different rewrite systems. Through a simple application of measure theory on discrete sets, we describe a semantic map for ZX and ZH diagrams for qudits of any dimension D>1, well-suited to represent unitary circuits, and admitting simple rewrite rules. In doing so, we reproduce the 'well-tempered' semantics of [arXiv:2006.02557] for ZX and ZH diagrams in the case D=2. We demonstrate rewrite rules for the 'stabiliser fragment' of the ZX calculus and a 'multicharacter fragment' of the ZH calculus; and demonstrate relationships which would allow the two calculi to be used interoperably as a single 'ZXH calculus'.
翻訳日:2023-04-10 14:08:43 公開日:2023-04-06
# 超流動エッジ転位:横型量子流体

Superfluid Edge Dislocation: Transverse Quantum Fluid ( http://arxiv.org/abs/2304.03309v1 )

ライセンス: Link先を確認
Leo Radzihovsky, Anatoly Kuklov, Nikolay Prokof'ev, Boris Svistunov(参考訳) 近年、kuklovらによって、固体he4で観測される超流動スルー固体効果に関連する特異な特徴は、超流動エッジ転位の希薄分布の特異な性質によって説明できると論じられている。 量子相すべりによる超電流の安定性(定数)と、超流動転位の他のエキゾチックな赤外線特性は、エッジ転位が登れる能力に付随する効果的に無限の圧縮可能性(パイエルズポテンシャルが存在しない場合)によって区別される1次元の量子液体から容易に導かれることを実証する。 これにより、低次元にもかかわらず安定かつ長距離秩序を保つ準一次元超流動状態の新しいクラスが確立される。 本研究では, 質量電流-圧力特性予測実験を提案する。

Recently, it has been argued by Kuklov et al., that unusual features associated with the superflow-through-solid effect observed in solid He4 can be explained by unique properties of dilute distribution of superfluid edge dislocations. We demonstrate that stability of supercurrents controlled by quantum phase slips (instantons), and other exotic infrared properties of the superfluid dislocations readily follow from a one-dimensional quantum liquid distinguished by an effectively infinite compressibility (in the absence of Peierls potential) associated with the edge dislocation's ability to climb. This establishes a new class of quasi-one-dimensional superfluid states that remain stable and long-range ordered despite their low dimensionality. We propose an experiment to test our mass-current--pressure characteristic prediction.
翻訳日:2023-04-10 14:08:18 公開日:2023-04-06
# Vita-CLIP:マルチモーダルプロンプティングによるビデオおよびテキスト適応CLIP

Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting ( http://arxiv.org/abs/2304.03307v1 )

ライセンス: Link先を確認
Syed Talal Wasim, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah(参考訳) CLIPのようなコントラストのある画像テキスト事前学習モデルをビデオ分類に適用することは、コスト効率と競争性能のために注目されている。 しかし、この地域の最近の事業はトレードオフに直面している。 事前訓練されたモデルを微調整して、強い教師付きパフォーマンスを達成すると、ゼロショット一般化が低くなる。 同様に、ゼロショット能力を維持するためにバックボーンを凍結すると、監督精度が大幅に低下する。 このため、文学における最近の研究は通常、教師付きおよびゼロショットのアクション認識のための別々のモデルを訓練している。 本研究では,教師なしおよびゼロショットのパフォーマンスを単一の統一トレーニングでバランスさせるマルチモーダル・プロンプト・ラーニング方式を提案する。 視覚側テーパーに対する我々のプロンプト的アプローチは3つの側面がある。 1) グローバルビデオレベルのデータ配信をモデル化するプロンプト 2 フレーム単位の識別条件を提供するための局所的なフレームレベルプロンプト及び 3)縮合された映像表現を抽出する要約プロンプト。 さらに、テキスト側でテキストコンテキストを強化するプロンプトスキームを定義する。 このプロンプト方式により,Kinetics-600, HMDB51, UCF101上での最先端のゼロショット性能を実現することができる。 予め訓練したバックボーンを凍結させておくことで、パラメータの数を大幅に減らし、既存の汎用表現を保ち、強力なゼロショット性能を実現する。 私たちのコード/モデルはhttps://github.com/TalalWasim/Vita-CLIP.comでリリースされています。

Adopting contrastive image-text pretrained models like CLIP towards video classification has gained attention due to its cost-effectiveness and competitive performance. However, recent works in this area face a trade-off. Finetuning the pretrained model to achieve strong supervised performance results in low zero-shot generalization. Similarly, freezing the backbone to retain zero-shot capability causes significant drop in supervised accuracy. Because of this, recent works in literature typically train separate models for supervised and zero-shot action recognition. In this work, we propose a multimodal prompt learning scheme that works to balance the supervised and zero-shot performance under a single unified training. Our prompting approach on the vision side caters for three aspects: 1) Global video-level prompts to model the data distribution; 2) Local frame-level prompts to provide per-frame discriminative conditioning; and 3) a summary prompt to extract a condensed video representation. Additionally, we define a prompting scheme on the text side to augment the textual context. Through this prompting scheme, we can achieve state-of-the-art zero-shot performance on Kinetics-600, HMDB51 and UCF101 while remaining competitive in the supervised setting. By keeping the pretrained backbone frozen, we optimize a much lower number of parameters and retain the existing general representation which helps achieve the strong zero-shot performance. Our codes/models are released at https://github.com/TalalWasim/Vita-CLIP.
翻訳日:2023-04-10 14:08:00 公開日:2023-04-06
# 超音波トモグラフィインバージョンのためのニューラルオペレータ学習

Neural Operator Learning for Ultrasound Tomography Inversion ( http://arxiv.org/abs/2304.03297v1 )

ライセンス: Link先を確認
Haocheng Dai, Michael Penwarden, Robert M. Kirby, Sarang Joshi(参考訳) 複雑な関数空間間のマッピング手段としてのニューラル演算子学習は、計算科学と工学(CS&E)の分野で大きな注目を集めている。 本稿では,時空超音波CT(USCT)問題に対するニューラル演算子学習を適用した。 我々は、フルウェーブ・ソルバを用いて、飛行時間(TOF)データと異種音速場のマッピングを学習し、トレーニングデータを生成する。 演算子学習のこの新しい応用は、計算集約的な反復逆問題を解く必要性を回避している。 オペレータは非線形マッピングをオフラインで学習し、モデルを通過する単一のフォワードパスで異種音場を予測する。 超音波断層撮影におけるオペレーターの学習はこれが初めてであり、ビーストイメージングにおける腫瘍の同定のための軟組織分布のリアルタイム予測の第一歩である。

Neural operator learning as a means of mapping between complex function spaces has garnered significant attention in the field of computational science and engineering (CS&E). In this paper, we apply Neural operator learning to the time-of-flight ultrasound computed tomography (USCT) problem. We learn the mapping between time-of-flight (TOF) data and the heterogeneous sound speed field using a full-wave solver to generate the training data. This novel application of operator learning circumnavigates the need to solve the computationally intensive iterative inverse problem. The operator learns the non-linear mapping offline and predicts the heterogeneous sound field with a single forward pass through the model. This is the first time operator learning has been used for ultrasound tomography and is the first step in potential real-time predictions of soft tissue distribution for tumor identification in beast imaging.
翻訳日:2023-04-10 14:07:41 公開日:2023-04-06
# 少数の教師なし画像の異常検出に適したデータ拡張とは何か?

What makes a good data augmentation for few-shot unsupervised image anomaly detection? ( http://arxiv.org/abs/2304.03294v1 )

ライセンス: Link先を確認
Shuheng Zhang, Lingrui Zhang, Guoyang Xie, Jiaqi Liu, Hua Yan, Jinbao Wang, Feng Zheng, Yaochu Jin(参考訳) データ拡張は産業応用における教師なし異常検出に有望な技術であり、商業的競争やサンプル収集の困難などの要因により、陽性サンプルの入手が制限されることが多い。 本稿では,教師なし異常検出のためのデータ拡張手法を効果的に選択し,適用する方法について検討する。 各種データ拡張手法が各種異常検出アルゴリズムに与える影響を実験により系統的に検討した。 実験の結果, 異なる産業用画像異常検出アルゴリズム(iad)の性能は, 特定のデータ拡張法では大きな影響を受けず, 複数のデータ拡張法を組み合わせると, 特定の手法で優れた結果が得られるが, 異常検出の精度がさらに向上するとは限らないことがわかった。 これらの知見は、IDAの異なる要件に対する適切なデータ拡張方法を選択する上で有用なガイダンスを提供する。

Data augmentation is a promising technique for unsupervised anomaly detection in industrial applications, where the availability of positive samples is often limited due to factors such as commercial competition and sample collection difficulties. In this paper, how to effectively select and apply data augmentation methods for unsupervised anomaly detection is studied. The impact of various data augmentation methods on different anomaly detection algorithms is systematically investigated through experiments. The experimental results show that the performance of different industrial image anomaly detection (termed as IAD) algorithms is not significantly affected by the specific data augmentation method employed and that combining multiple data augmentation methods does not necessarily yield further improvements in the accuracy of anomaly detection, although it can achieve excellent results on specific methods. These findings provide useful guidance on selecting appropriate data augmentation methods for different requirements in IAD.
翻訳日:2023-04-10 14:07:28 公開日:2023-04-06
# ss-shapelets:代表シェープレットを用いた時系列の半教師付きクラスタリング

SS-shapelets: Semi-supervised Clustering of Time Series Using Representative Shapelets ( http://arxiv.org/abs/2304.03292v1 )

ライセンス: Link先を確認
Borui Cai, Guangyan Huang, Shuiqiao Yang, Yong Xiang, and Chi-Hung Chi(参考訳) 時系列クラスタリングにおいて、局所的特徴(サブシーケンス)を用いて時系列を識別するシェープレットが有望である。 既存の時系列クラスタリング法は、非形式的サブシーケンスの大きなプールからシェープレットを発見し、その結果、クラスタリングの精度が低くなるため、代表的なシェイプレットを捕捉できない可能性がある。 本稿では,少数のラベル付きおよびプロパゲーション付き擬似ラベル付き時系列を用いた半教師付き時系列クラスタリング(SS-Shapelets)手法を提案する。 SS-Shapeletでは,時系列のクラスタリングを効果的に行うための2つの手法を提案する。 1) \textit{salient subsequence chain} (ssc$) ラベル付き/pseudoラベル付き時系列のsalient subsequence(候補シェープレット)を抽出できる。 2) 異なるクラスにおける時系列の代表的な局所的特徴をキャプチャーできるシェープレットを識別し、便利なクラスタリングを行うための, テキストit{linear discriminant selection}(LDS$)アルゴリズム。 UCR時系列データセットの実験では、SS-シェープレットが代表的なシェープレットを発見し、対応する半教師付き時系列クラスタリング法よりも高いクラスタリング精度を達成することが示されている。

Shapelets that discriminate time series using local features (subsequences) are promising for time series clustering. Existing time series clustering methods may fail to capture representative shapelets because they discover shapelets from a large pool of uninformative subsequences, and thus result in low clustering accuracy. This paper proposes a Semi-supervised Clustering of Time Series Using Representative Shapelets (SS-Shapelets) method, which utilizes a small number of labeled and propagated pseudo-labeled time series to help discover representative shapelets, thereby improving the clustering accuracy. In SS-Shapelets, we propose two techniques to discover representative shapelets for the effective clustering of time series. 1) A \textit{salient subsequence chain} ($SSC$) that can extract salient subsequences (as candidate shapelets) of a labeled/pseudo-labeled time series, which helps remove massive uninformative subsequences from the pool. 2) A \textit{linear discriminant selection} ($LDS$) algorithm to identify shapelets that can capture representative local features of time series in different classes, for convenient clustering. Experiments on UCR time series datasets demonstrate that SS-shapelets discovers representative shapelets and achieves higher clustering accuracy than counterpart semi-supervised time series clustering methods.
翻訳日:2023-04-10 14:07:11 公開日:2023-04-06
# マルチラベルランキングの学習性について

On the Learnability of Multilabel Ranking ( http://arxiv.org/abs/2304.03337v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) マルチラベルランキングは、Web検索、ニュースストーリー、レコメンダシステムなどへの幅広い応用を伴う機械学習における中心的なタスクである。 しかし、マルチラベルランキング設定における学習可能性に関する最も根本的な疑問は未解決のままである。 本稿では,大家族を対象としたバッチおよびオンライン設定における複数ラベルランキング問題の学習可能性について述べる。 その過程で、学習可能性に基づいたランキング損失の第1の等価クラスも与えます。

Multilabel ranking is a central task in machine learning with widespread applications to web search, news stories, recommender systems, etc. However, the most fundamental question of learnability in a multilabel ranking setting remains unanswered. In this paper, we characterize the learnability of multilabel ranking problems in both the batch and online settings for a large family of ranking losses. Along the way, we also give the first equivalence class of ranking losses based on learnability.
翻訳日:2023-04-10 13:58:48 公開日:2023-04-06
# 本物のシュレーディンガーの猫を観察する簡単なノーゴー証明

Simple no-go proof on observing real Schroedinger's cats ( http://arxiv.org/abs/2304.03336v1 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 可逆過程が一旦関与すると、射影測定のクラスは不可能であることを示す一般的な証明を与える。 このノーゴーの結果をシュレーディンガーの猫パラドックスに適用すると、もし何かが本物のシュレーディンガーの猫であると主張されたら、物理的に実装可能なプロセスにおいて、通常の猫の自明な混合物とそれとの計測可能な違いは存在しない。 我々の証明は量子解釈理論と仮説を一切含まない。

We give a general proof showing that once irreversible processes are involved, a class of projective measurements is impossible. Applying this no-go result to the Schroedinger's cat paradox implies that if something is claimed to be a real Schroedinger's cat, there will be no measurable difference between it and a trivial classical mixture of ordinary cats in any physically implementable process, otherwise raising the dead will become reality. Our proof does not involve any quantum interpretation theory and hypothesis.
翻訳日:2023-04-10 13:58:41 公開日:2023-04-06
# 周期結合クラスタ計算における逆体積スケーリングの起源と熱力学限界

Origin of inverse volume scaling in periodic coupled cluster calculations towards thermodynamic limit ( http://arxiv.org/abs/2304.03330v1 )

ライセンス: Link先を確認
Xin Xing, Lin Lin(参考訳) 結合クラスター理論は、分子量子化学の'金標準'アンサッツであると考えられている。 三次元絶縁系における周期結合クラスタ計算における相関エネルギーの有限サイズ誤差は、補正スキームがなくても逆体積スケーリングを満たすことが観察されている。 結合されたクラスタ図のサブセットのみを利用する単純な理論は、システムの長さと逆スケールする有限サイズの誤差の非常に遅い崩壊を示すため、これは驚くべきことである。 本研究では,この現象の背景となるメカニズムを,結合クラスタダブルス(CCD)計算の文脈で説明し,有限スケールスケーリングに関するいくつかのパラドックス的ステートメントを再現する厳密な数値解析を行った。 また, 周期系の量子化学計算において, 有限サイズの誤差を効果的に解く方法についても考察した。

Coupled cluster theory is considered to be the ``gold standard'' ansatz of molecular quantum chemistry. The finite-size error of the correlation energy in periodic coupled cluster calculations for three-dimensional insulating systems has been observed to satisfy the inverse volume scaling, even in the absence of any correction schemes. This is surprising, as simpler theories that utilize only a subset of the coupled cluster diagrams exhibit much slower decay of the finite-size error, which scales inversely with the length of the system. In this study, we present a rigorous numerical analysis that explains the underlying mechanisms behind this phenomenon in the context of coupled cluster doubles (CCD) calculations, and reconciles a few seemingly paradoxical statements with respect to the finite-size scaling. Our findings also have implications on how to effectively address finite-size errors in practical quantum chemistry calculations for periodic systems.
翻訳日:2023-04-10 13:58:30 公開日:2023-04-06
# ChatGPT-Crawler: ChatGPTが本当に何を言っているかを確かめる

ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking about ( http://arxiv.org/abs/2304.03325v1 )

ライセンス: Link先を確認
Aman Rangapur, Haoran Wang(参考訳) 大きな言語モデルは、様々なタスクにおける印象的なパフォーマンスに対してかなりの関心を集めている。 これらのモデルの中で、OpenAIが開発したChatGPTは、カスタマサービス、教育、医療、金融など多くの分野で破壊的な技術だと考えるアーリーアダプターの間で非常に人気がある。 異なる分野におけるテクノロジーの潜在的な強み、弱み、成功または失敗についての貴重な洞察を提供するため、これらの初期ユーザーの意見を理解することが不可欠である。 本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。 この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。 評価スコアも算出され, GPT-3 \& GPT-4 の全体的な性能を判定した。 さらに研究は、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域に関する洞察を提供する事例を特定した。

Large language models have gained considerable interest for their impressive performance on various tasks. Among these models, ChatGPT developed by OpenAI has become extremely popular among early adopters who even regard it as a disruptive technology in many fields like customer service, education, healthcare, and finance. It is essential to comprehend the opinions of these initial users as it can provide valuable insights into the potential strengths, weaknesses, and success or failure of the technology in different areas. This research examines the responses generated by ChatGPT from different Conversational QA corpora. The study employed BERT similarity scores to compare these responses with correct answers and obtain Natural Language Inference(NLI) labels. Evaluation scores were also computed and compared to determine the overall performance of GPT-3 \& GPT-4. Additionally, the study identified instances where ChatGPT provided incorrect answers to questions, providing insights into areas where the model may be prone to error.
翻訳日:2023-04-10 13:58:13 公開日:2023-04-06
# DSVAE:合成音声検出のための解釈可能な不整合表現

DSVAE: Interpretable Disentangled Representation for Synthetic Speech Detection ( http://arxiv.org/abs/2304.03323v1 )

ライセンス: Link先を確認
Amit Kumar Singh Yadav, Kratika Bhagtani, Ziyue Xiang, Paolo Bestagini, Stefano Tubaro, Edward J. Delp(参考訳) 人間の話者から録音された音声と知覚的に区別できない高品質な合成音声信号を生成するツールは容易に利用できる。 合成音声の検出にはいくつかの手法が提案されている。 これらのアプローチの多くは、深層学習をブラックボックスとして使用し、意思決定の理由を提供しない。 これはこれらのアプローチの解釈可能性を制限する。 本稿では,合成音声を検出するための音声信号の解釈可能な表現を生成するために,不整形表現学習を用いて音声のスペクトルを処理する2段階訓練型変分オートエンコーダ(DSVAE)を提案する。 DSVAEはまた、人間の音声信号を識別する分光器領域をハイライトする活性化マップを作成する。 ASVspoof2019データセットを用いてDSVAEから得られた表現を評価した。 実験結果から,未知音声合成器11例中6例と10例の合成音声の検出精度(>98%)が向上した。 また,DSVAEから得られた17種類の音声合成器の表現を可視化し,各合成器からのボナフッ化物および合成音声の解釈・識別を行う。

Tools to generate high quality synthetic speech signal that is perceptually indistinguishable from speech recorded from human speakers are easily available. Several approaches have been proposed for detecting synthetic speech. Many of these approaches use deep learning methods as a black box without providing reasoning for the decisions they make. This limits the interpretability of these approaches. In this paper, we propose Disentangled Spectrogram Variational Auto Encoder (DSVAE) which is a two staged trained variational autoencoder that processes spectrograms of speech using disentangled representation learning to generate interpretable representations of a speech signal for detecting synthetic speech. DSVAE also creates an activation map to highlight the spectrogram regions that discriminate synthetic and bona fide human speech signals. We evaluated the representations obtained from DSVAE using the ASVspoof2019 dataset. Our experimental results show high accuracy (>98%) on detecting synthetic speech from 6 known and 10 out of 11 unknown speech synthesizers. We also visualize the representation obtained from DSVAE for 17 different speech synthesizers and verify that they are indeed interpretable and discriminate bona fide and synthetic speech from each of the synthesizers.
翻訳日:2023-04-10 13:57:59 公開日:2023-04-06
# Denoising Diffusion Implicit Model を用いたコヒーレント画像の描画

Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models ( http://arxiv.org/abs/2304.03322v1 )

ライセンス: Link先を確認
Guanhua Zhang, Jiabao Ji, Yang Zhang, Mo Yu, Tommi Jaakkola, Shiyu Chang(参考訳) イメージ・インペインティング(image inpainting)は、部分的に露呈した参照画像に基づいて、完全な自然画像を生成するタスクである。 近年,固定拡散モデルを用いてこの問題に取り組む研究が盛んに行われている。 これらのアプローチは典型的には、中間または最終生成画像の明らかな領域を直接参照画像またはその変種に置き換える。 しかし、未発見領域は文脈に合わせて直接修正されないため、明らかな領域と未発見領域の非一貫性が生じる。 不整合問題に対処するために、少数の手法では厳密なベイズフレームワークを導入するが、後続分布を計算する際の近似誤差により生成した画像と参照画像とのミスマッチが生じる傾向がある。 本稿では,ミスマッチを発生させることなく画像全体をコヒーレントに彩色できるコパインを提案する。 また、copaintはベイズフレームワークを使用して、露見領域と未開領域の両方を共同で修正するが、後方分布を近似し、誤差がノイズの段階を通じて徐々にゼロになるようにすることで、参照画像とのミスマッチを強烈にペナルティ化する。 実験により,COPAINTは,客観的,主観的両方の指標の下で既存の拡散法よりも優れていることを確認した。 コードはhttps://github.com/UCSB-NLP-Chang/CoPaint/で公開されている。

Image inpainting refers to the task of generating a complete, natural image based on a partially revealed reference image. Recently, many research interests have been focused on addressing this problem using fixed diffusion models. These approaches typically directly replace the revealed region of the intermediate or final generated images with that of the reference image or its variants. However, since the unrevealed regions are not directly modified to match the context, it results in incoherence between revealed and unrevealed regions. To address the incoherence problem, a small number of methods introduce a rigorous Bayesian framework, but they tend to introduce mismatches between the generated and the reference images due to the approximation errors in computing the posterior distributions. In this paper, we propose COPAINT, which can coherently inpaint the whole image without introducing mismatches. COPAINT also uses the Bayesian framework to jointly modify both revealed and unrevealed regions, but approximates the posterior distribution in a way that allows the errors to gradually drop to zero throughout the denoising steps, thus strongly penalizing any mismatches with the reference image. Our experiments verify that COPAINT can outperform the existing diffusion-based methods under both objective and subjective metrics. The codes are available at https://github.com/UCSB-NLP-Chang/CoPaint/.
翻訳日:2023-04-10 13:57:37 公開日:2023-04-06
# 制約・依存損失を考慮した適応的意思決定:オンライン・非線形同定への性能保証と応用

Adaptive Decision-Making with Constraints and Dependent Losses: Performance Guarantees and Applications to Online and Nonlinear Identification ( http://arxiv.org/abs/2304.03321v1 )

ライセンス: Link先を確認
Michael Muehlebach(参考訳) エージェントが有限の選択肢の中から繰り返し選択することで累積性能目標を最適化する適応的意思決定問題を考える。 従来の予測手法と比較して、損失が制約される状況や、最適かつ計算効率のよい方法で付加構造を利用するアルゴリズムを導出する。 我々のアルゴリズムと分析はインスタンス依存であり、環境の最適以下の選択は、我々の後悔の限界に利用され、反映される。 制約は損失間の一般的な依存関係(時間を超えても)を扱い、環境が超過できない損失予算も考慮できるほど柔軟である。 得られたアルゴリズムの性能は非線形およびオンラインシステム識別タスクを含む2つの数値例で強調される。

We consider adaptive decision-making problems where an agent optimizes a cumulative performance objective by repeatedly choosing among a finite set of options. Compared to the classical prediction-with-expert-advice set-up, we consider situations where losses are constrained and derive algorithms that exploit the additional structure in optimal and computationally efficient ways. Our algorithm and our analysis is instance dependent, that is, suboptimal choices of the environment are exploited and reflected in our regret bounds. The constraints handle general dependencies between losses (even across time), and are flexible enough to also account for a loss budget, which the environment is not allowed to exceed. The performance of the resulting algorithms is highlighted in two numerical examples, which include a nonlinear and online system identification task.
翻訳日:2023-04-10 13:57:14 公開日:2023-04-06
# 説明可能なAIとビジュアル推論:放射線学からの洞察

Explainable AI And Visual Reasoning: Insights From Radiology ( http://arxiv.org/abs/2304.03318v1 )

ライセンス: Link先を確認
Robert Kaufman, David Kirsh(参考訳) 透明性の約束にもかかわらず、なぜ放射線学で説明可能なAI(XAI)は人間の信頼を得られないのか? 現在のXAIアプローチは、予測の正当性を提供するが、これらは実践者の要求に合わない。 これらのXAI説明は、ある分類の明らかな基礎を直感的に網羅しておらず、採用の障壁となっている。 我々は、XAIが人間の推論と正当化の過程を、証拠で反映することは、ヒートマップのような従来の視覚的説明よりも有用で信頼できると仮定する。 放射線医学のケーススタディを用いて,放射線医が他者に対して診断結果の妥当性を確認する方法を示した。 機械学習による分類では、この明らかな根拠が欠如しており、結果として潜在的ユーザによる信頼と採用を引き出すことができない。 本研究から得られた知見は,人間の推論と証拠の正当性に基づく人間中心の説明設計の指針となる。

Why do explainable AI (XAI) explanations in radiology, despite their promise of transparency, still fail to gain human trust? Current XAI approaches provide justification for predictions, however, these do not meet practitioners' needs. These XAI explanations lack intuitive coverage of the evidentiary basis for a given classification, posing a significant barrier to adoption. We posit that XAI explanations that mirror human processes of reasoning and justification with evidence may be more useful and trustworthy than traditional visual explanations like heat maps. Using a radiology case study, we demonstrate how radiology practitioners get other practitioners to see a diagnostic conclusion's validity. Machine-learned classifications lack this evidentiary grounding and consequently fail to elicit trust and adoption by potential users. Insights from this study may generalize to guiding principles for human-centered explanation design based on human reasoning and justification of evidence.
翻訳日:2023-04-10 13:56:59 公開日:2023-04-06
# 量子コンピュータパワーサイドチャネルの探索

Exploration of Quantum Computer Power Side-Channels ( http://arxiv.org/abs/2304.03315v1 )

ライセンス: Link先を確認
Chuanqi Xu, Ferhat Erata, Jakub Szefer(参考訳) ノイズのある中間スケール量子コンピュータ(NISQ)は、より多くの量子ビットと忠実さで急速に改善されている。 急速に増加する量子ビット数と量子コンピュータの忠実性の向上により、量子コンピュータ上で新しいアルゴリズムを実行し、知性が高度に保護された秘密となる新しい結果とデータを生成することができる。 同時に、量子コンピュータは特別なマシンであり続ける可能性が高く、多くはリモートのクラウドベースの環境で制御され維持される。 ユーザーによる物理的制御の欠如は、例えばデータセンター内の悪意あるインサイダーによる物理的攻撃が可能であることを意味する。 この研究は、パワーベースのサイドチャネル攻撃が量子コンピュータに対して展開される可能性が初めて示された。 この攻撃は、量子コンピュータに送信される制御パルスに関する情報の回収に使用できる。 制御パルスから回路のゲートレベル記述を行い、最終的には秘密アルゴリズムをリバースエンジニアリングすることができる。 この研究は、どのようにして情報を回復し、次に電力ベースのサイドチャネルからどのように防御するかを示す。 実量子コンピュータからのリアル制御パルス情報は、潜在的な電力ベースのサイドチャネル攻撃を示すために使用される。 一方、ハードウェアの変更なしに、提案された防御は、現在すでに展開できる。

Noisy Intermediate-Scale Quantum (NISQ) quantum computers are being rapidly improved, with bigger numbers of qubits and improved fidelity. The rapidly increasing qubit counts and improving the fidelity of quantum computers will enable novel algorithms to be executed on the quantum computers, and generate novel results and data whose intellectual property will be a highly-guarded secret. At the same time, quantum computers are likely to remain specialized machines, and many will be controlled and maintained in a remote, cloud-based environment where end users who want to come up with novel algorithms have no control over the physical space. Lack of physical control by users means that physical attacks could be possible, by malicious insiders in the data center, for example. This work shows for the first time that power-based side-channel attacks could be deployed against quantum computers. The attacks could be used to recover information about the control pulses sent to quantum computers. From the control pulses, the gate level description of the circuits, and eventually the secret algorithms can be reverse engineered. This work demonstrates how and what information could be recovered, and then in turn how to defend from power-based side-channels. Real control pulse information from real quantum computers is used to demonstrate potential power-based side-channel attacks. Meanwhile, proposed defenses can be deployed already today, without hardware changes.
翻訳日:2023-04-10 13:56:44 公開日:2023-04-06
# 非平衡モンテカルロシミュレーションによる絡み合いエントロピー

Entanglement entropy from non-equilibrium Monte Carlo simulations ( http://arxiv.org/abs/2304.03311v1 )

ライセンス: Link先を確認
Andrea Bulgarelli, Marco Panero(参考訳) 我々はジャジンスキーの定理に基づくシミュレーションアルゴリズムを用いて格子場理論における絡み合いエントロピーを研究する。 我々は,イジングモデルに対する2次元および3次元のエントロピーc-函数に着目し,2次元の共形場理論による既知の解析結果に対してアルゴリズムを検証した後,3次元の場合の新しい結果を示す。 我々は,グラフィック処理ユニットに高度に並列化されているアルゴリズムを用いて,最近研究されている領域法則に対する部分的修正を精度良く決定できることを示す。 この研究の他の強結合理論への可能な一般化について論じる。

We study the entanglement entropy in lattice field theory using a simulation algorithm based on Jarzynski's theorem. We focus on the entropic c-function for the Ising model in two and in three dimensions: after validating our algorithm against known analytical results from conformal field theory in two dimensions, we present novel results for the three-dimensional case. We show that our algorithm, which is highly parallelized on graphics processing units, allows one to precisely determine the subleading corrections to the area law, which have been investigated in many recent works. Possible generalizations of this study to other strongly coupled theories are discussed.
翻訳日:2023-04-10 13:56:24 公開日:2023-04-06
# EGA-Depth: 自己監督型マルチカメラ深度推定のための効率的なガイド付き注意

EGA-Depth: Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation ( http://arxiv.org/abs/2304.03369v1 )

ライセンス: Link先を確認
Yunxiao Shi, Hong Cai, Amin Ansari, Fatih Porikli(参考訳) 現代の自動運転車のユビキタスなマルチカメラ設定は、サラウンドビュー深度を構築する機会を提供する。 しかし、既存の方法は、それぞれのカメラで独立して単眼深度推定を行うか、計算的に重い自己注意機構に依存する。 本稿では,自己監督型マルチカメラ深度推定の効率と精度を両立させる新しい注意アーキテクチャであるEGA-Depthを提案する。 具体的には、それぞれのカメラに対して、そのビュービューをクエリとして、隣接するビューを相互参照して、このカメラビューに対する情報的特徴を導出します。 これにより、モデルはかなりの重複のあるビューにのみ注意を向けることができ、標準の自己注意のコスト計算を避けることができる。 効率を考えると、EGA-Depthは高解像度の視覚的特徴を活用でき、精度が向上する。 さらに、EGA-Depthは、ビューとフレームの数を線形に拡大するにつれて、以前のタイムステップからより多くのフレームを組み込むことができる。 2つの挑戦的自律走行ベンチマーク nuScenes と DDAD による大規模な実験により,提案した EGA-Depth の有効性が実証された。

The ubiquitous multi-camera setup on modern autonomous vehicles provides an opportunity to construct surround-view depth. Existing methods, however, either perform independent monocular depth estimations on each camera or rely on computationally heavy self attention mechanisms. In this paper, we propose a novel guided attention architecture, EGA-Depth, which can improve both the efficiency and accuracy of self-supervised multi-camera depth estimation. More specifically, for each camera, we use its perspective view as the query to cross-reference its neighboring views to derive informative features for this camera view. This allows the model to perform attention only across views with considerable overlaps and avoid the costly computations of standard self-attention. Given its efficiency, EGA-Depth enables us to exploit higher-resolution visual features, leading to improved accuracy. Furthermore, EGA-Depth can incorporate more frames from previous time steps as it scales linearly w.r.t. the number of views and frames. Extensive experiments on two challenging autonomous driving benchmarks nuScenes and DDAD demonstrate the efficacy of our proposed EGA-Depth and show that it achieves the new state-of-the-art in self-supervised multi-camera depth estimation.
翻訳日:2023-04-10 13:49:21 公開日:2023-04-06
# 説明から行動へ: 異常推論と管理のためのエンドツーエンドのヒューマン・イン・ザ・ループフレームワーク

From Explanation to Action: An End-to-End Human-in-the-loop Framework for Anomaly Reasoning and Management ( http://arxiv.org/abs/2304.03368v1 )

ライセンス: Link先を確認
Xueying Ding, Nikita Seleznev, Senthil Kumar, C. Bayan Bruss, Leman Akoglu(参考訳) 異常はしばしば、製造業、医療、金融、監視など様々なシステムにおける機能不全や非効率の指標である。 この実用的妥当性から効果的な検出アルゴリズムでは文献が豊富であるが、現実のシナリオでは自律的異常検出は滅多に用いられない。 特に高スループットアプリケーションでは、ヒューマン・イン・ザ・ループは検証やトラブルシューティングといった検出以外のプロセスに関与していることが多い。 本稿では,検出から行動まで,異常マイニングサイクルを包括的にサポートするエンドツーエンドフレームワークであるアラーム(anomaly reasoning and management)を紹介する。 新たなルールがルールベースの教師付き検出を補完するものとして‘ループ’を閉じるのに役立つような、視覚的な探索、センスメイキング、最終的には新しい検出ルールを設計することで、人間のループプロセスに対する異常な説明と対話的なGUIを提供する。 我々は,金融業界の詐欺アナリストによる一連のケーススタディを通じて,‘method’の有効性を実証する。

Anomalies are often indicators of malfunction or inefficiency in various systems such as manufacturing, healthcare, finance, surveillance, to name a few. While the literature is abundant in effective detection algorithms due to this practical relevance, autonomous anomaly detection is rarely used in real-world scenarios. Especially in high-stakes applications, a human-in-the-loop is often involved in processes beyond detection such as verification and troubleshooting. In this work, we introduce ALARM (for Analyst-in-the-Loop Anomaly Reasoning and Management); an end-to-end framework that supports the anomaly mining cycle comprehensively, from detection to action. Besides unsupervised detection of emerging anomalies, it offers anomaly explanations and an interactive GUI for human-in-the-loop processes -- visual exploration, sense-making, and ultimately action-taking via designing new detection rules -- that help close ``the loop'' as the new rules complement rule-based supervised detection, typical of many deployed systems in practice. We demonstrate \method's efficacy through a series of case studies with fraud analysts from the financial industry.
翻訳日:2023-04-10 13:48:57 公開日:2023-04-06
# 量子制御のための性能境界

Performance Bounds for Quantum Control ( http://arxiv.org/abs/2304.03366v1 )

ライセンス: Link先を確認
Flemming Holtorf, Frank Sch\"afer, Julian Arnold, Christopher Rackauckas, Alan Edelman(参考訳) 量子フィードバックコントローラは、しばしば性能目標と最適性証明書を欠いている。 量子フィルタリング理論とモーメント・オブ・2乗法を組み合わせることで, 量子フィードバック制御問題において, 最良到達可能性能を単調に改善し, 計算可能な境界を与える凸最適化問題の階層を構築する。 本研究では, 連続光子計数およびホモダイン検出測定を受けるキャビティ内のキュービットに対して, ほぼ最適に近い制御器を設計し, 本手法の実用性を実証する。

Quantum feedback controllers often lack performance targets and optimality certificates. We combine quantum filtering theory and moment-sum-of-squares techniques to construct a hierarchy of convex optimization problems that furnish monotonically improving, computable bounds on the best attainable performance for a large class of quantum feedback control problems. We prove convergence of the bounds under technical assumptions and demonstrate the practical utility of our approach by designing certifiably near-optimal controllers for a qubit in a cavity subjected to continuous photon counting and homodyne detection measurements.
翻訳日:2023-04-10 13:48:37 公開日:2023-04-06
# 逆移動のためのロバスト決定型学習

Robust Decision-Focused Learning for Reward Transfer ( http://arxiv.org/abs/2304.03365v1 )

ライセンス: Link先を確認
Abhishek Sharma, Sonali Parbhoo, Omer Gottesman, Finale Doshi-Velez(参考訳) 意思決定型モデルに基づく強化学習(DF)は近年,高い報酬を得る上で最も有効なMDPダイナミクスの学習に集中できる強力なアルゴリズムとして導入されている。 このアプローチは報酬の最適化に学習を集中させることでエージェントのパフォーマンスを高めるが、(mleの観点から)より正確なダイナミクスを学習することで、報酬関数の変化に対して脆弱になる可能性がある。 本研究では,dfソリューションの非識別性を活用したロバスト決定焦点(rdf)アルゴリズムを開発し,報奨関数の変化にロバストなモデルを同時に学習しながら,期待帰納を最大化するモデルを学習する。 本研究では, RDF による報酬関数の変化に対する DF の頑健性は, エージェントが得られる全体的なリターンを低下させることなく著しく向上する, 様々な玩具の例と医療シミュレータについて示す。

Decision-focused (DF) model-based reinforcement learning has recently been introduced as a powerful algorithm which can focus on learning the MDP dynamics which are most relevant for obtaining high rewards. While this approach increases the performance of agents by focusing the learning towards optimizing for the reward directly, it does so by learning less accurate dynamics (from a MLE standpoint), and may thus be brittle to changes in the reward function. In this work, we develop the robust decision-focused (RDF) algorithm which leverages the non-identifiability of DF solutions to learn models which maximize expected returns while simultaneously learning models which are robust to changes in the reward function. We demonstrate on a variety of toy example and healthcare simulators that RDF significantly increases the robustness of DF to changes in the reward function, without decreasing the overall return the agent obtains.
翻訳日:2023-04-10 13:48:30 公開日:2023-04-06
# 小データ量からのNMRシフト予測

NMR shift prediction from small data quantities ( http://arxiv.org/abs/2304.03361v1 )

ライセンス: Link先を確認
Herman Rull, Markus Fischer, Stefan Kuhn(参考訳) 機械学習手法によるNMRの化学シフトの予測は、通常、最良の結果を得るために利用可能な最大データ量で行われる。 場合によっては、ヘテロ核のような大量のデータが利用できない場合もある。 比較的少ないデータ量で良好な結果が得られる新しい機械学習モデルを示す。 我々は、特定の溶媒中の小さな分子の19fおよび13cのnmr化学シフトを予測してこれを示す。

Prediction of chemical shift in NMR using machine learning methods is typically done with the maximum amount of data available to achieve the best results. In some cases, such large amounts of data are not available, e.g. for heteronuclei. We demonstrate a novel machine learning model which is able to achieve good results with comparatively low amounts of data. We show this by predicting 19F and 13C NMR chemical shifts of small molecules in specific solvents.
翻訳日:2023-04-10 13:48:14 公開日:2023-04-06
# 強退化量子制御系に対する高次トラップ

Higher order traps for some strongly degenerate quantum control systems ( http://arxiv.org/abs/2304.03355v1 )

ライセンス: Link先を確認
Boris Volkov, Alexander Pechen(参考訳) 量子制御は、量子システムを最適に操作できるため、様々な現代の量子技術に必要である。 量子制御における重要な問題は、制御対象関数がトラップ動作を持つかどうか、すなわち、トラップがないかどうかを、局所的な探索最適化手法によって回避することが難しいコントロールを確立することである。 a. n. pechen, d. j. tannor, "are there traps in quantum control landscapes?", phys. rev. lett., 106 (2011), 120402] では、3次トラップが発見された。 本稿では、ハミルトニアンの特殊対称性を持つ制御可能な量子系に対して任意の高次トラップが存在することを示す。

Quantum control is necessary for a variety of modern quantum technologies as it allows to optimally manipulate quantum systems. An important problem in quantum control is to establish whether the control objective functional has trapping behaviour or no, namely if it has or no traps -- controls from which it is difficult to escape by local search optimization methods. Higher order traps were previously introduced in [A. N. Pechen, D. J. Tannor, "Are there traps in quantum control landscapes?", Phys. Rev. Lett., 106 (2011), 120402], where 3-rd order traps were found. In this note we show that traps of arbitrarily high order exist for controllable quantum systems with special symmetry in the Hamiltonian.
翻訳日:2023-04-10 13:48:06 公開日:2023-04-06
# メンタルヘルス分析におけるChatGPTと感情増強プロンプトの評価について

On the Evaluations of ChatGPT and Emotion-enhanced Prompting for Mental Health Analysis ( http://arxiv.org/abs/2304.03347v1 )

ライセンス: Link先を確認
Kailai Yang, Shaoxiong Ji, Tianlin Zhang, Qianqian Xie, Sophia Ananiadou(参考訳) メンタルヘルス分析の自動化は、精神医療の効率性とアクセシビリティを高める大きな可能性を示しているが、最近の支配的な手法では、バックボーンとしてプレトレーニング言語モデル(PLM)を使用し、感情情報を組み込んだ。 ChatGPTのような最新の大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに劇的な能力を示す。 しかしながら、chatgptの精神健康分析におけるゼロショット性能に関する既存の研究は、不適切な評価、感情情報の活用、方法の説明可能性に限界がある。 本研究では,ChatGPTのメンタルヘルス分析と感情推論能力について,2段階,多段階のメンタルヘルス状態検出,メンタルヘルス状態の要因・要因検出,会話における感情認識,因果的感情付与を含む5つのタスクからなる11のデータセットで総合的に評価した。 chatgptのメンタルヘルス分析能力と説明可能性に及ぼす感情的手がかりと異なるプロンプト戦略の影響を実証的に分析した。 実験結果から、ChatGPTは従来のニューラルネットワーク手法より優れているが、高度なタスク固有手法と大きな差があることがわかった。 定性的な分析は、高度なブラックボックス法と比較して説明可能性の可能性を示しているが、ロバスト性や不正確な推論の制限も示している。 感情的な手がかりを持つプロンプトエンジニアリングは、メンタルヘルス分析におけるパフォーマンスを改善するのに有効であるが、適切な感情注入方法を必要とする。

Automated mental health analysis shows great potential for enhancing the efficiency and accessibility of mental health care, whereas the recent dominant methods utilized pre-trained language models (PLMs) as the backbone and incorporated emotional information. The latest large language models (LLMs), such as ChatGPT, exhibit dramatic capabilities on diverse natural language processing tasks. However, existing studies on ChatGPT's zero-shot performance for mental health analysis have limitations in inadequate evaluation, utilization of emotional information, and explainability of methods. In this work, we comprehensively evaluate the mental health analysis and emotional reasoning ability of ChatGPT on 11 datasets across 5 tasks, including binary and multi-class mental health condition detection, cause/factor detection of mental health conditions, emotion recognition in conversations, and causal emotion entailment. We empirically analyze the impact of different prompting strategies with emotional cues on ChatGPT's mental health analysis ability and explainability. Experimental results show that ChatGPT outperforms traditional neural network methods but still has a significant gap with advanced task-specific methods. The qualitative analysis shows its potential in explainability compared with advanced black-box methods but also limitations on robustness and inaccurate reasoning. Prompt engineering with emotional cues is found to be effective in improving its performance on mental health analysis but requires the proper way of emotion infusion.
翻訳日:2023-04-10 13:47:52 公開日:2023-04-06
# 推薦のためのグラフコラボレーティブ信号の表示と拡張

Graph Collaborative Signals Denoising and Augmentation for Recommendation ( http://arxiv.org/abs/2304.03344v1 )

ライセンス: Link先を確認
Ziwei Fan, Ke Xu, Dong Zhang, Hao Peng, Jiawei Zhang, Philip S. Yu(参考訳) グラフコラボレーティブフィルタリング(GCF)は、レコメンデーションシステムにおいて高次協調信号をキャプチャする一般的な手法である。 しかし、gcfの2部構成の隣接行列(英語版)は、ユーザ間相互作用に基づいて集約される近傍を定義するが、豊富な相互作用を持つユーザ/項目では騒がしく、相互作用の少ないユーザ/項目では不十分である。 さらに、隣接マトリックスは、ユーザとユーザとアイテムの相関を無視し、有益な隣人が集約される範囲を制限できる。 本研究では,ユーザとアイテムの相関関係を組み込んだ新しいグラフ隣接行列と,全ユーザ間のインタラクション数をバランスさせる適切に設計されたユーザとアイテムの相互作用行列を提案する。 そこで本研究では,ユーザ/テムの埋め込みをグラフベースのレコメンデーション手法で事前学習し,トップKサンプリングによるユーザ-テム相互作用行列の強化を行う。 また、対称ユーザ・ユーザ・アイテム間相関成分を隣接行列に拡張する。 実験により, 隣り合いが向上し, 密度が低下したユーザ・イテム相互作用行列が, グラフベースの推薦において大きな利益をもたらすことを示した。 さらに,ユーザとアイテムの相関関係を包含することで,対話が豊富で不十分なユーザへのレコメンデーションが向上することを示す。 コードは \url{https://github.com/zfan20/GraphDA} にある。

Graph collaborative filtering (GCF) is a popular technique for capturing high-order collaborative signals in recommendation systems. However, GCF's bipartite adjacency matrix, which defines the neighbors being aggregated based on user-item interactions, can be noisy for users/items with abundant interactions and insufficient for users/items with scarce interactions. Additionally, the adjacency matrix ignores user-user and item-item correlations, which can limit the scope of beneficial neighbors being aggregated. In this work, we propose a new graph adjacency matrix that incorporates user-user and item-item correlations, as well as a properly designed user-item interaction matrix that balances the number of interactions across all users. To achieve this, we pre-train a graph-based recommendation method to obtain users/items embeddings, and then enhance the user-item interaction matrix via top-K sampling. We also augment the symmetric user-user and item-item correlation components to the adjacency matrix. Our experiments demonstrate that the enhanced user-item interaction matrix with improved neighbors and lower density leads to significant benefits in graph-based recommendation. Moreover, we show that the inclusion of user-user and item-item correlations can improve recommendations for users with both abundant and insufficient interactions. The code is in \url{https://github.com/zfan20/GraphDA}.
翻訳日:2023-04-10 13:47:25 公開日:2023-04-06
# 自律予測と長期エネルギー負荷予測のためのスピントロニック物理貯留層

Spintronic Physical Reservoir for Autonomous Prediction and Long-Term Household Energy Load Forecasting ( http://arxiv.org/abs/2304.03343v1 )

ライセンス: Link先を確認
Walid Al Misba, Harindra S. Mavikumbure, Md Mahadi Rajib, Daniel L. Marino, Victor Cobilean, Milos Manic, and Jayasimha Atulasimha(参考訳) 本研究では,スピントロニクス物理貯留層を用いた自律的長期予測を行った。 磁化ダイナミクスの短期記憶特性のため、オンライントレーニングに単純な線形回帰を用いた長期予測タスクに使用できる貯留層状態において非線形性が発生する。 予測段階では、出力は自動予測のために貯水池の入力に直接供給される。 提案した貯水池は,マッキーグラスなどのカオス時系列のモデリングや家庭用ビルエネルギー負荷などの動的時系列データに利用される。 RCの最後の層のみを線形回帰でトレーニングする必要があるため、エッジデバイスでリアルタイムに学習するのに適している。 ここでは, 強磁性トンネル接合を原型RCとして使用することができるが, 非線形磁化挙動を有する磁性トンネル接合を実装可能であることを示す。 スピントロニクスの物理RC手法とLSTMやRNNのような最先端エネルギー負荷予測アルゴリズムを比較することにより,提案手法は高い予測精度を実現する上で優れた性能を示すとともに,ハードウェアリソースや電力制約エッジアプリケーションにおいて,低メモリとエネルギを必要とすることを結論付けた。 さらに,提案手法では,家庭の負荷予測を精度良く行うために,最先端のlstmに比較して,非常に小さなトレーニングデータセットを必要とすると同時に,少なくとも16倍のエネルギー効率が期待できることを示した。

In this study, we have shown autonomous long-term prediction with a spintronic physical reservoir. Due to the short-term memory property of the magnetization dynamics, non-linearity arises in the reservoir states which could be used for long-term prediction tasks using simple linear regression for online training. During the prediction stage, the output is directly fed to the input of the reservoir for autonomous prediction. We employ our proposed reservoir for the modeling of the chaotic time series such as Mackey-Glass and dynamic time-series data, such as household building energy loads. Since only the last layer of a RC needs to be trained with linear regression, it is well suited for learning in real time on edge devices. Here we show that a skyrmion based magnetic tunnel junction can potentially be used as a prototypical RC but any nanomagnetic magnetic tunnel junction with nonlinear magnetization behavior can implement such a RC. By comparing our spintronic physical RC approach with state-of-the-art energy load forecasting algorithms, such as LSTMs and RNNs, we conclude that the proposed framework presents good performance in achieving high predictions accuracy, while also requiring low memory and energy both of which are at a premium in hardware resource and power constrained edge applications. Further, the proposed approach is shown to require very small training datasets and at the same time being at least 16X energy efficient compared to the state-of-the-art sequence to sequence LSTM for accurate household load predictions.
翻訳日:2023-04-10 13:47:00 公開日:2023-04-06
# 最大順序二因子化

Maximal Ordinal Two-Factorizations ( http://arxiv.org/abs/2304.03338v1 )

ライセンス: Link先を確認
Dominik D\"urrschnabel, Gerd Stumme(参考訳) 形式的な文脈が与えられたとき、順序因子(ordinal factor)は、その帰納関係のサブセットであり、概念格子、すなわち、線形次数に対応するデータセットの一部において鎖を形成する。 形式的な文脈でデータを視覚化するために、ganterとglodeanuは2つの順序因子に基づく二項法を提案した。 ビプロットが有用であるためには、これらの因子が可能な限り多くのデータポイント、すなわち入射関係の大部分をカバーしていることが重要である。 本研究では,このような順序二因子化について検討する。 まず,2つの因子の相違を省略する形式的文脈について検討する。 そこで,与えられた大きさの2要素化の存在を決定することはNP完全問題であり,計算コストが高いことを示す。 最後に、大きな順序の2要素化を計算できるアルゴリズムOrd2Factorを提供する。

Given a formal context, an ordinal factor is a subset of its incidence relation that forms a chain in the concept lattice, i.e., a part of the dataset that corresponds to a linear order. To visualize the data in a formal context, Ganter and Glodeanu proposed a biplot based on two ordinal factors. For the biplot to be useful, it is important that these factors comprise as much data points as possible, i.e., that they cover a large part of the incidence relation. In this work, we investigate such ordinal two-factorizations. First, we investigate for formal contexts that omit ordinal two-factorizations the disjointness of the two factors. Then, we show that deciding on the existence of two-factorizations of a given size is an NP-complete problem which makes computing maximal factorizations computationally expensive. Finally, we provide the algorithm Ord2Factor that allows us to compute large ordinal two-factorizations.
翻訳日:2023-04-10 13:46:36 公開日:2023-04-06
# 水中のnerfを超えて:海洋画像の真の色補正のための神経反射領域の学習

Beyond NeRF Underwater: Learning Neural Reflectance Fields for True Color Correction of Marine Imagery ( http://arxiv.org/abs/2304.03384v1 )

ライセンス: Link先を確認
Tianyi Zhang and Matthew Johnson-Roberson(参考訳) 水中画像は、海洋生物学や地理における底質環境の研究を複雑にする光-水相互作用の結果、しばしば歪んだ着色を示す。 本研究では,水中画像における真の色(アルベド)を,メディア表現とニューラルシーン表現との協調学習によって復元するアルゴリズムを提案する。 我々のアプローチは、光減衰と距離と後方散乱光の組み合わせとして水効果をモデル化する。 提案するニューラルシーン表現は, 水中環境のアルベド, 正常, 体積密度を学習するニューラルリフレクタンス場モデルに基づく。 現場から水を分離するためのロジスティック回帰モデルを導入し,トレーニング中に異なる光物理を適用した。 提案手法は,複数の近似を用いて複雑な後方散乱効果を推定する必要性を回避し,トレーニング中のサンプリング効率と数値安定性を向上する。 提案手法は,水中光効果をエンドツーエンドの識別性を備えたボリュームレンダリングフレームワークに統合する。 合成データと実世界のデータの両方における実験結果から,本手法が水中画像から真の色を効果的に復元し,カラー一貫性の観点から既存のアプローチを上回っていることが分かる。

Underwater imagery often exhibits distorted coloration as a result of light-water interactions, which complicates the study of benthic environments in marine biology and geography. In this research, we propose an algorithm to restore the true color (albedo) in underwater imagery by jointly learning the effects of the medium and neural scene representations. Our approach models water effects as a combination of light attenuation with distance and backscattered light. The proposed neural scene representation is based on a neural reflectance field model, which learns albedos, normals, and volume densities of the underwater environment. We introduce a logistic regression model to separate water from the scene and apply distinct light physics during training. Our method avoids the need to estimate complex backscatter effects in water by employing several approximations, enhancing sampling efficiency and numerical stability during training. The proposed technique integrates underwater light effects into a volume rendering framework with end-to-end differentiability. Experimental results on both synthetic and real-world data demonstrate that our method effectively restores true color from underwater imagery, outperforming existing approaches in terms of color consistency.
翻訳日:2023-04-10 13:40:34 公開日:2023-04-06
# スコアマッチングによるスケーラブルな因果発見

Scalable Causal Discovery with Score Matching ( http://arxiv.org/abs/2304.03382v1 )

ライセンス: Link先を確認
Francesco Montagna, Nicoletta Noceti, Lorenzo Rosasco, Kun Zhang, Francesco Locatello(参考訳) 本稿では, 非線形付加型ガウス雑音モデルにおいて, 対数類似度の第2微分から因果グラフ全体の発見方法を示す。 スケーラブルな機械学習アプローチを活用してスコア関数 $\nabla \log p(\mathbf{X})$ を近似すると、スコアから位相的順序を回復するだけであり、注文によって認められた間の刺激的なエッジを除去する高価なプルーニングステップを必要とするRolland et al. (2022) の作業を拡張する。 das(acronym for discovery at scale)は,グラフサイズに比例する因子によってプルーニングの複雑さを減少させる実用的なアルゴリズムである。 実際には、DASは現在の最先端技術と競合し、桁違いに高速である。 全体として、当社のアプローチは原則的かつスケーラブルな因果発見を可能にし、計算バーを大幅に削減します。

This paper demonstrates how to discover the whole causal graph from the second derivative of the log-likelihood in observational non-linear additive Gaussian noise models. Leveraging scalable machine learning approaches to approximate the score function $\nabla \log p(\mathbf{X})$, we extend the work of Rolland et al. (2022) that only recovers the topological order from the score and requires an expensive pruning step removing spurious edges among those admitted by the ordering. Our analysis leads to DAS (acronym for Discovery At Scale), a practical algorithm that reduces the complexity of the pruning by a factor proportional to the graph size. In practice, DAS achieves competitive accuracy with current state-of-the-art while being over an order of magnitude faster. Overall, our approach enables principled and scalable causal discovery, significantly lowering the compute bar.
翻訳日:2023-04-10 13:40:13 公開日:2023-04-06
# 量子液滴の低エネルギー二元衝突による回転ダイナミクス

Rotational dynamics induced by low energy binary collisions of quantum droplets ( http://arxiv.org/abs/2304.03379v1 )

ライセンス: Link先を確認
J. E. Alba-Arroyo, S. F. Caballero-Benitez, R. Jauregui(参考訳) 超低温原子から構成される量子滴の軸外二元衝突によって引き起こされる回転運動の理論的解析を報告する。 本研究では,アルカリ原子の2成分混合物からなる希薄ボースガスの縮退により生成する量子滴に着目した。 基底状態の安定性は、選択されたヘテロ核気体が同核気体よりも長いことが知られている。 いずれの場合も、動力学はそれぞれの原子種の密度の類似性が高いことが判明した。 しかし、対応する秩序パラメータの位相の進化は、異核混成体では著しく異なる。 我々は,各原子種の順序パラメータの重なりのメリットとして,忠実性を評価した。 順序パラメータの位相差の動的証拠は、対応する線形モーメントと角モーメントに現れると予測される。 衝突中,全角モーメントと直線モーメントがともに保存されていることを数値的に検証した。 ウェーバー数と衝突パラメータと動的変数の分布との直接的な相関関係を確立する。

A theoretical analysis of the rotational dynamics induced by off axis binary collisions of quantum droplets constituted by ultracold atoms is reported. We focus on quantum droplets formed by degenerate dilute Bose gases made up from binary mixtures of alkaline atoms under feasible experimental conditions. The stability of the ground state is known to be longer for the chosen heteronuclear gases than for the homonuclear ones. In both cases, we find out that the dynamics seems to privilege a high similarity of the density of each atomic species. However, the evolution of the phase of the corresponding order parameter differs significantly for heteronuclear admixtures. We evaluate the fidelity as a figure of merit for the overlap between the order parameters of each atomic species. Dynamical evidence of the differences between the phase of the order parameters are predicted to manifest in their corresponding linear and angular momenta. We numerically verify that the total angular and linear momenta are conserved both during the collision. Some direct correlations between the Weber number and the impact parameter with the distribution of the dynamical variables are established.
翻訳日:2023-04-10 13:39:57 公開日:2023-04-06
# 自己監督型ビデオ類似学習

Self-Supervised Video Similarity Learning ( http://arxiv.org/abs/2304.03378v1 )

ライセンス: Link先を確認
Giorgos Kordopatis-Zilos and Giorgos Tolias and Christos Tzelepis and Ioannis Kompatsiaris and Ioannis Patras and Symeon Papadopoulos(参考訳) S$^2$VSは,自己監督型ビデオ類似性学習手法である。 自己教師付き学習(ssl)は、一般的にプロキシタスクの深いモデルをトレーニングするために使用され、微調整後のターゲットタスクへの強い転送性を持つ。 ここでは、以前の作業とは対照的に、SSLはビデオ類似性学習を行い、ラベル付きデータを使わずに一度に複数の検索および検出タスクに対処するために使用される。 これは、タスク調整強化によるインスタンス識別と、広く使われているInfoNCEの損失と、自己相似性とハード負の類似性に基づく追加の損失によって学習される。 本手法は,ビデオコピーから同一のインシデントやイベントを描写したビデオまで,さまざまな粒度で映像の関連性を定義するタスクに対してベンチマークを行う。 すべてのタスクで最先端のパフォーマンスを実現する単一のユニバーサルモデルを学び、ラベル付きデータを使用する提案手法を上回っていきます。 コードと事前訓練されたモデルは、以下の通り公開されている。

We introduce S$^2$VS, a video similarity learning approach with self-supervision. Self-Supervised Learning (SSL) is typically used to train deep models on a proxy task so as to have strong transferability on target tasks after fine-tuning. Here, in contrast to prior work, SSL is used to perform video similarity learning and address multiple retrieval and detection tasks at once with no use of labeled data. This is achieved by learning via instance-discrimination with task-tailored augmentations and the widely used InfoNCE loss together with an additional loss operating jointly on self-similarity and hard-negative similarity. We benchmark our method on tasks where video relevance is defined with varying granularity, ranging from video copies to videos depicting the same incident or event. We learn a single universal model that achieves state-of-the-art performance on all tasks, surpassing previously proposed methods that use labeled data. The code and pretrained models are publicly available at: \url{https://github.com/gkordo/s2vs}
翻訳日:2023-04-10 13:39:43 公開日:2023-04-06
# 神経集団の動態と幾何学の解釈可能な統計表現

Interpretable statistical representations of neural population dynamics and geometry ( http://arxiv.org/abs/2304.03376v1 )

ライセンス: Link先を確認
Adam Gosztolai, Robert L. Peach, Alexis Arnaudon, Mauricio Barahona, Pierre Vandergheynst(参考訳) 多様なタスク中のニューロン集団のダイナミクスは、しばしば低次元多様体上で進化する。 しかし、関連する行動変数をエンコーディングするための幾何学と力学の貢献を理解することは依然として困難である。 本稿では,局所相ポートレート特徴の統計的分布に基づく非線形力学系を表現するための教師なし幾何深層学習フレームワークを提案する。 本手法は,計測軌跡に基づく力学の非バイアス比較のためのロバストな幾何認識あるいは幾何非依存表現を提供する。 提案手法は,計算機構を識別するためにニューラルネットワークのインスタンスを一般化し,手指運動学と幾何学的対応を持つ霊長類到達課題における神経力学の解釈可能な組込みを求め,最先端精度の復号アルゴリズムを開発した。 本研究は,時間的情報よりも本質的多様体構造を用い,より優れた復号アルゴリズムを開発し,実験間でデータを同化することの重要性を浮き彫りにする。

The dynamics of neuron populations during diverse tasks often evolve on low-dimensional manifolds. However, it remains challenging to discern the contributions of geometry and dynamics for encoding relevant behavioural variables. Here, we introduce an unsupervised geometric deep learning framework for representing non-linear dynamical systems based on statistical distributions of local phase portrait features. Our method provides robust geometry-aware or geometry-agnostic representations for the unbiased comparison of dynamics based on measured trajectories. We demonstrate that our statistical representation can generalise across neural network instances to discriminate computational mechanisms, obtain interpretable embeddings of neural dynamics in a primate reaching task with geometric correspondence to hand kinematics, and develop a decoding algorithm with state-of-the-art accuracy. Our results highlight the importance of using the intrinsic manifold structure over temporal information to develop better decoding algorithms and assimilate data across experiments.
翻訳日:2023-04-10 13:39:27 公開日:2023-04-06
# 推論におけるWikidataQualifierの扱い

Handling Wikidata Qualifiers in Reasoning ( http://arxiv.org/abs/2304.03375v1 )

ライセンス: Link先を確認
Sahar Aljalbout, Gilles Falquet, Didier Buchs(参考訳) Wikidataは、様々なアプリケーションのために多くのコミュニティで採用されている知識グラフである。 Wikidataステートメントには、そのステートメントの妥当性、因果性、証明などといった情報を記述するのに使用される修飾子と値のペアがアノテートされている。 推論における修飾子処理は難しい問題である。 推論規則(特に、存在論的性質の規則(y の x サブクラス、x の z インスタンスなど)を定義するとき、それらの多くは文の意味論に参加するので、等式を考える必要がある。 これは複雑な問題を引き起こす。 a) 多数の修飾子が存在し,かつ b) 推論された文の修飾子はしばしば,規則条件における修飾子の組み合わせである。 本稿では,この問題に対処することを提案する。 a) 修飾子の分類を定義すること b) Wikidataモデルを多種多様な論理言語で形式化する。 我々は、この論理を推論規則の修飾子を効果的に扱う手段を提供する代数的仕様と結合する。 この作業は、現在のウィキデータオントロジなプロパティの表現をサポートする。 最後に,本研究を実践するための方法論とプロトタイプ実装について述べる。

Wikidata is a knowledge graph increasingly adopted by many communities for diverse applications. Wikidata statements are annotated with qualifier-value pairs that are used to depict information, such as the validity context of the statement, its causality, provenances, etc. Handling the qualifiers in reasoning is a challenging problem. When defining inference rules (in particular, rules on ontological properties (x subclass of y, z instance of x, etc.)), one must consider the qualifiers, as most of them participate in the semantics of the statements. This poses a complex problem because a) there is a massive number of qualifiers, and b) the qualifiers of the inferred statement are often a combination of the qualifiers in the rule condition. In this work, we propose to address this problem by a) defining a categorization of the qualifiers b) formalizing the Wikidata model with a many-sorted logical language; the sorts of this language are the qualifier categories. We couple this logic with an algebraic specification that provides a means for effectively handling qualifiers in inference rules. The work supports the expression of all current Wikidata ontological properties. Finally, we discuss the methodology for practically implementing the work and present a prototype implementation.
翻訳日:2023-04-10 13:39:11 公開日:2023-04-06
# 活性化関数発見と自動重み初期化によるニューラルネットワークの最適化

Optimizing Neural Networks through Activation Function Discovery and Automatic Weight Initialization ( http://arxiv.org/abs/2304.03374v1 )

ライセンス: Link先を確認
Garrett Bingham(参考訳) 自動機械学習(automl)メソッドは、設計のさまざまな側面を最適化することで、既存のモデルを改善する。 本稿では,ハイパーパラメータとニューラルネットワークトポロジに着目し,ニューラルネットワーク設計の他の側面も最適化できる。 この論文では、より強力なアクティベーション関数を発見し、ニューラルネットワークのより堅牢なウェイト初期化を確立する技術が導入されている。 これらの貢献によってパフォーマンスは向上するが、ニューラルネットワークの最適化に関する新たな視点も提供される。 まず、論文は特定のアーキテクチャやタスクに特化したソリューションの発見が一般的なアプローチを再利用するよりも優れたパフォーマンスをもたらすことを示している。 第二に、ニューラルネットワークの異なるコンポーネントを共同最適化することは相乗的であり、個々のコンポーネントのみを最適化するよりもパフォーマンスが向上することを示している。 第3に、学習表現はハードコード表現よりも最適化が容易であることを示し、automlのさらなる機会を生み出している。 この論文は、将来完全自動機械学習への具体的な進歩をもたらす。

Automated machine learning (AutoML) methods improve upon existing models by optimizing various aspects of their design. While present methods focus on hyperparameters and neural network topologies, other aspects of neural network design can be optimized as well. To further the state of the art in AutoML, this dissertation introduces techniques for discovering more powerful activation functions and establishing more robust weight initialization for neural networks. These contributions improve performance, but also provide new perspectives on neural network optimization. First, the dissertation demonstrates that discovering solutions specialized to specific architectures and tasks gives better performance than reusing general approaches. Second, it shows that jointly optimizing different components of neural networks is synergistic, and results in better performance than optimizing individual components alone. Third, it demonstrates that learned representations are easier to optimize than hard-coded ones, creating further opportunities for AutoML. The dissertation thus makes concrete progress towards fully automatic machine learning in the future.
翻訳日:2023-04-10 13:38:52 公開日:2023-04-06
# クロスアテンションガイダンスを用いたトレーニングフリーレイアウト制御

Training-Free Layout Control with Cross-Attention Guidance ( http://arxiv.org/abs/2304.03373v1 )

ライセンス: Link先を確認
Minghao Chen, Iro Laina, Andrea Vedaldi(参考訳) 近年の拡散型ジェネレータはテキストプロンプトのみに基づいて高品質な画像を生成することができる。 しかし、それらは構成の空間配置を規定する指示を正しく解釈するものではない。 画像生成器のトレーニングや微調整を必要とせず,ロバストなレイアウト制御を実現するための簡易な手法を提案する。 我々の手法はレイアウト誘導と呼ばれ、モデルがテキストや視覚情報をインターフェースするために使用する横断的なレイヤを操作し、ユーザが指定したレイアウトなどの所望の方向で再構築を行う。 注意喚起方法を決定するため,画像生成における注意マップの役割について検討し,前向きと後向きの2つの戦略を実験的に検討した。 本手法をいくつかの実験により定量的に定性的に評価し,その有効性を検証した。 さらに,実画像のレイアウトとコンテキストを編集するタスクにレイアウトガイダンスを拡張することで,その汎用性を実証する。

Recent diffusion-based generators can produce high-quality images based only on textual prompts. However, they do not correctly interpret instructions that specify the spatial layout of the composition. We propose a simple approach that can achieve robust layout control without requiring training or fine-tuning the image generator. Our technique, which we call layout guidance, manipulates the cross-attention layers that the model uses to interface textual and visual information and steers the reconstruction in the desired direction given, e.g., a user-specified layout. In order to determine how to best guide attention, we study the role of different attention maps when generating images and experiment with two alternative strategies, forward and backward guidance. We evaluate our method quantitatively and qualitatively with several experiments, validating its effectiveness. We further demonstrate its versatility by extending layout guidance to the task of editing the layout and context of a given real image.
翻訳日:2023-04-10 13:38:36 公開日:2023-04-06
# TopNet: 画像合成のためのトランスフォーマーベースのオブジェクト配置ネットワーク

TopNet: Transformer-based Object Placement Network for Image Compositing ( http://arxiv.org/abs/2304.03372v1 )

ライセンス: Link先を確認
Sijie Zhu, Zhe Lin, Scott Cohen, Jason Kuen, Zhifei Zhang, Chen Chen(参考訳) 画像合成のための背景画像にオブジェクトを自動配置する問題について検討する。 背景画像とセグメント化されたオブジェクトが与えられた場合、そのオブジェクトのもっともらしい配置(位置とスケール)を予測するためにモデルを訓練することが目的である。 合成画像の品質は予測位置/スケールに大きく依存する。 既存の作品では、候補バウンディングボックスを生成するか、背景画像とオブジェクト画像からのグローバル表現を使用してスライディングウィンドウ検索を適用するが、背景画像のローカル情報をモデル化できない。 しかし、背景画像の局所的な手がかりは、特定の位置/スケールにオブジェクトを配置する互換性を決定するために重要である。 本稿では,オブジェクト特徴とすべての局所的背景特徴の相関関係をトランスフォーマモジュールで学習し,可能なすべての位置/スケール設定について詳細な情報を提供する。 スパースな監督の下でモデルをトレーニングするために、スパースコントラスト損失がさらに提案されています。 我々の新しい定式化は,従来のスライディングウインドウ法よりも10倍以上高速な1つのネットワークフォワードパスにおけるすべての位置/スケールの組み合わせの可視性を示す3Dヒートマップを生成する。 ユーザが事前に定義された場所や規模を提供する場合の対話型検索もサポートする。 提案手法は,市販のインペインティングモデルを用いて,明示的アノテーションや自己指導的手法で訓練することができる。 ユーザスタディによると、トレーニングされたモデルは、さまざまな挑戦的なシーンとオブジェクトカテゴリを持つ実世界のイメージにうまく一般化する。

We investigate the problem of automatically placing an object into a background image for image compositing. Given a background image and a segmented object, the goal is to train a model to predict plausible placements (location and scale) of the object for compositing. The quality of the composite image highly depends on the predicted location/scale. Existing works either generate candidate bounding boxes or apply sliding-window search using global representations from background and object images, which fail to model local information in background images. However, local clues in background images are important to determine the compatibility of placing the objects with certain locations/scales. In this paper, we propose to learn the correlation between object features and all local background features with a transformer module so that detailed information can be provided on all possible location/scale configurations. A sparse contrastive loss is further proposed to train our model with sparse supervision. Our new formulation generates a 3D heatmap indicating the plausibility of all location/scale combinations in one network forward pass, which is over 10 times faster than the previous sliding-window method. It also supports interactive search when users provide a pre-defined location or scale. The proposed method can be trained with explicit annotation or in a self-supervised manner using an off-the-shelf inpainting model, and it outperforms state-of-the-art methods significantly. The user study shows that the trained model generalizes well to real-world images with diverse challenging scenes and object categories.
翻訳日:2023-04-10 13:38:23 公開日:2023-04-06
# テストタイムアタックと分散シフトのための信頼性のある学習

Reliable Learning for Test-time Attacks and Distribution Shift ( http://arxiv.org/abs/2304.03370v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Steve Hanneke, Rattana Pukdee, Dravyansh Sharma(参考訳) 機械学習アルゴリズムは、最も注意深く取得されたトレーニングデータでも正確にキャプチャされない環境で使用されることが多い。 テストタイムアタックでは,新たな堅牢な信頼性保証を導入し,信頼性半径$\eta$とともに予測を出力する必要がある。これは,敵が距離$\eta$よりも遠くまでテストポイントを乱さない限り,その予測が正しいことが保証されることを意味する。 我々は,任意の試験点において常に可能な限りの信頼性半径を出力するという意味で最適な学習者を提供し,信頼性領域,すなわち与えられた信頼性半径が達成可能な点の集合を特徴付ける。 さらに, 実験点が訓練分布pとは異なる任意の分布qから来る分布シフト下での信頼性の高い学習者の解析を行い, いずれの場合においても, 信頼性の高い領域の確率質量を, ほぼ対数凸分布とs凸分布の線形分離器, 滑らかな確率分布の滑らかな境界分類器に限定した。

Machine learning algorithms are often used in environments which are not captured accurately even by the most carefully obtained training data, either due to the possibility of `adversarial' test-time attacks, or on account of `natural' distribution shift. For test-time attacks, we introduce and analyze a novel robust reliability guarantee, which requires a learner to output predictions along with a reliability radius $\eta$, with the meaning that its prediction is guaranteed to be correct as long as the adversary has not perturbed the test point farther than a distance $\eta$. We provide learners that are optimal in the sense that they always output the best possible reliability radius on any test point, and we characterize the reliable region, i.e. the set of points where a given reliability radius is attainable. We additionally analyze reliable learners under distribution shift, where the test points may come from an arbitrary distribution Q different from the training distribution P. For both cases, we bound the probability mass of the reliable region for several interesting examples, for linear separators under nearly log-concave and s-concave distributions, as well as for smooth boundary classifiers under smooth probability distributions.
翻訳日:2023-04-10 13:37:57 公開日:2023-04-06
# CAPOT:ポストトレーニングコントラストアライメントを用いたロバストDenseクエリエンコーダの作成

CAPOT: Creating Robust Dense Query Encoders using Post Training Contrastive Alignment ( http://arxiv.org/abs/2304.03401v1 )

ライセンス: Link先を確認
Daniel Campos, ChengXiang Zhai, and Alessandro Magnani(参考訳) 文脈表現の成功とニューラル情報検索の進歩により、密度の高いベクトルベース検索は、通過と文書ランキングの標準的なアプローチとなった。 効率的かつ効率的なデュアルエンコーダは、クエリの分散やノイズの多いクエリのばらつきに対して脆弱である。 データ拡張はモデルをより堅牢にするが、トレーニングセット生成にオーバーヘッドをもたらし、再トレーニングとインデックスの再生を必要とする。 本研究では,索引再生やトレーニングセットの最適化,変更を必要とせず,モデルのロバスト性を向上させる高効率な微調整手法であるcompactive alignment post training (capot)を提案する。 CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。 MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。

The success of contextual word representations and advances in neural information retrieval have made dense vector-based retrieval a standard approach for passage and document ranking. While effective and efficient, dual-encoders are brittle to variations in query distributions and noisy queries. Data augmentation can make models more robust but introduces overhead to training set generation and requires retraining and index regeneration. We present Contrastive Alignment POst Training (CAPOT), a highly efficient finetuning method that improves model robustness without requiring index regeneration, the training set optimization, or alteration. CAPOT enables robust retrieval by freezing the document encoder while the query encoder learns to align noisy queries with their unaltered root. We evaluate CAPOT noisy variants of MSMARCO, Natural Questions, and Trivia QA passage retrieval, finding CAPOT has a similar impact as data augmentation with none of its overhead.
翻訳日:2023-04-10 13:31:46 公開日:2023-04-06
# RoSteALS: Autoencoder Latent Space を用いたロバストステガノグラフィ

RoSteALS: Robust Steganography using Autoencoder Latent Space ( http://arxiv.org/abs/2304.03400v1 )

ライセンス: Link先を確認
Tu Bui, Shruti Agarwal, Ning Yu and John Collomosse(参考訳) ステガノグラフィーや目に見えない透かしなどのデータ隠蔽は、著作権保護、プライバシー保護された通信、コンテンツ証明に重要な応用がある。 既存の作品は、画像の品質を維持するか、摂動に対する頑丈さを保っているか、訓練するには複雑すぎるかのいずれかで不足することが多い。 本研究では,凍結学習済みオートエンコーダを応用し,カバー画像の分布学習からペイロード埋め込みを解放する実用的なステガノグラフィー手法であるrostealsを提案する。 RoSteALSは、たった300kパラメータの軽量なシークレットエンコーダを持ち、訓練が容易で、完全なシークレットリカバリ性能と3つのベンチマークで同等の画像品質を持つ。 さらに、rostealsは、ノイズからカバー画像をサンプリングしたり、雑音拡散プロセスを介してテキストプロンプトで条件付けしたりできる、新しいカバーレスステガノグラフィアプリケーションに適用することができる。 我々のモデルとコードは \url{https://github.com/TuBui/RoSteALS} で利用可能です。

Data hiding such as steganography and invisible watermarking has important applications in copyright protection, privacy-preserved communication and content provenance. Existing works often fall short in either preserving image quality, or robustness against perturbations or are too complex to train. We propose RoSteALS, a practical steganography technique leveraging frozen pretrained autoencoders to free the payload embedding from learning the distribution of cover images. RoSteALS has a light-weight secret encoder of just 300k parameters, is easy to train, has perfect secret recovery performance and comparable image quality on three benchmarks. Additionally, RoSteALS can be adapted for novel cover-less steganography applications in which the cover image can be sampled from noise or conditioned on text prompts via a denoising diffusion process. Our model and code are available at \url{https://github.com/TuBui/RoSteALS}.
翻訳日:2023-04-10 13:31:29 公開日:2023-04-06
# アラビア語における名前付きエンティティ認識のための新しいデータセットを用いたLSTMとGRU

Using LSTM and GRU With a New Dataset for Named Entity Recognition in the Arabic Language ( http://arxiv.org/abs/2304.03399v1 )

ライセンス: Link先を確認
Alaa Shaker, Alaa Aldarf and Igor Bessmertny(参考訳) 名前付きエンティティ認識(NER)は自然言語処理タスク(NLP)であり、名前付きエンティティを識別し、人、場所、組織などとして分類することを目的としている。 アラビア語では、構造化されていないデータのかなりのサイズを見つけることができ、(英語、ロシア語、ドイツ語など)言語とは異なる事前処理ツールが必要である。 この点から、構造化データの欠如を解決するために、新しい構造化データセットを構築することが重要であることに留意する。 この作業では、単語をタグ付けするためにBIIOESフォーマットを使用し、複数の文からなるネストされた名前エンティティを処理し、名前の開始と終了を定義する。 データセットは3万6千以上のレコードで構成されている。 さらに本研究では,アラビア語で名前付きエンティティ認識モデルを構築するためのlong short term memory (lstm) と gated recurrent units (gru) を提案する。 LSTMとGRUモデルは文の単語間の関係を見つけることができるので、モデルはほぼ良い結果(80%)が得られる。 また、traxとplatform colabというgoogleの新しいライブラリも使用します。

Named entity recognition (NER) is a natural language processing task (NLP), which aims to identify named entities and classify them like person, location, organization, etc. In the Arabic language, we can find a considerable size of unstructured data, and it needs to different preprocessing tool than languages like (English, Russian, German...). From this point, we can note the importance of building a new structured dataset to solve the lack of structured data. In this work, we use the BIOES format to tag the word, which allows us to handle the nested name entity that consists of more than one sentence and define the start and the end of the name. The dataset consists of more than thirty-six thousand records. In addition, this work proposes long short term memory (LSTM) units and Gated Recurrent Units (GRU) for building the named entity recognition model in the Arabic language. The models give an approximately good result (80%) because LSTM and GRU models can find the relationships between the words of the sentence. Also, use a new library from Google, which is Trax and platform Colab
翻訳日:2023-04-10 13:31:09 公開日:2023-04-06
# 量子機械学習における信頼性不確かさの量子コンフォーマル予測

Quantum Conformal Prediction for Reliable Uncertainty Quantification in Quantum Machine Learning ( http://arxiv.org/abs/2304.03398v1 )

ライセンス: Link先を確認
Sangwoo Park, Osvaldo Simeone(参考訳) 量子機械学習は、現在のノイズの多い中間スケール量子(NISQ)コンピュータにおける量子アルゴリズムの最適化のための有望なプログラミングパラダイムである。 量子機械学習における基本的な課題は、設計者が限られたトレーニングデータのみにアクセスしながら、テスト条件下でのパフォーマンスを目標とする一般化である。 既存の一般化分析は、重要な一般的な傾向とスケーリング法則を識別する一方で、量子モデルによる決定に信頼性があり情報的な「エラーバー」を割り当てるには使用できない。 本稿では,トレーニングデータ量,ショット数,アンサッツ数,トレーニングアルゴリズム,量子ハードウェアノイズの有無に関わらず,量子モデルの不確実性を確実に定量化するための一般的な手法を提案する。 確率的共形予測に基づくこのアプローチは、事前訓練された量子モデルから、任意の(おそらくは小さい)ショット数を、所望のカバレッジレベルを持つ真のターゲットを含む、例えば間隔のような、セットされた予測に変換する。 実験結果は、量子共形予測と呼ばれる提案フレームワークの理論的校正保証を確認した。

Quantum machine learning is a promising programming paradigm for the optimization of quantum algorithms in the current era of noisy intermediate scale quantum (NISQ) computers. A fundamental challenge in quantum machine learning is generalization, as the designer targets performance under testing conditions, while having access only to limited training data. Existing generalization analyses, while identifying important general trends and scaling laws, cannot be used to assign reliable and informative "error bars" to the decisions made by quantum models. In this article, we propose a general methodology that can reliably quantify the uncertainty of quantum models, irrespective of the amount of training data, of the number of shots, of the ansatz, of the training algorithm, and of the presence of quantum hardware noise. The approach, which builds on probabilistic conformal prediction, turns an arbitrary, possibly small, number of shots from a pre-trained quantum model into a set prediction, e.g., an interval, that provably contains the true target with any desired coverage level. Experimental results confirm the theoretical calibration guarantees of the proposed framework, referred to as quantum conformal prediction.
翻訳日:2023-04-10 13:30:50 公開日:2023-04-06
# 高次元量子認証削除

High-Dimensional Quantum Certified Deletion ( http://arxiv.org/abs/2304.03397v1 )

ライセンス: Link先を確認
Felix Hufnagel, Anne Broadbent, and Ebrahim Karimi(参考訳) Certified Deletion(認証削除)は、AliceからBobへの情報共有を可能にするプロトコルであり、Bobが情報を削除した場合、検証キーを提供することで削除が行われたことをAliceに証明することができる。 Bobがこの検証を提供し、送信されたメッセージに関する情報を取得することは不可能である。 この種のプロトコルは量子情報に特有のものであり、古典的なアプローチでは実現できない。 ここでは、複数のパーティを組み込むのに使用できる、認定削除の高次元バージョンの概要を述べるために、以前の作業を拡張します。 また,これらのプロトコルが実現可能かどうかを初めて実験的に検証し,最初の2次元提案と8次元までの高次元シナリオを実証した。

Certified deletion is a protocol which allows two parties to share information, from Alice to Bob, in such a way that if Bob chooses to delete the information, he can prove to Alice that the deletion has taken place by providing a verification key. It is not possible for Bob to both provide this verification, and gain information about the message that was sent. This type of protocol is unique to quantum information and cannot be done with classical approaches. Here, we expand on previous work to outline a high-dimensional version of certified deletion that can be used to incorporate multiple parties. We also experimentally verify the feasibility of these protocols for the first time, demonstrating the original 2-dimensional proposal, as well as the high-dimensional scenario up to dimension 8.
翻訳日:2023-04-10 13:30:31 公開日:2023-04-06
# オピニオンマイニングのための深層学習とコースレビューのトピック分類

Deep Learning for Opinion Mining and Topic Classification of Course Reviews ( http://arxiv.org/abs/2304.03394v1 )

ライセンス: Link先を確認
Anna Koufakou(参考訳) あるコースの学生の意見は、コースの種類や機関に関係なく、教育者や管理者にとって重要である。 オープンエンドフィードバックの読み書きと手作業による分析は、機関レベルの大量のコメントやオンラインフォーラムでは実現不可能である。 本稿では,オンラインで公開されている多数のコースレビューを収集し,事前処理した。 我々は,学生の感情やトピックに対する洞察を得るために,機械学習技術を適用した。 具体的には,単語埋め込みや深層ニューラルネットワーク,最先端のBERT(Bidirectional Encoder Representations from Transformers),RoBERTa(Robustly Optimization BERT approach),XLNet(Generalized Auto-Regression Pre-training)といった現在の自然言語処理(NLP)技術を利用した。 これらの手法と従来の手法を比較検討した。 本研究は,授業フィードバックを利用した感情極性抽出とトピックベース分類に現代的機械学習を適用する方法を示す。 感情極性では、トップモデルは95.5\%のRoBERTaと84.7\%のF1-macro、トピック分類ではSVM(Support Vector Machine)が79.8\%のF1-macroである。 また,ハイパーパラメータがモデル性能に与える影響を詳細に検討し,その観察について考察した。 これらの知見は、NLPモデルによる自己評価と改善に向けたコースフィードバックの分析ガイドとして、機関やコースプロバイダが活用することができる。

Student opinions for a course are important to educators and administrators, regardless of the type of the course or the institution. Reading and manually analyzing open-ended feedback becomes infeasible for massive volumes of comments at institution level or online forums. In this paper, we collected and pre-processed a large number of course reviews publicly available online. We applied machine learning techniques with the goal to gain insight into student sentiments and topics. Specifically, we utilized current Natural Language Processing (NLP) techniques, such as word embeddings and deep neural networks, and state-of-the-art BERT (Bidirectional Encoder Representations from Transformers), RoBERTa (Robustly optimized BERT approach) and XLNet (Generalized Auto-regression Pre-training). We performed extensive experimentation to compare these techniques versus traditional approaches. This comparative study demonstrates how to apply modern machine learning approaches for sentiment polarity extraction and topic-based classification utilizing course feedback. For sentiment polarity, the top model was RoBERTa with 95.5\% accuracy and 84.7\% F1-macro, while for topic classification, an SVM (Support Vector Machine) was the top classifier with 79.8\% accuracy and 80.6\% F1-macro. We also provided an in-depth exploration of the effect of certain hyperparameters on the model performance and discussed our observations. These findings can be used by institutions and course providers as a guide for analyzing their own course feedback using NLP models towards self-evaluation and improvement.
翻訳日:2023-04-10 13:30:19 公開日:2023-04-06
# 機械学習とドメイン知識を用いたデジタル健康行動変化介入のパーソナライズ

Personalizing Digital Health Behavior Change Interventions using Machine Learning and Domain Knowledge ( http://arxiv.org/abs/2304.03392v1 )

ライセンス: Link先を確認
Aneta Lisowska, Szymon Wilk, Mor Peleg(参考訳) 我々は,患者の行動変化介入(BCI)への適応を支援する仮想コーチングシステムを開発している。 提案システムは, 患者が対象行動を行うかどうかを予測し, bciのパーソナライズを導くために, 機能制御を伴う偽例を用いる。 介入に対する受容レベルが異なる患者データを用いて予測モデルを評価した。

We are developing a virtual coaching system that helps patients adhere to behavior change interventions (BCI). Our proposed system predicts whether a patient will perform the targeted behavior and uses counterfactual examples with feature control to guide personalizsation of BCI. We evaluated our prediction model using simulated patient data with varying levels of receptivity to intervention.
翻訳日:2023-04-10 13:29:47 公開日:2023-04-06
# クロスモーダル検索のためのスプリアス相関の暴露と緩和

Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval ( http://arxiv.org/abs/2304.03391v1 )

ライセンス: Link先を確認
Jae Myung Kim, A. Sophia Koepke, Cordelia Schmid, Zeynep Akata(参考訳) クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。 しかし、画像テキスト検索モデルは、画像内の予測の実際の根拠を見るのではなく、頻繁なオブジェクト共起など、トレーニングデータの散発的な相関を記憶することを学ぶ。 画像テキスト検索では、クエリ画像に存在しないオブジェクトを参照する検索された文に現れる。 本研究では,モデルのロバスト性を測定する対象非相関指標であるodmap@kを提案する。 画像とテキストの自動操作によって、指定されたテストデータにそのようなオブジェクト相関が存在することを制御します。 さらに,データ合成手法は,学習データにおける意味的無関係な対象の相関性に起因したモデルバイアスに対処するために用いられる。 我々は,画像テキスト検索のための3つの最先端モデルに,画像テキスト検索フレームワークを注意深く設計した合成データに微調整するパイプラインを提案する。 これにより、3つのモデルすべてにおいて、標準検索性能とオブジェクト非相関メトリックの両方の観点から大きな改善がもたらされます。 コードはhttps://github.com/explainableml/spurious_cm_retrievalで入手できる。

Cross-modal retrieval methods are the preferred tool to search databases for the text that best matches a query image and vice versa. However, image-text retrieval models commonly learn to memorize spurious correlations in the training data, such as frequent object co-occurrence, instead of looking at the actual underlying reasons for the prediction in the image. For image-text retrieval, this manifests in retrieved sentences that mention objects that are not present in the query image. In this work, we introduce ODmAP@k, an object decorrelation metric that measures a model's robustness to spurious correlations in the training data. We use automatic image and text manipulations to control the presence of such object correlations in designated test data. Additionally, our data synthesis technique is used to tackle model biases due to spurious correlations of semantically unrelated objects in the training data. We apply our proposed pipeline, which involves the finetuning of image-text retrieval frameworks on carefully designed synthetic data, to three state-of-the-art models for image-text retrieval. This results in significant improvements for all three models, both in terms of the standard retrieval performance and in terms of our object decorrelation metric. The code is available at https://github.com/ExplainableML/Spurious_CM_Retrieval.
翻訳日:2023-04-10 13:29:39 公開日:2023-04-06
# EZClone:GPU実行プロファイルからの形状蒸留によるDNNモデル抽出攻撃の改善

EZClone: Improving DNN Model Extraction Attack via Shape Distillation from GPU Execution Profiles ( http://arxiv.org/abs/2304.03388v1 )

ライセンス: Link先を確認
Jonah O'Brien Weiss, Tiago Alves, Sandip Kundu(参考訳) 深層ニューラルネットワーク(DNN)は,予測問題や分類問題のパフォーマンスのため,広く普及している。 しかし、利用が広がるにつれて、さまざまな脅威に直面している。 dnnを盗み、知的財産、データのプライバシー、セキュリティを危険にさらすモデル抽出攻撃。 これまでの研究では、システムレベルのサイドチャネルが被害者のDNNのアーキテクチャを漏洩させ、これらのリスクを悪化させることが示されている。 様々な脅威モデルに対応する2つのDNNアーキテクチャ抽出手法を提案する。 最初のテクニックは悪質で動的にリンクされたPyTorchを使用して、被害者のDNNアーキテクチャをPyTorchプロファイラを通じて公開する。 2つ目はEZCloneと呼ばれ、DNNアーキテクチャを予測するためのサイドチャネルとして(時系列ではなく)集約GPUプロファイルを利用しており、単純なアプローチを採用し、以前の作業と比べてほとんど逆の機能を仮定している。 本研究では,攻撃の複雑さを最小化したり,プルーニングモデルに適用したり,gpuにまたがって適用した場合にezcloneの有効性について検討する。 ezcloneは、100%精度でpytorch visionアーキテクチャ全体のdnnアーキテクチャを正確に予測していることがわかった。 同じ敵の制約や、集約されたサイドチャネル情報を使ったアーキテクチャ予測の正確さを示す他の作業は存在しない。 以前の研究では、DNNのクローン化が成功すれば、モデル回避やモデル逆転といった攻撃が大幅に加速できることが示されている。

Deep Neural Networks (DNNs) have become ubiquitous due to their performance on prediction and classification problems. However, they face a variety of threats as their usage spreads. Model extraction attacks, which steal DNNs, endanger intellectual property, data privacy, and security. Previous research has shown that system-level side-channels can be used to leak the architecture of a victim DNN, exacerbating these risks. We propose two DNN architecture extraction techniques catering to various threat models. The first technique uses a malicious, dynamically linked version of PyTorch to expose a victim DNN architecture through the PyTorch profiler. The second, called EZClone, exploits aggregate (rather than time-series) GPU profiles as a side-channel to predict DNN architecture, employing a simple approach and assuming little adversary capability as compared to previous work. We investigate the effectiveness of EZClone when minimizing the complexity of the attack, when applied to pruned models, and when applied across GPUs. We find that EZClone correctly predicts DNN architectures for the entire set of PyTorch vision architectures with 100% accuracy. No other work has shown this degree of architecture prediction accuracy with the same adversarial constraints or using aggregate side-channel information. Prior work has shown that, once a DNN has been successfully cloned, further attacks such as model evasion or model inversion can be accelerated significantly.
翻訳日:2023-04-10 13:29:17 公開日:2023-04-06
# 広域ニューラルネットワーク:初期化における非ガウス確率場からトレーニングのntk幾何へ

Wide neural networks: From non-gaussian random fields at initialization to the NTK geometry of training ( http://arxiv.org/abs/2304.03385v1 )

ライセンス: Link先を確認
Lu\'is Carvalho, Jo\~ao Lopes Costa, Jos\'e Mour\~ao, Gon\c{c}alo Oliveira(参考訳) パラメータが$n=10^{14}を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$動作を研究することが極めて重要である。 広いニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$n \to +\infty$制限に焦点を当てており、初期化時にはガウス過程に対応することを示した。 この作業では、大きなが有限の$n$で彼らの行動を研究します。 主な貢献は、(1)漸近級数($n^{-\frac{1}{2}}$)のガウス性に対する補正の計算である。 この展開の係数はパラメータ初期化の統計と活性化関数によって決定される。 2) 有限幅$n$ネットワークの学習における出力の進化の制御は,有限幅の場合(線形流れによってネットワークが進化する場合)からの偏差を計算することによって行う。 これにより、以前の推定値を改善し、(有限幅) NTK のよりシャープな崩壊率を、トレーニング手順全体において有効である$n$という観点で得られる。 結論として、任意の確率で十分に広いニューラルネットワークのトレーニングが対応する二次的損失関数の大域的最小値に収束することが証明された。 (3) ガウス性からの偏差が$n$のトレーニングでどのように変化するかを推定する。 特に、ある測度空間におけるある計量を用いて、トレーニングの結果として得られる測度は、無限幅のネットワークに対応する時間依存ガウス過程の$n^{-\frac{1}{2}}(\log n)^{1+}$(これは、無限幅のトレーニングに対応する線形フローで初期ガウス過程を前合成することによって明らかに与えられる)である。

Recent developments in applications of artificial neural networks with over $n=10^{14}$ parameters make it extremely important to study the large $n$ behaviour of such networks. Most works studying wide neural networks have focused on the infinite width $n \to +\infty$ limit of such networks and have shown that, at initialization, they correspond to Gaussian processes. In this work we will study their behavior for large, but finite $n$. Our main contributions are the following: (1) The computation of the corrections to Gaussianity in terms of an asymptotic series in $n^{-\frac{1}{2}}$. The coefficients in this expansion are determined by the statistics of parameter initialization and by the activation function. (2) Controlling the evolution of the outputs of finite width $n$ networks, during training, by computing deviations from the limiting infinite width case (in which the network evolves through a linear flow). This improves previous estimates and yields sharper decay rates for the (finite width) NTK in terms of $n$, valid during the entire training procedure. As a corollary, we also prove that, with arbitrarily high probability, the training of sufficiently wide neural networks converges to a global minimum of the corresponding quadratic loss function. (3) Estimating how the deviations from Gaussianity evolve with training in terms of $n$. In particular, using a certain metric in the space of measures we find that, along training, the resulting measure is within $n^{-\frac{1}{2}}(\log n)^{1+}$ of the time dependent Gaussian process corresponding to the infinite width network (which is explicitly given by precomposing the initial Gaussian process with the linear flow corresponding to training in the infinite width limit).
翻訳日:2023-04-10 13:28:55 公開日:2023-04-06
# 目を覚ますか、起こさないか:連続的な改良によるキーワード偽アラームの低減

To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive Refinement ( http://arxiv.org/abs/2304.03416v1 )

ライセンス: Link先を確認
Yashas Malur Saidutta, Rakshith Sharma Srinivasa, Ching-Hua Lee, Chouchang Yang, Yilin Shen, Hongxia Jin(参考訳) キーワードスポッティングシステムは、音声ストリームを継続的に処理してキーワードを検出する。 このようなシステムを設計する上で最も難しいタスクの1つは、キーワードが発話されていないにもかかわらず、システムが誤ってキーワードを登録した場合に発生する偽アラーム(fa)を減らすことである。 本稿では,全確率法則に従う,単純かつエレガントな解法を提案する。 入力音声が音声であるか否かをまず分類し、その後に入力がキーワード的かどうかを分類し、最終的にどのキーワードが発話されたかを分類し、既存のディープキーワードスポッティング機構を改良することで、既存のディープキーワードスポッティング機構を改善することができることを示す。 13Kパラメータから2.41Mパラメータまで、複数のモデルにまたがって、連続的な改善手法により、ドメイン内保持FAデータでは最大8倍、ドメイン外FAデータでは最大7倍のFAが減少する。 さらに,提案手法は"plug-and-play"であり,どの深いキーワードスポッティングモデルにも適用可能である。

Keyword spotting systems continuously process audio streams to detect keywords. One of the most challenging tasks in designing such systems is to reduce False Alarm (FA) which happens when the system falsely registers a keyword despite the keyword not being uttered. In this paper, we propose a simple yet elegant solution to this problem that follows from the law of total probability. We show that existing deep keyword spotting mechanisms can be improved by Successive Refinement, where the system first classifies whether the input audio is speech or not, followed by whether the input is keyword-like or not, and finally classifies which keyword was uttered. We show across multiple models with size ranging from 13K parameters to 2.41M parameters, the successive refinement technique reduces FA by up to a factor of 8 on in-domain held-out FA data, and up to a factor of 7 on out-of-domain (OOD) FA data. Further, our proposed approach is "plug-and-play" and can be applied to any deep keyword spotting model.
翻訳日:2023-04-10 13:22:02 公開日:2023-04-06
# ニュース報道における選択バイアスのコーパススケール的発見に向けて--出発点としてエンティティについて語るソースの比較

Towards Corpus-Scale Discovery of Selection Biases in News Coverage: Comparing What Sources Say About Entities as a Start ( http://arxiv.org/abs/2304.03414v1 )

ライセンス: Link先を確認
Sihao Chen and William Bruno and Dan Roth(参考訳) ニュースソースは、特定のトピックをカバーするときに、ニュースに値する情報を選択するプロセスを実行する。 このプロセスは必然的に選択バイアス、すなわちニュースソースのアジェンダの違いによって、ニュースカバレッジに含まれる情報を選択する典型的なパターンを示す。 選択バイアスの大きさや意味を理解するためには、(1)情報源が「ニュース価値」情報の異なる定義を持っていること、(2)コンテンツ選択パターンがニュースソースの特定の属性(例えば、イデオロギー的傾倒など)と相関すること、などを明らかにする必要がある。 本研究の目的は,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,ラベル付きデータに頼ることなく,スケーラブルなNLPシステムを構築することの課題について検討することである。 この領域での研究を促進するために,提案する概念的枠組みでは,ソースが一般的に議論の的になっているエンティティをどう言及するかを比較検討し,ソースのコンテンツ選択選好の指標として利用する。 我々は,世界中の519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,このフレームワークの能力を実証的に示す。 提案手法は教師なしの表現学習手法であり, 典型的に議論を呼ぶ対象の選択選好を捉えている。 これらの表現の分布のばらつきは、エンティティやニュースソースにまたがって総合的に研究されると、個々の情報源のイデオロギー的傾きの指標となる。 メディア選択バイアスに関する今後の研究に洞察を与えてくれることを願っています。

News sources undergo the process of selecting newsworthy information when covering a certain topic. The process inevitably exhibits selection biases, i.e. news sources' typical patterns of choosing what information to include in news coverage, due to their agenda differences. To understand the magnitude and implications of selection biases, one must first discover (1) on what topics do sources typically have diverging definitions of "newsworthy" information, and (2) do the content selection patterns correlate with certain attributes of the news sources, e.g. ideological leaning, etc. The goal of the paper is to investigate and discuss the challenges of building scalable NLP systems for discovering patterns of media selection biases directly from news content in massive-scale news corpora, without relying on labeled data. To facilitate research in this domain, we propose and study a conceptual framework, where we compare how sources typically mention certain controversial entities, and use such as indicators for the sources' content selection preferences. We empirically show the capabilities of the framework through a case study on NELA-2020, a corpus of 1.8M news articles in English from 519 news sources worldwide. We demonstrate an unsupervised representation learning method to capture the selection preferences for how sources typically mention controversial entities. Our experiments show that that distributional divergence of such representations, when studied collectively across entities and news sources, serve as good indicators for an individual source's ideological leaning. We hope our findings will provide insights for future research on media selection biases.
翻訳日:2023-04-10 13:21:41 公開日:2023-04-06
# InstantBooth:テスト時間微調整なしで個人化されたテキスト・画像生成

InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning ( http://arxiv.org/abs/2304.03411v1 )

ライセンス: Link先を確認
Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung(参考訳) パーソナライズされた画像生成の最近の進歩により、事前学習されたテキストから画像へのモデルが、一連の画像から新しい概念を学ぶことができる。 しかし、既存のパーソナライゼーションアプローチでは、通常、各概念に対して重いテストタイムの微調整が必要となる。 InstantBoothは、テストタイムの微調整なしにインスタントテキストガイド画像のパーソナライズを可能にする、事前訓練されたテキスト・ツー・イメージモデルに基づく新しいアプローチである。 これをいくつかの主要なコンポーネントで達成します。 まず,入力画像の一般的な概念を,学習可能な画像エンコーダを用いたテキストトークンに変換することで学習する。 次に、アイデンティティの詳細を維持するために、事前学習したモデルにいくつかのアダプタ層を導入することで、リッチなビジュアルな特徴表現を学びます。 同じ概念のペアイメージを使わずに、コンポーネントをテキストイメージペアでのみトレーニングします。 また,DreamBoothやTextual-Inversionのようなテスト時間ファインタニングに基づく手法と比較して,言語画像のアライメント,画像の忠実さ,アイデンティティの保存といった,目に見えない概念に対する競合的な結果が得られる。

Recent advances in personalized image generation allow a pre-trained text-to-image model to learn a new concept from a set of images. However, existing personalization approaches usually require heavy test-time finetuning for each concept, which is time-consuming and difficult to scale. We propose InstantBooth, a novel approach built upon pre-trained text-to-image models that enables instant text-guided image personalization without any test-time finetuning. We achieve this with several major components. First, we learn the general concept of the input images by converting them to a textual token with a learnable image encoder. Second, to keep the fine details of the identity, we learn rich visual feature representation by introducing a few adapter layers to the pre-trained model. We train our components only on text-image pairs without using paired images of the same concept. Compared to test-time finetuning-based methods like DreamBooth and Textual-Inversion, our model can generate competitive results on unseen concepts concerning language-image alignment, image fidelity, and identity preservation while being 100 times faster.
翻訳日:2023-04-10 13:21:10 公開日:2023-04-06
# $R^{2}$Former: Unified $R$etrieval and $R$e rank Transformer for Place Recognition

$R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place Recognition ( http://arxiv.org/abs/2304.03410v1 )

ライセンス: Link先を確認
Sijie Zhu, Linjie Yang, Chen Chen, Mubarak Shah, Xiaohui Shen, Heng Wang(参考訳) 視覚的位置認識(VPR)は、参照データベース内の画像と照合することで、クエリ画像の位置を推定する。 従来の手法では、グローバル検索やRANSACに基づく幾何検証に集約されたCNN機能を採用している。 しかし、RANSACは幾何学的情報のみを用いるが、局所的特徴相関や注意値など、再ランク付けに役立つ可能性のある他の情報を無視している。 本稿では,新しいトランスモデルである$R^{2}$Formerを用いて,検索と再ランクの両方を扱う統合された位置認識フレームワークを提案する。 提案するリランキングモジュールは,特徴相関,注意値,xy座標を考慮に入れて,画像ペアが同一位置から来ているかどうかを判断する。 パイプライン全体がエンドツーエンドでトレーニング可能で、リカウンドモジュールのみを他のcnnやtransformerバックボーンでジェネリックコンポーネントとして採用することもできる。 注目すべきは、$R^{2}$Formerは、推論時間とメモリ消費をはるかに少なくして、主要なVPRデータセットで最先端のメソッドを著しく上回ることだ。 また、MSLSチャレンジセットの最先端を達成し、現実世界の大規模アプリケーションにとってシンプルだが強力なソリューションとして機能する。 実験によれば、視覚トランスフォーマートークンは、局所マッチングのcnnローカル機能と同等であり、時には同等である。 コードはhttps://github.com/Jeff-Zilence/R2Formerで公開されている。

Visual Place Recognition (VPR) estimates the location of query images by matching them with images in a reference database. Conventional methods generally adopt aggregated CNN features for global retrieval and RANSAC-based geometric verification for reranking. However, RANSAC only employs geometric information but ignores other possible information that could be useful for reranking, e.g. local feature correlations, and attention values. In this paper, we propose a unified place recognition framework that handles both retrieval and reranking with a novel transformer model, named $R^{2}$Former. The proposed reranking module takes feature correlation, attention value, and xy coordinates into account, and learns to determine whether the image pair is from the same location. The whole pipeline is end-to-end trainable and the reranking module alone can also be adopted on other CNN or transformer backbones as a generic component. Remarkably, $R^{2}$Former significantly outperforms state-of-the-art methods on major VPR datasets with much less inference time and memory consumption. It also achieves the state-of-the-art on the hold-out MSLS challenge set and could serve as a simple yet strong solution for real-world large-scale applications. Experiments also show vision transformer tokens are comparable and sometimes better than CNN local features on local matching. The code is released at https://github.com/Jeff-Zilence/R2Former.
翻訳日:2023-04-10 13:20:48 公開日:2023-04-06
# 平均場ニューラルネットワークにおける有限幅カーネルのダイナミクスと予測変動

Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks ( http://arxiv.org/abs/2304.03408v1 )

ライセンス: Link先を確認
Blake Bordelon, Cengiz Pehlevan(参考訳) 広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。 多くの先行分析と異なり, 幅が摂動的ではあるが, 特徴学習の強度は摂動的ではない。 無限幅ディープニューラルネットワークカーネルの動的平均場理論(DMFT)記述と予測力学から始まり、ネットワーク重みのランダム初期化に対するDMFTオーダーパラメータの変動を$\mathcal{O}(1/\sqrt{\text{width}})$に特徴づける。 ネットワークトレーニングの遅延制限では、すべてのカーネルはランダムだが静的であり、予測分散は普遍的な形式を持つ。 しかし、リッチで特徴学習の体制では、カーネルと予測のゆらぎは、自己整合的に計算できる分散と動的に結合する。 2層ネットワークにおいて,機能学習によって最終ntkと最終ネットワーク予測の分散を動的に低減できることを示す。 また,初期化のばらつきが,大規模だが有限のネットワークでオンライン学習を遅くする可能性を示す。 より深いネットワークでは、カーネルの分散は後続の階層を通じて大きな特徴学習強度で劇的に増大するが、機能学習は機能カーネルのSNRを改善し続けている。 離散時間において,安定性効果のエッジのような大きな学習速度現象は無限幅ダイナミクスによってよく捉えられ,初期化分散は動的に減少することを示した。 CIFAR-10で訓練されたCNNに対して、有限幅によるネットワークダイナミクスのバイアスと分散の両方に有意な補正を経験的に求める。

We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Unlike many prior analyses, our results, while perturbative in width, are non-perturbative in the strength of feature learning. Starting from a dynamical mean field theory (DMFT) description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $\mathcal{O}(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initialization of the network weights. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final NTK and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the SNR of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.
翻訳日:2023-04-10 13:20:26 公開日:2023-04-06
# 音楽ミキシングワークフローにおけるAI技術の活用:調査

Adoption of AI Technology in the Music Mixing Workflow: An Investigation ( http://arxiv.org/abs/2304.03407v1 )

ライセンス: Link先を確認
Soumya Sai Vanka, Maryam Safi, Jean-Baptiste Rolland, and George Fazekas(参考訳) 音楽産業における人工知能(AI)技術の統合は、音楽の作曲、制作、混合の方法に大きな変化をもたらしている。 本研究では、ワークフローの混合におけるAIの現状と、異なるユーザグループによる採用について検討する。 半構造化インタビュー、アンケートに基づく調査、webフォーラムの分析を通じて、アマチュア、プロam、プロフェッショナルの3つのユーザーグループを確認した。 以上の結果から,aiミキシングツールはプロセスを簡素化し,アマチュアにまともな結果を提供するが,プロは正確な制御とカスタマイズの選択肢を求め,専門家は支援的かつ協調的な技術に加えて,コントロールとカスタマイズの選択肢を欲することが示された。 この研究は、異なるユーザーグループ向けに効果的なaiミキシングツールを設計するための戦略を提供し、今後の方向性を概説する。

The integration of artificial intelligence (AI) technology in the music industry is driving a significant change in the way music is being composed, produced and mixed. This study investigates the current state of AI in the mixing workflows and its adoption by different user groups. Through semi-structured interviews, a questionnaire-based study, and analyzing web forums, the study confirms three user groups comprising amateurs, pro-ams, and professionals. Our findings show that while AI mixing tools can simplify the process and provide decent results for amateurs, pro-ams seek precise control and customization options, while professionals desire control and customization options in addition to assistive and collaborative technologies. The study provides strategies for designing effective AI mixing tools for different user groups and outlines future directions.
翻訳日:2023-04-10 13:19:54 公開日:2023-04-06
# 医用画像セグメンテーションにおける自己監督型学習を支援する地域コントラスト

Localized Region Contrast for Enhancing Self-Supervised Learning in Medical Image Segmentation ( http://arxiv.org/abs/2304.03406v1 )

ライセンス: Link先を確認
Xiangyi Yan, Junayed Naushad, Chenyu You, Hao Tang, Shanlin Sun, Kun Han, Haoyu Ma, James Duncan, Xiaohui Xie(参考訳) 近年の自己教師付き学習の進歩により、効果的な視覚表現がラベル付き画像から学習できることが示されている。 これにより,ラベル付き画像が豊富であり,ラベル付き画像の入手が困難な医療領域への自己指導型学習への関心が高まっている。 しかし、ほとんどの自己教師付き学習アプローチは、画像レベルの判別や生成的なプロキシタスクとしてモデル化されており、マルチオーガンセグメンテーションのような密集した予測タスクに必要な、より細かいレベルの表現を捉えることはできない。 本稿では,局所領域コントラスト(localized region contrast, lrc)を統合し,医用画像分割のための既存の自己教師あり事前学習法を強化する新しいコントラスト学習フレームワークを提案する。 提案手法では,Felzenszwalbのアルゴリズムによるスーパーピクセルの同定と,新しいコントラッシブサンプリング損失を用いた局所コントラスト学習を行う。 3つのマルチオーガナイズドセグメンテーションデータセットの広範な実験を通じて、限定的なアノテーション設定で既存の自己教師付きメソッドにRCを統合することにより、セグメンテーション性能が大幅に向上することを示した。 さらに,LRC を完全教師付き事前学習法に適用することで,さらなる性能向上が期待できることを示す。

Recent advancements in self-supervised learning have demonstrated that effective visual representations can be learned from unlabeled images. This has led to increased interest in applying self-supervised learning to the medical domain, where unlabeled images are abundant and labeled images are difficult to obtain. However, most self-supervised learning approaches are modeled as image level discriminative or generative proxy tasks, which may not capture the finer level representations necessary for dense prediction tasks like multi-organ segmentation. In this paper, we propose a novel contrastive learning framework that integrates Localized Region Contrast (LRC) to enhance existing self-supervised pre-training methods for medical image segmentation. Our approach involves identifying Super-pixels by Felzenszwalb's algorithm and performing local contrastive learning using a novel contrastive sampling loss. Through extensive experiments on three multi-organ segmentation datasets, we demonstrate that integrating LRC to an existing self-supervised method in a limited annotation setting significantly improves segmentation performance. Moreover, we show that LRC can also be applied to fully-supervised pre-training methods to further boost performance.
翻訳日:2023-04-10 13:19:40 公開日:2023-04-06
# ローレンツ古典化ホログラフィックテンソルネットワークのオンシェル方程式

On-shell equation of the Lorentzian classicalized holographic tensor network ( http://arxiv.org/abs/2304.03402v1 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) ローレンツ古典化ホログラフィックテンソルネットワーク(英語版)(cHTN)において、バルク時空における相対論的質量粒子の存在下での相対論的オンシェル方程式を導出する。 ここで、$\sigma$はサイト当たりのcHTNのフォン・ノイマンエントロピーであり、$\theta$は粒子の世界線に沿って定義されるcHTNの実時間エントロピーであり、$M$は粒子のゼロではない質量である。 この方程式の物理的解釈と帰結を簡潔に説明する。

In the Lorentzian classicalized holographic tensor network (cHTN), we derive its relativistic on-shell equation in the presence of a relativistic massive particle in the bulk spacetime: $-\sigma \hbar \theta=Mc^2$. Here, $\sigma$ is the von Neumann entropy of the cHTN per site, $\theta$ is the real-proper-time enlarging ratio of the cHTN defined along the world line of the particle, and $M$ is the non-zero mass of the particle. We explain the physical interpretation and consequences of this equation in brief.
翻訳日:2023-04-10 13:19:18 公開日:2023-04-06
# Therbligs in Action:Motion Primitivesによるビデオ理解

Therbligs in Action: Video Understanding through Motion Primitives ( http://arxiv.org/abs/2304.03631v1 )

ライセンス: Link先を確認
Eadom Dessalene, Michael Maynord, Cornelia Fermuller, Yiannis Aloimonos(参考訳) 本稿では,シリグスを原子として用いた行動の規則的,構成的,階層的モデリングを提案する。 これらの原子の導入は、一貫した、表現力のある、接触中心の行動表現を提供する。 原子上では、論理的一貫性のために規則に基づく推論の微分可能な方法を導入します。 私たちのアプローチは、既存のアーキテクチャの表現を置き換えるのではなく、アーキテクチャの強化によって生成されるTherbligベースの表現を補完するものです。 Therblig中心のアノテーションは、EPIC Kitchens 100と50-Saladsという2つの一般的なビデオデータセットに初めてリリースします。 また, アクションセグメンテーション, アクション予測, アクション認識の3つのタスクにおいて, 平均10.5\%/7.53\%/6.5\%の相対的改善をEPICキッチンで, 平均8.9\%/6.63\%/4.8\%の相対的改善をそれぞれ50サラダで行った。 コードとデータは公開される予定だ。

In this paper we introduce a rule-based, compositional, and hierarchical modeling of action using Therbligs as our atoms. Introducing these atoms provides us with a consistent, expressive, contact-centered representation of action. Over the atoms we introduce a differentiable method of rule-based reasoning to regularize for logical consistency. Our approach is complementary to other approaches in that the Therblig-based representations produced by our architecture augment rather than replace existing architectures' representations. We release the first Therblig-centered annotations over two popular video datasets - EPIC Kitchens 100 and 50-Salads. We also broadly demonstrate benefits to adopting Therblig representations through evaluation on the following tasks: action segmentation, action anticipation, and action recognition - observing an average 10.5\%/7.53\%/6.5\% relative improvement, respectively, over EPIC Kitchens and an average 8.9\%/6.63\%/4.8\% relative improvement, respectively, over 50 Salads. Code and data will be made publicly available.
翻訳日:2023-04-10 11:55:09 公開日:2023-04-06
# 一級イベントデータの逐次逆異常検出

Sequential Adversarial Anomaly Detection for One-Class Event Data ( http://arxiv.org/abs/1910.09161v5 )

ライセンス: Link先を確認
Shixiang Zhu, Henry Shaowu Yuchi, Minghe Zhang, Yao Xie(参考訳) 本稿では, 異常なシーケンスのみが存在する場合の1クラス設定における逐次異常検出問題を考察し, ミニマックス問題を解くことで逆数検出法を提案し, 発電機の最悪のシーケンスに対する最適検出法を提案する。 ジェネレータはマークされたポイントプロセスモデルを使用してシーケンシャルなイベントの依存関係をキャプチャする。 検出器は、テストシーケンスの確率を順次評価し、ミニマックス問題を通じてデータから学習した時間変化しきい値と比較する。 シミュレーションと大規模クレジットカード詐欺データセットを用いた数値実験により,提案手法の優れた性能を示す。 提案手法は一般に異常配列の検出に適用できる。

We consider the sequential anomaly detection problem in the one-class setting when only the anomalous sequences are available and propose an adversarial sequential detector by solving a minimax problem to find an optimal detector against the worst-case sequences from a generator. The generator captures the dependence in sequential events using the marked point process model. The detector sequentially evaluates the likelihood of a test sequence and compares it with a time-varying threshold, also learned from data through the minimax problem. We demonstrate our proposed method's good performance using numerical experiments on simulations and proprietary large-scale credit card fraud datasets. The proposed method can generally apply to detecting anomalous sequences.
翻訳日:2023-04-07 19:02:41 公開日:2023-04-06
# OpenVSLAM: ユビキタスなVisual SLAMフレームワーク

OpenVSLAM: A Versatile Visual SLAM Framework ( http://arxiv.org/abs/1910.01122v3 )

ライセンス: Link先を確認
Shinya Sumikura, Mikiya Shibuya, Ken Sakurada(参考訳) 本稿では,ユーザビリティと拡張性を備えたビジュアルSLAMフレームワークであるOpenVSLAMを紹介する。 ビジュアルSLAMシステムは、ARデバイス、ロボットやドローンの自律的な制御に不可欠である。 しかし、従来のオープンソースのビジュアルSLAMフレームワークは、サードパーティプログラムから呼ばれるライブラリとして適切に設計されていない。 このような状況を克服するため,我々は新しいビジュアルSLAMフレームワークを開発した。 このソフトウェアは簡単に使用および拡張できるように設計されている。 研究や開発に有用な機能や機能をいくつか備えている。

In this paper, we introduce OpenVSLAM, a visual SLAM framework with high usability and extensibility. Visual SLAM systems are essential for AR devices, autonomous control of robots and drones, etc. However, conventional open-source visual SLAM frameworks are not appropriately designed as libraries called from third-party programs. To overcome this situation, we have developed a novel visual SLAM framework. This software is designed to be easily used and extended. It incorporates several useful features and functions for research and development.
翻訳日:2023-04-07 19:02:30 公開日:2023-04-06
# ビデオ中の異常事象検出のための逆トレーニングによるバックグラウンド非依存フレームワーク

A Background-Agnostic Framework with Adversarial Training for Abnormal Event Detection in Video ( http://arxiv.org/abs/2008.12328v5 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Marius Popescu and Mubarak Shah(参考訳) 近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。 タスクの複雑さは、一般的に予想される異常事象の定義、すなわち、周囲の状況に依存するまれな事象から生じる。 異常事象検出の標準定式化に続いて,通常のイベントのみを含むトレーニングビデオから学習する背景に依存しないフレームワークを提案する。 我々のフレームワークは、オブジェクト検出器、外観と動きの自動エンコーダのセット、および分類器のセットで構成されている。 我々のフレームワークはオブジェクト検出のみに注目しているため、通常のイベントがシーン間で同一に定義され、変動の唯一の要因が背景であることから、異なるシーンに適用することができる。 トレーニング中の異常データの欠如を克服するため,自動エンコーダの対角学習戦略を提案する。 我々は,擬似異常例に勾配アセントを適用する前に,オートエンコーダによって正しく再構成される,領域外擬似異常例のシーン非依存セットを作成する。 さらに、擬似異常例は、通常特徴と異常特徴と再構成を区別するために、外見に基づくトレーニングと運動に基づくバイナリ分類器の異常例として機能する。 各種評価指標を用いて,4つのベンチマークデータセットの最先端手法との比較を行った。 既存の手法と比較すると,本手法はすべてのデータセットにおいて良好な性能を発揮することを示す。 さらに,上海工科大学と地下鉄の2つの大規模異常事象検出データセットに対して,地域ベースおよびトラックベースのアノテーションを提供する。

Abnormal event detection in video is a complex computer vision problem that has attracted significant attention in recent years. The complexity of the task arises from the commonly-adopted definition of an abnormal event, that is, a rarely occurring event that typically depends on the surrounding context. Following the standard formulation of abnormal event detection as outlier detection, we propose a background-agnostic framework that learns from training videos containing only normal events. Our framework is composed of an object detector, a set of appearance and motion auto-encoders, and a set of classifiers. Since our framework only looks at object detections, it can be applied to different scenes, provided that normal events are defined identically across scenes and that the single main factor of variation is the background. To overcome the lack of abnormal data during training, we propose an adversarial learning strategy for the auto-encoders. We create a scene-agnostic set of out-of-domain pseudo-abnormal examples, which are correctly reconstructed by the auto-encoders before applying gradient ascent on the pseudo-abnormal examples. We further utilize the pseudo-abnormal examples to serve as abnormal examples when training appearance-based and motion-based binary classifiers to discriminate between normal and abnormal latent features and reconstructions. We compare our framework with the state-of-the-art methods on four benchmark data sets, using various evaluation metrics. Compared to existing methods, the empirical results indicate that our approach achieves favorable performance on all data sets. In addition, we provide region-based and track-based annotations for two large-scale abnormal event detection data sets from the literature, namely ShanghaiTech and Subway.
翻訳日:2023-04-07 18:57:38 公開日:2023-04-06
# CTとMRIの3次元超解像のための中間損失を有する畳み込みニューラルネットワーク

Convolutional Neural Networks with Intermediate Loss for 3D Super-Resolution of CT and MRI Scans ( http://arxiv.org/abs/2001.01330v4 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Nicolae Verga(参考訳) 病院で一般的に使われているCTスキャナーは、現在512ピクセルまでの解像度の低い画像を生成する。 画像中の1ピクセルは1ミリの組織に相当する。 腫瘍を正確に分類し、治療計画を立案するには、高解像度のCTスキャンが必要である。 同じ問題がMRIにも現れる。 本稿では,3次元CTやMRIの単一画像超解像へのアプローチを提案する。 提案手法は,10層からなる深層畳み込みニューラルネットワーク(CNN)と,第1層の畳み込み層の後に配置される中間層からなる。 第1のcnnは2つの軸(幅と高さ)の解像度を増加させ、第2のcnnは第3軸(深さ)の解像度を増加させる。 他の方法と異なり、アップスケーリング層の直後の基底トラス高解像度出力に対する損失を計算し、最後の畳み込み層の直後の損失を計算する。 中間損失により、我々のネットワークは地上構造に近い、より良い出力を生み出すことができる。 シャープな結果を得るために広く使われているアプローチは、固定標準偏差を用いてガウス的曖昧さを加えることである。 固定標準偏差への過剰な適合を避けるため、他の手法とは異なり、様々な標準偏差を持つガウス平滑化を適用する。 我々は2つのデータベースからのCTとMRIの2次元超解像と3次元超解像の文脈で評価し、2xと4xのスケーリング因子を用いて、様々な補間スキームに基づく文献やベースラインの関連研究と比較した。 実験の結果,我々のアプローチは他の手法よりも優れた結果が得られることがわかった。 また,人間の注記では,lanczos補間を97.55%で2倍,96.69%で4倍に拡大した症例では96.69%であった。

CT scanners that are commonly-used in hospitals nowadays produce low-resolution images, up to 512 pixels in size. One pixel in the image corresponds to a one millimeter piece of tissue. In order to accurately segment tumors and make treatment plans, doctors need CT scans of higher resolution. The same problem appears in MRI. In this paper, we propose an approach for the single-image super-resolution of 3D CT or MRI scans. Our method is based on deep convolutional neural networks (CNNs) composed of 10 convolutional layers and an intermediate upscaling layer that is placed after the first 6 convolutional layers. Our first CNN, which increases the resolution on two axes (width and height), is followed by a second CNN, which increases the resolution on the third axis (depth). Different from other methods, we compute the loss with respect to the ground-truth high-resolution output right after the upscaling layer, in addition to computing the loss after the last convolutional layer. The intermediate loss forces our network to produce a better output, closer to the ground-truth. A widely-used approach to obtain sharp results is to add Gaussian blur using a fixed standard deviation. In order to avoid overfitting to a fixed standard deviation, we apply Gaussian smoothing with various standard deviations, unlike other approaches. We evaluate our method in the context of 2D and 3D super-resolution of CT and MRI scans from two databases, comparing it to relevant related works from the literature and baselines based on various interpolation schemes, using 2x and 4x scaling factors. The empirical results show that our approach attains superior results to all other methods. Moreover, our human annotation study reveals that both doctors and regular annotators chose our method in favor of Lanczos interpolation in 97.55% cases for 2x upscaling factor and in 96.69% cases for 4x upscaling factor.
翻訳日:2023-04-07 18:57:12 公開日:2023-04-06
# 超スペクトル画像分類のためのスペクトル空間大域グラフ推論

Spectral-Spatial Global Graph Reasoning for Hyperspectral Image Classification ( http://arxiv.org/abs/2106.13952v2 )

ライセンス: Link先を確認
Di Wang, Bo Du, Liangpei Zhang(参考訳) 畳み込みニューラルネットワークはハイパースペクトル画像分類に広く応用されている。 しかし、従来の畳み込みは不規則な分布を持つ物体の特徴を効果的に抽出することはできない。 近年の手法では空間トポロジー上でグラフ畳み込みを行うことでこの問題に対処するが、固定されたグラフ構造と局所的な知覚はそれらの性能を制限する。 このような問題に対処するため,本稿では,ネットワークトレーニング中の中間特徴の画素生成を行い,同種領域を適応的に生成し,グラフ構造を取得し,さらにグラフノードとして機能する空間記述子を生成する。 また,空間オブジェクトの他に,チャネル間のグラフ関係を合理的に集約し,スペクトル記述子を生成する。 これらのグラフ畳み込みにおける隣接行列は、全記述子間の関係を考慮して大域的な知覚を実現することにより得られる。 抽出した空間グラフ特徴とスペクトルグラフ特徴を組み合わせることで、最終的にスペクトル空間グラフ推論ネットワーク(SSGRN)を得る。 SSGRNの空間およびスペクトル部分は、空間およびスペクトルグラフ推論サブネットワークと呼ばれる。 4つの公開データセットに関する総合的な実験は、提案手法の競合性を他の最先端のグラフ畳み込みに基づくアプローチと比較する。

Convolutional neural networks have been widely applied to hyperspectral image classification. However, traditional convolutions can not effectively extract features for objects with irregular distributions. Recent methods attempt to address this issue by performing graph convolutions on spatial topologies, but fixed graph structures and local perceptions limit their performances. To tackle these problems, in this paper, different from previous approaches, we perform the superpixel generation on intermediate features during network training to adaptively produce homogeneous regions, obtain graph structures, and further generate spatial descriptors, which are served as graph nodes. Besides spatial objects, we also explore the graph relationships between channels by reasonably aggregating channels to generate spectral descriptors. The adjacent matrices in these graph convolutions are obtained by considering the relationships among all descriptors to realize global perceptions. By combining the extracted spatial and spectral graph features, we finally obtain a spectral-spatial graph reasoning network (SSGRN). The spatial and spectral parts of SSGRN are separately called spatial and spectral graph reasoning subnetworks. Comprehensive experiments on four public datasets demonstrate the competitiveness of the proposed methods compared with other state-of-the-art graph convolution-based approaches.
翻訳日:2023-04-07 18:40:46 公開日:2023-04-06
# 動的最小二乗回帰の複雑性

The Complexity of Dynamic Least-Squares Regression ( http://arxiv.org/abs/2201.00228v2 )

ライセンス: Link先を確認
Shunhua Jiang, Binghui Peng, Omri Weinstein(参考訳) 行とラベルの$(\mathbf{A}^{(t)}, \mathbf{b}^{(t)})$を適応的に挿入および/または削除することが可能であり、目標は、$\epsilon$-approximate Solution to $\min_{\mathbf{x}^{(t)}} \| \mathbf{A}^{(t)} \mathbf{x}^{(t)} - \mathbf{b}^{(t)} \|_2$ for all $t\in [T]$に対して効率よく$\epsilon$-approximate Solutionを維持することである。 償却更新時間の間のシャープな分離(d^{2-o(1)}$ vs. $\sim d$)を証明します。 (i)完全対部分動的$0.01$-LSR (II)部分力学(挿入のみ)設定における高対低精度LSR 我々の下限はギャップ増幅の削減 -- 反復的洗練を想起させる -- Online Matrix Vector Conjecture (OMv) [HKNS15] の正確なバージョンをロームし、実数に対して一定に近似した OMv となり、$i$-thオンライン製品 $\mathbf{H}\mathbf{v}^{ (i)}$は0.1$-relativeエラーにのみ計算する必要がある。 以前の OMv から近似バージョンへの還元は、逆多項式近似 $\epsilon = n^{-\omega(1)}$ (加法的あるいは乗法的) に対してのみ硬さを示す。 この結果は、微細な複雑さと、まだ広く開いている OMv Conjecture の研究に、独立した関心を持っている。

We settle the complexity of dynamic least-squares regression (LSR), where rows and labels $(\mathbf{A}^{(t)}, \mathbf{b}^{(t)})$ can be adaptively inserted and/or deleted, and the goal is to efficiently maintain an $\epsilon$-approximate solution to $\min_{\mathbf{x}^{(t)}} \| \mathbf{A}^{(t)} \mathbf{x}^{(t)} - \mathbf{b}^{(t)} \|_2$ for all $t\in [T]$. We prove sharp separations ($d^{2-o(1)}$ vs. $\sim d$) between the amortized update time of: (i) Fully vs. Partially dynamic $0.01$-LSR; (ii) High vs. low-accuracy LSR in the partially-dynamic (insertion-only) setting. Our lower bounds follow from a gap-amplification reduction -- reminiscent of iterative refinement -- rom the exact version of the Online Matrix Vector Conjecture (OMv) [HKNS15], to constant approximate OMv over the reals, where the $i$-th online product $\mathbf{H}\mathbf{v}^{(i)}$ only needs to be computed to $0.1$-relative error. All previous fine-grained reductions from OMv to its approximate versions only show hardness for inverse polynomial approximation $\epsilon = n^{-\omega(1)}$ (additive or multiplicative) . This result is of independent interest in fine-grained complexity and for the investigation of the OMv Conjecture, which is still widely open.
翻訳日:2023-04-07 18:32:53 公開日:2023-04-06
# 対向訓練におけるロバスト上界

Robust Upper Bounds for Adversarial Training ( http://arxiv.org/abs/2112.09279v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Xavier Boix, Kimberly Villalobos Carballo, Dick den Hertog(参考訳) ディープラーニングのための最先端の敵訓練手法の多くは、敵の損失の上限を利用して、敵の攻撃に対するセキュリティ保証を提供する。 しかし、これらの方法は、中間層の下層および上層境界を伝播する凸緩和に依存しており、出力層における境界の密着性に影響を与える。 本稿では,各層に対する分離境界ではなく,ネットワークの全体的拡張に基づく対向損失の上限を最小化することにより,対向訓練に対する新たなアプローチを提案する。 このバウンダリはRobust Optimizationの最先端ツールによって実現されており、クローズドフォームを持ち、バックプロパゲーションを使って効果的にトレーニングすることができる。 提案手法により2つの新しい手法を導出する。 最初の手法 (Approximated Robust Upper Bound, aRUB) は、ネットワークの第一次近似と線形ロバスト最適化の基本的なツールを用いて、容易に実装可能な対向損失の実験的上界を得る。 第2の方法(Robust Upper Bound, RUB)は、対向損失の証明可能な上限を計算する。 rubはより大きな摂動に対して最先端のメソッドよりも大幅に堅牢であり、arubは小さな摂動に対して最先端のメソッドのパフォーマンスにマッチしています。

Many state-of-the-art adversarial training methods for deep learning leverage upper bounds of the adversarial loss to provide security guarantees against adversarial attacks. Yet, these methods rely on convex relaxations to propagate lower and upper bounds for intermediate layers, which affect the tightness of the bound at the output layer. We introduce a new approach to adversarial training by minimizing an upper bound of the adversarial loss that is based on a holistic expansion of the network instead of separate bounds for each layer. This bound is facilitated by state-of-the-art tools from Robust Optimization; it has closed-form and can be effectively trained using backpropagation. We derive two new methods with the proposed approach. The first method (Approximated Robust Upper Bound or aRUB) uses the first order approximation of the network as well as basic tools from Linear Robust Optimization to obtain an empirical upper bound of the adversarial loss that can be easily implemented. The second method (Robust Upper Bound or RUB), computes a provable upper bound of the adversarial loss. Across a variety of tabular and vision data sets we demonstrate the effectiveness of our approach -- RUB is substantially more robust than state-of-the-art methods for larger perturbations, while aRUB matches the performance of state-of-the-art methods for small perturbations.
翻訳日:2023-04-07 18:32:12 公開日:2023-04-06
# ConDA: 正規化ドメイン結合によるLiDARセグメンテーションのための教師なしドメイン適応

ConDA: Unsupervised Domain Adaptation for LiDAR Segmentation via Regularized Domain Concatenation ( http://arxiv.org/abs/2111.15242v3 )

ライセンス: Link先を確認
Lingdong Kong, Niamul Quader, Venice Erin Liong(参考訳) ラベル付きソースドメインから学んだ知識を、教師なしドメイン適応(uda)のための生のターゲットドメインに移すことは、自動運転システムのスケーラブルな展開に不可欠である。 UDAの最先端の手法では、ソースドメインとターゲットドメインの両方からの共同監視信号を利用して、自己学習を行う。 この作業では、この側面を改善し、拡張します。 We present ConDA, a concatenation-based domain adaptation framework for LiDAR segmentation that。 1)ego-vehicle周辺のオブジェクトと背景のセマンティックコヒーレンシーを不安定にすることなく、ソースとターゲットドメインの両方からのきめ細かい交換信号からなる中間領域を構築する。 2) 自己学習に中間ドメインを利用する。 ソースドメインにおけるネットワークトレーニングと中間ドメインでの自己学習を改善するために,アリアシングアーティファクトやノイズのある擬似ラベルによる負の効果を低減するために,アンチエイリアス正則化器とエントロピーアグリゲータを提案する。 広範な研究を通じて,ConDAはドメインギャップを緩和する上で,先行技術よりも著しく優れていたことを実証した。

Transferring knowledge learned from the labeled source domain to the raw target domain for unsupervised domain adaptation (UDA) is essential to the scalable deployment of autonomous driving systems. State-of-the-art methods in UDA often employ a key idea: utilizing joint supervision signals from both source and target domains for self-training. In this work, we improve and extend this aspect. We present ConDA, a concatenation-based domain adaptation framework for LiDAR segmentation that: 1) constructs an intermediate domain consisting of fine-grained interchange signals from both source and target domains without destabilizing the semantic coherency of objects and background around the ego-vehicle; and 2) utilizes the intermediate domain for self-training. To improve the network training on the source domain and self-training on the intermediate domain, we propose an anti-aliasing regularizer and an entropy aggregator to reduce the negative effect caused by the aliasing artifacts and noisy pseudo labels. Through extensive studies, we demonstrate that ConDA significantly outperforms prior arts in mitigating domain gaps.
翻訳日:2023-04-07 18:31:47 公開日:2023-04-06
# エピソード強化学習における最適化と遅延

Optimism and Delays in Episodic Reinforcement Learning ( http://arxiv.org/abs/2111.07615v2 )

ライセンス: Link先を確認
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) エピソディック強化学習には後悔の最小化のための多くのアルゴリズムがある。 この問題は理論的な観点からよく理解されており、各エピソードに関連する状態、行動、報酬のシーケンスが、環境とのインタラクションの直後にポリシーを更新するアルゴリズムで利用可能である。 しかし、フィードバックはほとんど常に遅れている。 本稿では,エピソジック強化学習における遅延フィードバックの影響を理論的に検討し,遅延に対処するための2つの汎用的アプローチを提案する。 第1は、新しい情報が利用可能になったらすぐに更新するが、第2は、新しく観測された情報を使用してポリシーを更新するのを待つ。 楽観的アルゴリズムのクラスといずれのアプローチにおいても,提案手法は,状態数,動作数,エピソード長,予測遅延数,アルゴリズム依存定数を含む加法項によって,後悔が増大することを示す。 種々の遅延分布が楽観的アルゴリズムの後悔に及ぼす影響を実験的に検討し,理論結果の検証を行った。

There are many algorithms for regret minimisation in episodic reinforcement learning. This problem is well-understood from a theoretical perspective, providing that the sequences of states, actions and rewards associated with each episode are available to the algorithm updating the policy immediately after every interaction with the environment. However, feedback is almost always delayed in practice. In this paper, we study the impact of delayed feedback in episodic reinforcement learning from a theoretical perspective and propose two general-purpose approaches to handling the delays. The first involves updating as soon as new information becomes available, whereas the second waits before using newly observed information to update the policy. For the class of optimistic algorithms and either approach, we show that the regret increases by an additive term involving the number of states, actions, episode length, the expected delay and an algorithm-dependent constant. We empirically investigate the impact of various delay distributions on the regret of optimistic algorithms to validate our theoretical results.
翻訳日:2023-04-07 18:31:28 公開日:2023-04-06
# ハイパースペクトル画像分類のための自動設計畳み込みニューラルネットワークのグラフト変換器

Grafting Transformer on Automatically Designed Convolutional Neural Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2110.11084v3 )

ライセンス: Link先を確認
Xizhe Xue, Haokui Zhang, Bei Fang, Zongwen Bai, Ying Li(参考訳) ハイパースペクトル画像 (HSI) の分類は, 空間的・スペクトル的な情報が豊富であり, 異なる土地被覆物体を識別するための強力な基盤を提供するため, 決定のためのホットトピックとなっている。 ディープラーニング技術の発展により、ディープラーニングに基づくHSI分類手法は有望な性能を達成した。 近年,hsi分類のためのニューラルネットワーク探索(nas)アルゴリズムが提案されており,hsi分類の精度がさらに向上している。 本稿では,NASとTransformerを組み合わせることで,HSI分類タスクを初めて処理する。 従来の研究と比較して,提案手法の主な違いは2つある。 まず,従来のhsi分類nas法で設計された探索空間を再検討し,空間支配セルとスペクトル支配セルからなる新しいハイブリッド探索空間を提案する。 先行研究で提案された検索空間と比較して,提案するハイブリッド検索空間は,hsiデータの特徴,すなわちhsisの空間分解能は相対的に低く,スペクトル分解能は極めて高い。 第二に、分類精度をさらに向上するため、自動設計された畳み込みニューラルネットワーク(CNN)にトランスフォーマーモジュールを移植して、CNNが学習した局所的な特徴にグローバル情報を追加する。 3つの公開HSIデータセットによる実験結果から,提案手法は手作業によるネットワーク設計やNASに基づくHSI分類手法など,比較手法よりもはるかに優れた性能を実現することが示された。 ヒューストン大学が最近取得したデータセットでは、全体の精度が6ポイント近く向上している。 コードはhttps://github.com/cecilia-xue/hyt-nas。

Hyperspectral image (HSI) classification has been a hot topic for decides, as hyperspectral images have rich spatial and spectral information and provide strong basis for distinguishing different land-cover objects. Benefiting from the development of deep learning technologies, deep learning based HSI classification methods have achieved promising performance. Recently, several neural architecture search (NAS) algorithms have been proposed for HSI classification, which further improve the accuracy of HSI classification to a new level. In this paper, NAS and Transformer are combined for handling HSI classification task for the first time. Compared with previous work, the proposed method has two main differences. First, we revisit the search spaces designed in previous HSI classification NAS methods and propose a novel hybrid search space, consisting of the space dominated cell and the spectrum dominated cell. Compared with search spaces proposed in previous works, the proposed hybrid search space is more aligned with the characteristic of HSI data, that is, HSIs have a relatively low spatial resolution and an extremely high spectral resolution. Second, to further improve the classification accuracy, we attempt to graft the emerging transformer module on the automatically designed convolutional neural network (CNN) to add global information to local region focused features learned by CNN. Experimental results on three public HSI datasets show that the proposed method achieves much better performance than comparison approaches, including manually designed network and NAS based HSI classification methods. Especially on the most recently captured dataset Houston University, overall accuracy is improved by nearly 6 percentage points. Code is available at: https://github.com/Cecilia-xue/HyT-NAS.
翻訳日:2023-04-07 18:31:13 公開日:2023-04-06
# 道路網による細粒度都市交通流推定

Road Network Guided Fine-Grained Urban Traffic Flow Inference ( http://arxiv.org/abs/2109.14251v2 )

ライセンス: Link先を確認
Lingbo Liu and Mengmeng Liu and Guanbin Li and Ziyi Wu and Junfan Lin and Liang Lin(参考訳) 粗粒度からの細粒度トラフィックフローの正確な推定は,コスト削減に必要なトラフィック監視センサの数を大幅に削減する上で,新たな重要な問題である。 そこで本研究では,過去の研究で完全に無視されたり,単に外的要因として扱われたりした道路網と交通の流れの相関性が高いことに気付き,この問題を解消するために,道路網の事前知識を明示的に活用し,細粒度交通の流れの道路認識空間分布を完全に学習する新しい道路認識交通流拡大器(ratfm)を提案する。 具体的には,道路ネットワークの意味的特徴を抽出するために,まず多方向1次元畳み込み層を導入する。 次に,道路網の特徴と粗粒流の特徴を取り入れ,道路関連交通の流れの短距離空間分布モデルを定式化する。 さらに,道路網の特徴を問合せとして,トランスフォーマーアーキテクチャを用いて交通流の長距離空間分布を抽出する。 本手法は道路認識推論機構を利用して,高品質な交通流図を作成できる。 3つの実世界のデータセットに対する大規模な実験により、提案されたRATFMは様々なシナリオ下で最先端のモデルより優れていることが示された。 コードとデータセットは {\url{https://github.com/luimoli/RATFM}}で公開されています。

Accurate inference of fine-grained traffic flow from coarse-grained one is an emerging yet crucial problem, which can help greatly reduce the number of the required traffic monitoring sensors for cost savings. In this work, we notice that traffic flow has a high correlation with road network, which was either completely ignored or simply treated as an external factor in previous works.To facilitate this problem, we propose a novel Road-Aware Traffic Flow Magnifier (RATFM) that explicitly exploits the prior knowledge of road networks to fully learn the road-aware spatial distribution of fine-grained traffic flow. Specifically, a multi-directional 1D convolutional layer is first introduced to extract the semantic feature of the road network. Subsequently, we incorporate the road network feature and coarse-grained flow feature to regularize the short-range spatial distribution modeling of road-relative traffic flow. Furthermore, we take the road network feature as a query to capture the long-range spatial distribution of traffic flow with a transformer architecture. Benefiting from the road-aware inference mechanism, our method can generate high-quality fine-grained traffic flow maps. Extensive experiments on three real-world datasets show that the proposed RATFM outperforms state-of-the-art models under various scenarios. Our code and datasets are released at {\url{https://github.com/luimoli/RATFM}}.
翻訳日:2023-04-07 18:30:46 公開日:2023-04-06
# Pythia: オンライン強化学習を利用したカスタマイズ可能なハードウェアプリフェッチフレームワーク

Pythia: A Customizable Hardware Prefetching Framework Using Online Reinforcement Learning ( http://arxiv.org/abs/2109.12021v5 )

ライセンス: Link先を確認
Rahul Bera, Konstantinos Kanellopoulos, Anant V. Nori, Taha Shahroodi, Sreenivas Subramoney, Onur Mutlu(参考訳) 過去の研究は、多くのハードウェアプリフェッチ技術を提案しており、そのほとんどは、将来のメモリアクセスを予測するために、1つの特定の種類のプログラムコンテキスト情報(例えば、プログラムカウンタ、キャッシュラインアドレス)を利用する。 これらの手法は、システム全体に対するプレフェッチャーの望ましくない効果(例えば、メモリ帯域使用量)を完全に無視するか、システムレベルのフィードバックをシステム非認識プリフェッチアルゴリズムの後付けとして組み込むかのどちらかである。 従来のプリフェッチでは,プリフェッチ時に複数のプログラムコンテキストやシステムレベルのフィードバック情報を考慮できないため,さまざまなワークロードやシステム構成においてパフォーマンス上のメリットが失われることが多い。 本稿では,複数種類のプログラムコンテキストとシステムレベルのフィードバック情報を用いてプリフェッチを学習する包括的プリフェッチアルゴリズムの設計を事例とする。 そこで本研究では,プレフェッチャーを強化学習剤として定式化するPythiaを提案する。 要求要求毎に、Pythiaは複数の異なる種類のプログラムコンテキスト情報を観察し、事前決定を行う。 プリフェッチ決定毎に、Pythiaは現在のメモリ帯域幅使用量でプリフェッチ品質を評価する数値的な報酬を受け取る。 pythiaはこの報酬を使って、プログラムコンテキスト情報とプリフェッチ決定との相関を強化し、精度が高く、タイムリーで、システム対応のプリフェッチ要求を生成する。 シミュレーションとハードウェア合成を用いた大規模な評価では、Pythiaはさまざまなワークロードやシステム構成に対して、複数の最先端プリフェッチよりも優れており、デスクトップクラスのプロセッサよりも1.03%のオーバヘッドしか発生せず、ワークロードにソフトウェア変更はないことが示されている。 Pythiaのソースコードはhttps://github.com/CMU-SAFARI/Pythiaから無料でダウンロードできる。

Past research has proposed numerous hardware prefetching techniques, most of which rely on exploiting one specific type of program context information (e.g., program counter, cacheline address) to predict future memory accesses. These techniques either completely neglect a prefetcher's undesirable effects (e.g., memory bandwidth usage) on the overall system, or incorporate system-level feedback as an afterthought to a system-unaware prefetch algorithm. We show that prior prefetchers often lose their performance benefit over a wide range of workloads and system configurations due to their inherent inability to take multiple different types of program context and system-level feedback information into account while prefetching. In this paper, we make a case for designing a holistic prefetch algorithm that learns to prefetch using multiple different types of program context and system-level feedback information inherent to its design. To this end, we propose Pythia, which formulates the prefetcher as a reinforcement learning agent. For every demand request, Pythia observes multiple different types of program context information to make a prefetch decision. For every prefetch decision, Pythia receives a numerical reward that evaluates prefetch quality under the current memory bandwidth usage. Pythia uses this reward to reinforce the correlation between program context information and prefetch decision to generate highly accurate, timely, and system-aware prefetch requests in the future. Our extensive evaluations using simulation and hardware synthesis show that Pythia outperforms multiple state-of-the-art prefetchers over a wide range of workloads and system configurations, while incurring only 1.03% area overhead over a desktop-class processor and no software changes in workloads. The source code of Pythia can be freely downloaded from https://github.com/CMU-SAFARI/Pythia.
翻訳日:2023-04-07 18:30:22 公開日:2023-04-06
# 欠落性拡張:生成的インプテーションモデルを改善するための一般的なアプローチ

Missingness Augmentation: A General Approach for Improving Generative Imputation Models ( http://arxiv.org/abs/2108.02566v2 )

ライセンス: Link先を確認
Yufeng Wang, Dan Li, Cong Xu, Min Yang(参考訳) データインプテーションの欠如はデータ解析における根本的な問題であり、モデル構造や学習手順を探求することでその性能を向上させるために多くの研究が行われている。 しかし,データ拡張は単純で効果的な手法として,この分野では十分に注目されていない。 本論文では,生成的計算モデルのためのMissingness Augmentation(MisA)と呼ばれる新しいデータ拡張手法を提案する。 提案手法は, ジェネレータの出力を生かし, 単純な再構成損失を用いて拡張サンプルを制約し, この損失を元の損失と組み合わせて最終最適化目標を形成することにより, 各エポックにおける不完全サンプルを動的に生成する。 一般的な拡張技術として、misaは生成的インプテーションフレームワークに簡単に統合でき、パフォーマンスを向上させるためのシンプルで効果的な方法を提供する。 実験の結果、misaは様々な表型および画像データセットにおいて、最近提案されている多くの生成的インプテーションモデルの性能を大幅に改善できることが示されている。 コードは \url{https://github.com/WYu-Feng/Missingness-Augmentation} で公開されている。

Missing data imputation is a fundamental problem in data analysis, and many studies have been conducted to improve its performance by exploring model structures and learning procedures. However, data augmentation, as a simple yet effective method, has not received enough attention in this area. In this paper, we propose a novel data augmentation method called Missingness Augmentation (MisA) for generative imputation models. Our approach dynamically produces incomplete samples at each epoch by utilizing the generator's output, constraining the augmented samples using a simple reconstruction loss, and combining this loss with the original loss to form the final optimization objective. As a general augmentation technique, MisA can be easily integrated into generative imputation frameworks, providing a simple yet effective way to enhance their performance. Experimental results demonstrate that MisA significantly improves the performance of many recently proposed generative imputation models on a variety of tabular and image datasets. The code is available at \url{https://github.com/WYu-Feng/Missingness-Augmentation}.
翻訳日:2023-04-07 18:29:50 公開日:2023-04-06
# gaussian process posteriorsにおける主成分分析

Principal component analysis for Gaussian process posteriors ( http://arxiv.org/abs/2107.07115v2 )

ライセンス: Link先を確認
Hideaki Ishibashi and Shotaro Akaho(参考訳) 本稿では,GP-PCA で表されるガウス過程後部における主成分分析の拡張を提案する。 GP-PCAはGP後部の低次元空間を推定するので、一連のタスクの構造を推定して目標タスクの性能を向上させるためのフレームワークであるメタラーニングに使用できる。 問題は、座標系や発散のような無限次元のパラメータを持つGPの集合の構造をどのように定義するかである。 本研究では,情報幾何学的枠組みの下でのGPの無限大性を,それ以前のGP後続空間を考慮し,有限次元の場合へ還元する。 さらに,変分推論に基づくGP-PCAの近似法を提案し,実験によるメタラーニングにおけるGP-PCAの有効性を示す。

This paper proposes an extension of principal component analysis for Gaussian process (GP) posteriors, denoted by GP-PCA. Since GP-PCA estimates a low-dimensional space of GP posteriors, it can be used for meta-learning, which is a framework for improving the performance of target tasks by estimating a structure of a set of tasks. The issue is how to define a structure of a set of GPs with an infinite-dimensional parameter, such as coordinate system and a divergence. In this study, we reduce the infiniteness of GP to the finite-dimensional case under the information geometrical framework by considering a space of GP posteriors that have the same prior. In addition, we propose an approximation method of GP-PCA based on variational inference and demonstrate the effectiveness of GP-PCA as meta-learning through experiments.
翻訳日:2023-04-07 18:29:32 公開日:2023-04-06
# 数個のコピーから量子多体システムを学ぶ

Learning quantum many-body systems from a few copies ( http://arxiv.org/abs/2107.03333v3 )

ライセンス: Link先を確認
Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a(参考訳) 量子状態の物理特性を測定から推定することは、量子科学における最も基本的なタスクの1つである。 本研究では,状態の準局所可観測体の期待値の推測が可能な状態の条件を,対象可観測体の局所性に基づいて,システムの大きさと多項式的に多元的にスケールする複数のコピーから同定する。 そこで本研究では,最新トモグラフィープロトコルのコピー数を大幅に向上することを示す。 我々は,最大エントロピー法と古典影の新興分野のツールと量子最適輸送を組み合わせることにより,この結果を得る。 後者は、可観測性の期待値の推定における誤差を、局所的な値と、固定された少数の可観測値の集合の期待値の近似によって微調整することを可能にする。 我々は、この条件が相関のある種の減衰を示す全ての状態に対して成り立つと仮定し、いくつかの部分集合に対してそれを確立する。 これらは、任意のハイパーグラフ上の局所通勤ハミルトニアンの1次元熱および高温ギブス状態や浅い回路の出力など、広く研究されている状態のクラスを含む。 さらに,独立した関心を持つサンプルの複雑さを超えて,最大エントロピー法の改善を示す。 これらは、多体状態の共分散行列の条件数に関する新しいバウンダリと同様に、ポストプロセッシングを効率的に実行することが可能なレギュレーションの同定を含む。

Estimating physical properties of quantum states from measurements is one of the most fundamental tasks in quantum science. In this work, we identify conditions on states under which it is possible to infer the expectation values of all quasi-local observables of a state from a number of copies that scales polylogarithmically with the system's size and polynomially on the locality of the target observables. We show that this constitutes a provable exponential improvement in the number of copies over state-of-the-art tomography protocols. We achieve our results by combining the maximum entropy method with tools from the emerging fields of classical shadows and quantum optimal transport. The latter allows us to fine-tune the error made in estimating the expectation value of an observable in terms of how local it is and how well we approximate the expectation value of a fixed set of few-body observables. We conjecture that our condition holds for all states exhibiting some form of decay of correlations and establish it for several subsets thereof. These include widely studied classes of states such as one-dimensional thermal and high-temperature Gibbs states of local commuting Hamiltonians on arbitrary hypergraphs or outputs of shallow circuits. Moreover, we show improvements of the maximum entropy method beyond the sample complexity that are of independent interest. These include identifying regimes in which it is possible to perform the postprocessing efficiently as well as novel bounds on the condition number of covariance matrices of many-body states.
翻訳日:2023-04-07 18:29:18 公開日:2023-04-06
# 確率変動平滑モデル検査によるスケーラブル確率パラメトリック検証

Scalable Stochastic Parametric Verification with Stochastic Variational Smoothed Model Checking ( http://arxiv.org/abs/2205.05398v3 )

ライセンス: Link先を確認
Luca Bortolussi, Francesca Cairoli, Ginevra Carbone, Paolo Pulcini(参考訳) 確率モデルの線形時間特性のパラメトリック検証は、ある性質の満足度確率をモデルのパラメータの関数として計算するものとして表現することができる。 スムースドモデル検査 (smMC) は, パラメータ空間全体の満足度関数をシミュレーションによって得られた限られた観測値から推定することを目的としている。 観測は高価でノイズが多いため、smMCはベイズ推定問題としてフレーム化され、推定値が不確実性のさらなる定量化を行う。 smmcでは、著者らは期待伝播アルゴリズムによって推定されるガウス過程(gp)を用いる。 このアプローチは、統計的に不確実性の定量化を伴う正確な再構成を提供する。 しかし、GPの有名なスケーラビリティ問題を継承している。 本稿では、確率論的機械学習の最近の進歩を活用し、この制限を推し進め、ベイジアン推定のsmMCを大規模データセットにスケーラブルにし、高次元パラメータ空間を持つモデルに適用できるようにする。 本稿では,SVI(Stochastic Variational Inference)を利用して,smMC問題の後部分布を近似する手法であるStochastic Variational Smoothed Model Checking (SV-smMC)を提案する。 SVIの強度と柔軟性により、SV-smMCはガウス過程(GP)とベイズニューラルネットワーク(BNN)の2つの代替確率モデルに適用できる。 SVIの中核となる要素は確率勾配に基づく最適化であり、推論を容易に並列化し、GPUアクセラレーションを可能にする。 本稿では,SmMCとSV-smMCの性能を比較し,その拡張性,計算効率,再現された満足度関数の精度について検討する。

Parametric verification of linear temporal properties for stochastic models can be expressed as computing the satisfaction probability of a certain property as a function of the parameters of the model. Smoothed model checking (smMC) aims at inferring the satisfaction function over the entire parameter space from a limited set of observations obtained via simulation. As observations are costly and noisy, smMC is framed as a Bayesian inference problem so that the estimates have an additional quantification of the uncertainty. In smMC the authors use Gaussian Processes (GP), inferred by means of the Expectation Propagation algorithm. This approach provides accurate reconstructions with statistically sound quantification of the uncertainty. However, it inherits the well-known scalability issues of GP. In this paper, we exploit recent advances in probabilistic machine learning to push this limitation forward, making Bayesian inference of smMC scalable to larger datasets and enabling its application to models with high dimensional parameter spaces. We propose Stochastic Variational Smoothed Model Checking (SV-smMC), a solution that exploits stochastic variational inference (SVI) to approximate the posterior distribution of the smMC problem. The strength and flexibility of SVI make SV-smMC applicable to two alternative probabilistic models: Gaussian Processes (GP) and Bayesian Neural Networks (BNN). The core ingredient of SVI is a stochastic gradient-based optimization that makes inference easily parallelizable and that enables GPU acceleration. In this paper, we compare the performances of smMC against those of SV-smMC by looking at the scalability, the computational efficiency and the accuracy of the reconstructed satisfaction function.
翻訳日:2023-04-07 18:22:01 公開日:2023-04-06
# リモートセンシング事前学習の実証的研究

An Empirical Study of Remote Sensing Pretraining ( http://arxiv.org/abs/2204.02825v3 )

ライセンス: Link先を確認
Di Wang, Jing Zhang, Bo Du, Gui-Song Xia and Dacheng Tao(参考訳) 深層学習は空中画像理解のためのリモートセンシング(RS)研究を大きく変え、大きな成功を収めた。 それでも、既存のディープモデルのほとんどは、ImageNet事前訓練された重量で初期化されている。 自然画像は必然的に航空画像に比べて大きな領域間隙を呈するので、おそらく下流の航空シーンでの微調整性能は制限されるだろう。 この問題により,航空画像におけるリモートセンシングプリトレーニング(rsp)の実証研究を行う動機となった。 この目的のために、これまで最大のRSシーン認識データセット -- MillionAIDの助けを借りて、さまざまなネットワークをゼロからトレーニングし、コンピュータビジョンタスクで有望なパフォーマンスを示す畳み込みニューラルネットワーク(CNN)と、SwinやViTAEのようなビジョントランスフォーマーを含む、一連のRS事前トレーニングされたバックボーンを取得する。 次に,これらのCNNと視覚変換器のバックボーンを用いたシーン認識,セマンティックセグメンテーション,オブジェクト検出,変化検出などの下流タスクに対するRSPの影響を検討した。 経験的研究によれば、rspはシーン認識タスクや"ブリッジ"や"飛行機"といったrs関連のセマンティクスに特有のパフォーマンスを提供するのに役立つ。 RSPは従来のイメージネットによるRS画像の事前学習におけるデータ格差を緩和するが、下流タスクがシーン認識タスクとは異なる表現を必要とするタスクの相違に悩まされている可能性がある。 これらの知見は、大規模事前トレーニングデータセットと効果的な事前トレーニング方法の両方について、さらなる研究の努力を必要とする。 コードと事前訓練されたモデルはhttps://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensingでリリースされる。

Deep learning has largely reshaped remote sensing (RS) research for aerial image understanding and made a great success. Nevertheless, most of the existing deep models are initialized with the ImageNet pretrained weights. Since natural images inevitably present a large domain gap relative to aerial images, probably limiting the finetuning performance on downstream aerial scene tasks. This issue motivates us to conduct an empirical study of remote sensing pretraining (RSP) on aerial images. To this end, we train different networks from scratch with the help of the largest RS scene recognition dataset up to now -- MillionAID, to obtain a series of RS pretrained backbones, including both convolutional neural networks (CNN) and vision transformers such as Swin and ViTAE, which have shown promising performance on computer vision tasks. Then, we investigate the impact of RSP on representative downstream tasks including scene recognition, semantic segmentation, object detection, and change detection using these CNN and vision transformer backbones. Empirical study shows that RSP can help deliver distinctive performances in scene recognition tasks and in perceiving RS related semantics such as "Bridge" and "Airplane". We also find that, although RSP mitigates the data discrepancies of traditional ImageNet pretraining on RS images, it may still suffer from task discrepancies, where downstream tasks require different representations from scene recognition tasks. These findings call for further research efforts on both large-scale pretraining datasets and effective pretraining methods. The codes and pretrained models will be released at https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing.
翻訳日:2023-04-07 18:21:34 公開日:2023-04-06
# woods氏: 時系列におけるアウトオブディストリビューション一般化のベンチマーク

WOODS: Benchmarks for Out-of-Distribution Generalization in Time Series ( http://arxiv.org/abs/2203.09978v2 )

ライセンス: Link先を確認
Jean-Christophe Gagnon-Audet, Kartik Ahuja, Mohammad-Javad Darvishi-Bayazi, Pooneh Mousavi, Guillaume Dumas, Irina Rish(参考訳) 機械学習モデルは、分散シフトの下でよく一般化できないことが多い。 これらの失敗を理解し克服することは、アウト・オブ・ディストリビューション(OOD)の一般化の研究分野に繋がった。 静的コンピュータビジョンタスクでは広く研究されているが、時系列タスクではOODの一般化が過小評価されている。 このギャップに光を当てるために、WOODS: ビデオ、脳記録、センサー信号など、さまざまなデータモダリティをカバーする8つの挑戦的なオープンソース時系列ベンチマークを紹介します。 時系列タスクのための既存のOOD一般化アルゴリズムを改訂し、体系的なフレームワークを用いて評価する。 実験の結果,我々のデータセットにおける経験的リスク最小化とOOD一般化アルゴリズムの改善の余地が大きく,時系列タスクによる新たな課題が強調された。 コードとドキュメントはhttps://woods-benchmarks.github.ioで入手できる。

Machine learning models often fail to generalize well under distributional shifts. Understanding and overcoming these failures have led to a research field of Out-of-Distribution (OOD) generalization. Despite being extensively studied for static computer vision tasks, OOD generalization has been underexplored for time series tasks. To shine light on this gap, we present WOODS: eight challenging open-source time series benchmarks covering a diverse range of data modalities, such as videos, brain recordings, and sensor signals. We revise the existing OOD generalization algorithms for time series tasks and evaluate them using our systematic framework. Our experiments show a large room for improvement for empirical risk minimization and OOD generalization algorithms on our datasets, thus underscoring the new challenges posed by time series tasks. Code and documentation are available at https://woods-benchmarks.github.io .
翻訳日:2023-04-07 18:21:04 公開日:2023-04-06
# wickの定理違反によるフェルミオン相互作用の定量化

Quantifying fermionic interactions from the violation of Wick's theorem ( http://arxiv.org/abs/2203.04870v3 )

ライセンス: Link先を確認
Jiannis K. Pachos and Chrysoula Vlachou(参考訳) 相互作用系とは対照的に、自由系の基底状態は、ウィックの分解によって見られるように、高度に順序付けられた量子相関パターンを持つ。 ここでは、Wickの分解に生じる違反を測定することにより、相互作用の効果を定量化する。 特に、フェミオン系の低絡み合いスペクトルの観点から、この違反を表現している。 さらに, ウィックの定理の破れと相互作用距離との関係を, 系の縮小密度行列と相互作用距離に最も近い最適自由モデルの最小距離として定式化する。 我々の研究は、測定可能な量子相関はあるものの、物理系における相互作用の効果を定量化する手段を提供する。

In contrast to interacting systems, the ground state of free systems has a highly ordered pattern of quantum correlations, as witnessed by Wick's decomposition. Here, we quantify the effect of interactions by measuring the violation they cause on Wick's decomposition. In particular, we express this violation in terms of the low entanglement spectrum of fermionic systems. Moreover, we establish a relation between the Wick's theorem violation and the interaction distance, the smallest distance between the reduced density matrix of the system and that of the optimal free model closest to the interacting one. Our work provides the means to quantify the effect of interactions in physical systems though measurable quantum correlations.
翻訳日:2023-04-07 18:20:49 公開日:2023-04-06
# シングルショット量子測定による量子多体状態のスケッチ

Single-shot quantum measurements sketch quantum many-body states ( http://arxiv.org/abs/2203.01348v4 )

ライセンス: Link先を確認
Jia-Bao Wang, Yi Zhang(参考訳) 量子測定は、多くの微小な自由度からなる量子システムに対する我々の目である。 しかし、量子測定の本質的な不確かさと指数関数的に大きいヒルベルト空間は、測定結果の単純な解釈に自然な障壁をもたらす。 本稿では, 測定結果に基づく非線形「測定エネルギー」と, 最大推定値(最大推定値)を効率よく抽出し, 非可換可観測値の整合と量子測定値からより多くの値を得るための反復的有効ハミルトニアン手法を提案する。 煙管シグネチャが欠如していたランダムな長距離フェルミオンモデルとキタエフ量子スピン液体モデルに対して,我々の視点の汎用性と精度を示す。 本研究は非線形作用素ハミルトニアンの概念や親ハミルトニアン再構成のような応用への道を開く。

Quantum measurements are our eyes to the quantum systems consisting of a multitude of microscopic degrees of freedom. However, the intrinsic uncertainty of quantum measurements and the exponentially large Hilbert space pose natural barriers to simple interpretations of the measurement outcomes. We propose a nonlinear "measurement energy" based upon the measurement outcomes and an iterative effective-Hamiltonian approach to extract the most probable states (maximum likelihood estimates) in an efficient and general fashion, thus reconciling the non-commuting observables and getting more out of the quantum measurements. We showcase the versatility and accuracy of our perspective on random long-range fermion models and Kitaev quantum spin liquid models, where smoking-gun signatures were lacking. Our study also paves the way towards concepts such as nonlinear-operator Hamiltonian and applications such as parent Hamiltonian reconstruction.
翻訳日:2023-04-07 18:20:37 公開日:2023-04-06
# 量子微分プライバシー:情報理論の観点から

Quantum Differential Privacy: An Information Theory Perspective ( http://arxiv.org/abs/2202.10717v3 )

ライセンス: Link先を確認
Christoph Hirche, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a(参考訳) 微分プライバシーは、古典的な計算に対して証明可能なセキュリティ保証を提供することに関して、非常に成功した概念である。 最近では、この概念は量子計算に一般化された。 古典的な計算は基本的にノイズが無く、ノイズを人工的に付加することで微分プライバシが達成されることが多いが、近未来の量子コンピュータは本質的にノイズが多く、これが自然微分プライバシを機能としてもたらすことが観察された。 本研究では,情報理論の枠組みにおける量子微分プライバシーを量子分岐として論じる。 このアプローチの主な利点は、差分プライバシーが計算の出力状態のみに基づいてプロパティになり、測定毎にチェックする必要がなくなることである。 これは、その性質のより単純な証明と一般化されたステートメント、および一般および特定のノイズモデルに対するいくつかの新しい境界をもたらす。 特に、量子回路の共通表現や量子機械学習の概念が含まれる。 ここでは、特定のレベルの差分プライバシーを達成するのに必要なノイズ量と、どんな計算も役に立たない量との差に焦点を当てる。 最後に,局所微分プライバシ,renyi微分プライバシ,仮説検証解釈の古典的な概念を量子設定に一般化し,いくつかの新しい特性と洞察を提供する。

Differential privacy has been an exceptionally successful concept when it comes to providing provable security guarantees for classical computations. More recently, the concept was generalized to quantum computations. While classical computations are essentially noiseless and differential privacy is often achieved by artificially adding noise, near-term quantum computers are inherently noisy and it was observed that this leads to natural differential privacy as a feature. In this work we discuss quantum differential privacy in an information theoretic framework by casting it as a quantum divergence. A main advantage of this approach is that differential privacy becomes a property solely based on the output states of the computation, without the need to check it for every measurement. This leads to simpler proofs and generalized statements of its properties as well as several new bounds for both, general and specific, noise models. In particular, these include common representations of quantum circuits and quantum machine learning concepts. Here, we focus on the difference in the amount of noise required to achieve certain levels of differential privacy versus the amount that would make any computation useless. Finally, we also generalize the classical concepts of local differential privacy, Renyi differential privacy and the hypothesis testing interpretation to the quantum setting, providing several new properties and insights.
翻訳日:2023-04-07 18:20:21 公開日:2023-04-06
# 集合オートマトンマッチングに基づく項書き換え

Term Rewriting Based On Set Automaton Matching ( http://arxiv.org/abs/2202.08687v3 )

ライセンス: Link先を確認
Mark Bouwman, Rick Erkens(参考訳) 本稿では, 項書き換え処理を効率的に行うために, サブタームパターンマッチングアルゴリズムをどのように利用するかを検討する。 書き直しシステムの左側から集合オートマトンを構築し、項中の全ての再編集を効率的に見つけることができる。 書き直し戦略が与えられた場合、パターンマッチングステップと書き直しステップをインターリーブし、redex発見とサブターム置換をスムーズに統合する手順を形式的に記述する。 次に,この手順を最外書き換えでインスタンス化する効率的な実装を行い,いくつかの実験の結果を示す。 私たちの実装は、同等のツールと競合することを示している。

In this article we investigate how a subterm pattern matching algorithm can be exploited to implement efficient term rewriting procedures. From the left-hand sides of the rewrite system we construct a set automaton, which can be used to find all redexes in a term efficiently. We formally describe a procedure that, given a rewrite strategy, interleaves pattern matching steps and rewriting steps and thus smoothly integrates redex discovery and subterm replacement. We then present an efficient implementation that instantiates this procedure with outermost rewriting, and present the results of some experiments. Our implementation shows to be competitive with comparable tools.
翻訳日:2023-04-07 18:20:03 公開日:2023-04-06
# StratDef:MLによるマルウェア検出における敵攻撃に対する戦略的防御

StratDef: Strategic Defense Against Adversarial Attacks in ML-based Malware Detection ( http://arxiv.org/abs/2202.07568v5 )

ライセンス: Link先を確認
Aqib Rashid, Jose Such(参考訳) 長年にわたり、機械学習モデルに対する敵対的攻撃に対する防御に向けた研究は、画像認識領域で行われている。 マルウェア検出領域は、重要性にもかかわらずあまり注目されていない。 さらに、これらの防御を探求するほとんどの作業は、いくつかの方法に焦点を当てているが、それを適用するための戦略はない。 本稿では,移動目標防衛アプローチに基づく戦略防衛システムであるStratDefを紹介する。 我々は,モデルの体系的構築,選択,戦略的利用に関する課題を克服し,敵意の強固さを最大化する。 StratDefは攻撃者の不確実性を高めるための最良のモデルを動的かつ戦略的に選択すると同時に、攻撃の転送可能性などの敵MLドメインにおける重要な側面を最小限にする。 我々は、マルウェア検出のための機械学習に対する敵攻撃に対する防御を包括的に評価し、脅威モデルは異なるレベルの脅威、攻撃者の知識、能力、攻撃強度を探索する。 我々は,StratDefが最強の敵の脅威に直面しても,他の防御よりも優れた性能を示すことを示す。 また,既存の防御策の1つとして,バニラモデルのみを用いたモデルに比べて防御性が大幅に向上しているモデルもいくつかあるが,stratdefに勝っていることも示している。

Over the years, most research towards defenses against adversarial attacks on machine learning models has been in the image recognition domain. The malware detection domain has received less attention despite its importance. Moreover, most work exploring these defenses has focused on several methods but with no strategy when applying them. In this paper, we introduce StratDef, which is a strategic defense system based on a moving target defense approach. We overcome challenges related to the systematic construction, selection, and strategic use of models to maximize adversarial robustness. StratDef dynamically and strategically chooses the best models to increase the uncertainty for the attacker while minimizing critical aspects in the adversarial ML domain, like attack transferability. We provide the first comprehensive evaluation of defenses against adversarial attacks on machine learning for malware detection, where our threat model explores different levels of threat, attacker knowledge, capabilities, and attack intensities. We show that StratDef performs better than other defenses even when facing the peak adversarial threat. We also show that, of the existing defenses, only a few adversarially-trained models provide substantially better protection than just using vanilla models but are still outperformed by StratDef.
翻訳日:2023-04-07 18:19:51 公開日:2023-04-06
# 局所的な一眼レフ映像の3次元再構成に向けて

Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth ( http://arxiv.org/abs/2202.01470v4 )

ライセンス: Link先を確認
Guangkai Xu, Wei Yin, Hao Chen, Chunhua Shen, Kai Cheng, Feng Wu, Feng Zhao(参考訳) 既存の単眼深度推定法は様々な場面で優れたロバスト性を達成しているが、それらは未知のスケールとシフトまでアフィン不変深さのみを取得することができる。 しかし,映像の深度推定や映像からの3次元シーン再構成といったビデオベースのシナリオでは,フレームごとの予測に係わる未知のスケールやシフトが,奥行きの不整合を引き起こす可能性がある。 この問題を解決するために, 局所重み付き線形回帰法を提案し, 連続するフレームに沿ったスケールの整合性を確保するために, 非常に疎いアンカーポイントでスケールとシフトを復元する。 複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができることを示す。 さらに,630万以上のrgbdイメージをマージして,堅牢で堅牢な深さモデルをトレーニングしています。 resnet50-backboneモデルは最先端のdpt vit-largeモデルよりも優れています。 幾何学に基づく再構成法と組み合わせることで,疎点のスケール一貫性と単眼法のロバスト性の両方を活かした,新しい高密度3次元シーン復元パイプラインを考案した。 ビデオ上で簡単なフレーム単位の予測を行うことで、正確な3Dシーン形状を復元することができる。

Existing monocular depth estimation methods have achieved excellent robustness in diverse scenes, but they can only retrieve affine-invariant depth, up to an unknown scale and shift. However, in some video-based scenarios such as video depth estimation and 3D scene reconstruction from a video, the unknown scale and shift residing in per-frame prediction may cause the depth inconsistency. To solve this problem, we propose a locally weighted linear regression method to recover the scale and shift with very sparse anchor points, which ensures the scale consistency along consecutive frames. Extensive experiments show that our method can boost the performance of existing state-of-the-art approaches by 50% at most over several zero-shot benchmarks. Besides, we merge over 6.3 million RGBD images to train strong and robust depth models. Our produced ResNet50-backbone model even outperforms the state-of-the-art DPT ViT-Large model. Combining with geometry-based reconstruction methods, we formulate a new dense 3D scene reconstruction pipeline, which benefits from both the scale consistency of sparse points and the robustness of monocular methods. By performing the simple per-frame prediction over a video, the accurate 3D scene shape can be recovered.
翻訳日:2023-04-07 18:19:32 公開日:2023-04-06
# 連続する繰り返しアニール流輸送モンテカルロ

Continual Repeated Annealed Flow Transport Monte Carlo ( http://arxiv.org/abs/2201.13117v3 )

ライセンス: Link先を確認
Alexander G. D. G. Matthews, Michael Arbel, Danilo J. Rezende, Arnaud Doucet(参考訳) 本稿では, 連続的なモンテカルロ (SMC) サンプリング器と正規化フローを用いた変分推論を組み合わせた連続的反復的アニール流輸送モンテカルロ (CRAFT) を提案する。 正規化フローは、遷移毎にKL分散を用いて熱処理温度間の輸送を直接訓練する。 この最適化目的自体を正規化フロー/SMC近似を用いて推定する。 我々はCRAFTが構築するAnnealed Flow Transport Monte Carlo(Arbel et al., 2021)と、Markov chain Monte Carlo(MCMC)をベースとしたStochastic Normalizing Flows(Wu et al., 2020)で改善する経験的な例をいくつか紹介する。 粒子MCMCにCRAFTを組み込むことにより,これらの学習したサンプルは,挑戦的な格子場理論の例において,驚くほど正確な結果が得られることを示す。

We propose Continual Repeated Annealed Flow Transport Monte Carlo (CRAFT), a method that combines a sequential Monte Carlo (SMC) sampler (itself a generalization of Annealed Importance Sampling) with variational inference using normalizing flows. The normalizing flows are directly trained to transport between annealing temperatures using a KL divergence for each transition. This optimization objective is itself estimated using the normalizing flow/SMC approximation. We show conceptually and using multiple empirical examples that CRAFT improves on Annealed Flow Transport Monte Carlo (Arbel et al., 2021), on which it builds and also on Markov chain Monte Carlo (MCMC) based Stochastic Normalizing Flows (Wu et al., 2020). By incorporating CRAFT within particle MCMC, we show that such learnt samplers can achieve impressively accurate results on a challenging lattice field theory example.
翻訳日:2023-04-07 18:19:11 公開日:2023-04-06
# 一般化線形バンディットの再訪における遅延フィードバック

Delayed Feedback in Generalised Linear Bandits Revisited ( http://arxiv.org/abs/2207.10786v3 )

ライセンス: Link先を確認
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) 確率的一般化線形帯域は、逐次決定問題に対するよく理解されたモデルであり、多くのアルゴリズムは即時フィードバックの下でほぼ最適の後悔を保証する。 しかし、即時報酬の厳格な要求は、報酬がほとんど常に遅れている多くの現実世界のアプリケーションでは未完成である。 一般化線形バンディットにおける遅延報酬現象を理論的に検討した。 遅延フィードバックに対する楽観的なアルゴリズムの自然な適応は、遅延に対するペナルティが地平線から独立であるような後悔境界を達成することを示す。 この結果は、最もよく知られた後悔境界が地平線にしたがって遅延ペナルティが増大する既存の作業を大幅に改善する。 シミュレーションデータを用いた実験により理論的結果を検証する。

The stochastic generalised linear bandit is a well-understood model for sequential decision-making problems, with many algorithms achieving near-optimal regret guarantees under immediate feedback. However, the stringent requirement for immediate rewards is unmet in many real-world applications where the reward is almost always delayed. We study the phenomenon of delayed rewards in generalised linear bandits in a theoretical manner. We show that a natural adaptation of an optimistic algorithm to the delayed feedback achieves a regret bound where the penalty for the delays is independent of the horizon. This result significantly improves upon existing work, where the best known regret bound has the delay penalty increasing with the horizon. We verify our theoretical results through experiments on simulated data.
翻訳日:2023-04-07 18:13:24 公開日:2023-04-06
# 統一学習方式とダイナミックレンジ最小化によるマルチモーダルEコマース属性値抽出の促進

Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified Learning Scheme and Dynamic Range Minimization ( http://arxiv.org/abs/2207.07278v2 )

ライセンス: Link先を確認
Mengyin Liu, Chao Zhu, Hongyu Gao, Weibo Gu, Hongfa Wang, Wei Liu, Xu-cheng Yin(参考訳) eコマース産業の繁栄に伴い、ビジョンや言語といった様々なモダリティが製品項目の記述に利用される。 このような多様化したデータを理解することは、特に有用な画像領域の助けを借りて、テキストシーケンス中の属性値対を抽出することで大きな課題である。 この作業に先立つ一連の研究が注がれているが、さらなる改善を妨げる障害についてほとんど調査されていない。 1) 上流シングルモーダルプレトレーニングのパラメータは, 下流マルチモーダルタスクにおいて, 適切な微調整を行うことなく, 不適切に適用される。 2) 画像の記述的部分を選択するには,言語関連情報をより強力なエンコーダによって共通言語埋め込み空間にエンコードすべきという事前知識にかかわらず,単純なレイトフュージョンが広く適用される。 3) 製品間での多様性のため, 属性セットは大きく異なる傾向にあるが, 現在のアプローチでは, 不要な最大範囲で予測し, より潜在的な偽陽性をもたらす。 これらの問題に対処するため,本稿では,統一学習スキームとダイナミックレンジ最小化によるマルチモーダル電子商取引属性値の抽出を促進する新しい手法を提案する。 1) まず,事前訓練された単一モーダルパラメータを用いたマルチモーダルタスクを協調的に訓練する統合的スキームを設計する。 2) テキスト誘導型情報範囲最小化法を提案し, 事前学習された言語モデルを用いて各モダリティの記述部を同一空間に適応的に符号化する。 3) プロトタイプ誘導型属性範囲最小化手法を提案し, 提案手法はまず現行製品の適切な属性セットを判定し, 選択した属性の予測を導出するプロトタイプを選択する。 一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。

With the prosperity of e-commerce industry, various modalities, e.g., vision and language, are utilized to describe product items. It is an enormous challenge to understand such diversified data, especially via extracting the attribute-value pairs in text sequences with the aid of helpful image regions. Although a series of previous works have been dedicated to this task, there remain seldomly investigated obstacles that hinder further improvements: 1) Parameters from up-stream single-modal pretraining are inadequately applied, without proper jointly fine-tuning in a down-stream multi-modal task. 2) To select descriptive parts of images, a simple late fusion is widely applied, regardless of priori knowledge that language-related information should be encoded into a common linguistic embedding space by stronger encoders. 3) Due to diversity across products, their attribute sets tend to vary greatly, but current approaches predict with an unnecessary maximal range and lead to more potential false positives. To address these issues, we propose in this paper a novel approach to boost multi-modal e-commerce attribute value extraction via unified learning scheme and dynamic range minimization: 1) Firstly, a unified scheme is designed to jointly train a multi-modal task with pretrained single-modal parameters. 2) Secondly, a text-guided information range minimization method is proposed to adaptively encode descriptive parts of each modality into an identical space with a powerful pretrained linguistic model. 3) Moreover, a prototype-guided attribute range minimization method is proposed to first determine the proper attribute set of the current product, and then select prototypes to guide the prediction of the chosen attributes. Experiments on the popular multi-modal e-commerce benchmarks show that our approach achieves superior performance over the other state-of-the-art techniques.
翻訳日:2023-04-07 18:13:11 公開日:2023-04-06
# DASS:スパースニューラルネットワークのための微分可能なアーキテクチャ探索

DASS: Differentiable Architecture Search for Sparse neural networks ( http://arxiv.org/abs/2207.06968v4 )

ライセンス: Link先を確認
Hamid Mousavi, Mohammad Loni, Mina Alibeigi, Masoud Daneshtalab(参考訳) エッジデバイスへのディープニューラルネットワーク(DNN)のデプロイは、パフォーマンス要件と利用可能な処理パワーの間に大きなギャップがあるために妨げられている。 最近の研究は、DNNの計算オーバーヘッドを低減するためのスパースネットワークを構築するためのプルーニング手法の開発に大きく貢献しているが、特に高いプルーニング比において、かなりの精度の損失がある。 構造探索手法は, プランニング機構を適用した場合, 密集したネットワーク向けに設計したアーキテクチャは有効ではないことが判明した。 主な理由は,本手法が検索空間におけるスパースアーキテクチャをサポートせず,高密度ネットワークを対象とし,疎度に注意を払わない探索目的を用いているためである。 本稿では,スパーシティフレンドリなニューラルアーキテクチャを探索する新しい手法を提案する。 検索空間に2つの新しいスパース操作を追加し、検索目的を変更してこれを行う。 本稿では,スパース操作を含む検索空間を拡張するために,2つの新しいパラメトリックSparseConvとSparseLinear演算を提案する。 特に、これらの操作は線形および畳み込み操作のスパースパラメトリックバージョンを使用するため、柔軟な探索空間を作る。 提案する検索目的は,検索空間操作のスパース性に基づいて,アーキテクチャを訓練することである。 CIFAR-10 と ImageNet データセットの検索構造は,最先端のスパースネットワークで使用されているものよりも優れていることを示す。 性能とハードウェア効率の面では、DASSはMobileNet-v2のスパースバージョンの精度を73.44%から81.35%(+7.91%改善)に改善し、推論時間は3.87倍に向上した。

The deployment of Deep Neural Networks (DNNs) on edge devices is hindered by the substantial gap between performance requirements and available processing power. While recent research has made significant strides in developing pruning methods to build a sparse network for reducing the computing overhead of DNNs, there remains considerable accuracy loss, especially at high pruning ratios. We find that the architectures designed for dense networks by differentiable architecture search methods are ineffective when pruning mechanisms are applied to them. The main reason is that the current method does not support sparse architectures in their search space and uses a search objective that is made for dense networks and does not pay any attention to sparsity. In this paper, we propose a new method to search for sparsity-friendly neural architectures. We do this by adding two new sparse operations to the search space and modifying the search objective. We propose two novel parametric SparseConv and SparseLinear operations in order to expand the search space to include sparse operations. In particular, these operations make a flexible search space due to using sparse parametric versions of linear and convolution operations. The proposed search objective lets us train the architecture based on the sparsity of the search space operations. Quantitative analyses demonstrate that our search architectures outperform those used in the stateof-the-art sparse networks on the CIFAR-10 and ImageNet datasets. In terms of performance and hardware effectiveness, DASS increases the accuracy of the sparse version of MobileNet-v2 from 73.44% to 81.35% (+7.91% improvement) with 3.87x faster inference time.
翻訳日:2023-04-07 18:12:38 公開日:2023-04-06
# エルミート系における例外点相転移のシグナチャ

Signature of exceptional point phase transition in Hermitian systems ( http://arxiv.org/abs/2207.01862v4 )

ライセンス: Link先を確認
T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik(参考訳) 例外点 (EP) は非エルミート系におけるスペクトル特異点である。 EPを渡すことで相転移が起こり、様々なアプリケーションを見つける非従来的な特徴を持つシステムを実現する。 しかし、消散と増幅を併用する必要性は、EPを持つシステムの応用を制限している。 本研究では,散逸や増幅のないエルミート系における例外的点相転移のシグネチャの存在を実証する。 2つの結合振動子を含む複合エルミート系とその環境は、数十自由度しか持たない。 このようなエルミート系のダイナミクスは、非エルミート系におけるepに対応する発振器間の結合強度で生じる遷移を示す。 この遷移は、エネルギーの崩壊と復活が起こる系の力学の非マルコフ的状態においても現れている。 したがって、非エルミート系におけるEPの通過時に生じる相転移が常にエルミート系に現れることを示す。 非マルコフ系におけるEP相転移のシグネチャを観察するための実験的スキームについて論じる。

Exceptional point (EP) is a spectral singularity in non-Hermitian systems. The passing over the EP leads to a phase transition, which endows the system with unconventional features that find a wide range of applications. However, the need of using the dissipation and amplification limits the possible applications of systems with the EP. In this work, we demonstrate an existence of signature of exceptional point phase transition in Hermitian systems that are free from dissipation and amplification. We consider a composite Hermitian system including both two coupled oscillators and their environment consisting only of several tens degrees of freedom. We show that the dynamics of such a Hermitian system demonstrate a transition, which occurs at the coupling strength between oscillators corresponding to the EP in the non-Hermitian system. This transition manifests itself even in the non-Markovian regime of the system dynamics in which collapses and revivals of the energy occur. Thus, we demonstrate that the phase transition occurring at the passing over the EP in the non-Hermitian system manifests itself in the Hermitian system at all time. We discuss the experimental scheme to observe the signature of EP phase transition in the non-Markovian regime.
翻訳日:2023-04-07 18:12:13 公開日:2023-04-06
# パーソナライズされたショーケース:レコメンデーションのためのマルチモーダル説明の生成

Personalized Showcases: Generating Multi-Modal Explanations for Recommendations ( http://arxiv.org/abs/2207.00422v2 )

ライセンス: Link先を確認
An Yan, Zhankui He, Jiacheng Li, Tianyang Zhang, Julian McAuley(参考訳) 既存の説明モデルは、レコメンデーションのためのテキストのみを生成するが、多様なコンテンツを生成するのに苦労している。 本稿では、さらに説明を深めるために、パーソナライズされたショーケースという新しいタスクを提案し、提案するレコメンデーションを説明するために、テキスト情報と視覚情報の両方を提供する。 具体的には、まず、推奨項目に対するユーザの関心に最も関連するパーソナライズされたイメージセットを選択する。 そして、選択した画像から自然言語の説明を生成する。 この新しいタスクでは、Google Localから大規模なデータセット(例えば—maps)を収集し、マルチモーダルな説明を生成するための高品質なサブセットを構築する。 コントラスト学習によって多様で視覚的に整合した説明を生成できるパーソナライズされたマルチモーダルフレームワークを提案する。 実験により、我々のフレームワークは入力として異なるモダリティから恩恵を受け、様々な評価指標で以前の方法と比較してより多様で表現力のある説明ができることを示した。

Existing explanation models generate only text for recommendations but still struggle to produce diverse contents. In this paper, to further enrich explanations, we propose a new task named personalized showcases, in which we provide both textual and visual information to explain our recommendations. Specifically, we first select a personalized image set that is the most relevant to a user's interest toward a recommended item. Then, natural language explanations are generated accordingly given our selected images. For this new task, we collect a large-scale dataset from Google Local (i.e.,~maps) and construct a high-quality subset for generating multi-modal explanations. We propose a personalized multi-modal framework which can generate diverse and visually-aligned explanations via contrastive learning. Experiments show that our framework benefits from different modalities as inputs, and is able to produce more diverse and expressive explanations compared to previous methods on a variety of evaluation metrics.
翻訳日:2023-04-07 18:12:00 公開日:2023-04-06
# 不均衡分類のためのSVMの一次推定下位解法

Primal Estimated Subgradient Solver for SVM for Imbalanced Classification ( http://arxiv.org/abs/2206.09311v4 )

ライセンス: Link先を確認
John Sun(参考訳) 我々は,PEGASOS SVMが8.6:1から130:1の範囲のマイノリティ比を持つ不均衡データセットに対して優れた性能を達成し,インタセプト(バイアス),正規化,パラメータがデータセット選択のパフォーマンスに影響を及ぼすかどうかを確認することを目的としている。 SMOTE法には多くの方法があるが、計算量が少ない方法を目指している。 学習曲線を調べることにより,その性能を評価する。 これらの曲線は、我々が過剰に適合するか過小評価するか、代表的トレーニング/テストデータの下で選択するかを診断します。 また、バリデーション曲線におけるハイパーパラメータの背景とテストと列車のエラーも見ていきます。 我々は、ding の線形 svm decidl 法の pegasos コストに敏感な svm の結果をベンチマークする。 彼は1つのデータセットで.5のROC-AUCを得た。 私たちの仕事は、svmにカーネルを組み込むことでdingの作業を拡張します。 マルチパラメータのクロスバリデーション中に混合データ型を格納するための辞書があるため、MATLABではなくPythonを使用します。

We aim to demonstrate in experiments that our cost sensitive PEGASOS SVM achieves good performance on imbalanced data sets with a Majority to Minority Ratio ranging from 8.6:1 to 130:1 and to ascertain whether the including intercept (bias), regularization and parameters affects performance on our selection of datasets. Although many resort to SMOTE methods, we aim for a less computationally intensive method. We evaluate the performance by examining the learning curves. These curves diagnose whether we overfit or underfit or we choose over representative or under representative training/test data. We will also see the background of the hyperparameters versus the test and train error in validation curves. We benchmark our PEGASOS Cost-Sensitive SVM's results of Ding's LINEAR SVM DECIDL method. He obtained an ROC-AUC of .5 in one dataset. Our work will extend the work of Ding by incorporating kernels into SVM. We will use Python rather than MATLAB as python has dictionaries for storing mixed data types during multi-parameter cross-validation.
翻訳日:2023-04-07 18:11:41 公開日:2023-04-06
# 構造化変分グラフオートエンコーダによる正確なノード特徴推定

Accurate Node Feature Estimation with Structured Variational Graph Autoencoder ( http://arxiv.org/abs/2206.04516v2 )

ライセンス: Link先を確認
Jaemin Yoo, Hyunsik Jeon, Jinhong Jung, and U Kang(参考訳) ノードの特徴を部分的に観察したグラフを考えると、不足する特徴を正確に見積もることができるのか? データ収集プロセス中に一般的に欠落している実世界のグラフを分析する上で,特徴推定は重要な問題である。 正確な推定は、ノードの多様な情報を提供するだけでなく、ノードの特徴の完全な観察を必要とするグラフニューラルネットワークの推論をサポートする。 しかし,高次元特徴量推定のための効果的な手法の設計は,推定器が大きな表現力を持つ必要があるため,過剰フィッティングのリスクを増大させるため,困難である。 本研究では,特徴量推定のための精度の高いSVGA(Structured Variational Graph Autoencoder)を提案する。 SVGAは、グラフ構造に基づくガウス的マルコフ確率場として変数の先行をモデル化する構造化変分推論により、潜在変数の分布に強い正則化を適用する。 その結果、SVGAは確率的推論とグラフニューラルネットワークの利点を組み合わせて、実際のデータセットで最先端のパフォーマンスを達成することができる。

Given a graph with partial observations of node features, how can we estimate the missing features accurately? Feature estimation is a crucial problem for analyzing real-world graphs whose features are commonly missing during the data collection process. Accurate estimation not only provides diverse information of nodes but also supports the inference of graph neural networks that require the full observation of node features. However, designing an effective approach for estimating high-dimensional features is challenging, since it requires an estimator to have large representation power, increasing the risk of overfitting. In this work, we propose SVGA (Structured Variational Graph Autoencoder), an accurate method for feature estimation. SVGA applies strong regularization to the distribution of latent variables by structured variational inference, which models the prior of variables as Gaussian Markov random field based on the graph structure. As a result, SVGA combines the advantages of probabilistic inference and graph neural networks, achieving state-of-the-art performance in real datasets.
翻訳日:2023-04-07 18:11:21 公開日:2023-04-06
# EfficientViT:オンデバイスセマンティックセマンティックセグメンテーションのための軽量マルチスケールアテンション

EfficientViT: Lightweight Multi-Scale Attention for On-Device Semantic Segmentation ( http://arxiv.org/abs/2205.14756v3 )

ライセンス: Link先を確認
Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han(参考訳) セマンティックセグメンテーションは、計算写真や自律運転など、多くの魅力的な現実世界のアプリケーションを可能にする。 しかし、計算コストが大きいため、ハードウェアリソースが限られているエッジデバイスに最先端セマンティックセグメンテーションモデルをデプロイすることは困難である。 この研究は、デバイス上のセマンティックセマンティックセマンティクスのための、新しい軽量なマルチスケールアテンションを備えたセマンティクスセマンティクスモデルであるEfficientViTを提示する。 先行するセマンティクスセグメンテーションモデルが,ハードウェア非効率な大規模カーネル畳み込みや複雑なトポロジ構造に依存して優れた性能を得るためには,従来のセマンティクスセグメンテーションモデルと異なり,軽量でハードウェア効率の高い操作のみを用いて,グローバル受容場とマルチスケール学習(セマンティクスセグメンテーションモデルにおける2つの重要な特徴)を実現する。 このように、 efficientvitは、モバイルプラットフォームでの大幅なスピードアップとともに、人気のあるベンチマークデータセットをまたいで、以前の最先端セマンティックセグメンテーションモデルよりも優れたパフォーマンスを提供する。 Cityscapesのパフォーマンスを損なうことなく、当社のEfficientViTは、SegFormerとSegNeXtをそれぞれ最大15倍、9.3倍のモバイルレイテンシ削減を提供します。 同じモバイルレイテンシを維持するために、EfficientViTはSegNeXtよりもADE20Kで+7.4 mIoUゲインを提供する。 コード:https://github.com/mit-han-lab/efficientvit。

Semantic segmentation enables many appealing real-world applications, such as computational photography, autonomous driving, etc. However, the vast computational cost makes deploying state-of-the-art semantic segmentation models on edge devices with limited hardware resources difficult. This work presents EfficientViT, a new family of semantic segmentation models with a novel lightweight multi-scale attention for on-device semantic segmentation. Unlike prior semantic segmentation models that rely on heavy self-attention, hardware-inefficient large-kernel convolution, or complicated topology structure to obtain good performances, our lightweight multi-scale attention achieves a global receptive field and multi-scale learning (two critical features for semantic segmentation models) with only lightweight and hardware-efficient operations. As such, EfficientViT delivers remarkable performance gains over previous state-of-the-art semantic segmentation models across popular benchmark datasets with significant speedup on the mobile platform. Without performance loss on Cityscapes, our EfficientViT provides up to 15x and 9.3x mobile latency reduction over SegFormer and SegNeXt, respectively. Maintaining the same mobile latency, EfficientViT provides +7.4 mIoU gain on ADE20K over SegNeXt. Code: https://github.com/mit-han-lab/efficientvit.
翻訳日:2023-04-07 18:10:49 公開日:2023-04-06
# Real2Sim2Real Transferによる微分物理エンジンによるケーブル駆動ロボットの制御

Real2Sim2Real Transfer for Control of Cable-driven Robots via a Differentiable Physics Engine ( http://arxiv.org/abs/2209.06261v3 )

ライセンス: Link先を確認
Kun Wang, William R. Johnson III, Shiyang Lu, Xiaonan Huang, Joran Booth, Rebecca Kramer-Bottiglio, Mridul Aanjaneya, Kostas Bekris(参考訳) 剛体棒とフレキシブルケーブルからなるテンセグリティロボットは、高い強度と重量比と大きな変形を示し、非構造地形をナビゲートし、厳しい衝撃に耐えることができる。 しかし、それらは高次元性、複雑な力学、結合アーキテクチャのために制御が難しい。 物理ベースのシミュレーションは、実際のロボットに転送できるロコモーションポリシーを開発するための有望な道のりだ。 それでも、tensegrityロボットのモデリングは、sim2現実のギャップが大きいため、複雑な作業である。 本論では, 緊張ロボットに対するReal2Sim2Real(R2S2R)戦略について述べる。 この戦略は、実際のロボットからの限られたデータから訓練できる微分可能な物理エンジンに基づいている。 これらのデータには、様々なロボットコンポーネントの質量や形状などの物理的特性のオフライン測定や、ランダムな制御ポリシーを用いた軌道の観測が含まれる。 本物のロボットのデータにより、エンジンは反復的に洗練され、本物のロボットに直接転送可能な移動ポリシーを発見するのに使える。 R2S2Rパイプライン以外にも、この研究の重要な貢献は、接触点における非ゼロ勾配の計算、緊張度軌跡に一致する損失関数、訓練中の勾配評価の矛盾を避ける軌道分割技術などである。 R2S2Rプロセスの複数イテレーションを実3バー張力ロボットで実証し評価した。

Tensegrity robots, composed of rigid rods and flexible cables, exhibit high strength-to-weight ratios and significant deformations, which enable them to navigate unstructured terrains and survive harsh impacts. They are hard to control, however, due to high dimensionality, complex dynamics, and a coupled architecture. Physics-based simulation is a promising avenue for developing locomotion policies that can be transferred to real robots. Nevertheless, modeling tensegrity robots is a complex task due to a substantial sim2real gap. To address this issue, this paper describes a Real2Sim2Real (R2S2R) strategy for tensegrity robots. This strategy is based on a differentiable physics engine that can be trained given limited data from a real robot. These data include offline measurements of physical properties, such as mass and geometry for various robot components, and the observation of a trajectory using a random control policy. With the data from the real robot, the engine can be iteratively refined and used to discover locomotion policies that are directly transferable to the real robot. Beyond the R2S2R pipeline, key contributions of this work include computing non-zero gradients at contact points, a loss function for matching tensegrity locomotion gaits, and a trajectory segmentation technique that avoids conflicts in gradient evaluation during training. Multiple iterations of the R2S2R process are demonstrated and evaluated on a real 3-bar tensegrity robot.
翻訳日:2023-04-07 18:03:25 公開日:2023-04-06
# bayanアルゴリズム:モジュラリティの完全および近似最適化によるネットワーク内のコミュニティの検出

The Bayan Algorithm: Detecting Communities in Networks Through Exact and Approximate Optimization of Modularity ( http://arxiv.org/abs/2209.04562v2 )

ライセンス: Link先を確認
Samin Aref, Hriday Chheda, and Mahdi Mostajabdaveh(参考訳) コミュニティ検出はネットワーク科学における古典的な問題であり、様々な分野に幅広く応用されている。 多くのアプローチの中で、最も一般的な方法はモジュラリティの最大化である。 設計哲学と広く採用されているにもかかわらず、ヒューリスティックなモジュラリティ最大化アルゴリズムが最適分割を返すことは滅多にない。 そこで我々は,最適性あるいは最適分割への近さを保証した分割を返却する特殊アルゴリズムbayanを提案する。 ベイアンアルゴリズムの核心にある分岐・カットスキームは、問題の整数計画定式化を最適に解くか、あるいは係数内で近似するものである。 実ネットワークにおける合成ベンチマークやノードラベルにおいて,21の他のアルゴリズムに対して,bayanの特異な精度と安定性を示す。 Bayanは、モジュラリティの最大化のためにオープンソースや商用の解決器よりも数倍高速で、既存の方法では最適化できないインスタンスの最適なパーティションを見つけることができる。 全体として、ベイアンは最大3000のエッジを持つネットワークにおけるモジュラリティの正確な最大化と、通常のコンピュータ上での大規模ネットワークにおける最大モジュラリティの近似に適した選択であると評価している。

Community detection is a classic problem in network science with extensive applications in various fields. Among numerous approaches, the most common method is modularity maximization. Despite their design philosophy and wide adoption, heuristic modularity maximization algorithms rarely return an optimal partition or anything similar. We propose a specialized algorithm, Bayan, which returns partitions with a guarantee of either optimality or proximity to an optimal partition. At the core of the Bayan algorithm is a branch-and-cut scheme that solves an integer programming formulation of the problem to optimality or approximate it within a factor. We demonstrate Bayan's distinctive accuracy and stability over 21 other algorithms in retrieving ground-truth communities in synthetic benchmarks and node labels in real networks. Bayan is several times faster than open-source and commercial solvers for modularity maximization making it capable of finding optimal partitions for instances that cannot be optimized by any other existing method. Overall, our assessments point to Bayan as a suitable choice for exact maximization of modularity in networks with up to 3000 edges (in their largest connected component) and approximating maximum modularity in larger networks on ordinary computers.
翻訳日:2023-04-07 18:02:23 公開日:2023-04-06
# 公開データによる個人推定

Private Estimation with Public Data ( http://arxiv.org/abs/2208.07984v2 )

ライセンス: Link先を確認
Alex Bie, Gautam Kamath, Vikrant Singhal(参考訳) 我々は,少量の公開データへのアクセスによる差分プライベート(DP)推定の研究を開始する。 d-次元ガウシアンのプライベートな推定には、公開データは、基礎となるプライベートデータのガウシアンと総変動距離の類似性を失うガウシアンに由来すると仮定する。 DPの制約の下では、d+1公開データサンプルは、プライベートデータ分布のレンジパラメータへの依存を、パブリックデータなしでは不要であることが知られているプライベートサンプルの複雑さから排除するのに十分であることを示す。 For separated Gaussian mixtures, we assume that the underlying public and private distributions are the same, and we consider two settings: (1) when given a dimension-independent amount of public data, the private sample complexity can be improved polynomially in terms of the number of mixture components, and any dependence on the range parameters of the distribution can be removed in the approximate DP case; (2) when given an amount of public data linear in the dimension, the private sample complexity can be made independent of range parameters even under concentrated DP, and additional improvements can be made to the overall sample complexity.

We initiate the study of differentially private (DP) estimation with access to a small amount of public data. For private estimation of d-dimensional Gaussians, we assume that the public data comes from a Gaussian that may have vanishing similarity in total variation distance with the underlying Gaussian of the private data. We show that under the constraints of pure or concentrated DP, d+1 public data samples are sufficient to remove any dependence on the range parameters of the private data distribution from the private sample complexity, which is known to be otherwise necessary without public data. For separated Gaussian mixtures, we assume that the underlying public and private distributions are the same, and we consider two settings: (1) when given a dimension-independent amount of public data, the private sample complexity can be improved polynomially in terms of the number of mixture components, and any dependence on the range parameters of the distribution can be removed in the approximate DP case; (2) when given an amount of public data linear in the dimension, the private sample complexity can be made independent of range parameters even under concentrated DP, and additional improvements can be made to the overall sample complexity.
翻訳日:2023-04-07 18:02:03 公開日:2023-04-06
# 統計的仮説テストプログラムのための音響的および相対的完全信奉論理

Sound and Relatively Complete Belief Hoare Logic for Statistical Hypothesis Testing Programs ( http://arxiv.org/abs/2208.07074v2 )

ライセンス: Link先を確認
Yusuke Kawamoto, Tetsuya Sato, Kohei Suenaga(参考訳) 本稿では,統計的推論の要件を形式的に記述し,プログラムが統計的手法を適切に利用するかどうかを確認するための新しい手法を提案する。 具体的には,仮説検定によって得られた統計的信念を形式化・推論するために,信念ホーア論理(bhl)を定義する。 このプログラム論理は、仮説テストのためのクリプキモデルに対して健全で比較的完全である。 本稿では,BHLが仮説テストの実践的問題に対する推論に有用であることを実例で示す。 本稿では,仮説検定による統計的信念獲得における先行的信念の重要性を明らかにし,プログラム論理内外における統計的推論の正当化の全体像について考察する。

We propose a new approach to formally describing the requirement for statistical inference and checking whether a program uses the statistical method appropriately. Specifically, we define belief Hoare logic (BHL) for formalizing and reasoning about the statistical beliefs acquired via hypothesis testing. This program logic is sound and relatively complete with respect to a Kripke model for hypothesis tests. We demonstrate by examples that BHL is useful for reasoning about practical issues in hypothesis testing. In our framework, we clarify the importance of prior beliefs in acquiring statistical beliefs through hypothesis testing, and discuss the whole picture of the justification of statistical inference inside and outside the program logic.
翻訳日:2023-04-07 18:01:48 公開日:2023-04-06
# 少ない光線を照射した高速学習放射場

Fast Learning Radiance Fields by Shooting Much Fewer Rays ( http://arxiv.org/abs/2208.06821v2 )

ライセンス: Link先を確認
Wenyuan Zhang, Ruofan Xing, Yunfan Zeng, Yu-Shen Liu, Kanle Shi, Zhizhong Han(参考訳) 学習放射場は、新しいビュー合成において顕著な結果を示した。 学習手順は通常、多くの時間を要するため、ニューラルネットワークなしで学習したり、より効率的なデータ構造を使用して学習手順を高速化する最新の方法が動機となっている。 しかし、これらの特別に設計されたアプローチは、放射場に基づく手法のほとんどでは機能しない。 この問題を解決するため,ほぼすべての放射場に基づく手法の学習手順を高速化する一般戦略を導入する。 私たちの重要なアイデアは、ほぼすべてのラミアンスフィールドベースのメソッドの基礎となるマルチビューボリュームレンダリング手順において、より少ないレイを撮影することで冗長性を削減することです。 劇的な色変化を示す画素での撮影光は、トレーニング負担を著しく低減するだけでなく、学習した放射界の精度にもほとんど影響しない。 さらに、ツリーの各ノードにおける平均レンダリングエラーに応じて、各ビューをクワッドツリーに適応的に分割することで、より複雑な領域でより多くのレイを動的に撮影し、レンダリングエラーを大きくします。 本手法は,広く使用されているベンチマークで,異なる放射場に基づく手法を用いて評価する。 実験の結果,より高速にトレーニングすることで,最先端技術と同等の精度が得られることがわかった。

Learning radiance fields has shown remarkable results for novel view synthesis. The learning procedure usually costs lots of time, which motivates the latest methods to speed up the learning procedure by learning without neural networks or using more efficient data structures. However, these specially designed approaches do not work for most of radiance fields based methods. To resolve this issue, we introduce a general strategy to speed up the learning procedure for almost all radiance fields based methods. Our key idea is to reduce the redundancy by shooting much fewer rays in the multi-view volume rendering procedure which is the base for almost all radiance fields based methods. We find that shooting rays at pixels with dramatic color change not only significantly reduces the training burden but also barely affects the accuracy of the learned radiance fields. In addition, we also adaptively subdivide each view into a quadtree according to the average rendering error in each node in the tree, which makes us dynamically shoot more rays in more complex regions with larger rendering error. We evaluate our method with different radiance fields based methods under the widely used benchmarks. Experimental results show that our method achieves comparable accuracy to the state-of-the-art with much faster training.
翻訳日:2023-04-07 18:01:36 公開日:2023-04-06
# 100年後: シュテルン・ガーラッハ実験と次元目撃者

One Hundred Years Later: Stern-Gerlach Experiment and Dimension Witnesses ( http://arxiv.org/abs/2208.04377v2 )

ライセンス: Link先を確認
R. Grossi, Lucas L. Brugger, B. F. Rizzuti, C. Duarte(参考訳) スターンとガーラッハの独創的な作品の100周年を記念して、我々の貢献は、彼らの有名な実験をより現代的な視点でどのように使うかの提案である。 私たちの主なアイデアは、準備と測定のシナリオの現代的な言語で実験を再キャストすることです。 そうすることで、状態空間の幾何学的側面と代数的側面を物理的空間と結びつけることができる。 また,SG実験のシミュレーションや,統計レベルで明らかになった実験の実験的特性についても検討した。 より現代的な視点とパラダイム的な実験を融合させることで、この論文が量子情報理論と量子力学の基礎の入り口となることを期待する。

Inspired by the one-hundredth anniversary of the seminal works of Stern and Gerlach, our contribution is a proposal of how to use their famous experiment in a more contemporary perspective. Our main idea is to re-cast the experiment in the modern language of prepare-and-measure scenarios. By doing so, it is possible to connect geometric and algebraic aspects of the space of states with the physical space. We also discuss possible simulations of the SG experiment as well as some experimental properties of the experiment revealed at the statistical level. Merging a more modern perspective with a paradigmatic experiment, we hope this paper can serve as an entry door for quantum information theory and the foundations of quantum mechanics.
翻訳日:2023-04-07 18:01:14 公開日:2023-04-06
# 軌道角運動量を持つスピンテキスト中性子ビーム

Spin-Textured Neutron Beams with Orbital Angular Momentum ( http://arxiv.org/abs/2207.12419v3 )

ライセンス: Link先を確認
Quan Le Thien, Sam McKay, Roger Pynn and Gerardo Ortiz(参考訳) 本稿では、スピンエコ変調小角中性子散乱法(SEMSANS)を基礎とする厳密な理論枠組みを提案し、磁気ウォラストンプリズムとして知られる複屈折中性子スピン偏光デバイスを介して軌道角運動量(OAM)を持つスピンテクスチャ中性子ビームを生成する方法を示す。 中性子OAMビームは、OAM量子数が$\ell$となる伝播軸に関する 'cork-screw'' 相特異点$e^{i \ell \phi}$ によって数学的に特徴づけられる。 様々な設定で実現されたスピンテクスチャと創発性OAM状態の正確な関係を理解するために, 干渉計の極限において磁気スネルの法則を法則的に活用する経路積分法を開発した。 提案手法は,スピン-OAM交絡状態の複雑な2次元パターンを生成し,量子磁気材料のプローブとして有用であることを示す。 我々は,この経路積分的アプローチをよく知られた単経路ラーモア・プレスションモデルと比較し,maupertuis の作用原理に基づく大質量粒子と無質量粒子の両方に対する磁気スネルの屈折の法則の教育的導出を示す。

We present a rigorous theoretical framework underpinning the technique of spin-echo modulated small-angle neutron scattering (SEMSANS), and show how the technique can be extended in order to generate spin-textured neutron beams with orbital angular momentum (OAM) via birefringent neutron spin-polarization devices known as magnetic Wollaston prisms. Neutron OAM beams are mathematically characterized by a ``cork-screw'' phase singularity $e^{i \ell \phi}$ about the propagation axis where $\ell$ is the OAM quantum number. To understand the precise relationship between the emergent OAM state and the variety of spin textures realized by various setups, we have developed a path-integral approach that in the interferometric limit makes a judicious use of magnetic Snell's law. We show that our proposed technique produces a complex two-dimensional pattern of spin-OAM entangled states which may be useful as a probe of quantum magnetic materials. We compare our path-integral approach to the well-known single-path Larmor precession model and present a pedagogical derivation of magnetic Snell's law of refraction for both massive and massless particles based on Maupertuis's action principle.
翻訳日:2023-04-07 18:01:02 公開日:2023-04-06
# DBQ-SSD: 効率的な3Dオブジェクト検出のための動的ボールクエリ

DBQ-SSD: Dynamic Ball Query for Efficient 3D Object Detection ( http://arxiv.org/abs/2207.10909v2 )

ライセンス: Link先を確認
Jinrong Yang, Lin Song, Songtao Liu, Weixin Mao, Zeming Li, Xiaoping Li, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) 多くの点ベースの3D検出器は、効率的な推論のためにいくつかの点を落とすために点特徴サンプリング戦略を採用している。 これらの戦略は一般に固定されたルールと手作りのルールに基づいており、複雑なシーンを扱うのが困難である。 これらと異なり、入力特徴に応じて入力点のサブセットを適応的に選択する動的ボールクエリ(DBQ)ネットワークを提案し、選択された各点に対して適切な受容場に特徴変換を割り当てる。 最先端の3d検出器に組み込み、エンドツーエンドでトレーニングすることで、計算コストを大幅に削減することができる。 KITTI,Waymo,ONCEデータセット上で,提案手法が推論速度を30%-100%向上できることを示す。 具体的には、検出器の推論速度はkittiシーンで162fps、waymoで30fps、性能劣化なしに一度のシーンで30fpsに達することができる。 冗長な点をスキップするため、いくつかの評価指標は大幅な改善を示している。 コードはhttps://github.com/yancie-yjr/DBQ-SSDでリリースされる。

Many point-based 3D detectors adopt point-feature sampling strategies to drop some points for efficient inference. These strategies are typically based on fixed and handcrafted rules, making it difficult to handle complicated scenes. Different from them, we propose a Dynamic Ball Query (DBQ) network to adaptively select a subset of input points according to the input features, and assign the feature transform with a suitable receptive field for each selected point. It can be embedded into some state-of-the-art 3D detectors and trained in an end-to-end manner, which significantly reduces the computational cost. Extensive experiments demonstrate that our method can increase the inference speed by 30%-100% on KITTI, Waymo, and ONCE datasets. Specifically, the inference speed of our detector can reach 162 FPS on KITTI scene, and 30 FPS on Waymo and ONCE scenes without performance degradation. Due to skipping the redundant points, some evaluation metrics show significant improvements. Codes will be released at https://github.com/yancie-yjr/DBQ-SSD.
翻訳日:2023-04-07 18:00:38 公開日:2023-04-06
# 高移動車両を用いた資源制約付き車両エッジフェデレーション学習

Resource Constrained Vehicular Edge Federated Learning with Highly Mobile Connected Vehicles ( http://arxiv.org/abs/2210.15496v3 )

ライセンス: Link先を確認
Md Ferdous Pervej, Richeng Jin and Huaiyu Dai(参考訳) 本稿では,車載型中央処理ユニット(CPU)とローカルデータセットを用いて,エッジサーバが高度に移動可能なコネクテッドカー(CV)を利用してグローバルモデルをトレーニングする,VEFL(vehicular edge federated learning)ソリューションを提案する。 収束解析により、VEFLのトレーニング損失は、間欠的な車両間赤外線(V2I)無線リンクに対するCVのトレーニングモデルの受信の成功に依存することが明らかになった。 高モビリティのため、フルデバイス参加ケース(FDPC)では、エッジサーバは、CVのデータセットサイズとソジュール期間に応じて重み付けされた組み合わせに基づいてクライアントモデルパラメータを集約し、部分デバイス参加ケース(PDPC)ではCVのサブセットを選択する。 そこで我々は, 遅延, エネルギー, コスト制約下での無線アクセス技術 (RAT) のパラメータ最適化問題を考案し, 局所的に訓練されたモデルの受信の確率を最大化する。 最適化問題はNPハードであることを考えると、推定最悪の待ち時間、遅延とエネルギーコスト、オンラインRTTパラメータ最適化サブプロブレムを考えると、VEFLパラメータ最適化サブプロブレムに分解する。 最後に, 5G-NR (5G-NR) RAT を用いて, 現実的な微視的モビリティモデルにより提案手法の有効性を検証した。

This paper proposes a vehicular edge federated learning (VEFL) solution, where an edge server leverages highly mobile connected vehicles' (CVs') onboard central processing units (CPUs) and local datasets to train a global model. Convergence analysis reveals that the VEFL training loss depends on the successful receptions of the CVs' trained models over the intermittent vehicle-to-infrastructure (V2I) wireless links. Owing to high mobility, in the full device participation case (FDPC), the edge server aggregates client model parameters based on a weighted combination according to the CVs' dataset sizes and sojourn periods, while it selects a subset of CVs in the partial device participation case (PDPC). We then devise joint VEFL and radio access technology (RAT) parameters optimization problems under delay, energy and cost constraints to maximize the probability of successful reception of the locally trained models. Considering that the optimization problem is NP-hard, we decompose it into a VEFL parameter optimization sub-problem, given the estimated worst-case sojourn period, delay and energy expense, and an online RAT parameter optimization sub-problem. Finally, extensive simulations are conducted to validate the effectiveness of the proposed solutions with a practical 5G new radio (5G-NR) RAT under a realistic microscopic mobility model.
翻訳日:2023-04-07 17:55:16 公開日:2023-04-06
# 模写から複写まで: 計算的に探究されたハデイェイチの写本の筆跡的評価

From exemplar to copy: the scribal appropriation of a Hadewijch manuscript computationally explored ( http://arxiv.org/abs/2210.14061v4 )

ライセンス: Link先を確認
Wouter Haverals, Mike Kestemont(参考訳) 本研究は、中世の神秘作家ハデヴィヒの遺稿が保存されている、ブリュッセル、kbr、2879-2880 (ms.a) とブリュッセル、kbr、2877-2878 (ms.b) の2つの最古の写本である。 コーディクロジー的・文脈的議論に基づいて、bを生産した著者がaを例示として使ったと仮定される。 両写本のレイアウトと内容の類似性は顕著であるが,本記事では相違点の同定を試みる。 結局のところ、模範に密接に従うコピーを制作する意図に関わらず、微妙な言語的変化が明らかである。 発散は綴りの慣例に関係しているが、単語が省略される方法(および略語が発生する程度)にも関係している。 本研究は,mssを製作した著者の綴りプロファイルを調査した。 a と b は計算的な方法で表される。 本研究の第1部では,両写本についてより詳細に提示し,その後,スクリバル・プロファイリングに関する先行研究を検討する。 現在の研究は、Kestemont (2015)上で構築および拡張されている。 次に, B が模範 ms. A からコピーされた際に生じた, 個々の単語と n-gram のレベルに見出すことのできる, 偏見の変動に着目して得られた結果について, 分析・測定に用いた方法論について概説する。 この目的のために、私たちは機械学習を使用して、aとbを分離した最も特徴的な特徴を特定します。 我々は、模範的な買収がコピースクリプティングの実践に影響を及ぼし、異なるコンテンツへの遷移は、ほとんど、あるいは全く影響しないと主張している。

This study is devoted to two of the oldest known manuscripts in which the oeuvre of the medieval mystical author Hadewijch has been preserved: Brussels, KBR, 2879-2880 (ms. A) and Brussels, KBR, 2877-2878 (ms. B). On the basis of codicological and contextual arguments, it is assumed that the scribe who produced B used A as an exemplar. While the similarities in both layout and content between the two manuscripts are striking, the present article seeks to identify the differences. After all, regardless of the intention to produce a copy that closely follows the exemplar, subtle linguistic variation is apparent. Divergences relate to spelling conventions, but also to the way in which words are abbreviated (and the extent to which abbreviations occur). The present study investigates the spelling profiles of the scribes who produced mss. A and B in a computational way. In the first part of this study, we will present both manuscripts in more detail, after which we will consider prior research carried out on scribal profiling. The current study both builds and expands on Kestemont (2015). Next, we outline the methodology used to analyse and measure the degree of scribal appropriation that took place when ms. B was copied off the exemplar ms. A. After this, we will discuss the results obtained, focusing on the scribal variation that can be found both at the level of individual words and n-grams. To this end, we use machine learning to identify the most distinctive features that separate manuscript A from B. Finally, we look at possible diachronic trends in the appropriation by B's scribe of his exemplar. We argue that scribal takeovers in the exemplar impacts the practice of the copying scribe, while transitions to a different content matter cause little to no effect.
翻訳日:2023-04-07 17:54:53 公開日:2023-04-06
# ハイパーグラフのためのOllivier-Ricci曲率:統一フレームワーク

Ollivier-Ricci Curvature for Hypergraphs: A Unified Framework ( http://arxiv.org/abs/2210.12048v3 )

ライセンス: Link先を確認
Corinna Coupette and Sebastian Dalleiger and Bastian Rieck(参考訳) 幾何学とトポロジーを橋渡しすると、曲率は強力で表現力に富む不変量である。 曲率の効用は、多様体やグラフの文脈で理論的かつ経験的に確認されているが、ハイパーグラフの新しい領域への一般化は、ほとんど探索されていない。 グラフ上では、Ollivier-Ricci曲率(英語版)は、ワッサーシュタイン距離を通したランダムウォークの差を測定するため、確率論と最適輸送の概念の幾何学的概念を基礎とする。 我々は,ollivier-ricci曲率をハイパーグラフに一般化する柔軟な枠組みであるorchidを開発した。 異なる領域からの合成および実世界のハイパーグラフに関する広範な実験を通じて、ORCHIDの曲率がスケーラブルかつ有用であることを示し、実際に様々なハイパーグラフタスクを実行する。

Bridging geometry and topology, curvature is a powerful and expressive invariant. While the utility of curvature has been theoretically and empirically confirmed in the context of manifolds and graphs, its generalization to the emerging domain of hypergraphs has remained largely unexplored. On graphs, the Ollivier-Ricci curvature measures differences between random walks via Wasserstein distances, thus grounding a geometric concept in ideas from probability theory and optimal transport. We develop ORCHID, a flexible framework generalizing Ollivier-Ricci curvature to hypergraphs, and prove that the resulting curvatures have favorable theoretical properties. Through extensive experiments on synthetic and real-world hypergraphs from different domains, we demonstrate that ORCHID curvatures are both scalable and useful to perform a variety of hypergraph tasks in practice.
翻訳日:2023-04-07 17:53:57 公開日:2023-04-06
# LMQFormer:軽量除雪用ラプラスガイド型マスククエリトランス

LMQFormer: A Laplace-Prior-Guided Mask Query Transformer for Lightweight Snow Removal ( http://arxiv.org/abs/2210.04787v4 )

ライセンス: Link先を確認
Junhong Lin, Nanfeng Jiang, Zhentao Zhang, Weiling Chen and Tiesong Zhao(参考訳) 除雪は、雪の地域を見つけ、痕跡を修復することなくクリーンな画像を復元することを目的としている。 雨の規則性や半透明性とは異なり、様々なパターンと劣化の降雪は背景をひどく損なう。 その結果、最先端の除雪方法は、通常、大きなパラメータサイズを保持する。 本稿では,Laplace Mask Query Transformer (LMQFormer) と呼ばれる軽量だが高効率な除雪ネットワークを提案する。 まず,雪の先行知識として粗いマスクを生成するためのLaplace-VQVAEを提案する。 マスクをデータセットに使用する代わりに、雪の情報エントロピーと回復の計算コストの両方を削減することを目的としている。 第2に、粗いマスクで雪を取り除くためにMask Query Transformer(MQFormer)を設計し、2つの並列エンコーダとハイブリッドデコーダを使用して、軽量な要求下で広範な雪の特徴を学習する。 第3に、粗いマスクを特定の数のクエリに変換するDMQA(Duplicated Mask Query Attention)を開発し、パラメータを減らしたMQFormerの注意領域を制限する。 また, 提案モデルの有効性を実証し, パラメータが大幅に減少し, 走行時間が低くなることにより, 最先端の除雪性能が得られることを示した。

Snow removal aims to locate snow areas and recover clean images without repairing traces. Unlike the regularity and semitransparency of rain, snow with various patterns and degradations seriously occludes the background. As a result, the state-of-the-art snow removal methods usually retains a large parameter size. In this paper, we propose a lightweight but high-efficient snow removal network called Laplace Mask Query Transformer (LMQFormer). Firstly, we present a Laplace-VQVAE to generate a coarse mask as prior knowledge of snow. Instead of using the mask in dataset, we aim at reducing both the information entropy of snow and the computational cost of recovery. Secondly, we design a Mask Query Transformer (MQFormer) to remove snow with the coarse mask, where we use two parallel encoders and a hybrid decoder to learn extensive snow features under lightweight requirements. Thirdly, we develop a Duplicated Mask Query Attention (DMQA) that converts the coarse mask into a specific number of queries, which constraint the attention areas of MQFormer with reduced parameters. Experimental results in popular datasets have demonstrated the efficiency of our proposed model, which achieves the state-of-the-art snow removal quality with significantly reduced parameters and the lowest running time.
翻訳日:2023-04-07 17:53:39 公開日:2023-04-06
# TRBoost:信頼領域法に基づく汎用勾配昇降機

TRBoost: A Generic Gradient Boosting Machine based on Trust-region Method ( http://arxiv.org/abs/2209.13791v3 )

ライセンス: Link先を確認
Jiaqi Luo, Zihao Wei, Junkai Man, Shixin Xu(参考訳) グラディエントブースティングマシン (GBMs) は, 機能空間におけるテイラー展開を利用して, 多様な問題の解決に成功している。 しかし、性能と一般性のバランスをとることは、GBMにとって課題となっている。 特に、勾配降下に基づくGBMは全損失関数に適用性を確保するために一階テイラー展開を用いるが、ニュートンの手法に基づくGBMは正のヘッセン情報を用いて一般性を犠牲にして優れた性能を達成する。 この問題に対処するために,Trust-rea Boosting (TRBoost) と呼ばれる新しい汎用的なグラディエントブースティングマシンを提案する。 各イテレーションにおいて、TRBoostは制約付き二次モデルを用いて目的を近似し、信頼領域アルゴリズムを適用してそれを解き、新しい学習者を得る。 ニュートンの手法に基づくGBMとは異なり、TRBoostはヘシアンを正定値にする必要はないため、任意の損失関数に適用できるが、2階アルゴリズムのような競合性能は維持できる。 本研究では, TRBoostの収束解析および数値実験により, TRBoostは1次GBMと同様の一般性を示し, 2次GBMと比較して競争結果が得られた。 全体として、TRBoostはパフォーマンスと汎用性のバランスをとる有望なアプローチであり、機械学習実践者のツールキットに価値ある追加となる。

Gradient Boosting Machines (GBMs) have demonstrated remarkable success in solving diverse problems by utilizing Taylor expansions in functional space. However, achieving a balance between performance and generality has posed a challenge for GBMs. In particular, gradient descent-based GBMs employ the first-order Taylor expansion to ensure applicability to all loss functions, while Newton's method-based GBMs use positive Hessian information to achieve superior performance at the expense of generality. To address this issue, this study proposes a new generic Gradient Boosting Machine called Trust-region Boosting (TRBoost). In each iteration, TRBoost uses a constrained quadratic model to approximate the objective and applies the Trust-region algorithm to solve it and obtain a new learner. Unlike Newton's method-based GBMs, TRBoost does not require the Hessian to be positive definite, thereby allowing it to be applied to arbitrary loss functions while still maintaining competitive performance similar to second-order algorithms. The convergence analysis and numerical experiments conducted in this study confirm that TRBoost is as general as first-order GBMs and yields competitive results compared to second-order GBMs. Overall, TRBoost is a promising approach that balances performance and generality, making it a valuable addition to the toolkit of machine learning practitioners.
翻訳日:2023-04-07 17:51:59 公開日:2023-04-06
# BigTransfer (BiT) を用いたメラノサイトネバス画像の分類

Classification of Melanocytic Nevus Images using BigTransfer (BiT) ( http://arxiv.org/abs/2211.11872v2 )

ライセンス: Link先を確認
Sanya Sinha and Nilay Gupta(参考訳) 皮膚がんは致命的な疾患であり、毎年人命に多大な負担がかかる。 色付き皮膚画像はメラノーマやネバスなどの異なる皮膚病変と有意な類似性を示し,鑑別と診断が困難である。 メラノーマは成熟し、悪性黒色腫を引き起こす。 したがって、現在の管理プロトコルは、脅迫的に見えるneviを削除することを含む。 しかし、良性・悪性黒色腫の分類にはレジリエントな分類パラダイムが必要である。 早期診断は、診断を効率的かつタイムリーに、かつ成功させるために、メラノサイトーシス nevi分類の信頼できる自動化システムを必要としている。 与えられた研究において自動分類アルゴリズムを提案する。 この技術では、別の問題ステートメントに基づいて予めトレーニングされたニューラルネットワークを利用してメラノサイトネバス画像の分類を行う。 提案手法では,resnetを用いた転移学習手法であるbig transfer (bit) を用いてメラノサイトーネビを悪性または良性に分類する。 その結果,現在の手法と比較し,新しい手法の分類精度が既存の手法よりも優れていることが証明された。

Skin cancer is a fatal disease that takes a heavy toll over human lives annually. The colored skin images show a significant degree of resemblance between different skin lesions such as melanoma and nevus, making identification and diagnosis more challenging. Melanocytic nevi may mature to cause fatal melanoma. Therefore, the current management protocol involves the removal of those nevi that appear intimidating. However, this necessitates resilient classification paradigms for classifying benign and malignant melanocytic nevi. Early diagnosis necessitates a dependable automated system for melanocytic nevi classification to render diagnosis efficient, timely, and successful. An automated classification algorithm is proposed in the given research. A neural network previously-trained on a separate problem statement is leveraged in this technique for classifying melanocytic nevus images. The suggested method uses BigTransfer (BiT), a ResNet-based transfer learning approach for classifying melanocytic nevi as malignant or benign. The results obtained are compared to that of current techniques, and the new method's classification rate is proven to outperform that of existing methods.
翻訳日:2023-04-07 17:45:10 公開日:2023-04-06
# 私の財布はどこにありますか。 エゴセントリックなビジュアルクエリローカライゼーションのためのオブジェクト提案セットのモデリング

Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual Query Localization ( http://arxiv.org/abs/2211.10528v2 )

ライセンス: Link先を確認
Mengmeng Xu, Yanghao Li, Cheng-Yang Fu, Bernard Ghanem, Tao Xiang, Juan-Manuel Perez-Rua(参考訳) 本稿では,画像および映像データセットにおけるオブジェクトのローカライズの問題を扱う。 特に,エゴセントリックな視覚的クエリローカライゼーションの課題に注目する。 まず,現在の問合せ条件モデル設計と視覚的問合せデータセットにおける暗黙のバイアスを識別する。 そして、フレームとオブジェクトセットの両方のレベルで、そのようなバイアスに対処する。 具体的には、制限付きアノテーションを拡張し、トレーニング中にオブジェクト提案を動的にドロップすることで、これらの問題を解決する。 さらに,クエリ情報を取り込んでオブジェクトプロポサル集合コンテキストを考慮できる,トランスフォーマティブなモジュールを提案する。 モジュールの名前は Conditioned Contextual Transformer または CocoFormer です。 提案手法により,エゴセントリックなクエリ検出が向上し,2次元および3次元構成の視覚的クエリローカライゼーションシステムが改善された。 これにより、フレームレベルの検出性能が26.28%から31.26に向上し、VQ2DとVQ3Dのローカライゼーションスコアが大幅に向上する。 第2回Ego4Dチャレンジでは,VQ2DタスクとVQ3Dタスクで第1位,第2位となった。 さらに,Few-Shot Detection (FSD)タスクにおいて提案するモデルの有効性を示す。 私たちのコードはhttps://github.com/facebookresearch/vq2d_cvprで入手できる。

This paper deals with the problem of localizing objects in image and video datasets from visual exemplars. In particular, we focus on the challenging problem of egocentric visual query localization. We first identify grave implicit biases in current query-conditioned model design and visual query datasets. Then, we directly tackle such biases at both frame and object set levels. Concretely, our method solves these issues by expanding limited annotations and dynamically dropping object proposals during training. Additionally, we propose a novel transformer-based module that allows for object-proposal set context to be considered while incorporating query information. We name our module Conditioned Contextual Transformer or CocoFormer. Our experiments show the proposed adaptations improve egocentric query detection, leading to a better visual query localization system in both 2D and 3D configurations. Thus, we are able to improve frame-level detection performance from 26.28% to 31.26 in AP, which correspondingly improves the VQ2D and VQ3D localization scores by significant margins. Our improved context-aware query object detector ranked first and second in the VQ2D and VQ3D tasks in the 2nd Ego4D challenge. In addition to this, we showcase the relevance of our proposed model in the Few-Shot Detection (FSD) task, where we also achieve SOTA results. Our code is available at https://github.com/facebookresearch/vq2d_cvpr.
翻訳日:2023-04-07 17:44:55 公開日:2023-04-06
# 協調フィルタリングのためのブラリングシャーププロセスモデル

Blurring-Sharpening Process Models for Collaborative Filtering ( http://arxiv.org/abs/2211.09324v2 )

ライセンス: Link先を確認
Jeongwhan Choi, Seoyoung Hong, Noseong Park, Sung-Bae Cho(参考訳) 協調フィルタリングはレコメンダシステムにとって最も基本的なトピックの1つである。 行列分解からグラフ畳み込み法まで,協調フィルタリングのための様々な手法が提案されている。 近年のグラフフィルタリング法やスコアベース生成モデル(sgms)の成功に触発されて,bluring-sharpening process model(bspm)という新しい概念を提案する。 sgmsとbspmsは、新しい情報を発見できる(例えば、sgmsの場合は新しい画像が生成される)のと同じ処理哲学を共有し、元の情報は最初に摂動し、その後元の形式に復元される。 しかし、SGMとBSPMは異なる種類の情報を扱うため、最適な摂動と回復プロセスには根本的な相違がある。 したがって、我々のBSPMはSGMとは異なる形態である。 さらに,我々の概念は,既存の協調フィルタリングモデルの多くを理論的に活用するだけでなく,gowalla,yelp2018,amazon-bookの3つのベンチマークデータセットにおいて,リコールやndcgよりも優れています。 さらに,提案手法の処理時間は,他の高速ベースラインと同等である。 提案する概念は,我々が本論文で使用しているものよりも,ぼやけ(摂動)やシャープニング(回復)のプロセスをデザインすることで,将来性を高める可能性がある。

Collaborative filtering is one of the most fundamental topics for recommender systems. Various methods have been proposed for collaborative filtering, ranging from matrix factorization to graph convolutional methods. Being inspired by recent successes of graph filtering-based methods and score-based generative models (SGMs), we present a novel concept of blurring-sharpening process model (BSPM). SGMs and BSPMs share the same processing philosophy that new information can be discovered (e.g., new images are generated in the case of SGMs) while original information is first perturbed and then recovered to its original form. However, SGMs and our BSPMs deal with different types of information, and their optimal perturbation and recovery processes have fundamental discrepancies. Therefore, our BSPMs have different forms from SGMs. In addition, our concept not only theoretically subsumes many existing collaborative filtering models but also outperforms them in terms of Recall and NDCG in the three benchmark datasets, Gowalla, Yelp2018, and Amazon-book. In addition, the processing time of our method is comparable to other fast baselines. Our proposed concept has much potential in the future to be enhanced by designing better blurring (i.e., perturbation) and sharpening (i.e., recovery) processes than what we use in this paper.
翻訳日:2023-04-07 17:44:33 公開日:2023-04-06
# rita: インタラクティブな交通の流れで自動運転シミュレータを強化

RITA: Boost Autonomous Driving Simulators with Realistic Interactive Traffic Flow ( http://arxiv.org/abs/2211.03408v3 )

ライセンス: Link先を確認
Zhengbang Zhu, Shenyu Zhang, Yuzheng Zhuang, Yuecheng Liu, Minghuan Liu, Liyuan Mao, Ziqing Gong, Weinan Zhang, Shixiong Kai, Qiang Gu, Bin Wang, Siyuan Cheng, Xinyu Wang, Jianye Hao and Yong Yu(参考訳) 高品質な交通フロー生成は、自動運転シミュレータ構築における中核モジュールである。 しかし、利用可能なシミュレータのほとんどは、実世界のデータの様々な特徴を正確に反映したトラフィックパターンを複製することができず、テストされたオートパイロット駆動戦略に対する人間のような反応をシミュレートすることができない。 このような問題に対処するために,既存の運転シミュレータの統合コンポーネントとしてRealistic Interactive TrAffic Flow (RITA)を提案する。 RITAは3つの重要な特徴、すなわち忠実さ、多様性、制御性を考慮して開発され、RITABackendとRITAKitと呼ばれる2つのコアモジュールで構成されている。 RITABackendは実世界のデータセットからトラフィック生成モデルを提供するために構築されており、RITAKitはRITABackendを介して制御可能なトラフィック生成のための使いやすいインターフェースで開発されている。 本稿では,多種多様かつ高忠実な交通シミュレーションを実現するRITAの能力について述べる。 実験の結果, 生成したRITAトラヒックフローは3つの重要な特徴を全て示し, 運転戦略評価の完全性を高めた。 さらに、RITAトラフィックフローを用いたオンライン微調整によるベースライン戦略の改善の可能性を示す。

High-quality traffic flow generation is the core module in building simulators for autonomous driving. However, the majority of available simulators are incapable of replicating traffic patterns that accurately reflect the various features of real-world data while also simulating human-like reactive responses to the tested autopilot driving strategies. Taking one step forward to addressing such a problem, we propose Realistic Interactive TrAffic flow (RITA) as an integrated component of existing driving simulators to provide high-quality traffic flow for the evaluation and optimization of the tested driving strategies. RITA is developed with consideration of three key features, i.e., fidelity, diversity, and controllability, and consists of two core modules called RITABackend and RITAKit. RITABackend is built to support vehicle-wise control and provide traffic generation models from real-world datasets, while RITAKit is developed with easy-to-use interfaces for controllable traffic generation via RITABackend. We demonstrate RITA's capacity to create diversified and high-fidelity traffic simulations in several highly interactive highway scenarios. The experimental findings demonstrate that our produced RITA traffic flows exhibit all three key features, hence enhancing the completeness of driving strategy evaluation. Moreover, we showcase the possibility for further improvement of baseline strategies through online fine-tuning with RITA traffic flows.
翻訳日:2023-04-07 17:43:21 公開日:2023-04-06
# 確率過程におけるSTL要件のコンフォーマル定量モニタリング

Conformal Quantitative Predictive Monitoring of STL Requirements for Stochastic Processes ( http://arxiv.org/abs/2211.02375v2 )

ライセンス: Link先を確認
Francesca Cairoli, Nicola Paoletti, Luca Bortolussi(参考訳) 予測モニタリング(PM)の問題,すなわち,現在のシステム状態から所望のプロパティの満足度を実行時に予測する問題を考察する。 実行時の安全性保証とオンライン制御の関連性から、pmメソッドは、予測された違反に対するタイムリーな介入を可能にすると同時に、正確性保証を提供するために効率的である必要がある。 本稿では,STL(Signal Temporal Logic)で与えられる確率的プロセスとリッチな仕様をサポートする最初のPM手法である「textit{quantitative predictive monitoring (QPM)」を紹介する。 ある性質が$\phi$を満足するかどうかを予測する既存のPM手法とは異なり、QPMは$\phi$の量的(またはロバストな)STLセマンティクスを予測することで満足度を定量的に測定する。 qpmは計算に非常に効率的で確率的保証を伴う予測区間を導出し、その間隔はシステムの確率的進化に対するstlロバスト性値の任意の確率でカバーする。 そこで我々は,機械学習のアプローチを取り入れ,量子回帰の共形推論の最近の進歩を活用し,時間間隔を推定するために,実行時に高価なモンテカルロシミュレーションを避ける。 また,予測器の再トレーニングや保証を犠牲にすることなく,複合式を扱うための構成的手法でモニターを組み合わせる方法を示す。 複雑度が異なる4つの離散時間確率過程のベンチマークにおいて,QPMの有効性と拡張性を示す。

We consider the problem of predictive monitoring (PM), i.e., predicting at runtime the satisfaction of a desired property from the current system's state. Due to its relevance for runtime safety assurance and online control, PM methods need to be efficient to enable timely interventions against predicted violations, while providing correctness guarantees. We introduce \textit{quantitative predictive monitoring (QPM)}, the first PM method to support stochastic processes and rich specifications given in Signal Temporal Logic (STL). Unlike most of the existing PM techniques that predict whether or not some property $\phi$ is satisfied, QPM provides a quantitative measure of satisfaction by predicting the quantitative (aka robust) STL semantics of $\phi$. QPM derives prediction intervals that are highly efficient to compute and with probabilistic guarantees, in that the intervals cover with arbitrary probability the STL robustness values relative to the stochastic evolution of the system. To do so, we take a machine-learning approach and leverage recent advances in conformal inference for quantile regression, thereby avoiding expensive Monte-Carlo simulations at runtime to estimate the intervals. We also show how our monitors can be combined in a compositional manner to handle composite formulas, without retraining the predictors nor sacrificing the guarantees. We demonstrate the effectiveness and scalability of QPM over a benchmark of four discrete-time stochastic processes with varying degrees of complexity.
翻訳日:2023-04-07 17:42:59 公開日:2023-04-06
# UniASM: 微調整なしでバイナリコードの類似性検出

UniASM: Binary Code Similarity Detection without Fine-tuning ( http://arxiv.org/abs/2211.01144v3 )

ライセンス: Link先を確認
Yeming Gu, Hui Shu and Fan Hu(参考訳) bcsd(binary code similarity detection)は,脆弱性探索やマルウェア検出,クローン検出,パッチ解析など,さまざまなバイナリ解析タスクで広く使用されている。 近年の研究では、学習ベースのバイナリコード埋め込みモデルが従来の機能ベースアプローチよりも優れていることが示されている。 本論文では,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案し,バイナリ関数の表現を学習する。 生成したベクトルの空間分布をより均一にするため,我々は2つの新しい訓練タスクを設計した。 さらに,二項関数に対する新しいトークン化手法を提案し,トークンの意味情報を増やし,語彙外問題(OOV)を軽減する。 モデル性能に影響する因子をアブレーション実験により詳細に分析し,新しい知見を得た。 実験の結果,UniASMは評価データセット上での最先端(SOTA)アプローチよりも優れていた。 クロスコンパイラ,クロス最適化レベル,クロスファンクションの平均スコアは0.77,0.72,0.72である。 さらに、既知の脆弱性検索の実際のタスクでは、UniASMは現在のベースラインをすべて上回っている。

Binary code similarity detection (BCSD) is widely used in various binary analysis tasks such as vulnerability search, malware detection, clone detection, and patch analysis. Recent studies have shown that the learning-based binary code embedding models perform better than the traditional feature-based approaches. In this paper, we propose a novel transformer-based binary code embedding model named UniASM to learn representations of the binary functions. We design two new training tasks to make the spatial distribution of the generated vectors more uniform, which can be used directly in BCSD without any fine-tuning. In addition, we present a new tokenization approach for binary functions, which increases the token's semantic information and mitigates the out-of-vocabulary (OOV) problem. We conduct an in-depth analysis of the factors affecting model performance through ablation experiments and obtain some new and valuable findings. The experimental results show that UniASM outperforms the state-of-the-art (SOTA) approach on the evaluation dataset. The average scores of Recall@1 on cross-compilers, cross-optimization levels, and cross-obfuscations are 0.77, 0.72, and 0.72. Besides, in the real-world task of known vulnerability search, UniASM outperforms all the current baselines.
翻訳日:2023-04-07 17:42:33 公開日:2023-04-06
# 確率量子シミュレーションにおける重要度サンプリング

Importance sampling for stochastic quantum simulations ( http://arxiv.org/abs/2212.05952v2 )

ライセンス: Link先を確認
Oriel Kiss, Michele Grossi and Alessandro Roggero(参考訳) 多体量子システムのシミュレーションは量子コンピュータにとって有望な課題である。 しかし、積公式のようなほとんどのアルゴリズムの深さは、ハミルトンの項数とともにスケールし、そのため、早期のフォールトトレラント量子デバイスと同様に、短期的に実装することは困難である。 効率的な解は、ハミルトニアンから係数に従ってサンプリングしてランダム積公式を構築するqdriftとして知られる確率的コンパイルプロトコルによって与えられる。 本研究では,qdriftプロトコルをサンプリングの重要性で統一し,任意の確率分布から,バイアスと統計変動の両方を制御しながらサンプリングすることができる。 サンプリング段階における個別のシミュレーションコストを考慮し、同じ精度でシミュレーションコストを削減可能であることを示す。 さらに, 複合チャネルに関する最近の研究を取り入れ, 偏りと分散の厳密な境界を計算し, 与えられた目標精度に対するサンプル数, 実験, 時間ステップを選択する方法を示した。 これらの結果は、複合チャネルの使用の有無に関わらず、qdriftプロトコルをより効率的に実装することにつながる。 理論的結果は格子核実効場理論で行った数値シミュレーションによって確認される。

Simulating many-body quantum systems is a promising task for quantum computers. However, the depth of most algorithms, such as product formulas, scales with the number of terms in the Hamiltonian, and can therefore be challenging to implement on near-term, as well as early fault-tolerant quantum devices. An efficient solution is given by the stochastic compilation protocol known as qDrift, which builds random product formulas by sampling from the Hamiltonian according to the coefficients. In this work, we unify the qDrift protocol with importance sampling, allowing us to sample from arbitrary probability distributions, while controlling both the bias, as well as the statistical fluctuations. We show that the simulation cost can be reduced while achieving the same accuracy, by considering the individual simulation cost during the sampling stage. Moreover, we incorporate recent work on composite channel and compute rigorous bounds on the bias and variance, showing how to choose the number of samples, experiments, and time steps for a given target accuracy. These results lead to a more efficient implementation of the qDrift protocol, both with and without the use of composite channels. Theoretical results are confirmed by numerical simulations performed on a lattice nuclear effective field theory.
翻訳日:2023-04-07 17:36:18 公開日:2023-04-06
# Diff-Font:ロバストワンショットフォント生成のための拡散モデル

Diff-Font: Diffusion Model for Robust One-Shot Font Generation ( http://arxiv.org/abs/2212.05895v2 )

ライセンス: Link先を確認
Haibin He, Xinyuan Chen, Chaoyue Wang, Juhua Liu, Bo Du, Dacheng Tao, Yu Qiao(参考訳) フォント生成は困難で時間を要する作業であり、特に中国語など多数の文字を持つ複雑な構造を持つイデオグラムを用いた言語では特に困難である。 この問題を解決するために、少数ショットフォント生成やワンショットフォント生成さえも注目されている。 しかし、既存のフォント生成メソッドの多くは、まだ苦しむ可能性がある。 (i)大規模なクロスファントギャップチャレンジ (二)微妙なクロスファント変動問題、及び (三)複雑な文字を誤って生成すること。 本稿では,大きなデータセット上で安定的に学習できる拡散モデルに基づく新しいワンショットフォント生成法diff-fontを提案する。 提案モデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。 具体的には、大きなストロークワイドデータセットを構築し、各生成された文字の構造と完了を保存するためのストロークワイド拡散モデルを提案する。 我々の知る限りでは、フォント生成タスクを処理する拡散モデルを開発した最初のDiff-Fontが提案されている。 十分に訓練されたdiff-fontはフォントギャップやフォントのバリエーションに頑健なだけでなく、難しい文字生成でも有望な性能を達成している。 従来のフォント生成手法と比較して,本モデルは質的かつ定量的に,最先端の性能に達する。

Font generation is a difficult and time-consuming task, especially in those languages using ideograms that have complicated structures with a large number of characters, such as Chinese. To solve this problem, few-shot font generation and even one-shot font generation have attracted a lot of attention. However, most existing font generation methods may still suffer from (i) large cross-font gap challenge; (ii) subtle cross-font variation problem; and (iii) incorrect generation of complicated characters. In this paper, we propose a novel one-shot font generation method based on a diffusion model, named Diff-Font, which can be stably trained on large datasets. The proposed model aims to generate the entire font library by giving only one sample as the reference. Specifically, a large stroke-wise dataset is constructed, and a stroke-wise diffusion model is proposed to preserve the structure and the completion of each generated character. To our best knowledge, the proposed Diff-Font is the first work that developed diffusion models to handle the font generation task. The well-trained Diff-Font is not only robust to font gap and font variation, but also achieved promising performance on difficult character generation. Compared to previous font generation methods, our model reaches state-of-the-art performance both qualitatively and quantitatively.
翻訳日:2023-04-07 17:35:59 公開日:2023-04-06
# 任意のスタイル転送に対するオール・トゥ・キーの注意

All-to-key Attention for Arbitrary Style Transfer ( http://arxiv.org/abs/2212.04105v2 )

ライセンス: Link先を確認
Mingrui Zhu, Xiao He, Nannan Wang, Xiaoyu Wang, Xinbo Gao(参考訳) 注意に基づく任意のスタイル転送研究は、鮮やかなローカルスタイルの詳細を合成する有望な性能を示している。 コンテンツ機能のそれぞれの位置は、スタイル機能のすべての位置と完全に一致しています。 しかしながら、すべての注意が歪んだスタイルパターンを生成する傾向があり、任意のスタイル転送の有効性と効率を制限した二次的な複雑さを持つ。 本稿では,コンテンツ特徴のそれぞれの位置を,スタイル特徴の安定したキー位置と一致させる,新たなオール・トゥ・キー・アテンション機構を提案する。 具体的には、分散とプログレッシブの2つの新しい注意形態を統合する。 分散アテンションは、局所のスタイル分布を表すキースタイルの表現に注意を向ける; プログレッシブアテンションは、粗粒の領域から細粒のキーポジションに注意を払う。 結果、StyA2Kと呼ばれるモジュールは、セマンティック構造を保持し、一貫性のあるスタイルパターンをレンダリングする際、素晴らしいパフォーマンスを示す。 最先端手法との質的,定量的な比較は,本手法の優れた性能を示す。

Attention-based arbitrary style transfer studies have shown promising performance in synthesizing vivid local style details. They typically use the all-to-all attention mechanism -- each position of content features is fully matched to all positions of style features. However, all-to-all attention tends to generate distorted style patterns and has quadratic complexity, limiting the effectiveness and efficiency of arbitrary style transfer. In this paper, we propose a novel all-to-key attention mechanism -- each position of content features is matched to stable key positions of style features -- that is more in line with the characteristics of style transfer. Specifically, it integrates two newly proposed attention forms: distributed and progressive attention. Distributed attention assigns attention to key style representations that depict the style distribution of local regions; Progressive attention pays attention from coarse-grained regions to fine-grained key positions. The resultant module, dubbed StyA2K, shows extraordinary performance in preserving the semantic structure and rendering consistent style patterns. Qualitative and quantitative comparisons with state-of-the-art methods demonstrate the superior performance of our approach.
翻訳日:2023-04-07 17:35:14 公開日:2023-04-06
# 確率的エネルギー予測のための拡散確率モデル

Denoising diffusion probabilistic models for probabilistic energy forecasting ( http://arxiv.org/abs/2212.02977v5 )

ライセンス: Link先を確認
Esteban Hernandez Capel, Jonathan Dumas(参考訳) シナリオベースの確率予測は、断続的な再生エネルギーを扱う意思決定者にとって不可欠である。 本稿では,近年の有望なディープラーニング生成手法であるdenoising diffusion probabilistic modelsを提案する。 これは、最近コンピュータビジョンコミュニティで印象的な結果を実証した潜伏変数モデルのクラスである。 しかし、我々の知る限り、電力システムアプリケーションの新たな課題に直面する重要な要素であるロード、pv、風力の時系列の高品質なサンプルを生成できることはまだ実証されていない。 そこで本研究では,グローバルエネルギー予測コンペティション2014のオープンデータを用いたエネルギー予測モデルの最初の実装を提案する。 このアプローチは、生成的逆ネットワーク、変分オートエンコーダ、正規化フローなど、最先端のディープラーニング生成モデルと競合することが示されている。

Scenario-based probabilistic forecasts have become vital for decision-makers in handling intermittent renewable energies. This paper presents a recent promising deep learning generative approach called denoising diffusion probabilistic models. It is a class of latent variable models which have recently demonstrated impressive results in the computer vision community. However, to our knowledge, there has yet to be a demonstration that they can generate high-quality samples of load, PV, or wind power time series, crucial elements to face the new challenges in power systems applications. Thus, we propose the first implementation of this model for energy forecasting using the open data of the Global Energy Forecasting Competition 2014. The results demonstrate this approach is competitive with other state-of-the-art deep learning generative models, including generative adversarial networks, variational autoencoders, and normalizing flows.
翻訳日:2023-04-07 17:34:35 公開日:2023-04-06
# Si/SiGe量子ドットとオフチップTiN共振器の縦結合

Longitudinal coupling between a Si/SiGe quantum dot and an off-chip TiN resonator ( http://arxiv.org/abs/2212.02736v2 )

ライセンス: Link先を確認
J. Corrigan, Benjamin Harpt, Nathan Holman, Rusko Ruskov, Piotr Marciniec, D. Rosenberg, D. Yost, R. Das, William D. Oliver, R. McDermott, Charles Tahan, Mark Friesen, and M. A. Eriksson(参考訳) 超伝導キャビティは量子ドットのスピン状態を測定する重要なツールとして登場した。 しかし、これまでドットとキャビティの間の縦結合に関する実験はほとんど行われておらず、固体量子ビットの実験では、パーセル崩壊が強く抑制される「断熱」状態が明確に解明されていない。 本稿では,高インピーダンス共振器に結合した量子ドットハイブリッド量子ビットの「フリップチップ」設計形状を報告する。 2つの異なるチャネルを通して、アクドライブをキュービットに印加し、キュービットエネルギーデチューニングとインタードットトンネルの効果を研究することにより、キュービットとキャビティ間の長手結合の存在を任意に確認することができる。 この結合は駆動振幅に比例するため、スイッチ可能であるため、量子ビット実験において強力な新しいツールになる可能性がある。

Superconducting cavities have emerged as a key tool for measuring the spin states of quantum dots. So far however, few experiments have explored longitudinal couplings between dots and cavities, and no solid-state qubit experiments have explicitly probed the "adiabatic" regime, where the Purcell decay is strongly suppressed. Here, we report measurements of a quantum-dot hybrid qubit coupled to a high-impedance resonator via a "flip-chip" design geometry. By applying an ac drive to the qubit through two different channels, and studying the effects of qubit energy detuning and interdot tunneling, we are able to unequivocally confirm the presence of a longitudinal coupling between the qubit and cavity. Since this coupling is proportional to the driving amplitude, and is therefore switchable, it has the potential to become a powerful new tool in qubit experiments.
翻訳日:2023-04-07 17:34:22 公開日:2023-04-06
# OpenScene:オープン語彙による3Dシーン理解

OpenScene: 3D Scene Understanding with Open Vocabularies ( http://arxiv.org/abs/2211.15654v2 )

ライセンス: Link先を確認
Songyou Peng, Kyle Genova, Chiyu "Max" Jiang, Andrea Tagliasacchi, Marc Pollefeys, Thomas Funkhouser(参考訳) 従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。 私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度特徴をモデルが予測する代替手法OpenSceneを提案する。 このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。 例えば、SOTAゼロショット3Dセマンティックセグメンテーションを実行するには、まず3Dポイント毎にCLIP機能を推論し、後に任意のクラスラベルの埋め込みと類似性に基づいてそれらを分類する。 さらに興味深いのは、これまでにないオープン語彙のシーン理解アプリケーションスイートを可能にすることだ。 例えば、任意のテキストクエリを入力すると、シーンのどの部分が一致しているかを示すヒートマップが表示される。 我々のアプローチは、複雑な3Dシーンにおいて、オブジェクト、材料、余剰、活動、ルームタイプを特定するのに効果的であり、いずれもラベル付き3Dデータなしでトレーニングされた単一のモデルを使用する。

Traditional 3D scene understanding approaches rely on labeled 3D datasets to train a model for a single task with supervision. We propose OpenScene, an alternative approach where a model predicts dense features for 3D scene points that are co-embedded with text and image pixels in CLIP feature space. This zero-shot approach enables task-agnostic training and open-vocabulary queries. For example, to perform SOTA zero-shot 3D semantic segmentation it first infers CLIP features for every 3D point and later classifies them based on similarities to embeddings of arbitrary class labels. More interestingly, it enables a suite of open-vocabulary scene understanding applications that have never been done before. For example, it allows a user to enter an arbitrary text query and then see a heat map indicating which parts of a scene match. Our approach is effective at identifying objects, materials, affordances, activities, and room types in complex 3D scenes, all using a single model trained without any labeled 3D data.
翻訳日:2023-04-07 17:34:06 公開日:2023-04-06
# 変更点検出のためのオンラインカーネルCUSUM

Online Kernel CUSUM for Change-Point Detection ( http://arxiv.org/abs/2211.15070v3 )

ライセンス: Link先を確認
Song Wei, Yao Xie(参考訳) 本稿では,カーネル統計値の最大値を用いて未知の変更点位置を推定する,変更点検出のための効率的なオンラインカーネル累積Sum(CUSUM)手法を提案する。 提案手法は,Scan-B統計法のような非パラメトリックなショーハートチャート型手法と比較して,小さな変化に対する感度の向上を示す。 平均実行長(ARL)と予測検出遅延(EDD)の2つの主要な性能指標に対して,ARLの対数順に最適なウィンドウ長を確立することで,無限メモリのオーラルプロシージャに対して最小限の電力損失を確保することができる。 このような発見は、パラメトリックな変化点検出文献において、ウィンドウ制限された一般化度比 (glr) 手順の古典的な結果と平行である。 さらに,オンライン処理に欠かせない一定の計算量とメモリの複雑さを確保するために,検出統計量に対する再帰的計算手法を導入する。 シミュレーションデータと実世界のヒューマンアクティビティデータセットに関する広範な実験を通じて,本手法の競争力を実証し,理論結果を検証する。

We propose an efficient online kernel Cumulative Sum (CUSUM) method for change-point detection that utilizes the maximum over a set of kernel statistics to account for the unknown change-point location. Our approach exhibits increased sensitivity to small changes compared to existing methods, such as the Scan-B statistic, which corresponds to a non-parametric Shewhart chart-type procedure. We provide accurate analytic approximations for two key performance metrics: the Average Run Length (ARL) and Expected Detection Delay (EDD), which enable us to establish an optimal window length on the order of the logarithm of ARL to ensure minimal power loss relative to an oracle procedure with infinite memory. Such a finding parallels the classic result for window-limited Generalized Likelihood Ratio (GLR) procedure in parametric change-point detection literature. Moreover, we introduce a recursive calculation procedure for detection statistics to ensure constant computational and memory complexity, which is essential for online procedures. Through extensive experiments on simulated data and a real-world human activity dataset, we demonstrate the competitive performance of our method and validate our theoretical results.
翻訳日:2023-04-07 17:33:47 公開日:2023-04-06
# SVFormer:アクション認識のための半教師付きビデオトランス

SVFormer: Semi-supervised Video Transformer for Action Recognition ( http://arxiv.org/abs/2211.13222v2 )

ライセンス: Link先を確認
Zhen Xing and Qi Dai and Han Hu and Jingjing Chen and Zuxuan Wu and Yu-Gang Jiang(参考訳) 半教師付き動作認識はビデオアノテーションのコストが高いため、難しいが重要な課題である。 既存のアプローチは主に畳み込みニューラルネットワークを使用しているが、現在の革命的ビジョントランスフォーマーモデルはあまり研究されていない。 本稿では,SSL設定下でのトランスフォーマーモデルを用いた動作認識について検討する。 この目的のために、SVFormerを導入し、静的な擬似ラベルフレームワーク(EMA-Teacher)を用いて、未ラベルのビデオサンプルに対処する。 半教師付き画像分類には幅広いデータ拡張が有効であることが示されているが、一般的にはビデオ認識の限られた結果が得られる。 そこで本研究では,ビデオクリップをテンポラリ軸上に一貫したマスクトークンを持つマスクで混合した映像データに対して,新たな拡張戦略である tube tokenmix を導入する。 さらに,ビデオの複雑な時間変動をカバーし,選択したフレームをクリップ内の様々な時間的持続時間に拡張する時間的ワープ拡張を提案する。 Kinetics-400, UCF-101, HMDB-51の3つのデータセットに対する大規模な実験はSVFormerの利点を検証する。 特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回る。 提案手法は強力なベンチマークとして機能し,Transformer ネットワークを用いた半教師付き行動認識の検索を促進できる。

Semi-supervised action recognition is a challenging but critical task due to the high cost of video annotations. Existing approaches mainly use convolutional neural networks, yet current revolutionary vision transformer models have been less explored. In this paper, we investigate the use of transformer models under the SSL setting for action recognition. To this end, we introduce SVFormer, which adopts a steady pseudo-labeling framework (ie, EMA-Teacher) to cope with unlabeled video samples. While a wide range of data augmentations have been shown effective for semi-supervised image classification, they generally produce limited results for video recognition. We therefore introduce a novel augmentation strategy, Tube TokenMix, tailored for video data where video clips are mixed via a mask with consistent masked tokens over the temporal axis. In addition, we propose a temporal warping augmentation to cover the complex temporal variation in videos, which stretches selected frames to various temporal durations in the clip. Extensive experiments on three datasets Kinetics-400, UCF-101, and HMDB-51 verify the advantage of SVFormer. In particular, SVFormer outperforms the state-of-the-art by 31.5% with fewer training epochs under the 1% labeling rate of Kinetics-400. Our method can hopefully serve as a strong benchmark and encourage future search on semi-supervised action recognition with Transformer networks.
翻訳日:2023-04-07 17:33:27 公開日:2023-04-06
# EmoGator: ベースライン機械学習分類手法を備えたオープンソースの新しいボーカルバーストデータセット

EmoGator: A New Open Source Vocal Burst Dataset with Baseline Machine Learning Classification Methodologies ( http://arxiv.org/abs/2301.00508v2 )

ライセンス: Link先を確認
Fred W. Buhl(参考訳) 声のバーストは、笑い、泣き声、なめらかさ、ムアン、グロアンといった感情を伝える短い非音声の発声であり、しばしば見過ごされる音声感情認識の側面であるが、人間の声のコミュニケーションにおいて重要な側面である。 これらの興味深い発声の研究の障壁の1つは、大きなデータセットの欠如である。 357人の話者から32,130人のサンプルと16.9654時間の音声で構成されたEmoGatorデータセットを紹介します。 感情カテゴリーを識別するための分類器の構築にはいくつかの異なるアプローチが議論され、今後の研究の方向性が提案される。 データセットはhttps://github.com/fredbuhl/EmoGator.comからダウンロードできる。

Vocal Bursts -- short, non-speech vocalizations that convey emotions, such as laughter, cries, sighs, moans, and groans -- are an often-overlooked aspect of speech emotion recognition, but an important aspect of human vocal communication. One barrier to study of these interesting vocalizations is a lack of large datasets. I am pleased to introduce the EmoGator dataset, which consists of 32,130 samples from 357 speakers, 16.9654 hours of audio; each sample classified into one of 30 distinct emotion categories by the speaker. Several different approaches to construct classifiers to identify emotion categories will be discussed, and directions for future research will be suggested. Data set is available for download from https://github.com/fredbuhl/EmoGator.
翻訳日:2023-04-07 17:26:37 公開日:2023-04-06
# Scale-MAE:マルチスケール地理空間表現学習のためのスケール対応マスケードオートエンコーダ

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning ( http://arxiv.org/abs/2212.14532v3 )

ライセンス: Link先を確認
Colorado J. Reed, Ritwik Gupta, Shufan Li, Sarah Brockman, Christopher Funk, Brian Clipp, Kurt Keutzer, Salvatore Candido, Matt Uyttendaele, Trevor Darrell(参考訳) 大規模で事前訓練されたモデルは通常、様々な条件やスケールを模倣するために強化されたイメージで微調整され、その結果、様々なタスクに様々な空間スケールの画像で使用される。 このようなモデルは、リモートセンシングのようなスケール依存領域のデータにおけるスケール固有の情報を見落とします。 本稿では,事前学習プロセスを通じて,異なる既知のスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。 scale-maeは、画像がカバーする地球の面積が画像解像度ではなくvit位置符号化のスケールを決定する既知の入力スケールで入力画像をマスクすることにより、ネットワークを事前学習する。 Scale-MAEは、マスクされた画像を標準のViTバックボーンで符号化し、その後、帯域通過フィルタを介してマスクされた画像を復号し、低周波画像の低/高周波画像の再構成を行う。 その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。 Scale-MAEは8つのリモートセンシングデータセットに対して平均2.4~5.6\%の非パラメトリックkNN分類の改善を達成し、様々な評価尺度に対するSpaceNetビルディングセグメンテーション転送タスクにおいて0.9$ mIoUから1.7$ mIoUの改善を達成している。

Large, pretrained models are commonly finetuned with imagery that is heavily augmented to mimic different conditions and scales, with the resulting models used for various tasks with imagery from a range of spatial scales. Such models overlook scale-specific information in the data for scale-dependent domains, such as remote sensing. In this paper, we present Scale-MAE, a pretraining method that explicitly learns relationships between data at different, known scales throughout the pretraining process. Scale-MAE pretrains a network by masking an input image at a known input scale, where the area of the Earth covered by the image determines the scale of the ViT positional encoding, not the image resolution. Scale-MAE encodes the masked image with a standard ViT backbone, and then decodes the masked image through a bandpass filter to reconstruct low/high frequency images at lower/higher scales. We find that tasking the network with reconstructing both low/high frequency images leads to robust multiscale representations for remote sensing imagery. Scale-MAE achieves an average of a $2.4 - 5.6\%$ non-parametric kNN classification improvement across eight remote sensing datasets compared to current state-of-the-art and obtains a $0.9$ mIoU to $1.7$ mIoU improvement on the SpaceNet building segmentation transfer task for a range of evaluation scales.
翻訳日:2023-04-07 17:26:21 公開日:2023-04-06
# MagicNet: Magic-Cube分割とリカバリによる半スーパービジョンマルチオーガンセグメンテーション

MagicNet: Semi-Supervised Multi-Organ Segmentation via Magic-Cube Partition and Recovery ( http://arxiv.org/abs/2212.14310v2 )

ライセンス: Link先を確認
Duowen Chen, Yunhao Bai, Wei Shen, Qingli Li, Lequan Yu, Yan Wang(参考訳) 半教師付き多臓器セグメンテーションのための新しい教師学生モデルを提案する。 教師-学生モデルでは、教師と生徒の一貫性のあるトレーニングを規則化するために、通常、ラベルのないデータにデータ拡張が採用される。 まず,各臓器の相対的位置と可変サイズが,多臓器CTスキャンを描画する分布情報を提供できるというキーパースペクティブから始める。 そこで,先行解剖学をデータ拡張を導く強力なツールとして扱い,半教師付き学習のためのラベル付き画像とラベル付き画像のミスマッチを減らす。 具体的には,分割回収型N$^3$立方体をラベル付きおよびラベルなし画像内を交差するデータ拡張戦略を提案する。 我々の戦略は、ラベル付き画像(クロスブランチ)から相対的な位置の臓器意味学を学ぶことを奨励し、小器官(ブランチ付き)の学習能力を高める。 さらに,小キューブからの学習表現をブレンドし,局所属性を組み込むことにより,擬似ラベルの品質を向上させることを提案する。 我々の方法はマジックネットと呼ばれ、CTボリュームをマジックキューブとして扱い、N$^3$-cubeパーティション&リカバリプロセスはマジックキューブを再生する規則と一致する。 2つのパブリックCTマルチ組織データセットに対する大規模な実験は、MagicNetの有効性を示し、最先端の半教師付き医療画像セグメンテーションアプローチを著しく上回り、10%のラベル付き画像でMACTデータセットを+7%改善した。 コードはhttps://github.com/DeepMed-Lab-ECNU/MagicNetで入手できる。

We propose a novel teacher-student model for semi-supervised multi-organ segmentation. In teacher-student model, data augmentation is usually adopted on unlabeled data to regularize the consistent training between teacher and student. We start from a key perspective that fixed relative locations and variable sizes of different organs can provide distribution information where a multi-organ CT scan is drawn. Thus, we treat the prior anatomy as a strong tool to guide the data augmentation and reduce the mismatch between labeled and unlabeled images for semi-supervised learning. More specifically, we propose a data augmentation strategy based on partition-and-recovery N$^3$ cubes cross- and within- labeled and unlabeled images. Our strategy encourages unlabeled images to learn organ semantics in relative locations from the labeled images (cross-branch) and enhances the learning ability for small organs (within-branch). For within-branch, we further propose to refine the quality of pseudo labels by blending the learned representations from small cubes to incorporate local attributes. Our method is termed as MagicNet, since it treats the CT volume as a magic-cube and N$^3$-cube partition-and-recovery process matches with the rule of playing a magic-cube. Extensive experiments on two public CT multi-organ datasets demonstrate the effectiveness of MagicNet, and noticeably outperforms state-of-the-art semi-supervised medical image segmentation approaches, with +7% DSC improvement on MACT dataset with 10% labeled images. Code is available at https://github.com/DeepMed-Lab-ECNU/MagicNet.
翻訳日:2023-04-07 17:25:52 公開日:2023-04-06
# GD-trained Shallow Overparameterized ReLU Neural Networksによるリプシッツ関数の学習

Learning Lipschitz Functions by GD-trained Shallow Overparameterized ReLU Neural Networks ( http://arxiv.org/abs/2212.13848v2 )

ライセンス: Link先を確認
Ilja Kuzborskij, Csaba Szepesv\'ari(参考訳) 勾配降下 (gd) によって訓練された場合, 付加雑音を伴う非微分可能有界関数であるリプシッツを学習する, 過パラメータな浅層reluニューラルネットワークの能力について検討する。 ノイズの存在下では、このクラスではトレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが不整合であることを回避するために、一貫性と最適なレートを示すことができる早期停止型GDに焦点を当てる。 特に,gd訓練された有限幅ニューラルネットワークの神経接核近似(neural tangent kernel:ntk)の観点からこの問題を考察する。 ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適速度(過剰リスク)を与えることが保証された場合、ニューラルネットワークにより検討されたリプシッツ関数のクラスで学習するために、同じ規則を極小最大速度を達成することができる。 本稿では,データフリーかつデータ依存的な停止規則について検討する。

We explore the ability of overparameterized shallow ReLU neural networks to learn Lipschitz, nondifferentiable, bounded functions with additive noise when trained by Gradient Descent (GD). To avoid the problem that in the presence of noise, neural networks trained to nearly zero training error are inconsistent in this class, we focus on the early-stopped GD which allows us to show consistency and optimal rates. In particular, we explore this problem from the viewpoint of the Neural Tangent Kernel (NTK) approximation of a GD-trained finite-width neural network. We show that whenever some early stopping rule is guaranteed to give an optimal rate (of excess risk) on the Hilbert space of the kernel induced by the ReLU activation function, the same rule can be used to achieve minimax optimal rate for learning on the class of considered Lipschitz functions by neural networks. We discuss several data-free and data-dependent practically appealing stopping rules that yield optimal rates.
翻訳日:2023-04-07 17:25:22 公開日:2023-04-06
# Beyond SOT: 複数のジェネリックオブジェクトを一度に追跡する

Beyond SOT: Tracking Multiple Generic Objects at Once ( http://arxiv.org/abs/2212.11920v2 )

ライセンス: Link先を確認
Christoph Mayer and Martin Danelljan and Ming-Hsuan Yang and Vittorio Ferrari and Luc Van Gool and Alina Kuznetsova(参考訳) 汎用オブジェクトトラッキング(got)は、ビデオの最初のフレームのバウンディングボックスによって特定される対象オブジェクトを追跡する問題である。 このタスクは過去数十年で大きな注目を集めてきたが、研究者はほとんどが単一のオブジェクトの設定に集中している。 マルチオブジェクトは、より広い適用性から恩恵を受け、現実世界のアプリケーションでより魅力的になる。 この問題に対する研究の関心の欠如は、適切なベンチマークがないためである。 本研究では,複数のアノテート対象オブジェクトをシーケンス毎に含む大規模GOTベンチマークLaGOTを提案する。 本ベンチマークでは,複数オブジェクトの同時追跡によるロバスト性の向上と計算量の削減を目標として,GOTにおける重要な課題に取り組むことができる。 さらに,共有計算により複数のオブジェクトを共同処理できるトランスフォーマーベースのGOTトラッカーベースラインを提案する。 私たちのアプローチは、各オブジェクトを独立して追跡し、新しいベンチマークで既存の単一のオブジェクトトラッカよりも4倍高速に実行できます。 さらに,本手法は単一オブジェクトのGOTデータセットに対して高い競合性を実現し,TrackingNet上での新たな技術状態が84.4%の成功率で設定されている。 私たちのベンチマーク、コード、トレーニングされたモデルが公開される予定だ。

Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows users to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. In addition, we propose a transformer-based GOT tracker baseline capable of joint processing of multiple objects through shared computation. Our approach achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. In addition, our approach achieves highly competitive results on single-object GOT datasets, setting a new state of the art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.
翻訳日:2023-04-07 17:25:01 公開日:2023-04-06
# テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする

Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations ( http://arxiv.org/abs/2212.11237v2 )

ライセンス: Link先を確認
Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr(参考訳) ニューラルイメージ分類器は、トレーニング分布に対する共変量シフトを示す入力に曝露した場合、厳しい性能劣化を経ることが知られている。 本稿では,最近のt2i(text-to-image)ジェネレータによる自然言語プロンプトによる画像編集能力が,より堅牢な分類器を訓練するための有望な技術であることを示す。 現在のオープンソースモデルを用いて,(1)広く採用されている単一ドメイン一般化ベンチマーク,(2)素早い特徴に対する分類器の依存性の低減,(3)少ないトレーニング領域が利用できる場合のマルチドメイン一般化手法の適用の促進などにおいて,高度なトレーニングデータセットを生成する上で,さまざまなプロンプト戦略が有効であることが判明した。

Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate shift with respect to the training distribution. In this paper, we show that recent Text-to-Image (T2I) generators' ability to edit images to approximate interventions via natural-language prompts is a promising technology to train more robust classifiers. Using current open-source models, we find that a variety of prompting strategies are effective for producing augmented training datasets sufficient to achieve state-of-the-art performance (1) in widely adopted Single-Domain Generalization benchmarks, (2) in reducing classifiers' dependency on spurious features and (3) facilitating the application of Multi-Domain Generalization techniques when fewer training domains are available.
翻訳日:2023-04-07 17:24:03 公開日:2023-04-06
# 単一光子と線形量子光学による大規模ベースライン光学イメージング

Large baseline optical imaging assisted by single photons and linear quantum optics ( http://arxiv.org/abs/2212.08516v2 )

ライセンス: Link先を確認
Marta Maria Marchese and Pieter Kok(参考訳) 本研究では,量子メソロジーとネットワークツールを組み合わせることで,干渉光学望遠鏡のベースラインを拡張し,点源位置の回折制限イメージングを改善することができることを示す。 量子干渉計は単一光子源、線形光回路、効率的な光子数カウンタに基づいている。 驚くべきことに、モード当たりの光子数が少なく、ベースライン全体で高い透過損失を持つ熱的(恒星)ソースでは、検出された光子確率分布は依然としてソース位置に関する大量のフィッシャー情報を保持しており、10 {\mu}asの順で位置決め点ソースの分解能が大幅に向上する。 我々の提案は現在の技術で実装できる。 特に、我々の提案は実験的な光量子メモリを必要としない。

In this work, we show that by combining quantum metrology and networking tools, it is possible to extend the baseline of an interferometric optical telescope and thus improve diffraction-limited imaging of point source positions. The quantum interferometer is based on single-photon sources, linear optical circuits, and efficient photon number counters. Surprisingly, with thermal (stellar) sources of low photon number per mode and high transmission losses across the baseline, the detected photon probability distribution still retains a large amount of Fisher information about the source position, allowing for a significant improvement in the resolution of positioning point sources, on the order of 10 {\mu}as. Our proposal can be implemented with current technology. In particular, our proposal does not require experimental optical quantum memories.
翻訳日:2023-04-07 17:23:26 公開日:2023-04-06
# 電子相関の測定。 対称性と軌道変換の影響

Measuring Electron Correlation. The Impact of Symmetry and Orbital Transformations ( http://arxiv.org/abs/2301.12807v2 )

ライセンス: Link先を確認
R\'obert Izs\'ak, Aleksei V Ivanov, Nick S. Blunt, Nicole Holzmann, Frank Neese(参考訳) この観点から、波動関数理論、密度汎関数理論、量子情報理論で用いられる電子相関の様々な尺度を概観する。 次に、完全な構成ソリューションにおける支配的な重みに基づくより伝統的なメトリックに注目し、n$-electronと1電子基底の選択に関してその振る舞いについて論じる。 対称性の影響を議論し, 基準関数としての行列式, 構成状態関数, 構成の区別が有用であることを強調し, 後者は基準関数にスピンカップリングを組み込むため, 波動関数展開の複雑さを低減する必要がある。 単一決定因子, 単一スピンカップリング, 単一構成波動関数の対応する概念を考察し, 簡単なモデルシステムを用いて, 多参照文字に対する軌道回転の影響を考察した。 分子系では、相関効果の程度は有限の系の大きさで制限され、多くの場合、1電子と$N$電子の適切な選択はこれらを低複素度参照関数(通常は単一の構成関数)に組み込むことができる。

In this perspective, the various measures of electron correlation used in wavefunction theory, density functional theory and quantum information theory are briefly reviewed. We then focus on a more traditional metric based on dominant weights in the full configuration solution and discuss its behaviour with respect to the choice of the $N$-electron and the one-electron basis. The impact of symmetry is discussed and we emphasize that the distinction between determinants, configuration state functions and configurations as reference functions is useful because the latter incorporate spin-coupling into the reference and should thus reduce the complexity of the wavefunction expansion. The corresponding notions of single determinant, single spin-coupling and single configuration wavefunctions are discussed and the effect of orbital rotations on the multireference character is reviewed by analysing a simple model system. In molecular systems, the extent of correlation effects should be limited by finite system size and in most cases the appropriate choices of one-electron and $N$-electron bases should be able to incorporate these into a low-complexity reference function, often a single configurational one.
翻訳日:2023-04-07 17:18:08 公開日:2023-04-06
# 分数量子数 l=1/n の球面調和

Spherical harmonics for fractional quantum numbers l=1/n ( http://arxiv.org/abs/2301.12433v4 )

ライセンス: Link先を確認
Qingzhang Lv(参考訳) 関連するルジャンドル多項式に基づく球面調和Y_l_,_mの角運動量量子数 L は非負整数 0 1 2 ... であり、分数でなければならない。 しかし、本研究では、関連するルジャンドル方程式の他の一連の解に対応する量子数 L が分数であることを発見した。 本稿では, L=1/2 の球高調波 Y だけでなく, L = 1/n = 1/3 1/4 1/5 の球高調波 Y も提案する。 電子様粒子のスピンs=1/2に加えて、1/3, 1/4, 1/5などの分数スピンも大胆に推測された。 粒子のスピンを2つのスピン成分のみを s = 1/2 に設定することは必ずしも正しいとは限らない。 Ysのプロットの対称性に基づいて、粒子の3つの異なるスピンクラスが予測される。 第一級粒子 s = 1/2 1/6 ... は電子に似ており、平行スピンを持つ粒子は互いに離れる傾向にあり、第二級粒子 s = 1/3 1/5 ... は、スピンが平行かどうかに関わらず互いに反発せず、第三級粒子 s = 1/4 1/8 ... は常に互いに反応し、スピンが平行かどうかにかかわらず移動する傾向にある。 分数スピンの使用は、文献で報告されているように電子や陽子に対してうまく説明できる。 この考え方は量子力学と初等的な実践の研究に重要である。

The angular momentum quantum number L of spherical harmonic Y_l_,_m based on an associated Legendre polynomial is nonnegative integer 0 1 2 ... and must never be a fraction. But the study in this paper found that the quantum number L corresponding to other series of solutions of the associated Legendre equation should be fractions. This paper not only proposed the spherical harmonics Y for L=1/2, but also spherical harmonics Y for L = 1/n = 1/3 1/4 1/5 ... In addition to the spin s=1/2 of electron-like particles, the fractional spin such as 1/3, 1/4, 1/5,...were boldly speculated to be verified in this paper. Setting the spin of a particle with only two spin components of up and down to s = 1/2 is not necessarily correct. Based on the symmetry of the plots of Ys, three different spin classes of particles are predicted. The first class of particles s = 1/2 1/6 ... resembles electrons, particles with the parallel spins tend to move away from each other, and the second class of particles s = 1/3 1/5 ... does not repel each other regardless of whether their spins are parallel or not, and the third class of particles s = 1/4 1/8 ... always repels each other and tend to move away regardless of whether their spins are parallel or not. The use of fractional spin can be well illustrated for electrons and protons as reported in the literature. This view may be important for the study of quantum mechanics and elementary practices.
翻訳日:2023-04-07 17:17:49 公開日:2023-04-06
# インクリメンタルインスタンス学習にラベルは必要か?

Are Labels Needed for Incremental Instance Learning? ( http://arxiv.org/abs/2301.11417v4 )

ライセンス: Link先を確認
Mert Kilickaya and Joaquin Vanschoren(参考訳) 本稿では,視覚オブジェクトのインスタンスを段階的に,自己監督(自己増分)によって分類することを学ぶ。 学習者は一度にひとつのインスタンスを観察し、データセットから破棄される。 長い学習セッションが忘れやすさを悪化させるため、増分的なインスタンス学習は難しい。 これらの課題は,3つのコントリビューションを通じて克服しています。 本稿では,オブジェクトインスタンスを逐次学習できる自己増分学習システム VINIL を提案する。 我々は、インスタンスラベリングの必要性をバイパスするために、VINILに自己スーパービジョンを装備する。 VINILを2つの大規模ベンチマークでラベル管理された変種と比較し、VINILは忘れやすさを抑えながら精度を著しく向上することを示した。

In this paper, we learn to classify visual object instances, incrementally and via self-supervision (self-incremental). Our learner observes a single instance at a time, which is then discarded from the dataset. Incremental instance learning is challenging, since longer learning sessions exacerbate forgetfulness, and labeling instances is cumbersome. We overcome these challenges via three contributions: i. We propose VINIL, a self-incremental learner that can learn object instances sequentially, ii. We equip VINIL with self-supervision to by-pass the need for instance labelling, iii. We compare VINIL to label-supervised variants on two large-scale benchmarks, and show that VINIL significantly improves accuracy while reducing forgetfulness.
翻訳日:2023-04-07 17:17:16 公開日:2023-04-06
# 任意の量子測定からの期待値

Expectation values from any quantum measurement ( http://arxiv.org/abs/2301.10428v2 )

ライセンス: Link先を確認
Dominik \v{S}afr\'anek, Dario Rosa(参考訳) 本稿では,可観測値,平均値,より高いモーメントのアウトカムの確率を,他の可観測値の測定によって推定する手法を提案する。 この方法は一般であり、任意の量子系に適用できる。 孤立系の平均エネルギーを推定する場合、異なる時間で観測可能な他の観測値を測定することにより、推定をさらに改善することができる。 直感的には、測定値と推定可観測値とシステムの状態との間の相互作用と相関を用いる。 より緩く解析的に計算可能な境界と、より厳密だが非凸最適化問題を解く必要がある境界を与える。 この手法は、高度に絡み合った測定を行うのが困難なセットアップにおける温度や作業など、期待値や関連する量の推定に使用することができ、最先端の量子シミュレータでの使用が期待できる。 実演として, ハイゼンベルクおよびイジングにおいて, 2量子ビット測定を行った場合, 基底状態エネルギーを推定する場合のエネルギー範囲の97.5%と96.7%をそれぞれ除いた。

We present a method to estimate the probabilities of outcomes of an observable, its mean value, and higher moments, by measuring any other observable. This method is general and can be applied to any quantum system. In the case of estimating the mean energy of an isolated system, the estimate can be further improved by measuring the other observable at different times. Intuitively, this method uses interplay and correlations between the measured and the estimated observable, and the state of the system. We provide two bounds: one that is looser but analytically computable, and one that is tighter but requires solving a non-convex optimization problem. The method can be used to estimate expectation values and related quantities such as temperature and work in setups in which performing measurements in a highly entangled basis is difficult, finding use in state-of-the-art quantum simulators. As a demonstration, we show that in Heisenberg and Ising models of ten sites in the localized phase, performing two-qubit measurements excludes 97.5% and 96.7% of the possible range of energies, respectively, when estimating the ground state energy.
翻訳日:2023-04-07 17:16:38 公開日:2023-04-06
# ハイブリッド変分量子コンピューティングのためのユニタリ結合クラスタアンサーゼにおけるパラメータ冗長性の探索

Exploring Parameter Redundancy in the Unitary Coupled-Cluster Ansatze for Hybrid Variational Quantum Computing ( http://arxiv.org/abs/2301.09825v2 )

ライセンス: Link先を確認
Shashank G Mehendale and Bo Peng and Niranjan Govind and Yuri Alexeev(参考訳) 変分量子コンピューティングにおいてよく使われる化学に着想を得たアプローチの1つは、ユニタリ・カップリング・クラスタ(UCC)アンサツェである。 厳密な限界に近づく体系的な方法であるにもかかわらず、標準のucc ansatzeのパラメータ数はシステムサイズに関して不利なスケーリングを示し、短期的な量子デバイスでの使用を妨げている。 UCCアンサーゼのいくつかの変種をより優れたスケーリングで提案する試みがなされている。 本稿では,スピン適応型定式化,小さな振幅フィルタリング,エントロピーに基づく軌道選択手法を用いて,一元結合クラスタシングルとダブルス(UCCSD)アンサーゼのパラメータ冗長性を検討した。 本手法を用いた数値実験の結果, 最適化すべきパラメータ数と収束までの時間において, 従来のudcsd-vqeシミュレーションと比較して有意にコスト削減効果が示された。 また,パラメータ冗長性をさらに探求するために,機械学習技術の応用の可能性についても論じ,今後の研究の方向性を示す。

One of the commonly used chemical-inspired approaches in variational quantum computing is the unitary coupled-cluster (UCC) ansatze. Despite being a systematic way of approaching the exact limit, the number of parameters in the standard UCC ansatze exhibits unfavorable scaling with respect to the system size, hindering its practical use on near-term quantum devices. Efforts have been taken to propose some variants of UCC ansatze with better scaling. In this paper we explore the parameter redundancy in the preparation of unitary coupled-cluster singles and doubles (UCCSD) ansatze employing spin-adapted formulation, small amplitude filtration, and entropy-based orbital selection approaches. Numerical results of using our approach on some small molecules have exhibited a significant cost reduction in the number of parameters to be optimized and in the time to convergence compared with conventional UCCSD-VQE simulations. We also discuss the potential application of some machine learning techniques in further exploring the parameter redundancy, providing a possible direction for future studies.
翻訳日:2023-04-07 17:16:19 公開日:2023-04-06
# ガウス過程状態空間モデルの柔軟性と解釈可能性

Towards Flexibility and Interpretability of Gaussian Process State-Space Model ( http://arxiv.org/abs/2301.08843v3 )

ライセンス: Link先を確認
Zhid Lin, Feng Yin and Juan Maro\~nas(参考訳) ガウス過程状態空間モデル(GPSSM)は過去10年間、かなりの注目を集めてきた。 しかし、GPSSM研究で一般的に使われている2乗指数カーネルやMat\'{e}rnカーネルのような予備的なカーネルを持つ標準GPは、モデルの表現力を制限し、複雑なシナリオに適用性を大幅に制限する。 この問題に対処するために, パラメトリック正規化フローを利用して標準GPSSMのGPプリエントを強化し, 柔軟性と表現性を向上する, TGPSSMs と呼ばれる新しい確率的状態空間モデルを提案する。 さらに,遅延状態の変動分布に対して柔軟かつ最適な構造を提供するスケーラブルな変分推論アルゴリズムを提案する。 提案アルゴリズムは,スパースGP表現と正規化フローの主観的性質により,解釈可能かつ計算的に効率的である。 さらに,制約付き最適化フレームワークをアルゴリズムに組み込んで,状態空間表現能力の向上とハイパーパラメータの最適化を行い,優れた学習と推論性能を実現する。 合成および実データセットの実験結果は、提案したTGPSSMがいくつかの最先端手法より優れていることを裏付ける。 ソースコードは \url{https://github.com/zhidilin/TGPSSM} で公開されている。

The Gaussian process state-space model (GPSSM) has garnered considerable attention over the past decade. However, the standard GP with a preliminary kernel, such as the squared exponential kernel or Mat\'{e}rn kernel, that is commonly used in GPSSM studies, limits the model's representation power and substantially restricts its applicability to complex scenarios. To address this issue, we propose a new class of probabilistic state-space models called TGPSSMs, which leverage a parametric normalizing flow to enrich the GP priors in the standard GPSSM, enabling greater flexibility and expressivity. Additionally, we present a scalable variational inference algorithm that offers a flexible and optimal structure for the variational distribution of latent states. The proposed algorithm is interpretable and computationally efficient due to the sparse GP representation and the bijective nature of normalizing flow. Moreover, we incorporate a constrained optimization framework into the algorithm to enhance the state-space representation capabilities and optimize the hyperparameters, leading to superior learning and inference performance. Experimental results on synthetic and real datasets corroborate that the proposed TGPSSM outperforms several state-of-the-art methods. The accompanying source code is available at \url{https://github.com/zhidilin/TGPSSM}.
翻訳日:2023-04-07 17:16:00 公開日:2023-04-06
# CLIP2Scene: CLIPによるラベル効率のよい3Dシーン理解を目指して

CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP ( http://arxiv.org/abs/2301.04926v2 )

ライセンス: Link先を確認
Runnan Chen, Youquan Liu, Lingdong Kong, Xinge Zhu, Yuexin Ma, Yikang Li, Yuenan Hou, Yu Qiao, Wenping Wang(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。 2Dでの素晴らしいパフォーマンスにもかかわらず、3Dシーン理解の学習を支援するCLIPの適用はまだ検討されていない。 本稿では,CLIPの知識が3Dシーンの理解にどう役立つのかを初めて検討する。 CLIP2Sceneは、CLIPの知識を2D画像テキスト事前学習モデルから3Dポイントクラウドネットワークに転送する、シンプルで効果的なフレームワークである。 また,事前学習した3dネットワークは,意味セグメンテーションのためのラベル付きデータとのアノテーションフリーおよび微調整など,下流タスクに印象的なパフォーマンスをもたらすことを示す。 具体的には,CLIPをベースとしたセマンティック型クロスモーダルコントラスト学習フレームワークを設計し,意味的・空間的整合性正規化を通じて3次元ネットワークを事前学習する。 前者の場合、まずクリップのテキストセマンティクスを利用して正の点と負の点のサンプルを選択し、3dネットワークのトレーニングにコントラスト損失を利用する。 後者については、時間的に整合した点雲特徴と対応する画像特徴との整合性を強制する。 semantickitti,nuscenes,scannetについて実験を行った。 我々の事前学習ネットワークは、nuScenes と ScanNet でそれぞれ 20.8% と 25.08% mIoU のアノテーションのない3Dセマンティックセマンティックセマンティックセマンティクスを実現する。 1%または100%のラベル付きデータを微調整した場合,本手法は他の自己監督手法よりも優れ,8%,1% mIoUが改善した。 さらに,クロスドメインデータセットを扱うための汎用性を示す。 コードはhttps://github.com/runnanchen/clip2sceneで公開されている。

Contrastive Language-Image Pre-training (CLIP) achieves promising results in 2D zero-shot and few-shot learning. Despite the impressive performance in 2D, applying CLIP to help the learning in 3D scene understanding has yet to be explored. In this paper, we make the first attempt to investigate how CLIP knowledge benefits 3D scene understanding. We propose CLIP2Scene, a simple yet effective framework that transfers CLIP knowledge from 2D image-text pre-trained models to a 3D point cloud network. We show that the pre-trained 3D network yields impressive performance on various downstream tasks, i.e., annotation-free and fine-tuning with labelled data for semantic segmentation. Specifically, built upon CLIP, we design a Semantic-driven Cross-modal Contrastive Learning framework that pre-trains a 3D network via semantic and spatial-temporal consistency regularization. For the former, we first leverage CLIP's text semantics to select the positive and negative point samples and then employ the contrastive loss to train the 3D network. In terms of the latter, we force the consistency between the temporally coherent point cloud features and their corresponding image features. We conduct experiments on SemanticKITTI, nuScenes, and ScanNet. For the first time, our pre-trained network achieves annotation-free 3D semantic segmentation with 20.8% and 25.08% mIoU on nuScenes and ScanNet, respectively. When fine-tuned with 1% or 100% labelled data, our method significantly outperforms other self-supervised methods, with improvements of 8% and 1% mIoU, respectively. Furthermore, we demonstrate the generalizability for handling cross-domain datasets. Code is publicly available https://github.com/runnanchen/CLIP2Scene.
翻訳日:2023-04-07 17:15:12 公開日:2023-04-06
# PAD: 侵入攻撃に対する原則的敵対的マルウェア検出を目指して

PAD: Towards Principled Adversarial Malware Detection Against Evasion Attacks ( http://arxiv.org/abs/2302.11328v2 )

ライセンス: Link先を確認
Deqiang Li, Shicheng Cui, Yun Li, Jia Xu, Fu Xiao and Shouhuai Xu(参考訳) 機械学習(ML)技術は、悪意のあるソフトウェア(短期間のマルウェア)の検出の自動化を促進するが、回避攻撃に苦しむ。 多くの研究はヒューリスティックな方法でこのような攻撃に対抗し、理論的保証と防御効果を欠いている。 本稿では,ロバストな最適化手法に対する収束保証を提供するPAD(Principled Adversarial Malware Detection)と呼ばれる,新たな逆トレーニングフレームワークを提案する。 PADは、分散的に離散的な摂動を定量化して、マルウェア検知器を敵から保護する学習可能な凸測定に基づいており、スムーズな検出器のために、理論的治療によって敵の訓練を行うことができる。 防御効果を高めるため,深層ニューラルネットワークに基づく計測とマルウェア検出装置を強化するため,PADをインスタンス化する新たな攻撃法を提案する。 2つのAndroidマルウェアデータセットの実験結果が示す。 (i)提案手法は、最先端の防御を著しく上回っている。 (ii)攻撃がない場合の精度が2.16%未満の価格で、83.45%以上の検出精度を持つ27の回避攻撃に対するMLベースのマルウェア検出を困難にすることができる。 (iii)リアルな敵のマルウェアに対して、ウイルストタルで多くのアンチマルウェアスキャナーをマッチさせたり、上回ったりする。

Machine Learning (ML) techniques can facilitate the automation of malicious software (malware for short) detection, but suffer from evasion attacks. Many studies counter such attacks in heuristic manners, lacking theoretical guarantees and defense effectiveness. In this paper, we propose a new adversarial training framework, termed Principled Adversarial Malware Detection (PAD), which offers convergence guarantees for robust optimization methods. PAD lays on a learnable convex measurement that quantifies distribution-wise discrete perturbations to protect malware detectors from adversaries, whereby for smooth detectors, adversarial training can be performed with theoretical treatments. To promote defense effectiveness, we propose a new mixture of attacks to instantiate PAD to enhance deep neural network-based measurements and malware detectors. Experimental results on two Android malware datasets demonstrate: (i) the proposed method significantly outperforms the state-of-the-art defenses; (ii) it can harden ML-based malware detection against 27 evasion attacks with detection accuracies greater than 83.45%, at the price of suffering an accuracy decrease smaller than 2.16% in the absence of attacks; (iii) it matches or outperforms many anti-malware scanners in VirusTotal against realistic adversarial malware.
翻訳日:2023-04-07 17:08:08 公開日:2023-04-06
# マルチモーダルデータを用いた貧困マップ推論による富分布の解釈

Interpreting wealth distribution via poverty map inference using multimodal data ( http://arxiv.org/abs/2302.10793v2 )

ライセンス: Link先を確認
Lisette Esp\'in-Noboa, J\'anos Kert\'esz, and M\'arton Karsai(参考訳) 貧困マップは、政府やNGOが社会経済の変化を追跡し、必要な場所でインフラやサービスを適切に割り当てるために必要なツールである。 センサとオンラインクラウドソースのデータと機械学習の手法が組み合わさって、貧困マップ推論のブレークスルーとなった。 しかし、これらの手法は地域の富の変動を捉えておらず、全てのサブ人口に対する正確な予測を保証する説明可能な結果を生み出すように最適化されていない。 本稿では,複数の地理的に分布する地域における富の平均および標準偏差を推定する機械学習モデルのパイプラインを提案し,シエラレオネとウガンダでの性能を示す。 これらのモデルは、衛星画像とオンラインのクラウドソーシングとソーシャルメディアで収集されたメタデータに基づいて、7つの独立して自由に利用可能な機能ソースを利用する。 我々のモデルでは、メタデータの組み合わせが農村部で最も富を予測し、画像ベースのモデルより優れていることが示されています。 その結果,地域平均と富の変動を再現し,その正の非単調な相関を正しく捉えた。 さらに、各国間でのモデル転送の能力と限界、およびデータレジェンシーや他のバイアスの影響を実証する。 我々の方法論は、政府やNGOがデータ可用性、都市化レベル、貧困のしきい値に基づいて情報的決定を行うのを助けるために、より透明で解釈可能なモデルを構築するためのオープンなツールを提供する。

Poverty maps are essential tools for governments and NGOs to track socioeconomic changes and adequately allocate infrastructure and services in places in need. Sensor and online crowd-sourced data combined with machine learning methods have provided a recent breakthrough in poverty map inference. However, these methods do not capture local wealth fluctuations, and are not optimized to produce accountable results that guarantee accurate predictions to all sub-populations. Here, we propose a pipeline of machine learning models to infer the mean and standard deviation of wealth across multiple geographically clustered populated places, and illustrate their performance in Sierra Leone and Uganda. These models leverage seven independent and freely available feature sources based on satellite images, and metadata collected via online crowd-sourcing and social media. Our models show that combined metadata features are the best predictors of wealth in rural areas, outperforming image-based models, which are the best for predicting the highest wealth quintiles. Our results recover the local mean and variation of wealth, and correctly capture the positive yet non-monotonous correlation between them. We further demonstrate the capabilities and limitations of model transfer across countries and the effects of data recency and other biases. Our methodology provides open tools to build towards more transparent and interpretable models to help governments and NGOs to make informed decisions based on data availability, urbanization level, and poverty thresholds.
翻訳日:2023-04-07 17:07:24 公開日:2023-04-06
# 事前学習したエッジトランスフォーマーによるオンラインゲームにおける友人ランキング

Friend Ranking in Online Games via Pre-training Edge Transformers ( http://arxiv.org/abs/2302.10043v2 )

ライセンス: Link先を確認
Liang Yao, Jiazhen Peng, Shenggong Ji, Qiang Liu, Hongyun Cai, Feng He, Xu Cheng(参考訳) friend recallはオンラインゲームにおけるdau(daily active users)を改善する重要な手段だ。 問題は、事実上、失われた友人のランキングリストを作ることだ。 伝統的な友人リコール手法は、失った選手の復帰確率を予測するために、友人親密さや分類器の訓練のようなルールに焦点を当てるが、(アクティブな)選手の特徴情報や歴史的な友人リコールイベントは無視する。 本研究では,友人のリコールをリンク予測問題として扱うとともに,履歴イベントだけでなく,アクティブプレイヤーとロスプレイヤーの両方の特徴を活用可能なリンク予測手法について検討する。 さらに,新しいEdge Transformerモデルを提案し,マスク付きオートエンコーダによる事前学習を行う。 本手法は3つのTencentゲームにおけるオフライン実験とオンラインA/Bテストの最先端結果を実現する。

Friend recall is an important way to improve Daily Active Users (DAU) in online games. The problem is to generate a proper lost friend ranking list essentially. Traditional friend recall methods focus on rules like friend intimacy or training a classifier for predicting lost players' return probability, but ignore feature information of (active) players and historical friend recall events. In this work, we treat friend recall as a link prediction problem and explore several link prediction methods which can use features of both active and lost players, as well as historical events. Furthermore, we propose a novel Edge Transformer model and pre-train the model via masked auto-encoders. Our method achieves state-of-the-art results in the offline experiments and online A/B Tests of three Tencent games.
翻訳日:2023-04-07 17:07:00 公開日:2023-04-06
# スパーシティの観点からの深層ニューラルネットワークのプルーニング

Pruning Deep Neural Networks from a Sparsity Perspective ( http://arxiv.org/abs/2302.05601v2 )

ライセンス: Link先を確認
Enmao Diao, Ganghua Wang, Jiawei Zhan, Yuhong Yang, Jie Ding, Vahid Tarokh(参考訳) 近年,計算処理やメモリ制約のある小型デバイスへのaiの迅速な展開を実現するため,ディープネットワークプルーニングが注目されている。 プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、層を落とすことで達成される。 多くの深い刈り込みアルゴリズムが印象的な成功で提案されている。 しかし、既存のアプローチでは、各プルーニングイテレーション中にサブネットワークの圧縮可能性を推定する定量的な尺度が欠けており、従ってモデルが過小評価されることもある。 本研究では,ディープニューラルネットワークの潜在的圧縮性を測定するpqインデックス(pqi)を提案し,これを用いてsparsity-informed adaptive pruning(sap)アルゴリズムを開発した。 我々の広範な実験は、一般的な刈り込み手順において、PQIは大きなモデルが効果的に正規化されているときに最初に減少し、圧縮性が不適合の始まりに対応するような限界に達すると増加するという仮説を裏付ける。 その後、モデルが崩壊し、モデルの性能が著しく低下し始めると、PQIは再び低下する。 また,ハイパーパラメータを適切に選択した適応プルーニングアルゴリズムは,圧縮効率とロバスト性の観点から,宝くじによるプルーニング法のような反復プルーニングアルゴリズムよりも優れていることを示す。

In recent years, deep network pruning has attracted significant attention in order to enable the rapid deployment of AI into small devices with computation and memory constraints. Pruning is often achieved by dropping redundant weights, neurons, or layers of a deep network while attempting to retain a comparable test performance. Many deep pruning algorithms have been proposed with impressive empirical success. However, existing approaches lack a quantifiable measure to estimate the compressibility of a sub-network during each pruning iteration and thus may under-prune or over-prune the model. In this work, we propose PQ Index (PQI) to measure the potential compressibility of deep neural networks and use this to develop a Sparsity-informed Adaptive Pruning (SAP) algorithm. Our extensive experiments corroborate the hypothesis that for a generic pruning procedure, PQI decreases first when a large model is being effectively regularized and then increases when its compressibility reaches a limit that appears to correspond to the beginning of underfitting. Subsequently, PQI decreases again when the model collapse and significant deterioration in the performance of the model start to occur. Additionally, our experiments demonstrate that the proposed adaptive pruning algorithm with proper choice of hyper-parameters is superior to the iterative pruning algorithms such as the lottery ticket-based pruning methods, in terms of both compression efficiency and robustness.
翻訳日:2023-04-07 17:06:45 公開日:2023-04-06
# 共振スペクトル位相フリップによる広帯域2光子吸収の促進

Enhancement of broadband entangled two-photon absorption by resonant spectral phase flips ( http://arxiv.org/abs/2302.02846v2 )

ライセンス: Link先を確認
Baihong Li and Holger F. Hofmann(参考訳) 広帯域エネルギー-時間絡み合いは、正確な2光子共鳴と非常に短い一致時間を組み合わせることで、2光子吸収率(TPA)を高めるために用いられる。 この短い一致時間のため、ブロードバンドTPAは中間レベルのスペクトルに敏感ではないため、中間遷移が完全に仮想である場合に最適な選択となる。 異なる中間共鳴の場合、中間共鳴と一致する位相分散を導入することにより、TPAを強化することができる。 ここでは、特定の周波数以上の全ての周波数の位相が、この周波数以下の周波数に対して半波長シフトされる単一光子スペクトルにおける位相フリップの効果を考察する。 位相が反転する周波数をスキャンして中間共鳴の位置を明らかにすることができる。 共振位相フリップは、典型的な共鳴を特徴づける分散の非対称な虚部への寄与を最大化し、結果としてtpa速度を大幅に向上させる。 TPAのボソニック対称性により、2つの光子の周波数差が共鳴の直線幅よりもはるかに高いときに共鳴が起こると、増強が最強となる。 以上の結果から, 直接光子検出が困難なスペクトル下端の位相感度分光には, 広帯域の位相反転型tpaが適する可能性が示唆された。

Broadband energy-time entanglement can be used to enhance the rate of two-photon absorption (TPA) by combining a precise two-photon resonance with a very short coincidence time. Because of this short coincidence time, broadband TPA is not sensitive to the spectrum of intermediate levels, making it the optimal choice when the intermediate transitions are entirely virtual. In the case of distinct intermediate resonances, it is possible to enhance TPA by introducing a phase dispersion that matches the intermediate resonances. Here, we consider the effects of a phase flip in the single photon spectrum, where the phases of all frequencies above a certain frequency are shifted by half a wavelength relative to the frequencies below this frequency. The frequency at which the phase is flipped can then be scanned to reveal the position of intermediate resonances. We find that a resonant phase flip maximizes the contributions of the asymmetric imaginary part of the dispersion that characterizes a typical resonance, resulting in a considerable enhancement of the TPA rate. Due to the bosonic symmetry of TPA, the enhancement is strongest when the resonance occurs when the frequency difference of the two photons is much higher than the linewidth of the resonance. Our results indicate that broadband entangled TPA with spectral phase flips may be suitable for phase-sensitive spectroscopy at the lower end of the spectrum where direct photon detection is difficult.
翻訳日:2023-04-07 17:06:18 公開日:2023-04-06
# 経済深層学習モデルを用いたIoTボットネットの検出

IoT Botnet Detection Using an Economic Deep Learning Model ( http://arxiv.org/abs/2302.02013v3 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Magdy Bayoumi(参考訳) 技術の革新と流通の急速な進歩は、この10年間で増加している。 世界中のIoT(Internet of Things)システムの急速な成長は、悪意のあるサードパーティが生み出したネットワークセキュリティ上の課題を増大させている。 したがって、セキュリティ上の懸念やIoTシステムの制限を考慮に入れた、信頼性の高い侵入検知とネットワークフォサイシクスシステムは、そのようなシステムを保護する上で不可欠である。 IoTボットネット攻撃は企業や個人にとって重要な脅威のひとつだ。 そこで本稿では,IoTボットネット攻撃を検知する経済的深層学習モデルを提案する。 提案手法は, 実装予算を小さくし, 訓練および検出プロセスを高速化することで, 最先端検出モデルよりも高い精度を達成した。

The rapid progress in technology innovation usage and distribution has increased in the last decade. The rapid growth of the Internet of Things (IoT) systems worldwide has increased network security challenges created by malicious third parties. Thus, reliable intrusion detection and network forensics systems that consider security concerns and IoT systems limitations are essential to protect such systems. IoT botnet attacks are one of the significant threats to enterprises and individuals. Thus, this paper proposed an economic deep learning-based model for detecting IoT botnet attacks along with different types of attacks. The proposed model achieved higher accuracy than the state-of-the-art detection models using a smaller implementation budget and accelerating the training and detecting processes.
翻訳日:2023-04-07 17:05:57 公開日:2023-04-06
# 深層学習による壁面乱流の解明

Explaining wall-bounded turbulence through deep learning ( http://arxiv.org/abs/2302.01250v2 )

ライセンス: Link先を確認
Andres Cremades, Sergio Hoyas, Pedro Quintero, Martin Lellep, Moritz Linkmann, Ricardo Vinuesa(参考訳) 科学的、技術的に非常に重要であるにもかかわらず、壁面乱流は未解決の問題であり、新しい視点に取り組む必要がある。 主要な戦略の1つは、流れのコヒーレント構造間の相互作用を研究することである。 このような相互作用を,説明可能な深層学習法を用いて初めて検討した。 乱流流路内の瞬時速度場は畳み込みニューラルネットワークを介して時間内の速度場を予測するために用いられる。 予測フローに基づいて,SHAP(SHapley Additive exPlanations)のゲーム理論アルゴリズムを用いて,この予測における各構造の重要性を評価する。 この研究は、文献における以前の観測結果と一致し、レイノルズ・ストレス構造の重要性を定量化し、これらの構造と流れの力学の関連を見出すことによってそれらを拡張した。 このプロセスは、ディープラーニングの説明可能性に基づいて、新しいタイプのフロー構造を客観的に定義することを含む、壁面境界乱流の多くの基本的な現象に光を当てる可能性を秘めている。

Despite its great scientific and technological importance, wall-bounded turbulence is an unresolved problem that requires new perspectives to be tackled. One of the key strategies has been to study interactions among the coherent structures in the flow. Such interactions are explored in this study for the first time using an explainable deep-learning method. The instantaneous velocity field in a turbulent channel is used to predict the velocity field in time through a convolutional neural network. Based on the predicted flow, we assess the importance of each structure for this prediction using the game-theoretic algorithm of SHapley Additive exPlanations (SHAP). This work provides results in agreement with previous observations in the literature and extends them by quantifying the importance of the Reynolds-stress structures, finding a connection between these structures and the dynamics of the flow. The process, based on deep-learning explainability, has the potential to shed light on numerous fundamental phenomena of wall-bounded turbulence, including the objective definition of new types of flow structures.
翻訳日:2023-04-07 17:04:54 公開日:2023-04-06
# 平均場最適制御問題としてのODE-Netの変分定式化とその存在結果

Variational formulations of ODE-Net as a mean-field optimal control problem and existence results ( http://arxiv.org/abs/2303.05924v2 )

ライセンス: Link先を確認
Noboru Isobe, Mizuho Okumura(参考訳) 本稿では,ディープニューラルネットワーク(DNN)の連続体モデルであるODE-Netの数学的解析を行う。 近年、機械学習の研究者たちは、DNNの深い構造をODEに置き換えるアイデアを連続的な制限として導入している。 これらの研究は、ODE-Netの「学習」をパラメトリックODEによって制約された「ロス」の最小化とみなしている。 この最小化問題に対する最小化器の存在を仮定する必要があるが、その存在を詳細に分析する研究はごくわずかである。 本稿では,量論的平均場最適制御問題としてODE-Netの定式化に基づいて,最小化器の存在について論じる。 ODE-Netのベクトル場を記述するニューラルネットワークが学習可能なパラメータに対して線形である場合、その存在が証明される。 この証明は測度理論の定式化と変分計算の直接的な方法を組み合わせたものである。 次に、上述の線形性仮定を取り除くために、理想化最小化問題を提案する。 このような問題は、ベナモ-ブレーニエの公式とニューラルネットワークの普遍近似定理に付随する運動正則化にインスパイアされている。 これらの存在の証明は変分法、微分方程式、平均場最適制御理論を用いる。 彼らは、ディープニューラルネットワークの学習過程を研究するための、新しい分析方法を模索する。

This paper presents a mathematical analysis of ODE-Net, a continuum model of deep neural networks (DNNs). In recent years, Machine Learning researchers have introduced ideas of replacing the deep structure of DNNs with ODEs as a continuum limit. These studies regard the "learning" of ODE-Net as the minimization of a "loss" constrained by a parametric ODE. Although the existence of a minimizer for this minimization problem needs to be assumed, only a few studies have investigated its existence analytically in detail. In the present paper, the existence of a minimizer is discussed based on a formulation of ODE-Net as a measure-theoretic mean-field optimal control problem. The existence result is proved when a neural network, which describes a vector field of ODE-Net, is linear with respect to learnable parameters. The proof employs the measure-theoretic formulation combined with the direct method of Calculus of Variations. Secondly, an idealized minimization problem is proposed to remove the above linearity assumption. Such a problem is inspired by a kinetic regularization associated with the Benamou--Brenier formula and universal approximation theorems for neural networks. The proofs of these existence results use variational methods, differential equations, and mean-field optimal control theory. They will stand for a new analytic way to investigate the learning process of deep neural networks.
翻訳日:2023-04-07 16:59:12 公開日:2023-04-06
# 再構成型状態空間モデルによる時系列異常検出

Time series anomaly detection with reconstruction-based state-space models ( http://arxiv.org/abs/2303.03324v2 )

ライセンス: Link先を確認
Fan Wang, Keli Wang, Boyu Yao(参考訳) 最近のデジタル化の進歩により、様々なドメインで多変量時系列データが利用可能になり、操作のリアルタイム監視が可能になった。 これらのシナリオにおける異常なデータパターンの特定と潜在的な障害の検出は、かなり困難である。 本研究では,時系列データに対する新しい教師なし異常検出手法を提案する。 提案手法は観測モデルと動的モデルとを共同で学習し, 標準試料からモデル不確かさを推定する。 具体的には、長い短期記憶(LSTM)ベースのエンコーダデコーダを採用し、観測空間と潜時空間のマッピングを表現する。 状態の双方向遷移は、後方および前方の時間情報を利用して同時にモデル化される。 潜在空間の正規化は正常なサンプルの状態に制約を与え、マハラノビス距離は異常レベルを評価するために用いられる。 合成および実世界のデータセットに関する実証研究は、異常検出タスクにおいて提案手法の優れた性能を示す。

Recent advances in digitization have led to the availability of multivariate time series data in various domains, enabling real-time monitoring of operations. Identifying abnormal data patterns and detecting potential failures in these scenarios are important yet rather challenging. In this work, we propose a novel unsupervised anomaly detection method for time series data. The proposed framework jointly learns the observation model and the dynamic model, and model uncertainty is estimated from normal samples. Specifically, a long short-term memory (LSTM)-based encoder-decoder is adopted to represent the mapping between the observation space and the latent space. Bidirectional transitions of states are simultaneously modeled by leveraging backward and forward temporal information. Regularization of the latent space places constraints on the states of normal samples, and Mahalanobis distance is used to evaluate the abnormality level. Empirical studies on synthetic and real-world datasets demonstrate the superior performance of the proposed method in anomaly detection tasks.
翻訳日:2023-04-07 16:58:55 公開日:2023-04-06
# 非対数凹サンプリングの収束率と対数分割推定

Convergence Rates for Non-Log-Concave Sampling and Log-Partition Estimation ( http://arxiv.org/abs/2303.03237v2 )

ライセンス: Link先を確認
David Holzm\"uller, Francis Bach(参考訳) Gibbsディストリビューションからサンプリングする$p(x) \propto \exp(-V(x)/\varepsilon)$とそれらのログ分割関数の計算は統計学、機械学習、統計物理学の基本的なタスクである。 しかしながら、効率的なアルゴリズムは凸ポテンシャル$V$で知られているが、非凸の場合、最悪の場合、アルゴリズムが必然的に次元性の呪いに苦しむ場合、状況ははるかに困難である。 サンプリングの低温限界と見なすことができる最適化のために、滑らかな関数 $v$ はより高速な収束率を可能にすることが知られている。 具体的には、$d$次元における$m$-times微分可能関数の場合、$n$関数評価を持つアルゴリズムの最適レートは$O(n^{-m/d})$であることが知られており、定数は$m, d$と最適化される関数に依存する可能性がある。 したがって、次元性の呪いは少なくとも収束率の観点から滑らかな函数に対して緩和することができる。 近年、多項式ランタイム $o(n^{3.5})$ でも同様の速さを達成できることが示されており、指数 $3.5$ は $m$ または $d$ から独立している。 したがって、サンプリングとログ分割計算の類似のレートが可能か、あるいは$m$と$d$に依存しない指数で多項式時間で実現可能かどうかを問うのは自然である。 サンプリングおよびログ分割計算の最適レートは、最適化よりも等しく、時として高速であることを示す。 次に,最近期待されている最適化手法の拡張を含む様々な多項式時間サンプリングアルゴリズムを分析し,興味ある振る舞いを呈するが、ほぼ最適に近い速度は示さないことを示す。 また,サンプリング,ログ分割,最適化問題との関係についても考察した。

Sampling from Gibbs distributions $p(x) \propto \exp(-V(x)/\varepsilon)$ and computing their log-partition function are fundamental tasks in statistics, machine learning, and statistical physics. However, while efficient algorithms are known for convex potentials $V$, the situation is much more difficult in the non-convex case, where algorithms necessarily suffer from the curse of dimensionality in the worst case. For optimization, which can be seen as a low-temperature limit of sampling, it is known that smooth functions $V$ allow faster convergence rates. Specifically, for $m$-times differentiable functions in $d$ dimensions, the optimal rate for algorithms with $n$ function evaluations is known to be $O(n^{-m/d})$, where the constant can potentially depend on $m, d$ and the function to be optimized. Hence, the curse of dimensionality can be alleviated for smooth functions at least in terms of the convergence rate. Recently, it has been shown that similarly fast rates can also be achieved with polynomial runtime $O(n^{3.5})$, where the exponent $3.5$ is independent of $m$ or $d$. Hence, it is natural to ask whether similar rates for sampling and log-partition computation are possible, and whether they can be realized in polynomial time with an exponent independent of $m$ and $d$. We show that the optimal rates for sampling and log-partition computation are sometimes equal and sometimes faster than for optimization. We then analyze various polynomial-time sampling algorithms, including an extension of a recent promising optimization approach, and find that they sometimes exhibit interesting behavior but no near-optimal rates. Our results also give further insights on the relation between sampling, log-partition, and optimization problems.
翻訳日:2023-04-07 16:58:41 公開日:2023-04-06
# トラフィック需要予測のためのヘテロジニアスグラフニューラルネットワークの半分散推論:エッジコンピューティングアプローチ

Semi-decentralized Inference in Heterogeneous Graph Neural Networks for Traffic Demand Forecasting: An Edge-Computing Approach ( http://arxiv.org/abs/2303.00524v2 )

ライセンス: Link先を確認
Mahmoud Nazzal, Abdallah Khreishah, Joyoung Lee, Shaahin Angizi, Ala Al-Fuqaha, and Mohsen Guizani(参考訳) タクシーサービスの需要と供給の予測は、顧客体験と提供者の利益を改善するために不可欠である。 近年、グラフニューラルネットワーク(GNN)がこの応用に有望であることが示されている。 このアプローチは、都市を交通グラフのノードとしてモデル化し、それらの関係をエッジとしてモデル化する。 GNNは、予測にローカルノードの特徴とグラフ構造を利用する。 しかし、より効率的な予測は、輸送グラフのスケールを拡大し、グラフ内の異なるタイプのノードとエッジを同時に活用する、2つの主要なルートに従うことで達成できる。 しかし、どちらのアプローチもGNNのスケーラビリティに悩まされている。 スケーラビリティの課題に対する即時対策は、GNN操作を分散化することだ。 しかし、これは過剰なノード間通信を引き起こす。 本稿では,分散GNN手法における過剰な通信の必要性を最初に特徴付ける。 そこで我々は,複数のクラウドレット,適度なサイズのストレージと計算装置,およびセルラー基地局と統合可能な半分散化手法を提案する。 このアプローチは、クラウドレット間の通信を最小限にし、分散アプローチの通信オーバーヘッドを軽減すると同時に、cloudletレベルの分散化によるスケーラビリティを促進する。 また,ノードがタクシーである動的タクシーグラフを扱うために,タクシーレベルの需要改善と供給予測のための異種GNN-LSTMアルゴリズムを提案する。 実データに対する大規模な実験は、異種GNN-LSTMアルゴリズムで検証された半分散化アプローチの利点を示している。 また, 半分散型GNN手法により, 集中型および分散型推論方式と比較して, 全体の推定時間を約1桁削減できることを示した。

Prediction of taxi service demand and supply is essential for improving customer's experience and provider's profit. Recently, graph neural networks (GNNs) have been shown promising for this application. This approach models city regions as nodes in a transportation graph and their relations as edges. GNNs utilize local node features and the graph structure in the prediction. However, more efficient forecasting can still be achieved by following two main routes; enlarging the scale of the transportation graph, and simultaneously exploiting different types of nodes and edges in the graphs. However, both approaches are challenged by the scalability of GNNs. An immediate remedy to the scalability challenge is to decentralize the GNN operation. However, this creates excessive node-to-node communication. In this paper, we first characterize the excessive communication needs for the decentralized GNN approach. Then, we propose a semi-decentralized approach utilizing multiple cloudlets, moderately sized storage and computation devices, that can be integrated with the cellular base stations. This approach minimizes inter-cloudlet communication thereby alleviating the communication overhead of the decentralized approach while promoting scalability due to cloudlet-level decentralization. Also, we propose a heterogeneous GNN-LSTM algorithm for improved taxi-level demand and supply forecasting for handling dynamic taxi graphs where nodes are taxis. Extensive experiments over real data show the advantage of the semi-decentralized approach as tested over our heterogeneous GNN-LSTM algorithm. Also, the proposed semi-decentralized GNN approach is shown to reduce the overall inference time by about an order of magnitude compared to centralized and decentralized inference schemes.
翻訳日:2023-04-07 16:57:50 公開日:2023-04-06
# AR3n:ロボットリハビリテーションのための強化学習型補助制御

AR3n: A Reinforcement Learning-based Assist-As-Needed Controller for Robotic Rehabilitation ( http://arxiv.org/abs/2303.00085v3 )

ライセンス: Link先を確認
Shrey Pareek, Harris NIsar and Thenkurussi Kesavadas(参考訳) 本稿では,ロボットハンドライティングリハビリテーションタスクにおいて,強化学習を利用して適応的支援を提供するアシスト・アズ・ア・ニーズド(aan)コントローラar3n(aaronと発音する)を提案する。 従来のAANコントローラとは異なり,本手法は患者固有のコントローラパラメータや物理モデルに依存しない。 複数の被験者にまたがってAR3nを一般化するための仮想患者モデルを提案する。 このシステムは、被験者の追跡誤差に基づいてロボット支援をリアルタイムで調整し、ロボット支援の量を最小化する。 コントローラはシミュレーションと人体実験によって実験的に検証される。 最後に,従来のルールベース制御器との比較検討を行い,2つの制御器の補助機構の違いを分析した。

In this paper, we present AR3n (pronounced as Aaron), an assist-as-needed (AAN) controller that utilizes reinforcement learning to supply adaptive assistance during a robot assisted handwriting rehabilitation task. Unlike previous AAN controllers, our method does not rely on patient specific controller parameters or physical models. We propose the use of a virtual patient model to generalize AR3n across multiple subjects. The system modulates robotic assistance in realtime based on a subject's tracking error, while minimizing the amount of robotic assistance. The controller is experimentally validated through a set of simulations and human subject experiments. Finally, a comparative study with a traditional rule-based controller is conducted to analyze differences in assistance mechanisms of the two controllers.
翻訳日:2023-04-07 16:57:27 公開日:2023-04-06
# 大規模言語モデルによるゼロショットクロスリンガル要約

Zero-Shot Cross-Lingual Summarization via Large Language Models ( http://arxiv.org/abs/2302.14229v2 )

ライセンス: Link先を確認
Jiaan Wang, Yunlong Liang, Fandong Meng, Beiqi Zou, Zhixu Li, Jianfeng Qu, Jie Zhou(参考訳) ソース言語の文書が与えられた場合、言語間要約(CLS)は異なるターゲット言語で要約を生成することを目的としている。 近年, GPT-3.5, ChatGPT, GPT-4 などの大規模言語モデル (LLM) の出現は, 計算言語学コミュニティから広く注目を集めている。 しかし、LS上でのLSMの性能は未だ分かっていない。 本稿では,異なるパラダイム(エンド・ツー・エンド・エンド・パイプライン)からゼロショットCLSを誘導するための様々なプロンプトを実証的に使用し,生成したサマリーの予備評価を行う。 ChatGPT と GPT-4 はもともと,詳細な情報を持つ長文要約が好まれていた。 これらの2つのLSMは、対話的なプロンプトの助けを借りて、情報量と簡潔さを更にバランスさせ、CLSの性能を大幅に向上させることができる。 3つの広く使用されているCLSデータセットによる実験結果から、GPT-4は最先端のゼロショットCLS性能を達成し、微細調整されたmBART-50と競合して性能を発揮することが示された。 さらに,多言語およびバイリンガルLLM(BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuan)はゼロショットCLS能力に制限がある。 要約と翻訳を同時に行うモデルを必要とするCLSの合成特性のため、ゼロショット方式でこのタスクを実現することは、LSMにとっての課題である。 したがって、今後のLSM研究がLSをテストベッドとして利用できることを心から願っています。

Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.
翻訳日:2023-04-07 16:57:14 公開日:2023-04-06
# セキュアキーリースによる公開鍵暗号化

Public Key Encryption with Secure Key Leasing ( http://arxiv.org/abs/2302.11663v2 )

ライセンス: Link先を確認
Shweta Agrawal, Fuyuki Kitagawa, Ryo Nishimaki, Shota Yamada, Takashi Yamakawa(参考訳) セキュア鍵リース(PKE-SKL)を用いた公開鍵暗号の概念を導入する。 この概念は、リース鍵が復号化機能を達成するために復号化鍵のリースをサポートするが、ユーザが返却した量子復号化鍵が有効性テストに合格した場合、復号化能力を失うことを保証している。 私たちの考え方は、Ananth氏とLa Placa氏(Eurocrypt 2021)によって導入されたセキュアなソフトウェアリース(SSL)の概念に似ています。 より詳しくは、我々の敵は海賊ソフトウェアを実行するために正直な評価アルゴリズムを使うことに制限されていない。 1. 定義: セキュアなキーリースを備えたpkeの定義を導入し、セキュリティ概念を形式化します。 2. セキュリティキーリースによるPKEの構築: キーリース攻撃(ICC-KLAセキュリティ)に対する一貫性または一貫性のないセキュリティと呼ばれる新しいセキュリティ概念を満たすPKEスキームを活用することにより、PKE-SKLの構築を提供する。 次に,1-key Ciphertext-Policy Functional Encryption (CPFE) を用いて,任意のIND-CPAセキュアPKEスキームに基づいてCoIC-KLAセキュアPKEスキームを構築する。 3.IDベースの暗号化,属性ベースの暗号化,Secure Key Leasingによる関数型暗号化: IBE(Identity Basedcrypt)や属性ベースの暗号化(ABE),関数型暗号化(FE)といった高度な暗号化スキームにおいて,セキュアな鍵リースの定義を提供する。 次に、上記のPKE-SKLを標準IBE、ABE、FEスキームと組み合わせて構築する。

We introduce the notion of public key encryption with secure key leasing (PKE-SKL). Our notion supports the leasing of decryption keys so that a leased key achieves the decryption functionality but comes with the guarantee that if the quantum decryption key returned by a user passes a validity test, then the user has lost the ability to decrypt. Our notion is similar in spirit to the notion of secure software leasing (SSL) introduced by Ananth and La Placa (Eurocrypt 2021) but captures significantly more general adversarial strategies. In more detail, our adversary is not restricted to use an honest evaluation algorithm to run pirated software. Our results can be summarized as follows: 1. Definitions: We introduce the definition of PKE with secure key leasing and formalize security notions. 2. Constructing PKE with Secure Key Leasing: We provide a construction of PKE-SKL by leveraging a PKE scheme that satisfies a new security notion that we call consistent or inconsistent security against key leasing attacks (CoIC-KLA security). We then construct a CoIC-KLA secure PKE scheme using 1-key Ciphertext-Policy Functional Encryption (CPFE) that in turn can be based on any IND-CPA secure PKE scheme. 3. Identity Based Encryption, Attribute Based Encryption and Functional Encryption with Secure Key Leasing: We provide definitions of secure key leasing in the context of advanced encryption schemes such as identity based encryption (IBE), attribute-based encryption (ABE) and functional encryption (FE). Then we provide constructions by combining the above PKE-SKL with standard IBE, ABE and FE schemes.
翻訳日:2023-04-07 16:56:23 公開日:2023-04-06
# 参照フレームの共有がない場合の離反目撃者

Etanglement witnesses in the absence of shared reference frame ( http://arxiv.org/abs/2303.17549v2 )

ライセンス: Link先を確認
Vahid Jannessary, Fatemeh Rezazadeh, Sadegh Raeisi, and Vahid Karimipour(参考訳) 共通の参照フレーム、すなわちアライメント座標系を持つことは、2つのリモートパーティが所有する2つのパーティ状態における絡み合いを目撃する前提の1つである。 この仮定は多くの理由で失敗するかもしれない。 本稿では,共通座標系が存在しない場合の絡み合いを目撃する手法を提案する。 共有された一重項状態において,2つの当事者がどのような種類の証人を念頭に置いていようと,また,どの次元が国家であるにも拘わらず,両者は依然として元の証人と同じ効率で絡み合いを目撃できることを示した。 エンタングルメント・ウィットネス(Entanglement Witnesses)の文脈を超えて、我々の手法は、その資源に不足があるかもしれない実験室における粒子の観測可能量のリモート測定にも役立つ。

Having common reference frames, i.e. aligned coordinate systems, is one of the presumptions in witnessing entanglement in a two-party state possessed by two remote parties. This assumption may fail for many reasons. In this article, we propose a method for witnessing entanglement in the absence of any common coordinate systems. We show that with shared singlet states, no matter what kind of witness the two parties have in mind and no matter what the dimension of the state is, the two remote parties can still witness entanglement with the same efficiency as the original witness. Beyond the context of Entanglement Witnesses, our method works also for remote measurements of observables of particles (entangled or not) in laboratories which may have deficiency in their resources
翻訳日:2023-04-07 16:48:52 公開日:2023-04-06
# 病理組織学における画像から画像への変換法の比較評価

A comparative evaluation of image-to-image translation methods for stain transfer in histopathology ( http://arxiv.org/abs/2303.17009v2 )

ライセンス: Link先を確認
Igor Zingman, Sergio Frayle, Ivan Tankoyeu, Segrey Sukhanov, Fabian Heinemann(参考訳) image-to-image translation (i2i) メソッドは、オリジナル画像の内容を共有するが異なるスタイルを持つ人工画像を生成することができる。 GAN(Generative Adversarial Networks)ベースの手法の進歩により、I2I法は自然画像と区別できない人工画像の生成を可能にした。 病理組織学においてもi2i法が用いられており,in silico染色組織から異なる染色形態の人工画像を生成する。 この過程を染色転移と呼ぶ。 I2Iの変種数は常に増加しており、染色輸送に最も適したI2I法を適切に選択することが困難である。 本研究では,従来の3つのステンドトランスファー法と,ganベースの画像処理法を併用した9つのステンドトランスファー法を比較した。 この分析は、画像翻訳の品質、深層学習に基づく組織評価の適性の評価、および病理医による視覚的評価の相補的な定量的尺度に依存する。 本研究は,汚れ移動アプローチの強みと弱みを強調し,基礎となるi2iアルゴリズムの合理的な選択を可能にした。 H&EとMassonのTrichrome染色の間の染色のコード、データ、訓練されたモデルがオンラインで提供される。

Image-to-image translation (I2I) methods allow the generation of artificial images that share the content of the original image but have a different style. With the advances in Generative Adversarial Networks (GANs)-based methods, I2I methods enabled the generation of artificial images that are indistinguishable from natural images. Recently, I2I methods were also employed in histopathology for generating artificial images of in silico stained tissues from a different type of staining. We refer to this process as stain transfer. The number of I2I variants is constantly increasing, which makes a well justified choice of the most suitable I2I methods for stain transfer challenging. In our work, we compare twelve stain transfer approaches, three of which are based on traditional and nine on GAN-based image processing methods. The analysis relies on complementary quantitative measures for the quality of image translation, the assessment of the suitability for deep learning-based tissue grading, and the visual evaluation by pathologists. Our study highlights the strengths and weaknesses of the stain transfer approaches, thereby allowing a rational choice of the underlying I2I algorithms. Code, data, and trained models for stain transfer between H&E and Masson's Trichrome staining will be made available online.
翻訳日:2023-04-07 16:48:37 公開日:2023-04-06
# ViewRefer: GPTとプロトタイプガイダンスによる3次元視覚グラウンドの多視点知識

ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance ( http://arxiv.org/abs/2303.16894v2 )

ライセンス: Link先を確認
Ziyu Guo, Yiwen Tang, Renrui Zhang, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li(参考訳) マルチビュー入力からの3dシーンの理解は、3dビジュアルグラウンドにおけるビューの不一致を緩和することが証明されている。 しかし、既存の手法は通常、テキストモダリティに埋め込まれたビューキューを無視し、異なるビューの相対的な重要性を測ることに失敗する。 本稿では,テキストと3Dモダリティの両方からビュー知識を把握する方法を探索する3次元視覚基盤のための多視点フレームワークであるViewReferを提案する。 テキストブランチでは、ViewReferはGPTのような大規模言語モデルの多様な言語知識を活用して、単一の基底テキストを複数の幾何学的記述に拡張する。 一方、3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。 さらに,様々な視点からシーン非依存の知識を記憶し,より堅牢なテキスト機能を備えたビューガイド付アテンションモジュールと,最終予測時のビューガイド付スコアリング戦略という2つの視点からフレームワークを強化する,学習可能なマルチビュープロトタイプのセットも提示する。 設計したパラダイムでは、ViewReferは3つのベンチマークで優れたパフォーマンスを達成し、Sr3D、Nr3D、ScanReferでは+2.8%、+1.2%、+0.73%という2番目のベットを上回ります。 コードはhttps://github.com/ZiyuGuo99/ViewRefer3Dでリリースされる。

Understanding 3D scenes from multi-view inputs has been proven to alleviate the view discrepancy issue in 3D visual grounding. However, existing methods normally neglect the view cues embedded in the text modality and fail to weigh the relative importance of different views. In this paper, we propose ViewRefer, a multi-view framework for 3D visual grounding exploring how to grasp the view knowledge from both text and 3D modalities. For the text branch, ViewRefer leverages the diverse linguistic knowledge of large-scale language models, e.g., GPT, to expand a single grounding text to multiple geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer fusion module with inter-view attention is introduced to boost the interaction of objects across views. On top of that, we further present a set of learnable multi-view prototypes, which memorize scene-agnostic knowledge for different views, and enhance the framework from two perspectives: a view-guided attention module for more robust text features, and a view-guided scoring strategy during the final prediction. With our designed paradigm, ViewRefer achieves superior performance on three benchmarks and surpasses the second-best by +2.8%, +1.2%, and +0.73% on Sr3D, Nr3D, and ScanRefer. Code will be released at https://github.com/ZiyuGuo99/ViewRefer3D.
翻訳日:2023-04-07 16:48:16 公開日:2023-04-06
# 単一光子に対する波動粒子双対性の確率論的考察

A probabilistic view of wave-particle duality for single photons ( http://arxiv.org/abs/2303.15185v2 )

ライセンス: Link先を確認
Andrea Aiello(参考訳) 単一光子状態で作製した光線における波動粒子双対性を示す簡単な実験について述べる。 確率論の観点から問題にアプローチすることにより、実験で同時に測定できるある波動と粒子観測可能な粒子との間の既存の非線形依存を明らかにすることができないことを示す。 このような非線形依存を定量化するために相互情報を用いてこの問題を回避する。 検出器の設定によっては、後者は無視できないかもしれない。 この研究は波動粒子の双対性に新たな光を当てる。

We describe a simple experiment exemplifying wave-particle duality in a light beam prepared in a single-photon state. By approaching the problem from the perspective of probability theory, we demonstrate that standard correlation functions fail to reveal an existing nonlinear dependence between certain wave and particle observables that can be simultaneously measured in the experiment. We circumvent this problem by using mutual information to quantify such nonlinear dependence. We find that the latter may be not at all negligible, depending on detectors' settings. This study sheds new light on wave-particle duality.
翻訳日:2023-04-07 16:47:50 公開日:2023-04-06
# タスク指向メモリ効率プルーニングアダプタ

Task-oriented Memory-efficient Pruning-Adapter ( http://arxiv.org/abs/2303.14704v2 )

ライセンス: Link先を確認
Guorun Wang, Jun Yang, Yaoru Sun(参考訳) 大規模言語モデルの優れた性能とサイズ拡大は、パラメーター効率の学習において注目を集めている。 主なアプローチはアダプタとプルーニングの2つです。 適応者はモデルを凍結し、側面に新しい重み行列を与えることで、トレーニングの時間とメモリを大幅に削減することができるが、そのコストは、評価とテストが時間とメモリ消費を増加させることである。 プルーニングは、ある程度の重量を減らし、残りの重量を減らし、非常に高い記憶と訓練時間のコストでトレーニングの複雑さを犠牲にして、評価と試験のコストを比較的低くする。 したがって、トレーニングと推論の効率は同時には得られません。 本研究では,トレーニングとメモリの高メモリ効率を実現するタスク指向のPruning-Adapter手法を提案し,トレーニング時間を短縮し,GLUEタスクの精度を大幅に低下させることなく,トレーニングと推論の効率を同時に達成する。

The Outstanding performance and growing size of Large Language Models has led to increased attention in parameter efficient learning. The two predominant approaches are Adapters and Pruning. Adapters are to freeze the model and give it a new weight matrix on the side, which can significantly reduce the time and memory of training, but the cost is that the evaluation and testing will increase the time and memory consumption. Pruning is to cut off some weight and re-distribute the remaining weight, which sacrifices the complexity of training at the cost of extremely high memory and training time, making the cost of evaluation and testing relatively low. So efficiency of training and inference can't be obtained in the same time. In this work, we propose a task-oriented Pruning-Adapter method that achieve a high memory efficiency of training and memory, and speeds up training time and ensures no significant decrease in accuracy in GLUE tasks, achieving training and inference efficiency at the same time.
翻訳日:2023-04-07 16:47:41 公開日:2023-04-06
# ランダムとカオスシーケンスは本当にPSO性能の違いの原因か?

Do Random and Chaotic Sequences Really Cause Different PSO Performance? ( http://arxiv.org/abs/2303.14099v2 )

ライセンス: Link先を確認
Paul Moritz N\"orenberg and Hendrik Richter(参考訳) 我々のトピックは、粒子群最適化(PSO)におけるランダムとカオスの使用による性能差である。 確率分布が異なるランダム列を、異なるが同じ密度関数を持つカオス列と比較する。 これにより、シーケンス(乱数生成器またはカオス非線形システム)の起源の差異と、基礎となる分布によって表される統計的差異を区別することができる。 この結果(統計的仮説テストを用いた各種ベンチマーク問題に対するPSO性能評価の結果)は,乱数とカオスを比較した過去の結果にかなりの疑念を呈し,その選択が本質的な性能差をもたらすことを示唆した。

Our topic is performance differences between using random and chaos for particle swarm optimization (PSO). We take random sequences with different probability distributions and compare them to chaotic sequences with different but also with same density functions. This enables us to differentiate between differences in the origin of the sequences (random number generator or chaotic nonlinear system) and statistical differences expressed by the underlying distributions. Our findings (obtained by evaluating the PSO performance for various benchmark problems using statistical hypothesis testing) cast considerable doubt on previous results which compared random to chaos and suggested that the choice leads to intrinsic differences in performance.
翻訳日:2023-04-07 16:47:25 公開日:2023-04-06
# 量子コンピュータを用いた生物シーケンス比較アルゴリズム

A biological sequence comparison algorithm using quantum computers ( http://arxiv.org/abs/2303.13608v4 )

ライセンス: Link先を確認
B\"usra K\"osoglu-Kind, Robert Loredo, Michele Grossi, Christian Bernecker, Jody M Burks, Rudiger Buchkremer(参考訳) 遺伝情報は、数千から数十億の文字で表されるヌクレオチドの線形配列に符号化される。 変異はDNAまたはRNAヌクレオチド配列の変化を指す。 したがって、突然変異検出は生物学や医学のあらゆる分野において不可欠である。 病原性増強変異の注意深いモニタリングが不可欠である。 しかし、このサイズの遺伝的配列を分析するには、膨大な量の古典計算能力が必要である。 量子コンピュータ上での視覚の人間の知覚と画像のピクセル表現に着想を得て,これらの手法をペアワイズシーケンス解析に活用した。 この手法は古典的アプローチよりも潜在的に有利であり、遺伝子配列の変異やその他の修正を特定するためにさらに応用することができる。 本稿では,ヌクレオチド間の類似度を決定するために,類似度スコアを算出した量子コンピュータ上で2つのゲノム配列間の類似度を表示・解析する手法を提案する。

Genetic information is encoded in a linear sequence of nucleotides, represented by letters ranging from thousands to billions. Mutations refer to changes in the DNA or RNA nucleotide sequence. Thus, mutation detection is vital in all areas of biology and medicine. Careful monitoring of virulence-enhancing mutations is essential. However, an enormous amount of classical computing power is required to analyze genetic sequences of this size. Inspired by human perception of vision and pixel representation of images on quantum computers, we leverage these techniques to implement a pairwise sequence analysis. The methodology has a potential advantage over classical approaches and can be further applied to identify mutations and other modifications in genetic sequences. We present a method to display and analyze the similarity between two genome sequences on a quantum computer where a similarity score is calculated to determine the similarity between nucleotides.
翻訳日:2023-04-07 16:47:13 公開日:2023-04-06
# RNNの復帰: 可逆文埋め込みのための残差リカレントネットワーク

Return of the RNN: Residual Recurrent Networks for Invertible Sentence Embeddings ( http://arxiv.org/abs/2303.13570v2 )

ライセンス: Link先を確認
Jeremy Wilkerson(参考訳) 本研究では,教師なし符号化タスクで訓練された残差再帰ネットワークを用いた逆行文埋め込みの新しいモデルを提案する。 ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。 このモデルはADAMオプティマイザによる高精度かつ高速なトレーニングを実現しており、LSTMや2階最適化などのメモリユニットを必要とすることが大きな発見である。 残差接続を導入し,不正確な単語に対してのみ勾配を計算する「マッチドロップ」手法を導入する。 提案手法は,高品質な文埋め込みを必要とするニューラルネットワークシステムにおいて,自然言語処理への応用の可能性を示す。

This study presents a novel model for invertible sentence embeddings using a residual recurrent network trained on an unsupervised encoding task. Rather than the probabilistic outputs common to neural machine translation models, our approach employs a regression-based output layer to reconstruct the input sequence's word vectors. The model achieves high accuracy and fast training with the ADAM optimizer, a significant finding given that RNNs typically require memory units, such as LSTMs, or second-order optimization methods. We incorporate residual connections and introduce a "match drop" technique, where gradients are calculated only for incorrect words. Our approach demonstrates potential for various natural language processing applications, particularly in neural network-based systems that require high-quality sentence embeddings.
翻訳日:2023-04-07 16:47:00 公開日:2023-04-06
# 時間データからの因果発見 : 概観と新たな展望

Causal Discovery from Temporal Data: An Overview and New Perspectives ( http://arxiv.org/abs/2303.10112v2 )

ライセンス: Link先を確認
Chang Gong, Di Yao, Chuzhe Zhang, Wenbin Li and Jingping Bi(参考訳) 複雑なシステムの時系列観測を表す時間データは、常に典型的なデータ構造であり、産業、医療、金融など多くの領域で広く利用されている。 このタイプのデータを分析することは、様々なアプリケーションにとって非常に価値がある。 このように,過去数十年間,分類,クラスタリング,予測といった時間的データ分析タスクが提案されてきた。 その中でも,時間的データから因果関係を学習する因果発見は興味深いが重要な課題であり,研究の注目を集めている。 既存のカジュアルな発見作業は、時間データの校正、多変量時系列のカジュアルな発見、イベントシークエンスなカジュアルな発見の2つの高い相関カテゴリに分けることができる。 しかしながら、以前の調査のほとんどは、時系列のカジュアルな発見のみに焦点を当てており、第2のカテゴリを無視している。 本稿では,2つのカテゴリ間の相関関係を定義し,既存のソリューションの体系的概要を提供する。 さらに,公開データセット,評価指標,時間的データのカジュアルな発見のための新たな視点を提供する。

Temporal data, representing chronological observations of complex systems, has always been a typical data structure that can be widely generated by many domains, such as industry, medicine and finance. Analyzing this type of data is extremely valuable for various applications. Thus, different temporal data analysis tasks, eg, classification, clustering and prediction, have been proposed in the past decades. Among them, causal discovery, learning the causal relations from temporal data, is considered an interesting yet critical task and has attracted much research attention. Existing casual discovery works can be divided into two highly correlated categories according to whether the temporal data is calibrated, ie, multivariate time series casual discovery, and event sequence casual discovery. However, most previous surveys are only focused on the time series casual discovery and ignore the second category. In this paper, we specify the correlation between the two categories and provide a systematical overview of existing solutions. Furthermore, we provide public datasets, evaluation metrics and new perspectives for temporal data casual discovery.
翻訳日:2023-04-07 16:46:29 公開日:2023-04-06
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索

Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v2 )

ライセンス: Link先を確認
Walid Hariri(参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。 これらのモデルのうち、chatgpt(chat generative pre-trained transformer)はopenaiによって開発されており、広く採用されている強力なツールである。 ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。 これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応できる能力に起因する。 その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。 しかし、chatgptにはバイアスのある応答を発生させる傾向や有害な言語パターンを持続する可能性など、制限もある。 この記事では、ChatGPTとその応用、利点、限界について概観する。 さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。 最後に、人工知能とそのビジョンおよびnlpドメインへの影響について、迅速なエンジニアリング技術への洞察を提供することにより、現在進行中の議論に寄与する。

Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques.
翻訳日:2023-04-07 16:39:55 公開日:2023-04-06
# 統合失調症診断と側方化解析のための時間的動的同期機能脳ネットワーク

Temporal Dynamic Synchronous Functional Brain Network for Schizophrenia Diagnosis and Lateralization Analysis ( http://arxiv.org/abs/2304.01347v2 )

ライセンス: Link先を確認
Cheng Zhu, Ying Tan, Shuqi Yang, Jiaqing Miao, Jiayi Zhu, Huan Huang, Dezhong Yao, and Cheng Luo(参考訳) 利用可能な証拠は、動的機能接続(dfc)は静止状態脳機能磁気共鳴画像(rs-fmri)データにおいて脳活動の時間的異常を捉えることができ、統合失調症(sz)患者の脳活動異常のメカニズムを明らかにするのに自然な利点があることを示唆している。 そこで、時間的脳カテゴリグラフ畳み込みネットワーク(temporal-bcgcn)と呼ばれる高度な動的脳ネットワーク解析モデルを用いた。 まず、動的な同期機能を構築するために、ユニークな動的脳ネットワーク解析モジュールdsf-brainnetが設計された。 その後、特徴の同期時間特性に基づいて、革命的グラフ畳み込み法であるTemporalConvが提案された。 最後に, RS-fMRIデータに基づく深層学習における最初のモジュール状異常半球側方化試験ツール, CategoryPoolを提案する。 この研究はCOBREとUCLAのデータセットで検証され、それぞれ83.62%と89.71%の平均精度を達成した。 アブレーションの結果は,従来のエッジ特徴グラフ畳み込みアプローチに対するTemporalConvの利点と,古典的なグラフプーリングアプローチに対するCataggoryPoolの改善を示す。 本研究は,SZの右半球より左半球の低次知覚系と高次ネットワーク領域が高度に機能し,SZの左内側上前頭回の重要性を再確認した。 私たちのコアコードは、https://github.com/swfen/Temporal-BCGCN.comで利用可能です。

The available evidence suggests that dynamic functional connectivity (dFC) can capture time-varying abnormalities in brain activity in resting-state cerebral functional magnetic resonance imaging (rs-fMRI) data and has a natural advantage in uncovering mechanisms of abnormal brain activity in schizophrenia(SZ) patients. Hence, an advanced dynamic brain network analysis model called the temporal brain category graph convolutional network (Temporal-BCGCN) was employed. Firstly, a unique dynamic brain network analysis module, DSF-BrainNet, was designed to construct dynamic synchronization features. Subsequently, a revolutionary graph convolution method, TemporalConv, was proposed, based on the synchronous temporal properties of feature. Finally, the first modular abnormal hemispherical lateralization test tool in deep learning based on rs-fMRI data, named CategoryPool, was proposed. This study was validated on COBRE and UCLA datasets and achieved 83.62% and 89.71% average accuracies, respectively, outperforming the baseline model and other state-of-the-art methods. The ablation results also demonstrate the advantages of TemporalConv over the traditional edge feature graph convolution approach and the improvement of CategoryPool over the classical graph pooling approach. Interestingly, this study showed that the lower order perceptual system and higher order network regions in the left hemisphere are more severely dysfunctional than in the right hemisphere in SZ and reaffirms the importance of the left medial superior frontal gyrus in SZ. Our core code is available at: https://github.com/swfen/Temporal-BCGCN.
翻訳日:2023-04-07 16:39:33 公開日:2023-04-06
# 先導的知識による高速対人訓練の改善

Improving Fast Adversarial Training with Prior-Guided Knowledge ( http://arxiv.org/abs/2304.00202v2 )

ライセンス: Link先を確認
Xiaojun Jia, Yong Zhang, Xingxing Wei, Baoyuan Wu, Ke Ma, Jue Wang, and Xiaochun Cao(参考訳) 高速対人訓練(FAT)は、堅牢性を改善するための効率的な方法である。 しかし、オリジナルのFATは破滅的なオーバーフィッティングに悩まされ、数回の訓練の後に劇的に、突然頑丈さを低下させる。 オーバーフィッティングを防ぐために様々なFAT型が提案されているが、訓練コストが高い。 本稿では,標準的な対人訓練のトレーニングプロセスとFATを比較し,対人的事例品質と破滅的オーバーフィッティングの関係について検討する。 敵例の攻撃成功率が悪化すると,破滅的なオーバーフィッティングが発生することがわかった。 そこで本研究では, 学習コストを増すことなく, 実例の質を向上し, 過剰フィッティングを防止するために, 事前指示による正の逆初期化を提案する。 この初期化は、歴史学習過程からの高品質な逆転摂動を用いて生成される。 提案した初期化の理論解析を行い,損失関数の滑らかさを高める事前誘導正規化法を提案する。 さらに、異なる減衰率を用いて、過去のモデルの異なるモデル重みを平均化する事前誘導型アンサンブルFAT法を設計する。 提案手法はFGSM-PGKと呼ばれ,過去の訓練過程において得られた事前指導知識,すなわち事前指導初期化とモデル重み付けを組み立てる。 提案手法の優位性を示す4つのデータセットの評価を行った。

Fast adversarial training (FAT) is an efficient method to improve robustness. However, the original FAT suffers from catastrophic overfitting, which dramatically and suddenly reduces robustness after a few training epochs. Although various FAT variants have been proposed to prevent overfitting, they require high training costs. In this paper, we investigate the relationship between adversarial example quality and catastrophic overfitting by comparing the training processes of standard adversarial training and FAT. We find that catastrophic overfitting occurs when the attack success rate of adversarial examples becomes worse. Based on this observation, we propose a positive prior-guided adversarial initialization to prevent overfitting by improving adversarial example quality without extra training costs. This initialization is generated by using high-quality adversarial perturbations from the historical training process. We provide theoretical analysis for the proposed initialization and propose a prior-guided regularization method that boosts the smoothness of the loss function. Additionally, we design a prior-guided ensemble FAT method that averages the different model weights of historical models using different decay rates. Our proposed method, called FGSM-PGK, assembles the prior-guided knowledge, i.e., the prior-guided initialization and model weights, acquired during the historical training process. Evaluations of four datasets demonstrate the superiority of the proposed method.
翻訳日:2023-04-07 16:38:42 公開日:2023-04-06
# 直感的物理による3次元ポーズ推定

3D Human Pose Estimation via Intuitive Physics ( http://arxiv.org/abs/2303.18246v2 )

ライセンス: Link先を確認
Shashank Tripathi, Lea M\"uller, Chun-Hao P. Huang, Omid Taheri, Michael J. Black, Dimitrios Tzionas(参考訳) 画像から3D人間を推定すると、しばしば床に傾いたり、浮いたり、突っ込んだりする不明瞭な体が生まれる。 このような方法は、通常、身体がシーンによって支えられているという事実を無視する。 物理エンジンは物理的実用性を強制するために使用できるが、それらは微分可能ではなく、非現実的なプロキシボディに依存しており、既存の最適化や学習フレームワークへの統合が困難である。 対照的に,我々はシーンと相互作用する3d smpl 体から推測できる新しい直観的物理学(ip)用語を利用する。 生体力学に触発されて、体上の圧力ヒートマップ、熱マップから圧力センター(CoP)、SMPLボディの質量センター(CoM)を推定する。 そこで我々は, カラー画像から3次元体を「安定」な構成で推定するIPMANを開発し, プラウシブルフロアコンタクトの促進とCoPとCoMの重なり合いを図った。 我々のIP用語は直感的で、実装が容易で、高速に計算でき、微分可能で、既存の最適化と回帰手法に統合できます。 我々は、標準データセット上のIPMANと、同期したマルチビュー画像、複雑なポーズ、ボディーフロア接触、CoM、プレッシャーを持つ地上3Dボディを備えた新しいデータセットであるMoYoを評価した。 ipmanは、静的なポーズの精度を改善しながら、ダイナミックなポーズを傷つけることなく、最先端の技術よりも、より説得力のある結果を生み出す。 コードとデータはhttps://ipman.is.tue.mpg.deで研究することができる。

Estimating 3D humans from images often produces implausible bodies that lean, float, or penetrate the floor. Such methods ignore the fact that bodies are typically supported by the scene. A physics engine can be used to enforce physical plausibility, but these are not differentiable, rely on unrealistic proxy bodies, and are difficult to integrate into existing optimization and learning frameworks. In contrast, we exploit novel intuitive-physics (IP) terms that can be inferred from a 3D SMPL body interacting with the scene. Inspired by biomechanics, we infer the pressure heatmap on the body, the Center of Pressure (CoP) from the heatmap, and the SMPL body's Center of Mass (CoM). With these, we develop IPMAN, to estimate a 3D body from a color image in a "stable" configuration by encouraging plausible floor contact and overlapping CoP and CoM. Our IP terms are intuitive, easy to implement, fast to compute, differentiable, and can be integrated into existing optimization and regression methods. We evaluate IPMAN on standard datasets and MoYo, a new dataset with synchronized multi-view images, ground-truth 3D bodies with complex poses, body-floor contact, CoM and pressure. IPMAN produces more plausible results than the state of the art, improving accuracy for static poses, while not hurting dynamic ones. Code and data are available for research at https://ipman.is.tue.mpg.de.
翻訳日:2023-04-07 16:38:15 公開日:2023-04-06
# リダイレクトウォーキングによるフル没入型マルチユーザーバーチャルリアリティの予測コンテキスト認識

Predictive Context-Awareness for Full-Immersive Multiuser Virtual Reality with Redirected Walking ( http://arxiv.org/abs/2303.17907v2 )

ライセンス: Link先を確認
Filip Lemic, Jakob Struye, Thomas Van Onsem, Jeroen Famaey, Xavier Costa Perez(参考訳) 仮想現実(VR)技術の進歩は、没入性の向上、マルチユーザバーチャルエクスペリエンス(VE)のサポート、ユーザがリダイレクトウォーキング(RDW)を通じて専用のVRセットアップに制限されたまま、VE内で自由に移動できるようにすることに焦点を当てている。 極端なデータレートとレイテンシの要件を満たすため、将来のVRシステムは、ビームフォーミングとビームステアリングによる送信と受信の両方で高い指向性通信を利用するミリ波(mmWave)周波数で動作する無線ネットワークインフラストラクチャをサポートする必要がある。 本稿では,送信機と受信機側のビームフォーミングとビームステアリングを最適化するための予測文脈認識手法を提案する。 リダイレクトウォーキング(rdw)によるマルチユーザvrセットアップにおけるユーザの短期的横動きを予測することにより、送信側ビームフォーミングとビームステアリングを、ユーザの方向の視線(los)「トラッキング」により最適化することができる。 同時に、範囲の柔軟性向上のために、受信側ビームフォーミングに短期方向移動の予測を利用することができる。 これら2つのコンテキスト情報インスタンスの予測における2つのオープン問題を対象としています。 一 RDWによるマルチユーザーVR設定における横動きの予測及び 二 方位運動予測器の訓練のための合成頭部回転データセットの作成 実験の結果,long short-term memory (lstm) ネットワークは側方運動の予測に有望な精度を発揮でき,vesによる文脈認識はこの精度をさらに向上させることがわかった。 さらに, 配向データ生成のためのTimeGANに基づく手法により, 実験により得られたデータと密に一致した合成サンプルを作成できることを示す。

The advancement of Virtual Reality (VR) technology is focused on improving its immersiveness, supporting multiuser Virtual Experiences (VEs), and enabling the users to move freely within their VEs while still being confined within specialized VR setups through Redirected Walking (RDW). To meet their extreme data-rate and latency requirements, future VR systems will require supporting wireless networking infrastructures operating in millimeter Wave (mmWave) frequencies that leverage highly directional communication in both transmission and reception through beamforming and beamsteering. We propose the use of predictive context-awareness to optimize transmitter and receiver-side beamforming and beamsteering. By predicting users' short-term lateral movements in multiuser VR setups with Redirected Walking (RDW), transmitter-side beamforming and beamsteering can be optimized through Line-of-Sight (LoS) "tracking" in the users' directions. At the same time, predictions of short-term orientational movements can be utilized for receiver-side beamforming for coverage flexibility enhancements. We target two open problems in predicting these two context information instances: i) predicting lateral movements in multiuser VR settings with RDW, and ii) generating synthetic head rotation datasets for training orientational movements predictors. Our experimental results demonstrate that Long Short-Term Memory (LSTM) networks feature promising accuracy in predicting lateral movements, and context-awareness stemming from VEs further enhances this accuracy. Additionally, we show that a TimeGAN-based approach for orientational data generation can create synthetic samples that closely match experimentally obtained ones.
翻訳日:2023-04-07 16:37:50 公開日:2023-04-06
# GPT検出器はイギリス生まれでない作家に偏っている

GPT detectors are biased against non-native English writers ( http://arxiv.org/abs/2304.02819v1 )

ライセンス: Link先を確認
Weixin Liang, Mert Yuksekgonul, Yining Mao, Eric Wu, James Zou(参考訳) 生成言語モデルが急速に普及したことで、デジタルコミュニケーションが大幅に進歩し、同時にAI生成コンテンツの誤用に関する懸念も高まっている。 AIと人為的なコンテンツとを区別する多くの検出方法が提案されているが、これらの検出器の公正性と堅牢性は未発見のままである。 本研究では、ネイティブおよび非ネイティブな英語作家の筆記サンプルを用いて、広く使われているGPT検出器の性能を評価する。 これらの検出器は、非ネイティブな英語の筆記サンプルをAI生成と誤分類しているのに対し、ネイティブな筆記サンプルは正確に識別されている。 さらに, 単純なプロンプト戦略は, このバイアスを軽減するだけでなく, GPT検出器を効果的に回避できることを示す。 以上の結果から,chatgptコンテンツ検出器を配備することの倫理的意義について,特に非ネイティブ英語話者を不注意にペナルティを課したり,世界的談話から除外したりする場合に,より広範な議論が求められている。

The rapid adoption of generative language models has brought about substantial advancements in digital communication, while simultaneously raising concerns regarding the potential misuse of AI-generated content. Although numerous detection methods have been proposed to differentiate between AI and human-generated content, the fairness and robustness of these detectors remain underexplored. In this study, we evaluate the performance of several widely-used GPT detectors using writing samples from native and non-native English writers. Our findings reveal that these detectors consistently misclassify non-native English writing samples as AI-generated, whereas native writing samples are accurately identified. Furthermore, we demonstrate that simple prompting strategies can not only mitigate this bias but also effectively bypass GPT detectors, suggesting that GPT detectors may unintentionally penalize writers with constrained linguistic expressions. Our results call for a broader conversation about the ethical implications of deploying ChatGPT content detectors and caution against their use in evaluative or educational settings, particularly when they may inadvertently penalize or exclude non-native English speakers from the global discourse.
翻訳日:2023-04-07 15:44:59 公開日:2023-04-06
# デスクトップシナリオのための4次元リアルタイム顔画像パイプライン

4D Agnostic Real-Time Facial Animation Pipeline for Desktop Scenarios ( http://arxiv.org/abs/2304.02814v1 )

ライセンス: Link先を確認
Wei Chen and HongWei Xu and Jelo Wang(参考訳) アニメーターがデスクトップ上で使用するのに適した,高精度なリアルタイム顔アニメーションパイプラインを提案する。 このパイプラインはFACEGOODのAvatary\footnote{https://www.avatary.com/}ソフトウェアでローンチされ、アニメーターの生産性が向上する。 このパイプラインは、プロのヘッドマウント顔認証ソリューションと異なり、高精度なリアルタイム顔認証を実現するために、デスクに消費者向けの3Dカメラを使用する必要がある。 このシステムにより、アニメーターは、従来の顔キャプチャーソリューションのコストと複雑さを低減しつつ、簡単かつ高速に高品質な顔アニメーションを作成できる。 我々のアプローチは、エンターテイメント業界における顔アニメーションのやり方に革命をもたらす可能性がある。

We present a high-precision real-time facial animation pipeline suitable for animators to use on their desktops. This pipeline is about to be launched in FACEGOOD's Avatary\footnote{https://www.avatary.com/} software, which will accelerate animators' productivity. The pipeline differs from professional head-mounted facial capture solutions in that it only requires the use of a consumer-grade 3D camera on the desk to achieve high-precision real-time facial capture. The system enables animators to create high-quality facial animations with ease and speed, while reducing the cost and complexity of traditional facial capture solutions. Our approach has the potential to revolutionize the way facial animation is done in the entertainment industry.
翻訳日:2023-04-07 15:44:39 公開日:2023-04-06
# 学習可能なサイバー物理システムの因果修復

Causal Repair of Learning-enabled Cyber-physical Systems ( http://arxiv.org/abs/2304.02813v1 )

ライセンス: Link先を確認
Pengyuan Lu and Ivan Ruchkin and Matthew Cleaveland and Oleg Sokolsky and Insup Lee(参考訳) 実際の因果関係のモデルはドメイン知識を利用して、結果を引き起こす事象の説得力のある診断を生成する。 これらのモデルを、学習可能なコンポーネント(LEC)によるサイバー物理システム(CPS)のランタイムプロパティ違反の診断と修復に応用することが約束されている。 しかし、LECの多様性と複雑さが高いことから、ドメイン知識(例えば、CPSダイナミクス)を拡張性のある実際の因果関係モデルでエンコードすることは、有用な修復提案を生成するのが困難である。 本稿では,LECの入出力行動に対する因果診断に焦点をあてる。 具体的には、LECのI/O動作のどのサブセットがプロパティ違反の実際の原因であるかを特定することを目的とする。 重要な副産物は、特定された問題行動を修正することでランタイムプロパティを修復するlecの偽物バージョンである。 この知見に基づいて,(1)構成およびhalpern-pearl因果関係モデルの設計を行い,(2)要素のi/o行動に対する特性結果の依存性を反映し,(2)実際の原因を探索し,それに対応する修復を行う。 実際の原因が見つかった場合、システムは修復されることが保証されます。そうでなければ、分析中のlecがプロパティの侵害を起こさないという高い確率的信頼が得られます。 提案手法は,標準のOpenAI Gymベンチマークで学習したコントローラの修復に成功したことを示す。

Models of actual causality leverage domain knowledge to generate convincing diagnoses of events that caused an outcome. It is promising to apply these models to diagnose and repair run-time property violations in cyber-physical systems (CPS) with learning-enabled components (LEC). However, given the high diversity and complexity of LECs, it is challenging to encode domain knowledge (e.g., the CPS dynamics) in a scalable actual causality model that could generate useful repair suggestions. In this paper, we focus causal diagnosis on the input/output behaviors of LECs. Specifically, we aim to identify which subset of I/O behaviors of the LEC is an actual cause for a property violation. An important by-product is a counterfactual version of the LEC that repairs the run-time property by fixing the identified problematic behaviors. Based on this insights, we design a two-step diagnostic pipeline: (1) construct and Halpern-Pearl causality model that reflects the dependency of property outcome on the component's I/O behaviors, and (2) perform a search for an actual cause and corresponding repair on the model. We prove that our pipeline has the following guarantee: if an actual cause is found, the system is guaranteed to be repaired; otherwise, we have high probabilistic confidence that the LEC under analysis did not cause the property violation. We demonstrate that our approach successfully repairs learned controllers on a standard OpenAI Gym benchmark.
翻訳日:2023-04-07 15:44:24 公開日:2023-04-06
# 対話評価のための実用的多様性

Pragmatically Appropriate Diversity for Dialogue Evaluation ( http://arxiv.org/abs/2304.02812v1 )

ライセンス: Link先を確認
Katherine Stasaski and Marti A. Hearst(参考訳) 言語的プラグマティクスは、会話の基盤となる音声行為は、会話の各ターンで適切な応答の種類を制限することができると述べている。 対話応答を生成するとき、神経対話エージェントは多様な応答を生成するのに苦労する。 現在、対話の多様性は自動メトリクスを用いて評価されているが、基礎となる音声行動はこれらの指標を知らせていない。 これを解決するために,会話が複数の多様な応答を生成・制約する範囲として定義される,実用的に適切な多様性の概念を提案する。 人間の生成したマルチレスポンスデータセットを用いて、音声が次の応答の集合の多様性を示す信号を提供するという仮説に対する重要な支持を得る。 そこで本研究では,対話が多種多様な反応の創造を刺激する程度を,創造的作家が予測する新しい人間評価タスクを提案する。 我々の研究は、著者の判断が実用上適切な会話の多様性と一致することを見出している。 本研究は,多様性指標の期待値が発話行動によって異なることを示唆している。

Linguistic pragmatics state that a conversation's underlying speech acts can constrain the type of response which is appropriate at each turn in the conversation. When generating dialogue responses, neural dialogue agents struggle to produce diverse responses. Currently, dialogue diversity is assessed using automatic metrics, but the underlying speech acts do not inform these metrics. To remedy this, we propose the notion of Pragmatically Appropriate Diversity, defined as the extent to which a conversation creates and constrains the creation of multiple diverse responses. Using a human-created multi-response dataset, we find significant support for the hypothesis that speech acts provide a signal for the diversity of the set of next responses. Building on this result, we propose a new human evaluation task where creative writers predict the extent to which conversations inspire the creation of multiple diverse responses. Our studies find that writers' judgments align with the Pragmatically Appropriate Diversity of conversations. Our work suggests that expectations for diversity metric scores should vary depending on the speech act.
翻訳日:2023-04-07 15:44:02 公開日:2023-04-06
# hompinns:homotopy physics-informed neural networksによる多重解を持つ非線形微分方程式の逆問題を解く

HomPINNs: homotopy physics-informed neural networks for solving the inverse problems of nonlinear differential equations with multiple solutions ( http://arxiv.org/abs/2304.02811v1 )

ライセンス: Link先を確認
Haoyang Zheng, Yao Huang, Ziyang Huang, Wenrui Hao, Guang Lin(参考訳) 解空間における非特異性、対称性、分岐から生じる複素挙動のため、複数の解で非線形微分方程式(DE)の逆問題を解くことは難しい課題である。 この問題を解決するために,ホモトピー連続性とニューラルネットワーク(NN)を利用した逆問題の解法であるホモトピー物理学情報ニューラルネットワーク(HomPINN)を提案する。 提案するフレームワークは、NNを使用して既知の観測を同時に近似し、DESの制約に従うことから始まる。 ホモトピー継続法を用いて、近似は観測を追跡して複数の解を特定し、逆問題を解く。 実験では, 提案手法の性能を1次元DESで検証し, 2次元グレイ・スコットシミュレーションに応用する。 提案手法はスケーラブルで適応可能であり,複数の解と未知パラメータを用いたDESの解法として有効であることを示す。 さらに、複雑なシステムのモデリングや物理学、化学、生物学などの逆問題を解くなど、科学計算における様々な応用において有意な可能性を秘めている。

Due to the complex behavior arising from non-uniqueness, symmetry, and bifurcations in the solution space, solving inverse problems of nonlinear differential equations (DEs) with multiple solutions is a challenging task. To address this issue, we propose homotopy physics-informed neural networks (HomPINNs), a novel framework that leverages homotopy continuation and neural networks (NNs) to solve inverse problems. The proposed framework begins with the use of a NN to simultaneously approximate known observations and conform to the constraints of DEs. By utilizing the homotopy continuation method, the approximation traces the observations to identify multiple solutions and solve the inverse problem. The experiments involve testing the performance of the proposed method on one-dimensional DEs and applying it to solve a two-dimensional Gray-Scott simulation. Our findings demonstrate that the proposed method is scalable and adaptable, providing an effective solution for solving DEs with multiple solutions and unknown parameters. Moreover, it has significant potential for various applications in scientific computing, such as modeling complex systems and solving inverse problems in physics, chemistry, biology, etc.
翻訳日:2023-04-07 15:43:47 公開日:2023-04-06
# エキスパートのグラフ混合: 明示的な多様性モデリングによる大規模グラフの学習

Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit Diversity Modeling ( http://arxiv.org/abs/2304.02806v1 )

ライセンス: Link先を確認
Haotao Wang, Ziyu Jiang, Yan Han, Zhangyang Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータの学習に広く応用されている。 しかし、実世界のグラフは一般的に様々なグラフ構造を示し、異質なノードやエッジを含む。 さらに, GNNの一般化能力を高めるために, グラフの強化や大規模事前学習を行うことにより, 学習グラフ構造の多様性を高めることが一般的になっている。 したがって、GNNは多様なグラフ構造を同時にモデル化することが不可欠である。 しかし、GNNモデルの能力の増大は、推論コストの上昇と、GNNのトレーニング性に関する悪名高い問題に悩まされる。 本稿では,gnnにmoe(mixed-of-expert)概念を導入し,計算オーバーヘッドを伴わずに,トレーニンググラフ構造の多様性に対応する能力を高めることを目的とする。 新しいグラフミックス・オブ・エキスパート(gmoe)モデルにより、グラフの各ノードが最適な \textit{information aggregate experts} を動的に選択できる。 これらの専門家は、トレーニングセット内のグラフ構造の異なるサブグループをモデル化するように訓練される。 さらにgmoeには、アグリゲーションホップサイズが異なる情報アグリゲーション専門家が含まれており、より大きなホップサイズを持つ専門家は、より広い範囲の情報をキャプチャすることに特化したものだ。 GMoEの有効性は、OGBベンチマークにおける多種多様なグラフ、ノード、リンク予測タスクの実験結果によって検証される。 例えば、ROC-AUCをogbg-molhivで$1.81\%、ogbg-molbbbpで$1.40\%、非MoEベースラインと比較して拡張する。 私たちのコードはhttps://github.com/VITA-Group/Graph-Mixture-of-Expertsで公開されています。

Graph neural networks (GNNs) have been widely applied to learning over graph data. Yet, real-world graphs commonly exhibit diverse graph structures and contain heterogeneous nodes and edges. Moreover, to enhance the generalization ability of GNNs, it has become common practice to further increase the diversity of training graph structures by incorporating graph augmentations and/or performing large-scale pre-training on more graphs. Therefore, it becomes essential for a GNN to simultaneously model diverse graph structures. Yet, naively increasing the GNN model capacity will suffer from both higher inference costs and the notorious trainability issue of GNNs. This paper introduces the Mixture-of-Expert (MoE) idea to GNNs, aiming to enhance their ability to accommodate the diversity of training graph structures, without incurring computational overheads. Our new Graph Mixture of Expert (GMoE) model enables each node in the graph to dynamically select its own optimal \textit{information aggregation experts}. These experts are trained to model different subgroups of graph structures in the training set. Additionally, GMoE includes information aggregation experts with varying aggregation hop sizes, where the experts with larger hop sizes are specialized in capturing information over longer ranges. The effectiveness of GMoE is verified through experimental results on a large variety of graph, node, and link prediction tasks in the OGB benchmark. For instance, it enhances ROC-AUC by $1.81\%$ in ogbg-molhiv and by $1.40\%$ in ogbg-molbbbp, as compared to the non-MoE baselines. Our code is available at https://github.com/VITA-Group/Graph-Mixture-of-Experts.
翻訳日:2023-04-07 15:43:25 公開日:2023-04-06
# 変分模倣学習によるエンドツーエンドマニピュレータ書字計画

End-to-end Manipulator Calligraphy Planning via Variational Imitation Learning ( http://arxiv.org/abs/2304.02801v1 )

ライセンス: Link先を確認
Fangping Xie, Pierre Le Meur, Charith Fernando(参考訳) デモからの計画は、ディープニューラルネットワークの進歩によって有望な結果を示している。 現実世界で最も人気のあるアプリケーションの一つは、ロボットマニピュレータを使った自動手書きである。 古典的には2次元問題として単純化されている。 この表現は初歩的な図面に向いているが、日本の書道や複雑な芸術作品には不十分で、ペンの向きがユーザ表現の一部となっている。 本研究では,3次元の軌跡表現とペン先回転を用いた日本語書跡の自動計画に着目し,画像とポーズデータを組み合わせて専門家によるデモンストレーションから学習する深層模倣学習ニューラルネットワークを提案する。 このネットワークは、可変オートエンコーダ、双方向LSTM、マルチ層パーセプトロン(MLP)の組み合わせで構成されている。 実験は漸進的に行われ,提案手法が実世界のロボットの作業の完了に成功し,模倣学習における分散シフト問題を克服していることを示す。 ソースコードとデータセットは公開されます。

Planning from demonstrations has shown promising results with the advances of deep neural networks. One of the most popular real-world applications is automated handwriting using a robotic manipulator. Classically it is simplified as a two-dimension problem. This representation is suitable for elementary drawings, but it is not sufficient for Japanese calligraphy or complex work of art where the orientation of a pen is part of the user expression. In this study, we focus on automated planning of Japanese calligraphy using a three-dimension representation of the trajectory as well as the rotation of the pen tip, and propose a novel deep imitation learning neural network that learns from expert demonstrations through a combination of images and pose data. The network consists of a combination of variational auto-encoder, bi-directional LSTM, and Multi-Layer Perceptron (MLP). Experiments are conducted in a progressive way, and results demonstrate that the proposed approach is successful in completion of tasks for real-world robots, overcoming the distribution shift problem in imitation learning. The source code and dataset will be public.
翻訳日:2023-04-07 15:42:57 公開日:2023-04-06
# 集積型低周波機械共振器のアクティブフィードバック量子制御

Active-feedback quantum control of an integrated, low-frequency mechanical resonator ( http://arxiv.org/abs/2304.02799v1 )

ライセンス: Link先を確認
Jingkun Guo, Jin Chang, Xiong Yao, Simon Gr\"oblacher(参考訳) 量子力学によってその運動エネルギーが制限された状態で巨大なメカニカル共振器を準備することは、基礎物理学をマクロシステムで研究するための有望なプラットフォームを提供し、精密センシングを含む様々な応用を可能にする。 過去10年にわたって、このような地中冷却システムの実証がいくつか行われてきたが、特にサイドバンド分解空洞光学では、熱浴からの加熱速度を克服する多くのシステムが大きな課題となっている。 対照的に、サイドバンド未解決限界における光力学系は、システムの光学特性の緩和された要件のため、より容易に実現できる。 このようなシステムでは, 計測精度と測定結果によるバックアクションとの相関により, 実時間実時間制御方式を実装でき, 実現可能なエネルギーは最終的に制限される。 本稿では, ピック・アンド・プレース法を用いて作製した全集積光機械装置において, サイドバンド未解決限界の奥深くで動作し, 測定に基づくフィードバック冷却を実演する。 その結果, 液体ヘリウムで予冷すると0.76, 液体窒素環境で3.5と, 光力学的相互作用が大きく, 熱的デコヒーレンス率が低いことが判明した。 すべての浴室温度に対する重要なサイドバンド非対称性は、機械運動の量子特性を検証する。 本手法とデバイスは、量子限界で直接動作するアプリケーションを検出するのに理想的であり、この方法では光学機械システムの動作を大幅に単純化する。

Preparing a massive mechanical resonator in a state where its motional energy is limited by quantum mechanics provides a promising platform for studying fundamental physics with macroscopic systems and allows to realize a variety of applications, including precise sensing. While over the past decade several demonstrations of such ground-state cooled systems have been achieved, in particular in sideband-resolved cavity optomechanics, for many systems overcoming the heating rate from the thermal bath remains a major challenge. In contrast, optomechanical systems in the sideband-unresolved limit are much easier to realize due to the relaxed requirements on the optical properties of the system. For such a system, a measurement based real-time control scheme can be implemented to reduce its motional energy, and the achievable energy is ultimately limited by the correlation between the measurement precision and the back-action due to the measurement. Here, we demonstrate measurement-based feedback cooling on a fully integrated optomechanical device fabricated using a pick-and-place method, operating deep in the sideband-unresolved limit. With the large optomechanical interaction and a low thermal decoherence rate, we achieve a minimal average phonon occupation of 0.76 when pre-cooled with liquid helium and 3.5 in a liquid nitrogen environment. Significant sideband asymmetry for all bath temperatures verifies the quantum character of the mechanical motion. Our method and device are ideally suited for sensing applications directly operating at the quantum limit and greatly simplifies the operation of an optomechanical system in this regime.
翻訳日:2023-04-07 15:42:40 公開日:2023-04-06
# ペナライズド・ダイバーシティを必要とするソースフリードメイン適応

Source-free Domain Adaptation Requires Penalized Diversity ( http://arxiv.org/abs/2304.02798v1 )

ライセンス: Link先を確認
Laya Rafiee Sevyeri, Ivaxi Sheth, Farhood Farahnak, Alexandre See, Samira Ebrahimi Kahou, Thomas Fevens, Mohammad Havaei(参考訳) ニューラルネットワークは、画像分類などの多くのタスクで人間のようなパフォーマンスを達成することができるが、各モデルの印象的なパフォーマンスは、独自のデータセットに限られている。 ソースフリードメイン適応(SFDA)は、ソースデータがない場合に異なるドメイン間の知識伝達に対処するために導入された。 表現空間の多様性は、様々な困難な領域におけるモデルの適応性にとって不可欠である。 教師なしsfdaでは、多様性はソース上で1つの仮説を学ぶか、共有特徴抽出器で複数の仮説を学ぶことに限られる。 本研究では,異なる特徴抽出器をDBA(Distinct Backbone Architectures)と組み合わせることで,表現の多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。 特徴空間の多様性は増大するが、制約のない相互情報(MI)の最大化は弱い仮説の増幅をもたらす可能性がある。 したがって,弱仮説ペナリゼーション(whp)正則化を緩和戦略として導入する。 本研究は, DBAとWHPの相乗効果を非教師なし領域適応に適用し, 共変量シフトに適用するPinalized Diversity (PD)を提案する。 さらに、ラベル分布シフトのためのMI最大化目標を重み付けしてPDを増強する。 自然, 合成, 医療領域における実験結果から, 分散シフトの違いによるPDの有効性が示された。

While neural networks are capable of achieving human-like performance in many tasks such as image classification, the impressive performance of each model is limited to its own dataset. Source-free domain adaptation (SFDA) was introduced to address knowledge transfer between different domains in the absence of source data, thus, increasing data privacy. Diversity in representation space can be vital to a model`s adaptability in varied and difficult domains. In unsupervised SFDA, the diversity is limited to learning a single hypothesis on the source or learning multiple hypotheses with a shared feature extractor. Motivated by the improved predictive performance of ensembles, we propose a novel unsupervised SFDA algorithm that promotes representational diversity through the use of separate feature extractors with Distinct Backbone Architectures (DBA). Although diversity in feature space is increased, the unconstrained mutual information (MI) maximization may potentially introduce amplification of weak hypotheses. Thus we introduce the Weak Hypothesis Penalization (WHP) regularizer as a mitigation strategy. Our work proposes Penalized Diversity (PD) where the synergy of DBA and WHP is applied to unsupervised source-free domain adaptation for covariate shift. In addition, PD is augmented with a weighted MI maximization objective for label distribution shift. Empirical results on natural, synthetic, and medical domains demonstrate the effectiveness of PD under different distributional shifts.
翻訳日:2023-04-07 15:42:16 公開日:2023-04-06
# delira: 自己教師付き深さ、光、放射場

DeLiRa: Self-Supervised Depth, Light, and Radiance Fields ( http://arxiv.org/abs/2304.02797v1 )

ライセンス: Link先を確認
Vitor Guizilini, Igor Vasiljevic, Jiading Fang, Rares Ambrus, Sergey Zakharov, Vincent Sitzmann, Adrien Gaidon(参考訳) 可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。 しかしながら、標準的なボリュームレンダリングアプローチは、ロボット工学の一般的なシナリオである視点の多様性が限定された場合、縮退したジオメトリと競合する。 本研究では,自動教師付深度推定文献から得られた多視点測光目標をボリュームレンダリングのための幾何正則化器として利用し,追加情報を必要としない新規なビュー合成を著しく改善することを提案する。 この知見に基づいて,一般変換器を用いたシーン幾何の明示的なモデリングを探索し,輝度場と深さ場,光場を共用した潜在符号のセットで学習する。 タスク間で幾何情報を共有することは相互に有益であり,ネットワークの複雑さを増すことなく,シングルタスク学習よりも改善できることを示す。 我々のDeLiRaアーキテクチャは、ScanNetベンチマークの最先端結果を実現し、高品質なボリュームレンダリングと、限られた視点の多様性設定におけるリアルタイムな新規ビューと深度合成を可能にする。

Differentiable volumetric rendering is a powerful paradigm for 3D reconstruction and novel view synthesis. However, standard volume rendering approaches struggle with degenerate geometries in the case of limited viewpoint diversity, a common scenario in robotics applications. In this work, we propose to use the multi-view photometric objective from the self-supervised depth estimation literature as a geometric regularizer for volumetric rendering, significantly improving novel view synthesis without requiring additional information. Building upon this insight, we explore the explicit modeling of scene geometry using a generalist Transformer, jointly learning a radiance field as well as depth and light fields with a set of shared latent codes. We demonstrate that sharing geometric information across tasks is mutually beneficial, leading to improvements over single-task learning without an increase in network complexity. Our DeLiRa architecture achieves state-of-the-art results on the ScanNet benchmark, enabling high quality volumetric rendering as well as real-time novel view and depth synthesis in the limited viewpoint diversity setting.
翻訳日:2023-04-07 15:41:55 公開日:2023-04-06
# 肺結節分類のための縦型マルチモーダルトランスフォーマリン : 画像と潜伏臨床所見の統合

Longitudinal Multimodal Transformer Integrating Imaging and Latent Clinical Signatures From Routine EHRs for Pulmonary Nodule Classification ( http://arxiv.org/abs/2304.02836v1 )

ライセンス: Link先を確認
Thomas Z. Li, John M. Still, Kaiwen Xu, Ho Hin Lee, Leon Y. Cai, Aravind R. Krishnan, Riqiang Gao, Mirza S. Khan, Sanja Antic, Michael Kammer, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman, Thomas A. Lasko(参考訳) 孤立性肺結節(SPN)診断の予測モデルの精度は、電子健康記録(EHRs)などの反復画像と医療コンテキストを取り入れることで大幅に向上することができる。 しかし、画像や診断符号などの臨床上の日常的なモダリティは、縦型マルチモーダル学習の障害となる様々な時間スケールで非同期かつ不規則にサンプリングすることができる。 本研究では,SPN分類のための経時的臨床像とリピート画像を統合したトランスフォーマーに基づくマルチモーダル戦略を提案する。 潜在臨床署名の非教師付き不連続化を行い, 臨床署名表現と胸部ctスキャンから共同学習するために, 時間的スケールドセルフアテンションを活用した。 うちの分類器は,公開データセットからの2,668件のスキャンと,縦型胸部ct,請求コード,薬剤,eersによる検査で1,149名の被験者を対象に事前訓練を行っている。 SPNに挑戦する227名の被験者に対する評価では、縦型マルチモーダルベースライン(0.824 vs 0.752 AUC)に対するAUCの大幅な改善と、横型マルチモーダルシナリオ(0.809 AUC)と縦型イメージオンリーシナリオ(0.741 AUC)に対する改善が示された。 本研究は、トランスフォーマを用いた縦型画像と非画像表現型を共学習する新しいアプローチにより、大きな利点を示す。

The accuracy of predictive models for solitary pulmonary nodule (SPN) diagnosis can be greatly increased by incorporating repeat imaging and medical context, such as electronic health records (EHRs). However, clinically routine modalities such as imaging and diagnostic codes can be asynchronous and irregularly sampled over different time scales which are obstacles to longitudinal multimodal learning. In this work, we propose a transformer-based multimodal strategy to integrate repeat imaging with longitudinal clinical signatures from routinely collected EHRs for SPN classification. We perform unsupervised disentanglement of latent clinical signatures and leverage time-distance scaled self-attention to jointly learn from clinical signatures expressions and chest computed tomography (CT) scans. Our classifier is pretrained on 2,668 scans from a public dataset and 1,149 subjects with longitudinal chest CTs, billing codes, medications, and laboratory tests from EHRs of our home institution. Evaluation on 227 subjects with challenging SPNs revealed a significant AUC improvement over a longitudinal multimodal baseline (0.824 vs 0.752 AUC), as well as improvements over a single cross-section multimodal scenario (0.809 AUC) and a longitudinal imaging-only scenario (0.741 AUC). This work demonstrates significant advantages with a novel approach for co-learning longitudinal imaging and non-imaging phenotypes with transformers.
翻訳日:2023-04-07 15:35:50 公開日:2023-04-06
# gif:インフルエンス機能による一般グラフ学習戦略

GIF: A General Graph Unlearning Strategy via Influence Function ( http://arxiv.org/abs/2304.02835v1 )

ライセンス: Link先を確認
Jiancan Wu, Yi Yang, Yuchun Qian, Yongduo Sui, Xiang Wang, Xiangnan He(参考訳) 社会におけるプライバシーとセキュリティの重視により、訓練されたGNNモデルに対する特定のデータの影響を排除したグラフアンラーニングの問題が注目されている。 しかし、機械学習から最近出現したグラフ学習手法まで、既存の取り組みは、パラダイムのリトレーニングや、接続された隣人間の相互依存を考慮せず、あるいはgnn構造に制約を課さない近似消去を行うかのどちらかである。 本研究では,グラフアンラーニングに適した影響関数を探索し,グラフアンラーニングにおける非ラーニングの有効性と効率を改善する。 まず,多様なグラフアンラーニングタスクであるノード,エッジ,特徴の統一的な問題を定式化する。 そして,グラフアンラーニングにおける従来の影響関数の欠如を認識し,削除データにおける$\epsilon$-mass摂動に応答してパラメータ変化を効率的に正確に推定できるモデルに依存しない非ラーニング手法であるグラフインフルエンス関数(GIF)を考案する。 従来の影響関数の目的を、構造依存による影響のある隣人の損失項を追加することで補うことが目的である。 パラメータ変更のクローズドフォームソリューションに関するさらなる推論は、未学習のメカニズムをよりよく理解する。 代表的なgnnモデル4つとベンチマークデータセット3つについて広範な実験を行い,学習効率,モデルの有用性,学習効率の面での多彩なグラフ学習タスクに対するgifの優位性を正当化する。 我々の実装は \url{https://github.com/wujcan/GIF-torch/} で利用可能です。

With the greater emphasis on privacy and security in our society, the problem of graph unlearning -- revoking the influence of specific data on the trained GNN model, is drawing increasing attention. However, ranging from machine unlearning to recently emerged graph unlearning methods, existing efforts either resort to retraining paradigm, or perform approximate erasure that fails to consider the inter-dependency between connected neighbors or imposes constraints on GNN structure, therefore hard to achieve satisfying performance-complexity trade-offs. In this work, we explore the influence function tailored for graph unlearning, so as to improve the unlearning efficacy and efficiency for graph unlearning. We first present a unified problem formulation of diverse graph unlearning tasks \wrt node, edge, and feature. Then, we recognize the crux to the inability of traditional influence function for graph unlearning, and devise Graph Influence Function (GIF), a model-agnostic unlearning method that can efficiently and accurately estimate parameter changes in response to a $\epsilon$-mass perturbation in deleted data. The idea is to supplement the objective of the traditional influence function with an additional loss term of the influenced neighbors due to the structural dependency. Further deductions on the closed-form solution of parameter changes provide a better understanding of the unlearning mechanism. We conduct extensive experiments on four representative GNN models and three benchmark datasets to justify the superiority of GIF for diverse graph unlearning tasks in terms of unlearning efficacy, model utility, and unlearning efficiency. Our implementations are available at \url{https://github.com/wujcan/GIF-torch/}.
翻訳日:2023-04-07 15:35:20 公開日:2023-04-06
# 勾配解析によるニューラルネットワークのパービューの探索

Probing the Purview of Neural Networks via Gradient Analysis ( http://arxiv.org/abs/2304.02834v1 )

ライセンス: Link先を確認
Jinsol Lee, Charlie Lehman, Mohit Prabhushankar, Ghassan AlRegib(参考訳) ニューラルネットワークのデータ依存キャパシティを分析し、推論中のネットワークの観点から入力の異常を評価する。 データ依存能力の概念は、学習した特徴に代表されるモデルの知識ベースをトレーニングデータから分析することができる。 トレーニングデータと異なる推論サンプルを特徴付けるのに必要な追加能力としてパービューを定義する。 ネットワークのパービューを調べるために、モデルが与えられた入力をより正確に特徴付けるのに必要な変更量を測定するために勾配を利用する。 グラデーションの生成における接地ラベルへの依存をなくすため,複数のカテゴリラベルを組み合わせることで定式化した結合ラベルを導入する。 我々の勾配に基づくアプローチは、学習した特徴で正確に表現できない入力を効果的に区別できることを実証する。 本手法は, 分布外, 敵対的, 腐敗したサンプルを含む異常な入力の検出に応用する。 このアプローチでは、ハイパーパラメータチューニングや追加のデータ処理を必要とせず、aurocスコアの最大2.7%、19.8%、35.6%を上回っている。

We analyze the data-dependent capacity of neural networks and assess anomalies in inputs from the perspective of networks during inference. The notion of data-dependent capacity allows for analyzing the knowledge base of a model populated by learned features from training data. We define purview as the additional capacity necessary to characterize inference samples that differ from the training data. To probe the purview of a network, we utilize gradients to measure the amount of change required for the model to characterize the given inputs more accurately. To eliminate the dependency on ground-truth labels in generating gradients, we introduce confounding labels that are formulated by combining multiple categorical labels. We demonstrate that our gradient-based approach can effectively differentiate inputs that cannot be accurately represented with learned features. We utilize our approach in applications of detecting anomalous inputs, including out-of-distribution, adversarial, and corrupted samples. Our approach requires no hyperparameter tuning or additional data processing and outperforms state-of-the-art methods by up to 2.7%, 19.8%, and 35.6% of AUROC scores, respectively.
翻訳日:2023-04-07 15:34:50 公開日:2023-04-06
# dounseen: ロボット把持のためのゼロショット物体検出

DoUnseen: Zero-Shot Object Detection for Robotic Grasping ( http://arxiv.org/abs/2304.02833v1 )

ライセンス: Link先を確認
Anas Gouda, Moritz Roidl(参考訳) それぞれのオブジェクトが独自のクラスを表す、さまざまなオブジェクトの数をどうやって分割できるのか? 問題をさらに現実的にするために、どうやって再トレーニングせずにクラスを追加して削除できるのか? これは、オブジェクトのデータセットが存在しないロボットアプリケーションや、数千のオブジェクト(例えば物流)を含むアプリケーションの場合で、単一のモデルをトレーニングしてすべてのオブジェクトを学習することは不可能である。 ロボットグルーピングのためのオブジェクトセグメンテーションに関する最近の研究は、クラスレベルのオブジェクトセグメンテーション(例えば、ボックス、カップ、ボトル)、クローズドセット(データセットの特定のオブジェクト、例えばYCBデータセット)、ディープラーニングベースのテンプレートマッチングに焦点を当てている。 この研究では、クラス数が未知で、変更され、オブジェクトの型について事前に知識がないオープンセットに興味があります。 それぞれの特定のオブジェクトを独立したクラスとみなす。 私たちの目標は、トレーニングを必要とせず、オブジェクトのいくつかのイメージをキャプチャするだけで任意のオブジェクトをクラスとして追加できるゼロショットオブジェクト検出器を開発することです。 我々の主なアイデアは、ゼロショット分類器が組み込んだ見えないオブジェクトセグメンテーションネットワークを組み合わせることで、セグメンテーションパイプラインを2つのステップに分割することです。 未知のデータセット上でゼロショットオブジェクト検出器を評価し、それらのデータセット上でトレーニングされたMask R-CNNと比較する。 その結果,環境設定や処理対象によって性能が実用的から不適当に変化することがわかった。 コードは私たちのDoUnseenライブラリリポジトリで利用可能です。

How can we segment varying numbers of objects where each specific object represents its own separate class? To make the problem even more realistic, how can we add and delete classes on the fly without retraining? This is the case of robotic applications where no datasets of the objects exist or application that includes thousands of objects (E.g., in logistics) where it is impossible to train a single model to learn all of the objects. Most current research on object segmentation for robotic grasping focuses on class-level object segmentation (E.g., box, cup, bottle), closed sets (specific objects of a dataset; for example, YCB dataset), or deep learning-based template matching. In this work, we are interested in open sets where the number of classes is unknown, varying, and without pre-knowledge about the objects' types. We consider each specific object as its own separate class. Our goal is to develop a zero-shot object detector that requires no training and can add any object as a class just by capturing a few images of the object. Our main idea is to break the segmentation pipelines into two steps by combining unseen object segmentation networks cascaded by zero-shot classifiers. We evaluate our zero-shot object detector on unseen datasets and compare it to a trained Mask R-CNN on those datasets. The results show that the performance varies from practical to unsuitable depending on the environment setup and the objects being handled. The code is available in our DoUnseen library repository.
翻訳日:2023-04-07 15:34:32 公開日:2023-04-06
# 深部強化学習に基づく車両選択による車両エッジコンピューティングの非同期フェデレーション学習

Deep Reinforcement Learning Based Vehicle Selection for Asynchronous Federated Learning Enabled Vehicular Edge Computing ( http://arxiv.org/abs/2304.02832v1 )

ライセンス: Link先を確認
Qiong Wu, Siyuan Wang, Pingyi Fan, and Qiang Fan(参考訳) 従来の車両ネットワークでは、車両によって生成される計算タスクは通常、処理のためにクラウドにアップロードされる。 しかし、タスクのクラウドへのオフロードは大きな遅延を引き起こすため、車両のデータをエッジエンティティとして処理するために特定の計算能力を持つロードサイドユニット(RSU)を使用して、そのような問題を避け、システム全体の性能を改善するために、車両エッジコンピューティング(VEC)が導入される。 プライバシーとセキュリティの問題から、車両はローカルデータをRSUに直接アップロードすることに消極的であるため、フェデレーションドラーニング(FL)はVECの機械学習タスクにおいて有望な技術となり、車両はローカルデータをRSUに転送する代わりに、ローカルモデルのハイパーパラメーターをアップロードするのみである。 さらに,ローカルデータの大きさや計算能力の相違により,車両のローカルトレーニング時間が異なるため,RSUがローカルモデルを受信した直後にグローバルモデルを更新し,アグリゲーション遅延を低減するために非同期フェデレーション学習(AFL)を採用する。 しかしながら、VECのAFLでは、様々なローカルトレーニング遅延、送信遅延、ローカルデータサイズのために、異なる車両がグローバルモデル更新に異なる影響を与える可能性がある。 また、車両間に悪いノードがある場合、RSUのグローバルアグリゲーション品質に影響を及ぼす。 本稿では,車両網のaflにおけるグローバルモデルの精度を向上させるために,深層強化学習(drl)に基づく車両選択方式を提案する。 本手法では, DRLにおける状態, 行動, 報酬を含むモデルを, 特定の問題に基づいて提示する。 シミュレーションの結果,提案手法は悪いノードを効果的に除去し,グローバルモデルの集約精度を向上させる。

In the traditional vehicular network, computing tasks generated by the vehicles are usually uploaded to the cloud for processing. However, since task offloading toward the cloud will cause a large delay, vehicular edge computing (VEC) is introduced to avoid such a problem and improve the whole system performance, where a roadside unit (RSU) with certain computing capability is used to process the data of vehicles as an edge entity. Owing to the privacy and security issues, vehicles are reluctant to upload local data directly to the RSU, and thus federated learning (FL) becomes a promising technology for some machine learning tasks in VEC, where vehicles only need to upload the local model hyperparameters instead of transferring their local data to the nearby RSU. Furthermore, as vehicles have different local training time due to various sizes of local data and their different computing capabilities, asynchronous federated learning (AFL) is employed to facilitate the RSU to update the global model immediately after receiving a local model to reduce the aggregation delay. However, in AFL of VEC, different vehicles may have different impact on the global model updating because of their various local training delay, transmission delay and local data sizes. Also, if there are bad nodes among the vehicles, it will affect the global aggregation quality at the RSU. To solve the above problem, we shall propose a deep reinforcement learning (DRL) based vehicle selection scheme to improve the accuracy of the global model in AFL of vehicular network. In the scheme, we present the model including the state, action and reward in the DRL based to the specific problem. Simulation results demonstrate our scheme can effectively remove the bad nodes and improve the aggregation accuracy of the global model.
翻訳日:2023-04-07 15:34:03 公開日:2023-04-06
# SoK: 継続的統合のための機械学習

SoK: Machine Learning for Continuous Integration ( http://arxiv.org/abs/2304.02829v1 )

ライセンス: Link先を確認
Ali Kazemi Arani, Mansooreh Zahedi, Triet Huynh Minh Le, Muhammad Ali Babar(参考訳) 継続的インテグレーション(ci)は、ソフトウェア開発中にコード変更を自動的かつ継続的に統合するための、確立されたソフトウェア開発プラクティスになっています。 CIフェーズの自動化のための機械学習(ML)ベースのアプローチの数が増えていることが文献で報告されている。 CIフェーズのためのMLベースのアプローチの体系化(SoK)を提供することは、タイムリーかつ関連性があります。 本稿では、CIにおけるMLの利用の異なる側面のSoKについて報告する。 我々の系統分析は、最先端の進歩のために改善できる既存のMLベースのソリューションの欠陥も強調している。

Continuous Integration (CI) has become a well-established software development practice for automatically and continuously integrating code changes during software development. An increasing number of Machine Learning (ML) based approaches for automation of CI phases are being reported in the literature. It is timely and relevant to provide a Systemization of Knowledge (SoK) of ML-based approaches for CI phases. This paper reports an SoK of different aspects of the use of ML for CI. Our systematic analysis also highlights the deficiencies of the existing ML-based solutions that can be improved for advancing the state-of-the-art.
翻訳日:2023-04-07 15:33:35 公開日:2023-04-06
# uncurated image-text datasets: 人口統計バイアスに光を当てる

Uncurated Image-Text Datasets: Shedding Light on Demographic Bias ( http://arxiv.org/abs/2304.02828v1 )

ライセンス: Link先を確認
Noa Garcia, Yusuke Hirota, Yankun Wu, Yuta Nakashima(参考訳) 視覚と言語のモデルを訓練するために、大規模で未計算のデータセットを集める傾向が高まり、公正な表現に対する懸念が高まっている。 MSCOCOのような小さいが手動で注釈付けされたデータセットでさえ、社会的バイアスの影響を受けていることが知られている。 この問題は解決されるには程遠いが、インターネットからあまりコントロールされずにデータをクロールすることで悪化する可能性がある。 さらに、画像の大きな集合における社会バイアスを分析するツールの欠如は、この問題を非常に困難にしています。 私たちの最初の貢献は、googleのコンセプトキャプションデータセットの一部に注釈を付けることで、視覚と言語モデルのトレーニングに広く使用されています。 第2の貢献は、どのように異なる人口集団が表現されるかに焦点を当てた、アノテーションの包括的な分析を行うことです。 私たちの最後の貢献は、画像キャプション、テキスト画像クリップ埋め込み、テキストから画像への生成という、広く普及している3つの視覚言語タスクを評価することです。

The increasing tendency to collect large and uncurated datasets to train vision-and-language models has raised concerns about fair representations. It is known that even small but manually annotated datasets, such as MSCOCO, are affected by societal bias. This problem, far from being solved, may be getting worse with data crawled from the Internet without much control. In addition, the lack of tools to analyze societal bias in big collections of images makes addressing the problem extremely challenging. Our first contribution is to annotate part of the Google Conceptual Captions dataset, widely used for training vision-and-language models, with four demographic and two contextual attributes. Our second contribution is to conduct a comprehensive analysis of the annotations, focusing on how different demographic groups are represented. Our last contribution lies in evaluating three prevailing vision-and-language tasks: image captioning, text-image CLIP embeddings, and text-to-image generation, showing that societal bias is a persistent problem in all of them.
翻訳日:2023-04-07 15:33:28 公開日:2023-04-06
# DITTO-NeRF:拡散に基づく全方向3次元モデルへの反復テキスト

DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model ( http://arxiv.org/abs/2304.02827v1 )

ライセンス: Link先を確認
Hoigi Seo, Hayeon Kim, Gwanghyun Kim, Se Young Chun(参考訳) 高品質な3Dコンテンツ作成の需要が高まり、単一の画像やテキストプロンプトから3Dオブジェクトモデルを作成する自動化手法の開発が動機となっている。 しかし, 最先端画像から3次元画像への再構成では, 与えられた画像との対応性が低く, マルチビューの整合性が低い。 近年の最先端のテキスト・ツー・3D法も制限されており、短い合成時間で1プロンプトあたりの多様性の低い3Dサンプルが得られる。 これらの課題に対処するために,テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成する新しいパイプラインであるDITTO-NeRFを提案する。 提案のディットナーフは,与えられたあるいはテキストで生成された2次元画像を用いて,限定的な境界(ib)角の高品質な部分的3dオブジェクトを構築し,その残りの3d nerfをインパイント潜在拡散モデルを用いて反復的に再構成する。 提案手法では, スケール(低分解能から高分解能), 角度(初期から外界(ob)まで), マスク(オブジェクトから背景境界まで)の3次元オブジェクト再構成方式を提案し, ibの高品質な情報をobに伝達する。 我々のDITTO-NeRFは、DreamFusionやNeuralLift-360のような画像/テキスト3Dの先行技術よりも、定性的かつ定量的なトレーニング時間で最先端の手法より優れています。

The increasing demand for high-quality 3D content creation has motivated the development of automated methods for creating 3D object models from a single image and/or from a text prompt. However, the reconstructed 3D objects using state-of-the-art image-to-3D methods still exhibit low correspondence to the given image and low multi-view consistency. Recent state-of-the-art text-to-3D methods are also limited, yielding 3D samples with low diversity per prompt with long synthesis time. To address these challenges, we propose DITTO-NeRF, a novel pipeline to generate a high-quality 3D NeRF model from a text prompt or a single image. Our DITTO-NeRF consists of constructing high-quality partial 3D object for limited in-boundary (IB) angles using the given or text-generated 2D image from the frontal view and then iteratively reconstructing the remaining 3D NeRF using inpainting latent diffusion model. We propose progressive 3D object reconstruction schemes in terms of scales (low to high resolution), angles (IB angles initially to outer-boundary (OB) later), and masks (object to background boundary) in our DITTO-NeRF so that high-quality information on IB can be propagated into OB. Our DITTO-NeRF outperforms state-of-the-art methods in terms of fidelity and diversity qualitatively and quantitatively with much faster training times than prior arts on image/text-to-3D such as DreamFusion, and NeuralLift-360.
翻訳日:2023-04-07 15:33:09 公開日:2023-04-06
# 弱い測定に基づく差動画像のためのメタレンズ

Meta-lenses for differential imaging based on weak measurement ( http://arxiv.org/abs/2304.02826v1 )

ライセンス: Link先を確認
Xiong Liu, Rongchun Ge, Xinrui Li, Jinglei Du, Hong Zhang, Zhiyou Zhang(参考訳) 全光学情報通信、処理、計算は、その速度と広帯域性のために基礎研究と応用研究の両方に大きな関心を集めている。 電子的相手と比較して、光子同士の相互作用はめったになく、片方の手に長いコヒーレンス時間を与え、もう一方の手には重いエネルギー散逸から解放される。 しかし、全光回路を実現するための障害の1つは、特定の機能を達成するための全光デバイスが大量に存在することである。 本研究は,(1)偏微分レンズ,(2)全差分レンズ,(3)全光技術を実現するための小型化要件に適合する第2次差分レンズという,弱い測定の枠組みを用いた差分像のための3つのメタレンズを実験的に提案・実証する。 Fresnel-lensのような構造に基づいて、我々のメタレンズは、以前の弱測定区画を波長スケールに組み込んで、その結果、小型の差動演算系を誘導する。 強結合型全光学ニューラルネットにおいて、その潜在的重要性に加えて、ディファレンシャルレンズは、システムの複雑さを増すことなく、従来のレンズのような既存の撮像システムに容易に組み込むことができる。

All-optical information communication, processing and computation have received substantial interest of both fundamental and applied research due to its unrivaled speed and broad bandwidth. Compared to its electronic counterpart, photons seldom interact with each other which makes them obtain a long coherence time on one hand and relieved from heavy energy dissipation on the other. However, one of the hindrances to achieve all-optical circuits is the large volume of all-optical devices to achieve specific functionalities. In this work, we propose and demonstrate experimentally three meta-lenses for differential imaging employing the framework of weak measurement: (1) partial differential lens, (2) total differential lens and (3) second order differential lens compatible with the requirement of miniaturization to achieve all-optical technology. Based on Fresnel-lens-like structures, our meta-lenses incorporated the previous weak-measurement compartment into wavelength scale, which induces a miniature differential operation system as a result. In addition to its potential importance in heavily integrated all-optical neural networks, the differential lens can be easily incorporated in the existing imaging systems like a conventional lens without increasing the complexity of the system of interest.
翻訳日:2023-04-07 15:32:37 公開日:2023-04-06
# 近似スタイナー木と最小スパンニング木に対する漸近的に高速な量子分散アルゴリズム

Asymptotically Faster Quantum Distributed Algorithms for Approximate Steiner Trees and Directed Minimum Spanning Trees ( http://arxiv.org/abs/2304.02825v1 )

ライセンス: Link先を確認
Phillip A. Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel(参考訳) CONGESTとCONGEST-CLIQUEモデルは、ネットワーク内のプロセッサ間の通信帯域幅が著しく制限されている状況を表現するために慎重に研究されている。 O(log(n))$ビットの情報のみのメッセージは、各ラウンドのプロセッサ間で送信することができる。 これらのモデルの量子バージョンにより、プロセッサは同じ帯域制限下で量子ビットと通信し、計算することができる。 古典量子モデルよりもこれらの量子モデルでより効率的に解くことができる問題は何か? 既存の作業に基づいて、私たちはこの質問に2つの方法で貢献します。 まず, 分散計算の量子連続格子モデルにおいて, ほぼ最適なスタイナーツリーを生成するためのアルゴリズムと, ネットワーク内のノード数を$n$とする$\tilde{o}(n^{1/4})$ rounds と$\tilde{o}(n^{9/4})$メッセージを使用する完全有向最小スパンニングツリーを生成するアルゴリズムの2つのアルゴリズムを提案する。 したがって、このアルゴリズムは古典集合-ユークリッドモデルにおける既知のアルゴリズムよりも低い漸近的ラウンドとメッセージ複雑性を達成する。 高レベルでは、古典的アルゴリズムフレームワークと量子サブルーチンを組み合わせることで、これらの結果を達成する。 Groverの検索アルゴリズムの分散バージョンを使用して三角形探索を高速化する既存のフレームワークは、漸近的スピードアップの中核にある。 第二に、我々のアルゴリズムと関連するアルゴリズムにかかわる定数と対数要素を慎重に特徴づけるが、そうでなければ$\tilde{O}$表記法でよく分からない。 この分析は、我々の量子アルゴリズムと既存の量子アルゴリズムと古典アルゴリズムの両方を実用的にするためにいくつかの改善が必要であることを示している。

The CONGEST and CONGEST-CLIQUE models have been carefully studied to represent situations where the communication bandwidth between processors in a network is severely limited. Messages of only $O(log(n))$ bits of information each may be sent between processors in each round. The quantum versions of these models allow the processors instead to communicate and compute with quantum bits under the same bandwidth limitations. This leads to the following natural research question: What problems can be solved more efficiently in these quantum models than in the classical ones? Building on existing work, we contribute to this question in two ways. Firstly, we present two algorithms in the Quantum CONGEST-CLIQUE model of distributed computation that succeed with high probability; one for producing an approximately optimal Steiner Tree, and one for producing an exact directed minimum spanning tree, each of which uses $\tilde{O}(n^{1/4})$ rounds of communication and $\tilde{O}(n^{9/4})$ messages, where $n$ is the number of nodes in the network. The algorithms thus achieve a lower asymptotic round and message complexity than any known algorithms in the classical CONGEST-CLIQUE model. At a high level, we achieve these results by combining classical algorithmic frameworks with quantum subroutines. An existing framework for using distributed version of Grover's search algorithm to accelerate triangle finding lies at the core of the asymptotic speedup. Secondly, we carefully characterize the constants and logarithmic factors involved in our algorithms as well as related algorithms, otherwise commonly obscured by $\tilde{O}$ notation. The analysis shows that some improvements are needed to render both our and existing related quantum and classical algorithms practical, as their asymptotic speedups only help for very large values of $n$.
翻訳日:2023-04-07 15:32:16 公開日:2023-04-06
# Eコマースにおける大規模マルチモーダル事前学習のためのインスタンスレベル表現の学習

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce ( http://arxiv.org/abs/2304.02853v1 )

ライセンス: Link先を確認
Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu(参考訳) 本稿では,Eコマースにおける下流アプリケーションを大規模化するための拡張性を備えた,汎用的なマルチモーダル基盤モデルを確立することを目的とする。 近年,大規模視覚言語事前学習手法が一般分野において著しい進歩を遂げている。 しかし、自然画像と製品画像の大きな違いのため、画像レベルの表現をeコマースにモデリングするためのフレームワークを直接適用することは必然的に最適ではない。 そこで本研究では,ECLIPと呼ばれるインスタンス中心のマルチモーダル事前学習パラダイムを提案する。 詳細は、学習可能なインスタンスクエリのセットを導入し、インスタンスレベルのセマンティクスを明示的に集約するデコーダアーキテクチャを構築します。 さらに、高価な手動アノテーションに頼ることなく、モデルが望ましい製品インスタンスに集中できるようにするために、2つの特別な設定されたプレテキストタスクが提案されている。 1億のEコマース関連のデータに基づいて、ECLIPはより汎用的でセマンティックで堅牢な表現を抽出することに成功している。 大規模な実験結果から,ECLIPはより微調整をせずに,広範囲の下流タスクにおいて既存の手法をはるかに上回り,現実のEコマースアプリケーションへの強力な転送可能性を示している。

This paper aims to establish a generic multi-modal foundation model that has the scalable capability to massive downstream applications in E-commerce. Recently, large-scale vision-language pretraining approaches have achieved remarkable advances in the general domain. However, due to the significant differences between natural and product images, directly applying these frameworks for modeling image-level representations to E-commerce will be inevitably sub-optimal. To this end, we propose an instance-centric multi-modal pretraining paradigm called ECLIP in this work. In detail, we craft a decoder architecture that introduces a set of learnable instance queries to explicitly aggregate instance-level semantics. Moreover, to enable the model to focus on the desired product instance without reliance on expensive manual annotations, two specially configured pretext tasks are further proposed. Pretrained on the 100 million E-commerce-related data, ECLIP successfully extracts more generic, semantic-rich, and robust representations. Extensive experimental results show that, without further fine-tuning, ECLIP surpasses existing methods by a large margin on a broad range of downstream tasks, demonstrating the strong transferability to real-world E-commerce applications.
翻訳日:2023-04-07 15:26:29 公開日:2023-04-06
# 分類におけるヘテロシドスティックラベル雑音のロジスティック正規性

Logistic-Normal Likelihoods for Heteroscedastic Label Noise in Classification ( http://arxiv.org/abs/2304.02849v1 )

ライセンス: Link先を確認
Erik Englesson, Amir Mehrpanah, Hossein Azizpour(参考訳) 回帰における異方性ラベルノイズを推定する自然な方法は、観測された(潜在的にノイズの多い)ターゲットを正規分布からサンプルとしてモデル化することである。 この損失は、高いエラー例の寄与を減らすことができるため、望ましい損失減衰特性を有する。 直感的には、オーバーフィッティングを減らすことでラベルノイズに対する堅牢性を向上させることができる。 我々は、同じ望ましい損失減衰特性を持つ分類に対する、この単純で確率的なアプローチの拡張を提案する。 分類におけるラベルノイズに対するロバスト性を測定することにより,本手法の有効性を評価する。 我々は,ハイパーパラメータに対する感度,アブレーション研究など,手法の内部動作を探索する啓蒙実験を行う。

A natural way of estimating heteroscedastic label noise in regression is to model the observed (potentially noisy) target as a sample from a normal distribution, whose parameters can be learned by minimizing the negative log-likelihood. This loss has desirable loss attenuation properties, as it can reduce the contribution of high-error examples. Intuitively, this behavior can improve robustness against label noise by reducing overfitting. We propose an extension of this simple and probabilistic approach to classification that has the same desirable loss attenuation properties. We evaluate the effectiveness of the method by measuring its robustness against label noise in classification. We perform enlightening experiments exploring the inner workings of the method, including sensitivity to hyperparameters, ablation studies, and more.
翻訳日:2023-04-07 15:25:55 公開日:2023-04-06
# クロスドメインロバスト性向上のためのパッチアウェアバッチ正規化

Patch-aware Batch Normalization for Improving Cross-domain Robustness ( http://arxiv.org/abs/2304.02848v1 )

ライセンス: Link先を確認
Lei Qi, Dongjia Zhao, Yinghuan Shi, Xin Geng(参考訳) コンピュータビジョンタスクにおけるディープラーニングの成功にもかかわらず、クロスドメインタスクは、トレーニングセットとテストセットが異なる分布に従うと、モデルのパフォーマンスが低下する課題をまだ示している。 既存の手法の多くは、この問題を解決するためにデータ拡張を達成するために、逆学習やインスタンス正規化を用いる。 対照的に、バッチ正規化(bn)層は未検出領域に対して頑健でなく、画像の局所パッチ間の違いが存在することを考慮し、パッチアウェアバッチ正規化(pbn)と呼ばれる新しい方法を提案する。 具体的には、まずバッチの特徴マップを空間次元に沿って重複しないパッチに分割し、各パッチを独立して正規化し、各イテレーションで共有bnパラメータを共同で最適化する。 画像の局所パッチ間の違いを生かすることにより,提案手法はモデルのパラメータのロバスト性を高めることができる。 さらに,各パッチからの統計は,グローバルな特徴マップに比べてサイズが小さいため不正確な場合があるため,各バッチの統計にグローバルに蓄積された統計情報を組み込んで,各パッチの正規化に関する最終的な統計値を得る。 提案されたPBNは典型的なBNを置き換えることができるため、既存のほとんどの最先端の手法に統合することができる。 広範な実験と分析により、分類、オブジェクト検出、インスタンス検索、セマンティクスセグメンテーションなど、複数のコンピュータビジョンタスクにおけるpbnの有効性が実証された。

Despite the significant success of deep learning in computer vision tasks, cross-domain tasks still present a challenge in which the model's performance will degrade when the training set and the test set follow different distributions. Most existing methods employ adversarial learning or instance normalization for achieving data augmentation to solve this task. In contrast, considering that the batch normalization (BN) layer may not be robust for unseen domains and there exist the differences between local patches of an image, we propose a novel method called patch-aware batch normalization (PBN). To be specific, we first split feature maps of a batch into non-overlapping patches along the spatial dimension, and then independently normalize each patch to jointly optimize the shared BN parameter at each iteration. By exploiting the differences between local patches of an image, our proposed PBN can effectively enhance the robustness of the model's parameters. Besides, considering the statistics from each patch may be inaccurate due to their smaller size compared to the global feature maps, we incorporate the globally accumulated statistics with the statistics from each batch to obtain the final statistics for normalizing each patch. Since the proposed PBN can replace the typical BN, it can be integrated into most existing state-of-the-art methods. Extensive experiments and analysis demonstrate the effectiveness of our PBN in multiple computer vision tasks, including classification, object detection, instance retrieval, and semantic segmentation.
翻訳日:2023-04-07 15:25:33 公開日:2023-04-06
# Robustmix: ディープネットの周波数バイアスの規則化によるロバストネスの向上

Robustmix: Improving Robustness by Regularizing the Frequency Bias of Deep Nets ( http://arxiv.org/abs/2304.02847v1 )

ライセンス: Link先を確認
Jonas Ngnawe, Marianne ABEMGNIGNI NJIFON, Jonathan Heek, Yann Dauphin(参考訳) ディープネットワークは、さまざまな詳細なベンチマークデータセットで印象的な成果を上げている。 驚くべきことに、彼らのパフォーマンスは人間のパフォーマンスにほとんど影響を与えない摂動に敏感である。 本研究では,低周波空間特性に基づいてネットワークを分類するRobostmixと呼ばれるMixupの拡張を提案する。 この種の正規化は Imagenet-C や Stylized Imagenet などのベンチマークで堅牢性を向上させる。 これは計算オーバーヘッドを少なくし、さらに画像変換の大規模なセットに関する事前知識を必要としない。 このアプローチは、最近のモデルアーキテクチャとデータ拡張の進歩をさらに補完し、効率の良いnet-b8モデルと、ベースラインと比較して16 mceのランダグメントで44.8の最先端mceを達成した。

Deep networks have achieved impressive results on a range of well-curated benchmark datasets. Surprisingly, their performance remains sensitive to perturbations that have little effect on human performance. In this work, we propose a novel extension of Mixup called Robustmix that regularizes networks to classify based on lower-frequency spatial features. We show that this type of regularization improves robustness on a range of benchmarks such as Imagenet-C and Stylized Imagenet. It adds little computational overhead and, furthermore, does not require a priori knowledge of a large set of image transformations. We find that this approach further complements recent advances in model architecture and data augmentation, attaining a state-of-the-art mCE of 44.8 with an EfficientNet-B8 model and RandAugment, which is a reduction of 16 mCE compared to the baseline.
翻訳日:2023-04-07 15:24:55 公開日:2023-04-06
# 一般化ゼロショット学習のための合成サンプル選択

Synthetic Sample Selection for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2304.02846v1 )

ライセンス: Link先を確認
Shreyank N Gowda(参考訳) Generalized Zero-Shot Learning (GZSL)は、コンピュータビジョンにおける重要な研究領域として登場した。 従来のGZSLを完全な教師付き学習に変換するための生成技術によって達成された大きな進歩にもかかわらず、それらはしばしば冗長な多くの合成特徴を生成し、訓練時間を増やし、精度を低下させる傾向にある。 本稿では,強化学習を用いた合成特徴選択のための新しい手法を提案する。 特に,近似ポリシー最適化(PPO)によってトレーニングされたトランスフォーマーベースのセレクタを提案し,その評価精度に基づいて合成特徴を抽出し,報奨として機能する。 提案手法は,画像とビデオの両方に適用可能であり,多様なアプリケーションに適用可能である。 実験の結果,既存の機能生成手法よりも優れた手法が示され,複数のベンチマークで全体的な性能が向上した。

Generalized Zero-Shot Learning (GZSL) has emerged as a pivotal research domain in computer vision, owing to its capability to recognize objects that have not been seen during training. Despite the significant progress achieved by generative techniques in converting traditional GZSL to fully supervised learning, they tend to generate a large number of synthetic features that are often redundant, thereby increasing training time and decreasing accuracy. To address this issue, this paper proposes a novel approach for synthetic feature selection using reinforcement learning. In particular, we propose a transformer-based selector that is trained through proximal policy optimization (PPO) to select synthetic features based on the validation classification accuracy of the seen classes, which serves as a reward. The proposed method is model-agnostic and data-agnostic, making it applicable to both images and videos and versatile for diverse applications. Our experimental results demonstrate the superiority of our approach over existing feature-generating methods, yielding improved overall performance on multiple benchmarks.
翻訳日:2023-04-07 15:24:40 公開日:2023-04-06
# 頑強なニューラルアーキテクチャ探索

Robust Neural Architecture Search ( http://arxiv.org/abs/2304.02845v1 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Weiping Wang(参考訳) ニューラルネットワーク検索(NAS)は、近年ますます人気が高まっている。 しかし、NAS生成モデルは、様々な悪意のある攻撃に対してより大きな脆弱性を被る傾向にある。 頑健なNAS手法の多くは、NAS生成モデルの堅牢性を高めるために敵の訓練を利用するが、NAS生成モデルの性質精度を無視した。 本稿では,新しいNAS手法であるRobust Neural Architecture Search (RNAS)を提案する。 精度とロバスト性のバランスをとるために正規化項を設計するために、RNASは高い精度と良好なロバスト性の両方でアーキテクチャを生成する。 検索コストを削減するため,我々はさらに,検索アーキテクチャへの入力として,逆の例の代わりにノイズ例を用いるように提案する。 大規模な実験により、RNASは画像分類と敵攻撃の両方において最先端(SOTA)性能を達成し、提案したRNASが堅牢性と精度の良好なトレードオフを達成することを示す。

Neural Architectures Search (NAS) becomes more and more popular over these years. However, NAS-generated models tends to suffer greater vulnerability to various malicious attacks. Lots of robust NAS methods leverage adversarial training to enhance the robustness of NAS-generated models, however, they neglected the nature accuracy of NAS-generated models. In our paper, we propose a novel NAS method, Robust Neural Architecture Search (RNAS). To design a regularization term to balance accuracy and robustness, RNAS generates architectures with both high accuracy and good robustness. To reduce search cost, we further propose to use noise examples instead adversarial examples as input to search architectures. Extensive experiments show that RNAS achieves state-of-the-art (SOTA) performance on both image classification and adversarial attacks, which illustrates the proposed RNAS achieves a good tradeoff between robustness and accuracy.
翻訳日:2023-04-07 15:24:22 公開日:2023-04-06
# 教師なしセマンティックセグメンテーションのためのニューラル固有関数の学習

Learning Neural Eigenfunctions for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2304.02841v1 )

ライセンス: Link先を確認
Zhijie Deng and Yucen Luo(参考訳) 教師なしセマンティックセグメンテーションはコンピュータビジョンにおける長年の課題であり、非常に重要である。 スペクトルクラスタリングは理論的に根拠のある解であり、ピクセルのスペクトル埋め込みは異なるクラスタを構成するために計算される。 強力な事前学習モデルによるスペクトルクラスタリングの最近の進歩にもかかわらず、現在のアプローチは、スペクトル分解の非効率とテストデータへの適用の柔軟性に苦しんでいる。 この研究は、スペクトルクラスタリングをニューラルネットワークに基づく固有関数を用いてスペクトル埋め込みを生成するパラメトリックアプローチとしてキャストすることで、これらの問題に対処する。 神経固有関数の出力は、クラスタリングの割り当てを直接示す離散ベクトルにさらに制限される。 その結果、スペクトルクラスタリングのエンドツーエンドNNベースのパラダイムが出現する。 実際、神経固有関数は軽量であり、事前訓練されたモデルから特徴を入力とし、トレーニング効率を改善し、密集した予測のために事前訓練されたモデルの可能性を解き放つ。 提案手法の有効性を検証し,Pascal Context,Cityscapes,ADE20Kベンチマーク上での競合ベースラインよりも大きなパフォーマンス向上を観測する。

Unsupervised semantic segmentation is a long-standing challenge in computer vision with great significance. Spectral clustering is a theoretically grounded solution to it where the spectral embeddings for pixels are computed to construct distinct clusters. Despite recent progress in enhancing spectral clustering with powerful pre-trained models, current approaches still suffer from inefficiencies in spectral decomposition and inflexibility in applying them to the test data. This work addresses these issues by casting spectral clustering as a parametric approach that employs neural network-based eigenfunctions to produce spectral embeddings. The outputs of the neural eigenfunctions are further restricted to discrete vectors that indicate clustering assignments directly. As a result, an end-to-end NN-based paradigm of spectral clustering emerges. In practice, the neural eigenfunctions are lightweight and take the features from pre-trained models as inputs, improving training efficiency and unleashing the potential of pre-trained models for dense prediction. We conduct extensive empirical studies to validate the effectiveness of our approach and observe significant performance gains over competitive baselines on Pascal Context, Cityscapes, and ADE20K benchmarks.
翻訳日:2023-04-07 15:24:07 公開日:2023-04-06
# NTK-SAP:トレーニングダイナミクスの整列によるニューラルネットワークプルーニングの改善

NTK-SAP: Improving neural network pruning by aligning training dynamics ( http://arxiv.org/abs/2304.02840v1 )

ライセンス: Link先を確認
Yite Wang, Dawei Li, Ruoyu Sun(参考訳) トレーニング前のニューラルネットワークのプルーニングは、トレーニング時間とメモリの削減の可能性から、関心を集めている。 一般的な方法の一つは、ある計量に基づいて接続を振る舞うことであるが、どの計量が最良の選択であるかは明らかになっていない。 ニューラル・タンジェント・カーネル(NTK)理論の最近の進歩は、十分に大きなニューラルネットワークのトレーニング力学がNTKのスペクトルと密接に関連していることを示している。 この発見を動機として,NTKのスペクトルに最も影響の少ない接続を創り出すことを提案する。 この方法はNTKスペクトルの維持に役立ち、トレーニングのダイナミクスをその密度の高いスペクトルと整合させるのに役立つ。 しかし、ある初期点に対応する固定重量NTKは、トレーニングフェーズ中に後続の反復に対応するNTKとは大きく異なる可能性がある。 さらに,ランダム重みの多重実現をサンプリングし,ntkスペクトルを推定する。 われわれのアプローチは重みに依存している既存の方法とは異なる重みに依存しない。 さらに、ランダムな入力を用いて固定重み付きNTKを計算し、この手法もデータに依存しない。 我々は,このアルゴリズムをNTK-SAP (Neural Tangent Kernel Spectrum-Aware Pruning) と呼ぶ。 実験により,本手法は複数のデータセット上のすべてのベースラインよりも優れた性能を実現する。

Pruning neural networks before training has received increasing interest due to its potential to reduce training time and memory. One popular method is to prune the connections based on a certain metric, but it is not entirely clear what metric is the best choice. Recent advances in neural tangent kernel (NTK) theory suggest that the training dynamics of large enough neural networks is closely related to the spectrum of the NTK. Motivated by this finding, we propose to prune the connections that have the least influence on the spectrum of the NTK. This method can help maintain the NTK spectrum, which may help align the training dynamics to that of its dense counterpart. However, one possible issue is that the fixed-weight-NTK corresponding to a given initial point can be very different from the NTK corresponding to later iterates during the training phase. We further propose to sample multiple realizations of random weights to estimate the NTK spectrum. Note that our approach is weight-agnostic, which is different from most existing methods that are weight-dependent. In addition, we use random inputs to compute the fixed-weight-NTK, making our method data-agnostic as well. We name our foresight pruning algorithm Neural Tangent Kernel Spectrum-Aware Pruning (NTK-SAP). Empirically, our method achieves better performance than all baselines on multiple datasets.
翻訳日:2023-04-07 15:23:47 公開日:2023-04-06
# 誰のテキストですか? bigcode、知的財産、倫理を探求する

Whose Text Is It Anyway? Exploring BigCode, Intellectual Property, and Ethics ( http://arxiv.org/abs/2304.02839v1 )

ライセンス: Link先を確認
Madiha Zahrah Choksi, and David Goedicke(参考訳) 知的または生成的記述ツールは、コンテンツを認識し、要約し、翻訳し、予測する大きな言語モデルに依存している。 本稿では,大規模言語モデル(LLM)の学習に用いるオープンデータセットの著作権権について検討する。 オープンデータセット上でのllmのトレーニングは,使用データの著作権上の利益を回避できるのでしょうか? ソフトウェア著作権の定義から始まり、その歴史をたどる。 ソフトウェア著作権に挑戦する現代のケーススタディとしてgithub copilotを使用しています。 本稿では,ジェネレーティブ・ライティング・アシスタントが著作権のために作成する障害について概説し,開発者,ソフトウェア法の専門家,一般ユーザに対して,知的LLMベースのライティング・ツールの文脈で考慮すべき著作権分析の実践的なロードマップを提供する。

Intelligent or generative writing tools rely on large language models that recognize, summarize, translate, and predict content. This position paper probes the copyright interests of open data sets used to train large language models (LLMs). Our paper asks, how do LLMs trained on open data sets circumvent the copyright interests of the used data? We start by defining software copyright and tracing its history. We rely on GitHub Copilot as a modern case study challenging software copyright. Our conclusion outlines obstacles that generative writing assistants create for copyright, and offers a practical road map for copyright analysis for developers, software law experts, and general users to consider in the context of intelligent LLM-powered writing tools.
翻訳日:2023-04-07 15:23:27 公開日:2023-04-06
# TBDetector:Provenance Graphを用いた高性能脅威検出器

TBDetector:Transformer-Based Detector for Advanced Persistent Threats with Provenance Graph ( http://arxiv.org/abs/2304.02838v1 )

ライセンス: Link先を確認
Nan Wang, Xuezhi Wen, Dalin Zhang, Xibin Zhao, Jiahui Ma, Mengxia Luo, Sen Nie, Shi Wu, Jiqiang Liu(参考訳) APT検出は、長期間の遅延、隠蔽、多段階攻撃パターンによるAdvanced Persistent Threat(APT)の検出が困難である。 そこで本研究では,apt攻撃検出のための変圧器を用いた高度持続的脅威検出手法tbdetectorを提案する。 TBDetectorは、実績グラフが豊富な履歴情報を提供し、異常な活動を識別する強力な履歴相関能力を有することを考慮し、長期にわたるシステム実行を空間効率で要約し、自己アテンションベースのエンコーダデコーダを用いた変圧器を用いてシステム状態の長期的状況の特徴を抽出し、遅い動作攻撃を検出する。 さらに,各状態が類似度スコアと孤立度に対応する異常スコアで計算される異なるシステム状態の異常性を調べるために,異常スコアも導入する。 提案手法の有効性を評価するために,streamspot,cadets,shellshock,clearscope,wget_baselineの5つの公開データセットについて実験を行った。 実験結果と最新手法との比較により,提案手法の性能が向上した。

APT detection is difficult to detect due to the long-term latency, covert and slow multistage attack patterns of Advanced Persistent Threat (APT). To tackle these issues, we propose TBDetector, a transformer-based advanced persistent threat detection method for APT attack detection. Considering that provenance graphs provide rich historical information and have the powerful attacks historic correlation ability to identify anomalous activities, TBDetector employs provenance analysis for APT detection, which summarizes long-running system execution with space efficiency and utilizes transformer with self-attention based encoder-decoder to extract long-term contextual features of system states to detect slow-acting attacks. Furthermore, we further introduce anomaly scores to investigate the anomaly of different system states, where each state is calculated with an anomaly score corresponding to its similarity score and isolation score. To evaluate the effectiveness of the proposed method, we have conducted experiments on five public datasets, i.e., streamspot, cadets, shellshock, clearscope, and wget_baseline. Experimental results and comparisons with state-of-the-art methods have exhibited better performance of our proposed method.
翻訳日:2023-04-07 15:23:15 公開日:2023-04-06
# キャビティ結合型単一ペロブスカイトナノ結晶からの超高速および明るい量子エミッタ

Ultrafast and Bright Quantum Emitters from the Cavity Coupled Single Perovskite Nanocrystals ( http://arxiv.org/abs/2304.02875v1 )

ライセンス: Link先を確認
Seongmoon Jun (1), Joonyun Kim (2), Minho Choi (1), Byungsu Kim (1), Jinu Park (2), Daehan Kim (2), Byungha Shin (2), Yong-Hoon Cho (1) ((1) Department of Physics and KI for the NanoCentury, Korea Advanced Institute of Science and Technology (KAIST), 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea, (2) Department of Material Science and Engineering, Korea Advanced Institute of Science and Technology (KAIST), 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea)(参考訳) ペロブスカイトナノ結晶(ncs)は、化学合成の容易さ、広いスペクトル波長性、高速再結合速度、拡張性、高量子収率により、単光子エミッタの実現への関心が高まっている。 しかし、単一のペロブスカイトncのフォトニック構造への統合はまだ達成されていない。 CsPbBr3 perovskite NCと環状ブラッググレーティング (CBG) を併用し, 比較的安定な個別リガンド系CsPbBr3ペロブスカイトNCを作製した。 cbg内のncの遠方界放射パターンは、低い方位角に対して高い方向性を示し、シミュレーション結果と一致している。 収集効率の向上により5.4倍の明るさ向上が見られた。 さらに, 再結合率は1.95倍に増加した。 本研究は、ペロブスカイトNCの超高速(100ps)単一光子放出と明るさの改善を提供し、これは実用的な量子光学応用にとって重要な要素である。

Perovskite nanocrystals (NCs) have attracted increasing interest for the realization of single-photon emitters, owing to their ease of chemical synthesis, wide spectral tunability, fast recombination rate, scalability, and high quantum yield. However, the integration of a single perovskite NC into a photonic structure is yet to be accomplished. We successfully coupled a highly stable individual zwitterionic ligand-based CsPbBr3 perovskite NC with a circular Bragg grating (CBG). The far-field radiation pattern of the NC inside the CBG exhibits high directionality toward a low azimuthal angle, which is consistent with the simulation results. We observed a 5.4-fold enhancement in brightness due to an increase in collection efficiency. Moreover, we achieved a 1.95-fold increase in the recombination rate. This study offers ultrafast (< 100 ps) single-photon emission and an improved brightness of perovskite NCs, which are critical factors for practical quantum optical applications.
翻訳日:2023-04-07 15:16:36 公開日:2023-04-06
# 教師付き学習によるオンライン環境におけるユーザプライバシ保護

Protecting User Privacy in Online Settings via Supervised Learning ( http://arxiv.org/abs/2304.02870v1 )

ライセンス: Link先を確認
Alexandru Rusescu, Brooke Lampe, and Weizhi Meng(参考訳) 特にオンラインプレゼンスを持つ企業は、このビジネスモデルをデジタルで購読することが多い。ユーザーベースからデータを収集し、利益を得るために広告代理店にデータを公開する。 このような企業は定期的にサービスを"無料"として販売する一方で、お金ではなく個人情報の通貨でユーザを"課金"する傾向にあるという事実を曖昧にしている。 しかし、オンライン企業はユーザーエクスペリエンスの改善や統計の集約など、より原則的な目的でユーザーデータを収集する。 問題は、サードパーティにユーザーデータを売ることだ。 本研究では、教師付き学習を活用するオンラインプライバシ保護に対するインテリジェントなアプローチを設計する。 ユーザのプライバシを侵害する可能性のあるデータ収集を検出およびブロックすることで、ユーザに対するデジタルプライバシの程度を復元することができる。 本評価では,ネットワーク要求のデータセットを収集し,教師付き学習パラダイムに準拠した複数の分類器の性能を測定する。 評価の結果,提案手法の有効性と可能性を示した。

Companies that have an online presence-in particular, companies that are exclusively digital-often subscribe to this business model: collect data from the user base, then expose the data to advertisement agencies in order to turn a profit. Such companies routinely market a service as "free", while obfuscating the fact that they tend to "charge" users in the currency of personal information rather than money. However, online companies also gather user data for more principled purposes, such as improving the user experience and aggregating statistics. The problem is the sale of user data to third parties. In this work, we design an intelligent approach to online privacy protection that leverages supervised learning. By detecting and blocking data collection that might infringe on a user's privacy, we can restore a degree of digital privacy to the user. In our evaluation, we collect a dataset of network requests and measure the performance of several classifiers that adhere to the supervised learning paradigm. The results of our evaluation demonstrate the feasibility and potential of our approach.
翻訳日:2023-04-07 15:16:19 公開日:2023-04-06
# 大規模言語モデルはテキストゲームをプレイできるか? 現状とオープンな質問

Can Large Language Models Play Text Games Well? Current State-of-the-Art and Open Questions ( http://arxiv.org/abs/2304.02868v1 )

ライセンス: Link先を確認
Chen Feng Tsai and Xiaochen Zhou and Sierra S. Liu and Jing Li and Mo Yu and Hongyuan Mei(参考訳) ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、最近、人間のユーザと通信する顕著な能力を示した。 本技術報告では,プレイヤがゲームの世界と対話することで,環境を理解し,状況に対処しなければならないような,テキストゲームをプレイする能力について検討する。 実験の結果,ChatGPTは既存のシステムと比較して競争力が高いが,知能は低いことがわかった。 正確には、chatgptはゲームプレイやゲームマニュアルを読むだけでは世界モデルを構築することができない。 その結果,人工知能,機械学習,自然言語処理の交差点における新たな研究課題が浮かび上がってきた。

Large language models (LLMs) such as ChatGPT and GPT-4 have recently demonstrated their remarkable abilities of communicating with human users. In this technical report, we take an initiative to investigate their capacities of playing text games, in which a player has to understand the environment and respond to situations by having dialogues with the game world. Our experiments show that ChatGPT performs competitively compared to all the existing systems but still exhibits a low level of intelligence. Precisely, ChatGPT can not construct the world model by playing the game or even reading the game manual; it may fail to leverage the world knowledge that it already has; it cannot infer the goal of each step as the game progresses. Our results open up new research questions at the intersection of artificial intelligence, machine learning, and natural language processing.
翻訳日:2023-04-07 15:16:04 公開日:2023-04-06
# VPFusion:3次元物体検出のためのロバストな垂直表現学習を目指して

VPFusion: Towards Robust Vertical Representation Learning for 3D Object Detection ( http://arxiv.org/abs/2304.02867v1 )

ライセンス: Link先を確認
Yuhao Huang, Sanping Zhou, Junjie Zhang, Jinpeng Dong, Nanning Zheng(参考訳) 効率的な点雲表現は、Lidarベースの3Dオブジェクト検出の基本的な要素である。 最近のグリッドベースの検出器は通常、点雲をボクセルまたは柱に分割し、バードアイビューで単一ストリームネットワークを構築する。 しかし、これらの点雲符号化パラダイムは垂直方向の点表現を過小評価しており、特に歩行者やサイクリストのような垂直に敏感な物体に対して意味や細かい情報を失う。 本稿では,voxelストリームとピラーストリームの両方からの補完情報を組み合わせるための,明示的な縦型多スケール表現学習フレームワークvpfusionを提案する。 特に、vpfusionはまずスパースなvoxel-pillarベースのバックボーン上に構築されている。 バックボーンは点雲をボクセルと柱に分割し、3Dと2Dのスパース畳み込みを同時に符号化する。 次に,sparse fusion layer (sfl) を導入する。sparse voxel と pillar features の双方向経路を確立し,それらの相互作用を可能にする。 さらにDense Fusion Neck (DFN) を, ボクセルおよび柱枝からの高密度特徴写像とマルチスケールを効果的に組み合わせるために提案する。 大規模なWaymo Open DatasetとnuScenes Datasetに関する大規模な実験は、VPFusionがシングルストリームベースラインを大きなマージンで越え、リアルタイムの推論速度で最先端のパフォーマンスを達成することを示した。

Efficient point cloud representation is a fundamental element of Lidar-based 3D object detection. Recent grid-based detectors usually divide point clouds into voxels or pillars and construct single-stream networks in Bird's Eye View. However, these point cloud encoding paradigms underestimate the point representation in the vertical direction, which cause the loss of semantic or fine-grained information, especially for vertical sensitive objects like pedestrian and cyclists. In this paper, we propose an explicit vertical multi-scale representation learning framework, VPFusion, to combine the complementary information from both voxel and pillar streams. Specifically, VPFusion first builds upon a sparse voxel-pillar-based backbone. The backbone divides point clouds into voxels and pillars, then encodes features with 3D and 2D sparse convolution simultaneously. Next, we introduce the Sparse Fusion Layer (SFL), which establishes a bidirectional pathway for sparse voxel and pillar features to enable the interaction between them. Additionally, we present the Dense Fusion Neck (DFN) to effectively combine the dense feature maps from voxel and pillar branches with multi-scale. Extensive experiments on the large-scale Waymo Open Dataset and nuScenes Dataset demonstrate that VPFusion surpasses the single-stream baselines by a large margin and achieves state-of-the-art performance with real-time inference speed.
翻訳日:2023-04-07 15:15:51 公開日:2023-04-06
# 離散線形力学系の量子シミュレーションとschrodingerizationによる線形代数における単純な反復法

Quantum simulation of discrete linear dynamical systems and simple iterative methods in linear algebra via Schrodingerisation ( http://arxiv.org/abs/2304.02865v1 )

ライセンス: Link先を確認
Shi Jin and Nana Liu(参考訳) 量子シミュレーションは、ある種の力学系を連続的にシミュレートすることができることが知られており、シュロディンガーの方程式は古典的なシミュレーションよりも効率的である。 任意の線型力学系は、シュロディンガー方程式の系にシュロディンガー化と呼ばれる方法によって変換することができる。 線形代数における反復的手法、およびより一般的な離散線形力学系は、時間的に連続的に進化する力学系の離散時間近似と見なすことができ、シュロディンゲライズ手法を適用することができる。 したがって、量子シミュレーションは最も単純な反復法の連続時間限界に直接適用することができる。 これは一般的な(拡張的な)反復スキームや離散線形力学系に適用できる。 特に,方程式の量子線形系を解き,行列の最大固有ベクトルと固有値をそれぞれ推定する量子ジャコビ法と量子パワー法を導入する。 提案した量子シミュレーションは、離散変数量子系か、ハイブリッド連続変数量子系と離散変数量子系のいずれかで行うことができる。 このフレームワークは、量子シミュレーションを用いて線形代数問題を解く興味深い方法を提供する。

Quantum simulation is known to be capable of simulating certain dynamical systems in continuous time -- Schrodinger's equations being the most direct and well-known -- more efficiently than classical simulation. Any linear dynamical system can in fact be transformed into a system of Schrodinger's equations via a method called Schrodingerisation. Building on the observation that iterative methods in linear algebra, and more generally discrete linear dynamical systems, can be viewed as discrete time approximations of dynamical systems which evolve continuously in time, we can apply the Schrodingerisation technique. Thus quantum simulation can be directly applied to the continuous-time limits of some of the simplest iterative methods. This applies to general (explicit) iterative schemes or discrete linear dynamical systems. In particular, we introduce the quantum Jacobi and quantum power methods for solving the quantum linear systems of equations and for estimating the maximum eigenvector and eigenvalue of a matrix respectively. The proposed quantum simulation can be performed on either discrete-variable quantum systems or on hybrid continuous-variable and discrete-variable quantum systems. This framework provides an interesting alternative method to solve linear algebra problems using quantum simulation.
翻訳日:2023-04-07 15:15:27 公開日:2023-04-06
# 欠かせないつながりで学ぶことを学ぶ

Learning to Learn with Indispensable Connections ( http://arxiv.org/abs/2304.02862v1 )

ライセンス: Link先を確認
Sambhavi Tiwari, Manas Gogoi, Shekhar Verma, Krishna Pratap Singh(参考訳) メタラーニングは、ラベル付きインスタンスの少ない未確認タスクを解決することを目的としている。 しかし、既存の最適化手法で高速に学習できるにもかかわらず、いくつかの欠点がある。 非連続的な接続はメタトレーニング中に頻繁に見られ、結果として過度にパラメータ化されたニューラルネットワークとなる。 このため、メタテストは不要な計算と余分なメモリオーバーヘッドを観測する。 そのような欠点を克服する。 本稿では,必須(必要)接続を含むメタlthと呼ばれる新しいメタ学習手法を提案する。 そこで我々は,数点学習の課題を効果的に解決できる重要なコネクションを生成するために,マグニチュード・プルーニングとして知られる抽選券仮説手法を適用した。 私たちは2つのことを目指しています。 (a)より適応的なメタ学習が可能なサブネットワークを見つけること b) 未確認タスクの新たな低レベル機能を学び、メタテストフェーズで既に学んだ機能とそれらの機能を再結合する。 実験の結果,提案手法は3種類の分類データセットに対して,既存の一階MAMLアルゴリズムよりも優れていた。 本手法は,全文データセットの分類精度を約2%向上させる(20ウェイ1ショットタスク設定)。

Meta-learning aims to solve unseen tasks with few labelled instances. Nevertheless, despite its effectiveness for quick learning in existing optimization-based methods, it has several flaws. Inconsequential connections are frequently seen during meta-training, which results in an over-parameterized neural network. Because of this, meta-testing observes unnecessary computations and extra memory overhead. To overcome such flaws. We propose a novel meta-learning method called Meta-LTH that includes indispensible (necessary) connections. We applied the lottery ticket hypothesis technique known as magnitude pruning to generate these crucial connections that can effectively solve few-shot learning problem. We aim to perform two things: (a) to find a sub-network capable of more adaptive meta-learning and (b) to learn new low-level features of unseen tasks and recombine those features with the already learned features during the meta-test phase. Experimental results show that our proposed Met-LTH method outperformed existing first-order MAML algorithm for three different classification datasets. Our method improves the classification accuracy by approximately 2% (20-way 1-shot task setting) for omniglot dataset.
翻訳日:2023-04-07 15:15:10 公開日:2023-04-06
# 降雨・降雨・降雨用変圧器の効率化に向けて

Towards an Effective and Efficient Transformer for Rain-by-snow Weather Removal ( http://arxiv.org/abs/2304.02860v1 )

ライセンス: Link先を確認
Tao Gao, Yuanbo Wen, Kaihao Zhang, Peng Cheng, and Ting Chen(参考訳) 降雨による除雪は、降雨と雪粒子の共存を解消することを目的とした、気象劣化画像復元の専門分野である。 本稿では,この課題に対処する効率的な変換器であるRSFormerを提案する。 まず,階層的アーキテクチャにおける畳み込みネットワーク (convnets) と視覚トランスフォーマー (vits) の近接について検討し,ステージ内特徴学習における性能について実験的に検討した。 そこで我々は,Transformerライクな畳み込みブロック(TCB)を用いて,入力コンテンツに適応するための注意特性を保ちながら,計算コストのかかる自己アテンションを置き換える。 また,クロスステージ進行がパフォーマンス向上に不可欠であることを実証し,グローバル依存とローカル依存の両方を捉えつつ,機能をダウン/アップサンプリングするグローバルローカルセルフアテンションサンプリング機構(glasm)を提案する。 最後に、提案したRSFormerを評価するために、2つの新しい雨季データセットRSCityScapeとRS100Kを合成する。 RSFormerは、他の修復方法と比較して、パフォーマンスと時間消費の最良のトレードオフを実現する。 例えば、パラメータ数を1.53%削減し、推論時間を15.6%削減することで、restormerを上回っている。 データセット、ソースコード、事前訓練されたモデルは、 \url{https://github.com/chdwyb/RSFormer} で入手できる。

Rain-by-snow weather removal is a specialized task in weather-degraded image restoration aiming to eliminate coexisting rain streaks and snow particles. In this paper, we propose RSFormer, an efficient and effective Transformer that addresses this challenge. Initially, we explore the proximity of convolution networks (ConvNets) and vision Transformers (ViTs) in hierarchical architectures and experimentally find they perform approximately at intra-stage feature learning. On this basis, we utilize a Transformer-like convolution block (TCB) that replaces the computationally expensive self-attention while preserving attention characteristics for adapting to input content. We also demonstrate that cross-stage progression is critical for performance improvement, and propose a global-local self-attention sampling mechanism (GLASM) that down-/up-samples features while capturing both global and local dependencies. Finally, we synthesize two novel rain-by-snow datasets, RSCityScape and RS100K, to evaluate our proposed RSFormer. Extensive experiments verify that RSFormer achieves the best trade-off between performance and time-consumption compared to other restoration methods. For instance, it outperforms Restormer with a 1.53% reduction in the number of parameters and a 15.6% reduction in inference time. Datasets, source code and pre-trained models are available at \url{https://github.com/chdwyb/RSFormer}.
翻訳日:2023-04-07 15:14:54 公開日:2023-04-06
# muller: 視覚のための多層ラプラシアン共振器

MULLER: Multilayer Laplacian Resizer for Vision ( http://arxiv.org/abs/2304.02859v1 )

ライセンス: Link先を確認
Zhengzhong Tu, Peyman Milanfar, Hossein Talebi(参考訳) イメージリサイズ操作は、現代のコンピュータビジョンにおける基本的な前処理モジュールである。 ディープラーニング革命を通じて、研究者たちは、最も近い隣人、双線形人、およびバイコビックなど、容易に利用できるリサイザー以外の代替リサイズ手法の可能性を見落としてきた。 私たちの関心の主な問題は、フロントエンドリサイザーがディープビジョンモデルの性能に影響を及ぼすかどうかである。 本稿では,非常に軽量な多層ラプラシアンリシライザについて,muler resizer と呼ばれる一握りの練習可能なパラメータについて述べる。 MULLERは、下流の認識モデルに有利な特定の周波数サブバンドの詳細を向上することを学ぶというバンドパス特性を持っている。 MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。 具体的には、最先端のビジョントランスフォーマーであるMaxViTをベースラインとして選択し、MULLERでトレーニングした場合、MaxViTは最大0.6%のトップ1精度を得る一方、ImageNet-1kで同様のトップ1精度を達成するために36%の推論コストを節約できることを示す。 特に、MULLERの性能は ImageNet-21k や JFT などのモデルサイズやトレーニングデータサイズとスケールし、画像分類、オブジェクト検出、セグメンテーション、画像品質評価など、複数の視覚タスクに広く適用できる。

Image resizing operation is a fundamental preprocessing module in modern computer vision. Throughout the deep learning revolution, researchers have overlooked the potential of alternative resizing methods beyond the commonly used resizers that are readily available, such as nearest-neighbors, bilinear, and bicubic. The key question of our interest is whether the front-end resizer affects the performance of deep vision models? In this paper, we present an extremely lightweight multilayer Laplacian resizer with only a handful of trainable parameters, dubbed MULLER resizer. MULLER has a bandpass nature in that it learns to boost details in certain frequency subbands that benefit the downstream recognition models. We show that MULLER can be easily plugged into various training pipelines, and it effectively boosts the performance of the underlying vision task with little to no extra cost. Specifically, we select a state-of-the-art vision Transformer, MaxViT, as the baseline, and show that, if trained with MULLER, MaxViT gains up to 0.6% top-1 accuracy, and meanwhile enjoys 36% inference cost saving to achieve similar top-1 accuracy on ImageNet-1k, as compared to the standard training scheme. Notably, MULLER's performance also scales with model size and training data size such as ImageNet-21k and JFT, and it is widely applicable to multiple vision tasks, including image classification, object detection and segmentation, as well as image quality assessment.
翻訳日:2023-04-07 15:14:28 公開日:2023-04-06
# クラス不均衡問題に対するアンサンブル学習とデータ強化モデルの検討:組み合わせ,実装,評価

A review of ensemble learning and data augmentation models for class imbalanced problems: combination, implementation and evaluation ( http://arxiv.org/abs/2304.02858v1 )

ライセンス: Link先を確認
Azal Ahmad Khan, Omkar Chaudhari, Rohitash Chandra(参考訳) 分類問題におけるクラス不均衡 (CI) は、あるクラスに属する観測回数が他のクラスよりも低い場合に生じる。 複数のモデルを組み合わせてロバストなモデルを得るアンサンブル学習は、クラス不均衡問題に対処するデータ拡張手法で顕著に利用されている。 過去10年間で、生成的敵ネットワーク(GAN)のような新しい手法とともに、アンサンブル学習とデータ拡張手法を強化するための多くの戦略が追加された。 これらの組み合わせは多くの研究に応用されているが、異なる組み合わせの真のランクは計算的レビューを必要とする。 本稿では,データ拡張法とアンサンブル学習法を評価し,ベンチマークci問題を解くための数値的考察を行う。 そこで本研究では,ci問題に対する10データ拡張と10アンサンブル学習法を評価する汎用フレームワークを提案する。 我々の目的は、不均衡データセットの分類性能を改善するための最も効果的な組み合わせを特定することであった。 その結果,データ拡張法とアンサンブル学習の組み合わせにより,不均衡データセットの分類性能が著しく向上することが示唆された。 これらの発見は、機械学習アプリケーションにおける不均衡データセットを扱うためのより効果的なアプローチの開発に重要な意味を持つ。

Class imbalance (CI) in classification problems arises when the number of observations belonging to one class is lower than the other classes. Ensemble learning that combines multiple models to obtain a robust model has been prominently used with data augmentation methods to address class imbalance problems. In the last decade, a number of strategies have been added to enhance ensemble learning and data augmentation methods, along with new methods such as generative adversarial networks (GANs). A combination of these has been applied in many studies, but the true rank of different combinations would require a computational review. In this paper, we present a computational review to evaluate data augmentation and ensemble learning methods used to address prominent benchmark CI problems. We propose a general framework that evaluates 10 data augmentation and 10 ensemble learning methods for CI problems. Our objective was to identify the most effective combination for improving classification performance on imbalanced datasets. The results indicate that combinations of data augmentation methods with ensemble learning can significantly improve classification performance on imbalanced datasets. These findings have important implications for the development of more effective approaches for handling imbalanced datasets in machine learning applications.
翻訳日:2023-04-07 15:14:01 公開日:2023-04-06
# 事前情報を用いた確率的量子探索アルゴリズムの最適化

Optimization of probabilistic quantum search algorithm with a priori information ( http://arxiv.org/abs/2304.02856v1 )

ライセンス: Link先を確認
Yutong Huang, Shengshi Pang(参考訳) 量子コンピュータは量子状態の情報を符号化し、量子重ね合わせと量子相関を利用して量子アルゴリズムを実行する。 グロバーの量子探索アルゴリズムは古典計算よりも量子コンピューティングの優位性を証明する典型的な量子アルゴリズムである。 データベース検索のクエリの複雑さを2次に減らし、データベースの要素に関する事前情報が提供されていない場合に最適であることが知られている。 本研究では,要素の事前確率分布が一般的であるデータベースに対して,非ゼロ故障確率を許容する確率的グローバー探索アルゴリズムを検討し,量子系の初期状態と拡散作用素の反射軸を最適化することにより,oracle呼び出し数を最小化する。 初期状態と反射軸は一致しないので、量子探索アルゴリズムは、初期状態、反射軸および探索対象状態によって広がる3次元部分空間で量子システムを回転させる。 oracleの呼び出し数は変分法によって最小化され、形式的な分析結果は低い失敗確率の仮定で得られる。 その結果, 量子探索アルゴリズムの成功確率が小さくなると, オラクル要素の事前分布が一様でない場合には, オラクル呼び出しの数が大幅に減少し, オラクル呼び出しの平均数が減少し, 探索問題の解が見つかることがわかった。 この結果は、最適化された探索アルゴリズムの効果を示すために、非一様二値の事前確率を持つ$N$要素を持つ単純だが非自明なデータベースモデルに適用される。 この論文は、量子探索アルゴリズムのより大きな故障確率を可能にする高次結果への一般化に関する議論で締めくくられている。

A quantum computer encodes information in quantum states and runs quantum algorithms to surpass the classical counterparts by exploiting quantum superposition and quantum correlation. Grover's quantum search algorithm is a typical quantum algorithm that proves the superiority of quantum computing over classical computing. It has a quadratic reduction in the query complexity of database search, and is known to be optimal when no a priori information about the elements of the database is provided. In this work, we consider a probabilistic Grover's search algorithm allowing nonzero probability of failure for a database with general a priori probability distribution of the elements, and minimize the number of oracle calls by optimizing the initial state of the quantum system and the reflection axis of the diffusion operator. The initial state and the reflection axis are allowed not to coincide, and thus the quantum search algorithm rotates the quantum system in a three-dimensional subspace spanned by the initial state, the reflection axis and the search target state. The number of oracle calls is minimized by a variational method, and formal analytical results are obtained with the assumption of low failure probability. The results show that for nonuniform a priori distribution of the oracle elements, the number of oracle calls can be significantly reduced given a small decrease in the success probability of the quantum search algorithm, leading to a lower average number of oracle calls to find the solution of the search problem. The result is applied to a simple but nontrivial database model which has $N$ elements with nonuniform two-valued a priori probabilities to show the effect of the optimized search algorithm. The paper is concluded with a discussion about the generalization to higher-order results that allows a larger failure probability for the quantum search algorithm.
翻訳日:2023-04-07 15:13:42 公開日:2023-04-06
# ベイズ変数選択のための可変複素重み付きgibbsサンプラー

Variable-Complexity Weighted-Tempered Gibbs Samplers for Bayesian Variable Selection ( http://arxiv.org/abs/2304.02899v1 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) 後部包摂確率(PIP)の正確な計算が必須でない高次元アプリケーションにおいて, MCMC繰り返し当たりの計算複雑性を低減するために, サブセット重み付きギブズサンプリング(wTGS)がJankowiakによって最近導入された。 しかし, 信号次元と条件付きPIP推定数との比が大きいため, サンプリング器に付随するReo-Backwellized estimatorは高いばらつきを有する。 本稿では,MCMCイテレーションあたりの条件付きPIPの計算量が信号次元よりもはるかに少ないような,新しいサブセットの重み付きギブズサンプリング(wTGS)を設計する。 サブセット wTGS や wTGS と異なり、サンプルはMCMC イテレーション毎に変動する複雑さを持つ。 我々は、このスプリマーのラオ・ブラックウェル化推定器(rao-blackwellized estimator, rao-blackwellized estimator, rao-blackwellized estimator, rao-blackwellized estimator, rao-blackwellized estimator, rao-blackwellized estimator)の分散を有限個の反復数 ($t$) で表し、その分散がmcmc 反復当たりの条件付き pip 計算の期待数であるようなデータセットに対して $o\big(\frac{p}{s}\big)^2 \frac{\log t}{t}\big)$であることを示す。 実験により、ラオ-ブラックウェル化推定器は、部分集合 wTGS と関連するものよりも分散が小さいことを示す。

Subset weighted-Tempered Gibbs Sampler (wTGS) has been recently introduced by Jankowiak to reduce the computation complexity per MCMC iteration in high-dimensional applications where the exact calculation of the posterior inclusion probabilities (PIP) is not essential. However, the Rao-Backwellized estimator associated with this sampler has a high variance as the ratio between the signal dimension and the number of conditional PIP estimations is large. In this paper, we design a new subset weighted-Tempered Gibbs Sampler (wTGS) where the expected number of computations of conditional PIPs per MCMC iteration can be much smaller than the signal dimension. Different from the subset wTGS and wTGS, our sampler has a variable complexity per MCMC iteration. We provide an upper bound on the variance of an associated Rao-Blackwellized estimator for this sampler at a finite number of iterations, $T$, and show that the variance is $O\big(\big(\frac{P}{S}\big)^2 \frac{\log T}{T}\big)$ for a given dataset where $S$ is the expected number of conditional PIP computations per MCMC iteration. Experiments show that our Rao-Blackwellized estimator can have a smaller variance than its counterpart associated with the subset wTGS.
翻訳日:2023-04-07 15:07:36 公開日:2023-04-06
# 文学的気分の代理としての影響

Affect as a proxy for literary mood ( http://arxiv.org/abs/2304.02894v1 )

ライセンス: Link先を確認
Emily \"Ohman and Riikka Rossi(参考訳) 文芸文章における感情の代理として「感情」を使うことを提案する。 本研究では,音色検出と気分検出の差異について検討する。 感情的な単語の埋め込みを利用して、異なるテキストセグメントの感情分布を調べる。 また,本研究では, 意味的シフトとテキストの領域を両立させ, 現代の質的分析と現代的質的分析の両立を考慮し, 感情の語彙をシンプルかつ効果的に向上させる手法を提案する。

We propose to use affect as a proxy for mood in literary texts. In this study, we explore the differences in computationally detecting tone versus detecting mood. Methodologically we utilize affective word embeddings to look at the affective distribution in different text segments. We also present a simple yet efficient and effective method of enhancing emotion lexicons to take both semantic shift and the domain of the text into account producing real-world congruent results closely matching both contemporary and modern qualitative analyses.
翻訳日:2023-04-07 15:06:57 公開日:2023-04-06
# 言語条件付配置のためのオブジェクト指向推論:基礎モデルに基づくアプローチ

Object-centric Inference for Language Conditioned Placement: A Foundation Model based Approach ( http://arxiv.org/abs/2304.02893v1 )

ライセンス: Link先を確認
Zhixuan Xu, Kechun Xu, Yue Wang, Rong Xiong(参考訳) 我々は,ロボットが言語指示における空間的関係制約をすべて満たした配置を生成するための,言語条件付きオブジェクト配置のタスクに焦点をあてる。 ルールベースの言語解析やシーン中心の視覚的表現に基づく以前の作品は、命令や参照オブジェクトの形式に制限があり、大量のトレーニングデータを必要とする。 そこで本稿では,基礎モデルを利用して位置決めのための参照オブジェクトと空間関係を接地するオブジェクト指向フレームワークを提案する。 実験によれば、トレーニング可能なパラメータは約0.26mで97.75%の成功率を達成した。 さらに,本手法は未確認オブジェクトと命令の両方に最適化する。 さらに、25%のトレーニングデータしかありませんが、それでもトップの競合アプローチを上回っています。

We focus on the task of language-conditioned object placement, in which a robot should generate placements that satisfy all the spatial relational constraints in language instructions. Previous works based on rule-based language parsing or scene-centric visual representation have restrictions on the form of instructions and reference objects or require large amounts of training data. We propose an object-centric framework that leverages foundation models to ground the reference objects and spatial relations for placement, which is more sample efficient and generalizable. Experiments indicate that our model can achieve a 97.75% success rate of placement with only ~0.26M trainable parameters. Besides, our method generalizes better to both unseen objects and instructions. Moreover, with only 25% training data, we still outperform the top competing approach.
翻訳日:2023-04-07 15:06:50 公開日:2023-04-06
# 雑音・異種顧客による連帯学習における注意深い学習

Learning Cautiously in Federated Learning with Noisy and Heterogeneous Clients ( http://arxiv.org/abs/2304.02892v1 )

ライセンス: Link先を確認
Chenrui Wu, Zexi Li, Fangxin Wang, Chao Wu(参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシ保証と協調トレーニングを行う分散フレームワークである。 実世界のシナリオでは、クライアントはアノテーションの品質が低い(ラベルノイズ)非IIDデータ(ローカルクラス不均衡)を持つことができる。 FLの小さな局所データセットにおけるラベルノイズとクラス不均衡の共存は、従来のFL法とノイズラベル学習法の両方が非効率である。 課題に対処するため、追加のクリーンプロキシデータセットを使用せずにfedexniを提案する。 ノイズレジリエントなローカルソルバとロバストなグローバルアグリゲータが含まれている。 局所解法では,よりロバストな雑音検出器を設計し,ノイズサンプルを識別する。 さらに,ノイズサンプルによる負の影響を低減するために,カリキュラムの擬似ラベリング法と denoise Mixup トレーニング戦略を考案した。 グローバルアグリゲータに対しては,異なる学習期間に合わせた再重み付け手法を提案する。 広汎な実験により,混合不均一FL環境における最先端の解法を著しく上回る結果が得られた。

Federated learning (FL) is a distributed framework for collaboratively training with privacy guarantees. In real-world scenarios, clients may have Non-IID data (local class imbalance) with poor annotation quality (label noise). The co-existence of label noise and class imbalance in FL's small local datasets renders conventional FL methods and noisy-label learning methods both ineffective. To address the challenges, we propose FedCNI without using an additional clean proxy dataset. It includes a noise-resilient local solver and a robust global aggregator. For the local solver, we design a more robust prototypical noise detector to distinguish noisy samples. Further to reduce the negative impact brought by the noisy samples, we devise a curriculum pseudo labeling method and a denoise Mixup training strategy. For the global aggregator, we propose a switching re-weighted aggregation method tailored to different learning periods. Extensive experiments demonstrate our method can substantially outperform state-of-the-art solutions in mix-heterogeneous FL environments.
翻訳日:2023-04-07 15:06:38 公開日:2023-04-06
# ViralVectors: コンパクトでスケーラブルなアライメントフリーなVirome機能生成

ViralVectors: Compact and Scalable Alignment-free Virome Feature Generation ( http://arxiv.org/abs/2304.02891v1 )

ライセンス: Link先を確認
Sarwan Ali, Prakash Chourasia, Zahra Tayebi, Babatunde Bello, Murray Patterson(参考訳) SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。 これはSARS-CoV-2や他のウイルスのために幾何学的に成長し続け、多くの国がゲノム監視に多大な資金を拠出している。 したがって、効果的かつタイムリーな意思決定を可能にするために、大量のシーケンスデータを処理する方法が必要です。 このようなデータは、アライン化、アンアライン化、あるいは未組み立ての生ヌクレオチドまたはアミノ酸シークエンシングといった、関心のある全ゲノムまたは領域(例えばスパイク)に関連する異種ソースから得られる。 本研究では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトな特徴ベクトル生成法である \emph{ViralVectors} を提案する。 このような生成は、伝統的にアセンブリや読み取りマッピングで使用されるシーケンスの軽量な"シグナチャ"の一種である \emph{minimizers} に基づいています。 我々は、異なるタイプのシーケンシングデータに対するアプローチを検証する。 (a)2.5M SARS-CoV-2スパイクシーケンス(スケーラビリティを示すため) (b)3kコロナウイルス科のスパイク配列(よりゲノム変異にロバスト性を示すため)、及び (c)nasal-swab PCR検査から得られた4Kの生WGS読み出し(アンアセンブルされた読み出しの処理能力を示す)。 我々の結果は、ViralVectorsがほとんどの分類タスクやクラスタリングタスクで現在のベンチマークを上回っていることを示している。

The amount of sequencing data for SARS-CoV-2 is several orders of magnitude larger than any virus. This will continue to grow geometrically for SARS-CoV-2, and other viruses, as many countries heavily finance genomic surveillance efforts. Hence, we need methods for processing large amounts of sequence data to allow for effective yet timely decision-making. Such data will come from heterogeneous sources: aligned, unaligned, or even unassembled raw nucleotide or amino acid sequencing reads pertaining to the whole genome or regions (e.g., spike) of interest. In this work, we propose \emph{ViralVectors}, a compact feature vector generation from virome sequencing data that allows effective downstream analysis. Such generation is based on \emph{minimizers}, a type of lightweight "signature" of a sequence, used traditionally in assembly and read mapping -- to our knowledge, the first use minimizers in this way. We validate our approach on different types of sequencing data: (a) 2.5M SARS-CoV-2 spike sequences (to show scalability); (b) 3K Coronaviridae spike sequences (to show robustness to more genomic variability); and (c) 4K raw WGS reads sets taken from nasal-swab PCR tests (to show the ability to process unassembled reads). Our results show that ViralVectors outperforms current benchmarks in most classification and clustering tasks.
翻訳日:2023-04-07 15:06:26 公開日:2023-04-06
# 自動icd-10コードアソシエーション:フランス語臨床テキストの課題

Automatic ICD-10 Code Association: A Challenging Task on French Clinical Texts ( http://arxiv.org/abs/2304.02886v1 )

ライセンス: Link先を確認
Yakini Tchouka, Jean-Fran\c{c}ois Couchot, David Laiymani, Philippe Selles, Azzedine Rahmani(参考訳) ICDコードと電子健康データを自動的に関連付けることは医学研究においてよく知られたNLPタスクである。 NLPは、トランスフォーマーアーキテクチャに基づいた事前訓練された言語モデルの出現により、近年大きく発展してきた。 本稿では,ICDコードを自動的に関連付けるために,これらのモデルを適用する。 いくつかのニューラルネットワークアーキテクチャは、推測される入力トークンとラベルの両方の大きなセットを扱うという課題に対処するために実験されている。 本稿では,ICD-10コードアソシエーションのためのNLPとマルチラベル分類の最新の進歩を組み合わせたモデルを提案する。 フランス語における臨床データセットの公正な実験により、我々のアプローチは、最先端の結果と比較してF_1$-scoreのメトリクスを55%以上増やすことが示されている。

Automatically associating ICD codes with electronic health data is a well-known NLP task in medical research. NLP has evolved significantly in recent years with the emergence of pre-trained language models based on Transformers architecture, mainly in the English language. This paper adapts these models to automatically associate the ICD codes. Several neural network architectures have been experimented with to address the challenges of dealing with a large set of both input tokens and labels to be guessed. In this paper, we propose a model that combines the latest advances in NLP and multi-label classification for ICD-10 code association. Fair experiments on a Clinical dataset in the French language show that our approach increases the $F_1$-score metric by more than 55\% compared to state-of-the-art results.
翻訳日:2023-04-07 15:06:03 公開日:2023-04-06
# テネシー州におけるコネクテッド・自動車両投資とスマートインフラストラクチャー(第3報) インフラと車体通信:専用短距離通信から携帯電話車間通信へ

Connected and Automated Vehicles Investment and Smart Infrastructure in Tennessee Part 3: Infrastructure and Vehicular communications: From Dedicated Short-Range Communications to Cellular Vehicle-to-Everything ( http://arxiv.org/abs/2304.02885v1 )

ライセンス: Link先を確認
Asad J. Khattak, Austin Harris, Mina Sartipi, Iman Mahdinia, Nastaran Moradloo, Mohammad SafariTaherkhani(参考訳) 本報告は、テネシー州運輸省の車両・インフラ通信技術に関する決定を支援することを目的とする。 特定短距離通信(DSRC)V2XからC-V2X(Cellular Vehicle to Everything)への移行について,関連する問題についてUSDOTのガイダンスを用いて検討した。 DSRC V2X技術はテネシー州の交通信号で計画されており、例えば152のロードサイドユニット(RSU)は、TDOTがI-24スマート廊下でDSRC V2XとBluetoothの組み合わせユニットを使用して計画している。 同様に、全国の多くのパイロットプログラムやテストベッドがDSRC V2X技術を配備しており、連邦通信委員会(FCC)による安全帯の開放に関する裁定の影響を受けている。 つまり、DSRC V2Xのデプロイメント(と将来のデプロイメント)は、C-V2Xに移行する必要があるということだ。 特に、LTE C-V2Xと共にデュアルモードRASが利用可能である。 移行はベンダーと共同で行うことができるが、DSRC V2XデバイスをLTE C-V2Xデバイスに置き換える以上のものが存在することは確かだ。 C-V2Xへの移行を複雑にすることは、交通信号の運用と保守におけるTDOTの役割であり、信号の資金提供と設計・構築に限られる。 そのため、地方機関はTDOTと協力してC-V2X技術を運用・維持する。 さらに、C-V2X技術は、許可されていないデバイスによって広くテストされることなく、チャネルの混雑が安全クリティカルなアプリケーションに悪影響を及ぼす可能性がある。 これらの技術への移行のかなりの不確実性を考えると、TDOTはIOOsとC-V2Xの運用とメンテナンスについて議論し、TDOTはデュアルモードデバイスの実験に投資するのに対して、解決の問題を待つ必要があるかもしれない。 推奨事項は、デュアルモードデバイス、CAVデータ、必要な研究とテストである。

This report aims to support the Tennessee Department of Transportation's decisions about vehicle and infrastructure communication technologies. The transition from Dedicated Short-Range communication (DSRC) V2X to Cellular Vehicle to Everything (C-V2X) is explored using USDOT guidance on relevant issues and presenting the results of experimentation in Tennessee and the potential pros and cons. DSRC V2X technology has been planned at traffic signal in Tennessee, e.g., 152 Roadside Units (RSUs) were planned by TDOT using DSRC V2X and Bluetooth combination units in the I-24 smart corridor. Similarly, many pilot programs and testbeds around the nation have deployed DSRC V2X technology and are now impacted by the Federal Communication Commission's (FCC) ruling on opening safety band. The implication is that DSRC V2X deployments (and future deployments) should migrate to C-V2X. Notably, dual-mode RSUs are available along with LTE C-V2X. The transition can be done by working with vendors, but surely this involves more than swapping DSRC V2X devices with LTE C-V2X devices. Complicating the migration to C-V2X is TDOT's role in traffic signal operations and maintenance, which is limited to funding and designing/construction of traffic signals, but local agencies operate and maintain signals. Hence, local agencies will work with TDOT to operate and maintain C-V2X technology. Moreover, C-V2X technologies are not widely tested-interference by unlicensed devices and channel congestion can adversely affect safety-critical applications. Given the substantial uncertainties in transitioning to these technologies, TDOT's discussion with IOOs about the operation and maintenance of C-V2X may have to wait for the resolution issues, while TDOT can invest in experimentation with dual-mode devices. Recommendations are provided about dual-mode devices, CAV data, and needed research and testing.
翻訳日:2023-04-07 15:05:50 公開日:2023-04-06
# ユニタリランダム操作下での量子ビットネットワークから時間結晶相が出現する

The time crystal phase emerges from the qubit network under unitary random operations ( http://arxiv.org/abs/2304.02884v1 )

ライセンス: Link先を確認
He Wang and Jin Wang(参考訳) 本稿では,オープン量子システム理論におけるランダムユニタリ進化モデルを用いて,完全連結量子ビットネットワークで観測される非定常挙動について報告する。 環境効果は、ある確率で1組の量子ビット間の部分スワップ(PSW)相互作用に反映される。 我々の研究は単純なイジング型ハミルトニアンから始まり、ランダムユニタリ進化の多くの反復を通じて、初期状態の特定の記憶を符号化する非定常振動状態が発生するかもしれない。 いくつかの局所観測対象の非自明な周期運動は、連続時間結晶相を示す。 また,本研究の他のタイプのハミルトニアンへの拡張についても検討し,この非定常挙動が一般化された力学対称性によりモデルに広く分布することを示した。 本研究は,オープンシステムモデルにおける時間結晶相構築のための新たな展望を提供する。

In this paper, we report findings of non-stationary behavior observed in a fully connected qubit network, utilizing a random unitary evolution model in open quantum system theory. The environmental effect is reflected in the partial swap (PSW) interaction between pairs of qubits with a certain probability. Our study begins with a simple Ising-type Hamiltonian and through many iterations of random unitary evolution, a non-stationary oscillatory state may arise, which encodes certain memory of the initial state. The non-trivial periodic motion of some local observables is indicative of a continuous time crystal phase. We also explore the extension of our study to other types of Hamiltonians and demonstrate that this non-stationary behavior is widespread in our model due to the generalized dynamical symmetry. Our research provides a new perspective for constructing the time crystal phase in an open system model.
翻訳日:2023-04-07 15:05:13 公開日:2023-04-06
# GA-HQS:ジェネリックアクセラレーションによるMRI再構成

GA-HQS: MRI reconstruction via a generically accelerated unfolding approach ( http://arxiv.org/abs/2304.02883v1 )

ライセンス: Link先を確認
Jiawei Jiang, Yuchao Feng, Honghui Xu, Wanjun Chen, Jianwei Zheng(参考訳) 深部展開ネットワーク(DUN)は、圧縮センシングMRIの領域における最前線の手法であり、学習可能なネットワークを用いて、解釈可能なフォワード推論演算子を促進することができる。 しかし、一階最適化アルゴリズムへの重依存、情報融合機構の不十分、長距離関係のキャプチャの限界など、いくつかの問題がまだ残っている。 この問題に対処するために,2階勾配情報とピラミッドアテンションモジュールを組み込んだGA-HQSアルゴリズムを提案し,画素レベルでの入力の微妙な融合を行う。 さらに、グローバル特徴表現を強化するために、マルチスケールスプリットトランスも設計されている。 総合的な実験により,本手法は単コイルMRI加速タスクにおいて従来よりも優れていることが示された。

Deep unfolding networks (DUNs) are the foremost methods in the realm of compressed sensing MRI, as they can employ learnable networks to facilitate interpretable forward-inference operators. However, several daunting issues still exist, including the heavy dependency on the first-order optimization algorithms, the insufficient information fusion mechanisms, and the limitation of capturing long-range relationships. To address the issues, we propose a Generically Accelerated Half-Quadratic Splitting (GA-HQS) algorithm that incorporates second-order gradient information and pyramid attention modules for the delicate fusion of inputs at the pixel level. Moreover, a multi-scale split transformer is also designed to enhance the global feature representation. Comprehensive experiments demonstrate that our method surpasses previous ones on single-coil MRI acceleration tasks.
翻訳日:2023-04-07 15:04:57 公開日:2023-04-06
# 問題のタグ:イシュートラッキングシステムにAPIドメインラベルを適用する

Tag that issue: Applying API-domain labels in issue tracking systems ( http://arxiv.org/abs/2304.02877v1 )

ライセンス: Link先を確認
Fabio Santos, Joseph Vargovich, Bianca Trinkenreich, Italo Santos, Jacob Penney, Ricardo Britto, Jo\~ao Felipe Pimentel, Igor Wiese, Igor Steinmacher, Anita Sarma, Marco A. Gerosa(参考訳) 完了に必要なスキルをラベル付けすることで、コントリビュータがオープンソースプロジェクトのタスクを選択するのに役立つ。 しかし、手動で問題をラベリングするのは時間がかかり、エラーが発生しやすいため、現在の自動化アプローチは、主にバグ/非バグとして問題を分類することに限られている。 ハイレベルなAPIカテゴリである“APIドメイン”と呼ばれる問題の自動ラベリングの実現可能性と妥当性について検討する。 したがって、問題によって影響を受けるソースコードで使用されるAPIは、この問題に取り組むために必要なスキル(DB、セキュリティ、UIなど)のプロキシになり得ると仮定する。 ユーザ調査(n=74)を実施し,潜在的コントリビュータに対するapiドメインラベルの関連性を評価し,問題の記述とプロジェクト履歴を活用して予測モデルを構築し,プロジェクトのコントリビュータ(n=20)による予測を検証する。 私たちの結果は i) プロジェクトの新参者は、タスクの選択に有用なAPIドメインラベルを検討する。 (ii)ラベルは、84%の精度で平均78.6%のリコールで予測できる。 三 プロジェクトと訓練し、他の分野での試験を行うときの精度が71.3%、リコール率52.5%に達すること。 (iv)プロジェクトコントリビュータは、必要なスキルを特定するのに役立つ予測のほとんどを考慮する。 これらの結果から,我々のアプローチは問題を自動的にラベル付けするために実践的に適用可能であることが示唆された。

Labeling issues with the skills required to complete them can help contributors to choose tasks in Open Source Software projects. However, manually labeling issues is time-consuming and error-prone, and current automated approaches are mostly limited to classifying issues as bugs/non-bugs. We investigate the feasibility and relevance of automatically labeling issues with what we call "API-domains," which are high-level categories of APIs. Therefore, we posit that the APIs used in the source code affected by an issue can be a proxy for the type of skills (e.g., DB, security, UI) needed to work on the issue. We ran a user study (n=74) to assess API-domain labels' relevancy to potential contributors, leveraged the issues' descriptions and the project history to build prediction models, and validated the predictions with contributors (n=20) of the projects. Our results show that (i) newcomers to the project consider API-domain labels useful in choosing tasks, (ii) labels can be predicted with a precision of 84% and a recall of 78.6% on average, (iii) the results of the predictions reached up to 71.3% in precision and 52.5% in recall when training with a project and testing in another (transfer learning), and (iv) project contributors consider most of the predictions helpful in identifying needed skills. These findings suggest our approach can be applied in practice to automatically label issues, assisting developers in finding tasks that better match their skills.
翻訳日:2023-04-07 15:04:44 公開日:2023-04-06
# ResNet50バックボーンを用いた移行学習によるマラリアのコンピュータ診断

Computer-aided Diagnosis of Malaria through Transfer Learning using the ResNet50 Backbone ( http://arxiv.org/abs/2304.02925v1 )

ライセンス: Link先を確認
Sanya Sinha and Nilay Gupta(参考訳) 2022年の世界マラリア報告書によると、2021年に2億2700万人のマラリアと619,000人の死者が報告された。 これは、特にアフリカ、東南アジア、中央アメリカ、南アメリカの熱帯・亜熱帯地域において、この病気の優位性を強調している。 マラリアはプラスモジウム寄生虫によって引き起こされるが、これはメスのアノフェレス蚊の刺し通しによって引き起こされる。 したがって、ヒト血液塗抹中の寄生虫の検出はマラリアの感染を確認できた。 プラズモジウムを手動で識別することは, 精度の変動を考慮した長大かつ時間を要する作業であるため, ResNet50 Deep Neural Network を用いて, マラリアの細いスミア細胞像を寄生・感染しないものと分類するコンピュータ支援診断手法を提案する。 本稿では,国立医学図書館リスナーヒル国立生物医学コミュニケーションセンターが150年間にわたって提供しているオープンアクセスデータベース上で,事前学習されたresnet50モデルを用いた。 その結果、ResNet50(提案)モデルで98.75%、99.3%、99.5%の精度、精度、リコール値が得られた。 これらの指標を,vgg16,流域セグメンテーション,ランダムフォレストといった,従来の手法よりも優れた性能を示す類似モデルと比較した。

According to the World Malaria Report of 2022, 247 million cases of malaria and 619,000 related deaths were reported in 2021. This highlights the predominance of the disease, especially in the tropical and sub-tropical regions of Africa, parts of South-east Asia, Central and Southern America. Malaria is caused due to the Plasmodium parasite which is circulated through the bites of the female Anopheles mosquito. Hence, the detection of the parasite in human blood smears could confirm malarial infestation. Since the manual identification of Plasmodium is a lengthy and time-consuming task subject to variability in accuracy, we propose an automated, computer-aided diagnostic method to classify malarial thin smear blood cell images as parasitized and uninfected by using the ResNet50 Deep Neural Network. In this paper, we have used the pre-trained ResNet50 model on the open-access database provided by the National Library of Medicine's Lister Hill National Center for Biomedical Communication for 150 epochs. The results obtained showed accuracy, precision, and recall values of 98.75%, 99.3% and 99.5% on the ResNet50(proposed) model. We have compared these metrics with similar models such as VGG16, Watershed Segmentation and Random Forest, which showed better performance than traditional techniques as well.
翻訳日:2023-04-07 14:57:22 公開日:2023-04-06
# 物理人工知能のガバナンス

The Governance of Physical Artificial Intelligence ( http://arxiv.org/abs/2304.02924v1 )

ライセンス: Link先を確認
Yingbo Li, Anamaria-Beatrice Spulber, Yucong Duan(参考訳) 物理的人工知能は、人工知能の最も重要な課題の1つであることを証明できる。 物理的な人工知能のガバナンスは、社会におけるその責任あるインテリジェントな応用を定義する。

Physical artificial intelligence can prove to be one of the most important challenges of the artificial intelligence. The governance of physical artificial intelligence would define its responsible intelligent application in the society.
翻訳日:2023-04-07 14:57:00 公開日:2023-04-06
# 顔解析情報による超解像顔画像

Super-Resolving Face Image by Facial Parsing Information ( http://arxiv.org/abs/2304.02923v1 )

ライセンス: Link先を確認
Chenyang Wang, Junjun Jiang, Zhiwei Zhong, Deming Zhai, and Xianming Liu(参考訳) 顔超解像は、低解像度の顔画像を対応する高解像度の画像に変換する技術である。 本稿では,低解像度の顔画像から直接顔先(すなわち解析マップ)を抽出する,新しい解析マップ誘導面超解像ネットワークを構築する。 抽出した先行情報を十分に活用するために、解析マップの情報を効果的に探索するだけでなく、強力な注意機構を組み合わせることができる解析マップ注意融合ブロックを慎重に設計する。 さらに,高分解能機能はより正確な空間情報を含み,低分解能機能は強い文脈情報を提供するため,これらの補完的情報を維持・活用したい。 この目的を達成するために,空間情報と文脈情報を維持するマルチスケール精細ブロックを開発し,マルチスケール機能を利用して特徴表現を洗練させる。 実験の結果,本手法は定量的な測定値と視覚的品質で最先端の手法であることがわかった。 ソースコードはhttps://github.com/wcy-cs/FishFSRNetで入手できる。

Face super-resolution is a technology that transforms a low-resolution face image into the corresponding high-resolution one. In this paper, we build a novel parsing map guided face super-resolution network which extracts the face prior (i.e., parsing map) directly from low-resolution face image for the following utilization. To exploit the extracted prior fully, a parsing map attention fusion block is carefully designed, which can not only effectively explore the information of parsing map, but also combines powerful attention mechanism. Moreover, in light of that high-resolution features contain more precise spatial information while low-resolution features provide strong contextual information, we hope to maintain and utilize these complementary information. To achieve this goal, we develop a multi-scale refine block to maintain spatial and contextual information and take advantage of multi-scale features to refine the feature representations. Experimental results demonstrate that our method outperforms the state-of-the-arts in terms of quantitative metrics and visual quality. The source codes will be available at https://github.com/wcy-cs/FishFSRNet.
翻訳日:2023-04-07 14:56:57 公開日:2023-04-06
# 量子キャリーヘッド加算器のための高次ラジックスアーキテクチャ

A Higher Radix Architecture for Quantum Carry-lookahead Adder ( http://arxiv.org/abs/2304.02921v1 )

ライセンス: Link先を確認
Siyi Wang and Anubhab Baksi and Anupam Chattopadhyay(参考訳) %109ワード この論文では,高基数構造に基づく効率的な量子キャリーヘッド加算器を提案する。 2つの$n$-bit数値を加算するために、加算器は$O(n)-O(\frac{n}{r})$ qubits と $O(n)+O(\frac{n}{r})$ T gates を使い、T-deepth $O(r)+O(\log{\frac{n}{r}})$で正しい答えを得る。 量子キャリーヘッド添加剤は、T深度が低いため、既に注目を集めている。 我々の研究は、高基数層を導入することで全体的なコストを削減する。 T-deepth, T-count, qubit countのパフォーマンスを解析することにより, 提案した加算器は既存の量子キャリーヘッド加算器よりも優れていることを示す。 非常にコンパクトで効率的であるDraperのアウト・オブ・プレース加算器と比較しても、我々の加算器はTカウントの点でまだ優れている。

%109 words In this paper, we propose an efficient quantum carry-lookahead adder based on the higher radix structure. For the addition of two $n$-bit numbers, our adder uses $O(n)-O(\frac{n}{r})$ qubits and $O(n)+O(\frac{n}{r})$ T gates to get the correct answer in T-depth $O(r)+O(\log{\frac{n}{r}})$, where $r$ is the radix. Quantum carry-lookahead adder has already attracted some attention because of its low T-depth. Our work further reduces the overall cost by introducing a higher radix layer. By analyzing the performance in T-depth, T-count, and qubit count, it is shown that the proposed adder is superior to existing quantum carry-lookahead adders. Even compared to the Draper out-of-place adder which is very compact and efficient, our adder is still better in terms of T-count.
翻訳日:2023-04-07 14:56:39 公開日:2023-04-06
# パッチアウトとテキスト誘導による効率的な音声字幕変換器

Efficient Audio Captioning Transformer with Patchout and Text Guidance ( http://arxiv.org/abs/2304.02916v1 )

ライセンス: Link先を確認
Thodoris Kouzelis, Grigoris Bastas, Athanasios Katsamanis and Alexandros Potamianos(参考訳) 自動音声キャプション(automated audio captioning)は、与えられた音声クリップのテキスト記述を生成するマルチモーダル翻訳タスクである。 本稿では,Patchoutを[1]で提案したようにフルトランスフォーマーアーキテクチャを提案し,計算複雑性を大幅に低減し,オーバーフィッティングを回避する。 このキャプション生成は、事前訓練された分類モデルにより抽出されたテキストAudioSetタグに部分的に条件付けされ、AudioSetラベルと接地真理字幕とのセマンティックな類似性を最大化するために微調整される。 自動音声キャプションにおけるデータ不足問題を解決するために,上流の音声関連タスクと拡大したインドメインデータセットからの転送学習を導入する。 さらに,AACにMixup Augmentationを適用する手法を提案する。 Patchoutとテキストガイダンスが最終的なパフォーマンスにどのように貢献するかを調べるためのアブレーション研究を行った。 その結果,提案手法はシステムの性能を向上し,計算複雑性を低減できることがわかった。 提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。

Automated audio captioning is multi-modal translation task that aim to generate textual descriptions for a given audio clip. In this paper we propose a full Transformer architecture that utilizes Patchout as proposed in [1], significantly reducing the computational complexity and avoiding overfitting. The caption generation is partly conditioned on textual AudioSet tags extracted by a pre-trained classification model which is fine-tuned to maximize the semantic similarity between AudioSet labels and ground truth captions. To mitigate the data scarcity problem of Automated Audio Captioning we introduce transfer learning from an upstream audio-related task and an enlarged in-domain dataset. Moreover, we propose a method to apply Mixup augmentation for AAC. Ablation studies are carried out to investigate how Patchout and text guidance contribute to the final performance. The results show that the proposed techniques improve the performance of our system and while reducing the computational complexity. Our proposed method received the Judges Award at the Task6A of DCASE Challenge 2022.
翻訳日:2023-04-07 14:56:16 公開日:2023-04-06
# 高次元超統計特徴の分類

Classification of Superstatistical Features in High Dimensions ( http://arxiv.org/abs/2304.02912v1 )

ライセンス: Link先を確認
Urte Adomaityte, Gabriele Sicuro, Pierpaolo Vivo(参考訳) 一般凸損失と凸正則化を前提に,高次元状態における経験的リスク最小化による2つのデータポイントと汎用セントロイドの混合学習を特徴付ける。 データポイントの各クラウドは、一般確率密度 $\varrho$ の分散を持つガウス分布のおそらく非可算な重ね合わせからサンプリングすることによって得られる。 そこで本分析では,共分散を伴わないパワーローテール分布を含む,大量のデータ分布を網羅する。 得られた推定器の一般化性能について検討し,正規化の役割と分散スケールパラメータへの分離性遷移の依存性を解析した。

We characterise the learning of a mixture of two clouds of data points with generic centroids via empirical risk minimisation in the high dimensional regime, under the assumptions of generic convex loss and convex regularisation. Each cloud of data points is obtained by sampling from a possibly uncountable superposition of Gaussian distributions, whose variance has a generic probability density $\varrho$. Our analysis covers therefore a large family of data distributions, including the case of power-law-tailed distributions with no covariance. We study the generalisation performance of the obtained estimator, we analyse the role of regularisation, and the dependence of the separability transition on the distribution scale parameters.
翻訳日:2023-04-07 14:55:57 公開日:2023-04-06
# 深部ニューラルネットワークにおける重み行列の重み付き正規化

Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks ( http://arxiv.org/abs/2304.02911v1 )

ライセンス: Link先を確認
Xuanzhe Xiao, Zeng Li, Chuanlong Xie, Fengwei Zhou(参考訳) ディープニューラルネットワークの驚くべき成功と例外的な一般化能力の背後にある理由を解明することは、非常に難しい課題である。 ランダム行列理論、特にディープニューラルネットワークにおける重み行列のスペクトル解析に関する最近の知見は、この問題に対処するための貴重な手がかりを提供する。 ニューラルネットワークの一般化性能は、その重み行列のスペクトルにおける重みの程度と関連していることを示す重要な発見である。 この発見を活かし、重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化を通じて重み付きスペクトルを明示的に促進する。 まず、重み付きアルファと安定ランクをペナルティ用語として使い、どちらも微分可能であり、勾配の直接計算を可能にします。 過正規化を回避するために,ペナルティ関数の2つのバリエーションを導入する。 そこで,ベイズ統計の観点を取り入れ,ランダム行列からの知識を活用することにより,大域スペクトルの先行値としてPowerlaw分布とFrechet分布を利用する2つの新しい重み付き正規化手法を開発した。 重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。

Unraveling the reasons behind the remarkable success and exceptional generalization capabilities of deep neural networks presents a formidable challenge. Recent insights from random matrix theory, specifically those concerning the spectral analysis of weight matrices in deep neural networks, offer valuable clues to address this issue. A key finding indicates that the generalization performance of a neural network is associated with the degree of heavy tails in the spectrum of its weight matrices. To capitalize on this discovery, we introduce a novel regularization technique, termed Heavy-Tailed Regularization, which explicitly promotes a more heavy-tailed spectrum in the weight matrix through regularization. Firstly, we employ the Weighted Alpha and Stable Rank as penalty terms, both of which are differentiable, enabling the direct calculation of their gradients. To circumvent over-regularization, we introduce two variations of the penalty function. Then, adopting a Bayesian statistics perspective and leveraging knowledge from random matrices, we develop two novel heavy-tailed regularization methods, utilizing Powerlaw distribution and Frechet distribution as priors for the global spectrum and maximum eigenvalues, respectively. We empirically show that heavytailed regularization outperforms conventional regularization techniques in terms of generalization performance.
翻訳日:2023-04-07 14:55:44 公開日:2023-04-06
# memefier:イメージミーム分類のためのデュアルステージモダリティ融合

MemeFier: Dual-stage Modality Fusion for Image Meme Classification ( http://arxiv.org/abs/2304.02906v1 )

ライセンス: Link先を確認
Christos Koutlis, Manos Schinas, Symeon Papadopoulos(参考訳) ヘイトスピーチは、インターネットを通じて大きく成長した社会問題である。 画像ミームのような新しい形式のデジタルコンテンツは、マルチモーダルな手段で憎悪の拡散を引き起こしており、ユニモーダルの場合に比べて解析と検出がはるかに困難である。 この種のコンテンツの正確な自動処理、分析、理解は、デジタル世界を通じたヘイトスピーチの拡散を妨げる努力を促進する。 そこで本研究では,インターネット画像ミームの細粒度分類のための深層学習ベースアーキテクチャであるmemefierを提案する。 第1融合ステージは、ミームのテキストと画像との非自明な接続をキャプチャするモダリティアライメント情報を含む特徴ベクトルを生成する。 第2の融合段階はトランスフォーマーエンコーダのパワーを利用してトークンレベルでモダリティ間の相関を学習し、情報表現を与える。 さらに,外部知識を付加的な入力とみなし,背景画像キャプションの監督を正規化コンポーネントとする。 広く採用されている3つのベンチマーク、すなわちfacebookのヘイトフルミーム、memotion7k、multioffに関する広範な実験は、我々のアプローチが競合し、場合によっては最先端を上回っていることを示している。 コードはgithub https://github.com/ckoutlis/memefierで入手できます。

Hate speech is a societal problem that has significantly grown through the Internet. New forms of digital content such as image memes have given rise to spread of hate using multimodal means, being far more difficult to analyse and detect compared to the unimodal case. Accurate automatic processing, analysis and understanding of this kind of content will facilitate the endeavor of hindering hate speech proliferation through the digital world. To this end, we propose MemeFier, a deep learning-based architecture for fine-grained classification of Internet image memes, utilizing a dual-stage modality fusion module. The first fusion stage produces feature vectors containing modality alignment information that captures non-trivial connections between the text and image of a meme. The second fusion stage leverages the power of a Transformer encoder to learn inter-modality correlations at the token level and yield an informative representation. Additionally, we consider external knowledge as an additional input, and background image caption supervision as a regularizing component. Extensive experiments on three widely adopted benchmarks, i.e., Facebook Hateful Memes, Memotion7k and MultiOFF, indicate that our approach competes and in some cases surpasses state-of-the-art. Our code is available on GitHub https://github.com/ckoutlis/memefier.
翻訳日:2023-04-07 14:55:23 公開日:2023-04-06
# 爆発対称性によるベイズニューラルネットワークの効率的なMCMCサンプリングに向けて

Towards Efficient MCMC Sampling in Bayesian Neural Networks by Exploiting Symmetry ( http://arxiv.org/abs/2304.02902v1 )

ライセンス: Link先を確認
Jonas Gregor Wiese, Lisa Wimmer, Theodore Papamarkou, Bernd Bischl, Stephan G\"unnemann, David R\"ugamer(参考訳) ディープニューラルネットワークにおけるベイズ推論は、高次元、強いマルチモーダルパラメータ後続密度ランドスケープのために困難である。 マルコフ連鎖モンテカルロは漸近的に後背部を回復するが、大規模な近代建築には必然的に高価であると考えられている。 一般的な代替として出現した局所メソッドは、扱いやすい積分を持つ関数によって近似できる特定のパラメータ領域に焦点を当てている。 これらはしばしば十分な実験結果をもたらすが、定義上、後方のパラメータのマルチモーダリティを考慮すると失敗する。 本研究では, 後部景観の対称性を生かして, 厳密かつ非陳腐なアプローチのジレンマを軽減できることを論じる。 このような対称性はニューロンの交換性や特定の活性化関数によって誘導され、異なるパラメータ値で同じ関数出力値につながる。 ベイジアンニューラルネットワークの後方予測密度は、対称性のないパラメータ参照集合に制限できることを理論的に示す。 さらに、機能的多様性を捉えるのに必要なモンテカルロ鎖の数の上界を導出することにより、実現可能なベイズ推定のための簡単なアプローチを提案する。 実験の結果, 効率的なサンプリングが可能であることが示唆され, 深層学習における正確な不確実性定量化への道が開かれた。

Bayesian inference in deep neural networks is challenging due to the high-dimensional, strongly multi-modal parameter posterior density landscape. Markov chain Monte Carlo approaches asymptotically recover the true posterior but are considered prohibitively expensive for large modern architectures. Local methods, which have emerged as a popular alternative, focus on specific parameter regions that can be approximated by functions with tractable integrals. While these often yield satisfactory empirical results, they fail, by definition, to account for the multi-modality of the parameter posterior. In this work, we argue that the dilemma between exact-but-unaffordable and cheap-but-inexact approaches can be mitigated by exploiting symmetries in the posterior landscape. Such symmetries, induced by neuron interchangeability and certain activation functions, manifest in different parameter values leading to the same functional output value. We show theoretically that the posterior predictive density in Bayesian neural networks can be restricted to a symmetry-free parameter reference set. By further deriving an upper bound on the number of Monte Carlo chains required to capture the functional diversity, we propose a straightforward approach for feasible Bayesian inference. Our experiments suggest that efficient sampling is indeed possible, opening up a promising path to accurate uncertainty quantification in deep learning.
翻訳日:2023-04-07 14:55:01 公開日:2023-04-06
# spanre: スパンとエンティティの注意に基づくエンティティと重複したリレーション抽出

SpanRE: Entities and Overlapping Relations Extraction Based on Spans and Entity Attention ( http://arxiv.org/abs/2304.02901v1 )

ライセンス: Link先を確認
Hao Zhang(参考訳) 実体と関係の抽出は情報抽出の重要な課題である。 文から抽出された三重項は互いに重なり合うことがある。 以前の方法は重複する問題に対処しなかったり、重複する問題を部分的に解決した。 トリプルト重なり問題に完全に取り組むため,まず,標準スパン機構を用いて候補課題を抽出する。 次に, 対象と関係を同時に抽出するラベル付きスパン機構を示し, ラベル付きスパン機構を用いて, 開始位置と終了位置が対象と対象の関係に対応するラベル付きスパンを生成する。 さらに,対象物と関係を抽出する際の主語と文間の情報融合を強化するエンティティアテンション機構を設計する。 提案手法は2つの公開データセット上でテストし,この2つのデータセット上で最高の性能を実現する。

Extracting entities and relations is an essential task of information extraction. Triplets extracted from a sentence might overlap with each other. Previous methods either did not address the overlapping issues or solved overlapping issues partially. To tackle triplet overlapping problems completely, firstly we extract candidate subjects with a standard span mechanism. Then we present a labeled span mechanism to extract the objects and relations simultaneously, we use the labeled span mechanism to generate labeled spans whose start and end positions indicate the objects, and whose labels correspond to relations of subject and objects. Besides, we design an entity attention mechanism to enhance the information fusion between subject and sentence during extracting objects and relations. We test our method on two public datasets, our method achieves the best performances on these two datasets.
翻訳日:2023-04-07 14:54:40 公開日:2023-04-06
# fengwu:世界の中距離気象予報を10日間以上先導

FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead ( http://arxiv.org/abs/2304.02948v1 )

ライセンス: Link先を確認
Kang Chen and Tao Han and Junchao Gong and Lei Bai and Fenghua Ling and Jing-Jia Luo and Xi Chen and Leiming Ma and Tianning Zhang and Rui Su and Yuanzheng Ci and Bin Li and Xiaokang Yang and Wanli Ouyang(参考訳) 我々は人工知能(AI)に基づく先進的なデータ駆動型中距離気象予報システムであるFengWuを紹介する。 既存のデータ駆動型天気予報手法とは異なり、fengwuはマルチモーダルおよびマルチタスクの観点から中距離予測問題を解く。 具体的には、モデル固有のエンコーダデコーダとクロスモーダル融合変換器を備えたディープラーニングアーキテクチャを精巧に設計し、不確実性損失の監督の下で学習し、異なる予測器の最適化を地域適応的にバランスさせる。 さらに、中距離予測性能を改善するために、リプレイバッファ機構を導入する。 ERA5の再分析に基づく39年間のデータトレーニングにより、FengWuは大気力学を正確に再現し、0.25{\deg}緯度経度で37の垂直レベルで将来の陸と大気の状態を予測することができる。 ERA5に基づく2018年の6時間の天気予報は、FengWuがGraphCastよりも優れたパフォーマンスを示し、例えば10日間のリードグローバルz500予測の根平均二乗誤差(RMSE)を733から651$m^{2}/s^2$に減らした。 さらに、各イテレーションの推論コストは、NVIDIA Tesla A100ハードウェアの600msに過ぎない。 その結果,fengwuは予測能力を大幅に向上させ,世界中距離気象予報を10.75日リード(accはz500 > 0.6)に拡張できることが示唆された。

We present FengWu, an advanced data-driven global medium-range weather forecast system based on Artificial Intelligence (AI). Different from existing data-driven weather forecast methods, FengWu solves the medium-range forecast problem from a multi-modal and multi-task perspective. Specifically, a deep learning architecture equipped with model-specific encoder-decoders and cross-modal fusion Transformer is elaborately designed, which is learned under the supervision of an uncertainty loss to balance the optimization of different predictors in a region-adaptive manner. Besides this, a replay buffer mechanism is introduced to improve medium-range forecast performance. With 39-year data training based on the ERA5 reanalysis, FengWu is able to accurately reproduce the atmospheric dynamics and predict the future land and atmosphere states at 37 vertical levels on a 0.25{\deg} latitude-longitude resolution. Hindcasts of 6-hourly weather in 2018 based on ERA5 demonstrate that FengWu performs better than GraphCast in predicting 80\% of the 880 reported predictands, e.g., reducing the root mean square error (RMSE) of 10-day lead global z500 prediction from 733 to 651 $m^{2}/s^2$. In addition, the inference cost of each iteration is merely 600ms on NVIDIA Tesla A100 hardware. The results suggest that FengWu can significantly improve the forecast skill and extend the skillful global medium-range weather forecast out to 10.75 days lead (with ACC of z500 > 0.6) for the first time.
翻訳日:2023-04-07 14:49:12 公開日:2023-04-06
# リアルタイムIoTシステムにおける新規性検出のための適応的・解釈可能なフレームワーク

Adaptable and Interpretable Framework for Novelty Detection in Real-Time IoT Systems ( http://arxiv.org/abs/2304.02947v1 )

ライセンス: Link先を確認
Marek Wadinger and Michal Kvasnica(参考訳) 本稿では,リアルタイム適応・解釈検出(RAID)アルゴリズムを提案する。 モデル学習条件の範囲内での異常検出に制限される多変量動的プロセスに対する最先端の異常検出手法の限界に対処する。 RAIDアルゴリズムは、データドリフトやモデル開発中に考慮されない変更点などの非定常効果に適応し、サービス寿命が長くなる。 連立確率分布に基づく動的モデルは、システム内の異常な挙動検出と適応的なプロセス制限に基づく根本原因分離を扱う。 RAIDアルゴリズムは既存のプロセス自動化インフラストラクチャの変更を必要としないため、異なるドメインにまたがって高度にデプロイできる。 実動的システムデータを含む2つのケーススタディは、変更点適応、根本原因分離、検出精度の向上を含むRAIDアルゴリズムの利点を示している。

This paper presents the Real-time Adaptive and Interpretable Detection (RAID) algorithm. The novel approach addresses the limitations of state-of-the-art anomaly detection methods for multivariate dynamic processes, which are restricted to detecting anomalies within the scope of the model training conditions. The RAID algorithm adapts to non-stationary effects such as data drift and change points that may not be accounted for during model development, resulting in prolonged service life. A dynamic model based on joint probability distribution handles anomalous behavior detection in a system and the root cause isolation based on adaptive process limits. RAID algorithm does not require changes to existing process automation infrastructures, making it highly deployable across different domains. Two case studies involving real dynamic system data demonstrate the benefits of the RAID algorithm, including change point adaptation, root cause isolation, and improved detection accuracy.
翻訳日:2023-04-07 14:48:44 公開日:2023-04-06
# BERTを用いたオープンエンド質問の多ラベル分類

Multi-label classification of open-ended questions with BERT ( http://arxiv.org/abs/2304.02945v1 )

ライセンス: Link先を確認
Matthias Schonlau, Julia Wei{\ss}, Jan Marquardt(参考訳) 調査の未解決の質問は、回答者の回答を制限せず、バイアスを避けるために価値がある。 しかし、未解決の質問に対する回答は分析が難しいテキストデータである。 伝統的に、答えは手動でコーディングマニュアルに指定されている。 コーディングを自動化する取り組みのほとんどは、単一のラベル予測の容易な問題に陥り、回答は単一のコードに分類される。 しかし、複数のコードに割り当てられた複数ラベルの分類を必要とするオープンエンドは頻繁に発生する。 本稿では,社会科学調査におけるオープンエンド質問に対するテキスト回答の多ラベル分類に焦点を当てた。 我々は,ドイツの社会科学調査GLES Panel(N=17,584,55ラベル)において,従来のマルチラベルアルゴリズム(Binary Relevance, Label Powerset, ECC)と比較して,変圧器を用いたドイツ語用アーキテクチャBERTの性能を評価する。 BERT (少なくとも1つのラベルを強制する) による分類は、考慮された手法の中で最小の 0/1 の損失 (13.1%) を持つ。 予想通り、単一のラベル(7.1%の損失)に対応する回答テキストを複数のラベルに対応するテキスト(\sim$50%の損失)よりも正確に予測する方がずっと簡単である。 BERTは答えのわずか1.5%でゼロラベルを予測するため、少なくとも1つのラベルを推奨するが、最終的には0/1の損失を下げることはできない。 私たちの研究は社会科学者にとって重要な意味を持っています 1) オープンエンドのために, BERTを用いた多言語分類を行った。 2) 緩やかな多ラベル分類タスクでは, 完全な自動分類が可能になった(半自動的手法と比較して)。 3) bert によるマルチラベル分類は,単一のモデルのみを必要とする。 主要な競合であるeccは、個別の単一ラベル予測を繰り返す。

Open-ended questions in surveys are valuable because they do not constrain the respondent's answer, thereby avoiding biases. However, answers to open-ended questions are text data which are harder to analyze. Traditionally, answers were manually classified as specified in the coding manual. Most of the effort to automate coding has gone into the easier problem of single label prediction, where answers are classified into a single code. However, open-ends that require multi-label classification, i.e., that are assigned multiple codes, occur frequently. This paper focuses on multi-label classification of text answers to open-ended survey questions in social science surveys. We evaluate the performance of the transformer-based architecture BERT for the German language in comparison to traditional multi-label algorithms (Binary Relevance, Label Powerset, ECC) in a German social science survey, the GLES Panel (N=17,584, 55 labels). We find that classification with BERT (forcing at least one label) has the smallest 0/1 loss (13.1%) among methods considered (18.9%-21.6%). As expected, it is much easier to correctly predict answer texts that correspond to a single label (7.1% loss) than those that correspond to multiple labels ($\sim$50% loss). Because BERT predicts zero labels for only 1.5% of the answers, forcing at least one label, while recommended, ultimately does not lower the 0/1 loss by much. Our work has important implications for social scientists: 1) We have shown multi-label classification with BERT works in the German language for open-ends. 2) For mildly multi-label classification tasks, the loss now appears small enough to allow for fully automatic classification (as compared to semi-automatic approaches). 3) Multi-label classification with BERT requires only a single model. The leading competitor, ECC, iterates through individual single label predictions.
翻訳日:2023-04-07 14:48:29 公開日:2023-04-06
# InterFormer:リアルタイムインタラクティブイメージセグメンテーション

InterFormer: Real-time Interactive Image Segmentation ( http://arxiv.org/abs/2304.02942v1 )

ライセンス: Link先を確認
You Huang, Hao Yang, Ke Sun, Shengchuan Zhang, Guannan Jiang, Rongrong Ji, Liujuan Cao(参考訳) インタラクティブな画像セグメンテーションにより、アノテーションはセグメンテーションタスクのピクセルレベルのアノテーションを効率的に実行することができる。 しかし、既存のインタラクティブセグメンテーションパイプラインは、以下の2つの問題により、インタラクティブモデルの非効率な計算に苦しむ。 第一に、アノテーションの後のクリックは、アノテーションの前のクリックに対するモデルのフィードバックに基づいている。 このシリアル相互作用はモデルの並列性を利用できない。 第二に、モデルが繰り返し画像を処理し、アノテータの現在のクリックと、アノテータの以前のクリックに対するモデルからのフィードバックを相互作用の各ステップで処理し、冗長な計算を行う必要がある。 そこで我々は,これらの問題に対処する新しいパイプラインに従うInterFormerという手法を提案する。 インターフォーマは、計算時間消費部、すなわち既存のプロセスから画像処理を抽出・前処理する。 具体的には、InterFormerは高速デバイスに大きな視覚変換器(ViT)を並列に前処理し、インタラクティブなセグメンテーションのためにインタラクティブなマルチヘッド自己注意(I-MSA)と呼ばれる軽量モジュールを使用する。 さらに、I-MSAモジュールの低消費電力デバイスへの展開は、インタラクティブセグメンテーションの実践的応用を拡張している。 I-MSAモジュールは、前処理した機能を利用して、リアルタイムでアノテータ入力に効率的に応答する。 複数のデータセットにおける実験は、計算効率とセグメンテーション品質の観点から従来の対話型セグメンテーションモデルを上回るinterformerの有効性を示し、cpuのみのデバイスでリアルタイムな高品質なインタラクティブセグメンテーションを実現する。

Interactive image segmentation enables annotators to efficiently perform pixel-level annotation for segmentation tasks. However, the existing interactive segmentation pipeline suffers from inefficient computations of interactive models because of the following two issues. First, annotators' later click is based on models' feedback of annotators' former click. This serial interaction is unable to utilize model's parallelism capabilities. Second, the model has to repeatedly process the image, the annotator's current click, and the model's feedback of the annotator's former clicks at each step of interaction, resulting in redundant computations. For efficient computation, we propose a method named InterFormer that follows a new pipeline to address these issues. InterFormer extracts and preprocesses the computationally time-consuming part i.e. image processing from the existing process. Specifically, InterFormer employs a large vision transformer (ViT) on high-performance devices to preprocess images in parallel, and then uses a lightweight module called interactive multi-head self attention (I-MSA) for interactive segmentation. Furthermore, the I-MSA module's deployment on low-power devices extends the practical application of interactive segmentation. The I-MSA module utilizes the preprocessed features to efficiently response to the annotator inputs in real-time. The experiments on several datasets demonstrate the effectiveness of InterFormer, which outperforms previous interactive segmentation models in terms of computational efficiency and segmentation quality, achieve real-time high-quality interactive segmentation on CPU-only devices.
翻訳日:2023-04-07 14:48:02 公開日:2023-04-06
# 有機形状のスケーラブルな物理化のための直接リメッシングとK-set等尺分解

Dr. KID: Direct Remeshing and K-set Isometric Decomposition for Scalable Physicalization of Organic Shapes ( http://arxiv.org/abs/2304.02941v1 )

ライセンス: Link先を確認
Dawar Khan, Ciril Bohak, Ivan Viola(参考訳) KID(Dr. KID)は、ジャガイモ形有機モデルの物理化に等尺分解を用いるアルゴリズムである。 アルゴリズムは、有機形状の単純な正三角形の表面メッシュを作成し、続いて反復的なk平均クラスタリングとリメッシングを行う。 クラスタリングには、距離関数として定義される三角形(セグメント)間の類似性が必要である。 距離関数は、それぞれの三角形の形状を仮想3次元空間の単一点にマッピングする。 したがって、三角形間の距離は、その相似性の程度を示す。 K平均クラスタリングはこの距離とセグメントをkクラスに分類する。 その後、その形状を同一にすることで、同じクラスタ内の三角形間の距離を最小化するためにリメッシングを適用する。 クラスタリングとリメッシングは、同じクラスタ内の三角形間の距離が許容しきい値に達するまで繰り返される。 曲面厚みを判定し,3dプリンティングのためのパズルピースを仕上げるために,曲率認識手法を採用する。 パズルの部品を組み立てるために同じヒンジと穴が作られる。 よりスムーズな結果を得るためには、三角形の分割と曲率を考慮したクラスタリングを用い、3Dプリンティングのための曲面三角形パッチを生成する。 本アルゴリズムは, 各種モデルを用いて評価し, 3Dプリントによる解析を行った。 提案アルゴリズムは,入力幾何学の損失を最小限に抑えつつ,目的の有機形状に対して確実に動作することを示す。

Dr. KID is an algorithm that uses isometric decomposition for the physicalization of potato-shaped organic models in a puzzle fashion. The algorithm begins with creating a simple, regular triangular surface mesh of organic shapes, followed by iterative k-means clustering and remeshing. For clustering, we need similarity between triangles (segments) which is defined as a distance function. The distance function maps each triangle's shape to a single point in the virtual 3D space. Thus, the distance between the triangles indicates their degree of dissimilarity. K-means clustering uses this distance and sorts of segments into k classes. After this, remeshing is applied to minimize the distance between triangles within the same cluster by making their shapes identical. Clustering and remeshing are repeated until the distance between triangles in the same cluster reaches an acceptable threshold. We adopt a curvature-aware strategy to determine the surface thickness and finalize puzzle pieces for 3D printing. Identical hinges and holes are created for assembling the puzzle components. For smoother outcomes, we use triangle subdivision along with curvature-aware clustering, generating curved triangular patches for 3D printing. Our algorithm was evaluated using various models, and the 3D-printed results were analyzed. Findings indicate that our algorithm performs reliably on target organic shapes with minimal loss of input geometry.
翻訳日:2023-04-07 14:47:37 公開日:2023-04-06
# すべてのキーポイント:トリプル、ハイ、ロングジャンプ選手の身体上の任意のキーポイントを検出する

All Keypoints You Need: Detecting Arbitrary Keypoints on the Body of Triple, High, and Long Jump Athletes ( http://arxiv.org/abs/2304.02939v1 )

ライセンス: Link先を確認
Katja Ludwig, Julian Lorenz, Robin Sch\"on, Rainer Lienhart(参考訳) ビデオに基づくパフォーマンス分析は、様々なスポーツ分野のアスリートのコーチによって一般的に使用される。 個々のスポーツにおいて、これらの分析は主に体格を構成する。 本稿では,運動選手の身体の微細な位置を必要とする三段跳躍,高段跳躍,長段跳躍の規律に焦点を当てた。 典型的な人間のポーズ推定データセットは非常に限られたキーポイントのみを提供するが、この場合は不十分である。 そこで本研究では,選手の身体全体における任意のキーポイントを検出するために,注釈付きキーポイントと自動生成セグメンテーションマスクの限定セットを活用する手法を提案する。 評価の結果, 屈曲した肘や膝を含む頭部, 胴体, 手, 足, 腕, 足のキーポイントを検出することができることがわかった。 モデルの入力とトランスフォーマーバックボーンへの埋め込みとして所望のキーポイントをエンコードする様々な手法を分析し比較する。

Performance analyses based on videos are commonly used by coaches of athletes in various sports disciplines. In individual sports, these analyses mainly comprise the body posture. This paper focuses on the disciplines of triple, high, and long jump, which require fine-grained locations of the athlete's body. Typical human pose estimation datasets provide only a very limited set of keypoints, which is not sufficient in this case. Therefore, we propose a method to detect arbitrary keypoints on the whole body of the athlete by leveraging the limited set of annotated keypoints and auto-generated segmentation masks of body parts. Evaluations show that our model is capable of detecting keypoints on the head, torso, hands, feet, arms, and legs, including also bent elbows and knees. We analyze and compare different techniques to encode desired keypoints as the model's input and their embedding for the Transformer backbone.
翻訳日:2023-04-07 14:47:16 公開日:2023-04-06
# 映像アクティビティローカライズのための境界デオライズ

Boundary-Denoising for Video Activity Localization ( http://arxiv.org/abs/2304.02934v1 )

ライセンス: Link先を確認
Mengmeng Xu, Mattia Soldan, Jialin Gao, Shuming Liu, Juan-Manuel P\'erez-R\'ua, Bernard Ghanem(参考訳) ビデオアクティビティローカライゼーション(video activity localization)は、長い未検索ビデオのセマンティックコンテンツの理解と、興味のあるアクションの検索を目的とする。 検索されたアクションの開始位置と終了位置は、ハイライト生成や時間的アクション検出などに使用することができる。 残念ながら、時間的活動は時間的に連続しており、アクション間の明確な切り替わりがないため、アクティビティの正確な境界位置を知ることは非常に難しい。 さらに、イベントの開始と終了の定義は主観的であり、モデルが混乱する可能性がある。 境界の曖昧さを軽減するために,視覚的視点から映像活動のローカライゼーション問題を研究することを提案する。 具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。 トレーニング中、一組のアクションスパンは、制御されたノイズスケールで地上の真実からランダムに生成される。 次に,この過程を境界除算によって逆転し,局所化器が正確な境界を持つアクティビティを予測できるようにし,収束速度を高速化する。 実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。 例えば、QV-Highlightsデータセットでは平均mAPが+12.36%、THUMOS'14データセットでは+1.64%mAP@0.5の増加が観測されている。 さらに、DenoiseLocはTACoSやMADデータセット上での最先端のパフォーマンスを実現しているが、現在の方法に比べて予測ははるかに少ない。

Video activity localization aims at understanding the semantic content in long untrimmed videos and retrieving actions of interest. The retrieved action with its start and end locations can be used for highlight generation, temporal action detection, etc. Unfortunately, learning the exact boundary location of activities is highly challenging because temporal activities are continuous in time, and there are often no clear-cut transitions between actions. Moreover, the definition of the start and end of events is subjective, which may confuse the model. To alleviate the boundary ambiguity, we propose to study the video activity localization problem from a denoising perspective. Specifically, we propose an encoder-decoder model named DenoiseLoc. During training, a set of action spans is randomly generated from the ground truth with a controlled noise scale. Then we attempt to reverse this process by boundary denoising, allowing the localizer to predict activities with precise boundaries and resulting in faster convergence speed. Experiments show that DenoiseLoc advances %in several video activity understanding tasks. For example, we observe a gain of +12.36% average mAP on QV-Highlights dataset and +1.64% mAP@0.5 on THUMOS'14 dataset over the baseline. Moreover, DenoiseLoc achieves state-of-the-art performance on TACoS and MAD datasets, but with much fewer predictions compared to other current methods.
翻訳日:2023-04-07 14:46:59 公開日:2023-04-06
# フレキシブル道路舗装におけるき裂検出のための畳み込みニューラルネットワーク

Convolutional neural networks for crack detection on flexible road pavements ( http://arxiv.org/abs/2304.02933v1 )

ライセンス: Link先を確認
Hermann Tapamo, Anna Bosman, James Maina and Emile Horak(参考訳) フレキシブル道路舗装は主に交通と環境の悪化によって悪化した。 クラッキングは最も一般的な劣化メカニズムであり、その調査は通常、国際的に定義された分類基準を用いて手動で行われる。 南アフリカでは、より安全な道路測量を可能にする高精細度ビデオ画像が導入された。 しかし、測量はいまだに面倒な手作業である。 ひび割れなどの欠陥検出の自動化は、道路網の高速解析を可能にし、人間のバイアスやエラーを低減できる。 本研究は,クラック検出を目的とした6つの最先端畳み込みニューラルネットワークモデルの比較を行う。 モデルはImageNetデータセットで事前トレーニングされ、14000のサンプルからなる新しい現実世界のバイナリクラッチデータセットを使用して微調整される。 また,データセット拡張の効果についても検討した。 訓練された6つのモデルのうち、5つは97%以上の精度を達成した。 最高記録の精度は98%で、ResNetとVGG16が達成した。 データセットは以下のURLで利用できる。

Flexible road pavements deteriorate primarily due to traffic and adverse environmental conditions. Cracking is the most common deterioration mechanism; the surveying thereof is typically conducted manually using internationally defined classification standards. In South Africa, the use of high-definition video images has been introduced, which allows for safer road surveying. However, surveying is still a tedious manual process. Automation of the detection of defects such as cracks would allow for faster analysis of road networks and potentially reduce human bias and error. This study performs a comparison of six state-of-the-art convolutional neural network models for the purpose of crack detection. The models are pretrained on the ImageNet dataset, and fine-tuned using a new real-world binary crack dataset consisting of 14000 samples. The effects of dataset augmentation are also investigated. Of the six models trained, five achieved accuracy above 97%. The highest recorded accuracy was 98%, achieved by the ResNet and VGG16 models. The dataset is available at the following URL: https://zenodo.org/record/7795975
翻訳日:2023-04-07 14:46:37 公開日:2023-04-06
# 連合知識グラフ埋め込みにおけるプライバシの脅威に対する定量化と防御

Quantifying and Defending against Privacy Threats on Federated Knowledge Graph Embedding ( http://arxiv.org/abs/2304.02932v1 )

ライセンス: Link先を確認
Yuke Hu, Wei Liang, Ruofan Wu, Kai Xiao, Weiqiang Wang, Xiaochen Li, Jinfei Liu, Zhan Qin(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ(KG)から表現表現を抽出し、多様な下流タスクを容易にする基礎技術である。 新興連合KGE(FKGE)は、クライアント間で保持される分散KGから協調的にトレーニングすると同時に、他のフェデレーションモデルトレーニング(例えばニューラルネットワーク)で証明されているように、クライアントの機密性の高い生KGの交換を回避している。 しかし、そのようなプライバシの脅威に対する定量化と防御は、以前に研究されたモデルで共有されていないユニークな特性を持つFKGEにとって未解決のままである。 本稿では,fkgeにおけるプライバシの脅威について,攻撃と防衛の両方の観点から初めて総合的に検討する。 この攻撃に対して、我々は3つの新たな推論攻撃を提案し、KGトリプルの存在を被害者クライアントから推測することで、かなりのプライバシーリスクを明らかにすることにより、プライバシの脅威を定量化する。 防衛のために,fkgeのエンティティ結合スパース勾配特性を活用し,最先端のプライベート選択手法を組み込んだ,より優れたプライバシ利用トレードオフを提供する,プライベート選択の差分プライベートfkgeであるdp-flamesを提案する。 さらに,適応型プライバシー予算配分政策を提案し,トレーニング手順全体で防衛規模を動的に調整する。 包括的評価により、提案されている防衛は、推論攻撃の成功率を平均で83.1\%$から59.4\%$に効果的に減少させることで、プライバシの脅威を効果的に軽減し得ることが示されている。

Knowledge Graph Embedding (KGE) is a fundamental technique that extracts expressive representation from knowledge graph (KG) to facilitate diverse downstream tasks. The emerging federated KGE (FKGE) collaboratively trains from distributed KGs held among clients while avoiding exchanging clients' sensitive raw KGs, which can still suffer from privacy threats as evidenced in other federated model trainings (e.g., neural networks). However, quantifying and defending against such privacy threats remain unexplored for FKGE which possesses unique properties not shared by previously studied models. In this paper, we conduct the first holistic study of the privacy threat on FKGE from both attack and defense perspectives. For the attack, we quantify the privacy threat by proposing three new inference attacks, which reveal substantial privacy risk by successfully inferring the existence of the KG triple from victim clients. For the defense, we propose DP-Flames, a novel differentially private FKGE with private selection, which offers a better privacy-utility tradeoff by exploiting the entity-binding sparse gradient property of FKGE and comes with a tight privacy accountant by incorporating the state-of-the-art private selection technique. We further propose an adaptive privacy budget allocation policy to dynamically adjust defense magnitude across the training procedure. Comprehensive evaluations demonstrate that the proposed defense can successfully mitigate the privacy threat by effectively reducing the success rate of inference attacks from $83.1\%$ to $59.4\%$ on average with only a modest utility decrease.
翻訳日:2023-04-07 14:46:24 公開日:2023-04-06
# 熱顔画像におけるマスク検出と分類

Mask Detection and Classification in Thermal Face Images ( http://arxiv.org/abs/2304.02931v1 )

ライセンス: Link先を確認
Natalia Kowalczyk and Jacek Rumi\'nski(参考訳) 顔マスクは、多くのウイルス、特にSARS-CoV-2の感染を減らすために推奨される。 そのため、顔にマスクがあるかどうか、どのようなマスクが着用されているのか、どのように着用されているのかを自動で検出することが重要な研究課題である。 本研究では, 顔にマスクを検出(局所化)する可能性を解析し, 顔にマスクの種類を分類できるかどうかを確認するため, 熱画像を用いた。 提案した熱画像のデータセットは拡張され、マスクの種類とマスクの位置が説明され、注釈が付された。 異なる深層学習モデルが適応された。 マスク検出の最良のモデルは「ナノ」バージョンでヨロフ5モデルであることが判明し、mAPは97%以上、精度は約95%に達した。 マスク型分類にも高い精度が得られた。 その結果, 熱画像再構成問題で訓練されたオートエンコーダを用いた畳み込みニューラルネットワークモデルが得られた。 プリトレーニングエンコーダは、精度91%の分類器の訓練に使用された。

Face masks are recommended to reduce the transmission of many viruses, especially SARS-CoV-2. Therefore, the automatic detection of whether there is a mask on the face, what type of mask is worn, and how it is worn is an important research topic. In this work, the use of thermal imaging was considered to analyze the possibility of detecting (localizing) a mask on the face, as well as to check whether it is possible to classify the type of mask on the face. The previously proposed dataset of thermal images was extended and annotated with the description of a type of mask and a location of a mask within a face. Different deep learning models were adapted. The best model for face mask detection turned out to be the Yolov5 model in the "nano" version, reaching mAP higher than 97% and precision of about 95%. High accuracy was also obtained for mask type classification. The best results were obtained for the convolutional neural network model built on an autoencoder initially trained in the thermal image reconstruction problem. The pretrained encoder was used to train a classifier which achieved an accuracy of 91%.
翻訳日:2023-04-07 14:45:55 公開日:2023-04-06
# 散逸・縮退型ニューラルディファレンシャル方程式の非拘束パラメトリゼーション

Unconstrained Parametrization of Dissipative and Contracting Neural Ordinary Differential Equations ( http://arxiv.org/abs/2304.02976v1 )

ライセンス: Link先を確認
Daniele Martinelli, Clara Luc\'ia Galimberti, Ian R. Manchester, Luca Furieri, and Giancarlo Ferrari-Trecate(参考訳) 本研究では,Deep Neural Networks(DNN)のクラスを連続的に導入し,研究する。 提案アーキテクチャは,最近導入されたRecurrent Equilibrium Networks (RENs) のモデル構造とニューラル正規微分方程式(Neural ODEs)の組み合わせに由来する。 私たちは、提案されているNodeRENを、堅牢な学習と制御にとって重要な特性である、収縮性と分散性で支援する方法を示します。 最も重要なことは、RENに関して、制約のない、収縮的かつ散逸的なNodeRENのパラメトリゼーションを導き、それによって、多くのパラメータを学習できるということです。 非線形システム同定におけるケーススタディにおいて、不規則サンプルデータを扱う可能性を含むNodeRENの特性を検証する。

In this work, we introduce and study a class of Deep Neural Networks (DNNs) in continuous-time. The proposed architecture stems from the combination of Neural Ordinary Differential Equations (Neural ODEs) with the model structure of recently introduced Recurrent Equilibrium Networks (RENs). We show how to endow our proposed NodeRENs with contractivity and dissipativity -- crucial properties for robust learning and control. Most importantly, as for RENs, we derive parametrizations of contractive and dissipative NodeRENs which are unconstrained, hence enabling their learning for a large number of parameters. We validate the properties of NodeRENs, including the possibility of handling irregularly sampled data, in a case study in nonlinear system identification.
翻訳日:2023-04-07 14:40:33 公開日:2023-04-06
# 長期長期記憶ネットワーク:安定性特性と実験的検証

Deep Long-Short Term Memory networks: Stability properties and Experimental validation ( http://arxiv.org/abs/2304.02975v1 )

ライセンス: Link先を確認
Fabio Bonassi, Alessio La Bella, Giulio Panzani, Marcello Farina, Riccardo Scattolini(参考訳) この研究の目的は、非線形力学系の同定に、段階的な入力から状態への安定な (\delta$iss) ディープ・ロング・短期記憶ネットワーク(lstms) の使用を検討することである。 ネットワークの重みに関する適切な条件を利用して、データから実績ある$\delta$ISS LSTMモデルを学習できるトレーニング手順を構築することができることを示す。 提案手法を実際のブレーキバイワイヤ装置でテストし,入出力実験データからシステムのモデルを同定した。 結果は、十分なモデリングパフォーマンスを示します。

The aim of this work is to investigate the use of Incrementally Input-to-State Stable ($\delta$ISS) deep Long Short Term Memory networks (LSTMs) for the identification of nonlinear dynamical systems. We show that suitable sufficient conditions on the weights of the network can be leveraged to setup a training procedure able to learn provenly-$\delta$ISS LSTM models from data. The proposed approach is tested on a real brake-by-wire apparatus to identify a model of the system from input-output experimentally collected data. Results show satisfactory modeling performances.
翻訳日:2023-04-07 14:40:21 公開日:2023-04-06
# 2層ReLUネットワークの解析的学習

Training a Two Layer ReLU Network Analytically ( http://arxiv.org/abs/2304.02972v1 )

ライセンス: Link先を確認
Adrian Barbu(参考訳) ニューラルネットワークは通常、確率勾配降下やアダム最適化のような勾配勾配に基づく最適化アルゴリズムの異なる変種で訓練される。 最近の理論研究では、2層reluネットワークの正方形損失を持つ臨界点(損失の勾配がゼロである)はすべて局所的ミニマではない。 そこで本研究では,reluライクなアクティベーションと正方形損失を用いて2層ニューラルネットワークを訓練するアルゴリズムについて検討し,他のレイヤとニューロンのアクティベーションパターンを固定しつつ,損失関数の臨界点を解析的に求める。 実験により、この単純なアルゴリズムは確率勾配DescentやAdamオプティマイザよりも深い最適化を見出すことができ、評価された5つの実データセットのうち4つに対して、トレーニング損失値が大幅に小さいことが示されている。 さらに,本手法は勾配降下法よりも高速であり,チューニングパラメータがほとんどない。

Neural networks are usually trained with different variants of gradient descent based optimization algorithms such as stochastic gradient descent or the Adam optimizer. Recent theoretical work states that the critical points (where the gradient of the loss is zero) of two-layer ReLU networks with the square loss are not all local minima. However, in this work we will explore an algorithm for training two-layer neural networks with ReLU-like activation and the square loss that alternatively finds the critical points of the loss function analytically for one layer while keeping the other layer and the neuron activation pattern fixed. Experiments indicate that this simple algorithm can find deeper optima than Stochastic Gradient Descent or the Adam optimizer, obtaining significantly smaller training loss values on four out of the five real datasets evaluated. Moreover, the method is faster than the gradient descent methods and has virtually no tuning parameters.
翻訳日:2023-04-07 14:40:11 公開日:2023-04-06
# コントラスト学習のための合成ハード負サンプル

Synthetic Hard Negative Samples for Contrastive Learning ( http://arxiv.org/abs/2304.02971v1 )

ライセンス: Link先を確認
Hengkui Dong, Xianzhong Long, Yun Li, Lei Chen(参考訳) コントラスト学習は、コンピュータビジョンにおける自己教師型学習に不可欠なアプローチとして登場した。 コントラスト学習の中心的な目的は、同一画像の2つの拡張バージョン(正のペア)間の類似性を最大化し、異なる画像(負のペア)間の類似性を最小化することである。 最近の研究では、難しい負のサンプル、すなわちアンカーサンプルと区別しにくいサンプルは、コントラスト学習においてより重要な役割を果たすことが示されている。 そこで本稿では, コントラスト学習 (SSCL) のための合成硬質陰性サンプルを抽出し, より効果的に硬質負性サンプルを活用できる新しい特徴レベル法を提案する。 具体的には 1) 負試料を混合することにより, より硬い負試料を生成し, アンカー試料と他の負試料とのコントラストを制御して試料を採取する。 2) サンプル採取により得られた陰性試料には偽陰性試料の問題がありうることから, さらに陰性試料を嫌悪する。 提案手法は,異なる画像データセットの分類性能を向上し,既存の手法にも容易に適用できる。

Contrastive learning has emerged as an essential approach for self-supervised learning in computer vision. The central objective of contrastive learning is to maximize the similarities between two augmented versions of the same image (positive pairs), while minimizing the similarities between different images (negative pairs). Recent studies have demonstrated that harder negative samples, i.e., those that are difficult to distinguish from anchor sample, play a more critical role in contrastive learning. In this paper, we propose a novel featurelevel method, namely sampling synthetic hard negative samples for contrastive learning (SSCL), to exploit harder negative samples more effectively. Specifically, 1) we generate more and harder negative samples by mixing negative samples, and then sample them by controlling the contrast of anchor sample with the other negative samples. 2) Considering that the negative samples obtained by sampling may have the problem of false negative samples, we further debias the negative samples. Our proposed method improves the classification performance on different image datasets and can be readily applied to existing methods.
翻訳日:2023-04-07 14:39:56 公開日:2023-04-06
# 音声と視覚のセマンティクスセグメンテーションについて

A Closer Look at Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2304.02970v1 )

ライセンス: Link先を確認
Chen Yuanhong, Liu Yuyuan, Wang Hu, Liu Fengbei, Wang Chong, Carneiro Gustavo(参考訳) オーディオ・ビジュアルセグメンテーション(avs)は、オーディオ・ビジュアルのクエリに基づいて対応する音響オブジェクトを正確にセグメンテーションする複雑なタスクである。 オーディオ・ビジュアル学習の成功には2つの重要な要素が必要です。 1)高品質の画素レベルのマルチクラスラベルを持つバイアスのないデータセット 2)オーディオ情報を対応する視覚オブジェクトと効果的にリンクすることができるモデル。 しかしながら、これらの2つの要件は、バイアス付きオーディオビジュアルデータを含むトレーニングセットと、このバイアス付きトレーニングセットを超えて一般化されていないモデルと、現在の方法によって部分的にのみ対処される。 本研究では,コスト効率と比較的偏りのない音声視覚的セマンティックセグメンテーションベンチマークを構築するための新しい戦略を提案する。 我々の戦略は、Visual Post-production (VPO) と呼ばれ、単一のビデオソースから抽出された明示的な音声と視覚のペアを必要とせず、そのようなベンチマークを構築することである。 また,先行提案のavsbenchを改良し,音声・視覚セマンティクスセグメンテーションベンチマークavsbench-single+に変換する。 さらに,学習セットを超えたモデルの一般化を実現するために,新たなピクセル単位の音声・視覚コントラスト学習法を提案する。 異なるソースからのオーディオとビジュアルデータをマッチングしたデータセットや、同じビデオソースからのオーディオとビジュアルデータを含むデータセットでトレーニングされた最新(sota)モデルが、ほぼ同じ精度を持つことを示すことで、vpo戦略の妥当性を検証する。 そして,提案したVPOベンチマークとAVSBench-Single+を用いて,SOTAモデルよりも高精度な音声・視覚的セマンティックセマンティックセグメンテーションを実現することを示す。 コードとデータセットは利用可能だ。

Audio-visual segmentation (AVS) is a complex task that involves accurately segmenting the corresponding sounding object based on audio-visual queries. Successful audio-visual learning requires two essential components: 1) an unbiased dataset with high-quality pixel-level multi-class labels, and 2) a model capable of effectively linking audio information with its corresponding visual object. However, these two requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new strategy to build cost-effective and relatively unbiased audio-visual semantic segmentation benchmarks. Our strategy, called Visual Post-production (VPO), explores the observation that it is not necessary to have explicit audio-visual pairs extracted from single video sources to build such benchmarks. We also refine the previously proposed AVSBench to transform it into the audio-visual semantic segmentation benchmark AVSBench-Single+. Furthermore, this paper introduces a new pixel-wise audio-visual contrastive learning method to enable a better generalisation of the model beyond the training set. We verify the validity of the VPO strategy by showing that state-of-the-art (SOTA) models trained with datasets built by matching audio and visual data from different sources or with datasets containing audio and visual data from the same video source produce almost the same accuracy. Then, using the proposed VPO benchmarks and AVSBench-Single+, we show that our method produces more accurate audio-visual semantic segmentation than SOTA models. Code and dataset will be available.
翻訳日:2023-04-07 14:39:37 公開日:2023-04-06
# オープンシステム絡み合い測度を用いた量子-古典クロスオーバーの定量化

Quantifying measurement-induced quantum-to-classical crossover using an open-system entanglement measure ( http://arxiv.org/abs/2304.02965v1 )

ライセンス: Link先を確認
Christian Carisch, Alessandro Romito, Oded Zilberberg(参考訳) 測定対象の量子系の進化は、純粋な状態の確率的量子軌道によって記述できる。 代わりに、軌道上のアンサンブル平均はマスター方程式を介して進化する混合状態である。 どちらの記述も線形観測可能量に対して同じ期待値をもたらす。 近年、量子軌道中に現れる平均的絡み合いへの関心が高まっている。 エンタングルメントは、いわゆる測定誘起相転移、すなわち臨界およびシステムサイズ依存相から、領域則エンタングルメントを持つ量子ゼノ相への遷移に敏感な非線形観測可能である。 興味深いことに、これらの系の混合定常状態記述はこの相転移に敏感である。 混合状態の絡み合いの定量化の難しさとともに、これは量子計測プロセスの記述のための量子軌道を好んでいる。 本研究では,(新たに開発した構成コヒーレンスを用いて)連続的な測定により,混合状態と量子軌道記述の両方における単一粒子の絡み合いについて検討する。 いずれの記述においても, 中間時間スケールにおける絡み合いは, 測定強度の関数と同じ定性的挙動を示すことがわかった。 このことは、混合状態記述が量子-古典的測定誘導効果の観測を可能にすることを証明している。

The evolution of a quantum system subject to measurements can be described by stochastic quantum trajectories of pure states. Instead, the ensemble average over trajectories is a mixed state evolving via a master equation. Both descriptions lead to the same expectation values for linear observables. Recently, there is growing interest in the average entanglement appearing during quantum trajectories. The entanglement is a nonlinear observable that is sensitive to so-called measurement-induced phase transitions, namely, transitions from a critical and system-size dependent phase to a quantum Zeno phase with area-law entanglement. Intriguingly, the mixed steady-state description of these systems is insensitive to this phase transition. Together with the difficulty of quantifying the mixed state entanglement, this favors quantum trajectories for the description of the quantum measurement process. Here, we study the entanglement of a single particle under continuous measurements (using the newly developed configuration coherence) in both the mixed state and the quantum trajectories descriptions. In both descriptions, we find that the entanglement at intermediate time scales shows the same qualitative behavior as a function of the measurement strength. This demonstrates that the mixed-state description allows for the observation of quantum-to-classical measurement-induced effects.
翻訳日:2023-04-07 14:39:03 公開日:2023-04-06
# テキストガイド汚職に対するロバスト性のベンチマーク

Benchmarking Robustness to Text-Guided Corruptions ( http://arxiv.org/abs/2304.02963v1 )

ライセンス: Link先を確認
Mohammadreza Mofayezi and Yasamin Medghalchi(参考訳) 本研究は,テキスト誘導汚職に対する画像分類器の堅牢性について検討する。 拡散モデルを用いて異なる領域の画像を編集する。 合成データや手書きデータを用いてベンチマークを行う他の研究とは異なり、画像の編集とセマンティックなコンテンツの保存を学習できる生成モデルとして拡散モデルを用いる。 したがって、汚職はより現実的で、比較はより情報的になるだろう。 また、手動のラベリングは不要で、より少ない労力で大規模なベンチマークを作成できます。 我々は、元のImageNet階層に基づいてプロンプト階層を定義し、異なるドメインで編集を適用する。 新たなベンチマークを導入するだけでなく,さまざまなビジョンモデルの堅牢性についても検討する。 本研究は, 画像分類器の性能が, 異なる言語に基づく腐敗や編集領域において著しく低下することを示す。 また,畳み込みモデルがトランスフォーマーアーキテクチャよりも堅牢であることも観察した。 さらに、共通データ拡張技術は、元のデータと編集された画像の両方のパフォーマンスを向上させることができる。 本研究は,画像分類器の設計の改善に寄与し,より堅牢な機械学習システムの開発に寄与する。 ベンチマークを生成するコードは、公開時にオンラインで入手できる。

This study investigates the robustness of image classifiers to text-guided corruptions. We utilize diffusion models to edit images to different domains. Unlike other works that use synthetic or hand-picked data for benchmarking, we use diffusion models as they are generative models capable of learning to edit images while preserving their semantic content. Thus, the corruptions will be more realistic and the comparison will be more informative. Also, there is no need for manual labeling and we can create large-scale benchmarks with less effort. We define a prompt hierarchy based on the original ImageNet hierarchy to apply edits in different domains. As well as introducing a new benchmark we try to investigate the robustness of different vision models. The results of this study demonstrate that the performance of image classifiers decreases significantly in different language-based corruptions and edit domains. We also observe that convolutional models are more robust than transformer architectures. Additionally, we see that common data augmentation techniques can improve the performance on both the original data and the edited images. The findings of this research can help improve the design of image classifiers and contribute to the development of more robust machine learning systems. The code for generating the benchmark will be made available online upon publication.
翻訳日:2023-04-07 14:38:44 公開日:2023-04-06
# 詳細なバランスに従うランダムなリンドブラッド演算子

Random Lindblad operators obeying detailed balance ( http://arxiv.org/abs/2304.02960v1 )

ライセンス: Link先を確認
Wojciech Tarnowski, Dariusz Chru\'sci\'nski, Sergey Denisov, and Karol \.Zyczkowski(参考訳) 我々は、与えられた定常状態に対して量子的詳細バランス条件を満たすランダムリンドブラッド作用素$\cal L$の異なるアンサンブルを導入し、それらのスペクトル特性を調査する。 そのような作用素は 'Davies generators' と呼ばれ、それらの固有値は実数であるが、スペクトル密度は$\sigma$ に依存する。 本研究では,最大混合定常状態に対する非退化スペクトルである$\sigma = \mathbf{1} /N$に対応するDaviesジェネレータの極端ケースにおいて,この問題を解析的に解決することのできる,ランダム行列の異なる構造化アンサンブルを提案する。 興味深いことに、後者の場合、スペクトル密度特性の虚成分をランダムな無拘束リンドブレード作用素のアンサンブルに積分することにより、密度を合理的に近似することができる。 部分的に分解したスペクトルを持つ漸近状態の症例も扱う。 最後に、類似の普遍性は、ランダムなデイビーズ生成器のアンサンブルに超デコヒーレンスを適用して得られる詳細なバランスに合うコルモゴロフ生成器に対して成り立つことを示す。 このようにして、詳細なバランス条件を課したランダム古典生成器のアンサンブルを構築する。

We introduce different ensembles of random Lindblad operators $\cal L$, which satisfy quantum detailed balance condition with respect to the given stationary state $\sigma$ of size $N$, and investigate their spectral properties. Such operators are known as `Davies generators' and their eigenvalues are real; however, their spectral densities depend on $\sigma$. We propose different structured ensembles of random matrices, which allow us to tackle the problem analytically in the extreme cases of Davies generators corresponding to random $\sigma$ with a non-degenerate spectrum for the maximally mixed stationary state, $\sigma = \mathbf{1} /N$. Interestingly, in the latter case the density can be reasonably well approximated by integrating out the imaginary component of the spectral density characteristic to the ensemble of random unconstrained Lindblad operators. The case of asymptotic states with partially degenerated spectra is also addressed. Finally, we demonstrate that similar universal properties hold for the detailed balance-obeying Kolmogorov generators obtained by applying superdecoherence to an ensemble of random Davies generators. In this way we construct an ensemble of random classical generators with imposed detailed balance condition.
翻訳日:2023-04-07 14:38:28 公開日:2023-04-06
# 微分プライバシー保証を提供する高速準同型計算の近似設計

When approximate design for fast homomorphic computation provides differential privacy guarantees ( http://arxiv.org/abs/2304.02959v1 )

ライセンス: Link先を確認
Arnaud Grivet S\'ebert, Martin Zuber, Oana Stan, Renaud Sirdey, C\'edric Gouy-Pailler(参考訳) 機械学習は、産業、医療、ソーシャルネットワークなど多様な分野に広まりつつあるが、トレーニングデータに関するプライバシー上の懸念が重要になっている。 複数の当事者が機密データを危険にさらすことなく共通のモデルを協調的にトレーニングしたい場合、プライベートトレーニングプロトコルの必要性は特に厳しく、モデルのエンドユーザとトレーニングフェーズのアクターの両方に対してデータを保護することを示唆する。 差分プライバシー(DP)と暗号プリミティブは、プライバシー攻撃に対する補完的な対策である。 これらの暗号プリミティブのうち、完全準同型暗号(fhe)は準同型ドメインにおける時間消費操作のコストで暗号テキストの可算性を提供する。 本稿では,準同型に実行されると高速であり,dp保証を保証する特徴として不正確なargmax演算子の確率近似アルゴリズムであるshieldを設計する。 shieldには別のアプリケーションがあるとしても、ひとつの設定に集中し、"speed: secure, private, and efficient deep learning" (grivet s\'ebert et al., 2021) から高速協調トレーニングフレームワークにシームレスに統合し、計算効率を向上させる。 提案アルゴリズムのFHE実装とそのDP解析について詳しく説明した後,実験結果を示す。 我々の知る限りでは、同型計算の精度を緩めることは、FHE性能を向上させるための自由度として構成的に利用できる最初の作品である。

While machine learning has become pervasive in as diversified fields as industry, healthcare, social networks, privacy concerns regarding the training data have gained a critical importance. In settings where several parties wish to collaboratively train a common model without jeopardizing their sensitive data, the need for a private training protocol is particularly stringent and implies to protect the data against both the model's end-users and the actors of the training phase. Differential privacy (DP) and cryptographic primitives are complementary popular countermeasures against privacy attacks. Among these cryptographic primitives, fully homomorphic encryption (FHE) offers ciphertext malleability at the cost of time-consuming operations in the homomorphic domain. In this paper, we design SHIELD, a probabilistic approximation algorithm for the argmax operator which is both fast when homomorphically executed and whose inaccuracy is used as a feature to ensure DP guarantees. Even if SHIELD could have other applications, we here focus on one setting and seamlessly integrate it in the SPEED collaborative training framework from "SPEED: Secure, PrivatE, and Efficient Deep learning" (Grivet S\'ebert et al., 2021) to improve its computational efficiency. After thoroughly describing the FHE implementation of our algorithm and its DP analysis, we present experimental results. To the best of our knowledge, it is the first work in which relaxing the accuracy of an homomorphic calculation is constructively usable as a degree of freedom to achieve better FHE performances.
翻訳日:2023-04-07 14:38:03 公開日:2023-04-06
# 多視点逆微分器:未知領域における物体検出のための非因果因子をマイニングする

Multi-view Adversarial Discriminator: Mine the Non-causal Factors for Object Detection in Unseen Domains ( http://arxiv.org/abs/2304.02950v1 )

ライセンス: Link先を確認
Mingjun Xu, Lingyun Qin, Weijie Chen, Shiliang Pu, Lei Zhang(参考訳) ドメインシフトは、実用的な応用におけるオブジェクト検出モデルの性能を低下させる。 ドメインシフトの影響を軽減するために、多くの以前の作業は、ドメイン敵学習(dal)を通じて、ソースドメインからドメイン不変(共通)機能を分離し、学習しようと試みている。 しかし,因果的メカニズムに触発されて,従来の手法では暗黙の非因果的要因を無視することが判明した。 これは主にDALの単一ビューの性質に起因する。 本稿では,ソース領域におけるマルチビュー・アドバーサリー・トレーニングによる共通特徴から非因果的要因を取り除き,その非因果的要因がデータ多モード構造による他の潜在空間(ビュー)においても有意である可能性があることを考察する。 要約すると、ランダムな拡張によりソースドメインの多様性を増大させるSpurious correlations Generator (SCG) と、非因果因子を除去しドメイン不変性を浄化する複数の潜在空間に特徴をマップするMulti-View Domain Classifier (MVDC) から構成される、マルチビュー逆微分器(MAD)ベースのドメイン一般化モデルを提案する。 6つのベンチマークでの大規模な実験は、MADが最先端のパフォーマンスを得ることを示している。

Domain shift degrades the performance of object detection models in practical applications. To alleviate the influence of domain shift, plenty of previous work try to decouple and learn the domain-invariant (common) features from source domains via domain adversarial learning (DAL). However, inspired by causal mechanisms, we find that previous methods ignore the implicit insignificant non-causal factors hidden in the common features. This is mainly due to the single-view nature of DAL. In this work, we present an idea to remove non-causal factors from common features by multi-view adversarial training on source domains, because we observe that such insignificant non-causal factors may still be significant in other latent spaces (views) due to the multi-mode structure of data. To summarize, we propose a Multi-view Adversarial Discriminator (MAD) based domain generalization model, consisting of a Spurious Correlations Generator (SCG) that increases the diversity of source domain by random augmentation and a Multi-View Domain Classifier (MVDC) that maps features to multiple latent spaces, such that the non-causal factors are removed and the domain-invariant features are purified. Extensive experiments on six benchmarks show our MAD obtains state-of-the-art performance.
翻訳日:2023-04-07 14:37:33 公開日:2023-04-06
# マルチコアNPUのテンソルスライシングと最適化

Tensor Slicing and Optimization for Multicore NPUs ( http://arxiv.org/abs/2304.03013v1 )

ライセンス: Link先を確認
Rafael Sousa, Marcio Pereira, Yongin Kwon, Taeho Kim, Namsoon Jung, Chang Soo Kim, Michael Frank, Guido Araujo(参考訳) 畳み込みニューラルネットワーク(CNN)モデルのコード生成は広く研究されているが、高階調のマルチコアニューラルプロセッサユニット(NPU)の効率的なデータスライシングと並列化は依然として難しい問題である。 畳み込みのインプット/アウトプットテンソルのサイズとNPUオンチップメモリのフットプリントが小さいことを考えると、並列性とMAC利用を最大化しながらメモリトランザクションを最小化することは、有効なソリューションの中心である。 本稿では、TSO(Tensor Slicing Optimization)と呼ばれるマルチコアNPUに対するTensorFlow XLA/LLVMコンパイラ最適化パスを提案する。 (a)NPUコア間の畳み込み並列性とメモリ使用量の最大化 b) DRAMメモリバースト時間推定を用いて、ホストとNPUオンチップメモリ間のデータ転送を削減し、テンソルスライシングを誘導する。 提案手法を評価するために,新しいCNN命令で拡張された32個のRISC-Vコアを含むマルチコアNPUであるNeuroMorphic Processor (NMP)を用いて実験を行った。 実験の結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。 TSOバーストベースの手法とノンバーストデータスライシング手法を比較すると、最大21.7\%のスピードアップが生じる。 TSOアプローチの汎用性を検証するため、アルゴリズムはGlow Machine Learningフレームワークにも移植された。 モデルのパフォーマンスはGlowとTensorFlow XLA/LLVMコンパイラの両方で測定され、同様の結果が示された。

Although code generation for Convolution Neural Network (CNN) models has been extensively studied, performing efficient data slicing and parallelization for highly-constrai\-ned Multicore Neural Processor Units (NPUs) is still a challenging problem. Given the size of convolutions' input/output tensors and the small footprint of NPU on-chip memories, minimizing memory transactions while maximizing parallelism and MAC utilization are central to any effective solution. This paper proposes a TensorFlow XLA/LLVM compiler optimization pass for Multicore NPUs, called Tensor Slicing Optimization (TSO), which: (a) maximizes convolution parallelism and memory usage across NPU cores; and (b) reduces data transfers between host and NPU on-chip memories by using DRAM memory burst time estimates to guide tensor slicing. To evaluate the proposed approach, a set of experiments was performed using the NeuroMorphic Processor (NMP), a multicore NPU containing 32 RISC-V cores extended with novel CNN instructions. Experimental results show that TSO is capable of identifying the best tensor slicing that minimizes execution time for a set of CNN models. Speed-ups of up to 21.7\% result when comparing the TSO burst-based technique to a no-burst data slicing approach. To validate the generality of the TSO approach, the algorithm was also ported to the Glow Machine Learning framework. The performance of the models were measured on both Glow and TensorFlow XLA/LLVM compilers, revealing similar results.
翻訳日:2023-04-07 14:30:50 公開日:2023-04-06
# PointCAT: ポイントクラウド用のクロスアテンショントランス

PointCAT: Cross-Attention Transformer for point cloud ( http://arxiv.org/abs/2304.03012v1 )

ライセンス: Link先を確認
Xincheng Yang, Mingze Jin, Weiji He, Qian Chen(参考訳) トランスフォーマーベースのモデルは近年、自然言語処理とコンピュータビジョンが大幅に進歩している。 しかし、点雲データの不規則で不規則な構造のため、3Dディープラーニングのためのトランスフォーマーベースのモデルは、他の方法と比較してまだ初期段階にある。 本稿では,ポイントクラウド表現のためのクロスアテンション機構を用いた新しいエンドツーエンドネットワークアーキテクチャであるPointCATを提案する。 提案手法は2つのセグレートクロスアテンショントランスを用いたマルチスケール機能を組み合わせたものである。 マルチブランチ構造による計算量の増加を低減すべく,一方のブランチの単一クラストークンのみをクエリとして処理し,他方のアテンションマップを計算できる効率的な形状分類モデルも導入する。 本手法は, 形状分類, 部分分割, セマンティックセマンティックセマンティクスタスクにおいて, より優れた性能を示すか, あるいは同等の性能を発揮することを示す。

Transformer-based models have significantly advanced natural language processing and computer vision in recent years. However, due to the irregular and disordered structure of point cloud data, transformer-based models for 3D deep learning are still in their infancy compared to other methods. In this paper we present Point Cross-Attention Transformer (PointCAT), a novel end-to-end network architecture using cross-attentions mechanism for point cloud representing. Our approach combines multi-scale features via two seprate cross-attention transformer branches. To reduce the computational increase brought by multi-branch structure, we further introduce an efficient model for shape classification, which only process single class token of one branch as a query to calculate attention map with the other. Extensive experiments demonstrate that our method outperforms or achieves comparable performance to several approaches in shape classification, part segmentation and semantic segmentation tasks.
翻訳日:2023-04-07 14:30:21 公開日:2023-04-06
# エッジでのIoTフェデレーションブロックチェーン学習

IoT Federated Blockchain Learning at the Edge ( http://arxiv.org/abs/2304.03006v1 )

ライセンス: Link先を確認
James Calo and Benny Lo(参考訳) IoTデバイスは、医学分野、特に医学の機械学習では、非常に利用されていない。 IoTデバイスは低コスト、省エネ、小型、インテリジェントなデバイスである。 本稿では,iotデバイスのための分散フェデレーション学習フレームワークを提案する。より具体的には,集中型システムにおけるプライバシと効率を改善する分散型スキームを実現するためにブロックチェーンを使用するiomt(internet of medical things)を対象として,クラウドベースのアーキテクチャからエッジに移行することを可能にする。 システムは3つのパラダイムのために設計されています 1)IoTデバイス上でニューラルネットワークをトレーニングすることで,データセットから学習を分離してプライバシを確保すると同時に,共有モデルの協調トレーニングを可能にする。 トレーニングは、すべての参加者間で同時にオンライン形式で実施され、従来の方法で収集されたデータセットには存在しない実際のデータのトレーニングが可能になり、トレーニング中のシステムを動的に適応させることができる。 2 医療データの機密性により問題を緩和し、データがほとんど存在しないような、堅牢で潜在的に危険を伴うモデルを構築すること等、完全にプライベートな方法でIoMTシステムの訓練を行う。 3)ネットワークモデルをトレーニングするために,病院などの余分なコンピューティング資源を活用できるように,ネットワーク学習自体がしていない実際のネットワークトレーニングの配布を行う。

IoT devices are sorely underutilized in the medical field, especially within machine learning for medicine, yet they offer unrivaled benefits. IoT devices are low-cost, energy-efficient, small and intelligent devices. In this paper, we propose a distributed federated learning framework for IoT devices, more specifically for IoMT (Internet of Medical Things), using blockchain to allow for a decentralized scheme improving privacy and efficiency over a centralized system; this allows us to move from the cloud-based architectures, that are prevalent, to the edge. The system is designed for three paradigms: 1) Training neural networks on IoT devices to allow for collaborative training of a shared model whilst decoupling the learning from the dataset to ensure privacy. Training is performed in an online manner simultaneously amongst all participants, allowing for the training of actual data that may not have been present in a dataset collected in the traditional way and dynamically adapt the system whilst it is being trained. 2) Training of an IoMT system in a fully private manner such as to mitigate the issue with confidentiality of medical data and to build robust, and potentially bespoke, models where not much, if any, data exists. 3) Distribution of the actual network training, something federated learning itself does not do, to allow hospitals, for example, to utilize their spare computing resources to train network models.
翻訳日:2023-04-07 14:30:06 公開日:2023-04-06
# 非アクティブ量子鍵分布

Non-Interactive Quantum Key Distribution ( http://arxiv.org/abs/2304.02999v1 )

ライセンス: Link先を確認
Giulio Malavolta and Michael Walter(参考訳) 量子鍵分布(QKD)により、アリスとボブは公開(信頼できない)量子チャネル上で通信しながら共有秘密鍵に合意することができる。 古典的な鍵交換と比較すると、主な利点は2つある。 (i)いかなる攻撃者の目にも無条件に鍵が隠されていること、 (二)そのセキュリティは、デジタルシグネチャの存在のようなMinicryptの仮定を用いて実現可能な、認証された古典的なチャネルの存在のみを前提としている。 一方、QKDプロトコルは通常、複数ラウンドの対話を必要とするが、古典的な鍵交換は2つのメッセージの最小限の量で実現できる。 長年の未解決の問題は、QKDが古典的な鍵交換よりも多くの相互作用を必要とするかどうかである。 本研究では,量子セキュアな一方向関数の存在を前提として,永続的セキュリティを満たす2メッセージQKDプロトコルを提案する。 すなわち、共有キーは無条件に隠され、プロトコルの実行中に計算仮定が保持される。 私たちの結果は、この研究で紹介した新しい量子暗号プリミティブ、quantum-public-key one-time pad、よく知られたone-time padのパブリックキー類似物から得られたものです。

Quantum key distribution (QKD) allows Alice and Bob to agree on a shared secret key, while communicating over a public (untrusted) quantum channel. Compared to classical key exchange, it has two main advantages: (i) The key is unconditionally hidden to the eyes of any attacker, and (ii) its security assumes only the existence of authenticated classical channels which, in practice, can be realized using Minicrypt assumptions, such as the existence of digital signatures. On the flip side, QKD protocols typically require multiple rounds of interactions, whereas classical key exchange can be realized with the minimal amount of two messages. A long-standing open question is whether QKD requires more rounds of interaction than classical key exchange. In this work, we propose a two-message QKD protocol that satisfies everlasting security, assuming only the existence of quantum-secure one-way functions. That is, the shared key is unconditionally hidden, provided computational assumptions hold during the protocol execution. Our result follows from a new quantum cryptographic primitive that we introduce in this work: the quantum-public-key one-time pad, a public-key analogue of the well-known one-time pad.
翻訳日:2023-04-07 14:29:43 公開日:2023-04-06
# 単眼映像におけるスキーヤーの軌跡の可視化

Visualizing Skiers' Trajectories in Monocular Videos ( http://arxiv.org/abs/2304.02994v1 )

ライセンス: Link先を確認
Matteo Dunnhofer, Luca Sordi, Christian Micheloni(参考訳) 軌道はアルペンスキーで勝つのに基本です。 このような曲線を解析できるツールは、トレーニング活動を強化し、放送コンテンツを豊かにする。 本稿では,スキー選手が競技中に横断する点列を可視化するスキートラビスを提案する。 skitravisは単眼ビデオに取り組み、スキーヤーの動きをモデル化するビジュアルトラッカーと、カメラの動きを推定するためのフレーム対応モジュールのパイプラインを構成する。 2つの動きの分離により、移動カメラの視点に応じて軌道の可視化が可能になる。 実世界のプロのコンペティションのビデオで,可視化誤差,計算効率,応用可能性の定量化を目的として実験を行った。 その結果,放送メディアの強化とコーチング支援に対するソリューションの可能性が示された。

Trajectories are fundamental to winning in alpine skiing. Tools enabling the analysis of such curves can enhance the training activity and enrich broadcasting content. In this paper, we propose SkiTraVis, an algorithm to visualize the sequence of points traversed by a skier during its performance. SkiTraVis works on monocular videos and constitutes a pipeline of a visual tracker to model the skier's motion and of a frame correspondence module to estimate the camera's motion. The separation of the two motions enables the visualization of the trajectory according to the moving camera's perspective. We performed experiments on videos of real-world professional competitions to quantify the visualization error, the computational efficiency, as well as the applicability. Overall, the results achieved demonstrate the potential of our solution for broadcasting media enhancement and coach assistance.
翻訳日:2023-04-07 14:29:23 公開日:2023-04-06
# 自然言語ロボットプログラミング:自律的ロボットハンドリングと統合したnlp

Natural Language Robot Programming: NLP integrated with autonomous robotic grasping ( http://arxiv.org/abs/2304.02993v1 )

ライセンス: Link先を確認
Muhammad Arshad Khan, Max Kenney, Jack Painter, Disha Kamale, Riza Batista-Navarro, Amir Ghalamzan-E(参考訳) 本稿では,ロボットプログラミングのための文法に基づく自然言語フレームワークについて述べる。 このアプローチでは、意味を共有する単語を格納する独自のアクションワード辞書を使用しており、語彙データベースからより多くのアクションワードを追加することで、語彙の拡張が容易になる。 キャリブレーションされたカメラとマイクを備えたFranka Pandaロボットアームを用いて,シミュレーションと実世界の実験を通じて自然言語ロボットプログラミング(NLRP)フレームワークを検証する。 参加者は、GoogleのSpeech-to-Text APIを使ってテキストに変換され、NLRPフレームワークを介して処理され、ロボットの関節空間軌跡を得る。 その結果,提案手法はシステムユーザビリティスコアが高いことがわかった。 フレームワークの辞書は、転送学習や大規模なデータセットに頼ることなく簡単に拡張できる。 今後,提案フレームワークを,包括的ユーザスタディを通して,人間支援型ピック・アンド・プレースタスクの異なるアプローチと比較する予定である。

In this paper, we present a grammar-based natural language framework for robot programming, specifically for pick-and-place tasks. Our approach uses a custom dictionary of action words, designed to store together words that share meaning, allowing for easy expansion of the vocabulary by adding more action words from a lexical database. We validate our Natural Language Robot Programming (NLRP) framework through simulation and real-world experimentation, using a Franka Panda robotic arm equipped with a calibrated camera-in-hand and a microphone. Participants were asked to complete a pick-and-place task using verbal commands, which were converted into text using Google's Speech-to-Text API and processed through the NLRP framework to obtain joint space trajectories for the robot. Our results indicate that our approach has a high system usability score. The framework's dictionary can be easily extended without relying on transfer learning or large data sets. In the future, we plan to compare the presented framework with different approaches of human-assisted pick-and-place tasks via a comprehensive user study.
翻訳日:2023-04-07 14:29:12 公開日:2023-04-06
# 3次元セマンティックセグメンテーションにおけるドメインシフトに対応する2次元ネットワークと3次元ネットワークの相補性

Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation ( http://arxiv.org/abs/2304.02991v1 )

ライセンス: Link先を確認
Adriano Cardace, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) 3dセマンティックセグメンテーションは、自動運転、ロボティクス、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。 しかし、この課題は3dポイント雲の非構造的、ばらばらで無彩な性質から生じるあいまいさのため、非常に困難である。 可能な解決策は、3d情報をrgbカメラのような異なるモードのセンサーから得られる他の情報と組み合わせることだ。 最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2Dおよび3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを活用し、各モダリティの強度を維持する。 本稿では,この設計選択が効果的である理由を最初に説明し,ドメインシフトに対してマルチモーダルなセマンティックセグメンテーションをより堅牢にするためにどのように改善できるかを示す。 我々の驚くほど単純な貢献は、一般的な4つのマルチモーダルな教師なしドメイン適応ベンチマークにおける最先端のパフォーマンスと、ドメインの一般化シナリオにおけるより良い結果を達成する。

3D semantic segmentation is a critical task in many real-world applications, such as autonomous driving, robotics, and mixed reality. However, the task is extremely challenging due to ambiguities coming from the unstructured, sparse, and uncolored nature of the 3D point clouds. A possible solution is to combine the 3D information with others coming from sensors featuring a different modality, such as RGB cameras. Recent multi-modal 3D semantic segmentation networks exploit these modalities relying on two branches that process the 2D and 3D information independently, striving to maintain the strength of each modality. In this work, we first explain why this design choice is effective and then show how it can be improved to make the multi-modal semantic segmentation more robust to domain shift. Our surprisingly simple contribution achieves state-of-the-art performances on four popular multi-modal unsupervised domain adaptation benchmarks, as well as better results in a domain generalization scenario.
翻訳日:2023-04-07 14:28:52 公開日:2023-04-06
# ソーシャルメディア上での誤情報検出にソーシャルインタラクションを活用する

Leveraging Social Interactions to Detect Misinformation on Social Media ( http://arxiv.org/abs/2304.02983v1 )

ライセンス: Link先を確認
Tommaso Fornaciari, Luca Luceri, Emilio Ferrara, Dirk Hovy(参考訳) ソーシャルメディア上で健全な環境を保証するためには,誤った情報スレッドの検出が不可欠である。 新型コロナウイルスのパンデミックで生成されたデータセットを使ってこの問題に対処する。 情報ソースの以前の評価に基づいて、信頼性または信頼性が低いとラベル付けされた情報を議論するツイートのカスケードを含む。 信頼できないスレッドを特定するモデルは、通常テキスト機能に依存します。 しかし、信頼性は言うことだけでなく、誰から誰へもです。 ネットワーク情報も活用しています。 ホモフィリ原理に従えば、対話するユーザは、一般的に同様のトピックに興味を持ち、同様の種類のニュースを拡散する、という仮説を立てる。 我々は,カスケード内の社会的相互作用の表現を学習するためのいくつかの手法を試験し,それらを多入力(MI)フレームワークで深層ニューラルネットワークモデルと組み合わせた。 インタラクションのシーケンスを時間内に追跡し続けることで、従来の最先端モデルよりも改善する。

Detecting misinformation threads is crucial to guarantee a healthy environment on social media. We address the problem using the data set created during the COVID-19 pandemic. It contains cascades of tweets discussing information weakly labeled as reliable or unreliable, based on a previous evaluation of the information source. The models identifying unreliable threads usually rely on textual features. But reliability is not just what is said, but by whom and to whom. We additionally leverage on network information. Following the homophily principle, we hypothesize that users who interact are generally interested in similar topics and spreading similar kind of news, which in turn is generally reliable or not. We test several methods to learn representations of the social interactions within the cascades, combining them with deep neural language models in a Multi-Input (MI) framework. Keeping track of the sequence of the interactions during the time, we improve over previous state-of-the-art models.
翻訳日:2023-04-07 14:28:31 公開日:2023-04-06
# spritz-ps: 印刷文書の大規模データセットを用いた合成顔画像の検証

Spritz-PS: Validation of Synthetic Face Images Using a Large Dataset of Printed Documents ( http://arxiv.org/abs/2304.02982v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Yoosef Habibi, Mauro Conti(参考訳) 印刷・スキャンされた画像に対して効果的な法医学的分析を行う能力は多くの応用において不可欠である。 PS文書は、これらのアーティファクトが通常、操作された画像に存在し、合成画像の主要なアーティファクトがPS後に除去されるため、画像の合成性に起因する画像のアーティファクトを隠蔽するために用いられる。 gans(generative adversarial network)の魅力により、gansモデルで生成された合成顔画像は、本物の人間の顔と区別することが難しく、偽造idを作成するのに使うことができる。 さらに、GANモデルでは、人間の顔を生成するための生理的制約や、人間のIRISへの影響を考慮しないため、PSシナリオにおける合成IRISとの区別は非常に困難になる。 また,PSシナリオにおける大規模な参照IRISデータセットの欠如により,[45]で利用可能となるマルチメディア・フォレスティクス(MF)調査の標準となる新しいデータセットの開発を目指す。 本稿では,VIPPrint PrintedおよびScanned face imageから得られた多数の合成および天然印刷IRISからなる新しいデータセットを提案する。 我々は,顔画像からアイライズを抽出し,アイライド閉塞によるモデルが不完全なアイライズを捕捉した可能性が示唆された。 抽出した虹彩の欠落画素を埋めるために,虹彩画像間の複雑なリンクを発見する手法を適用した。 データセットのIRIS画像の評価にまつわる問題点を明らかにするために,我々は,ResNet50,Xception,VGG16,MobileNet-v2などの真のヒトIRISの類似性を評価するために,Samese Neural Networksを用いた多数の解析を行った。 例えば、Xceptionネットワークを用いて、合成画像のIRISの56.76倍、実画像のIRISの92.77%の類似性を達成した。

The capability of doing effective forensic analysis on printed and scanned (PS) images is essential in many applications. PS documents may be used to conceal the artifacts of images which is due to the synthetic nature of images since these artifacts are typically present in manipulated images and the main artifacts in the synthetic images can be removed after the PS. Due to the appeal of Generative Adversarial Networks (GANs), synthetic face images generated with GANs models are difficult to differentiate from genuine human faces and may be used to create counterfeit identities. Additionally, since GANs models do not account for physiological constraints for generating human faces and their impact on human IRISes, distinguishing genuine from synthetic IRISes in the PS scenario becomes extremely difficult. As a result of the lack of large-scale reference IRIS datasets in the PS scenario, we aim at developing a novel dataset to become a standard for Multimedia Forensics (MFs) investigation which is available at [45]. In this paper, we provide a novel dataset made up of a large number of synthetic and natural printed IRISes taken from VIPPrint Printed and Scanned face images. We extracted irises from face images and it is possible that the model due to eyelid occlusion captured the incomplete irises. To fill the missing pixels of extracted iris, we applied techniques to discover the complex link between the iris images. To highlight the problems involved with the evaluation of the dataset's IRIS images, we conducted a large number of analyses employing Siamese Neural Networks to assess the similarities between genuine and synthetic human IRISes, such as ResNet50, Xception, VGG16, and MobileNet-v2. For instance, using the Xception network, we achieved 56.76\% similarity of IRISes for synthetic images and 92.77% similarity of IRISes for real images.
翻訳日:2023-04-07 14:28:18 公開日:2023-04-06
# 低光画像強調のための高速軽量ネットワーク

A Fast and Lightweight Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2304.02978v1 )

ライセンス: Link先を確認
Yu Zhang, Xiaoguang Di, Junde Wu, RAO FU, Yong Li, Yue Wang, Yanwu Xu, Guohui YANG, Chunhui Wang(参考訳) 低照度画像は、しばしば激しいノイズ、低輝度、低コントラスト、色偏差に悩まされる。 いくつかの低照度画像強調法が提案されているが、これらの問題を同時に解決できる効率的な方法がない。 本稿では,低照度画像強調のための高速かつ軽量なネットワークFLW-Netを提案する。 高速な低照度画像強調を実現するため,絶対基準の欠如と,大域的コントラストを得るための受容領域の必要性が認識された。 そこで我々は,これらの課題を克服するために,相対情報に基づく効率的なグローバル特徴情報抽出と設計損失関数を提案する。 最後に,提案手法の有効性を示すために比較実験を行い,flw-netは処理効果を高めつつ,教師付き低光度画像強調ネットワークの複雑さを著しく低減できることを確認した。 コードはhttps://github.com/hitzhangyu/FLW-Netで入手できる。

Low-light images often suffer from severe noise, low brightness, low contrast, and color deviation. While several low-light image enhancement methods have been proposed, there remains a lack of efficient methods that can simultaneously solve all of these problems. In this paper, we introduce FLW-Net, a Fast and LightWeight Network for low-light image enhancement that significantly improves processing speed and overall effect. To achieve efficient low-light image enhancement, we recognize the challenges of the lack of an absolute reference and the need for a large receptive field to obtain global contrast. Therefore, we propose an efficient global feature information extraction component and design loss functions based on relative information to overcome these challenges. Finally, we conduct comparative experiments to demonstrate the effectiveness of the proposed method, and the results confirm that FLW-Net can significantly reduce the complexity of supervised low-light image enhancement networks while improving processing effect. Code is available at https://github.com/hitzhangyu/FLW-Net
翻訳日:2023-04-07 14:27:41 公開日:2023-04-06
# ディリクレ重み付き和のシャープ偏差境界とベイズアルゴリズムの解析への応用

Sharp Deviations Bounds for Dirichlet Weighted Sums with Application to analysis of Bayesian algorithms ( http://arxiv.org/abs/2304.03056v1 )

ライセンス: Link先を確認
Denis Belomestny, Pierre Menard, Alexey Naumov, Daniil Tiapkin, Michal Valko(参考訳) 本研究では,ディリクレ確率変数の重み付き和に対するシャープな非漸近偏差境界を求める。 これらの境界は、重み付きディリクレ和の密度の新たな積分表現に基づいている。 この表現により、幾何法と複素解析法を用いて和分布のガウス的近似が得られる。 本研究は,alfers and dinges [1984] で得られたベータ分布の類似境界を一般化する。 さらに、この結果はガネシュとオコネルがベイズ的設定で研究したサノフの定理の逆数の鋭く非漸近的なバージョンと考えることができる。 これらの結果から,ディリクレ過程の後方平均に対する新たな偏差境界をベイズブートストラップに適用して導出する。 最後に,多腕バンディットにおけるマルチノマルトンプソンサンプリング(ts)アルゴリズムの解析に推定を適用し,アーム分布支援の大きさに依存しないようにすることで,既存の後悔の限界を大幅に向上させる。

In this work, we derive sharp non-asymptotic deviation bounds for weighted sums of Dirichlet random variables. These bounds are based on a novel integral representation of the density of a weighted Dirichlet sum. This representation allows us to obtain a Gaussian-like approximation for the sum distribution using geometry and complex analysis methods. Our results generalize similar bounds for the Beta distribution obtained in the seminal paper Alfers and Dinges [1984]. Additionally, our results can be considered a sharp non-asymptotic version of the inverse of Sanov's theorem studied by Ganesh and O'Connell [1999] in the Bayesian setting. Based on these results, we derive new deviation bounds for the Dirichlet process posterior means with application to Bayesian bootstrap. Finally, we apply our estimates to the analysis of the Multinomial Thompson Sampling (TS) algorithm in multi-armed bandits and significantly sharpen the existing regret bounds by making them independent of the size of the arms distribution support.
翻訳日:2023-04-07 14:22:15 公開日:2023-04-06
# フレッドキンゲートの高度分解による弦マッチングのための中間量子支援改良量子アルゴリズム

Intermediate-qudit assisted Improved quantum algorithm for string matching with an Advanced Decomposition of Fredkin gate ( http://arxiv.org/abs/2304.03050v1 )

ライセンス: Link先を確認
Amit Saha and Om Khanna(参考訳) 長さ$M$の検索文字列(パターン)を長さ$N$の長いテキスト内でマッチングする量子文字列マッチングアルゴリズムの回路レベル実装は、時間複雑性と空間複雑性の点で古典的手法よりも優れていることが文献で実証されている。 高次元量子コンピューティングは、その強力なストレージと処理能力の結果として、ますます一般的になりつつある。 本稿では,高次元の中間一時的quditの助けを借りて,弦マッチング問題に対する量子回路実装の改善を示す。 また、中間quditsの助けを借りれば、深さの複雑さを低減できるだけでなく、量子アルゴリズムではクエリの複雑さを初めて最善の知識に還元できることを示した。 我々のアルゴリズムは、全体的な時間複雑性を持つ$O(\sqrt{N-M+1})$O\left(\sqrt{N-M+1}\left((\log {(N-M+1)} \log N)+\log (M)\right)\right)$のクエリ複雑性を持つステート・オブ・ザ・アートの複雑さを持つ$O(\sqrt{N})$のクエリ複雑性を持つ$O(\sqrt{N}\left(((\log N)^{2}+\log (M)\right)$のクエリ複雑性を持つ$O(\sqrt{N})$のクエリ複雑性を持つ$O(\sqrt{N}\left(((\log N)^{2}+\log (M)\right)$のクエリ複雑性を持つ。 文字列マッチング問題に対する最先端量子回路のコストは、大量のフレドキンゲートと多制御トフォリゲートのため、余剰である。 中間クイット(3次元クイットまたは3元系)によるフレドキンゲート分解と、既に存在するn$-qubit toffoliまたはマルチコントロール toffoliゲート(mct)の対数分解を中間クイット(4次元クイットまたは4元系)で適用することにより、回路上のゲートコストと深さを改善した。 また, 量子回路コストは, 誤差解析による高次元quditを用いるのではなく, 関連性があると主張した。

The circuit-level implementation of a quantum string-matching algorithm, which matches a search string (pattern) of length $M$ inside a longer text of length $N$, has already been demonstrated in the literature to outperform its classical counterparts in terms of time complexity and space complexity. Higher-dimensional quantum computing is becoming more and more common as a result of its powerful storage and processing capabilities. In this article, we have shown an improved quantum circuit implementation for the string-matching problem with the help of higher-dimensional intermediate temporary qudits. It is also shown that with the help of intermediate qudits not only the complexity of depth can be reduced but also query complexity can be reduced for a quantum algorithm, for the first time to the best of our knowledge. Our algorithm has an improved query complexity of $O(\sqrt{N-M+1})$ with overall time complexity $O\left(\sqrt{N-M+1}\left((\log {(N-M+1)} \log N)+\log (M)\right)\right)$ as compared to the state-of-the-art work which has a query complexity of $O(\sqrt{N})$ with overall time complexity $O\left(\sqrt{N}\left((\log N)^{2}+\log (M)\right)\right)$, while the ancilla count also reduces to $\frac{N}{2}$ from $\frac{N}{2}+M$. The cost of state-of-the-art quantum circuit for string-matching problem is colossal due to a huge number of Fredkin gates and multi-controlled Toffoli gates. We have exhibited an improved gate cost and depth over the circuit by applying a proposed Fredkin gate decomposition with intermediate qutrits (3-dimensional qudits or ternary systems) and already existing logarithmic-depth decomposition of $n$-qubit Toffoli or multi-controlled Toffoli gate (MCT) with intermediate ququarts (4-dimensional qudits or quaternary systems). We have also asserted that the quantum circuit cost is relevant instead of using higher dimensional qudits through error analysis.
翻訳日:2023-04-07 14:22:00 公開日:2023-04-06
# 早期地質探査時の複雑貯留層予測のための機械学習による井戸・地震データのエキスパート非依存一般化

Expert-Independent Generalization of Well and Seismic Data Using Machine Learning Methods for Complex Reservoirs Predicting During Early-Stage Geological Exploration ( http://arxiv.org/abs/2304.03048v1 )

ライセンス: Link先を確認
Dmitry Ivlev(参考訳) 本研究の目的は, 研究領域に広がる炭化水素貯水池の確率を予測するための自律的アプローチを開発し, 適用することである。 自律性とは、地質学的情報を準備し入力した後、専門家のアルゴリズムへの影響を最小限にすることを意味する。 本研究は,3次元地震探査データと調査分野の初期探査段階に関する情報に基づいて行われた。 その結果,2組の入力データ(ベースセットとリバースキャリブレーション後のセット)に対して,貯水池の空間分布の確率の予測を行い,研究対象空間に属する3次元立方体と同定されたクラスとが得られた。 本論文では, 地質・物理データの専門的非依存的な一般化と, 貯留層の確率的表現に基づいて, 仮説検証と地質モデルの作成にこの一般化を利用する。 確率的表現の質は、入力データの品質と量に依存する。 入力データによっては、このアプローチは地質学的対象の探索と探査、潜在的な資源の同定、フィールド開発の最適化と設計に有用なツールとなる。

The aim of this study is to develop and apply an autonomous approach for predicting the probability of hydrocarbon reservoirs spreading in the studied area. Autonomy means that after preparing and inputting geological-geophysical information, the influence of an expert on the algorithms is minimized. The study was made based on the 3D seismic survey data and well information on the early exploration stage of the studied field. As a result, a forecast of the probability of spatial distribution of reservoirs was made for two sets of input data: the base set and the set after reverse-calibration, and three-dimensional cubes of calibrated probabilities of belonging of the studied space to the identified classes were obtained. The approach presented in the paper allows for expert-independent generalization of geological and geophysical data, and to use this generalization for hypothesis testing and creating geological models based on a probabilistic representation of the reservoir. The quality of the probabilistic representation depends on the quality and quantity of the input data. Depending on the input data, the approach can be a useful tool for exploration and prospecting of geological objects, identifying potential resources, optimizing and designing field development.
翻訳日:2023-04-07 14:20:19 公開日:2023-04-06
# ETPNav: 連続環境における視覚言語ナビゲーションのためのトポロジ計画

ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2304.03047v1 )

ライセンス: Link先を確認
Dong An, Hanqing Wang, Wenguan Wang, Zun Wang, Yan Huang, Keji He, Liang Wang(参考訳) 視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。 自律的なナビゲーション、探索と救助、人間とロボットの相互作用など、AIの具体化の分野ではますます重要になっている。 本稿では,より実用的で挑戦的な,連続環境における視覚言語ナビゲーション(vln-ce)を提案する。 堅牢なVLN-CEエージェントを開発するために,2つの重要なスキルに焦点を当てた新しいナビゲーションフレームワーク ETPNav を提案する。 1)環境を抽象化し、長距離航法計画を作成する能力 2) 連続環境における障害物回避制御の能力 ETPNavは、事前の環境経験のない経路に沿って予測された経路を自己組織化することで、環境のオンライントポロジカルマッピングを行う。 エージェントは、ナビゲーション手順を高レベルな計画と低レベルな制御に分解する権限がある。 同時にetpnavはトランスフォーマティブベースのクロスモーダルプランナーを使用して、トポロジカルマップと命令に基づいたナビゲーションプランを生成する。 計画は障害物回避コントローラで実行され、試行錯誤のヒューリスティックを利用してナビゲーションが障害物にぶつからないようにする。 実験の結果,提案手法の有効性が示された。 ETPNavは、それぞれR2R-CEデータセットとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。 私たちのコードはhttps://github.com/marsaki/etpnavで利用可能です。

Vision-language navigation is a task that requires an agent to follow instructions to navigate in environments. It becomes increasingly crucial in the field of embodied AI, with potential applications in autonomous navigation, search and rescue, and human-robot interaction. In this paper, we propose to address a more practical yet challenging counterpart setting - vision-language navigation in continuous environments (VLN-CE). To develop a robust VLN-CE agent, we propose a new navigation framework, ETPNav, which focuses on two critical skills: 1) the capability to abstract environments and generate long-range navigation plans, and 2) the ability of obstacle-avoiding control in continuous environments. ETPNav performs online topological mapping of environments by self-organizing predicted waypoints along a traversed path, without prior environmental experience. It privileges the agent to break down the navigation procedure into high-level planning and low-level control. Concurrently, ETPNav utilizes a transformer-based cross-modal planner to generate navigation plans based on topological maps and instructions. The plan is then performed through an obstacle-avoiding controller that leverages a trial-and-error heuristic to prevent navigation from getting stuck in obstacles. Experimental results demonstrate the effectiveness of the proposed method. ETPNav yields more than 10% and 20% improvements over prior state-of-the-art on R2R-CE and RxR-CE datasets, respectively. Our code is available at https://github.com/MarSaKi/ETPNav.
翻訳日:2023-04-07 14:19:59 公開日:2023-04-06
# データマニフォールドにおけるマルチ線形カーネル回帰とインプット

Multi-Linear Kernel Regression and Imputation in Data Manifolds ( http://arxiv.org/abs/2304.03041v1 )

ライセンス: Link先を確認
Duc Thien Nguyen and Konstantinos Slavakis(参考訳) 本稿では、データ回帰とインプットのための効率的なマルチ線形非パラメトリック(カーネルベース)近似フレームワークとその動的磁気共鳴イメージング(dMRI)への応用について述べる。 データの特徴は、再生核ヒルベルト空間に埋め込まれた滑らかな多様体内またはその近くに存在すると仮定される。 ランドマーク点は、滑らかな多様体への接空間の概念を模倣する線形近似パッチにより、特徴の点雲を簡潔に記述する。 マルチ線形モデルは次元の削減に影響を及ぼし、効率的な計算を可能にし、トレーニングデータや追加情報なしでデータパターンとその幾何学を抽出する。 重度のアンダーサンプリング下でのdmriデータの数値実験は、従来の手法、一般的なデータモデリング手法、および最近のテンソルベースおよびディープイメージ優先スキームよりも効率と精度が著しく向上していることを示している。

This paper introduces an efficient multi-linear nonparametric (kernel-based) approximation framework for data regression and imputation, and its application to dynamic magnetic-resonance imaging (dMRI). Data features are assumed to reside in or close to a smooth manifold embedded in a reproducing kernel Hilbert space. Landmark points are identified to describe concisely the point cloud of features by linear approximating patches which mimic the concept of tangent spaces to smooth manifolds. The multi-linear model effects dimensionality reduction, enables efficient computations, and extracts data patterns and their geometry without any training data or additional information. Numerical tests on dMRI data under severe under-sampling demonstrate remarkable improvements in efficiency and accuracy of the proposed approach over its predecessors, popular data modeling methods, as well as recent tensor-based and deep-image-prior schemes.
翻訳日:2023-04-07 14:19:34 公開日:2023-04-06
# 小売銀行業における顧客生涯価値のモデル化

Modelling customer lifetime-value in the retail banking industry ( http://arxiv.org/abs/2304.03038v1 )

ライセンス: Link先を確認
Greig Cowan, Salvatore Mercuri, Raad Khraishi(参考訳) しかし、顧客生涯価値を理解することは、長期的な顧客関係を育む上でキーとなる。 小売銀行業界では、一般的なアプローチは単純なヒューリスティックに依存しており、現代の機械学習技術の高度な予測能力を利用しない。 本稿では、長期にわたる契約・商品中心の顧客関係を持つ産業に適用可能な顧客寿命価値をモデル化するための一般的な枠組みについて述べる。 このフレームワークは、任意の時間的地平線と製品に基づく確率モデル上でのCLV予測を促進するのに新しい。 また、英国大手銀行で現在生産されているこのモデルの実装についても詳述する。 テストでは,一般的なベースラインアプローチと比較して,時間外CLV予測誤差が43%改善した。 当社のCLVモデルから得られた収益モデルを用いて,顧客のコンタクトマーケティングキャンペーンを支援している。 テストでは、投資商品を入手する傾向によってランク付けされた顧客の上位10%が、ランダムに選択した顧客よりも来年に投資商品を入手する確率が3.2倍高かった。

Understanding customer lifetime value is key to nurturing long-term customer relationships, however, estimating it is far from straightforward. In the retail banking industry, commonly used approaches rely on simple heuristics and do not take advantage of the high predictive ability of modern machine learning techniques. We present a general framework for modelling customer lifetime value which may be applied to industries with long-lasting contractual and product-centric customer relationships, of which retail banking is an example. This framework is novel in facilitating CLV predictions over arbitrary time horizons and product-based propensity models. We also detail an implementation of this model which is currently in production at a large UK lender. In testing, we estimate an 43% improvement in out-of-time CLV prediction error relative to a popular baseline approach. Propensity models derived from our CLV model have been used to support customer contact marketing campaigns. In testing, we saw that the top 10% of customers ranked by their propensity to take up investment products were 3.2 times more likely to take up an investment product in the next year than a customer chosen at random.
翻訳日:2023-04-07 14:19:17 公開日:2023-04-06
# 変分量子アルゴリズムの並列回路実装

Parallel circuit implementation of variational quantum algorithms ( http://arxiv.org/abs/2304.03037v1 )

ライセンス: Link先を確認
Michele Cattelan and Sheir Yarkoni(参考訳) 本稿では,変分量子アルゴリズム(VQA)の量子回路を分割して並列トレーニングと実行を可能にする手法を提案する。 具体的には、この問題から固有の構造を識別できる組合せ最適化問題に適用し、これをスライスと呼ぶ並列化量子回路の作り方を直接示す。 我々は、pQAOAと呼ぶ量子近似最適化アルゴリズムの並列バージョンを作成し、その方法が変分量子固有解法や量子アニール法といった他の量子アルゴリズムにどのように適用されるかを説明する。 我々は,本手法がより大きな問題に対処できるだけでなく,1つのスライスのみを用いてパラメータをトレーニングしながら,完全なVQAモデルを実行することもできることを示した。 これらの結果は、分割によって引き起こされる情報の損失が、最適化のための量子回路におけるパラメータの訓練に必ずしも影響を及ぼさないことを示している。 これは、組合せ最適化問題は、現在のVQAの量子回路において冗長な情報を符号化していることを意味する。 したがって、組合せ最適化の量子優位性を得るためには、将来の量子アルゴリズムはそのような冗長性のない情報を組み込むように設計されなければならない。

We present a method to split quantum circuits of variational quantum algorithms (VQAs) to allow for parallel training and execution, that maximally exploits the limited number of qubits in hardware to solve large problem instances. We apply this specifically to combinatorial optimization problems, where inherent structures from the problem can be identified, thus directly informing how to create these parallelized quantum circuits, which we call slices. We test our method by creating a parallelized version of the Quantum Approximate Optimization Algorithm, which we call pQAOA, and explain how our methods apply to other quantum algorithms like the Variational Quantum Eigensolver and quantum annealing. We show that not only can our method address larger problems, but that it is also possible to run full VQA models while training parameters using only one slice. These results show that the loss of information induced by splitting does not necessarily affect the training of parameters in quantum circuits for optimization. This implies that combinatorial optimization problems are encoded with redundant information in quantum circuits of current VQAs. Therefore, to attain quantum advantage for combinatorial optimization, future quantum algorithms should be designed to incorporate information that is free of such redundancies.
翻訳日:2023-04-07 14:18:59 公開日:2023-04-06
# 不可解な対策による難易度検索の再検討

Revisiting Dense Retrieval with Unanswerable Counterfactuals ( http://arxiv.org/abs/2304.03031v1 )

ライセンス: Link先を確認
Yongho Song, Dahyun Lee, Kyungjae Lee, Jinyeong Yeo(参考訳) retriever-readerフレームワークはopen-domain question answering(odqa)で人気があり、レトリバーが読者に対して、大きなコーパスから関連する候補パスのセットをサンプリングする。 この手法の背景にある重要な前提は、検索者からの高関連度スコアは、読者からの高い応答可能性を示す可能性があり、検索されたパスが与えられた質問に対する回答を含む確率が高いということである。 本研究では,この信念を実証的に否定し,dprに基づく近年の密集した検索モデルが,解答可能な原文よりも不都合な偽文を上位にランク付けすることが多いことを観察する。 本研究では,dprの関連度測定と質問・回答対の対応性との同期性を高めるために,非実例を付加的な学習資源として活用する。 具体的には, 逆実例を学習空間における正と負のサンプルのピボットとして活用する, 経路探索のための新しい表現学習手法PiCLを提案する。 我々は, ODQAベンチマークにおけるPiCLの有効性と学習モデルの堅牢性を示すために, 検索学習にPiCLを組み込んだ。

The retriever-reader framework is popular for open-domain question answering (ODQA), where a retriever samples for the reader a set of relevant candidate passages from a large corpus. A key assumption behind this method is that high relevance scores from the retriever likely indicate high answerability from the reader, which implies a high probability that the retrieved passages contain answers to a given question. In this work, we empirically dispel this belief and observe that recent dense retrieval models based on DPR often rank unanswerable counterfactual passages higher than their answerable original passages. To address such answer-unawareness in dense retrievers, we seek to use counterfactual samples as additional training resources to better synchronize the relevance measurement of DPR with the answerability of question-passage pairs. Specifically, we present counterfactually-Pivoting Contrastive Learning (PiCL), a novel representation learning approach for passage retrieval that leverages counterfactual samples as pivots between positive and negative samples in their learned embedding space. We incorporate PiCL into the retriever training to show the effectiveness of PiCL on ODQA benchmarks and the robustness of the learned models.
翻訳日:2023-04-07 14:18:40 公開日:2023-04-06
# 列挙とゲインの圧縮

Compression of enumerations and gain ( http://arxiv.org/abs/2304.03030v1 )

ライセンス: Link先を確認
George Barmpalias and Xiaoyan Zhang and Bohua Zhan(参考訳) 計算可能可算集合の相対的コルモゴロフ複雑性における列挙の圧縮可能性とその密度に対する役割について検討する。 圧縮の強さと弱さについて,圧縮列挙に埋め込まれた補助情報量について検討する。 計算可能可算集合に対して強圧縮と弱利得なし圧縮を示し、強利得なし圧縮を理解するために位置ゲームを研究する。

We study the compressibility of enumerations, and its role in the relative Kolmogorov complexity of computably enumerable sets, with respect to density. With respect to a strong and a weak form of compression, we examine the gain: the amount of auxiliary information embedded in the compressed enumeration. Strong compression and weak gainless compression is shown for any computably enumerable set, and a positional game is studied toward understanding strong gainless compression.
翻訳日:2023-04-07 14:18:18 公開日:2023-04-06
# 損失導波路を有する非エルミート境界状態蒸留

Non-Hermitian Boundary State Destillation with Lossy Waveguides ( http://arxiv.org/abs/2304.03016v1 )

ライセンス: Link先を確認
Walid Cherifi, Johan Carlstr\"om, Mohamed Bourennane, Emil J. Bergholtz(参考訳) 位相位相の目印は、そのエキゾチックな境界状態である。 一連の顕著な実験において、これらの状態の古典的なアナログは微妙に微調整された入力光を与える結合光導波路の配列で設計できることが示されている。 本稿では,損失のある導波路のパターンが,汎用的,あるいはデフォーカスな入力光の境界状態を蒸留することにより,微調整の必要性を完全に緩和する,根本的に異なる手法を紹介し,実験的に示す。 我々の「トポロジカル脱蒸留」アプローチは著しく一般的であり、損失導波路は実質的に非エルミート・ハミルトニアンであり、対応する時間進化(導波路における光の伝播)は、どの位相的(あるいは自明な)バンド構造の平凡なバルク状態を取り除き、それらが最も長い寿命を持つ状態の集合であるために、興味深い境界状態を保持する。 フォトニックグラフェンのエッジ状態と非エルミートカゴメアレイのコーナー状態とエッジ状態を蒸留することにより,我々のアプローチのパワーと汎用性を実験的に実証した。

The hallmark of topological phases is their exotic boundary states. In a series of remarkable experiments it has been shown that classical analogues of these states can be engineered in arrays of coupled optical waveguides given delicately fine-tuned input light. Here, we introduce and experimentally demonstrate a radically different approach in which a pattern of lossy waveguides distills the boundary states for generic, even defocused, input light, thus fully alleviating the need for fine-tuning. Our "topological destillation" approach is remarkably general: the lossy waveguides amount to an effectively non-Hermitian Hamiltonian, and the corresponding time-evolution (propagation of the light in the waveguides) removes the mundane bulk states of any topological (or trivial) band structure while retaining the intriguing boundary states by virtue of them being the set of states with the longest life-time. We experimentally demonstrate the power and versatility of our approach by distilling the edge states in photonic graphene, as well as corner and edge states in non-Hermitian Kagome arrays.
翻訳日:2023-04-07 14:18:10 公開日:2023-04-06
# ニューラルネットワークのスペクトルギャップ規則化

Spectral Gap Regularization of Neural Networks ( http://arxiv.org/abs/2304.03096v1 )

ライセンス: Link先を確認
Edric Tam, David Dunson(参考訳) 本稿では,スペクトル/グラフィック情報を利用したニューラルネットワークの正規化手法であるFiedler regularizationを紹介する。 既存の正規化法は、ニューラルネットワークの接続構造を無視するグローバル/均一な方法で重み付けをペナルティ化することに注力することが多い。 ニューラルネットワークの基盤となるグラフのFiedler値を正規化のツールとして用いることを提案する。 このアプローチの理論的動機は、スペクトルグラフ理論である。 正規化ツールとして有用なFiedler値のいくつかの有用な特性を示す。 トレーニング中の計算を高速化するための近似的,変動的なアプローチを提供する。 我々は、構造的に重み付けされた$\text{l}_1$ペナルティという形で、このフレームワークの別の定式化を提供する。 ラデマッハ複雑性解析によりフィドラー正則化のための一様一般化誤差境界を与える。 本研究では,Fiedler正則化と,ドロップアウトやウェイト崩壊といった古典的正則化手法との比較実験を行った。 その結果,Fiedler正則化の有効性が示された。 これはTam and Dunson (2020)による会議論文のジャーナル拡張である。

We introduce Fiedler regularization, a novel approach for regularizing neural networks that utilizes spectral/graphical information. Existing regularization methods often focus on penalizing weights in a global/uniform manner that ignores the connectivity structure of the neural network. We propose to use the Fiedler value of the neural network's underlying graph as a tool for regularization. We provide theoretical motivation for this approach via spectral graph theory. We demonstrate several useful properties of the Fiedler value that make it useful as a regularization tool. We provide an approximate, variational approach for faster computation during training. We provide an alternative formulation of this framework in the form of a structurally weighted $\text{L}_1$ penalty, thus linking our approach to sparsity induction. We provide uniform generalization error bounds for Fiedler regularization via a Rademacher complexity analysis. We performed experiments on datasets that compare Fiedler regularization with classical regularization methods such as dropout and weight decay. Results demonstrate the efficacy of Fiedler regularization. This is a journal extension of the conference paper by Tam and Dunson (2020).
翻訳日:2023-04-07 14:12:11 公開日:2023-04-06
# ポピュレーションパラメータ平均化(PAPA)

PopulAtion Parameter Averaging (PAPA) ( http://arxiv.org/abs/2304.03094v1 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Emy Gervais, Kilian Fatras, Yan Zhang, Simon Lacoste-Julien(参考訳) アンサンブル法は複数のモデルの予測を組み合わせて性能を向上させるが、推論時に計算コストを大幅に高める必要がある。 これらのコストを回避するために、重み(モデルスープ)を平均することで、複数のニューラルネットワークを1つにまとめることができる。 しかし、これは通常、センシングよりも著しく悪くなる。 重量平均化は、重量が(重量や特徴空間において)十分よく似ているが、それらを組み合わせることで得られるほど異なる場合にのみ有益である。 この考え方に基づき, センシングの汎用性と重量平均化の効率を組み合わせる手法として, 集団パラメータ平均化(papa)を提案する。 パパは多種多様なモデル(異なるデータ順序、拡張、正規化で訓練されている)の集団を活用しており、ネットワークの重みを重み付けの人口平均値に置き換える(あまり頻繁にではなく、あまりまれではない)こともある。 PAPAは平均化とアンサンブルのパフォーマンスギャップを減らし、CIFAR-10では1.1%まで、CIFAR-100では2.4%、ImageNetでは1.9%まで向上した。

Ensemble methods combine the predictions of multiple models to improve performance, but they require significantly higher computation costs at inference time. To avoid these costs, multiple neural networks can be combined into one by averaging their weights (model soups). However, this usually performs significantly worse than ensembling. Weight averaging is only beneficial when weights are similar enough (in weight or feature space) to average well but different enough to benefit from combining them. Based on this idea, we propose PopulAtion Parameter Averaging (PAPA): a method that combines the generality of ensembling with the efficiency of weight averaging. PAPA leverages a population of diverse models (trained on different data orders, augmentations, and regularizations) while occasionally (not too often, not too rarely) replacing the weights of the networks with the population average of the weights. PAPA reduces the performance gap between averaging and ensembling, increasing the average accuracy of a population of models by up to 1.1% on CIFAR-10, 2.4% on CIFAR-100, and 1.9% on ImageNet when compared to training independent (non-averaged) models.
翻訳日:2023-04-07 14:11:44 公開日:2023-04-06
# インダクティブグラフアンラーニング

Inductive Graph Unlearning ( http://arxiv.org/abs/2304.03093v1 )

ライセンス: Link先を確認
Cheng-Long Wang, Mengdi Huai, Di Wang(参考訳) 機械学習で"忘れられる権利"を実装する方法として、 \textit{machine unlearning}は、トレーニングされたモデルから削除されるサンプルのコントリビューションと情報を、他のサンプルのコントリビューションに影響を与えることなく完全に削除することを目的としている。 近年,機械学習のための多くのフレームワークが提案されており,そのほとんどは画像とテキストデータに重点を置いている。 機械学習をグラフデータに拡張するために、 \textit{GraphEraser} が提案されている。 しかし、重要な問題は \textit{grapheraser} は、グラフが静的で属性とテストノードのエッジがトレーニング中に見えるトランスダクティブグラフ設定用に特別に設計されていることである。 グラフが動的になり、テストグラフ情報が事前に見えないような帰納的設定には適さない。 このようなインダクティブな能力は、ソーシャルメディアやトランザクションネットワークのような進化するグラフを持つ機械学習システムにとって不可欠である。 このギャップを埋めるために、我々は \underline{{\bf G}}\underline{{\bf U}}ided \underline{{\bf I}}n\underline{{\bf D}}uctiv\underline{{\bf E}} Graph Unlearning framework (GUIDE)を提案する。 GUIDEは3つのコンポーネントから構成される: 公正性とバランスのグラフ分割、効率的なサブグラフ修復、類似性に基づく集約。 実験では,いくつかのインダクティブベンチマークと進化するトランザクショングラフを用いて,提案手法を評価する。 一般に、GUIDEは計算や構造情報に関係なく、低グラフ分割コストでインダクティブグラフ学習タスクに効率的に実装することができる。 コードはここで入手できる。 https://github.com/happy2git/guide。

As a way to implement the "right to be forgotten" in machine learning, \textit{machine unlearning} aims to completely remove the contributions and information of the samples to be deleted from a trained model without affecting the contributions of other samples. Recently, many frameworks for machine unlearning have been proposed, and most of them focus on image and text data. To extend machine unlearning to graph data, \textit{GraphEraser} has been proposed. However, a critical issue is that \textit{GraphEraser} is specifically designed for the transductive graph setting, where the graph is static and attributes and edges of test nodes are visible during training. It is unsuitable for the inductive setting, where the graph could be dynamic and the test graph information is invisible in advance. Such inductive capability is essential for production machine learning systems with evolving graphs like social media and transaction networks. To fill this gap, we propose the \underline{{\bf G}}\underline{{\bf U}}ided \underline{{\bf I}}n\underline{{\bf D}}uctiv\underline{{\bf E}} Graph Unlearning framework (GUIDE). GUIDE consists of three components: guided graph partitioning with fairness and balance, efficient subgraph repair, and similarity-based aggregation. Empirically, we evaluate our method on several inductive benchmarks and evolving transaction graphs. Generally speaking, GUIDE can be efficiently implemented on the inductive graph learning tasks for its low graph partition cost, no matter on computation or structure information. The code will be available here: https://github.com/Happy2Git/GUIDE.
翻訳日:2023-04-07 14:11:22 公開日:2023-04-06
# ソーシャルメディア上でのスタンス検出のためのChatGPTを用いた考察

Investigating Chain-of-thought with ChatGPT for Stance Detection on Social Media ( http://arxiv.org/abs/2304.03087v1 )

ライセンス: Link先を確認
Bowen Zhang, Xianghua Fu, Daijun Ding, Hu Huang, Yangyang Li, Liwen Jing(参考訳) 姿勢検出はテキスト中のターゲットに対する態度を予測し、ソーシャルメディアの台頭と共に注目を集めている。 従来のアプローチには、従来の機械学習、初期のディープニューラルネットワーク、トレーニング済みの微調整モデルなどがある。 しかし、ChatGPT (GPT-3.5)のような非常に大きな事前訓練型言語モデル(VLPLM)の進化に伴い、従来の手法はデプロイメントの課題に直面している。 バックプロパゲーショントレーニングを必要としないパラメータフリーのChain-of-Thought(CoT)アプローチが,有望な代替手段として登場した。 本稿では,姿勢検出タスクにおけるcotの有効性を検証し,その優れた精度を示し,関連する課題について議論する。

Stance detection predicts attitudes towards targets in texts and has gained attention with the rise of social media. Traditional approaches include conventional machine learning, early deep neural networks, and pre-trained fine-tuning models. However, with the evolution of very large pre-trained language models (VLPLMs) like ChatGPT (GPT-3.5), traditional methods face deployment challenges. The parameter-free Chain-of-Thought (CoT) approach, not requiring backpropagation training, has emerged as a promising alternative. This paper examines CoT's effectiveness in stance detection tasks, demonstrating its superior accuracy and discussing associated challenges.
翻訳日:2023-04-07 14:10:48 公開日:2023-04-06
# 非線形冬モデルにおける量子共鳴と生存振幅の解析

Quantum resonances and analysis of the survival amplitude in the nonlinear Winter's model ( http://arxiv.org/abs/2304.03083v1 )

ライセンス: Link先を確認
Andrea Sacchetti(参考訳) 本稿では,非線形摂動項を時間依存シュレーディンガー方程式に付加した場合でも,量子共鳴の典型的な効果,すなわち生存振幅の指数型減衰が継続することを示す。 線形方程式に既に使われている概念を用いて、厳密かつ適切な量子共鳴の定義を与えるのも困難である。

In this paper we show that the typical effects of quantum resonances, namely, the exponential-type decay of the survival amplitude, continue to exist even when a nonlinear perturbative term is added to the time-dependent Schroedinger equation. The difficulty in giving a rigorous and appropriate definition of quantum resonances by means of the notions already used for linear equations is also highlighted.
翻訳日:2023-04-07 14:10:37 公開日:2023-04-06
# 好ましくない軌道の時間パターン学習と負の副作用回避による安全なMDP計画

Safe MDP Planning by Learning Temporal Patterns of Undesirable Trajectories and Averting Negative Side Effects ( http://arxiv.org/abs/2304.03081v1 )

ライセンス: Link先を確認
Siow Meng Low, Akshat Kumar, Scott Sanner(参考訳) 安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。 現実の世界では、しばしば使用される状態表現はそのような安全制約を特定するのに十分な忠実さを欠いている。 不完全モデルに基づく操作はしばしば意図しない負の副作用(NSE)を生じる。 これらの課題に対処するために、まず、安全信号と状態行動軌跡(即時状態行動ではなく)を関連付ける。 これにより、安全モデルは極めて一般的なものになる。 また,問題設計者の特定が困難である数値的コスト関数よりも,異なる軌道に対してカテゴリ安全ラベルが与えられると仮定する。 そして,このような非マルコフ的安全パターンを学習するために教師付き学習モデルを用いる。 第2に,安全な行動のエージェント学習を容易にするために,単一の計算グラフに安全モデルと基礎となるmdpモデルを組み込んだラグランジュ乗算法を開発した。 最後に、様々な離散的かつ連続的な領域に関する実験結果から、このアプローチは、エージェントの総リターンを最適化しながら、複雑な非マルコフ的安全制約を満たすことができ、高度にスケーラブルであり、マルコフ的NSEに対する以前のベストアプローチよりも優れていることを示す。

In safe MDP planning, a cost function based on the current state and action is often used to specify safety aspects. In the real world, often the state representation used may lack sufficient fidelity to specify such safety constraints. Operating based on an incomplete model can often produce unintended negative side effects (NSEs). To address these challenges, first, we associate safety signals with state-action trajectories (rather than just an immediate state-action). This makes our safety model highly general. We also assume categorical safety labels are given for different trajectories, rather than a numerical cost function, which is harder to specify by the problem designer. We then employ a supervised learning model to learn such non-Markovian safety patterns. Second, we develop a Lagrange multiplier method, which incorporates the safety model and the underlying MDP model in a single computation graph to facilitate agent learning of safe behaviors. Finally, our empirical results on a variety of discrete and continuous domains show that this approach can satisfy complex non-Markovian safety constraints while optimizing an agent's total returns, is highly scalable, and is also better than the previous best approach for Markovian NSEs.
翻訳日:2023-04-07 14:10:30 公開日:2023-04-06
# シンボリック回帰を用いたデータ駆動型HVAC制御:設計と実装

Data-driven HVAC Control Using Symbolic Regression: Design and Implementation ( http://arxiv.org/abs/2304.03078v1 )

ライセンス: Link先を確認
Yuki Ozawa, Dafang Zhao, Daichi Watari, Ittetsu Taniguchi, Toshihiro Suzuki, Yoshiyuki Shimoda, Takao Onoye(参考訳) 建物内で収集される大量のデータは、エネルギー管理をより賢く、エネルギー効率を高める。 本研究では,データ駆動加熱,換気,空調(HVAC)制御の設計と実装手法を提案する。 熱力学の構築は、収集したデータから構築したシンボリック回帰モデル(srm)を用いてモデル化される。 さらに、HVACシステムモデルもデータ駆動方式で開発されている。 モデル予測制御(MPC)に基づくHVACスケジューリングは、エネルギー消費とピーク電力需要を最小化し、熱快適性を最大化する。 提案するフレームワークの性能は,実際のキャンパスビルのワークスペースで実証されている。 提案フレームワークを用いたHVACシステムは,広く使用されているサーモスタットコントローラと比較してピーク電力を16.1\%削減する。

The large amount of data collected in buildings makes energy management smarter and more energy efficient. This study proposes a design and implementation methodology of data-driven heating, ventilation, and air conditioning (HVAC) control. Building thermodynamics is modeled using a symbolic regression model (SRM) built from the collected data. Additionally, an HVAC system model is also developed with a data-driven approach. A model predictive control (MPC) based HVAC scheduling is formulated with the developed models to minimize energy consumption and peak power demand and maximize thermal comfort. The performance of the proposed framework is demonstrated in the workspace in the actual campus building. The HVAC system using the proposed framework reduces the peak power by 16.1\% compared to the widely used thermostat controller.
翻訳日:2023-04-07 14:10:10 公開日:2023-04-06
# 非定常時系列のモーメント移動推定器を用いた適応的学生のt分布

Adaptive Student's t-distribution with method of moments moving estimator for nonstationary time series ( http://arxiv.org/abs/2304.03069v1 )

ライセンス: Link先を確認
Jarek Duda(参考訳) 実寿命の時系列は通常非定常であり、モデル適応の難しい問題を引き起こす。 ガーチのような古典的アプローチは任意の種類の依存を仮定する。 例えば、$f_t=\sum_{\tau<t} (1-\eta)^{t-\tau} \ln(\rho_\theta (x_\tau))$ move log-likelihood などである。 例えば、絶対中心モーメント $E[|x-\mu|^p]$ を $m_{p,t+1} = m_{p,t} + \eta (|x_t-\mu_t|^p-m_{p,t})$ のように、安価な指数移動平均 (EMA) を用いてパラメータを推定することができる。 このような一般的なモーメントの適応的手法の応用は、特に経済的な応用で人気がある学生のt分布について、DJIA企業のログリターンに適用する。

The real life time series are usually nonstationary, bringing a difficult question of model adaptation. Classical approaches like GARCH assume arbitrary type of dependence. To prevent such bias, we will focus on recently proposed agnostic philosophy of moving estimator: in time $t$ finding parameters optimizing e.g. $F_t=\sum_{\tau<t} (1-\eta)^{t-\tau} \ln(\rho_\theta (x_\tau))$ moving log-likelihood, evolving in time. It allows for example to estimate parameters using inexpensive exponential moving averages (EMA), like absolute central moments $E[|x-\mu|^p]$ evolving with $m_{p,t+1} = m_{p,t} + \eta (|x_t-\mu_t|^p-m_{p,t})$ for one or multiple powers $p\in\mathbb{R}^+$. Application of such general adaptive methods of moments will be presented on Student's t-distribution, popular especially in economical applications, here applied to log-returns of DJIA companies.
翻訳日:2023-04-07 14:09:56 公開日:2023-04-06
# 新しい3rlデータセットにおけるリアルタイム顔感情認識の実験的検討

An experimental study in Real-time Facial Emotion Recognition on new 3RL dataset ( http://arxiv.org/abs/2304.03064v1 )

ライセンス: Link先を確認
Rahmeh Abou Zafra, Lana Ahmad Abdullah, Rouaa Alaraj, Rasha Albezreh, Tarek Barhoum, Khloud Al Jallad(参考訳) リアルタイムの顔の感情認識は、人間とコンピュータの相互作用の分野におけるホットな研究領域であるが、最先端の最先端のデータセットは、文書写真、各クラスの写真のバランスの取れていない数、正しい分類に悪影響を及ぼす可能性のある誤解を招く画像など、様々な問題に悩まされている。 3RLデータセットは、約24Kイメージを含み、これまで利用可能なデータセット問題を克服するために、一般公開される予定である。 3RLデータセットには、幸福、恐怖、悲しみ、嫌悪、怒りという5つの基本的な感情がラベル付けされている。 さらに,3RLデータセットを他の最先端データセット(FERデータセット,CK+データセット)と比較し,従来の研究で最もよく使われているアルゴリズムであるSVMとCNNを適用した。 その結果、3rlデータセットの一般化が顕著に向上した。 実験では、CNNを用いて3RLデータセットで最大91.4%の精度が示され、それぞれFER2013、CK+(約60%から85%)の結果が得られた。

Although real-time facial emotion recognition is a hot topic research domain in the field of human-computer interaction, state-of the-art available datasets still suffer from various problems, such as some unrelated photos such as document photos, unbalanced numbers of photos in each class, and misleading images that can negatively affect correct classification. The 3RL dataset was created, which contains approximately 24K images and will be publicly available, to overcome previously available dataset problems. The 3RL dataset is labelled with five basic emotions: happiness, fear, sadness, disgust, and anger. Moreover, we compared the 3RL dataset with other famous state-of-the-art datasets (FER dataset, CK+ dataset), and we applied the most commonly used algorithms in previous works, SVM and CNN. The results show a noticeable improvement in generalization on the 3RL dataset. Experiments have shown an accuracy of up to 91.4% on 3RL dataset using CNN where results on FER2013, CK+ are, respectively (approximately from 60% to 85%).
翻訳日:2023-04-07 14:09:26 公開日:2023-04-06
# 一対の代替品のほぼ最適操作

Almost optimal manipulation of a pair of alternatives ( http://arxiv.org/abs/2304.03060v1 )

ライセンス: Link先を確認
Jacek Szybowski and Konrad Ku{\l}akowski and Sebastian Ernst(参考訳) 意思決定プロセスにおける専門家の役割は、最終勧告が彼の処分、心の明確さ、経験、問題の知識に依存するため、非常に重要である。 しかし、その勧告は彼らの誠実さにも左右される。 しかし、もし専門家が不正直なら? すると、あるケースで操作するのがいかに難しいかという答えが不可欠になる。 提案手法では,対の選択肢を比較することで得られるランキングの操作について検討する。 具体的には、選択された2つの選択肢の位置を置換するほぼ最適な方法を見つけるアルゴリズムを提案する。 これにより、そのような操作が特定のケースでどれだけ難しいかを決定することができる。 理論的考察は実例で示される。

The role of an expert in the decision-making process is crucial, as the final recommendation depends on his disposition, clarity of mind, experience, and knowledge of the problem. However, the recommendation also depends on their honesty. But what if the expert is dishonest? Then, the answer on how difficult it is to manipulate in a given case becomes essential. In the presented work, we consider manipulation of a ranking obtained by comparing alternatives in pairs. More specifically, we propose an algorithm for finding an almost optimal way to swap the positions of two selected alternatives. Thanks to this, it is possible to determine how difficult such manipulation is in a given case. Theoretical considerations are illustrated by a practical example.
翻訳日:2023-04-07 14:09:06 公開日:2023-04-06
# 画像固有プロンプト学習によるゼロショット生成モデル適応

Zero-shot Generative Model Adaptation via Image-specific Prompt Learning ( http://arxiv.org/abs/2304.03119v1 )

ライセンス: Link先を確認
Jiayi Guo, Chaofei Wang, You Wu, Eric Zhang, Kai Wang, Xingqian Xu, Shiji Song, Humphrey Shi, Gao Huang(参考訳) 近年,クリップ誘導画像合成は,事前学習されたソースドメイン生成器を対象領域に適応させる上で魅力的な性能を示している。 ターゲットドメインのサンプルは必要ありませんが、テキストドメインラベルのみです。 訓練は、例えば数分で非常に効率的である。 しかし、既存の手法では生成画像の品質に制限があり、モード崩壊の問題に悩まされる可能性がある。 鍵となる理由は、すべてのクロスドメイン画像対に対して固定適応方向が適用され、同一の監視信号が導かれることである。 この問題に対処するために,各ソースドメイン画像に対して特定のプロンプトベクトルを学習するipl(image-specific prompt learning)法を提案する。 これにより、各クロスドメインイメージペアに対してより正確な適応方向が得られ、柔軟性が大幅に向上したターゲットドメインジェネレータが提供される。 様々な領域における質的および定量的評価により、IPLは合成画像の品質と多様性を効果的に改善し、モード崩壊を緩和することを示した。 さらに、IPLは生成的敵ネットワークや拡散モデルのような生成的モデルの構造とは独立である。 コードはhttps://github.com/Picsart-AI-Research/IPL-Zero-Shot-Generative-Model-Adaptationで公開されている。

Recently, CLIP-guided image synthesis has shown appealing performance on adapting a pre-trained source-domain generator to an unseen target domain. It does not require any target-domain samples but only the textual domain labels. The training is highly efficient, e.g., a few minutes. However, existing methods still have some limitations in the quality of generated images and may suffer from the mode collapse issue. A key reason is that a fixed adaptation direction is applied for all cross-domain image pairs, which leads to identical supervision signals. To address this issue, we propose an Image-specific Prompt Learning (IPL) method, which learns specific prompt vectors for each source-domain image. This produces a more precise adaptation direction for every cross-domain image pair, endowing the target-domain generator with greatly enhanced flexibility. Qualitative and quantitative evaluations on various domains demonstrate that IPL effectively improves the quality and diversity of synthesized images and alleviates the mode collapse. Moreover, IPL is independent of the structure of the generative model, such as generative adversarial networks or diffusion models. Code is available at https://github.com/Picsart-AI-Research/IPL-Zero-Shot-Generative-Model-Adaptation.
翻訳日:2023-04-07 14:02:30 公開日:2023-04-06
# 因果構造学習による効率的なSAGE推定

Efficient SAGE Estimation via Causal Structure Learning ( http://arxiv.org/abs/2304.03113v1 )

ライセンス: Link先を確認
Christoph Luther, Gunnar K\"onig, Moritz Grosse-Wentrup(参考訳) Shapley Additive Global Importance (SAGE) は理論上魅力的な解釈可能性の手法であり、モデルの特徴にグローバルな重要性をかなり考慮している。 しかし、その正確な計算は、指数関数的な数の特徴集合に対する余剰な性能貢献の計算を必要とする。 これは計算量的に高価であり、特に余剰寄与の推定には条件分布からのサンプリングが必要である。 したがって、SAGE近似アルゴリズムは機能セットのごく一部しか考慮しない。 SAGE近似を高速化する手法である$d$-SAGEを提案する。 $d$-SAGEは、ある特徴とモデルターゲットの間の条件不依存(CI)が余剰な貢献を含まないことを示唆し、それらの計算をスキップできるという観察によって動機付けられている。 CIを識別するために、因果構造学習(CSL)を活用して、データの(条件付き)非依存性を$d$-セパレーションとしてエンコードするグラフを推論する。 これは1回グラフ推論と$d$-セパレーションクエリのコストが余剰貢献評価のコストよりも無視できるため、計算上より効率的である。 実証的に、$d$-SAGEはSAGE値の効率的かつ正確な推定を可能にします。

The Shapley Additive Global Importance (SAGE) value is a theoretically appealing interpretability method that fairly attributes global importance to a model's features. However, its exact calculation requires the computation of the feature's surplus performance contributions over an exponential number of feature sets. This is computationally expensive, particularly because estimating the surplus contributions requires sampling from conditional distributions. Thus, SAGE approximation algorithms only take a fraction of the feature sets into account. We propose $d$-SAGE, a method that accelerates SAGE approximation. $d$-SAGE is motivated by the observation that conditional independencies (CIs) between a feature and the model target imply zero surplus contributions, such that their computation can be skipped. To identify CIs, we leverage causal structure learning (CSL) to infer a graph that encodes (conditional) independencies in the data as $d$-separations. This is computationally more efficient because the expense of the one-time graph inference and the $d$-separation queries is negligible compared to the expense of surplus contribution evaluations. Empirically we demonstrate that $d$-SAGE enables the efficient and accurate estimation of SAGE values.
翻訳日:2023-04-07 14:02:09 公開日:2023-04-06
# インクリメンタルオブジェクト検出用連続検出変換器

Continual Detection Transformer for Incremental Object Detection ( http://arxiv.org/abs/2304.03110v1 )

ライセンス: Link先を確認
Yaoyao Liu, Bernt Schiele, Andrea Vedaldi, Christian Rupprecht(参考訳) インクリメンタルオブジェクト検出(IOD)は、新しいオブジェクトカテゴリに対するアノテーションを備えた、フェーズ内のオブジェクト検出をトレーニングすることを目的としている。 他の段階的な設定として、IODは破滅的な忘れがちであり、知識蒸留(KD)や模範再生(ER)といった技術によってしばしば扱われる。 しかし、KDとERはDeformable DETRやUP-DETRといった最先端のトランスフォーマーベースのオブジェクト検出器に直接適用してもうまく動作しない。 本稿では,この文脈でKDとERを効果的に活用するトランスフォーマベースIODの新しい手法であるContinualaL DEtection TRansformer (CL-DETR)を提案する。 まず,検出者知識蒸留(DKD)の損失を導入し,モデルの古いバージョンからの最も情報的で信頼性の高い予測,冗長な背景予測の無視,利用可能な接地木ラベルとの互換性を確保する。 また,トレーニングセットのラベル分布を保存するためのキャリブレーション戦略を提案することで,erの改善も行う。 coco 2017 の広範な実験を行い,cl-detr が iod 設定で最先端の結果を得ることを示す。

Incremental object detection (IOD) aims to train an object detector in phases, each with annotations for new object categories. As other incremental settings, IOD is subject to catastrophic forgetting, which is often addressed by techniques such as knowledge distillation (KD) and exemplar replay (ER). However, KD and ER do not work well if applied directly to state-of-the-art transformer-based object detectors such as Deformable DETR and UP-DETR. In this paper, we solve these issues by proposing a ContinuaL DEtection TRansformer (CL-DETR), a new method for transformer-based IOD which enables effective usage of KD and ER in this context. First, we introduce a Detector Knowledge Distillation (DKD) loss, focusing on the most informative and reliable predictions from old versions of the model, ignoring redundant background predictions, and ensuring compatibility with the available ground-truth labels. We also improve ER by proposing a calibration strategy to preserve the label distribution of the training set, therefore better matching training and testing statistics. We conduct extensive experiments on COCO 2017 and demonstrate that CL-DETR achieves state-of-the-art results in the IOD setting.
翻訳日:2023-04-07 14:01:47 公開日:2023-04-06
# 量子ナノエレクトロニクスにおける熱力学の第二法則におけるIllusory cracks

Illusory cracks in the second law of thermodynamics in quantum nanoelectronics ( http://arxiv.org/abs/2304.03106v1 )

ライセンス: Link先を確認
Robert S. Whitney(参考訳) これは量子熱力学デーモンの理論のレビューであり、マックスウェルのデーモンと類似して、熱力学の法則に違反しているように見える量子系である。 ナノエレクトロニクスを使って作れる自律的な悪魔に焦点を当てている。 ここでの 'autonomous' は、悪魔が外部の測定や運転なしに動作し、シュリンガー方程式を用いて熱力学の挙動全体をモデル化することができることを意味する。 私の主な目的は、なぜ熱力学の法則のひび割れが、時折そのようなシステムで見えているのかを調査することである。 このために、古い思考実験を通じて量子熱力学の手法を導入し、第二法則を破るように見える。 この思考実験は通常スモルコウスキーのトラップドアとして知られているが、マクスウェルによって最初に提案された。 smoluchowski はトラップドアの熱運動が力学を複雑にすることを示したが、第二法則に従わなければならないことを示さなかった。 この問題は、トラップドアのナノ電子バージョンを量子ドットで作ることができるため、現在では実用的に関係している。 ここでの手法は、そのような量子トラップドアが熱力学の法則に従うことを示している。 このレビューは、表面的には熱力学の法則を破るように見える他の種類の自律悪魔に対処する。 これにはマックスウェル・デーモンの実験的なデモや、非平衡資源(N-デーモン)を利用するデーモンなどがある。 様々な種類の自律悪魔を分類する方法を論じる。 最後に、ゆらぎがナノエレクトロニクスにどのように影響するか、そして確率的熱力学におけるそれらの役割がエントロピーの考え方にどのように影響するかを簡潔にレビューする。

This is a review of the theory of quantum thermodynamic demons; these are quantum systems that look like they violate the laws of thermodynamics, in analogy with Maxwell's demon. It concentrates on autonomous demons that can be made using nanoelectronics. Here ``autonomous'' means that the demon operates without any external measurement or driving, making it possible to model their entire thermodynamic behaviour using Schr\"odinger's equation. My main aim is to review why cracks in the laws of thermodynamics, sometimes glimpsed in such systems, have turned out to be illusory. For this, I work by example, introducing the methods of quantum thermodynamics via an old thought experiment that appears to break the second law. This thought experiment is usually known as Smoluchowski's trapdoor, although it was first proposed by Maxwell. Smoluchowski showed that the trapdoor's thermal motion complicates its dynamics, but I argue that he did not show that it must obey the second law. This question is now of practical relevance, because a nanoelectronic version of the trapdoor can be made with quantum dots. The methods presented here show that such a quantum trapdoor obeys the laws of thermodynamics. This reviews then addresses other types of autonomous demon that superficially appear to break the laws of thermodynamics, but which do not. These include an experimental demonstration of a Maxwell demon, and a kind of demon that exploit non-equilibrium resources (the N-demon). It discusses a way of classifying different kinds of autonomous demon. It concludes by briefly reviewing how fluctuations affect nanoelectronics, and how their role in stochastic thermodynamics changes our view of entropy.
翻訳日:2023-04-07 14:01:26 公開日:2023-04-06
# 視覚中心3次元物体検出のための幾何学的事前学習

Geometric-aware Pretraining for Vision-centric 3D Object Detection ( http://arxiv.org/abs/2304.03105v1 )

ライセンス: Link先を確認
Linyan Huang, Huijie Wang, Jia Zeng, Shengchuan Zhang, Liujuan Cao, Rongrong Ji, Junchi Yan, Hongyang Li(参考訳) 自律運転のためのマルチカメラ3Dオブジェクト検出は、学術と産業の両方から注目を浴びている課題である。 視覚に基づく技術で遭遇する障害は、rgb画像から幾何学的特徴を正確に抽出することである。 近年のアプローチでは、深度関連タスクで事前訓練された幾何学的画像バックボーンを用いて空間情報を取得する。 しかし、これらのアプローチはビュー変換の重要な側面を見落とし、画像バックボーンとビュー変換の間の空間的知識の不整合による性能の低下をもたらす。 この問題に対処するため,GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 本手法は,事前学習段階で幾何学的リッチモダリティを指導として,カメラネットワークへの空間的および構造的手がかりを取り入れている。 異なるモダリティにまたがるモーダル固有の属性の転送は簡単ではないが、このギャップを鳥眼ビュー(BEV)の統一表現とLiDAR点雲から得られる構造的ヒントを用いて橋渡しし、事前学習プロセスを容易にする。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 本実験は,提案手法の有効性と一般化能力を示す。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。 また,様々な画像バックボーンとビュー変換の実験を行い,本手法の有効性を検証した。 コードはhttps://github.com/OpenDriveLab/BEVPerception-Survey-Recipeでリリースされる。

Multi-camera 3D object detection for autonomous driving is a challenging problem that has garnered notable attention from both academia and industry. An obstacle encountered in vision-based techniques involves the precise extraction of geometry-conscious features from RGB images. Recent approaches have utilized geometric-aware image backbones pretrained on depth-relevant tasks to acquire spatial information. However, these approaches overlook the critical aspect of view transformation, resulting in inadequate performance due to the misalignment of spatial knowledge between the image backbone and view transformation. To address this issue, we propose a novel geometric-aware pretraining framework called GAPretrain. Our approach incorporates spatial and structural cues to camera networks by employing the geometric-rich modality as guidance during the pretraining phase. The transference of modal-specific attributes across different modalities is non-trivial, but we bridge this gap by using a unified bird's-eye-view (BEV) representation and structural hints derived from LiDAR point clouds to facilitate the pretraining process. GAPretrain serves as a plug-and-play solution that can be flexibly applied to multiple state-of-the-art detectors. Our experiments demonstrate the effectiveness and generalization ability of the proposed method. We achieve 46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on various image backbones and view transformations to validate the efficacy of our approach. Code will be released at https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.
翻訳日:2023-04-07 14:00:56 公開日:2023-04-06
# 維持が必要なのは

Retention Is All You Need ( http://arxiv.org/abs/2304.03103v1 )

ライセンス: Link先を確認
Karishma Mohiuddin, Mirza Ariful Alam, Mirza Mohtashim Alam, Pascal Welke, Michael Martin, Jens Lehmann, Sahar Vahdati(参考訳) 熟練した従業員は通常、組織の最も重要な柱と見なされる。 それにもかかわらず、ほとんどの組織は高い負担と離職率に直面しています。 いくつかの機械学習モデルは、誘惑とその因果要因を分析するために開発されたが、これらのモデルの解釈は不透明のままである。 本稿では,人的資源決定支援システム(Human Resource Decision Support System,Human Resource Decision Support System,HR-DSS)のアプローチを提案する。 このシステムは、機械学習モデルが提供する予測の解釈において、人事部門を支援するように設計されている。 実験では,8つの機械学習モデルを用いて予測を行い,最高の性能モデルにより得られた結果をSHAP説明可能性プロセスによりさらに処理する。 結果の正確性と説明の両方を最適化する。 さらに,「What-if-analysis」を用いて,個人従業員の誘惑に対する妥当な原因を観察することを目的とする。 その結果、各個人の特定の支配的特徴を調整することで、情報的ビジネス決定を通じて、従業員の誘惑が従業員の保持に変わる可能性が示唆された。 削減は特定の組織にとって問題となるだけでなく、一部の国では雇用主と従業員の幸福に影響を及ぼす重要な社会的問題となっている。

Skilled employees are usually seen as the most important pillar of an organization. Despite this, most organizations face high attrition and turnover rates. While several machine learning models have been developed for analyzing attrition and its causal factors, the interpretations of those models remain opaque. In this paper, we propose the HR-DSS approach, which stands for Human Resource Decision Support System, and uses explainable AI for employee attrition problems. The system is designed to assist human resource departments in interpreting the predictions provided by machine learning models. In our experiments, eight machine learning models are employed to provide predictions, and the results achieved by the best-performing model are further processed by the SHAP explainability process. We optimize both the correctness and explanation of the results. Furthermore, using "What-if-analysis", we aim to observe plausible causes for attrition of an individual employee. The results show that by adjusting the specific dominant features of each individual, employee attrition can turn into employee retention through informative business decisions. Reducing attrition is not only a problem for any specific organization but also, in some countries, becomes a significant societal problem that impacts the well-being of both employers and employees.
翻訳日:2023-04-07 14:00:09 公開日:2023-04-06
# 大腸癌組織スライドにおける組織分画と腫瘍検出のマルチタスク学習

Multi-task learning for tissue segmentation and tumor detection in colorectal cancer histology slides ( http://arxiv.org/abs/2304.03101v1 )

ライセンス: Link先を確認
Lydia A. Schoenpflug, Maxime W. Lafarge, Anja L. Frei, Viktor H. Koelzer(参考訳) 大腸癌 (CRC) の病理組織像における組織分画と腫瘍検出の自動化は, より高速な診断法として有効である。 同時に、公開アノテートデータセットの可用性が低く、画像表示の変動性が高いため、これは難しい課題である。 CRC検出のための半教師付き学習(SemiCOL)チャレンジ2023は、部分的に注釈付きデータを提供し、組織セグメント化と腫瘍検出のための自動化ソリューションの開発を促進する。 本稿では,U-Netに基づくマルチタスクモデルと,チャネルワイドおよび画像統計に基づくカラー拡張と,テスト時間拡張を併用して,SemiCOLチャレンジの候補解として提案する。 提案手法は .8655 (arm) のマルチタスク dice スコアを達成した。 1)及び.8515(武装) 2).9725(Arm)の組織分節とAUROC 1)及び0.9750(武装) 2) チャレンジ検証セットにおける腫瘍検出について このアプローチのソースコードはhttps://github.com/lely475/CTPLab_SemiCOL2023で公開されています。

Automating tissue segmentation and tumor detection in histopathology images of colorectal cancer (CRC) is an enabler for faster diagnostic pathology workflows. At the same time it is a challenging task due to low availability of public annotated datasets and high variability of image appearance. The semi-supervised learning for CRC detection (SemiCOL) challenge 2023 provides partially annotated data to encourage the development of automated solutions for tissue segmentation and tumor detection. We propose a U-Net based multi-task model combined with channel-wise and image-statistics-based color augmentations, as well as test-time augmentation, as a candidate solution to the SemiCOL challenge. Our approach achieved a multi-task Dice score of .8655 (Arm 1) and .8515 (Arm 2) for tissue segmentation and AUROC of .9725 (Arm 1) and 0.9750 (Arm 2) for tumor detection on the challenge validation set. The source code for our approach is made publicly available at https://github.com/lely475/CTPLab_SemiCOL2023.
翻訳日:2023-04-07 13:59:48 公開日:2023-04-06
# 無秩序なSU(N)対称ハイゼンベルク鎖における有限サイズ潜熱状態

Finite-size subthermal regime in disordered SU(N)-symmetric Heisenberg chains ( http://arxiv.org/abs/2304.03099v1 )

ライセンス: Link先を確認
Dimitris Saraidaris, Jheng-Wei Li, Andreas Weichselbaum, Jan von Delft, Dmitry A. Abanin(参考訳) SU(N)対称性は強い障害が存在する場合でも多体局在化(MBL)相とは相容れない。 しかし、最近の研究では、有限サイズのSU(2)系は、固有状態熱化仮説の崩壊と、領域と体積法則の中間である励起固有状態エントロピーによって特徴づけられる非エルゴード的、亜熱的挙動を示すことが示されている。 本研究では, 時間依存密度行列再正規化群 (tDMRG) 法を用いて, SU(2)対称乱れハイゼンベルク模型の先行研究を大規模システムに拡張する。 我々は弱い絡み合った初期状態から長い時間までのクエンチダイナミクスをシミュレートし、強い障害において堅牢な潜熱挙動を見いだした。 システム規模が大きくなるにつれて熱化傾向が高まるが, 準熱水系は中間の時間スケールで維持されるため, 実験的にアクセス可能である。 弱い障害では, 熱化のサインが観察されるが, エントロピーは従来の熱化システムとは対照的に, 緩やかなサブ線形成長を示す。 さらに,SU(3)対称乱れハイゼンベルク模型の力学について検討した。 同様に、強い障害は系を潜熱状態へと誘導するが、熱化相はSU(2)の場合よりも広い。 本研究は,非アベリア連続対称性を持つスピン鎖における亜熱水系のロバスト性を示し,それ以前の研究で示唆された大規模システムサイズと長期スケールでの最終的な熱化と整合性を示した。

SU(N) symmetry is incompatible with the many-body localized (MBL) phase, even when strong disorder is present. However, recent studies have shown that finite-size SU(2) systems exhibit non-ergodic, subthermal behavior, characterized by the breakdown of the eigenstate thermalization hypothesis, and by the excited eigenstates entanglement entropy that is intermediate between area and volume law. In this work, we extend previous studies of the SU(2)-symmetric disordered Heisenberg model to larger systems, using the time-dependent density matrix renormalization group (tDMRG) method. We simulate quench dynamics from weakly entangled initial states up to long times, finding robust subthermal behavior at stronger disorder. Although we find an increased tendency towards thermalization at larger system sizes, the subthermal regime persists at intermediate time scales, nevertheless, and therefore should be accessible experimentally. At weaker disorder, we observe signatures of thermalization, however, entanglement entropy exhibits slow sublinear growth, in contrast to conventional thermalizing systems. Furthermore, we study dynamics of the SU(3)-symmetric disordered Heisenberg model. Similarly, strong disorder drives the system into subthermal regime, albeit thermalizing phase is broader compared to the SU(2) case. Our findings demonstrate the robustness of the subthermal regime in spin chains with non-Abelian continuous symmetry, and are consistent with eventual thermalization at large system sizes and long time scales, suggested by previous works.
翻訳日:2023-04-07 13:59:31 公開日:2023-04-06
# 静的ファジィバグ・オブ・ワード:軽量文埋め込みアルゴリズム

Static Fuzzy Bag-of-Words: a lightweight sentence embedding algorithm ( http://arxiv.org/abs/2304.03098v1 )

ライセンス: Link先を確認
Matteo Muffo, Roberto Tedesco, Licia Sbattella and Vincenzo Scotti(参考訳) 埋め込み技術の導入は自然言語処理分野を大きく前進させてきた。 提案手法の多くは単語レベルの符号化のために提示されているが,近年では文や文書レベルのように,より高レベルの情報を扱うための新たなメカニズムが出現している。 本研究では,文埋め込み問題に特に対処し,静的ファジィバグ・オブ・ワードモデルを提案する。 我々のモデルはファジィバグ・オブ・ワードのアプローチの洗練であり、文の埋め込みを予め定義された次元で提供する。 SFBoWはセマンティックテキスト類似性ベンチマークで競争力のある性能を提供するが、計算資源は少ない。

The introduction of embedding techniques has pushed forward significantly the Natural Language Processing field. Many of the proposed solutions have been presented for word-level encoding; anyhow, in the last years, new mechanism to treat information at an higher level of aggregation, like at sentence- and document-level, have emerged. With this work we address specifically the sentence embeddings problem, presenting the Static Fuzzy Bag-of-Word model. Our model is a refinement of the Fuzzy Bag-of-Words approach, providing sentence embeddings with a predefined dimension. SFBoW provides competitive performances in Semantic Textual Similarity benchmarks, while requiring low computational resources.
翻訳日:2023-04-07 13:59:02 公開日:2023-04-06
# 基本質問の連鎖によるロバストネス分析と文脈学習による視覚的質問応答モデルの改善

Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions ( http://arxiv.org/abs/2304.03147v1 )

ライセンス: Link先を確認
Jia-Hong Huang, Modar Alfadly, Bernard Ghanem, Marcel Worring(参考訳) ディープニューラルネットワークは、伝統的にモデルの正確性を改善することに焦点を当てたVisual Question Answering(VQA)のタスクにおいて重要な存在である。 しかし、近年は敵攻撃に対してこれらのモデルの堅牢性を評価する傾向にある。 これは、入力のノイズレベルが増大する下でVQAモデルの精度を評価することを含み、主な質問と呼ばれる画像または提案されたクエリー質問をターゲットにすることができる。 しかしながら、現在VQAのこの側面について適切な分析が行われていない。 本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。 基本質問と主質問との類似度が減少すると雑音のレベルが増加するという仮説が立てられている。 与えられた主質問に対して合理的なノイズレベルを生成するために、主質問と類似度に基づいて基本質問のプールをランク付けし、このランキング問題をラッソ最適化問題としてキャストする。 さらに、新しいロバストネス尺度R_scoreと、VQAモデルロバストネスの分析を標準化するための2つの基本的な質問データセットを提案する。 実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。 さらに,基本的な質問の連鎖による文脈内学習により,モデルの正確性が向上することを示す。

Deep neural networks have been critical in the task of Visual Question Answering (VQA), with research traditionally focused on improving model accuracy. Recently, however, there has been a trend towards evaluating the robustness of these models against adversarial attacks. This involves assessing the accuracy of VQA models under increasing levels of noise in the input, which can target either the image or the proposed query question, dubbed the main question. However, there is currently a lack of proper analysis of this aspect of VQA. This work proposes a new method that utilizes semantically related questions, referred to as basic questions, acting as noise to evaluate the robustness of VQA models. It is hypothesized that as the similarity of a basic question to the main question decreases, the level of noise increases. To generate a reasonable noise level for a given main question, a pool of basic questions is ranked based on their similarity to the main question, and this ranking problem is cast as a LASSO optimization problem. Additionally, this work proposes a novel robustness measure, R_score, and two basic question datasets to standardize the analysis of VQA model robustness. The experimental results demonstrate that the proposed evaluation method effectively analyzes the robustness of VQA models. Moreover, the experiments show that in-context learning with a chain of basic questions can enhance model accuracy.
翻訳日:2023-04-07 13:54:21 公開日:2023-04-06
# 一般目的のクラスタリングのためのパラメータ化近似スキーム

Parameterized Approximation Schemes for Clustering with General Norm Objectives ( http://arxiv.org/abs/2304.03146v1 )

ライセンス: Link先を確認
Fateme Abbasi and Sandip Banerjee and Jaros{\l}aw Byrka and Parinya Chalermsook and Ameet Gadekar and Kamyar Khodamoradi and D\'aniel Marx and Roohani Sharma and Joachim Spoerhase(参考訳) 本稿では,計算時間$f(k,\epsilon)poly(n)$(短時間で効率的なパラメータ化近似スキームあるいはepasと呼ばれることもある)で動作する,k$クラスタ問題に対する$(1+\epsilon)$近似アルゴリズムの設計手法について考察する。 この種の注目すべき結果には、$k$-center [Bad\u{o}iu, Har-Peled, Indyk; STOC'02] の高次元ユークリッド設定におけるEPASeと$k$-median, $k$-means [Kumar, Sabharwal, Sen; J. ACM 2010] がある。 しかしながら、既存のepaseは基本的な目的($k$-center、$k$-median、$k$-meansなど)のみを扱い、特定の目的と計量空間に合わせたものである。 我々の主な貢献は、クリーンでシンプルなEPASであり、10以上のクラスタリング問題(複数のよく研究された目的と計量空間)を解決し、よく知られたEPASeを統合する。 このアルゴリズムは,多種多様なクラスタリング対象(例えば,$k$-means, $k$-center, $k$-median, priority $k$-centrum, $\ell$-median, order $k$-median, socially fair $k$-median aka robust $k$-median, or more generally monotone norm $k$-clustering)と距離空間(例えば,連続高次元ユークリッド空間,有界二重次元のメトリクス,有界木幅メトリクス,平面メトリクス)に対してepaseを与える。 我々のアプローチの鍵となるのは、有界な$\epsilon$-scatter次元と呼ばれる新しい概念です。 我々の主な技術的結果は、2つの条件が本質的に我々のアルゴリズムが任意のクラスタリングの目的に対して入力メトリック$m$のepaを得るのに十分であることを示している。 (i)目的はモノトーン(必ずしも対称ではない!)ノルムによって記述され、 (ii)$\epsilon$-scatter dimension of $M$は、$\epsilon$の関数によって上界となる。

This paper considers the well-studied algorithmic regime of designing a $(1+\epsilon)$-approximation algorithm for a $k$-clustering problem that runs in time $f(k,\epsilon)poly(n)$ (sometimes called an efficient parameterized approximation scheme or EPAS for short). Notable results of this kind include EPASes in the high-dimensional Euclidean setting for $k$-center [Bad\u{o}iu, Har-Peled, Indyk; STOC'02] as well as $k$-median, and $k$-means [Kumar, Sabharwal, Sen; J. ACM 2010]. However, existing EPASes handle only basic objectives (such as $k$-center, $k$-median, and $k$-means) and are tailored to the specific objective and metric space. Our main contribution is a clean and simple EPAS that settles more than ten clustering problems (across multiple well-studied objectives as well as metric spaces) and unifies well-known EPASes. Our algorithm gives EPASes for a large variety of clustering objectives (for example, $k$-means, $k$-center, $k$-median, priority $k$-center, $\ell$-centrum, ordered $k$-median, socially fair $k$-median aka robust $k$-median, or more generally monotone norm $k$-clustering) and metric spaces (for example, continuous high-dimensional Euclidean spaces, metrics of bounded doubling dimension, bounded treewidth metrics, and planar metrics). Key to our approach is a new concept that we call bounded $\epsilon$-scatter dimension--an intrinsic complexity measure of a metric space that is a relaxation of the standard notion of bounded doubling dimension. Our main technical result shows that two conditions are essentially sufficient for our algorithm to yield an EPAS on the input metric $M$ for any clustering objective: (i) The objective is described by a monotone (not necessarily symmetric!) norm, and (ii) the $\epsilon$-scatter dimension of $M$ is upper bounded by a function of $\epsilon$.
翻訳日:2023-04-07 13:53:57 公開日:2023-04-06
# 低資源エンティティリネーミングにおける機械読解モデルのロバスト性評価

Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming ( http://arxiv.org/abs/2304.03145v1 )

ライセンス: Link先を確認
Clemencia Siro, Tunde Oluwaseyi Ajayi(参考訳) 質問応答(QA)モデルは、Machine Reading Comprehension(MRC)タスクにおいて魅力的な結果を示している。 近年、これらのシステムはSQuADのようなデータセットの保持されたテストセットにおいて人間よりも優れた性能を示すことが証明されているが、その堅牢性は保証されていない。 QAモデルの脆さは、性能低下による逆生成例で評価すると明らかになる。 本研究では,アフリカなどの低資源地域のエンティティを用いて,mrcモデルの堅牢性について検討する。 テスト時間摂動法であるentswapを用いて,エンティティ名を変更したテストセットを作成する。 特に、afrisquad2を作成するために、国、人、国籍、場所、組織、都市という種類のエンティティを改名します。 摂動テストセットを用いて,3つのMRCモデルのロバスト性を評価する。 ベースモデルと比較すると、大きなモデルは新しいエンティティで比較的よく機能することがわかった。 さらに,本分析の結果から,MRCモデルの性能に高い課題があることが示された。

Question answering (QA) models have shown compelling results in the task of Machine Reading Comprehension (MRC). Recently these systems have proved to perform better than humans on held-out test sets of datasets e.g. SQuAD, but their robustness is not guaranteed. The QA model's brittleness is exposed when evaluated on adversarial generated examples by a performance drop. In this study, we explore the robustness of MRC models to entity renaming, with entities from low-resource regions such as Africa. We propose EntSwap, a method for test-time perturbations, to create a test set whose entities have been renamed. In particular, we rename entities of type: country, person, nationality, location, organization, and city, to create AfriSQuAD2. Using the perturbed test set, we evaluate the robustness of three popular MRC models. We find that compared to base models, large models perform well comparatively on novel entities. Furthermore, our analysis indicates that entity type person highly challenges the MRC models' performance.
翻訳日:2023-04-07 13:53:00 公開日:2023-04-06
# BotTriNet:メトリック学習によるソーシャルボット検出のための統一的で効率的な埋め込み

BotTriNet: A Unified and Efficient Embedding for Social Bots Detection via Metric Learning ( http://arxiv.org/abs/2304.03144v1 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye, and Man Yan Yuet(参考訳) オンラインソーシャルネットワークで絶え間なく人気があるトピックは、本物のユーザーの侵入やハラスメントを防ぐボットアカウントの迅速かつ正確な発見である。 本稿では,bottrinetという統合組込みフレームワークを提案する。bottrinetは,コンテキストが自然にアカウントのパーソナリティや習慣を明らかにするという仮定に基づいて,アカウントが投稿したテキストコンテンツをボット検出に利用する。 組込み技術を用いてボット関連情報を効率的に抽出すれば,コンテンツは豊富で貴重なものとなる。 単語、文、およびアカウントの埋め込みを生成する一般的な埋め込みフレームワークの他に、分類性能を向上させるために生の埋め込み(従来の自然言語処理技術によって生成される)をチューニングするための三重ネットワークを設計する。 3つのボットアカウントカテゴリと5つのボットサンプルセットからなる実世界のデータセットcresci2017における検出精度とf1scoreを評価する。 このシステムは,2つのコンテンツ集約型ボットセットにおいて,98.34%,f1scoreが97.99%という最高精度を達成している。 また、4つのコンテンツレスボットセットでブレークスルーを行い、平均精度が11.52%、平均f1scoreが16.70%向上した。

A persistently popular topic in online social networks is the rapid and accurate discovery of bot accounts to prevent their invasion and harassment of genuine users. We propose a unified embedding framework called BOTTRINET, which utilizes textual content posted by accounts for bot detection based on the assumption that contexts naturally reveal account personalities and habits. Content is abundant and valuable if the system efficiently extracts bot-related information using embedding techniques. Beyond the general embedding framework that generates word, sentence, and account embeddings, we design a triplet network to tune the raw embeddings (produced by traditional natural language processing techniques) for better classification performance. We evaluate detection accuracy and f1score on a real-world dataset CRESCI2017, comprising three bot account categories and five bot sample sets. Our system achieves the highest average accuracy of 98.34% and f1score of 97.99% on two content-intensive bot sets, outperforming previous work and becoming state-of-the-art. It also makes a breakthrough on four content-less bot sets, with an average accuracy improvement of 11.52% and an average f1score increase of 16.70%.
翻訳日:2023-04-07 13:52:44 公開日:2023-04-06
# saliency から dino へ: 数少ないキーポイント検出のためのsaliency-guided vision transformer

From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot Keypoint Detection ( http://arxiv.org/abs/2304.03140v1 )

ライセンス: Link先を確認
Changsheng Lu, Hao Zhu, Piotr Koniusz(参考訳) 現在のディープキーポイント検出器は、限られた数のボディ部品を認識するよう訓練されているが、少数ショットキーポイント検出(FSKD)は、基準サンプルに応じて、新規またはベースキーポイントを含む任意のキーポイントをローカライズしようとする。 FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。 ひとつは視覚変換器(ViT)で、長距離関係をうまく捉えている。 しかし、ViTは、グローバルアテンションマトリックスによる関心領域外の無関係な特徴をモデル化することで、サポートとクエリ機能間の類似性学習を低下させる可能性がある。 本稿では,数発キーポイント検出のための新しいsaliency-guided vision transformer(salvit)を提案する。 我々のSalViTは独自のマスク付き自己注意と形態学習を楽しみ、前者はソフトマスクとして唾液マップを導入して前景への自己注意を制限し、後者はいわゆるパワー正規化を活用して「動的に変化する受容場」を実現する。 さらに,塩分検出器が計算量を加えると,ダイノ変圧器の注意マスクが塩分を置き換えられることを示した。 SalViT上でも調査する。 一 不正なデータによるキーポイント表現を強化するトランスダクティブFSKD 二 FSKDを介在する。 我々は,本モデルが5つの公開データセット上で良好に動作し,厳密な閉塞下での訓練モデルよりも約10%のPCKを達成することを示す。

Unlike current deep keypoint detectors that are trained to recognize limited number of body parts, few-shot keypoint detection (FSKD) attempts to localize any keypoints, including novel or base keypoints, depending on the reference samples. FSKD requires the semantically meaningful relations for keypoint similarity learning to overcome the ubiquitous noise and ambiguous local patterns. One rescue comes with vision transformer (ViT) as it captures long-range relations well. However, ViT may model irrelevant features outside of the region of interest due to the global attention matrix, thus degrading similarity learning between support and query features. In this paper, we present a novel saliency-guided vision transformer, dubbed SalViT, for few-shot keypoint detection. Our SalViT enjoys a uniquely designed masked self-attention and a morphology learner, where the former introduces saliency map as a soft mask to constrain the self-attention on foregrounds, while the latter leverages the so-called power normalization to adjust morphology of saliency map, realizing ``dynamically changing receptive field''. Moreover, as salinecy detectors add computations, we show that attentive masks of DINO transformer can replace saliency. On top of SalViT, we also investigate i) transductive FSKD that enhances keypoint representations with unlabelled data and ii) FSKD under occlusions. We show that our model performs well on five public datasets and achieves ~10% PCK higher than the normally trained model under severe occlusions.
翻訳日:2023-04-07 13:52:21 公開日:2023-04-06
# ランダム射影計測における自由フェルミオンの理論

Theory of free fermions under random projective measurements ( http://arxiv.org/abs/2304.03138v1 )

ライセンス: Link先を確認
Igor Poboiko, Paul P\"opperl, Igor V. Gornyi, and Alexander D. Mirlin(参考訳) ケルディッシュ経路積分形式とレプリカ・トリックに基づいて,局所的占有数のランダムな投影的測定を行う一次元自由フェルミオンの解析的手法を開発した。 希少な測定値の極限では、$\gamma / j \ll 1$(ここで$\gamma$はサイトごとの測定レートであり、$j$はタイト結合モデルにおいて定数である)、非線形シグマモデル(nlsm)を問題の有効場理論として導出する。 レプリカ対称セクターは、微分挙動を持つ$U(2) / U(1) \times U(1) \simeq S_2$ sigmaモデルで記述され、レプリカ非対称セクターは、レプリカ極限$R \to 1$ を持つ$SU(R)$多様体上で定義される二次元NLSMである。 ガウスレベルでは、極限 $\gamma / j \to 0$ において有効であり、このモデルは、サブシステム内の粒子の数と絡み合うエントロピーの第二累積の対数挙動を予測する。 しかし、一ループ再正規化群解析により、この対数成長が、領域法相に対応する稀な測定であっても、有限値$\sim (J / \gamma)^2$で飽和することを示した。 これは、自由フェルミオンに対する測定誘起エンタングルメント相転移が存在しないことを意味する。 しかし、対数成長と飽和の間の交差は指数関数的に大きなスケール、$\ln l_\text{corr} \sim j / \gamma$ で起こる。 これにより、このクロスオーバーは測定周波数 $\gamma / j$ の関数として非常に鋭く、有限サイズの数値計算において対数から領域法への遷移と容易に混同することができる。 我々は,解析予測を支援する注意深い数値解析を行った。

We develop an analytical approach to the study of one-dimensional free fermions subject to random projective measurements of local site occupation numbers, based on the Keldysh path-integral formalism and replica trick. In the limit of rare measurements, $\gamma / J \ll 1$ (where $\gamma$ is measurement rate per site and $J$ is hopping constant in the tight-binding model), we derive a non-linear sigma model (NLSM) as an effective field theory of the problem. Its replica-symmetric sector is described by a $U(2) / U(1) \times U(1) \simeq S_2$ sigma model with diffusive behavior, and the replica-asymmetric sector is a two-dimensional NLSM defined on $SU(R)$ manifold with the replica limit $R \to 1$. On the Gaussian level, valid in the limit $\gamma / J \to 0$, this model predicts a logarithmic behavior for the second cumulant of number of particles in a subsystem and for the entanglement entropy. However, the one-loop renormalization group analysis allows us to demonstrate that this logarithmic growth saturates at a finite value $\sim (J / \gamma)^2$ even for rare measurements, which corresponds to the area-law phase. This implies the absence of a measurement-induced entanglement phase transition for free fermions. The crossover between logarithmic growth and saturation, however, happens at exponentially large scale, $\ln l_\text{corr} \sim J / \gamma$. This makes this crossover very sharp as a function of the measurement frequency $\gamma / J$, which can be easily confused with a transition from the logarithmic to area law in finite-size numerical calculations. We have performed a careful numerical analysis, which supports our analytical predictions.
翻訳日:2023-04-07 13:51:52 公開日:2023-04-06
# vlpd:視覚言語セマンティクスによるコンテキスト対応歩行者検出

VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic Self-Supervision ( http://arxiv.org/abs/2304.03135v1 )

ライセンス: Link先を確認
Mengyin Liu, Jie Jiang, Chao Zhu, Xu-Cheng Yin(参考訳) 歩行者を都市部で正確に検出することは、自動運転やビデオ監視といった現実的な応用にとって重要である。 しかし、混乱した人間のような物体は、しばしば誤検知を招き、その異常な外観のため、小規模または密集した歩行者は容易に見逃される。 これらの課題に対処するために、オブジェクト領域だけが不適切なため、より明確でセマンティックなコンテキストを十分に活用する方法が重要な問題となる。 一方、従来のコンテキスト認識型歩行者検出器は、視覚的手がかりで潜時文脈を学習するのみか、明示的かつ意味的な文脈を得るために精巧なアノテーションを必要とする。 そこで本稿では,視覚言語による歩行者検出のための視覚言語意味自己スーパービジョン (vlpd) による明示的な意味文脈のモデル化手法を提案する。 まず,視覚言語モデルによる意味クラスの自己生成ラベルによる歩行者検出と文脈分割の両方を学習する,自己教師付き視覚言語セグメンテーション(vls)セグメンテーション手法を提案する。 さらに,vlsから得られたより明示的な意味的文脈に基づいて,歩行者や他のクラスをより識別するために,自己教師付き先代的意味的コントラスト(psc)学習法を提案する。 一般的なベンチマーク実験により,提案したVLPDは,特に小規模・重閉塞といった困難な状況下で,従来の最先端技術よりも優れた性能を発揮することが示された。 コードはhttps://github.com/lmy98129/VLPDで入手できる。

Detecting pedestrians accurately in urban scenes is significant for realistic applications like autonomous driving or video surveillance. However, confusing human-like objects often lead to wrong detections, and small scale or heavily occluded pedestrians are easily missed due to their unusual appearances. To address these challenges, only object regions are inadequate, thus how to fully utilize more explicit and semantic contexts becomes a key problem. Meanwhile, previous context-aware pedestrian detectors either only learn latent contexts with visual clues, or need laborious annotations to obtain explicit and semantic contexts. Therefore, we propose in this paper a novel approach via Vision-Language semantic self-supervision for context-aware Pedestrian Detection (VLPD) to model explicitly semantic contexts without any extra annotations. Firstly, we propose a self-supervised Vision-Language Semantic (VLS) segmentation method, which learns both fully-supervised pedestrian detection and contextual segmentation via self-generated explicit labels of semantic classes by vision-language models. Furthermore, a self-supervised Prototypical Semantic Contrastive (PSC) learning method is proposed to better discriminate pedestrians and other classes, based on more explicit and semantic contexts obtained from VLS. Extensive experiments on popular benchmarks show that our proposed VLPD achieves superior performances over the previous state-of-the-arts, particularly under challenging circumstances like small scale and heavy occlusion. Code is available at https://github.com/lmy98129/VLPD.
翻訳日:2023-04-07 13:51:14 公開日:2023-04-06
# アジア人はみんな同じに見えますか。 Instagramを用いた東アジアの顔色愛好家の比較分析

Do All Asians Look the Same?: A Comparative Analysis of the East Asian Facial Color Desires using Instagram ( http://arxiv.org/abs/2304.03132v1 )

ライセンス: Link先を確認
Jaeyoun You, Sojeong Park, Seok-Kyeong Hong, Bongwon Suh(参考訳) 自撮りは人々の欲望を表しており、instagramのようなソーシャルメディアプラットフォームに溢れている。 本研究は自撮りデータを用いて、特に東アジアにおいて、理想的な顔表現に対する人々の欲求が地域によってどのように異なるかを調べる。 この分析を通じて、「全てのアジア人は同一の視覚を好む」と反論することを目指しており、これは「全てのアジア人は同じに見える」という西洋の俗説のサブセットである。 我々の発見は、ポストコロニアル解釈によって補強され、これらの仮定に異議を唱える。 本稿では、現実世界の欲望と西洋の美容市場の見解のミスマッチを解決するための戦略を提案する。 以上の結果から, ヘーゲモニックカラースキームと拡張肌色との差異は, 色とアジアアイデンティティの研究の促進に寄与する可能性が示唆された。

Selfies represent people's desires, and social media platforms like Instagram have been flooded with them. This study uses selfie data to examine how peoples' desires for ideal facial representations vary by region, particularly in East Asia. Through the analysis, we aim to refute the "all Asians prefer identical visuals," which is a subset of the prevalent Western belief that "all Asians look the same." Our findings, reinforced by postcolonial interpretations, dispute those assumptions. We propose a strategy for resolving the mismatch between real-world desires and the Western beauty market's views. We expect the disparity between hegemonic color schemes and the augmented skin colors shown by our results may facilitate the study of color and Asian identity.
翻訳日:2023-04-07 13:50:46 公開日:2023-04-06
# スパイクカメラシミュレーションによるスパイクストリームの雑音化

Spike Stream Denoising via Spike Camera Simulation ( http://arxiv.org/abs/2304.03129v1 )

ライセンス: Link先を確認
Liwen hu, LeiMa, Zhaofei Yu, Boxin Shi and Tiejun Huang(参考訳) 時間分解能の高いニューロモルフィックセンサーとして、スパイクカメラは高速な視覚タスクにおいて大きなポテンシャルを示す。 しかし、既存のカメラによる光伝搬過程の高速サンプリングは、避けられないノイズ現象をもたらす。 スパイクストリームにおけるユニークなノイズを取り除くことは、スパイクベースの方法にとって常に重要なポイントである。 スパイクカメラの詳細なノイズ機構に関する以前の研究は行われていない。 そこで本研究では,スパイクカメラのユニークな回路に基づくシステマティックノイズモデルを提案する。 さらに,ノイズ評価方程式と実験シナリオを慎重に構築し,騒音の変数を測定した。 ノイズモデルに基づいて、(ノイズの多い)スパイクストリームを含むスパイクストリームデノイズ化のための最初のベンチマークを提案する。 さらに,推定されたスパイク間間隔をデコードすることにより,デノライズスパイクストリームを求めるためのdnss(tailored spike stream denoising framework)の設計を行う。 実験の結果、DnSSは提案されたベンチマークで有望なパフォーマンスを示している。 最終的に、DnSSは実際のスパイクストリームでうまく一般化できる。

As a neuromorphic sensor with high temporal resolution, the spike camera shows enormous potential in high-speed visual tasks. However, the high-speed sampling of light propagation processes by existing cameras brings unavoidable noise phenomena. Eliminating the unique noise in spike stream is always a key point for spike-based methods. No previous work has addressed the detailed noise mechanism of the spike camera. To this end, we propose a systematic noise model for spike camera based on its unique circuit. In addition, we carefully constructed the noise evaluation equation and experimental scenarios to measure noise variables. Based on our noise model, the first benchmark for spike stream denoising is proposed which includes clear (noisy) spike stream. Further, we design a tailored spike stream denoising framework (DnSS) where denoised spike stream is obtained by decoding inferred inter-spike intervals. Experiments show that DnSS has promising performance on the proposed benchmark. Eventually, DnSS can be generalized well on real spike stream.
翻訳日:2023-04-07 13:50:34 公開日:2023-04-06
# 神経新生、神経ダーウィン主義、そして種進化が、進化的深層ニューラルネットワークの創出のインスピレーションとなり得るだろうか?

Is it conceivable that neurogenesis, neural Darwinism, and species evolution could all serve as inspiration for the creation of evolutionary deep neural networks? ( http://arxiv.org/abs/2304.03122v1 )

ライセンス: Link先を確認
Mohammed Al-Rawi(参考訳) Deep Neural Networks (DNN)は、人工知能ニューラルネットワークを使って構築されている。 それらは、幅広いアプリケーションで使われているデータから学習できる機械学習の方法の一部である。 DNNは主に手作りで、通常多くのレイヤを含んでいる。 進化的アルゴリズムによるDNNの自動構築に関する研究フロンティアが出現している。 本稿では,2次元脳進化と2次元DNN進化モデルの重要性を強調した。 また、DNNの正規化に広く用いられているドロップアウト法と脳神経新生の関連性、そしてこれらの概念がDNNの進化にどう役立つかを強調し、DNNの自動構築を強化するためのいくつかの推奨事項をまとめる。

Deep Neural Networks (DNNs) are built using artificial neural networks. They are part of machine learning methods that are capable of learning from data that have been used in a wide range of applications. DNNs are mainly handcrafted and they usually contain numerous layers. Research frontier has emerged that concerns automated construction of DNNs via evolutionary algorithms. This paper emphasizes the importance of what we call two-dimensional brain evolution and how it can inspire two dimensional DNN evolutionary modeling. We also highlight the connection between the dropout method which is widely-used in regularizing DNNs and neurogenesis of the brain, and how these concepts could benefit DNNs evolution.The paper concludes with several recommendations for enhancing the automatic construction of DNNs.
翻訳日:2023-04-07 13:50:20 公開日:2023-04-06
# 正確な3次元大腸表面再構築のための前処理としての深層学習に基づく画像露光強調

Deep learning-based image exposure enhancement as a pre-processing for an accurate 3D colon surface reconstruction ( http://arxiv.org/abs/2304.03171v1 )

ライセンス: Link先を確認
Ricardo Espinosa, Carlos Axel Garcia-Vega, Gilberto Ochoa-Ruiz, Dominique Lamarque, Christian Daul(参考訳) このコントリビューションは、画像前処理が深層学習に基づく大腸部分の3D再構成を改善する方法を示している。 地球規模の照明補正ではなく、局所的な被曝と過剰露光は大腸内視鏡で補正されるべきである。 まず、画像露出補正とRNN-SLAMを含むパイプラインの概要を示す。 そこで本稿では,適切な照明補正を伴わずに大腸内視鏡軌跡の再構成精度を定量化する。

This contribution shows how an appropriate image pre-processing can improve a deep-learning based 3D reconstruction of colon parts. The assumption is that, rather than global image illumination corrections, local under- and over-exposures should be corrected in colonoscopy. An overview of the pipeline including the image exposure correction and a RNN-SLAM is first given. Then, this paper quantifies the reconstruction accuracy of the endoscope trajectory in the colon with and without appropriate illumination correction
翻訳日:2023-04-07 13:43:49 公開日:2023-04-06
# CloSET: 明示的なテンプレート分解による連続表面におけるクローンヒトのモデリング

CloSET: Modeling Clothed Humans on Continuous Surface with Explicit Template Decomposition ( http://arxiv.org/abs/2304.03167v1 )

ライセンス: Link先を確認
Hongwen Zhang, Siyou Lin, Ruizhi Shao, Yuxiang Zhang, Zerong Zheng, Han Huang, Yandong Guo, Yebin Liu(参考訳) 静的スキャンからアニマタブルなアバターを作成するには、異なるポーズで衣服の変形をモデル化する必要がある。 既存の学習ベースの方法は、通常、最小限のクロースされたメッシュテンプレートや学習された暗黙のテンプレートにポーズ依存の変形を追加する。 本稿では,ポイントベースの解を再検討し,明示的な衣料関連テンプレートを分解し,ポーズ依存のしわを加えることを提案する。 このようにして、衣服の変形は、ポーズ依存のしわをよりよく学習し、目に見えないポーズに適用できるように、切り離される。 さらに,最近の最先端のポイントベース手法におけるseamアーティファクト問題に取り組むために,身体表面の点特徴を学習し,細粒度およびポーズ依存の衣服形状を捉えるための連続的かつコンパクトな特徴空間を確立することを提案する。 この分野での研究を容易にするために,実世界の衣服における人間の高品質スキャンデータセットも紹介する。 提案手法は,既存の2つのデータセットと新たに導入したデータセット上で検証され,着衣変形の結果が見当たらない状態になることを示す。 コードとデータセットを備えたプロジェクトページはhttps://www.liuyebin.com/closet.comで見ることができる。

Creating animatable avatars from static scans requires the modeling of clothing deformations in different poses. Existing learning-based methods typically add pose-dependent deformations upon a minimally-clothed mesh template or a learned implicit template, which have limitations in capturing details or hinder end-to-end learning. In this paper, we revisit point-based solutions and propose to decompose explicit garment-related templates and then add pose-dependent wrinkles to them. In this way, the clothing deformations are disentangled such that the pose-dependent wrinkles can be better learned and applied to unseen poses. Additionally, to tackle the seam artifact issues in recent state-of-the-art point-based methods, we propose to learn point features on a body surface, which establishes a continuous and compact feature space to capture the fine-grained and pose-dependent clothing geometry. To facilitate the research in this field, we also introduce a high-quality scan dataset of humans in real-world clothing. Our approach is validated on two existing datasets and our newly introduced dataset, showing better clothing deformation results in unseen poses. The project page with code and dataset can be found at https://www.liuyebin.com/closet.
翻訳日:2023-04-07 13:43:34 公開日:2023-04-06
# 誰でも、どこでも、どんなポーズでも、合成する

Synthesizing Anyone, Anywhere, in Any Pose ( http://arxiv.org/abs/2304.03164v1 )

ライセンス: Link先を確認
H{\aa}kon Hukkel{\aa}s, Frank Lindseth(参考訳) 画像中の任意の領域が与えられたときの全身の合成を主目的とする人物合成の課題に対処する。 in-the-wild ヒトのフィギュア合成は長い間、難解で未熟な作業であり、現在の手法では極端なポーズや物体のゆるみ、複雑な背景を扱うのに苦労している。 私たちの主な貢献は、任意のポーズでAnyone、Anywhereを合成できるキーポイント誘導型GANであるTriA-GANです。 提案手法の鍵となるのは,GANを十分に構築されたトレーニング戦略と組み合わせることである。 また,TriA-GANは,従来の全体合成法に比べて,条件情報の少ない合成法 (keypoints vs. DensePose) で大幅に向上することを示した。 最後に、\methodname の潜在空間は、標準的な無条件編集技術と互換性があり、生成された人間の図形のテキストガイドによる編集を可能にする。

We address the task of in-the-wild human figure synthesis, where the primary goal is to synthesize a full body given any region in any image. In-the-wild human figure synthesis has long been a challenging and under-explored task, where current methods struggle to handle extreme poses, occluding objects, and complex backgrounds. Our main contribution is TriA-GAN, a keypoint-guided GAN that can synthesize Anyone, Anywhere, in Any given pose. Key to our method is projected GANs combined with a well-crafted training strategy, where our simple generator architecture can successfully handle the challenges of in-the-wild full-body synthesis. We show that TriA-GAN significantly improves over previous in-the-wild full-body synthesis methods, all while requiring less conditional information for synthesis (keypoints vs. DensePose). Finally, we show that the latent space of \methodName is compatible with standard unconditional editing techniques, enabling text-guided editing of generated human figures.
翻訳日:2023-04-07 13:43:10 公開日:2023-04-06
# 言語ギャップのブリッジ:多言語質問に対する知識注入

Bridging the Language Gap: Knowledge Injected Multilingual Question Answering ( http://arxiv.org/abs/2304.03159v1 )

ライセンス: Link先を確認
Zhichao Duan, Xiuxing Li, Zhengyan Zhang, Zhenyu Li, Ning Liu, Jianyong Wang(参考訳) 質問回答 (QA) は、自然言語における人間による質問に自動的に答えるタスクである。 質問には、抽象的、抽出的、ブール的、複数選択QAなど、さまざまな設定がある。 自然言語処理タスクで一般的な話題として、抽出型質問応答タスク(extractive qa)がここ数年で注目を集めている。 世界の継続的な発展に伴い、一般的な言語間移動(G-XLT)では、問合せと解答のコンテキストが異なる言語で行われ、問合せと解答のコンテキストが同じ言語で存在するXLT(cross-lingual transfer)に対して固有の課題が生じる。 関連するベンチマークの開発が促進されると、様々な言語qaタスクのパフォーマンスを改善するために多くの作業がなされた。 しかしながら、G-XLTタスク専用の作品はごくわずかである。 本研究では,異なる言語を理解するモデルの能力を高めるための汎用的な言語間伝達フレームワークを提案する。 具体的には、まず異なる言語から三つ組を組み立て、多言語知識を形成する。 異なる言語間の知識の欠如はモデルの推論能力を大幅に制限するので、リンク予測技術を活用して多言語知識のモデル記憶を強化する知識注入戦略をさらに設計する。 このようにして、我々はリッチなセマンティック知識を深く活用することができる。 実世界のデータセット MLQA の実験結果から,提案手法は平均で13.18%/12.00% F1/EM を上回り,大きなマージンで性能を向上できることが示された。

Question Answering (QA) is the task of automatically answering questions posed by humans in natural languages. There are different settings to answer a question, such as abstractive, extractive, boolean, and multiple-choice QA. As a popular topic in natural language processing tasks, extractive question answering task (extractive QA) has gained extensive attention in the past few years. With the continuous evolvement of the world, generalized cross-lingual transfer (G-XLT), where question and answer context are in different languages, poses some unique challenges over cross-lingual transfer (XLT), where question and answer context are in the same language. With the boost of corresponding development of related benchmarks, many works have been done to improve the performance of various language QA tasks. However, only a few works are dedicated to the G-XLT task. In this work, we propose a generalized cross-lingual transfer framework to enhance the model's ability to understand different languages. Specifically, we first assemble triples from different languages to form multilingual knowledge. Since the lack of knowledge between different languages greatly limits models' reasoning ability, we further design a knowledge injection strategy via leveraging link prediction techniques to enrich the model storage of multilingual knowledge. In this way, we can profoundly exploit rich semantic knowledge. Experiment results on real-world datasets MLQA demonstrate that the proposed method can improve the performance by a large margin, outperforming the baseline method by 13.18%/12.00% F1/EM on average.
翻訳日:2023-04-07 13:42:35 公開日:2023-04-06
# ぼやけた画像分類のためのパッチワイズ特徴

Patch-wise Features for Blur Image Classification ( http://arxiv.org/abs/2304.03156v1 )

ライセンス: Link先を確認
Sri Charan Kattamuru, Kshitij Agrawal, Shyam Prasad Adhikari, Abhishek Bose, Hemant Misra(参考訳) スマートフォンのカメラで撮影された画像は劣化に苦しめられ、ぼやけは主要な画像の1つであり、下流のタスクでこれらの画像を処理する上での課題となっている。 本稿では,画像品質評価のための低スループットパッチワイド機能を提案する。 本手法により,ぼかしとシャープな画像劣化を区別できる。 この目的のために、グレーレベル分散、第1および第2次勾配、局所バイナリパターンのようなテクスチャ特徴など、さまざまな直感的な画像特徴に基づいて、決定ツリーベースのXGBoostモデルをトレーニングする。 オープンデータセットで行った実験では、提案された低計算手法が検証セットの平均精度を90.1%としており、これは94%の精度で計算集約型VGG16ネットワークの精度に匹敵するものである。 提案する特徴とモデルの一般化性を示すため,BHBIDデータセットと内部データセットを用いて,それぞれ98%,91%の精度でモデルを検証した。 提案手法はcpu上のvgg16モデルより10倍高速であり,低計算エッジデバイスに実装するのに適した入力画像サイズに線形にスケールする。

Images captured through smartphone cameras often suffer from degradation, blur being one of the major ones, posing a challenge in processing these images for downstream tasks. In this paper we propose low-compute lightweight patch-wise features for image quality assessment. Using our method we can discriminate between blur vs sharp image degradation. To this end, we train a decision-tree based XGBoost model on various intuitive image features like gray level variance, first and second order gradients, texture features like local binary patterns. Experiments conducted on an open dataset show that the proposed low compute method results in 90.1% mean accuracy on the validation set, which is comparable to the accuracy of a compute-intensive VGG16 network with 94% mean accuracy fine-tuned to this task. To demonstrate the generalizability of our proposed features and model we test the model on BHBID dataset and an internal dataset where we attain accuracy of 98% and 91%, respectively. The proposed method is 10x faster than the VGG16 based model on CPU and scales linearly to the input image size making it suitable to be implemented on low compute edge devices.
翻訳日:2023-04-07 13:41:50 公開日:2023-04-06
# 可積分および非可積分開多体系における選択可観測系の完全量子力学

Exact quantum dynamics of selected observables in integrable and nonintegrable open many-body systems ( http://arxiv.org/abs/2304.03155v1 )

ライセンス: Link先を確認
Alexander Teretenkov and Oleg Lychkovskiy(参考訳) 我々は,gorini-kossakowski-sudarshan-lindblad方程式 (gksl) によって制御される開多体系のダイナミクスを扱う。 我々はこの方程式をハイゼンベルク表現、すなわち状態ではなく可観測性で解こうとする。 我々は、GKSL方程式を特定の観測可能量に対して正確に解けるようなモデルの幅広いクラスが存在することを示した。 最も単純な場合、散逸の唯一の効果はコヒーレント力学の上の指数的減衰である。 これは特に全エネルギーに対して、ハミルトニアンが散逸超作用素の固有作用素であるならば、モデルが可積分であるかどうかに関わらず、真である。 より複雑な場合、散逸はより深い方法でダイナミクスを変化させる。 一例として、散逸的な1次元$XX$モデルで観測可能な集合のGKSL方程式を解く。 オブザーバブルはkrylov空間におけるwannier-stark局在を経験することが判明した。 その結果、観測値の期待値は、離散的な減衰モードの線形結合である。

We address dynamics of open many-body systems governed by the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation. We attempt to solve this equation in the Heisenberg representation, i.e. for observables, not states. We demonstrate that there are broad classes of models where the GKSL equation can be solved (essentially) exactly for certain observables. In the simplest case, the only effect of dissipation is an exponential decay on top of a coherent dynamics. This is true, in particular, for the total energy, provided the Hamiltonian is an eigenoperator of the dissipation superoperator - no matter whether the model is integrable or not. In more complex cases, dissipation alters the dynamics in a much more profound way. As an example, we solve the GKSL equation for a set of observables in a dissipative one-dimensional $XX$ model. It turns out that the observables experience the Wannier-Stark localization in the Krylov space of operators. As a result, the expectation values of the observables are linear combinations of a discrete set of decay modes.
翻訳日:2023-04-07 13:41:28 公開日:2023-04-06
# 大規模事前学習言語モデルを用いたゼロショット次項目推薦

Zero-Shot Next-Item Recommendation using Large Pretrained Language Models ( http://arxiv.org/abs/2304.03153v1 )

ライセンス: Link先を確認
Lei Wang, Ee-Peng Lim(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的なゼロショット性能を達成し、例を訓練せずに推論の能力を実証している。 彼らの成功にもかかわらず、ゼロショット設定で次回の推奨を行うLLMの可能性についてはまだ研究されていない。 LLMがレコメンデーションとして効果的に機能するために対処しなければならない2つの大きな課題を特定した。 まず、リコメンデーションスペースはllmにとって非常に大きく、llmはターゲットユーザーの過去のやりとりされたアイテムや好みを知らない。 このギャップに対処するため、我々はZero-Shot Next-Item Recommendation (NIR)と呼ばれるプロンプト戦略を提案する。 具体的には、NIRベースの戦略では、外部モジュールを使用してユーザフィルタリングやアイテムフィルタリングに基づいて候補アイテムを生成する。 弊社の戦略は、3段階のプロンプトで、GPT-3はユーザの好みを捉えたサブタスクを携帯し、事前に視聴した映画を選別し、10本の映画を推薦する。 提案手法をmovielens 100kデータセット上でgpt-3を用いて評価し,トレーニングデータセット全体でトレーニングされた強い逐次レコメンデーションモデルを上回っても強いゼロショット性能が得られることを示した。 これらの有望な結果は、LLMをレコメンデーションとして使うための十分な研究機会を強調している。 コードはhttps://github.com/AGI-Edgerunners/LLM-Next-Item-Recで見ることができる。

Large language models (LLMs) have achieved impressive zero-shot performance in various natural language processing (NLP) tasks, demonstrating their capabilities for inference without training examples. Despite their success, no research has yet explored the potential of LLMs to perform next-item recommendations in the zero-shot setting. We have identified two major challenges that must be addressed to enable LLMs to act effectively as recommenders. First, the recommendation space can be extremely large for LLMs, and LLMs do not know about the target user's past interacted items and preferences. To address this gap, we propose a prompting strategy called Zero-Shot Next-Item Recommendation (NIR) prompting that directs LLMs to make next-item recommendations. Specifically, the NIR-based strategy involves using an external module to generate candidate items based on user-filtering or item-filtering. Our strategy incorporates a 3-step prompting that guides GPT-3 to carry subtasks that capture the user's preferences, select representative previously watched movies, and recommend a ranked list of 10 movies. We evaluate the proposed approach using GPT-3 on MovieLens 100K dataset and show that it achieves strong zero-shot performance, even outperforming some strong sequential recommendation models trained on the entire training dataset. These promising results highlight the ample research opportunities to use LLMs as recommenders. The code can be found at https://github.com/AGI-Edgerunners/LLM-Next-Item-Rec.
翻訳日:2023-04-07 13:41:13 公開日:2023-04-06
# ネットワーク電力消費に対するVoD圧力の評価

Assessing VoD pressure on network power consumption ( http://arxiv.org/abs/2304.03151v1 )

ライセンス: Link先を確認
Ga\"el Guennebaud, Aur\'elie Bugeau (IUF, LaBRI, UB), Antoine Dudouit(参考訳) ビデオストリーミングサービスのデータ配信におけるエネルギー消費量またはカーボンフットプリントの評価は通常、エネルギーまたは炭素強度(whまたはgco2e per gb)によって行われる。 本稿では,このようなアプローチが誤解を招きやすい理由と,誤った結論につながる可能性について概説する。 これらの欠点を克服するため,本稿では,領域全体のビデオストリーミング利用を考察し,その使用がネットワーク基盤に与える影響を評価することを目的とした新しい手法を提案する。 私たちの方法論の核心は、ピーク使用ニーズに応じて自動的にスケールされる簡易なネットワークおよびコンテンツ配信ネットワーク(cdn)インフラストラクチャのパラメトリックモデルです。 これにより、ソーバーベースラインから高ビットレートビデオの一般的な使用に至るまで、さまざまなシナリオでこのインフラストラクチャの消費電力を比較することができる。 以上の結果から,従来の効率指標はインターネット利用の電力消費の増加を反映せず,誤解を招く可能性も示唆された。

Assessing the energy consumption or carbon footprint of data distribution of video streaming services is usually carried out through energy or carbon intensity figures (in Wh or gCO2e per GB). In this paper, we first review the reasons why such approaches are likely to lead to misunderstandings and potentially to erroneous conclusions. To overcome those shortcomings, we propose a new methodology whose key idea is to consider a video streaming usage at the whole scale of a territory, and evaluate the impact of this usage on the network infrastructure. At the core of our methodology is a parametric model of a simplified network and Content Delivery Network (CDN) infrastructure, which is automatically scaled according to peak usage needs. This allows us to compare the power consumption of this infrastructure under different scenarios, ranging from a sober baseline to a generalized use of high bitrate videos. Our results show that classical efficiency indicators do not reflect the power consumption increase of more intensive Internet usage, and might even lead to misleading conclusions.
翻訳日:2023-04-07 13:40:44 公開日:2023-04-06
# 属性誘導拡散モデルによる顔アニメーション

Face Animation with an Attribute-Guided Diffusion Model ( http://arxiv.org/abs/2304.03199v1 )

ライセンス: Link先を確認
Bohan Zeng, Xuhui Liu, Sicheng Gao, Boyu Liu, Hong Li, Jianzhuang Liu, Baochang Zhang(参考訳) 顔アニメーションはコンピュータビジョンにおいて大きな進歩を遂げた。 しかし,ganに基づく手法では,高精度な運動変形により不自然な歪みやアーティファクトが発生している。 本稿では,属性誘導拡散モデル(FADM)を用いた顔アニメーションフレームワークを提案する。 拡散モデルの制御不能な合成効果を緩和するために,粗いアニメーション特徴と3次元顔再構成結果とを適応的に組み合わせ,その拡散過程に外観と動作条件を組み込む属性誘導型コンディショニングネットワーク(agcn)を設計する。 これらの特定のデザインは、FADMが不自然なアーティファクトや歪みを補正するのに役立つだけでなく、正確なアニメーション特性を持つ反復拡散補正によって、高忠実な顔の詳細を豊かにするのに役立つ。 FADMは、既存のアニメーション映像を柔軟かつ効果的に改善することができる。 広範に使用されているトーキングヘッドベンチマークの大規模な実験は、先行技術に対するFADMの有効性を検証する。

Face animation has achieved much progress in computer vision. However, prevailing GAN-based methods suffer from unnatural distortions and artifacts due to sophisticated motion deformation. In this paper, we propose a Face Animation framework with an attribute-guided Diffusion Model (FADM), which is the first work to exploit the superior modeling capacity of diffusion models for photo-realistic talking-head generation. To mitigate the uncontrollable synthesis effect of the diffusion model, we design an Attribute-Guided Conditioning Network (AGCN) to adaptively combine the coarse animation features and 3D face reconstruction results, which can incorporate appearance and motion conditions into the diffusion process. These specific designs help FADM rectify unnatural artifacts and distortions, and also enrich high-fidelity facial details through iterative diffusion refinements with accurate animation attributes. FADM can flexibly and effectively improve existing animation videos. Extensive experiments on widely used talking-head benchmarks validate the effectiveness of FADM over prior arts.
翻訳日:2023-04-07 13:35:00 公開日:2023-04-06
# RFAConv: 空間的意識と標準的畳み込み運用の革新

RFAConv: Innovating Spatital Attention and Standard Convolutional Operation ( http://arxiv.org/abs/2304.03198v1 )

ライセンス: Link先を確認
Xin Zhang, Chen Liu, Degang Yang, Tingting Song, Yichen Ye, Ke Li, and Yingze Song(参考訳) 畳み込みニューラルネットワークが重要な情報に集中してネットワーク性能を向上させるための空間的注意が証明されているが、まだ限界がある。 本稿では,空間的注意機構が畳み込み型カーネルパラメータ共有の問題を本質的に解決する,新たな視点から空間的注意の有効性について述べる。 しかし, 大規模畳み込み核では, 空間的注意によって生成された注意マップに含まれる情報がまだ不足している。 そこで我々はreceptive-field attention (rfa) と呼ばれる新しい注意機構を提案する。 畳み込みブロックアテンションモジュール(cbam)と座標アテンション(ca)は、空間的特徴のみに焦点を当て、畳み込みカーネルパラメータ共有の問題を完全に解決することができないが、rfaでは、受容場空間的特徴が注目されるだけでなく、大規模畳み込みカーネルに対して適切なアテンション重みを与える。 RFAが設計したReceptive-Field Attention Convolutional Operation (RFAConv) は、標準の畳み込みを置き換える新しい方法であり、ほとんど無視可能な計算コストと多くのパラメータをもたらす。 Imagenet-1k、MS COCO、VOCの多くの実験は、分類、オブジェクト検出、セマンティックセグメンテーションタスクにおける我々のアプローチの優れた性能を示している。 重要なことは、空間的特徴のみに焦点をあてる現在の空間的注意機構では、受容場空間的特徴に焦点をあてることで、ネットワークの性能を向上させるべき時であると信じている。 関連するタスクのコードと事前トレーニングされたモデルは、https://github.com/liuchen1997/rfaconvで見ることができる。

Spatial attention has been demonstrated to enable convolutional neural networks to focus on critical information to improve network performance, but it still has limitations. In this paper, we explain the effectiveness of spatial attention from a new perspective, it is that the spatial attention mechanism essentially solves the problem of convolutional kernel parameter sharing. However, the information contained in the attention map generated by spatial attention is still lacking for large-size convolutional kernels. So, we propose a new attention mechanism called Receptive-Field Attention (RFA). The Convolutional Block Attention Module (CBAM) and Coordinate Attention (CA) only focus on spatial features and cannot fully solve the problem of convolutional kernel parameter sharing, but in RFA, the receptive-field spatial feature not only is focused but also provide good attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv) designed by RFA can be considered a new way to replace the standard convolution and brings almost negligible computational cost and a number of parameters. Numerous experiments on Imagenet-1k, MS COCO, and VOC demonstrate the superior performance of our approach in classification, object detection, and semantic segmentation tasks. Importantly, we believe that for some current spatial attention mechanisms that focus only on spatial features, it is time to improve the performance of the network by focusing on receptive-field spatial features. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv
翻訳日:2023-04-07 13:34:43 公開日:2023-04-06
# Micron-BERT:BERTに基づく顔マイクロ圧縮認識

Micron-BERT: BERT-based Facial Micro-Expression Recognition ( http://arxiv.org/abs/2304.03195v1 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Chi Nhan Duong, Xin Li, Susan Gauch, Han-Seok Seo, Khoa Luu(参考訳) マイクロ圧縮認識は、感情コンピューティングにおいて最も難しいトピックの1つである。 人間が短時間で知覚しにくい小さな顔の動き、すなわち0.25秒から0.5秒で認識することを目指している。 近年の深層指向性変換器(BERT)の進歩は,コンピュータビジョンにおける自己指導型学習タスクを大幅に改善している。 しかし、視覚問題における標準的なBERTは、フルイメージやビデオからのみ学習するように設計されており、このアーキテクチャは顔の微小表現の詳細を正確に検出することはできない。 本稿では,顔のマイクロ圧縮認識の新しいアプローチであるMicron-BERT(\mu$-BERT)を提案する。 提案手法は,2つの鍵となるアイデアに基づいて,これらの動きを自動的に教師なしで捉えることができる。 まず,2つのフレーム間の小さな違いを検出するために,DMA(Diagonal Micro-Attention)を用いる。 第2に,新しいPatch of Interest (PoI)モジュールを導入し,マイクロ圧縮関心領域のローカライズとハイライトを行い,ノイズの背景や気晴らしを同時に低減する。 これらのコンポーネントをエンドツーエンドのディープネットワークに組み込むことで、提案されている$\mu$-bertは、様々なマイクロ表現タスクにおいて、以前のすべての作業を大きく上回っている。 $\mu$-bertは、最大800万のイメージを含む大規模なラベルなしデータセットでトレーニングでき、新しい顔のマイクロ表現データセットで高い精度を達成している。 実証実験では、SAMM、CASME II、SMIC、CASME3を含む4つのマイクロ圧縮ベンチマークにおいて、$\mu$-BERTは一貫して最先端のパフォーマンスを上回っている。 コードは \url{https://github.com/uark-cviu/Micron-BERT} で入手できる。

Micro-expression recognition is one of the most challenging topics in affective computing. It aims to recognize tiny facial movements difficult for humans to perceive in a brief period, i.e., 0.25 to 0.5 seconds. Recent advances in pre-training deep Bidirectional Transformers (BERT) have significantly improved self-supervised learning tasks in computer vision. However, the standard BERT in vision problems is designed to learn only from full images or videos, and the architecture cannot accurately detect details of facial micro-expressions. This paper presents Micron-BERT ($\mu$-BERT), a novel approach to facial micro-expression recognition. The proposed method can automatically capture these movements in an unsupervised manner based on two key ideas. First, we employ Diagonal Micro-Attention (DMA) to detect tiny differences between two frames. Second, we introduce a new Patch of Interest (PoI) module to localize and highlight micro-expression interest regions and simultaneously reduce noisy backgrounds and distractions. By incorporating these components into an end-to-end deep network, the proposed $\mu$-BERT significantly outperforms all previous work in various micro-expression tasks. $\mu$-BERT can be trained on a large-scale unlabeled dataset, i.e., up to 8 million images, and achieves high accuracy on new unseen facial micro-expression datasets. Empirical experiments show $\mu$-BERT consistently outperforms state-of-the-art performance on four micro-expression benchmarks, including SAMM, CASME II, SMIC, and CASME3, by significant margins. Code will be available at \url{https://github.com/uark-cviu/Micron-BERT}
翻訳日:2023-04-07 13:34:16 公開日:2023-04-06
# 2段階移動学習による多視点融合法による自動内視鏡石認識の改善

Improving automatic endoscopic stone recognition using a multi-view fusion approach enhanced with two-step transfer learning ( http://arxiv.org/abs/2304.03193v1 )

ライセンス: Link先を確認
Francisco Lopez-Tiro, Elias Villalvazo-Avila, Juan Pablo Betancur-Rengifo, Jonathan El-Beze, Jacques Hubert, Gilberto Ochoa-Ruiz, Christian Daul(参考訳) 本研究は,内視鏡画像で見る腎臓結石の種類を識別するために,異なる視点から取得した画像情報を抽出・融合する深層学習手法を提案する。 モデルはさらに2段階の伝達学習アプローチと、学習した特徴マップを洗練するための注意ブロックによって改善された。 深い特徴融合戦略により, 腎臓結石分類の精度において, 単視抽出バックボーンモデルの結果を6%以上改善した。

This contribution presents a deep-learning method for extracting and fusing image information acquired from different viewpoints, with the aim to produce more discriminant object features for the identification of the type of kidney stones seen in endoscopic images. The model was further improved with a two-step transfer learning approach and by attention blocks to refine the learned feature maps. Deep feature fusion strategies improved the results of single view extraction backbone models by more than 6% in terms of accuracy of the kidney stones classification.
翻訳日:2023-04-07 13:33:48 公開日:2023-04-06
# Krylov法は(ほぼ)低ランク近似に最適である

Krylov Methods are (nearly) Optimal for Low-Rank Approximation ( http://arxiv.org/abs/2304.03191v1 )

ライセンス: Link先を確認
Ainesh Bakshi and Shyam Narayanan(参考訳) 様々なシャッテンノルムの下で行列ベクトル積モデルにおけるランク-1$ローランク近似(LRA)の問題を考える:$$$ \min_{\|u\|_2=1} \|A (I - u u^\top)\|_{\mathcal{S}_p}, $$$ ここで$\|M\|_{\mathcal{S}_p}$は$M$の特異値の$\ell_p$ノルムを表す。 我々のゴールは、$\varepsilon>0$を与えられたとき、$$ \|A(I - vv^\top)\|_{\mathcal{S}_p} \leq (1+\varepsilon) \min_{\|u\|_2=1}\|A(I - u u^\top)\|_{\mathcal{S}_p} となるような単位ベクトル $v$ を出力することである。 主な結果は、krylov法(ほぼ)がスペクトル(p=infty$)、フロベニウス(p=2$)、核(p=1$)lraの行列ベクトル生成物の情報理論上最適な数を達成することを示している。 特にスペクトル LRA の場合、任意のアルゴリズムが$\Omega\left(\log(n)/\varepsilon^{1/2}\right)$ matrix-vector product を必要とし、Krylov 法 [MM15, BCW22] によって得られる上限値と正確に一致することを示す。 我々の下位境界は[Woo14]のオープン質問1で、スペクトルLRAのアルゴリズムの進歩の欠如の証拠を提供し、[BCW22]のオープン質問1.2を解決します。 次に、任意の固定定数 $p$、すなわち $1\leq p =o(1)$ に対して、$o\left(\log(1/\varepsilon)/\varepsilon^{1/3}\right)$ matrix-vector の上限が存在し、これは複雑性が入力サイズの関数として成長しないことを意味する。 これにより、最近[bcw22]で得られた$o\left(\log(n/\varepsilon)/\varepsilon^{1/3}\right)$バウンドが改善され、その$\omega\left(1/\varepsilon^{1/3}\right)$下限値が$\log(1/\varepsilon)$ファクタに一致する。

We consider the problem of rank-$1$ low-rank approximation (LRA) in the matrix-vector product model under various Schatten norms: $$ \min_{\|u\|_2=1} \|A (I - u u^\top)\|_{\mathcal{S}_p} , $$ where $\|M\|_{\mathcal{S}_p}$ denotes the $\ell_p$ norm of the singular values of $M$. Given $\varepsilon>0$, our goal is to output a unit vector $v$ such that $$ \|A(I - vv^\top)\|_{\mathcal{S}_p} \leq (1+\varepsilon) \min_{\|u\|_2=1}\|A(I - u u^\top)\|_{\mathcal{S}_p}. $$ Our main result shows that Krylov methods (nearly) achieve the information-theoretically optimal number of matrix-vector products for Spectral ($p=\infty$), Frobenius ($p=2$) and Nuclear ($p=1$) LRA. In particular, for Spectral LRA, we show that any algorithm requires $\Omega\left(\log(n)/\varepsilon^{1/2}\right)$ matrix-vector products, exactly matching the upper bound obtained by Krylov methods [MM15, BCW22]. Our lower bound addresses Open Question 1 in [Woo14], providing evidence for the lack of progress on algorithms for Spectral LRA and resolves Open Question 1.2 in [BCW22]. Next, we show that for any fixed constant $p$, i.e. $1\leq p =O(1)$, there is an upper bound of $O\left(\log(1/\varepsilon)/\varepsilon^{1/3}\right)$ matrix-vector products, implying that the complexity does not grow as a function of input size. This improves the $O\left(\log(n/\varepsilon)/\varepsilon^{1/3}\right)$ bound recently obtained in [BCW22], and matches their $\Omega\left(1/\varepsilon^{1/3}\right)$ lower bound, to a $\log(1/\varepsilon)$ factor.
翻訳日:2023-04-07 13:33:38 公開日:2023-04-06
# 複数出力パーセプトロンへのフォワードフォワード学習の概念の適用

The Concept of Forward-Forward Learning Applied to a Multi Output Perceptron ( http://arxiv.org/abs/2304.03189v1 )

ライセンス: Link先を確認
K. Fredrik Karlsson(参考訳) 完全接続型ニューラルネットワークのための最近提案されたフォワード学習アルゴリズムの概念は、分類のために単一のマルチ出力パーセプトロンに適用される。 システムのパラメータは、ラベル付き入力サンプルを正しく(正しく)入力するために、増加(劣化)する「良さ」について訓練される。 基本的な数値テストでは、訓練されたパーセプトロンが非線形決定境界を持つデータセットを効果的に扱うことが示されている。 さらに、全体的なパフォーマンスは、隠れレイヤを持つより複雑なニューラルネットワークに匹敵する。 ここで提示されるアプローチの利点は、単一の行列乗法のみを含むことである。

The concept of a recently proposed Forward-Forward learning algorithm for fully connected artificial neural networks is applied to a single multi output perceptron for classification. The parameters of the system are trained with respect to increased (decreased) "goodness" for correctly (incorrectly) labelled input samples. Basic numerical tests demonstrate that the trained perceptron effectively deals with data sets that have non-linear decision boundaries. Moreover, the overall performance is comparable to more complex neural networks with hidden layers. The benefit of the approach presented here is that it only involves a single matrix multiplication.
翻訳日:2023-04-07 13:32:34 公開日:2023-04-06
# ガウスカーネルによるペアワイズランキング

Pairwise Ranking with Gaussian Kernels ( http://arxiv.org/abs/2304.03185v1 )

ライセンス: Link先を確認
Guanhang Lei and Lei Shi(参考訳) 正規化されたペアワイズランキングは最先端学習アルゴリズムの1つである。 幅広い応用があるにもかかわらず、厳密な理論実証は依然としてそのようなランキング推定器のパフォーマンスを支えていない。 この研究は、正規化されたペアワイズランキングのための新しいオラクルの不等式を開発することで、このギャップを埋めることを目的としている。 これらのオラクルの不等式の助けを借りて、入力領域上の一般的なボックスカウント次元の仮定の下でガウス階数推定器の高速学習率をノイズ条件や標準滑らか性条件と組み合わせて導出する。 我々の理論解析は既存の推定値を改善し、入力空間の固有次元が低ければ次元の呪いを回避できることを示した。

Regularized pairwise ranking with Gaussian kernels is one of the cutting-edge learning algorithms. Despite a wide range of applications, a rigorous theoretical demonstration still lacks to support the performance of such ranking estimators. This work aims to fill this gap by developing novel oracle inequalities for regularized pairwise ranking. With the help of these oracle inequalities, we derive fast learning rates of Gaussian ranking estimators under a general box-counting dimension assumption on the input domain combined with the noise conditions or the standard smoothness condition. Our theoretical analysis improves the existing estimates and shows that a low intrinsic dimension of input space can help the rates circumvent the curse of dimensionality.
翻訳日:2023-04-07 13:32:26 公開日:2023-04-06
# instant-nvr:単眼rgbdストリームからの人間と物体の相互作用のためのインスタントニューラルボリュームレンダリング

Instant-NVR: Instant Neural Volumetric Rendering for Human-object Interactions from Monocular RGBD Stream ( http://arxiv.org/abs/2304.03184v1 )

ライセンス: Link先を確認
Yuheng Jiang, Kaixin Yao, Zhuo Su, Zhehao Shen, Haimin Luo, Lan Xu(参考訳) ヒトと物体の相互作用の連続した4次元モデリングは多くの応用に不可欠である。 しかし、複雑なインタラクションシナリオの単眼追跡とレンダリングは依然として困難である。 本稿では,1台のRGBDカメラを用いた物体追跡・レンダリングのためのニューラルネットワークであるInstant-NVRを提案する。 従来の非剛性追跡を、マルチスレッド追跡レンダリング機構を通じて、最近の即時放射場技術で橋渡しする。 トラッキングフロントエンドでは、十分な動作先を提供するために、頑健な人間オブジェクトキャプチャー方式を採用する。 さらに、対話シーンのための新しいハイブリッド変形モジュールを用いた、分離された瞬間的ニューラル表現を導入する。 また,移動優先探索による動的・静電放射場をオンザフライで再現する手法を提案する。 さらに,オンラインのキーフレーム選択スキームとレンダリング・アウェア・リファインメント戦略を導入し,オンラインのノベルビュー合成の外観詳細を大幅に改善する。 提案手法の有効性と効率を実証する実験を行い, 複雑な人間-物体間相互作用下でのリアルタイムな光-リアリスティック・ノベル・ビュー合成を実現する。

Convenient 4D modeling of human-object interactions is essential for numerous applications. However, monocular tracking and rendering of complex interaction scenarios remain challenging. In this paper, we propose Instant-NVR, a neural approach for instant volumetric human-object tracking and rendering using a single RGBD camera. It bridges traditional non-rigid tracking with recent instant radiance field techniques via a multi-thread tracking-rendering mechanism. In the tracking front-end, we adopt a robust human-object capture scheme to provide sufficient motion priors. We further introduce a separated instant neural representation with a novel hybrid deformation module for the interacting scene. We also provide an on-the-fly reconstruction scheme of the dynamic/static radiance fields via efficient motion-prior searching. Moreover, we introduce an online key frame selection scheme and a rendering-aware refinement strategy to significantly improve the appearance details for online novel-view synthesis. Extensive experiments demonstrate the effectiveness and efficiency of our approach for the instant generation of human-object radiance fields on the fly, notably achieving real-time photo-realistic novel view synthesis under complex human-object interactions.
翻訳日:2023-04-07 13:32:16 公開日:2023-04-06
# SketchFFusion:拡散モデルによるスケッチ誘導画像編集

SketchFFusion: Sketch-guided image editing with diffusion model ( http://arxiv.org/abs/2304.03174v1 )

ライセンス: Link先を確認
Weihang Mao, Bo Han, Zihao Wang(参考訳) スケッチ誘導画像編集は、未編集領域の本来の状態を維持しつつ、ユーザが提供するスケッチ情報に基づいて画像の局所的な微調整を実現することを目的としている。 人間のスケッチを取得するコストが高いため、以前の作品はスケッチの代わりにエッジマップに依存していたが、スケッチはより豊かな構造情報を持っている。 本稿では,画像の主輪郭を保存し,ユーザによる実際のスケッチスタイルに忠実なスケッチ生成手法を提案する。 同時に、現在の画像編集手法では、画像歪み、トレーニングコスト、スケッチの細かい詳細の損失といった課題に直面することが多い。 これらの制約に対処するため,スケッチ構造ベクトルに基づく条件拡散モデル(SketchFFusion)を提案する。 モデルの生成性能を評価し,既存の手法より優れていることを示す。

Sketch-guided image editing aims to achieve local fine-tuning of the image based on the sketch information provided by the user, while maintaining the original status of the unedited areas. Due to the high cost of acquiring human sketches, previous works mostly relied on edge maps as a substitute for sketches, but sketches possess more rich structural information. In this paper, we propose a sketch generation scheme that can preserve the main contours of an image and closely adhere to the actual sketch style drawn by the user. Simultaneously, current image editing methods often face challenges such as image distortion, training cost, and loss of fine details in the sketch. To address these limitations, We propose a conditional diffusion model (SketchFFusion) based on the sketch structure vector. We evaluate the generative performance of our model and demonstrate that it outperforms existing methods.
翻訳日:2023-04-07 13:31:48 公開日:2023-04-06
# ガンベル雑音スコアマッチングによる異常検出

Anomaly Detection via Gumbel Noise Score Matching ( http://arxiv.org/abs/2304.03220v1 )

ライセンス: Link先を確認
Ahsan Mahmood, Junier Oliva, Martin Styner(参考訳) 本稿では,カテゴリーデータ中の異常を検出する新しい教師なし手法であるgumbel noise score matching (gnsm)を提案する。 GNSMは、連続的に緩和された圏分布の対数確率 w.r.t.~インプットの勾配を推定することでこれを達成している。 本手法は,テーブル状データセットの異常検出スイート上でテストする。 GNSMは全ての実験において一貫して高い性能を達成する。 さらに,画像データにGNSMを適用することで,モデルのセグメンテーション予測の低下を検出することで,GNSMの柔軟性を実証する。 GNSMが異常にランク付けした画像は明確なセグメンテーション障害を示し、GNSMの出力はグラウンドトルースで計算されたセグメンテーションメトリクスと強く関連している。 本稿では,GNSMが活用するスコアマッチング学習目標の概要と,そのオープンソース実装について述べる。

We propose Gumbel Noise Score Matching (GNSM), a novel unsupervised method to detect anomalies in categorical data. GNSM accomplishes this by estimating the scores, i.e. the gradients of log likelihoods w.r.t.~inputs, of continuously relaxed categorical distributions. We test our method on a suite of anomaly detection tabular datasets. GNSM achieves a consistently high performance across all experiments. We further demonstrate the flexibility of GNSM by applying it to image data where the model is tasked to detect poor segmentation predictions. Images ranked anomalous by GNSM show clear segmentation failures, with the outputs of GNSM strongly correlating with segmentation metrics computed on ground-truth. We outline the score matching training objective utilized by GNSM and provide an open-source implementation of our work.
翻訳日:2023-04-07 13:25:54 公開日:2023-04-06
# データ監査:タスクモデルにおける属性ユーティリティと検出可能性によるバイアスの識別

Data AUDIT: Identifying Attribute Utility- and Detectability-Induced Bias in Task Models ( http://arxiv.org/abs/2304.03218v1 )

ライセンス: Link先を確認
Mitchell Pavlak, Nathan Drenkow, Nicholas Petrick, Mohammad Mehdi Farhangi, Mathias Unberath(参考訳) コンピュータ支援による検出・診断のための深層学習型コンピュータビジョンモデルを安全に展開するには,信頼性と信頼性を確保する必要がある。 その目標に向けて,アルゴリズムによる監査が注目されている。 監査手続きを導くために、既存の手法はヒューリスティックなアプローチや高レベルの目的(例えば、性別、性別、人種などの保護された属性に対する非差別)に依存している。 しかし、アルゴリズムは、より明白な属性以上の様々な属性に対するバイアスを示し、これらのより微妙な属性に関連する整合性問題は深刻な結果をもたらす可能性がある。 モデルバイアスを引き起こす可能性のある特定のデータセット属性を識別する実行可能なデータ駆動仮説の生成を可能にするため、医用画像データセットの厳密で定量的なスクリーニングのための第1の手法を提案する。 因果推論および情報理論領域の文献から抽出した手法は,データセット属性の検知性と有用性の観点から,そのリスクを分解する(その属性がタスクラベルについて与える情報量として定義される)。 提案手法の有効性と感度を示すため,本手法では,対象ラベルと異なる相関関係の人工的挿入アーティファクトを用いた多種多様なデータセットを開発し,真偽実例との比較によるモデルバイアスの評価を可能にした。 これらのデータセットと、何百ものトレーニングされたモデルの結果を用いて、我々のスクリーニング手法は、ほとんど知覚不能なバイアス誘導アーチファクトを確実に識別する。 最後に,本手法を一般的なスキンレシオンデータセットの自然属性に適用し,その成功を実証する。 我々のアプローチは、より体系的なアルゴリズム監査を行い、より安全で信頼性の高いモデルを追求する将来のデータ収集の取り組みをガイドする手段を提供する。

To safely deploy deep learning-based computer vision models for computer-aided detection and diagnosis, we must ensure that they are robust and reliable. Towards that goal, algorithmic auditing has received substantial attention. To guide their audit procedures, existing methods rely on heuristic approaches or high-level objectives (e.g., non-discrimination in regards to protected attributes, such as sex, gender, or race). However, algorithms may show bias with respect to various attributes beyond the more obvious ones, and integrity issues related to these more subtle attributes can have serious consequences. To enable the generation of actionable, data-driven hypotheses which identify specific dataset attributes likely to induce model bias, we contribute a first technique for the rigorous, quantitative screening of medical image datasets. Drawing from literature in the causal inference and information theory domains, our procedure decomposes the risks associated with dataset attributes in terms of their detectability and utility (defined as the amount of information knowing the attribute gives about a task label). To demonstrate the effectiveness and sensitivity of our method, we develop a variety of datasets with synthetically inserted artifacts with different degrees of association to the target label that allow evaluation of inherited model biases via comparison of performance against true counterfactual examples. Using these datasets and results from hundreds of trained models, we show our screening method reliably identifies nearly imperceptible bias-inducing artifacts. Lastly, we apply our method to the natural attributes of a popular skin-lesion dataset and demonstrate its success. Our approach provides a means to perform more systematic algorithmic audits and guide future data collection efforts in pursuit of safer and more reliable models.
翻訳日:2023-04-07 13:25:39 公開日:2023-04-06
# 多言語ニューラルマシン翻訳のパレートフロントについて

On the Pareto Front of Multilingual Neural Machine Translation ( http://arxiv.org/abs/2304.03216v1 )

ライセンス: Link先を確認
Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang(参考訳) 本研究では,MNMT(Multilingual Neural Machine Translation)において,与えられた方向の一般化性能がサンプリング比でどのように変化するかを検討する。 様々なモデルサイズ、方向、タスクの総数を持つ200以上の多言語モデルをトレーニングすることで、スカラー化は、トレーニングコーパスにデータ不均衡がある場合、従来のパレートフロントから逸脱するマルチタスクトレードオフフロントにつながることが分かりました。 すなわち、ある翻訳方向の性能は、マルチタスク最適化目標における重みの増加によって改善されず、全ての方向の全体的な性能を改善することが大きな課題となる。 そこで本研究では,mnmtにおける一意な性能トレードオフを予測するためのダブルパワー則を提案する。 最後に,MNMTにおけるサンプル比選択をDouble Power Lawに基づく最適化問題として定式化し,本実験におけるトレーニング予算の最大半分を用いて,温度探索や勾配操作法よりも優れた性能を実現する。

In this work, we study how the generalization performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, directions, and total numbers of tasks, we find that scalarization leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus. That is, the performance of certain translation directions does not improve with the increase of its weight in the multi-task optimization objective, which poses greater challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy and number of tasks. Finally, we formulate sample ratio selection in MNMT as an optimization problem based on the Double Power Law, which achieves better performance than temperature searching and gradient manipulation methods using up to half of the total training budget in our experiments.
翻訳日:2023-04-07 13:25:08 公開日:2023-04-06
# クロスデバイスユーザマッチングのための階層型グラフニューラルネットワーク

Hierarchical Graph Neural Network with Cross-Attention for Cross-Device User Matching ( http://arxiv.org/abs/2304.03215v1 )

ライセンス: Link先を確認
Ali Taghibakhshi, Mingyuan Ma, Ashwath Aithal, Onur Yilmaz, Haggai Maron, Matthew West(参考訳) デバイス間のユーザマッチングは、広告、レコメンデーションシステム、サイバーセキュリティなど、多くのドメインにおいて重要な問題である。 同一人物に属する異なるデバイスを特定しリンクし、シーケンスログを利用する。 これまでのデータマイニング技術は、ログ間の長距離の依存関係と高次の接続に対処するのに苦労してきた。 近年,この問題をグラフ問題としてモデル化し,従来の手法よりも優れた2層グラフコンテキスト埋め込み(TGCE)ニューラルネットワークアーキテクチャを提案する。 本稿では,tgceよりも計算効率が高い階層型グラフニューラルネットワークアーキテクチャ(hgnn)を提案する。 さらに,我々のモデルにクロスアテンション(Cross-Att)機構を導入し,最先端TGCE法と比較して性能を5%向上させる。

Cross-device user matching is a critical problem in numerous domains, including advertising, recommender systems, and cybersecurity. It involves identifying and linking different devices belonging to the same person, utilizing sequence logs. Previous data mining techniques have struggled to address the long-range dependencies and higher-order connections between the logs. Recently, researchers have modeled this problem as a graph problem and proposed a two-tier graph contextual embedding (TGCE) neural network architecture, which outperforms previous methods. In this paper, we propose a novel hierarchical graph neural network architecture (HGNN), which has a more computationally efficient second level design than TGCE. Furthermore, we introduce a cross-attention (Cross-Att) mechanism in our model, which improves performance by 5% compared to the state-of-the-art TGCE method.
翻訳日:2023-04-07 13:24:50 公開日:2023-04-06
# 確率的専門家による医用画像分割のための暗黙的解剖レンダリング

Implicit Anatomical Rendering for Medical Image Segmentation with Stochastic Experts ( http://arxiv.org/abs/2304.03209v1 )

ライセンス: Link先を確認
Chenyu You, Weicheng Dai, Yifei Min, Lawrence Staib, James S. Duncan(参考訳) 高レベル意味的関連コンテンツと低レベルの解剖学的特徴の統合は、医用画像のセグメンテーションにおいて重要となる。 この目的のために,近年の深層学習に基づく医学的セグメンテーション手法は,そのような情報をモデル化する上で大きな可能性を示している。 しかし、医学的なセグメンテーションのための畳み込み演算子は通常、通常、高周波領域、すなわち境界領域を曖昧にする正規格子上で動作します。 本稿では,医学的画像分割学習を支援するために解剖学的レベルで設計された,汎用的な暗黙的ニューラルネットワークフレームワークであるmorseを提案する。 提案手法は,暗黙的神経表現が離散格子表現よりも複雑な信号に適合し,コンピュータグラフィックスの問題を解くのに有効であることが示されている。 このアプローチの核心は、医用画像分割をエンドツーエンドのレンダリング問題として定式化することです。 具体的には、粗いセグメンテーション予測を曖昧な座標に基づく点表現と連続的に調整し、これらの特徴を集約して境界領域を適応的に洗練する。 マルチスケール画素レベルの特徴を並列に最適化するために,Mixture-of-Expert(MoE)のアイデアを活用し,確率的ゲーティング機構でMORSEを設計・訓練する。 実験により,MORSEは異なる医療セグメントのバックボーンとよく機能し,医用セグメントの2次元および3次元管理手法の競争性能の向上を一貫して達成できることが示された。 理論上はモースの優越性も分析する。

Integrating high-level semantically correlated contents and low-level anatomical features is of central importance in medical image segmentation. Towards this end, recent deep learning-based medical segmentation methods have shown great promise in better modeling such information. However, convolution operators for medical segmentation typically operate on regular grids, which inherently blur the high-frequency regions, i.e., boundary regions. In this work, we propose MORSE, a generic implicit neural rendering framework designed at an anatomical level to assist learning in medical image segmentation. Our method is motivated by the fact that implicit neural representation has been shown to be more effective in fitting complex signals and solving computer graphics problems than discrete grid-based representation. The core of our approach is to formulate medical image segmentation as a rendering problem in an end-to-end manner. Specifically, we continuously align the coarse segmentation prediction with the ambiguous coordinate-based point representations and aggregate these features to adaptively refine the boundary region. To parallelly optimize multi-scale pixel-level features, we leverage the idea from Mixture-of-Expert (MoE) to design and train our MORSE with a stochastic gating mechanism. Our experiments demonstrate that MORSE can work well with different medical segmentation backbones, consistently achieving competitive performance improvements in both 2D and 3D supervised medical segmentation methods. We also theoretically analyze the superiority of MORSE.
翻訳日:2023-04-07 13:24:36 公開日:2023-04-06
# Cerebras-GPT:Cerrebras Wafer-Scaleクラスタ上で学習したオープン・コンピュート・最適言語モデル

Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster ( http://arxiv.org/abs/2304.03208v1 )

ライセンス: Link先を確認
Nolan Dey, Gurpreet Gosal, Zhiming (Charles) Chen, Hemant Khachane, William Marshall, Ribhu Pathria, Marvin Tom, Joel Hestness(参考訳) 我々は、効率的な事前トレーニングとスケーリング、オープンデータセットとツールにより、大規模言語モデルを改善する最近の研究動向について研究する。 cerebras-gptは111mから13bのパラメータにスケールしたオープン・コンピュート・オプティマイズ言語モデルである。 我々は、DeepMind Chinchillaスケーリングルールに従って、Eleuther Pileデータセット上でCerebras-GPTモデルをトレーニングし、効率的な事前トレーニング(与えられた計算予算の最大精度)を行う。 予測可能なパワーロースケーリングを特徴付け,Cerebras-GPTと他の公開モデルを比較して,すべてのCerebras-GPTモデルが,事前学習と下流の両方の目標に対して最先端のトレーニング効率を有することを示す。 我々は、最大更新パラメータ化($\mu$P)が大規模モデルのスケーリングをさらに改善し、精度を向上し、スケールでのハイパーパラメータ予測可能性を向上させることを含む、我々の学習について説明する。 事前学習したモデルとコードをリリースし、この論文は、計算最適化モデルスケーリングと固定データセットサイズでトレーニングされたモデルを比較した、最初のオープンかつ再現可能な作業である。 Cerebras-GPTモデルはHuggingFaceで利用可能である。

We study recent research advances that improve large language models through efficient pre-training and scaling, and open datasets and tools. We combine these advances to introduce Cerebras-GPT, a family of open compute-optimal language models scaled from 111M to 13B parameters. We train Cerebras-GPT models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules for efficient pre-training (highest accuracy for a given compute budget). We characterize the predictable power-law scaling and compare Cerebras-GPT with other publicly-available models to show all Cerebras-GPT models have state-of-the-art training efficiency on both pre-training and downstream objectives. We describe our learnings including how Maximal Update Parameterization ($\mu$P) can further improve large model scaling, improving accuracy and hyperparameter predictability at scale. We release our pre-trained models and code, making this paper the first open and reproducible work comparing compute-optimal model scaling to models trained on fixed dataset sizes. Cerebras-GPT models are available on HuggingFace: https://huggingface.co/cerebras.
翻訳日:2023-04-07 13:23:58 公開日:2023-04-06
# 複数の例外点を囲むトポロジーの解法

Resolving the topology of encircling multiple exceptional points ( http://arxiv.org/abs/2304.03207v1 )

ライセンス: Link先を確認
Chitres Guria, Qi Zhong, Sahin K. Ozdemir, Yogesh S. S. Patil, Ramy El-Ganainy, Jack G. E. Harris(参考訳) 非ヘルミティシティは、従来の手法では達成できない方法で結合モードシステムを制御する新しいパラダイムとして登場した。 最近注目されているこの制御の1つの側面は、例外点(EP)を取り巻くことである。 これまで、ほとんどの研究は2つの制御パラメータで調整され、独立したEPを持つ2つのモードからなるシステムに焦点を当ててきた。 これらのシステムはEPを囲むエキゾチックな特徴を示すが、よりリッチな挙動は2モード以上のシステムで起こることが示されている。 このようなシステムは2つ以上の制御パラメータで調整することができ、結び目のような構造を形成するEPを含む。 この構造を囲む制御ループは、システムの固有値を非可換ブレイドを追跡させる。 ここでは2つの制御パラメータを持つ3モードシステムというハイブリッドシナリオについて考察する。 制御ループとトポロジの関係を,全次元および2次元のパラメータ空間で記述する。 制御パラメータを高精細な光学キャビティとの光力学的相互作用により提供した3モードメカニカルシステムを用いて,この関係を実験的に実証する。

Non-Hermiticity has emerged as a new paradigm for controlling coupled-mode systems in ways that cannot be achieved with conventional techniques. One aspect of this control that has received considerable attention recently is the encircling of exceptional points (EPs). To date, most work has focused on systems consisting of two modes that are tuned by two control parameters and have isolated EPs. While these systems exhibit exotic features related to EP encircling, it has been shown that richer behavior occurs in systems with more than two modes. Such systems can be tuned by more than two control parameters, and contain EPs that form a knot-like structure. Control loops that encircle this structure cause the system's eigenvalues to trace out non-commutative braids. Here we consider a hybrid scenario: a three-mode system with just two control parameters. We describe the relationship between control loops and their topology in the full and two-dimensional parameter space. We demonstrate this relationship experimentally using a three-mode mechanical system in which the control parameters are provided by optomechanical interaction with a high-finesse optical cavity.
翻訳日:2023-04-07 13:23:26 公開日:2023-04-06
# SLM: Sparse Learnable Masksによるエンドツーエンド機能選択

SLM: End-to-end Feature Selection via Sparse Learnable Masks ( http://arxiv.org/abs/2304.03202v1 )

ライセンス: Link先を確認
Yihe Dong, Sercan O. Arik(参考訳) 特徴選択は、トレーニング中の計算要求の緩和、モデルの解釈可能性の解明、モデルの一般化性の向上に広く用いられている。 我々はslm -- sparse learnable masks -- 機能次元とサンプル数の両方に関してうまくスケールするエンドツーエンドの機能選択の標準的アプローチを提案する。 SLMの中心には、単純だが効果的に学習可能なスパースマスクがあり、どの特徴を選択するかを学び、選択された特徴とラベルの間の相互情報(MI)を有効に最大化する新しい目的を生み出し、第一原理から相互情報の二次緩和から導出することができる。 さらに,スパースマックスの新たな利用により,SLMが選択した特徴量を正確に制御できるスケーリング機構を導出する。 これにより、アブレーション研究で示されるように、より効果的な学習が可能になる。 経験的に、SLMは8つのベンチマークデータセットの様々な競争基準に対して、特にクラス不均衡のような現実世界の課題に対して、大きな差で、最先端の結果を達成する。

Feature selection has been widely used to alleviate compute requirements during training, elucidate model interpretability, and improve model generalizability. We propose SLM -- Sparse Learnable Masks -- a canonical approach for end-to-end feature selection that scales well with respect to both the feature dimension and the number of samples. At the heart of SLM lies a simple but effective learnable sparse mask, which learns which features to select, and gives rise to a novel objective that provably maximizes the mutual information (MI) between the selected features and the labels, which can be derived from a quadratic relaxation of mutual information from first principles. In addition, we derive a scaling mechanism that allows SLM to precisely control the number of features selected, through a novel use of sparsemax. This allows for more effective learning as demonstrated in ablation studies. Empirically, SLM achieves state-of-the-art results against a variety of competitive baselines on eight benchmark datasets, often by a significant margin, especially on those with real-world challenges such as class imbalance.
翻訳日:2023-04-07 13:22:58 公開日:2023-04-06
# ユーザ認証によるデバイス非依存の量子セキュアダイレクト通信

Device-Independent Quantum Secure Direct Communication with User Authentication ( http://arxiv.org/abs/2304.03201v1 )

ライセンス: Link先を確認
Nayana Das, Goutam Paul(参考訳) QSDC(Quantum Secure Direct Communication)は、量子暗号の重要な分岐であり、鍵暗号なしでメッセージのセキュアな送信を可能にする。 しかし、従来の量子通信プロトコルは、攻撃を受けやすいプロトコルを実装するために使用されるデバイスのセキュリティと信頼性に依存している。 一方、デバイス非依存(di)量子プロトコルは、量子力学の基本原理を活用し、使用するデバイスに依存しない量子通信を確保することを目的としている。 本稿では,メッセージ交換前の送信者および受信者の認証を確立するために,ユーザID認証を含む最初のDI-QSDCプロトコルを提案する。 また、この手法をDI量子対話(QD)プロトコルに拡張し、双方が相互認証に基づいて秘密メッセージを送信できるようにする。

Quantum Secure Direct Communication (QSDC) is an important branch of quantum cryptography, which enables the secure transmission of messages without prior key encryption. However, traditional quantum communication protocols rely on the security and trustworthiness of the devices employed to implement the protocols, which can be susceptible to attacks. Device-independent (DI) quantum protocols, on the other hand, aim to secure quantum communication independent of the devices used by leveraging fundamental principles of quantum mechanics. In this research paper, we introduce the first DI-QSDC protocol that includes user identity authentication to establish the authenticity of both sender and receiver before message exchange. We also extend this approach to a DI Quantum Dialogue (QD) protocol where both parties can send secret messages upon mutual authentication.
翻訳日:2023-04-07 13:22:38 公開日:2023-04-06
# HOTGP -- 高階型遺伝的プログラミング

HOTGP -- Higher-Order Typed Genetic Programming ( http://arxiv.org/abs/2304.03200v1 )

ライセンス: Link先を確認
Matheus Campos Fernandes, Fabr\'icio Olivetti de Fran\c{c}a, Emilio Francesquini(参考訳) プログラム合成とは、一連の仕様に従ってコンピュータプログラムを生成するプロセスであり、問題の高レベルな記述や入力出力の例のセットである。 合成は、検索空間が文法の下で有効な全てのプログラムの集合である探索問題としてモデル化することができる。 探索空間は広大であるため、ブルートフォースは通常は実現不可能であり、遺伝的プログラミングのような探索ヒューリスティックスもまた、誘導なしで探索をナビゲートするのも困難である。 本稿では、純粋、型付き、関数型プログラムを合成する新しい遺伝的プログラミングアルゴリズムであるHOTGPを提案する。 HOTGPは、仕様と組み込み文法に関連する豊富なデータ型によって提供される知識を活用して、検索空間を制限し、合成の性能を向上させる。 この文法はhaskellの標準ベースライブラリ(合成されたコードは任意の標準haskellコンパイラで直接コンパイルできる)に基づいており、高階関数、$\lambda$-関数、パラメトリック多型をサポートする。 実験の結果,標準ベンチマークを用いた6ドルの最先端アルゴリズムと比較して,HOTGPは競争力があり,どのアルゴリズムよりも高い頻度で正しいプログラムを合成できることがわかった。

Program synthesis is the process of generating a computer program following a set of specifications, which can be a high-level description of the problem and/or a set of input-output examples. The synthesis can be modeled as a search problem in which the search space is the set of all the programs valid under a grammar. As the search space is vast, brute force is usually not viable and search heuristics, such as genetic programming, also have difficulty navigating it without any guidance. In this paper we present HOTGP, a new genetic programming algorithm that synthesizes pure, typed, and functional programs. HOTGP leverages the knowledge provided by the rich data-types associated with the specification and the built-in grammar to constrain the search space and improve the performance of the synthesis. The grammar is based on Haskell's standard base library (the synthesized code can be directly compiled using any standard Haskell compiler) and includes support for higher-order functions, $\lambda$-functions, and parametric polymorphism. Experimental results show that, when compared to $6$ state-of-the-art algorithms using a standard set of benchmarks, HOTGP is competitive and capable of synthesizing the correct programs more frequently than any other of the evaluated algorithms.
翻訳日:2023-04-07 13:22:24 公開日:2023-04-06
# 不死のリスクのある連続事象の因果解析のためのベイズ的枠組み

A Bayesian Framework for Causal Analysis of Recurrent Events in Presence of Immortal Risk ( http://arxiv.org/abs/2304.03247v1 )

ライセンス: Link先を確認
Arman Oganisian, Anthony Girard, Jon A. Steingrimsson, Patience Moyo(参考訳) 再発事象率の観測的研究は、生物医学的統計学において一般的である。 目的は、特定のフォローアップウィンドウ上で、指定された対象集団内での2つの治療におけるイベントレートの違いを推定することである。 対象集団のメンバーシップは適格基準で定義されているが、適格時に正確には治療が割り当てられることはほとんどないため、観察的請求データによる推定は困難である。 このタイミングのミスアライメントに対するアドホックな解決策は、後続の割り当てに基づいて治療を適当に割り当てるなど、不正にイベントレートを治療に当てはめ、不死のリスクバイアスをもたらす。 資格と治療が一致しているとしても、終末イベントプロセス(例えば死)は、しばしば繰り返し発生するイベントプロセスの関心を止める。 どちらのプロセスも検閲され、イベントはフォローアップウィンドウ全体にわたって観察されない。 一部の患者は治療中に治療を受けており、他の患者は治療をオフにしていますが、特定の時間に治療に切り替える場合もあります。 特定の因果仮定の下でスイッチングによる平均因果効果を定義し,同定する。 半パラメトリックベイズモデルを用いたg-計算フレームワークを用いて、死と再帰事象のプロセスに対する推定を行う。 様々なスイッチング時間に対する推定値を計算することで、治療タイミングの影響を評価することができる。 本手法は,慢性腰痛患者のオピオイド治療戦略の違いによる入院率の対比に,メディケアクレームデータを用いて適用する。

Observational studies of recurrent event rates are common in biomedical statistics. Broadly, the goal is to estimate differences in event rates under two treatments within a defined target population over a specified followup window. Estimation with observational claims data is challenging because while membership in the target population is defined in terms of eligibility criteria, treatment is rarely assigned exactly at the time of eligibility. Ad-hoc solutions to this timing misalignment, such as assigning treatment at eligibility based on subsequent assignment, incorrectly attribute prior event rates to treatment - resulting in immortal risk bias. Even if eligibility and treatment are aligned, a terminal event process (e.g. death) often stops the recurrent event process of interest. Both processes are also censored so that events are not observed over the entire followup window. Our approach addresses misalignment by casting it as a treatment switching problem: some patients are on treatment at eligibility while others are off treatment but may switch to treatment at a specified time - if they survive long enough. We define and identify an average causal effect of switching under specified causal assumptions. Estimation is done using a g-computation framework with a joint semiparametric Bayesian model for the death and recurrent event processes. Computing the estimand for various switching times allows us to assess the impact of treatment timing. We apply the method to contrast hospitalization rates under different opioid treatment strategies among patients with chronic back pain using Medicare claims data.
翻訳日:2023-04-07 13:16:15 公開日:2023-04-06
# Inst-Inpaint:拡散モデルによる物体の除去指示

Inst-Inpaint: Instructing to Remove Objects with Diffusion Models ( http://arxiv.org/abs/2304.03246v1 )

ライセンス: Link先を確認
Ahmet Burak Yildirim, Vedat Baday, Erkut Erdem, Aykut Erdem, Aysegul Dundar(参考訳) image inpainting taskは、望ましくないピクセルを画像から消去し、意味的に一貫性があり、現実的な方法で埋めることを指す。 伝統的に、消したいピクセルはバイナリマスクで定義されている。 アプリケーションの観点からは、ユーザは削除したいオブジェクトのマスクを生成する必要がある。 本研究では,自然言語入力に基づいて除去対象を推定し,同時に除去する画像インペイントアルゴリズムに興味を持つ。 この目的のために、まず、このタスクのためにGQA-Inpaintというデータセットを構築します。 第2に,テキストプロンプトとして与えられた指示に基づいて画像からオブジェクトを削除することができる,新しいインペインティングフレームワークinst-inpaintを提案する。 我々は,様々なGANおよび拡散ベースラインを設定し,合成および実画像データセット上で実験を行った。 我々は,モデルの品質と精度を計測し,定量的かつ質的な改善を示す評価指標と比較した。

Image inpainting task refers to erasing unwanted pixels from images and filling them in a semantically consistent and realistic way. Traditionally, the pixels that are wished to be erased are defined with binary masks. From the application point of view, a user needs to generate the masks for the objects they would like to remove which can be time-consuming and prone to errors. In this work, we are interested in an image inpainting algorithm that estimates which object to be removed based on natural language input and also removes it, simultaneously. For this purpose, first, we construct a dataset named GQA-Inpaint for this task which will be released soon. Second, we present a novel inpainting framework, Inst-Inpaint, that can remove objects from images based on the instructions given as text prompts. We set various GAN and diffusion-based baselines and run experiments on synthetic and real image datasets. We compare methods with different evaluation metrics that measure the quality and accuracy of the models and show significant quantitative and qualitative improvements.
翻訳日:2023-04-07 13:15:50 公開日:2023-04-06
# 大規模言語モデルは文語翻訳に文書レベルの文脈を効果的に活用するが、臨界エラーは継続する

Large language models effectively leverage document-level context for literary translation, but critical errors persist ( http://arxiv.org/abs/2304.03245v1 )

ライセンス: Link先を確認
Marzena Karpinska and Mohit Iyyer(参考訳) 大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。 しかし、これらの設定による評価は費用がかかり難いため、段落や文書を翻訳する能力は未解明のままである。 我々は、Gpt-3.5 (text-davinci-003) LLM) に文節全体(小説など)を一度に翻訳するよう求める厳密な人間の評価を通して、言語的に異なる18の言語対(日本語、ポーランド語、英語への翻訳など)にわたる標準文の翻訳よりも高品質な翻訳を行うことを示す。 アノテーションと分析に約350時間を費やした評価は、ソース言語とターゲット言語の両方に精通した翻訳者を雇い、スパンレベルのエラーアノテーションと、システムの翻訳が優れているかどうかの選択判断の両方を提供するよう求めた。 会話レベルのllm翻訳者は文レベルのアプローチよりも誤訳や文法誤り、スタイル的不整合が少ないことが観察された。 それにもかかわらず、時折内容の欠落を含む重大なエラーがまだ増えており、著者の声がそのままであることを保証するためには、人間の翻訳者の介入が必要である。 ドキュメントレベルの文芸翻訳の評価に関する今後の研究を促進するため,データセットとエラーアノテーションを公開します。

Large language models (LLMs) are competitive with the state of the art on a wide range of sentence-level translation datasets. However, their ability to translate paragraphs and documents remains unexplored because evaluation in these settings is costly and difficult. We show through a rigorous human evaluation that asking the Gpt-3.5 (text-davinci-003) LLM to translate an entire literary paragraph (e.g., from a novel) at once results in higher-quality translations than standard sentence-by-sentence translation across 18 linguistically-diverse language pairs (e.g., translating into and out of Japanese, Polish, and English). Our evaluation, which took approximately 350 hours of effort for annotation and analysis, is conducted by hiring translators fluent in both the source and target language and asking them to provide both span-level error annotations as well as preference judgments of which system's translations are better. We observe that discourse-level LLM translators commit fewer mistranslations, grammar errors, and stylistic inconsistencies than sentence-level approaches. With that said, critical errors still abound, including occasional content omissions, and a human translator's intervention remains necessary to ensure that the author's voice remains intact. We publicly release our dataset and error annotations to spur future research on evaluation of document-level literary translation.
翻訳日:2023-04-07 13:15:35 公開日:2023-04-06
# 医療における合成データ

Synthetic Data in Healthcare ( http://arxiv.org/abs/2304.03243v1 )

ライセンス: Link先を確認
Daniel McDuff, Theodore Curran, Achuta Kadambi(参考訳) 合成データは、人工知能システムを構築するための重要なツールになりつつある。 シミュレーターは、システマティックかつ大規模にデータを生成する方法を提供する。 これらのデータは、トレーニングとテストシステムのために、あるいは実際のデータと組み合わせて使用することができる。 合成データは、 ``real'' トレーニング例が利用可能である場合、特に魅力的である。 医療のデータ量は指数関数的に増えているが、新しいタスクや、さまざまな条件や因果関係を反映したデータセットを作成することは簡単ではない。 さらに、これらのデータは非常に敏感で、しばしば患者固有のものです。 近年、医学分野における合成データの可能性について研究が始まっているが、体系的な文献のレビューは存在しない。 本稿では,データ作成のための物理・統計シミュレーションの事例と,医療・医療への応用について述べる。 我々は、合成がプライバシ、公平性、安全性、継続的な因果学習を促進する一方で、欠陥や盲点の導入、バイアスの伝播や誇張のリスクも考慮している。

Synthetic data are becoming a critical tool for building artificially intelligent systems. Simulators provide a way of generating data systematically and at scale. These data can then be used either exclusively, or in conjunction with real data, for training and testing systems. Synthetic data are particularly attractive in cases where the availability of ``real'' training examples might be a bottleneck. While the volume of data in healthcare is growing exponentially, creating datasets for novel tasks and/or that reflect a diverse set of conditions and causal relationships is not trivial. Furthermore, these data are highly sensitive and often patient specific. Recent research has begun to illustrate the potential for synthetic data in many areas of medicine, but no systematic review of the literature exists. In this paper, we present the cases for physical and statistical simulations for creating data and the proposed applications in healthcare and medicine. We discuss that while synthetics can promote privacy, equity, safety and continual and causal learning, they also run the risk of introducing flaws, blind spots and propagating or exaggerating biases.
翻訳日:2023-04-07 13:15:09 公開日:2023-04-06
# 確率的セルオートマトンによる情報保護

Protecting information via probabilistic cellular automata ( http://arxiv.org/abs/2304.03240v1 )

ライセンス: Link先を確認
Annie Ray, Raymond Laflamme, Aleksander Kubica(参考訳) 確率論的セルオートマトンは、古典的なスピンモデルの力学を記述しており、これは十分に小さな温度で、非ゼロ外部磁場$h$の存在下でも情報を記憶できる古典的なメモリとして機能する。 本稿では,最近導入された確率的セル・オートマトンであるスイープ・ルールを研究し,$(t,h)$平面内の2つの安定相の領域をマッピングする。 また、スイープ規則は弱2次元イジング普遍性クラスに属することも分かる。 我々の研究は、幾何学的に局所的な誤り訂正戦略が、トポロジカル量子誤り訂正符号のような複雑な雑音系に符号化された情報を保護する方法を理解するための一歩である。

Probabilistic cellular automata describe the dynamics of classical spin models, which, for sufficiently small temperature $T$, can serve as classical memory capable of storing information even in the presence of nonzero external magnetic field $h$. In this article, we study a recently-introduced probabilistic cellular automaton, the sweep rule, and map out a region of two coexisting stable phases in the $(T,h)$ plane. We also find that the sweep rule belongs to the weak two-dimensional Ising universality class. Our work is a step towards understanding how simple geometrically-local error-correction strategies can protect information encoded into complex noisy systems, such as topological quantum error-correcting codes.
翻訳日:2023-04-07 13:14:52 公開日:2023-04-06
# パーキンソン病における機械学習に基づくバイオマーカー発見の再現性の検討

Assessing the Reproducibility of Machine-learning-based Biomarker Discovery in Parkinson's Disease ( http://arxiv.org/abs/2304.03239v1 )

ライセンス: Link先を確認
Ali Amelia, Lourdes Pena-Castillo, Hamid Usefi(参考訳) GWAS (Geneome-Wide Association Studies) は、パーキンソン病(PD)のような疾患を持つ人の遺伝的変異を同定する。 したがって、GWASデータは、疾患に関連する遺伝的変異を特定するために使用できる。 特徴の選択と機械学習アプローチは、GWASデータを解析し、潜在的な疾患バイオマーカーを特定するために使用することができる。 しかしながら、GWAS研究は、遺伝子型決定プラットフォームの違いや、個体の遺伝子型選択基準など、同定されたバイオマーカーの再現性に影響を与える技術的なバリエーションがある。 この問題に対処するため、GenotypesとPhenotypes(dbGaP)のデータベースから5つのGWASデータセットを収集し、いくつかのデータ統合戦略を調査した。 PDバイオマーカーとして同定されたSNP(Single Nucleotide Polymorphisms)の異なる戦略間での一致を評価した。 その結果, 異なるデータセットや統合戦略を用いて, バイオマーカーの一致が低かった。 しかし,少なくとも2回同定された50個のSNPを同定し,新しいPDバイオマーカーとして機能する可能性が示唆された。 これらのSNPは文献においてPDと間接的に関連付けられているが、PDと直接関連付けられていない。 これらの発見は新たな研究の道を開く。

Genome-Wide Association Studies (GWAS) help identify genetic variations in people with diseases such as Parkinson's disease (PD), which are less common in those without the disease. Thus, GWAS data can be used to identify genetic variations associated with the disease. Feature selection and machine learning approaches can be used to analyze GWAS data and identify potential disease biomarkers. However, GWAS studies have technical variations that affect the reproducibility of identified biomarkers, such as differences in genotyping platforms and selection criteria for individuals to be genotyped. To address this issue, we collected five GWAS datasets from the database of Genotypes and Phenotypes (dbGaP) and explored several data integration strategies. We evaluated the agreement among different strategies in terms of the Single Nucleotide Polymorphisms (SNPs) that were identified as potential PD biomarkers. Our results showed a low concordance of biomarkers discovered using different datasets or integration strategies. However, we identified fifty SNPs that were identified at least twice, which could potentially serve as novel PD biomarkers. These SNPs are indirectly linked to PD in the literature but have not been directly associated with PD before. These findings open up new potential avenues of investigation.
翻訳日:2023-04-07 13:14:36 公開日:2023-04-06
# データキャッシュミスが少ないGIソフトウェア

GI Software with fewer Data Cache Misses ( http://arxiv.org/abs/2304.03235v1 )

ライセンス: Link先を確認
William B. Langdon and Justyna Petke and Aymeric Blot and David Clark(参考訳) その名の通り、キャッシュはしばしば見過ごされ、現代のハードウェアや将来のハードウェアのパフォーマンスにおいて重要な役割を担っている。 MAGPIE (Machine Automated General Performance Improvement via Evolution of Software) を用いて,遺伝子改良GIにより既存のコンピュータプログラムのキャッシュ負荷を低減できることを示す。 ローカル検索を使用してCとC++のソースコードの行を操作することで、MagpieはL1データキャッシュミスを少なくする機能的に等価な新しい変種を生成することができる。 キャッシュミスの削減は、2つの産業用オープンソースプログラム(GoogleのOpen Location Code OLCとUberのHexagonal Hierarchical Spatial Index H3)と2つの2D写真画像処理タスクでテストされ、ピクセルとOpenCVのSEEDSセグメンテーションアルゴリズムをカウントする。 Magpieのパッチは機能的に一般化される。 あるケースでは、最高パフォーマンスのl1キャッシュにおけるデータミスを47%劇的に削減する。

By their very name caches are often overlooked and yet play a vital role in the performance of modern and indeed future hardware. Using MAGPIE (Machine Automated General Performance Improvement via Evolution of software) we show genetic improvement GI can reduce the cache load of existing computer programs. Operating on lines of C and C++ source code using local search, Magpie can generate new functionally equivalent variants which generate fewer L1 data cache misses. Cache miss reduction is tested on two industrial open source programs (Google's Open Location Code OLC and Uber's Hexagonal Hierarchical Spatial Index H3) and two 2D photograph image processing tasks, counting pixels and OpenCV's SEEDS segmentation algorithm. Magpie's patches functionally generalise. In one case they reduce data misses on the highest performance L1 cache dramatically by 47 percent.
翻訳日:2023-04-07 13:14:15 公開日:2023-04-06
# 一定の磁場中におけるダイラック猫状態の再生パターン

Revival patterns for Dirac cat states in a constant magnetic field ( http://arxiv.org/abs/2304.03225v1 )

ライセンス: Link先を確認
C.F. Silva and A.E. Bernardini(参考訳) ディラック方程式に関連するパリティ対称性を考えると、磁場中のフェルミオンについてエネルギー局在とパリティ定義量子重ね合わせの時間発展の相互作用を考察する。 ディラック・キャット状態のユニタリ進化は、相対論的ランダウ準位において等価な調和振動子基底において偶数または奇数の主量子数を初期化することによって得られる。 量子演算子は、状態の明確な選択規則を特徴とし、永続的な復元構造を示す。 本解析は,dirac bispinorにコードされるスピンパリティ相関の量化子として同定されたスピノル行列作用素の生存確率関数と期待値に特化している。 そのような文脈では、時間発展する量子状態もまたエネルギー膨張のシグネチャを刻印する。 すなわち、リバイバルに関連する周波数は、リバイバルオーダー毎に倍にされ、いわゆるスーパーリバイバルタイムスケールまで観測される。 その結果,Dirac cat状態は,Dirac bispinorの離散スピンパリティ自由度によって引き起こされる内在的相関の抑制と再生のプローブとして機能する分画復元構造を示すことがわかった。

Considering the parity symmetry related to the Dirac equation, the interplay between energy localization and the temporal evolution of parity-defined quantum superpositions is investigated for fermions in a magnetic field. The unitary evolution of Dirac cat states is obtained by initializing either even or odd principal quantum numbers in the equivalent harmonic oscillator basis in relativistic Landau levels. Quantum operators feature well-defined selection rules for states thus identified, exhibiting a permanent revival structure. Our analysis is specialized for the survival probability function and for the expectation values of spinor matrix operators, which are identified as quantifiers of spin-parity correlations encoded in Dirac bispinors. In such a context, the time evolving quantum state also imprints a signature on the energy expansion. Namely, frequencies associated with revivals are doubled for each revival order, being observed up to a so-called super revival time scale. Results show that Dirac cat states exhibit a fractional revival structure, which works as a probe of suppressions and regenerations of intrinsic correlations driven by the discrete spin-parity degrees of freedom of Dirac bispinors.
翻訳日:2023-04-07 13:13:40 公開日:2023-04-06
# 臨界点における二次元イジングモデルの正規化群固定点について

On the renormalization group fixed point of the two-dimensional Ising model at criticality ( http://arxiv.org/abs/2304.03224v1 )

ライセンス: Link先を確認
Tobias J. Osborne and Alexander Stottmeister(参考訳) 2次元イジングモデルの臨界点における正規化群固定点の解析を行う。 テンソルネットワーク再正規化(TNR)の期待とは対照的に、演算子-代数的再正規化(OAR)を用いたこの固定点の単純で明示的な解析的記述が可能であることを示す。 具体的には、固定点はスピンスピン相関関数によって特徴づけられる。 連続相関関数の近似に対する明示的な誤差境界が与えられる。

We analyze the renormalization group fixed point of the two-dimensional Ising model at criticality. In contrast with expectations from tensor network renormalization (TNR), we show that a simple, explicit analytic description of this fixed point using operator-algebraic renormalization (OAR) is possible. Specifically, the fixed point is characterized in terms of spin-spin correlation functions. Explicit error bounds for the approximation of continuum correlation functions are given.
翻訳日:2023-04-07 13:13:19 公開日:2023-04-06
# これが私が言ったこと:完全に調整可能な顔生成システム

That's What I Said: Fully-Controllable Talking Face Generation ( http://arxiv.org/abs/2304.03275v1 )

ライセンス: Link先を確認
Youngjoon Jang, Kyeongha Rho, Jong-Bin Woo, Hyeongkeun Lee, Jihwan Park, Youshin Lim, Byeong-Yeol Kim, Joon Son Chung(参考訳) 本研究の目的は, 顔の動きを制御可能な発話表情を合成することである。 この目標を達成するために、我々は2つの重要なアイデアを提案する。 1つ目は、すべての顔が同じ動きパターンを持つが異なる同一性を持つ標準空間を確立することである。 2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。 同一性と運動を両立させるため、2つの異なる潜在空間間の直交制約を導入する。 そこで本手法では, 顔の属性を完全に制御し, 正確な唇の同期を行うことができる。 広汎な実験により,視覚的品質とリップシンクスコアの両面から最先端の結果が得られた。 我々の知る限りでは、音声付きRGBビデオ以外の追加の監督なしに、唇、頭ポーズ、眼球運動を含む完全な顔の動きを正確に表現できる話し顔生成フレームワークを最初に開発した。

The goal of this paper is to synthesise talking faces with controllable facial motions. To achieve this goal, we propose two key ideas. The first is to establish a canonical space where every face has the same motion patterns but different identities. The second is to navigate a multimodal motion space that only represents motion-related features while eliminating identity information. To disentangle identity and motion, we introduce an orthogonality constraint between the two different latent spaces. From this, our method can generate natural-looking talking faces with fully controllable facial attributes and accurate lip synchronisation. Extensive experiments demonstrate that our method achieves state-of-the-art results in terms of both visual quality and lip-sync score. To the best of our knowledge, we are the first to develop a talking face generation framework that can accurately manifest full target facial motions including lip, head pose, and eye movements in the generated video without any additional supervision beyond RGB video with audio.
翻訳日:2023-04-07 13:06:46 公開日:2023-04-06
# DiffMimic: 微分物理学による効率的な運動ミミック

DiffMimic: Efficient Motion Mimicking with Differentiable Physics ( http://arxiv.org/abs/2304.03274v1 )

ライセンス: Link先を確認
Jiawei Ren, Cunjun Yu, Siwei Chen, Xiao Ma, Liang Pan, Ziwei Liu(参考訳) モーション模倣は物理学に基づくキャラクターアニメーションの基本課題である。 しかし、既存の運動模倣法は強化学習(rl)に基づいて構築されており、高い報酬工学、高い分散、ハードエクスプロレーションによる収束の遅さに苦しむ。 具体的には、単純な動作シーケンスを模倣するために、通常何時間、あるいは何日もトレーニングを要し、スケーラビリティが低下する。 本研究では、微分可能な物理シミュレータ(DPS)を活用し、DiffMimicと呼ばれる効率的な運動模倣法を提案する。 我々の重要な洞察は、DPSが複雑なポリシー学習タスクを、より単純な状態マッチング問題に向けていることです。 特に、DPSは解析的な勾配による安定なポリシーを学習し、したがってRL法よりもはるかに高速で安定な収束をもたらす。 さらに,局所最適から逃れるために,Demonstration Replay機構を用いて,水平方向の安定な勾配バックプロパゲーションを実現する。 標準ベンチマークでの大規模な実験は、DiffMimicが既存の方法(例えばDeepMimic)よりもサンプル効率と時間効率が優れていることを示している。 特にDiffMimicでは、物理シミュレーションされたキャラクターがトレーニングの10分後にBackflipを学習し、3時間のトレーニングの後にサイクルすることができる。 さらに重要なことは、将来の研究で微分可能衣料シミュレーションのような技術により、diffmimicがより微分可能なアニメーションシステムに役立つことを願っている。

Motion mimicking is a foundational task in physics-based character animation. However, most existing motion mimicking methods are built upon reinforcement learning (RL) and suffer from heavy reward engineering, high variance, and slow convergence with hard explorations. Specifically, they usually take tens of hours or even days of training to mimic a simple motion sequence, resulting in poor scalability. In this work, we leverage differentiable physics simulators (DPS) and propose an efficient motion mimicking method dubbed DiffMimic. Our key insight is that DPS casts a complex policy learning task to a much simpler state matching problem. In particular, DPS learns a stable policy by analytical gradients with ground-truth physical priors hence leading to significantly faster and stabler convergence than RL-based methods. Moreover, to escape from local optima, we utilize a Demonstration Replay mechanism to enable stable gradient backpropagation in a long horizon. Extensive experiments on standard benchmarks show that DiffMimic has a better sample efficiency and time efficiency than existing methods (e.g., DeepMimic). Notably, DiffMimic allows a physically simulated character to learn Backflip after 10 minutes of training and be able to cycle it after 3 hours of training, while the existing approach may require about a day of training to cycle Backflip. More importantly, we hope DiffMimic can benefit more differentiable animation systems with techniques like differentiable clothes simulation in future research.
翻訳日:2023-04-07 13:06:32 公開日:2023-04-06
# AIを"Thirsty"以下にする - AIモデルの秘密のフットプリントの発見と対処

Making AI Less "Thirsty": Uncovering and Addressing the Secret Water Footprint of AI Models ( http://arxiv.org/abs/2304.03271v1 )

ライセンス: Link先を確認
Pengfei Li and Jianyi Yang and Mohammad A. Islam and Shaolei Ren(参考訳) 人工知能(AI)モデルの炭素フットプリントの増加、特にGPT-3やGPT-4のような大きなフットプリントは、公衆の監視を受けている。 しかし残念ながら、AIモデルの等しく重要で巨大な水深は、まだレーダーの下に残っている。 例えば、microsoftの最先端の米国データセンターでのトレーニングgpt-3は70万リットルの清浄な淡水を直接消費することができ(bmw車370台またはteslaの電気自動車320台を生産できる)、もしトレーニングがmicrosoftのアジアデータセンターで行われた場合、水消費量は3倍になるはずだったが、そのような情報は秘密にされている。 人口が急増し、水資源が枯渇し、水のインフラが老朽化している中で、淡水不足は私たち全員にとって最も大きな課題となっている。 世界中の水の問題に対応するために、aiモデルは社会的責任を負い、自分の水足跡に対処してリードすることができる。 本稿では,AIモデルの粒度を推定する原理的手法を提案するとともに,AIモデルの実行時の水効率の空間的・時間的差異について考察する。 最後に,真に持続的なaiを実現するために,水フットプリントとカーボンフットプリントの連携の必要性を強調する。

The growing carbon footprint of artificial intelligence (AI) models, especially large ones such as GPT-3 and GPT-4, has been undergoing public scrutiny. Unfortunately, however, the equally important and enormous water footprint of AI models has remained under the radar. For example, training GPT-3 in Microsoft's state-of-the-art U.S. data centers can directly consume 700,000 liters of clean freshwater (enough for producing 370 BMW cars or 320 Tesla electric vehicles) and the water consumption would have been tripled if training were done in Microsoft's Asian data centers, but such information has been kept as a secret. This is extremely concerning, as freshwater scarcity has become one of the most pressing challenges shared by all of us in the wake of the rapidly growing population, depleting water resources, and aging water infrastructures. To respond to the global water challenges, AI models can, and also should, take social responsibility and lead by example by addressing their own water footprint. In this paper, we provide a principled methodology to estimate fine-grained water footprint of AI models, and also discuss the unique spatial-temporal diversities of AI models' runtime water efficiency. Finally, we highlight the necessity of holistically addressing water footprint along with carbon footprint to enable truly sustainable AI.
翻訳日:2023-04-07 13:06:07 公開日:2023-04-06
# 強いバスカップリングによる循環型量子エンジン

Cyclic quantum engines enhanced by strong bath coupling ( http://arxiv.org/abs/2304.03267v1 )

ライセンス: Link先を確認
Camille L. Latune, Graeme Pleasance, and Francesco Petruccione(参考訳) 強いシステムバス結合はリッチで興味深い現象を生み出すが、量子熱エンジンへの応用は、主に有害な効果を指摘してきた。 強い結合による効率損失とより早い平衡による電力増加との微妙なトレードオフは認識されているものの、正確に平衡時間を評価するという課題のためにほとんど未解決のままであった。 ここでは, 階層的運動方程式 (heom) 形式に基づく厳密な数値シミュレーションを用いて, この障害を克服する。 量子オットーサイクルは、この方法で出力電力の効率タイムの積を最大化することで、強結合(しかし超強結合ではない)よりも優れた性能を示す。 特に,強い結合により,同じ出力パワーを共有しながら,より効率のよいエンジンを得ることができることを示した。 逆に、弱い結合されたエンジンよりも大きな出力を持つ強い結合エンジンを設計でき、同じ効率を共有できる。 その結果, 強い結合が熱力学的操作の性能を直接的に向上させることができ, 量子サーマルエンジンの標準構成以上の研究の重要性を再強調できる。

While strong system-bath coupling produces rich and interesting phenomena, applications to quantum thermal engines have been so far pointing mainly at detrimental effects. The delicate trade-off between efficiency loss due to strong coupling and power increase due to faster equilibration, while acknowledged, remained largely unexplored owing to the challenge of assessing precisely the equilibration time. Here, we overcome this obstacle by exploiting exact numerical simulations based on the hierarchical equations of motion (HEOM) formalism. We show that a quantum Otto cycle can perform better at strong (but not ultrastrong) coupling in that the product of the efficiency times the output power is maximized in this regime. In particular, we show that strong coupling allows one to obtain engines with larger efficiency than their weakly coupled counterparts, while sharing the same output power. Conversely, one can design strongly coupled engines with larger power than their weakly coupled counterparts, while sharing the same efficiency. Overall, our results provide situations where strong coupling can directly enhance the performance of thermodynamic operations, re-enforcing the importance of studying quantum thermal engines beyond standard configurations.
翻訳日:2023-04-07 13:05:39 公開日:2023-04-06
# 都市シーンの逆レンダリングのための明示的な幾何表現を満たしたニューラルフィールド

Neural Fields meet Explicit Geometric Representation for Inverse Rendering of Urban Scenes ( http://arxiv.org/abs/2304.03266v1 )

ライセンス: Link先を確認
Zian Wang, Tianchang Shen, Jun Gao, Shengyu Huang, Jacob Munkberg, Jon Hasselgren, Zan Gojcic, Wenzheng Chen, Sanja Fidler(参考訳) 撮影画像からのシーンの再構成と本質的な分解は、リライトや仮想オブジェクト挿入などの多くの応用を可能にする。 近年のNeRF法は3次元再構成の顕著な忠実さを実現しているが,光と影を放射場に焼き込むのに対して,微分レンダリングによる内在的分解を容易にするメッシュ法は,屋外シーンの複雑さや規模にはまだ達していない。 本稿では,大都市におけるシーン形状,空間変化材料,HDR照明を,任意の深さで描画したRGB画像の集合から共同で再構成できる新しい逆レンダリングフレームワークを提案する。 具体的には、第1の光線を考慮に入れ、第2の光線をモデリングするために、明示的なメッシュ(基礎となるニューラルネットワークから再構成)を用いて、キャストシャドウのような高次照明効果を発生させる。 複雑な幾何学や材料を照明効果から忠実に分離することにより、複数の屋外データセットにおいて、鏡面や影面の効果を持つフォトリアリライティングを可能にする。 さらに、レイトレースドシャドーキャスティングによる仮想物体挿入などの物理ベースのシーン操作もサポートしている。

Reconstruction and intrinsic decomposition of scenes from captured imagery would enable many applications such as relighting and virtual object insertion. Recent NeRF based methods achieve impressive fidelity of 3D reconstruction, but bake the lighting and shadows into the radiance field, while mesh-based methods that facilitate intrinsic decomposition through differentiable rendering have not yet scaled to the complexity and scale of outdoor scenes. We present a novel inverse rendering framework for large urban scenes capable of jointly reconstructing the scene geometry, spatially-varying materials, and HDR lighting from a set of posed RGB images with optional depth. Specifically, we use a neural field to account for the primary rays, and use an explicit mesh (reconstructed from the underlying neural field) for modeling secondary rays that produce higher-order lighting effects such as cast shadows. By faithfully disentangling complex geometry and materials from lighting effects, our method enables photorealistic relighting with specular and shadow effects on several outdoor datasets. Moreover, it supports physics-based scene manipulations such as virtual object insertion with ray-traced shadow casting.
翻訳日:2023-04-07 13:05:19 公開日:2023-04-06
# 任意雑音付加モデルにおけるスコアマッチングによる因果発見

Causal Discovery with Score Matching on Additive Models with Arbitrary Noise ( http://arxiv.org/abs/2304.03265v1 )

ライセンス: Link先を確認
Francesco Montagna, Nicoletta Noceti, Lorenzo Rosasco, Kun Zhang, Francesco Locatello(参考訳) 因果発見法は、構造識別可能性を保証するために必要な仮定のセットによって本質的に制約される。 さらに、推論タスクを単純化するために、追加的な制限がしばしば課される:これは、多くの因果的発見アプローチに共通する、加法非線形モデル上のガウス雑音仮定の場合である。 本稿では,雑音項のガウス性に反するエッジ反転のリスクを解析し,この仮説の下での推論の欠点を示す。 そこで本研究では,一般的な雑音分布を持つ付加非線形モデルに基づいて生成したデータから,因果グラフの変数の位相順序を推定する新しい手法を提案する。 これは、最小限の仮定と、合成データ上で実験的にベンチマークされたアートパフォーマンスの状態を持つ因果探索アルゴリズムであるNoGAM(ガウス加法雑音モデルのみ)につながる。

Causal discovery methods are intrinsically constrained by the set of assumptions needed to ensure structure identifiability. Moreover additional restrictions are often imposed in order to simplify the inference task: this is the case for the Gaussian noise assumption on additive non-linear models, which is common to many causal discovery approaches. In this paper we show the shortcomings of inference under this hypothesis, analyzing the risk of edge inversion under violation of Gaussianity of the noise terms. Then, we propose a novel method for inferring the topological ordering of the variables in the causal graph, from data generated according to an additive non-linear model with a generic noise distribution. This leads to NoGAM (Not only Gaussian Additive noise Models), a causal discovery algorithm with a minimal set of assumptions and state of the art performance, experimentally benchmarked on synthetic data.
翻訳日:2023-04-07 13:04:58 公開日:2023-04-06
# ChatGPTのためのChain-of-Thought Promptingはいつ必要か?

When do you need Chain-of-Thought Prompting for ChatGPT? ( http://arxiv.org/abs/2304.03262v1 )

ライセンス: Link先を確認
Jiuhai Chen, Lichang Chen, Heng Huang, Tianyi Zhou(参考訳) CoT(Chain-of-Thought)は、大規模言語モデル~(LLM)から複雑な多段階推論を効果的に引き出す。 例えば、MultiArithデータセットの各入力クエリに単にCoT命令 ``Let's Think-by-step'' を追加することで、GPT-3の精度は17.7\%から78.7\%に向上できる。 しかし、CoTがChatGPTのような最近の命令微調整(IFT)LLMに対してまだ有効かどうかは不明である。 驚くべきことに、ChatGPTでは、CoTは算術的推論のような特定のタスクには有効ではなく、他の推論タスクには有効である。 さらに、以前のタスクでは、ChatGPTは通常最高のパフォーマンスを達成し、CoTを生成することができる。 したがって、ChatGPTはCoTを使ってこれらのタスクですでに訓練されており、CoTなしでも同じクエリに適用された場合、暗黙的にそのような命令に従うように命令を記憶していることが考えられる。 我々の分析は、IFTで導入された命令に対する過度な適合/バイアスの危険性を反映している。 また、事前学習レシピの漏洩の可能性を示し、例えば、chatgptのトレーニングにデータセットと命令が使われたかどうかを検証できる。 実験では,様々な推論タスクに対するChatGPTの新たなベースライン結果について報告し,LLMのプロファイリング,命令記憶,プレトレーニングデータセットリークに関する新たな知見を隠蔽した。

Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.
翻訳日:2023-04-07 13:04:44 公開日:2023-04-06
# ImageEye:プログラム合成を用いたバッチ画像処理

ImageEye: Batch Image Processing Using Program Synthesis ( http://arxiv.org/abs/2304.03253v1 )

ライセンス: Link先を確認
Celeste Barnaby, Qiaochu Chen, Roopsha Samanta, Isil Dillig(参考訳) 本稿では,バッチ画像処理のための新しい合成手法を提案する。 全画像にグローバル編集しか適用できない既存のツールとは異なり、この方法は画像内の個々のオブジェクトに対してきめ細かい編集を施すことができる。 例えば、特定の特性を持つ特定のオブジェクトを選択的にぼかしたり、収穫することができる。 このようなきめ細かい画像編集作業を容易にするために,事前学習したニューラルネットワークと記号推論を可能にする他の言語構造を組み合わせた,ニューロシンボリックドメイン固有言語(DSL)を提案する。 本手法は,新しい合成アルゴリズムを用いて,ユーザの実演から,このdslのプログラムを自動的に学習する。 提案手法をImageEyeと呼ばれるツールに実装し,50個の画像編集タスクで評価した。 評価の結果,ImageEyeはこれらのタスクの96%を自動化できることがわかった。

This paper presents a new synthesis-based approach for batch image processing. Unlike existing tools that can only apply global edits to the entire image, our method can apply fine-grained edits to individual objects within the image. For example, our method can selectively blur or crop specific objects that have a certain property. To facilitate such fine-grained image editing tasks, we propose a neuro-symbolic domain-specific language (DSL) that combines pre-trained neural networks for image classification with other language constructs that enable symbolic reasoning. Our method can automatically learn programs in this DSL from user demonstrations by utilizing a novel synthesis algorithm. We have implemented the proposed technique in a tool called ImageEye and evaluated it on 50 image editing tasks. Our evaluation shows that ImageEye is able to automate 96% of these tasks.
翻訳日:2023-04-07 13:04:17 公開日:2023-04-06
# SALUDA: 表面をベースとした自動車用ライダー

SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.03251v1 )

ライセンス: Link先を確認
Bjoern Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty(参考訳) あるラベル付きデータセット上で、別のドメインでうまく一般化するモデルを学ぶことは、データドメイン間でいくつかのシフトが発生する可能性があるため、難しい作業である。 これはライダーデータにおいて特に顕著であり、例えば、異なるライダーパターンや取得条件の変化により、モデルが大きなパフォーマンスの相違を示すことができる。 本稿では,意味的セグメンテーションのためのUnsupervised Domain Adaptation (UDA)タスクについて述べる。 この問題を軽減するために、ソースデータとターゲットデータに基づいて暗黙的な表面表現を同時に学習する教師なし補助タスクを導入する。 両方のドメインが同じ潜在表現を共有しているため、モデルは2つのデータソース間の不一致に対応せざるを得ない。 この新しい戦略は、統計的多様性の古典的な最小化やlidar特有の最先端ドメイン適応技術とは異なる。 実験により,本手法は,合成・実・実・実のシナリオにおいて,現在の技術よりも優れた性能を実現することを実証した。

Learning models on one labeled dataset that generalize well on another domain is a difficult task, as several shifts might happen between the data domains. This is notably the case for lidar data, for which models can exhibit large performance discrepancies due for instance to different lidar patterns or changes in acquisition conditions. This paper addresses the corresponding Unsupervised Domain Adaptation (UDA) task for semantic segmentation. To mitigate this problem, we introduce an unsupervised auxiliary task of learning an implicit underlying surface representation simultaneously on source and target data. As both domains share the same latent representation, the model is forced to accommodate discrepancies between the two sources of data. This novel strategy differs from classical minimization of statistical divergences or lidar-specific state-of-the-art domain adaptation techniques. Our experiments demonstrate that our method achieves a better performance than the current state of the art in synthetic-to-real and real-to-real scenarios.
翻訳日:2023-04-07 13:04:05 公開日:2023-04-06
# 有限レンジ格子モデルの転移行列の例外超曲面とその量子輸送特性への影響

Exceptional hyper-surfaces of transfer matrices of finite-range lattice models and their consequences on quantum transport properties ( http://arxiv.org/abs/2304.03250v1 )

ライセンス: Link先を確認
Madhumita Saha, Manas Kulkarni, and Bijay Kumar Agarwalla(参考訳) 有限次元格子モデルに対する非エルミート移動行列の例外超曲面上の例外点の出現と対応する性質について検討する。 非平衡定常状態における電気コンダクタンスのシステムサイズスケーリングを決定する上で、これらの例外点の非自明な役割を解明する。 我々は、系のバンドエッジは常に転送行列例外点に対応することを観測する。 興味深いことに、下層バンドエッジは常にウェーブベクトル $k=0$ で発生するが、上層バンドエッジは $k=\pi$ に対応しないかもしれない。 しかしながら、すべての場合において、このシステムは任意のバンドエッジにおける導電性に対する普遍的な部分拡散輸送を示し、スケーリング指数$N^{-b}$とスケーリング指数$b=2$である。 しかし、上部のバンドエッジが$k=\pi$でない場合、コンダクタンスは、全体的な$N^{-2}$スケールで興味深い振動を特徴とする。 さらに本研究は,最近傍の有限領域ホッピングを考える場合,上帯域エッジにおける高次移動行列例外点を体系的に生成するのに一意に適していることを明らかにする。 バンドエッジ以外の特別な点が生じるが、興味深いことにこれらは異常な輸送を引き起こすことはない。

We investigate the emergence and corresponding nature of exceptional points located on exceptional hyper-surfaces of non-hermitian transfer matrices for finite-range one-dimensional lattice models. We unravel the non-trivial role of these exceptional points in determining the system size scaling of electrical conductance in non-equilibrium steady state. We observe that the band edges of the system always correspond to the transfer matrix exceptional points. Interestingly, albeit the lower band edge always occurs at wave-vector $k=0$, the upper band edge may or may not correspond to $k=\pi$. Nonetheless, in all the cases, the system exhibits universal subdiffusive transport for conductance at every band edge with scaling $N^{-b}$ with scaling exponent $b= 2$. However, for cases when the upper band edge is not located at $k=\pi$, the conductance features interesting oscillations with overall $N^{-2}$ scaling. Our work further reveals that this setup is uniquely suited to systematically generate higher order transfer matrix exceptional points at upper band edge when one considers finite range hoppings beyond nearest neighbour. Additional exceptional points other than those at band edges are shown to occur, although interestingly, these do not give rise to anomalous transport.
翻訳日:2023-04-07 13:03:43 公開日:2023-04-06
# $\text{DC}^2$:再フォーカス学習によるデュアルカメラデフォーカス制御

$\text{DC}^2$: Dual-Camera Defocus Control by Learning to Refocus ( http://arxiv.org/abs/2304.03285v1 )

ライセンス: Link先を確認
Hadi Alzayer, Abdullah Abuolaim, Leung Chun Chan, Yang Yang, Ying Chen Lou, Jia-Bin Huang, Abhishek Kar(参考訳) 今日のスマートフォンカメラは、ハードウェアとソフトウェアの組み合わせによって、プロのカメラの汎用性と品質に近づきつつある。 しかし、固定開口は依然として重要な制限であり、ユーザーはキャプチャ画像のフィールド深度(DoF)を制御できない。 それと同時に、多くのスマートフォンは様々な固定開口部を備えた複数のカメラを搭載している。特に、視野が広く、深度が深い超広角カメラと、より浅いDoFを持つ高解像度のプライマリカメラだ。 本研究では,このようなデュアルカメラシステムからの情報を融合することにより,合成によって変化するカメラ開口,焦点距離,任意のデフォーカス効果のデフォーカス制御を行うシステムである$\text{dc}^2$を提案する。 私たちの重要な洞察は、デフォーカスを制御するための学習のプロキシタスクとしてイメージリフォーカスを使用することで、現実世界のスマートフォンカメラデータセットを活用することです。 実世界のデータに対する定量的・定性的評価は,デフォーカスデブラリング,ボケレンダリング,イメージリフォーカスの最先端技術に勝るシステムの有効性を示す。 最後に, 傾きシフトとコンテンツベースデフォーカス効果を含む, 撮影後デフォーカスの創造的制御の実現を実証する。

Smartphone cameras today are increasingly approaching the versatility and quality of professional cameras through a combination of hardware and software advancements. However, fixed aperture remains a key limitation, preventing users from controlling the depth of field (DoF) of captured images. At the same time, many smartphones now have multiple cameras with different fixed apertures - specifically, an ultra-wide camera with wider field of view and deeper DoF and a higher resolution primary camera with shallower DoF. In this work, we propose $\text{DC}^2$, a system for defocus control for synthetically varying camera aperture, focus distance and arbitrary defocus effects by fusing information from such a dual-camera system. Our key insight is to leverage real-world smartphone camera dataset by using image refocus as a proxy task for learning to control defocus. Quantitative and qualitative evaluations on real-world data demonstrate our system's efficacy where we outperform state-of-the-art on defocus deblurring, bokeh rendering, and image refocus. Finally, we demonstrate creative post-capture defocus control enabled by our method, including tilt-shift and content-based defocus effects.
翻訳日:2023-04-07 12:57:31 公開日:2023-04-06
# SegGPT: コンテキスト内のすべてのセグメンテーション

SegGPT: Segmenting Everything In Context ( http://arxiv.org/abs/2304.03284v1 )

ライセンス: Link先を確認
Xinlong Wang, Xiaosong Zhang, Yue Cao, Wen Wang, Chunhua Shen, Tiejun Huang(参考訳) 我々は、コンテキスト内ですべてをセグメント化する汎用モデルであるSegGPTを提案する。 我々は、様々なセグメンテーションタスクを、画像の同じフォーマットに変換することで、さまざまなセグメンテーションデータに対応する汎用的なインコンテキスト学習フレームワークに統一する。 SegGPTのトレーニングは、各データサンプルに対するランダムな色マッピングによるコンテキスト内着色問題として定式化される。 目的は、特定の色に頼るのではなく、コンテキストに応じて多様なタスクを実現することです。 トレーニング後、SegGPTはオブジェクトインスタンス、物、部分、輪郭、テキストなどのコンテキスト内推論を通じて、画像やビデオの任意のセグメンテーションタスクを実行することができる。 SegGPTは、少数ショットセマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、セマンティックセグメンテーション、パン光学セグメンテーションなど、幅広いタスクで評価されている。 その結果、ドメイン内およびドメイン外ターゲットを定性的または定量的にセグメンテーションする能力が向上した。

We present SegGPT, a generalist model for segmenting everything in context. We unify various segmentation tasks into a generalist in-context learning framework that accommodates different kinds of segmentation data by transforming them into the same format of images. The training of SegGPT is formulated as an in-context coloring problem with random color mapping for each data sample. The objective is to accomplish diverse tasks according to the context, rather than relying on specific colors. After training, SegGPT can perform arbitrary segmentation tasks in images or videos via in-context inference, such as object instance, stuff, part, contour, and text. SegGPT is evaluated on a broad range of tasks, including few-shot semantic segmentation, video object segmentation, semantic segmentation, and panoptic segmentation. Our results show strong capabilities in segmenting in-domain and out-of-domain targets, either qualitatively or quantitatively.
翻訳日:2023-04-07 12:57:11 公開日:2023-04-06
# マスクオートエンコーダとしての拡散モデル

Diffusion Models as Masked Autoencoders ( http://arxiv.org/abs/2304.03283v1 )

ライセンス: Link先を確認
Chen Wei, Karttikeya Mangalam, Po-Yao Huang, Yanghao Li, Haoqi Fan, Hu Xu, Huiyu Wang, Cihang Xie, Alan Yuille, Christoph Feichtenhofer(参考訳) 生成は視覚データの真の理解を促進すると長年信じられてきた。 これに合わせて、拡散モデルに対する最近の関心を踏まえ、生成的に事前学習された視覚表現を再考する。 拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。 私たちのアプローチは有能です (i)下流認識タスクの強力な初期化として機能する。 二 高品質な画像塗布を行うこと、及び (iii)ビデオに精力的に拡張され,最先端の分類精度が得られた。 さらに,設計選択の長所と短所を総合的に検討し,拡散モデルとマスク付きオートエンコーダとの接続を構築する。

There has been a longstanding belief that generation can facilitate a true understanding of visual data. In line with this, we revisit generatively pre-training visual representations in light of recent interest in denoising diffusion models. While directly pre-training with diffusion models does not produce strong representations, we condition diffusion models on masked input and formulate diffusion models as masked autoencoders (DiffMAE). Our approach is capable of (i) serving as a strong initialization for downstream recognition tasks, (ii) conducting high-quality image inpainting, and (iii) being effortlessly extended to video where it produces state-of-the-art classification accuracy. We further perform a comprehensive study on the pros and cons of design choices and build connections between diffusion models and masked autoencoders.
翻訳日:2023-04-07 12:56:54 公開日:2023-04-06
# Visual Dependency Transformer: 依存性ツリーは逆の注意から生まれる

Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention ( http://arxiv.org/abs/2304.03282v1 )

ライセンス: Link先を確認
Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B. Tenenbaum, Chuang Gan(参考訳) 人間は視覚世界の構造化された表現を抽出するための多用途なメカニズムを持っている。 画像を見ると、シーンをエンティティとその部分に分解し、それらの間の依存関係を取得することができます。 このような機能を模倣するために、ラベルなしで視覚的依存関係を誘導できるVisual Dependency Transformer (DependencyViT)を提案する。 我々は、画像パッチ間の長距離視覚依存性を自然に捉えることができる新しいニューラル演算子 \emph{reversed attention} でそれを実現する。 具体的には、従来の自己注意で情報を集めるのではなく、親トークンへの参加を訓練し、正規化確率分布に従って情報を送信する依存性グラフとして定式化する。 このような設計により、階層構造は逆に注目層から自然に出現し、依存木は葉ノードから根ノードへ教師なしで徐々に誘導される。 DependencyViTはいくつかの魅力的な利点を提供する。 i) 画像内のエンティティとその部分は、異なるサブツリーで表現され、依存関係から部品を分割することができる。 (ii)動的視覚プーリングが可能となる。 メッセージを送信することがほとんどないリーフノードは、モデル性能を損なうことなく、刈り取ることができ、計算量とメモリフットプリントを減らすために軽量のdependencyvit-liteを提案します。 (iii)DependencyViTは、ImageNet上の自己および弱教師付き事前トレーニングパラダイムの両方でうまく機能し、8つのデータセットと5つのタスク、例えば教師なし部分や従属部分のセグメンテーション、認識、検出に効果を示す。

Humans possess a versatile mechanism for extracting structured representations of our visual world. When looking at an image, we can decompose the scene into entities and their parts as well as obtain the dependencies between them. To mimic such capability, we propose Visual Dependency Transformers (DependencyViT) that can induce visual dependencies without any labels. We achieve that with a novel neural operator called \emph{reversed attention} that can naturally capture long-range visual dependencies between image patches. Specifically, we formulate it as a dependency graph where a child token in reversed attention is trained to attend to its parent tokens and send information following a normalized probability distribution rather than gathering information in conventional self-attention. With such a design, hierarchies naturally emerge from reversed attention layers, and a dependency tree is progressively induced from leaf nodes to the root node unsupervisedly. DependencyViT offers several appealing benefits. (i) Entities and their parts in an image are represented by different subtrees, enabling part partitioning from dependencies; (ii) Dynamic visual pooling is made possible. The leaf nodes which rarely send messages can be pruned without hindering the model performance, based on which we propose the lightweight DependencyViT-Lite to reduce the computational and memory footprints; (iii) DependencyViT works well on both self- and weakly-supervised pretraining paradigms on ImageNet, and demonstrates its effectiveness on 8 datasets and 5 tasks, such as unsupervised part and saliency segmentation, recognition, and detection.
翻訳日:2023-04-07 12:56:40 公開日:2023-04-06
# マルチパーティの絡み合いの謎を解き明かす:幾何学による旅

Unraveling the Mysteries of Multipartite Entanglement: A Journey Through Geometry ( http://arxiv.org/abs/2304.03281v1 )

ライセンス: Link先を確認
Songbo Xie, Daniel Younis, Yuhan Mei, Joseph H. Eberly(参考訳) Xie and Eberly による最近の研究 (Phys. Lett. 127, 040403 (2021)) では、真の三部体の絡み合いの幾何学的測度が導入された。 この測度の4量子ビットへの様々な拡張が提案されているが、制限がないわけではない。 本研究では、この幾何測度を四面体構造に基づいて4つのキュービットに拡張する。 我々は,2つの高絡み合う4ビット状態間の絡み合いランキングを比較するために,新しい尺度を用いた。 また、この幾何学的経路に沿ったさらなる一般化の道についても論じる。

In a recent study by Xie and Eberly [Phys. Rev. Lett. 127, 040403 (2021)], a novel geometric measure of genuine tripartite entanglement was introduced. Although various extensions of this measure to four qubits have been proposed, they are not without limitations. In this work, we present a new extension of this geometric measure to four qubits based on a tetrahedron construction. We use the new measure to compare the entanglement ranking between two highly entangled four-qubit states. We also discuss future avenues for further generalizations along this geometric path.
翻訳日:2023-04-07 12:56:14 公開日:2023-04-06
# lane: 合成シーン合成のためのライティングアウェアニューラルフィールド

LANe: Lighting-Aware Neural Fields for Compositional Scene Synthesis ( http://arxiv.org/abs/2304.03280v1 )

ライセンス: Link先を確認
Akshay Krishnan, Amit Raj, Xianling Zhang, Alexandra Carlson, Nathan Tseng, Sandhya Sridhar, Nikita Jaipuria, James Hays(参考訳) ニューラルフィールドは3Dシーンの表現とレンダリングで大成功を収めた。 しかし、最先端の暗黙の表現のほとんどは、静的または動的シーン全体を、小さなバリエーションでモデル化している。 歪んだ世界と物体の神経場を学習する既存の研究は、物体を異なる世界への神経場に照明を意識して構成する問題を考慮していない。 本稿では,ライティング・アウェア・ニューラルフィールド(LANe)を用いて,物理的に一貫した運転シーンの合成を行う。 具体的には、静的な背景と過渡的な要素をワールド・NeRFとクラス固有のオブジェクト・NeRFに切り離し、シーン内の複数のオブジェクトの合成を可能にするシーン表現を学習する。 さらに,光の変動に対処する世界モデルとオブジェクトモデルの両方を明示的に設計し,空間的に異なる照明でオブジェクトをシーンに組み立てることを可能にする。 これは、シーンの光場を構築し、学習したシェーダーと組み合わせてオブジェクトNeRFの外観を変調することで実現される。 本研究では,carlaシミュレータを用いた多彩な照明条件の合成データセットと,その日の異なる時刻に収集された新しい実世界の車両データセットを用いて,モデルの性能を実証する。 提案手法は,新しい場面の照明変化を尊重しながら,あるシーンから学習したオブジェクトナーフをまったく異なるシーンに構成することで,挑戦的なデータセットの設定において,最先端のコンポジション合成に勝ることを示す。 詳細については、プロジェクトのwebサイトhttps://lane-composition.github.io/をご覧ください。

Neural fields have recently enjoyed great success in representing and rendering 3D scenes. However, most state-of-the-art implicit representations model static or dynamic scenes as a whole, with minor variations. Existing work on learning disentangled world and object neural fields do not consider the problem of composing objects into different world neural fields in a lighting-aware manner. We present Lighting-Aware Neural Field (LANe) for the compositional synthesis of driving scenes in a physically consistent manner. Specifically, we learn a scene representation that disentangles the static background and transient elements into a world-NeRF and class-specific object-NeRFs to allow compositional synthesis of multiple objects in the scene. Furthermore, we explicitly designed both the world and object models to handle lighting variation, which allows us to compose objects into scenes with spatially varying lighting. This is achieved by constructing a light field of the scene and using it in conjunction with a learned shader to modulate the appearance of the object NeRFs. We demonstrate the performance of our model on a synthetic dataset of diverse lighting conditions rendered with the CARLA simulator, as well as a novel real-world dataset of cars collected at different times of the day. Our approach shows that it outperforms state-of-the-art compositional scene synthesis on the challenging dataset setup, via composing object-NeRFs learned from one scene into an entirely different scene whilst still respecting the lighting variations in the novel scene. For more results, please visit our project website https://lane-composition.github.io/.
翻訳日:2023-04-07 12:56:01 公開日:2023-04-06
# Rewardsは意味を正当化するのか? マチャイアヴェリベンチマークにおける報酬と倫理的行動のトレードオフの測定

Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark ( http://arxiv.org/abs/2304.03279v1 )

ライセンス: Link先を確認
Alexander Pan, Chan Jun Shern, Andy Zou, Nathaniel Li, Steven Basart, Thomas Woodside, Jonathan Ng, Hanlin Zhang, Scott Emmons, Dan Hendrycks(参考訳) 人工エージェントは伝統的に報酬を最大化するために訓練されており、これは言語モデル(lms)における次の予測が毒性をインセンティブ化するのと同様に、パワーシーキングとデセプションにインセンティブを与える可能性がある。 エージェントは自然にMachiavellianになることを学ぶのか? gpt-4のような汎用モデルではどのように振舞いを測定するのか? これらの質問に答えるために,社会意思決定を中心とした50万以上のリッチで多様なシナリオを含む134のChoose-Your-Own-AdventureゲームのベンチマークであるMaCHIAVELLIを紹介した。 シナリオラベリングは、人間のアノテーションよりも高性能なLMで自動化される。 我々は、数十の有害な行為を分類し、私たちのアノテーションを使用して、エージェントのパワー探索傾向を評価し、不使用を引き起こし、倫理的違反を犯す。 報酬の最大化と倫理的行動の緊張関係を観察する。 このトレードオフを改善するため, 有害な行為を抑えるため, LMを用いたエージェントの操舵法について検討した。 以上の結果から,エージェントは有能かつ道徳的に行動できるため,安全と能力の両立が容易な機械倫理設計エージェントにおいて,現在具体的進展が期待できることがわかった。

Artificial agents have traditionally been trained to maximize reward, which may incentivize power-seeking and deception, analogous to how next-token prediction in language models (LMs) may incentivize toxicity. So do agents naturally learn to be Machiavellian? And how do we measure these behaviors in general-purpose models such as GPT-4? Towards answering these questions, we introduce MACHIAVELLI, a benchmark of 134 Choose-Your-Own-Adventure games containing over half a million rich, diverse scenarios that center on social decision-making. Scenario labeling is automated with LMs, which are more performant than human annotators. We mathematize dozens of harmful behaviors and use our annotations to evaluate agents' tendencies to be power-seeking, cause disutility, and commit ethical violations. We observe some tension between maximizing reward and behaving ethically. To improve this trade-off, we investigate LM-based methods to steer agents' towards less harmful behaviors. Our results show that agents can both act competently and morally, so concrete progress can currently be made in machine ethics--designing agents that are Pareto improvements in both safety and capabilities.
翻訳日:2023-04-07 12:55:34 公開日:2023-04-06
# 米国議会の議員が気候変動を宣伝する方法:metaのプラットフォーム上で実行される広告の分析

How Do US Congress Members Advertise Climate Change: An Analysis Of Ads Run On Meta's Platforms ( http://arxiv.org/abs/2304.03278v1 )

ライセンス: Link先を確認
Laurenz Aisenpreis, Gustav Gyrst and Vedran Sekara(参考訳) 気候変動に関する政治的コミュニケーションにおける透明性と完全性を確保することは、今日ほど重要ではない。 しかし、政治家がソーシャルメディア上で気候変動をどう重視し、話し、表現するかはほとんどわかっていない。 ここでは政治広告の観点から研究する。 私たちはMetaの広告ライブラリを使って、2018年中頃から米国議会議員が発行した602,546件の広告を集めています。 そのうち19,176人(3.2%)が気候関連である。 このデータを分析したところ、民主党は共和党よりも気候変動に重点を置いており、その99.7%は民主党政治家から来ている。 特に、これは民主党の政治家の小さな中心であり、すべての印象の72%は10人の政治家によるものである。 興味深いことに、両者の間に費やされたドルごとの平均的なインプレッション量に大きな違いがある。 共和党は、気候広告で平均188%のインプレッションを、民主党と同じ金額で生み出している。 差異を説明するモデルを構築し、人口統計学的要因がばらつきを部分的に説明することを発見した。 本研究は,米国議会の気候関連広告の差異を示し,両政党間の広告特性の違いを明らかにする。 metaのプラットフォーム上での気候関連広告に関するさらなる研究の出発点になることを期待しています。

Ensuring transparency and integrity in political communication on climate change has arguably never been more important than today. Yet we know little about how politicians focus on, talk about, and portray climate change on social media. Here we study it from the perspective of political advertisement. We use Meta's Ad Library to collect 602,546 ads that have been issued by US Congress members since mid-2018. Out of those only 19,176 (3.2%) are climate-related. Analyzing this data, we find that Democrats focus substantially more on climate change than Republicans, with 99.7% of all climate-related ads stemming from Democratic politicians. In particular, we find this is driven by a small core of Democratic politicians, where 72% of all impressions can be attributed to 10 politicians. Interestingly, we find a significant difference in the average amount of impressions generated per dollar spent between the two parties. Republicans generate on average 188% more impressions with their climate ads for the same money spent as Democrats. We build models to explain the differences and find that demographic factors only partially explain the variance. Our results demonstrate differences of climate-related advertisements of US congress members and reveal differences in advertising characteristics between the two political parties. We anticipate our work to be a starting point for further studies about climate-related ads on Meta's platforms.
翻訳日:2023-04-07 12:55:14 公開日:2023-04-06
# GPT-4によるインストラクションチューニング

Instruction Tuning with GPT-4 ( http://arxiv.org/abs/2304.03277v1 )

ライセンス: Link先を確認
Baolin Peng and Chunyuan Li and Pengcheng He and Michel Galley and Jianfeng Gao(参考訳) 先行研究では、機械生成命令追従データを用いた大規模言語モデル(llm)の微調整により、新しいタスクで目覚ましいゼロショット能力を達成でき、人間による命令は不要であることが示されている。 本稿では,LPMファインタニングのための命令追従データを生成するために GPT-4 を用いた最初の試みを示す。 gpt-4が生成した52kの英語と中国語の命令追従データから,従来の最先端モデルが生成した命令追従データに対して,新たなタスクにおけるゼロショット性能が向上することを示す。 また、GPT-4からフィードバックと比較データを収集し、総合的な評価と報酬モデルトレーニングを可能にする。 GPT-4を使ってデータを生成し、コードベースを公開しています。

Prior work has shown that finetuning large language models (LLMs) using machine-generated instruction-following data enables such models to achieve remarkable zero-shot capabilities on new tasks, and no human-written instructions are needed. In this paper, we present the first attempt to use GPT-4 to generate instruction-following data for LLM finetuning. Our early experiments on instruction-tuned LLaMA models show that the 52K English and Chinese instruction-following data generated by GPT-4 leads to superior zero-shot performance on new tasks to the instruction-following data generated by previous state-of-the-art models. We also collect feedback and comparison data from GPT-4 to enable a comprehensive evaluation and reward model training. We make our data generated using GPT-4 as well as our codebase publicly available.
翻訳日:2023-04-07 12:54:54 公開日:2023-04-06
# 運動的制約付き拡散におけるスケーリングと局在

Scaling and localization in kinetically constrained diffusion ( http://arxiv.org/abs/2304.03276v1 )

ライセンス: Link先を確認
Jung Hoon Han, Ethan Lake, and Sunghan Ro(参考訳) 本研究では, 質量中心を動力学が保存する古典粒子系の拡散について検討する。 この保存法則はいくつかの興味深い結果をもたらす。 有限系では、全ての平衡分布は系の境界付近で指数関数的に局所化されることを規定する。 これはまた平衡に対する特異なアプローチをもたらし、$d$次元では動的指数 $z = 4+d$ のスケーリングを示す。 同様の現象は密度のより高いモーメントを保存するダイナミクスにも起こり、非線形拡散方程式の族を用いて体系的に分類する。 量子設定では、類似のフェルミオン系は実空間フェルミ曲面を形成することが示され、ボソニックバージョンはボース=アインシュタイン凝縮の実空間類似を示す。

We study diffusion in systems of classical particles whose dynamics conserves the total center of mass. This conservation law leads to several interesting consequences. In finite systems, it mandates that all equilibrium distributions be exponentially localized near system boundaries. It also yields an unusual approach to equilibrium, which in $d$ dimensions exhibits scaling with dynamical exponent $z = 4+d$. Similar phenomena occur for dynamics that conserves higher moments of the density, which we systematically classify using a family of nonlinear diffusion equations. In the quantum setting, analogous fermionic systems are shown to form real-space Fermi surfaces, while bosonic versions display a real-space analog of Bose-Einstein condensation.
翻訳日:2023-04-07 12:54:39 公開日:2023-04-06
# POLAR-Express: ニューラルネットワーク制御系の効率的かつ高精度な形式的到達性解析

POLAR-Express: Efficient and Precise Formal Reachability Analysis of Neural-Network Controlled Systems ( http://arxiv.org/abs/2304.01218v3 )

ライセンス: Link先を確認
Yixuan Wang, Weichao Zhou, Jiameng Fan, Zhilu Wang, Jiajun Li, Xin Chen, Chao Huang, Wenchao Li, Qi Zhu(参考訳) コントローラの役割を担うニューラルネットワーク(nns)は、制御問題に挑戦する経験的なパフォーマンスを示している。 しかし、実際のアプリケーションでNNコントローラを採用する可能性も、特に安全クリティカルなアプリケーションで使用される場合、これらのNNCS(Neural-network Control System)の安全性に対する懸念が高まっている。 本研究では,NNCSの安全性を検証するための,効率的かつ正確な形式的到達性解析ツールであるPOLAR-Expressを提案する。 POLAR-ExpressはTaylorモデル演算を用いて、ニューラルネットワーク層間でTaylorモデル(TM)を伝搬し、ニューラルネットワーク関数の過剰近似を計算する。 連続的な活性化機能を持つフィードフォワードニューラルネットワークの解析に応用することができる。 また,tmsをより効率的に,正確にreluアクティベーション関数に伝達する新しい手法を提案する。 さらに、POLAR-Expressは、TMの層間伝播に対する並列計算サポートを提供し、初期のプロトタイプであるPOLARよりも効率とスケーラビリティを著しく向上させる。 POLAR-Expressは、様々なベンチマークの6つの最先端ツールと比較して、到達可能なセット分析において最高の検証効率と厳密性を達成する。

Neural networks (NNs) playing the role of controllers have demonstrated impressive empirical performances on challenging control problems. However, the potential adoption of NN controllers in real-life applications also gives rise to a growing concern over the safety of these neural-network controlled systems (NNCSs), especially when used in safety-critical applications. In this work, we present POLAR-Express, an efficient and precise formal reachability analysis tool for verifying the safety of NNCSs. POLAR-Express uses Taylor model arithmetic to propagate Taylor models (TMs) across a neural network layer-by-layer to compute an overapproximation of the neural-network function. It can be applied to analyze any feed-forward neural network with continuous activation functions. We also present a novel approach to propagate TMs more efficiently and precisely across ReLU activation functions. In addition, POLAR-Express provides parallel computation support for the layer-by-layer propagation of TMs, thus significantly improving the efficiency and scalability over its earlier prototype POLAR. Across the comparison with six other state-of-the-art tools on a diverse set of benchmarks, POLAR-Express achieves the best verification efficiency and tightness in the reachable set analysis.
翻訳日:2023-04-07 10:36:46 公開日:2023-04-06
# データサイエンスのための解釈可能なシンボリック回帰:2022年競争の分析

Interpretable Symbolic Regression for Data Science: Analysis of the 2022 Competition ( http://arxiv.org/abs/2304.01117v2 )

ライセンス: Link先を確認
F. O. de Franca, M. Virgolin, M. Kommenda, M. S. Majumder, M. Cranmer, G. Espada, L. Ingelse, A. Fonseca, M. Landajuela, B. Petersen, R. Glatt, N. Mundhenk, C. S. Lee, J. D. Hochhalter, D. L. Randall, P. Kamienny, H. Zhang, G. Dick, A. Simon, B. Burlacu, Jaan Kasak, Meera Machado, Casper Wilstrup, W. G. La Cava(参考訳) 現象を正確に記述した解析式に対する記号回帰探索 このアプローチの主な魅力は、ユーザにとって洞察力のある解釈可能なモデルを返すことだ。 歴史的に、記号回帰のアルゴリズムの大半は進化的アルゴリズムに基づいている。 しかし、最近、列挙アルゴリズム、混合線形整数プログラミング、ニューラルネットワーク、ベイズ最適化のようなアプローチを利用する新しい提案が急増している。 これらの新しいアプローチが現実世界のデータでしばしば直面する共通の課題に対してどのように振る舞うかを評価するために、私たちは2022年の遺伝的および進化的計算会議でコンペティションを開催しました。 実世界のトラックでは,ドメインエキスパートを用いて,候補モデルの信頼性を判断し,現実的に解釈可能性を評価する。このコンペで得られた結果の詳細な分析を行い,シンボル回帰アルゴリズムの課題について議論し,今後の競争改善の可能性を明らかにする。

Symbolic regression searches for analytic expressions that accurately describe studied phenomena. The main attraction of this approach is that it returns an interpretable model that can be insightful to users. Historically, the majority of algorithms for symbolic regression have been based on evolutionary algorithms. However, there has been a recent surge of new proposals that instead utilize approaches such as enumeration algorithms, mixed linear integer programming, neural networks, and Bayesian optimization. In order to assess how well these new approaches behave on a set of common challenges often faced in real-world data, we hosted a competition at the 2022 Genetic and Evolutionary Computation Conference consisting of different synthetic and real-world datasets which were blind to entrants. For the real-world track, we assessed interpretability in a realistic way by using a domain expert to judge the trustworthiness of candidate models.We present an in-depth analysis of the results obtained in this competition, discuss current challenges of symbolic regression algorithms and highlight possible improvements for future competitions.
翻訳日:2023-04-07 10:36:24 公開日:2023-04-06
# RPTQ:大規模言語モデルのためのリオーダーベースポストトレーニング量子化

RPTQ: Reorder-based Post-training Quantization for Large Language Models ( http://arxiv.org/abs/2304.01089v2 )

ライセンス: Link先を確認
Zhihang Yuan, Lin Niu, Jiawei Liu, Wenyu Liu, Xinggang Wang, Yuzhang Shang, Guangyu Sun, Qiang Wu, Jiaxiang Wu, Bingzhe Wu(参考訳) 大規模言語モデル(llm)は様々なタスクにおいて優れた性能を示しているが、そのデプロイは、その巨大なモデルサイズのために困難をもたらす。 本稿では,LCMの量子化における主な課題は,外乱の問題だけでなく,チャネル間のアクティベーション範囲の違いによるものであることを確認し,LCMのアクティベーションの定量化の問題に対処する,新しいリオーダーベースの量子化手法であるRTPQを提案する。 RPTQはアクティベーション中のチャネルを並べ替え、クラスタ内でそれらを定量化することで、チャネルの範囲差の影響を低減する。 さらに,明示的な順序変更を回避し,ストレージと計算オーバーヘッドを削減する。 このアプローチを実装することで,LLMモデルを3ビットアクティベーションに初めてプッシュすることで,大きなブレークスルーを達成した。

Large-scale language models (LLMs) have demonstrated outstanding performance on various tasks, but their deployment poses challenges due to their enormous model size. In this paper, we identify that the main challenge in quantizing LLMs stems from the different activation ranges between the channels, rather than just the issue of outliers.We propose a novel reorder-based quantization approach, RPTQ, that addresses the issue of quantizing the activations of LLMs. RPTQ rearranges the channels in the activations and then quantizing them in clusters, thereby reducing the impact of range difference of channels. In addition, we reduce the storage and computation overhead by avoiding explicit reordering. By implementing this approach, we achieved a significant breakthrough by pushing LLM models to 3 bit activation for the first time.
翻訳日:2023-04-07 10:36:07 公開日:2023-04-06
# 都市景観における共同2次元3次元マルチタスク学習:3次元検出,セグメンテーション,深さ推定

Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation ( http://arxiv.org/abs/2304.00971v3 )

ライセンス: Link先を確認
Hanrong Ye, Dan Xu(参考訳) 本報告は、Cityscapes-3Dに基づく新しい2D-3Dマルチタスク学習ベンチマークの実装を詳述したTaskPrompterの補足文書として機能する。 TaskPrompterが学習を統一する革新的なマルチタスクプロンプトフレームワークを発表 (i)タスクジェネリック表現 (ii)タスク固有の表現、及び (iii)これらの学習目的を異なるネットワークモジュールに分離する従来のアプローチとは対照的に,クロスタスクインタラクション。 この統一されたアプローチは、巧妙な経験的構造設計の必要性を低減させるだけでなく、モデル全体の能力が3つの目的を同時に最適化することに集中するため、マルチタスクネットワークの表現学習能力を大幅に向上させる。 taskprompterはcityscapes-3dデータセットに基づく新しいマルチタスクベンチマークを導入している。これは、モノクロ3d車両検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時生成するマルチタスクモデルを必要とする。 これらのタスクは、特に自律運転システムの開発において、視覚シーンの2D-3Dの共同理解を達成するために不可欠である。 この難解なベンチマークでは,マルチタスクモデルは,単一タスクのステート・オブ・ザ・アート法と比較して強い性能を示し,挑戦的な3次元検出と深さ推定タスクにおいて新たな最先端結果を確立する。

This report serves as a supplementary document for TaskPrompter, detailing its implementation on a new joint 2D-3D multi-task learning benchmark based on Cityscapes-3D. TaskPrompter presents an innovative multi-task prompting framework that unifies the learning of (i) task-generic representations, (ii) task-specific representations, and (iii) cross-task interactions, as opposed to previous approaches that separate these learning objectives into different network modules. This unified approach not only reduces the need for meticulous empirical structure design but also significantly enhances the multi-task network's representation learning capability, as the entire model capacity is devoted to optimizing the three objectives simultaneously. TaskPrompter introduces a new multi-task benchmark based on Cityscapes-3D dataset, which requires the multi-task model to concurrently generate predictions for monocular 3D vehicle detection, semantic segmentation, and monocular depth estimation. These tasks are essential for achieving a joint 2D-3D understanding of visual scenes, particularly in the development of autonomous driving systems. On this challenging benchmark, our multi-task model demonstrates strong performance compared to single-task state-of-the-art methods and establishes new state-of-the-art results on the challenging 3D detection and depth estimation tasks.
翻訳日:2023-04-07 10:35:53 公開日:2023-04-06
# DreamAvatar: 拡散モデルによる3次元人体アバター生成

DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models ( http://arxiv.org/abs/2304.00916v2 )

ライセンス: Link先を確認
Yukang Cao, Yan-Pei Cao, Kai Han, Ying Shan, Kwan-Yee K. Wong(参考訳) 筆者はdreamavatarという,高品質な3dアバターを制御可能なポーズで生成するためのテキスト・アンド・シェイプガイドフレームワークを提案する。 近年,テキストガイドによる3次元共通物体生成の手法が提案されているが,人体の形状・ポーズ・外観が複雑化しているため,高品質なアバターの生成が課題となっている。 この課題に対処するためにDreamAvatarを提案する。これは3Dポイントの密度と色の特徴を予測するためのトレーニング可能なNeRFと、2Dセルフスーパービジョンを提供するための事前訓練されたテキスト-画像拡散モデルである。 具体的には、SMPLモデルを利用して、生成のための粗いポーズと形状ガイダンスを提供する。 我々は、標準空間と観測空間からなる双対空間設計を導入する。これは、学習可能な変形場によってNeRFを介して関連付けられ、最適化されたテクスチャと幾何を標準空間から目標とするアバターへ転送することができる。 さらに,より詳細な形状とテクスチャを持ったより鮮明な生成を可能にするために,正規性正規化を利用する。 広範な評価を通じて,DreamAvatarは既存の手法を著しく上回り,テキスト・アンド・シェイプ3次元世代のための新しい最先端技術を確立した。

We present DreamAvatar, a text-and-shape guided framework for generating high-quality 3D human avatars with controllable poses. While encouraging results have been produced by recent methods on text-guided 3D common object generation, generating high-quality human avatars remains an open challenge due to the complexity of the human body's shape, pose, and appearance. We propose DreamAvatar to tackle this challenge, which utilizes a trainable NeRF for predicting density and color features for 3D points and a pre-trained text-to-image diffusion model for providing 2D self-supervision. Specifically, we leverage SMPL models to provide rough pose and shape guidance for the generation. We introduce a dual space design that comprises a canonical space and an observation space, which are related by a learnable deformation field through the NeRF, allowing for the transfer of well-optimized texture and geometry from the canonical space to the target posed avatar. Additionally, we exploit a normal-consistency regularization to allow for more vivid generation with detailed geometry and texture. Through extensive evaluations, we demonstrate that DreamAvatar significantly outperforms existing methods, establishing a new state-of-the-art for text-and-shape guided 3D human generation.
翻訳日:2023-04-07 10:35:28 公開日:2023-04-06
# 言語モデルにおける個人識別情報漏洩の分析

Analyzing Leakage of Personally Identifiable Information in Language Models ( http://arxiv.org/abs/2302.00539v3 )

ライセンス: Link先を確認
Nils Lukas, Ahmed Salem, Robert Sim, Shruti Tople, Lukas Wutschitz and Santiago Zanella-B\'eguelin(参考訳) 言語モデル (LM) は、文レベルメンバーシップ推論と再構築攻撃を通じて、トレーニングデータに関する情報を漏洩させる。 PII(Personally Identible Information)に漏洩するLMのリスクを理解することは、PIIの漏洩を防ぐためにスクラブなどのデータセットキュレーション技術が十分であるという誤った仮定によるものである。 スクレイビング技術は、PII漏洩のリスクを防止しない: 実際には、スレービングは不完全であり、開示の最小化とデータセットの有用性の維持の間のトレードオフをバランスさせなければならない。 一方,PIIの開示を防止するために,文レベルのプライバシーやユーザレベルのプライバシーを保証するために設計された差分プライバシーなどのアルゴリズムによる防御がどの程度かは明らかでない。 本研究では,LMへのAPIアクセスのみによるブラックボックス抽出,推論,再構成攻撃による3種類のPIIリークに対する厳密なゲームベース定義を提案する。 事例法,保健医療,電子メールの3分野において,GPT-2モデルに対する攻撃を詳細に検討した。 私たちの主な貢献は (i)既存の攻撃よりも最大10$\times$のpiiシーケンスを抽出することができる新規な攻撃。 (ii) 文レベルの差分プライバシーはPII開示のリスクを低減させるが、PIIシークエンスの約3%は漏洩し、 (iii)記録レベルのメンバーシップ推論とpii再構成との微妙な関係 論文ですべての実験を再現するコードはhttps://github.com/microsoft/analysing_pii_leakageで公開されている。

Language Models (LMs) have been shown to leak information about training data through sentence-level membership inference and reconstruction attacks. Understanding the risk of LMs leaking Personally Identifiable Information (PII) has received less attention, which can be attributed to the false assumption that dataset curation techniques such as scrubbing are sufficient to prevent PII leakage. Scrubbing techniques reduce but do not prevent the risk of PII leakage: in practice scrubbing is imperfect and must balance the trade-off between minimizing disclosure and preserving the utility of the dataset. On the other hand, it is unclear to which extent algorithmic defenses such as differential privacy, designed to guarantee sentence- or user-level privacy, prevent PII disclosure. In this work, we introduce rigorous game-based definitions for three types of PII leakage via black-box extraction, inference, and reconstruction attacks with only API access to an LM. We empirically evaluate the attacks against GPT-2 models fine-tuned with and without defenses in three domains: case law, health care, and e-mails. Our main contributions are (i) novel attacks that can extract up to 10$\times$ more PII sequences than existing attacks, (ii) showing that sentence-level differential privacy reduces the risk of PII disclosure but still leaks about 3% of PII sequences, and (iii) a subtle connection between record-level membership inference and PII reconstruction. Code to reproduce all experiments in the paper is available at https://github.com/microsoft/analysing_pii_leakage.
翻訳日:2023-04-07 10:35:02 公開日:2023-04-06
# 事象に基づくポーズ推定のための時間的密結合リカレントネットワーク

A Temporal Densely Connected Recurrent Network for Event-based Human Pose Estimation ( http://arxiv.org/abs/2209.07034v3 )

ライセンス: Link先を確認
Zhanpeng Shao, Wen Zhou, Wuzhen Wang, Jianyu Yang, Youfu Li(参考訳) イベントカメラは、バイオインスパイアされた視覚センサーで、ピクセルごとの明るさが非同期に変化する。 高いダイナミックレンジ、高速応答、低電力予算の顕著な利点があり、制御されていない環境での局所的な動きを最大限に捉えることができる。 これは、イベントカメラによる人間のポーズ推定がほとんど探求されないため、人間のポーズ推定にイベントカメラの可能性を解き放つ動機となっている。 しかし、従来のフレームベースカメラからの新たなパラダイムシフトにより、イベントカメラは移動体部分のみを捉えて静止体部分を無視し、不完全な部分や時間間隔で消滅する部分もあるため、時間間隔でのイベント信号は非常に限られた情報を含んでいる。 本稿では,不完全情報の問題に対処する,新しい密結合型再帰型アーキテクチャを提案する。 この再帰的アーキテクチャにより、時間ステップにまたがる逐次的かつ非逐次的な幾何的整合性を明示的にモデル化し、過去のフレームから情報を蓄積して人体全体を復元し、イベントデータから安定かつ正確な人間のポーズ推定を実現する。 さらに、モデルをよりよく評価するために、人間のポーズアノテーションが付属する大規模なマルチモーダルイベントベースのデータセットを収集します。 2つの公開データセットと独自のデータセットの実験結果は、我々のアプローチの有効性と強みを示しています。 コードは、将来の研究を促進するためにオンラインで入手できる。

Event camera is an emerging bio-inspired vision sensors that report per-pixel brightness changes asynchronously. It holds noticeable advantage of high dynamic range, high speed response, and low power budget that enable it to best capture local motions in uncontrolled environments. This motivates us to unlock the potential of event cameras for human pose estimation, as the human pose estimation with event cameras is rarely explored. Due to the novel paradigm shift from conventional frame-based cameras, however, event signals in a time interval contain very limited information, as event cameras can only capture the moving body parts and ignores those static body parts, resulting in some parts to be incomplete or even disappeared in the time interval. This paper proposes a novel densely connected recurrent architecture to address the problem of incomplete information. By this recurrent architecture, we can explicitly model not only the sequential but also non-sequential geometric consistency across time steps to accumulate information from previous frames to recover the entire human bodies, achieving a stable and accurate human pose estimation from event data. Moreover, to better evaluate our model, we collect a large scale multimodal event-based dataset that comes with human pose annotations, which is by far the most challenging one to the best of our knowledge. The experimental results on two public datasets and our own dataset demonstrate the effectiveness and strength of our approach. Code can be available online for facilitating the future research.
翻訳日:2023-04-07 10:34:34 公開日:2023-04-06
# 動的点場

Dynamic Point Fields ( http://arxiv.org/abs/2304.02626v2 )

ライセンス: Link先を確認
Sergey Prokudin, Qianli Ma, Maxime Raafat, Julien Valentin, Siyu Tang(参考訳) 近年,神経表面再建の分野において有意な進歩が見られた。 ボリュームと暗黙のアプローチに焦点が当てられたが、ポイントクラウドのような明示的なグラフィクスプリミティブは、再構成された表面品質を犠牲にすることなく、計算の複雑さを著しく低減できることを示した。 しかし、ポイントプリミティブを持つ動的曲面のモデリングにはあまり重点を置いていない。 本研究では,非剛性3次元曲面の効率的なモデリングを可能にするために,明示的ポイントベースグラフィックスと暗黙的変形ネットワークの表現的利点を組み合わせた動的点場モデルを提案する。 明示的なサーフェスプリミティブを使用することで、isometric-as-possible regularizationのような確立された制約を簡単に取り入れることができる。 完全教師なし学習では,この変形モデル学習は局所最適であるが,キーポイントダイナミクスなどの意味情報を付加的に活用して変形学習を指導することを提案する。 我々は,3Dスキャンのコレクションから,表現力のあるアニマタブルな人体アバターを作成する例を用いて,我々のモデルを実証した。 ここでは、従来の手法は主に、長いスカートのような複雑な布の外観を扱う際に、そのようなモデルの表現性を根本的に制限する線形ブレンドスキンのパラダイムの変種に依存する。 本稿では,その表現力,学習効率,分散的新規ポーズに対するロバスト性の観点から,動的ポイントフィールドフレームワークの利点を示す。

Recent years have witnessed significant progress in the field of neural surface reconstruction. While the extensive focus was put on volumetric and implicit approaches, a number of works have shown that explicit graphics primitives such as point clouds can significantly reduce computational complexity, without sacrificing the reconstructed surface quality. However, less emphasis has been put on modeling dynamic surfaces with point primitives. In this work, we present a dynamic point field model that combines the representational benefits of explicit point-based graphics with implicit deformation networks to allow efficient modeling of non-rigid 3D surfaces. Using explicit surface primitives also allows us to easily incorporate well-established constraints such as-isometric-as-possible regularisation. While learning this deformation model is prone to local optima when trained in a fully unsupervised manner, we propose to additionally leverage semantic information such as keypoint dynamics to guide the deformation learning. We demonstrate our model with an example application of creating an expressive animatable human avatar from a collection of 3D scans. Here, previous methods mostly rely on variants of the linear blend skinning paradigm, which fundamentally limits the expressivity of such models when dealing with complex cloth appearances such as long skirts. We show the advantages of our dynamic point field framework in terms of its representational power, learning efficiency, and robustness to out-of-distribution novel poses.
翻訳日:2023-04-07 10:29:09 公開日:2023-04-06
# ParroT: 大規模言語モデルを用いたチャット中の翻訳

ParroT: Translating During Chat Using Large Language Models ( http://arxiv.org/abs/2304.02426v2 )

ライセンス: Link先を確認
Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Xing Wang, Shuming Shi and Zhaopeng Tu(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、チャット中に達成された様々な機械翻訳機能を含む幅広い自然言語処理(NLP)タスクに顕著な能力を発揮している。 しかし、これらのモデルは制限されたapiを通してのみアクセス可能であり、この分野の新しい研究と進歩の障壁となる。 そこで我々は,オープンソースのLLM(LLaMA-7b)と人文翻訳・評価データに基づいて,チャット中の翻訳能力を向上・調整するための$\mathbf{ParroT}$フレームワークを提案する。 具体的には、parrotは命令に従うスタイルに翻訳データを再構成し、翻訳プロセスを規制するための余分な要件を組み込むための"hint"フィールドを導入する。 そこで本研究では,翻訳命令,コントラスト命令,エラーガイド命令など,parrotモデルの微調整を行う3つの命令型を提案する。 floresサブセットとwmt22テストセットの実験は、翻訳命令がバニラllmの翻訳性能を大幅に向上させる一方で、エラーガイド命令は、人間が注釈付けした低品質翻訳から学ぶことの重要性を示すさらなる改善につながることを示唆している。 一方、ParroTモデルは、微調整に関わるAlpacaのマルチタスクデータセットで一般的なタスクの能力を維持できる。 コード: https://github.com/wxjiao/parrot

Large language models (LLMs) like ChatGPT and GPT-4 have exhibited remarkable abilities on a wide range of natural language processing (NLP) tasks, including various machine translation abilities accomplished during chat. However, these models are only accessible through restricted APIs, which creates barriers to new research and advancements in the field. Therefore, we propose the $\mathbf{ParroT}$ framework to enhance and regulate the translation abilities during chat based on open-sourced LLMs (i.e., LLaMA-7b) and human written translation and evaluation data. Specifically, ParroT reformulates translation data into the instruction-following style, and introduces a "Hint" field for incorporating extra requirements to regulate the translation process. Accordingly, we propose three instruction types for finetuning ParroT models, including translation instruction, contrastive instruction, and error-guided instruction. Experiments on Flores subsets and WMT22 test sets suggest that translation instruction improves the translation performance of vanilla LLMs significantly while error-guided instruction can lead to a further improvement, which demonstrates the importance of learning from low-quality translations annotated by human. Meanwhile, the ParroT models can also preserve the ability on general tasks with the Alpaca multi-task dataset involved in finetuning. Codes: https://github.com/wxjiao/ParroT
翻訳日:2023-04-07 10:28:44 公開日:2023-04-06
# quizベースの知識トレース

Quiz-based Knowledge Tracing ( http://arxiv.org/abs/2304.02413v2 )

ライセンス: Link先を確認
Shuanghong Shen, Enhong Chen, Bihan Xu, Qi Liu, Zhenya Huang, Linbo Zhu, Yu Su(参考訳) 知識追跡(KT)は、オンライン学習システム(OIS)における異なるエクササイズとの学習相互作用に基づいて、個人の進化した知識状態を評価することを目的としている。 既存の研究者はKTを幅広く研究し、多くの効果的な方法を開発した。 しかし、ほとんどの学生は、学生の歴史的な相互作用は連続した順序で一様分布していると考えており、実際の相互作用列は、クイズ内の相互作用が連続して完了するような、明確な境界を持つ一連のクイズに基づいて構成されているという事実を無視している。 本稿では,クイズベースの学習インタラクションに応じて生徒の知識状態を監視するクイズベース知識トレース(qkt)モデルを提案する。 具体的には、クイズ内の学生の相互作用が連続的であり、同一または類似の知識概念を持つため、隣接するゲートを設計し、クイズ内短期知識の影響を捉えるためにグローバル平均プール層を設計する。 そして,様々なクイズが異なる知識概念に焦点をあてる傾向にあるため,各クイズ間知識置換をゲートリカレント単位で測定し,クイズ間知識相補性は,新たな注意機構を持つ自己注意エンコーダで測定する。 最後に、様々なクイズにまたがるクイズ間の長期的知識置換と相補性を統合し、生徒の発達する知識状態を出力する。 3つのパブリックな実世界のデータセットに対する大規模な実験結果は、QKTが既存の手法と比較して最先端のパフォーマンスを達成することを示した。 さらなる分析により、QKTはより効果的なクイズを設計することを約束している。

Knowledge tracing (KT) aims to assess individuals' evolving knowledge states according to their learning interactions with different exercises in online learning systems (OIS), which is critical in supporting decision-making for subsequent intelligent services, such as personalized learning source recommendation. Existing researchers have broadly studied KT and developed many effective methods. However, most of them assume that students' historical interactions are uniformly distributed in a continuous sequence, ignoring the fact that actual interaction sequences are organized based on a series of quizzes with clear boundaries, where interactions within a quiz are consecutively completed, but interactions across different quizzes are discrete and may be spaced over days. In this paper, we present the Quiz-based Knowledge Tracing (QKT) model to monitor students' knowledge states according to their quiz-based learning interactions. Specifically, as students' interactions within a quiz are continuous and have the same or similar knowledge concepts, we design the adjacent gate followed by a global average pooling layer to capture the intra-quiz short-term knowledge influence. Then, as various quizzes tend to focus on different knowledge concepts, we respectively measure the inter-quiz knowledge substitution by the gated recurrent unit and the inter-quiz knowledge complementarity by the self-attentive encoder with a novel recency-aware attention mechanism. Finally, we integrate the inter-quiz long-term knowledge substitution and complementarity across different quizzes to output students' evolving knowledge states. Extensive experimental results on three public real-world datasets demonstrate that QKT achieves state-of-the-art performance compared to existing methods. Further analyses confirm that QKT is promising in designing more effective quizzes.
翻訳日:2023-04-07 10:28:03 公開日:2023-04-06
# マスターキーとしての大規模言語モデル: gptによる材料科学の秘密の解錠

Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT ( http://arxiv.org/abs/2304.02213v2 )

ライセンス: Link先を確認
Tong Xie, Yuwei Wan, Wei Huang, Yufei Zhou, Yixuan Liu, Qingyuan Linghu, Shaozhou Wang, Chunyu Kit, Clara Grazian and Bram Hoex(参考訳) 本稿では、材料科学におけるデバイスレベルでの情報抽出の複雑さに対処するため、構造化情報推論(SII)と呼ばれる新しいNLPタスクを提案する。 我々は、gpt-3を既存のペロブスカイト太陽電池フェア(検索可能、アクセス可能、相互運用可能、再利用可能な)データセットに91.8 f1-scoreでチューニングし、関連するすべての科学論文でデータセットを更新した。 生成されたデータセットはフォーマットされ、正規化され、その後のデータ分析で入力として直接利用できる。 この機能により、材料科学者はドメイン内で高品質のレビュー論文を選択できる。 さらに, 太陽電池の電気特性と逆予測パラメータを, LLMによる材料遺伝子とFAIRラテセットの両方で予測する実験を設計した。 特徴選択のない従来の機械学習手法に匹敵する性能を示し,材料を判断し,材料科学者のような新素材を設計する大規模言語モデルの可能性を示した。

This article presents a new NLP task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existed perovskite solar cell FAIR(Findable, Accessible, Interoperable, Reusable) dataset with 91.8 F1-score and we updated the dataset with all related scientific papers up to now. The produced dataset is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature will enable materials scientists to develop their own models by selecting high-quality review papers within their domain. Furthermore, we designed experiments to predict solar cells' electrical performance and reverse-predict parameters on both material gene and FAIR datesets through LLM. We obtained comparable performance with traditional machine learning methods without feature selection, which demonstrates the potential of large language models to judge materials and design new materials like a materials scientist.
翻訳日:2023-04-07 10:27:29 公開日:2023-04-06
# 巨大実スカラーKlein-Gordon量子粒子の相対論的空間局在について

On the Relativistic Spatial Localization for massive real scalar Klein-Gordon quantum particles ( http://arxiv.org/abs/2304.02133v2 )

ライセンス: Link先を確認
Valter Moretti(参考訳) D.R.Ternoによって導入された提案を厳密に分析し、PVM の Poincar\'e-共変族の観点から、Klein-Gordon 質量実粒子の空間的局所化を観測できるとする。 これらのPOVMは、実際にニュートン・ウィグナーのPVMのキネマティックな変形であることを示す。 しかしながら、これらのPOVMの1つの最初のモーメントは、ニュートン・ウィグナー自己随伴位置作用素の制限(コア上の)と正確に一致するが、2番目のモーメントは一致しない。 この事実はニュートン・ウィグナー位置のよい性質をすべて保存することができ、ヘーガーフェルト定理から生じる非物理的特徴を排除できる。 POVMは空間的に急激な局所状態を認めないが、任意の精度でほぼ局所状態の族を認める。 次に、D.P.L.Castrigianoが導入した、ミンコフスキー参照フレームのLebesgue測定可能な空間領域に関する因果時間的発展に関する要件の一部を満たすことを確立する。 完全なカスティーリャーノの因果関係要件の妥当性は、テルノの因果関係を自然な方法で一般化する空間的局在の概念にも証明される。

I rigorously analyze a proposal, introduced by D.R.Terno, about a spatial localization observable for a Klein-Gordon massive real particle in terms of a Poincar\'e-covariant family of POVMs. I prove that these POVMs are actually a kinematic deformation of the Newton-Wigner PVMs. The first moment of one of these POVMs however exactly coincides with a restriction (on a core) of the Newton-Wigner selfadjoint position operator, though the second moment does not. This fact permits to preserve all nice properties of the Newton-Wigner position observable, dropping the unphysical features arising from the Hegerfeldt theorem. The considered POVM does not permit spatially sharply localized states, but it admits families of almost localized states with arbitrary precision. Next, I establish that the Terno localization observable satisfies part of a requirement introduced by D.P.L.Castrigiano about causal temporal evolution concerning the Lebesgue measurable spatial regions of any Minkowskian reference frame. The validity of the complete Castrigiano's causality requirement is also proved for a notion of spatial localization which generalizes Terno's one in a natural way.
翻訳日:2023-04-07 10:27:09 公開日:2023-04-06
# MM-BSN: Blind-Spot Networkに基づくマルチマスクを用いた実世界の自己監督画像デノーミング

MM-BSN: Self-Supervised Image Denoising for Real-World with Multi-Mask based on Blind-Spot Network ( http://arxiv.org/abs/2304.01598v2 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou, Yuwen Jiang and Zhengming Fu(参考訳) ディープラーニングの最近の進歩は、画像のデノイジング技術を新しいレベルに押し上げている。 自己監督型画像復調では、ブラインドスポットネットワーク(BSN)が最も一般的な手法の1つである。 しかし、既存のBSNアルゴリズムのほとんどはドットベースの中央マスクを使用しており、大規模な空間相関ノイズを持つ画像では非効率であると認識されている。 本稿では,大雑音の定義を提案し,異なる形状の複数の畳み込みカーネルを用いてマルチマスク戦略を提案し,さらにノイズ空間相関を破る。 さらに,マルチマスク戦略とBSN(MM-BSN)を併用した自己監督型画像復調手法を提案する。 提案するmm-bsnは,マルチマスキングと情報伝達によって破壊されるテクスチャ構造を回復しつつ,マルチマスキング層から抽出した特徴を効率的に融合させることができる。 提案するmm-bsnは,他のbsn法では効率的に処理できない大雑音デノージングの問題を解決するために使用できる。 公開実世界のデータセットに対する大規模な実験により、提案されたMM-BSNは、ラベル付けの努力や事前の知識なしに、SRGB画像の自己監督的および非ペア画像復調法における最先端のパフォーマンスを達成できることを示した。 コードはhttps://github.com/dannie125/MM-BSNにある。

Recent advances in deep learning have been pushing image denoising techniques to a new level. In self-supervised image denoising, blind-spot network (BSN) is one of the most common methods. However, most of the existing BSN algorithms use a dot-based central mask, which is recognized as inefficient for images with large-scale spatially correlated noise. In this paper, we give the definition of large-noise and propose a multi-mask strategy using multiple convolutional kernels masked in different shapes to further break the noise spatial correlation. Furthermore, we propose a novel self-supervised image denoising method that combines the multi-mask strategy with BSN (MM-BSN). We show that different masks can cause significant performance differences, and the proposed MM-BSN can efficiently fuse the features extracted by multi-masked layers, while recovering the texture structures destroyed by multi-masking and information transmission. Our MM-BSN can be used to address the problem of large-noise denoising, which cannot be efficiently handled by other BSN methods. Extensive experiments on public real-world datasets demonstrate that the proposed MM-BSN achieves state-of-the-art performance among self-supervised and even unpaired image denoising methods for sRGB images denoising, without any labelling effort or prior knowledge. Code can be found in https://github.com/dannie125/MM-BSN.
翻訳日:2023-04-07 10:26:50 公開日:2023-04-06
# MEnsA: 3次元点雲における教師なしマルチターゲット領域適応のための混合アンサンブル平均

MEnsA: Mix-up Ensemble Average for Unsupervised Multi Target Domain Adaptation on 3D Point Clouds ( http://arxiv.org/abs/2304.01554v2 )

ライセンス: Link先を確認
Ashish Sinha, Jonghyun Choi(参考訳) unsupervised domain adaptation (uda)は、ラベルなしのターゲットドメインとラベル付きソースドメインの間の分散シフトの問題に対処する。 単一目標領域適応(STDA)は2次元と3次元の両方の視覚タスクの文献でよく研究されているが、多目的領域適応(MTDA)は、地理的および気候条件の自律運転システムなど、幅広い実世界の応用にもかかわらず、ほとんど調査されていない。 我々は,すべてのドメインの特徴表現を混合して,アンサンブル平均値によるドメイン適応性能の向上を図り,Mixup Ensemble Average あるいは MEnsA と呼ぶ3DポイントクラウドデータのMTDAベースラインを構築した。 混合表現では、ドメイン分類器を用いて、ソースドメインの特徴表現を、共有潜在空間における対象ドメインの特徴表現と区別する。 挑戦的なPointDA-10データセットに関する実証的な検証では、これまでの教師なしSTDA法とMTDA法に対して、大きなマージン(すべてのドメインシフト平均で最大17.10%と4.76%)で、我々の単純な方法の明確な利点を示す。

Unsupervised domain adaptation (UDA) addresses the problem of distribution shift between the unlabelled target domain and labelled source domain. While the single target domain adaptation (STDA) is well studied in the literature for both 2D and 3D vision tasks, multi-target domain adaptation (MTDA) is barely explored for 3D data despite its wide real-world applications such as autonomous driving systems for various geographical and climatic conditions. We establish an MTDA baseline for 3D point cloud data by proposing to mix the feature representations from all domains together to achieve better domain adaptation performance by an ensemble average, which we call Mixup Ensemble Average or MEnsA. With the mixed representation, we use a domain classifier to improve at distinguishing the feature representations of source domain from those of target domains in a shared latent space. In empirical validations on the challenging PointDA-10 dataset, we showcase a clear benefit of our simple method over previous unsupervised STDA and MTDA methods by large margins (up to 17.10% and 4.76% on averaged over all domain shifts).
翻訳日:2023-04-07 10:26:24 公開日:2023-04-06
# RARE:ロバストなマスク付きグラフオートエンコーダ

RARE: Robust Masked Graph Autoencoder ( http://arxiv.org/abs/2304.01507v2 )

ライセンス: Link先を確認
Wenxuan Tu, Qing Liao, Sihang Zhou, Xin Peng, Chuan Ma, Zhe Liu, Xinwang Liu, Zhiping Cai(参考訳) Masked graph autoencoder (MGAE) は、その単純さと有効性から、有望な自己教師付きグラフ事前学習(SGP)パラダイムとして登場した。 しかし,既存の研究は,計算機ビジョン(CV)や自然言語処理(NLP)領域で行われているように,生データ空間におけるマスク-テーマ-再構成操作を行ない,グラフデータの非ユークリッド特性を無視する。 その結果、高度に不安定な局所接続構造は、マスク付きデータの推測の不確実性を著しく増大させ、悪用された自己超越信号の信頼性を低下させ、下流評価における劣等な表現をもたらす。 そこで本研究では,高次潜時特徴空間におけるノードサンプルのマスキングと再構成により,マスキングデータの推測の確実性と自己スーパービジョン機構の信頼性を向上させるための新しいsgp法であるロバストマスクグラフオートエンコーダ(rare)を提案する。 理論的および実証的分析により,潜在機能と生データ空間の両方においてマスク・テイン・リコンストラクタを併用することで,安定性と性能の向上が期待できることがわかった。 そこで本研究では,生データの観点からは観測が難しい高次サンプル相関の誘導の下で,マスクノードの潜時特徴を予測するマスク付き潜時特徴補完スキームを精巧に設計する。 具体的には、まず潜時特徴予測器を用いて、可視的特徴から潜時特徴を予測する。 次に,マスキングサンプルの生データをモーメントグラフエンコーダで符号化し,結果表現を用いて潜在特徴マッチングによる予測結果を改善する。 17のデータセットに対する大規模な実験は、3つの下流タスクにわたる最先端(SOTA)競合に対するRAREの有効性と堅牢性を示している。

Masked graph autoencoder (MGAE) has emerged as a promising self-supervised graph pre-training (SGP) paradigm due to its simplicity and effectiveness. However, existing efforts perform the mask-then-reconstruct operation in the raw data space as is done in computer vision (CV) and natural language processing (NLP) areas, while neglecting the important non-Euclidean property of graph data. As a result, the highly unstable local connection structures largely increase the uncertainty in inferring masked data and decrease the reliability of the exploited self-supervision signals, leading to inferior representations for downstream evaluations. To address this issue, we propose a novel SGP method termed Robust mAsked gRaph autoEncoder (RARE) to improve the certainty in inferring masked data and the reliability of the self-supervision mechanism by further masking and reconstructing node samples in the high-order latent feature space. Through both theoretical and empirical analyses, we have discovered that performing a joint mask-then-reconstruct strategy in both latent feature and raw data spaces could yield improved stability and performance. To this end, we elaborately design a masked latent feature completion scheme, which predicts latent features of masked nodes under the guidance of high-order sample correlations that are hard to be observed from the raw data perspective. Specifically, we first adopt a latent feature predictor to predict the masked latent features from the visible ones. Next, we encode the raw data of masked samples with a momentum graph encoder and subsequently employ the resulting representations to improve predicted results through latent feature matching. Extensive experiments on seventeen datasets have demonstrated the effectiveness and robustness of RARE against state-of-the-art (SOTA) competitors across three downstream tasks.
翻訳日:2023-04-07 10:26:00 公開日:2023-04-06
# 実践における知識グラフのユーザ,課題,可視化の必要性

Characterizing the Users, Challenges, and Visualization Needs of Knowledge Graphs in Practice ( http://arxiv.org/abs/2304.01311v2 )

ライセンス: Link先を確認
Harry Li, Gabriel Appleby, Camelia Daniela Brumar, Remco Chang, Ashley Suh(参考訳) 本研究は、企業と学術の両方で幅広いユースケースで働いている19人の知識グラフ実践者へのインタビューから得られた知見を提示する。 本研究では,視覚的デザインによって緩和できるKGの作成,探索,分析において,KG実践者が経験した重要な課題を明らかにする。 以上の結果から,kg実践者のうち,kg製作者,アナリスト,消費者の3人がそれぞれ独自の専門知識とニーズを持っていることが明らかとなった。 我々は、KGビルダーがスキーマインクルーダーの恩恵を受けることを発見した。一方、KGアナリストは、中間クエリ結果を提供するカスタマイズ可能なクエリビルダーが必要である。 kg ユーザに対しては,ノードリンク図の有効性の欠如,および kg の採用と理解を促進するためのドメイン固有可視化の必要性が指摘されている。 最後に、KGを効果的に実践するには、現在のツールや技術、コラボレーションワークフローに対処しない、技術的および社会的ソリューションの両方が必要です。 インタビューの分析から,消化可能性と発見可能性のバランスをとる知識カード,時間的変化を追跡するタイムラインビュー,有機的発見をサポートするインターフェース,AIと機械学習予測のセマンティック説明など,KGのユーザビリティ向上のための可視化研究の方向性を抽出した。

This study presents insights from interviews with nineteen Knowledge Graph (KG) practitioners who work in both enterprise and academic settings on a wide variety of use cases. Through this study, we identify critical challenges experienced by KG practitioners when creating, exploring, and analyzing KGs that could be alleviated through visualization design. Our findings reveal three major personas among KG practitioners - KG Builders, Analysts, and Consumers - each of whom have their own distinct expertise and needs. We discover that KG Builders would benefit from schema enforcers, while KG Analysts need customizable query builders that provide interim query results. For KG Consumers, we identify a lack of efficacy for node-link diagrams, and the need for tailored domain-specific visualizations to promote KG adoption and comprehension. Lastly, we find that implementing KGs effectively in practice requires both technical and social solutions that are not addressed with current tools, technologies, and collaborative workflows. From the analysis of our interviews, we distill several visualization research directions to improve KG usability, including knowledge cards that balance digestibility and discoverability, timeline views to track temporal changes, interfaces that support organic discovery, and semantic explanations for AI and machine learning predictions.
翻訳日:2023-04-07 10:25:29 公開日:2023-04-06
# 知識抽出による自己異種統合による長期視覚認識

Long-Tailed Visual Recognition via Self-Heterogeneous Integration with Knowledge Excavation ( http://arxiv.org/abs/2304.01279v2 )

ライセンス: Link先を確認
Yan Jin, Mengke Li, Yang Lu, Yiu-ming Cheung, Hanzi Wang(参考訳) 深層ニューラルネットワークは、ここ数十年で大きな進歩を遂げている。 しかしながら、現実世界のデータはしばしば長い尾の分布を示すため、バニラディープモデルは多数派に大きく偏っている傾向にある。 この問題に対処するため、最先端の手法は通常、ロングテール分布の異なる部分に焦点を当てるために専門家(moe)の混合を採用する。 これらの手法のエキスパートはモデル深度が同じであり、異なるクラスが異なる深さのモデルに適合するように異なる好みを持つという事実を無視する。 そこで本研究では,知識抽出を用いた自己異種統合法(SHIKE)を提案する。 まず,異なる浅い部分と1つのネットワークの深い部分の間で特徴を融合するために,dkf(deep-wise knowledge fusion)を提案する。 dkfに基づき、我々はさらに、moeフレームワークのテールクラスに無視できない影響を持つ最も難しい負のクラスの影響を減らすために、動的知識伝達(dkt)を提案します。 その結果、特に尾のクラスにおいて、長い尾のデータの分類精度を著しく向上させることができる。 SHIKEはCIFAR100-LT (IF100), ImageNet-LT, iNaturalist 2018, Places-LTで56.3%, 60.3%, 75.4%, 41.9%の最先端性能を達成した。

Deep neural networks have made huge progress in the last few decades. However, as the real-world data often exhibits a long-tailed distribution, vanilla deep models tend to be heavily biased toward the majority classes. To address this problem, state-of-the-art methods usually adopt a mixture of experts (MoE) to focus on different parts of the long-tailed distribution. Experts in these methods are with the same model depth, which neglects the fact that different classes may have different preferences to be fit by models with different depths. To this end, we propose a novel MoE-based method called Self-Heterogeneous Integration with Knowledge Excavation (SHIKE). We first propose Depth-wise Knowledge Fusion (DKF) to fuse features between different shallow parts and the deep part in one network for each expert, which makes experts more diverse in terms of representation. Based on DKF, we further propose Dynamic Knowledge Transfer (DKT) to reduce the influence of the hardest negative class that has a non-negligible impact on the tail classes in our MoE framework. As a result, the classification accuracy of long-tailed data can be significantly improved, especially for the tail classes. SHIKE achieves the state-of-the-art performance of 56.3%, 60.3%, 75.4%, and 41.9% on CIFAR100-LT (IF100), ImageNet-LT, iNaturalist 2018, and Places-LT, respectively.
翻訳日:2023-04-07 10:25:04 公開日:2023-04-06