このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230228となっている論文です。

PDF登録状況(公開日: 20230228)

TitleAuthorsAbstract論文公表日・翻訳日
# Greedy Actor-Critic: 政策改善のための新しい条件付きクロスエントロピー法

Greedy Actor-Critic: A New Conditional Cross-Entropy Method for Policy Improvement ( http://arxiv.org/abs/1810.09103v4 )

ライセンス: Link先を確認
Samuel Neumann, Sungsu Lim, Ajin Joseph, Yangchen Pan, Adam White, Martha White(参考訳) 多くのポリシー勾配法はActor-Critic (AC)の変種であり、パラメータ化されたポリシー(アクター)の更新を容易にするために値関数(批判)が学習される。 アクターのアップデートには、アクション値の重み付けによるログライクな更新と、ソフトな変種に対するエントロピー正規化の追加が含まれている。 本研究では,入力(状態)を条件とするクロスエントロピー法(cem)の拡張に基づき,アクターの代替更新について検討する。 そのアイデアは、より広範なポリシーから始めて、州ごとのトップパーセンタイルのアクションに対する最大限のアップデートを使って、徐々に最大アクションに集中することだ。 この濃度の速度は、アクターよりも遅いレートで集中する提案ポリシーによって制御される。 まず, 条件付きCEM(CCEM)戦略が, アクション値を変化させた場合でも, 状態ごとのCEM更新を追跡することを実証する。 我々は,アクター更新にCCEMを使用するGreedy ACアルゴリズムが,ソフトアクター・クライブよりも優れ,エントロピー・規則化に対する感度がはるかに低いことを実証的に示す。

Many policy gradient methods are variants of Actor-Critic (AC), where a value function (critic) is learned to facilitate updating the parameterized policy (actor). The update to the actor involves a log-likelihood update weighted by the action-values, with the addition of entropy regularization for soft variants. In this work, we explore an alternative update for the actor, based on an extension of the cross entropy method (CEM) to condition on inputs (states). The idea is to start with a broader policy and slowly concentrate around maximal actions, using a maximum likelihood update towards actions in the top percentile per state. The speed of this concentration is controlled by a proposal policy, that concentrates at a slower rate than the actor. We first provide a policy improvement result in an idealized setting, and then prove that our conditional CEM (CCEM) strategy tracks a CEM update per state, even with changing action-values. We empirically show that our Greedy AC algorithm, that uses CCEM for the actor update, performs better than Soft Actor-Critic and is much less sensitive to entropy-regularization.
翻訳日:2023-03-25 04:51:16 公開日:2023-02-28
# ゲージ不変量子熱力学:第一法則の結果

Gauge invariant quantum thermodynamics: consequences for the first law ( http://arxiv.org/abs/2104.10153v3 )

ライセンス: Link先を確認
Lucas Chibebe C\'eleri and {\L}ukasz Rudnicki(参考訳) 古典的熱力学の普遍性は中心極限定理に依拠しており、熱ゆらぎの測定はマクロな体の微細構造に関する詳細な情報を明らかにすることができない。 小さな系が考慮され変動が重要になるとき、古典確率力学の文脈で熱力学量を理解することができる。 熱力学の基本的な前提は粗粒化であり、これは全ての自由度に対する制御の欠如に起因する。 しかし、量子システムに関する場合、高いレベルの制御が要求される。 その結果、情報理論は熱力学関数の同定に重要な役割を果たしている。 ここでは、すべての現代的な物理理論に不可欠なゲージ対称性の概念から、我々は新しい可能な中間経路を提唱した。 量子熱力学の分野では、熱力学の背後にある粗粒の緩やかな変種をエンコードする物理的動機付けゲージ変換を明示的に構成する。 結果として、量子ワークと熱を再解釈すると同時に、量子コヒーレンスの役割も再解釈する。

Universality of classical thermodynamics rests on the central limit theorem, due to which, measurements of thermal fluctuations are unable to reveal detailed information regarding the microscopic structure of a macroscopic body. When small systems are considered and fluctuations become important, thermodynamic quantities can be understood in the context of classical stochastic mechanics. A fundamental assumption behind thermodynamics is therefore that of coarse-graning, which stems from a substantial lack of control over all degrees of freedom. However, when quantum systems are concerned, one claims a high level of control. As a consequence, information theory plays a major role in the identification of thermodynamic functions. Here, drawing from the concept of gauge symmetry, essential in all modern physical theories, we put forward a new possible, intermediate route. Working within the realm of quantum thermodynamics we explicitly construct physically motivated gauge transformations which encode a gentle variant of coarse-graining behind thermodynamics. As a consequence, we reinterpret quantum work and heat, as well as the role of quantum coherence.
翻訳日:2023-03-25 03:55:51 公開日:2023-02-28
# reorientdiff:オブジェクト操作のための拡散モデルに基づくリオリエンテーション

ReorientDiff: Diffusion Model based Reorientation for Object Manipulation ( http://arxiv.org/abs/2303.12700v1 )

ライセンス: Link先を確認
Utkarsh A. Mishra and Yongxin Chen(参考訳) 望ましい構成でオブジェクトを操作する能力は、ロボットが様々な実用的な応用を完了するための基本的な要件である。 関心のあるオブジェクトを直接選択して配置することで、特定の目標を達成できるが、ほとんどのタスクにおける正確な配置には、オブジェクトの向き付けが必要である。 このようなシナリオでは、オブジェクトは、ターゲットのポーズにおける正確な配置を容易にする中間のポーズに再配置されなければならない。 そこで本研究では,拡散モデルに基づく手法を用いたリオリエンテーション計画手法であるReorientDiffを提案する。 提案手法では,シーンからの視覚的入力と目標固有言語を併用し,中間配置ポーズを計画する。 具体的には、シーンと言語タスク情報を共同シーンタスク表現特徴空間にマッピングし、拡散モデルを条件付けする。 拡散モデルは、分類子なし誘導を用いた表現に基づいて中間ポーズをサンプリングし、暗黙の反復的ポーズ修正のために学習可能スコアモデルの勾配を使用する。 提案手法はycbオブジェクトのセットと吸引グリッパーを用いて評価し,シミュレーションにおいて96.5\%の成功率を示した。 本研究は,より一般化可能な物体操作に向けた効果的な方法として,条件分布の学習による操作の方向転換問題に対処する,有望なアプローチを提案する。 詳細については、webサイトをご覧ください。 https://utkarshmishra04.github.io/reorientdiff。

The ability to manipulate objects in a desired configurations is a fundamental requirement for robots to complete various practical applications. While certain goals can be achieved by picking and placing the objects of interest directly, object reorientation is needed for precise placement in most of the tasks. In such scenarios, the object must be reoriented and re-positioned into intermediate poses that facilitate accurate placement at the target pose. To this end, we propose a reorientation planning method, ReorientDiff, that utilizes a diffusion model-based approach. The proposed method employs both visual inputs from the scene, and goal-specific language prompts to plan intermediate reorientation poses. Specifically, the scene and language-task information are mapped into a joint scene-task representation feature space, which is subsequently leveraged to condition the diffusion model. The diffusion model samples intermediate poses based on the representation using classifier-free guidance and then uses gradients of learned feasibility-score models for implicit iterative pose-refinement. The proposed method is evaluated using a set of YCB-objects and a suction gripper, demonstrating a success rate of 96.5\% in simulation. Overall, our study presents a promising approach to address the reorientation challenge in manipulation by learning a conditional distribution, which is an effective way to move towards more generalizable object manipulation. For more results, checkout our website: https://utkarshmishra04.github.io/ReorientDiff.
翻訳日:2023-03-25 03:19:39 公開日:2023-02-28
# マンダリンと英語におけるAUDIO-VISUAL HUBERTの実践

Practice of the conformer enhanced AUDIO-VISUAL HUBERT on Mandarin and English ( http://arxiv.org/abs/2303.12187v1 )

ライセンス: Link先を確認
Xiaoming Ren, Chao Li, Shenjian Wang, Biao Li(参考訳) ヒトの音声知覚のバイモーダル性を考えると、唇、歯の運動は自動音声認識において重要な役割を担っている。 相関とノイズ不変の視覚情報の恩恵を受け、音声・視覚認識システムは複数のシナリオにおいて頑健性を高める。 以前の研究では、音響視覚のHuBERTは、モダリティの知識を取り入れた最も優れた実践であったようである。 本稿では, AV-HuBERT システムの性能をさらに向上させるため, AV-HuBERT と命名された混合手法について概説する。 ベースラインのAV-HuBERTと比較して, クリーン条件とノイズ条件の1相評価では, イングランドのAVSRベンチマークデータセット LRS3 に対し, 相対 WER の 7% と 16% の削減が達成されている。 さらに,1000h Mandarin AVSRデータセットCSTSを構築した。 AV-HuBERTのベースライン上に、このデータセットを事前学習することで、MISPおよびCMLR上でWeNet ASRシステムを14%、相対的に18%上回る。 提案したコンホメータ強化型AV-HuBERTは,ベースラインのAV-HuBERTシステムと比較して,MISPが7%,CMLRが6%減少する。

Considering the bimodal nature of human speech perception, lips, and teeth movement has a pivotal role in automatic speech recognition. Benefiting from the correlated and noise-invariant visual information, audio-visual recognition systems enhance robustness in multiple scenarios. In previous work, audio-visual HuBERT appears to be the finest practice incorporating modality knowledge. This paper outlines a mixed methodology, named conformer enhanced AV-HuBERT, boosting the AV-HuBERT system's performance a step further. Compared with baseline AV-HuBERT, our method in the one-phase evaluation of clean and noisy conditions achieves 7% and 16% relative WER reduction on the English AVSR benchmark dataset LRS3. Furthermore, we establish a novel 1000h Mandarin AVSR dataset CSTS. On top of the baseline AV-HuBERT, we exceed the WeNet ASR system by 14% and 18% relatively on MISP and CMLR by pre-training with this dataset. The conformer-enhanced AV-HuBERT we proposed brings 7% on MISP and 6% CER reduction on CMLR, compared with the baseline AV-HuBERT system.
翻訳日:2023-03-25 03:17:39 公開日:2023-02-28
# Thrill-K Architecture:知識に基づく理解問題の解決を目指して

Thrill-K Architecture: Towards a Solution to the Problem of Knowledge Based Understanding ( http://arxiv.org/abs/2303.12084v1 )

ライセンス: Link先を確認
Gadi Singer, Joscha Bach, Tetiana Grinberg, Nagib Hakim, Phillip Howard, Vasudev Lal and Zev Rivlin(参考訳) エンド・ツー・エンドの学習システムは能力と人気が急速に高まっているが、柔軟性、適応性、説明可能性、推論、検証能力の欠如とともに、そのようなシステムを展開するための計算要求が増えているため、新しいタイプのアーキテクチャが必要である。 本稿では、人間の知識と知性の分析に基づいて、ニューラルネットワークと様々なタイプの知識と知識ソースを組み合わせるハイブリッドシステムの分類を紹介する。 我々はThrill-Kアーキテクチャを,推論,学習,知的制御が可能なフレームワークに,瞬時知識,待機知識,外部知識ソースを統合するためのプロトタイプソリューションとして提示する。

While end-to-end learning systems are rapidly gaining capabilities and popularity, the increasing computational demands for deploying such systems, along with a lack of flexibility, adaptability, explainability, reasoning and verification capabilities, require new types of architectures. Here we introduce a classification of hybrid systems which, based on an analysis of human knowledge and intelligence, combines neural learning with various types of knowledge and knowledge sources. We present the Thrill-K architecture as a prototypical solution for integrating instantaneous knowledge, standby knowledge and external knowledge sources in a framework capable of inference, learning and intelligent control.
翻訳日:2023-03-25 03:16:38 公開日:2023-02-28
# mmWaveレーダとIMUを用いた対人距離追跡

Interpersonal Distance Tracking with mmWave Radar and IMUs ( http://arxiv.org/abs/2303.12798v1 )

ライセンス: Link先を確認
Yimin Dai and Xian Shuai and Rui Tan and Guoliang Xing(参考訳) 対人距離の追跡は、リアルタイムのソーシャルディスタンシング管理や、伝染病の拡散を防ぐための接触追跡に不可欠である。 Bluetooth隣りの発見は、新型コロナウイルスと戦うために使われてきたが、良好な時空間解像度を提供していない。 本稿では,ミリ波レーダを用いて,スマートフォンやウェアラブルの慣性測定データを利用して対人距離を追跡するシステムであるimmtrackを提案する。 レーダから再構成された移動トレースと慣性データとをマッチングすることにより、慣性データの擬似IDをグローバル座標系におけるレーダセンシング結果に転送することができる。 再同定されたレーダーセンシングされた移動軌跡は、対人距離を追跡するために使用される。 広い意味では、ImmTrackはミリ波レーダと慣性測定ユニットからデータを融合してユーザ追跡と再同定を行う最初のシステムである。 様々な屋内・屋外環境における最大27人の評価から、ImmTrackの接触追跡における時間的精度は、プライバシーを侵害するカメラ監視と似ており、Bluetooth隣りの発見アプローチよりも著しく優れています。

Tracking interpersonal distances is essential for real-time social distancing management and {\em ex-post} contact tracing to prevent spreads of contagious diseases. Bluetooth neighbor discovery has been employed for such purposes in combating COVID-19, but does not provide satisfactory spatiotemporal resolutions. This paper presents ImmTrack, a system that uses a millimeter wave radar and exploits the inertial measurement data from user-carried smartphones or wearables to track interpersonal distances. By matching the movement traces reconstructed from the radar and inertial data, the pseudo identities of the inertial data can be transferred to the radar sensing results in the global coordinate system. The re-identified, radar-sensed movement trajectories are then used to track interpersonal distances. In a broader sense, ImmTrack is the first system that fuses data from millimeter wave radar and inertial measurement units for simultaneous user tracking and re-identification. Evaluation with up to 27 people in various indoor/outdoor environments shows ImmTrack's decimeters-seconds spatiotemporal accuracy in contact tracing, which is similar to that of the privacy-intrusive camera surveillance and significantly outperforms the Bluetooth neighbor discovery approach.
翻訳日:2023-03-25 02:39:42 公開日:2023-02-28
# FTSO:第1トポロジー第2オペレータによる効果的なNAS

FTSO: Effective NAS via First Topology Second Operator ( http://arxiv.org/abs/2303.12948v1 )

ライセンス: Link先を確認
Likang Wang, Lei Chen(参考訳) 既存のone-shot neural architecture search(nas)メソッドは巨大なスーパーネットを探索しなければならないため、膨大な計算コストがかかる。 このようなコストを削減するために,アーキテクチャ全体の探索を2つのサブステップに分割するFTSOという手法を提案する。 具体的には、最初のステップではトポロジーのみを検索し、2番目のステップでは演算子を検索します。 FTSOはNASの検索時間を数日から0.68秒に短縮するだけでなく、発見されたアーキテクチャの精度を大幅に改善する。 ImageNetでの大規模な実験により、FTSOは18秒以内に76.4%の精度で、SOTA、PC-DARTSよりも1.5%高い精度でテストできることがわかった。 さらにFTSOは97.77%の精度でSOTAより0.27%高く、CIFAR10で検索すると100%(99.8%)の検索時間を節約できる。

Existing one-shot neural architecture search (NAS) methods have to conduct a search over a giant super-net, which leads to the huge computational cost. To reduce such cost, in this paper, we propose a method, called FTSO, to divide the whole architecture search into two sub-steps. Specifically, in the first step, we only search for the topology, and in the second step, we search for the operators. FTSO not only reduces NAS's search time from days to 0.68 seconds, but also significantly improves the found architecture's accuracy. Our extensive experiments on ImageNet show that within 18 seconds, FTSO can achieve a 76.4% testing accuracy, 1.5% higher than the SOTA, PC-DARTS. In addition, FTSO can reach a 97.77% testing accuracy, 0.27% higher than the SOTA, with nearly 100% (99.8%) search time saved, when searching on CIFAR10.
翻訳日:2023-03-25 02:31:41 公開日:2023-02-28
# 感情分析と意味分析によるサンスクリット語から英訳へのgoogle翻訳の評価

An evaluation of Google Translate for Sanskrit to English translation via sentiment and semantic analysis ( http://arxiv.org/abs/2303.07201v1 )

ライセンス: Link先を確認
Akshat Shukla, Chaarvi Bansal, Sushrut Badhe, Mukul Ranjan, Rohitash Chandra(参考訳) google翻訳は言語翻訳で際立っているが、人間の専門家と比較して翻訳の質を評価する作業は限られている。 サンスクリット語は世界で最も古い言語の一つである。 2022年、サンスクリット語はGoogle翻訳エンジンに追加された。 サンスクリットはヒンディー語などの言語の母として知られ、インド・ヨーロッパ諸語群の古代の情報源である。 サンスクリット語はバガヴァド・トゥガのようなヒンドゥー教のテキストの原語である。 本研究では,Bhagavad Gitaを用いて,サンスクリット語のGoogle翻訳を評価するフレームワークを提案する。 私たちはまず、Google Translateを使ってサンスクリットのBhagavad Gitaの翻訳を公開しました。 我々のフレームワークは、Bhagavad GitaのGoogle Translateバージョンと、BERTベースの言語モデルによる感情分析と意味分析を用いた専門家翻訳を比較した。 その結果, 感傷的・意味的分析の面では, 専門家翻訳と比較して, 選択した翻訳文の類似度は低いことがわかった。 質的な評価では,サンスクリット語の特定の単語やフレーズの翻訳には,その詩的性質,文脈的意義,比喩,イメージが適していないことが分かる。 Bhagavad Gitaは翻訳が難しいことだけでなく、文脈、哲学、歴史的情報に依存しているため解釈が難しいことで知られるため、この誤訳は驚くべきことではない。 われわれのフレームワークは、google translateによる他言語の自動評価の基礎を築いている

Google Translate has been prominent for language translation; however, limited work has been done in evaluating the quality of translation when compared to human experts. Sanskrit one of the oldest written languages in the world. In 2022, the Sanskrit language was added to the Google Translate engine. Sanskrit is known as the mother of languages such as Hindi and an ancient source of the Indo-European group of languages. Sanskrit is the original language for sacred Hindu texts such as the Bhagavad Gita. In this study, we present a framework that evaluates the Google Translate for Sanskrit using the Bhagavad Gita. We first publish a translation of the Bhagavad Gita in Sanskrit using Google Translate. Our framework then compares Google Translate version of Bhagavad Gita with expert translations using sentiment and semantic analysis via BERT-based language models. Our results indicate that in terms of sentiment and semantic analysis, there is low level of similarity in selected verses of Google Translate when compared to expert translations. In the qualitative evaluation, we find that Google translate is unsuitable for translation of certain Sanskrit words and phrases due to its poetic nature, contextual significance, metaphor and imagery. The mistranslations are not surprising since the Bhagavad Gita is known as a difficult text not only to translate, but also to interpret since it relies on contextual, philosophical and historical information. Our framework lays the foundation for automatic evaluation of other languages by Google Translate
翻訳日:2023-03-19 11:48:07 公開日:2023-02-28
# 視覚芸術勧告の要素:絵画の潜在意味表現を学習する

The Elements of Visual Art Recommendation: Learning Latent Semantic Representations of Paintings ( http://arxiv.org/abs/2303.08182v1 )

ライセンス: Link先を確認
Bereket A. Yilma and Luis A. Leiva(参考訳) アートワークのレコメンデーションは、ユーザが高度に主観的なコンテンツとどのように相互作用するか、アートワークに埋め込まれた概念の複雑さ、ユーザが引き起こす感情的および認知的リフレクションを理解する必要があるため、難しい。 本稿では,ビジュアルアートの要素(すなわち潜在意味関係)を効率的に捉えて,パーソナライズドレコメンデーションを行う。 本研究は,テキスト・視覚特徴学習手法とそれらの組み合わせに基づく推薦システムを提案し,検討する。 次に,提案するレコメンデーションの品質を,小規模かつ大規模に評価する。 その結果,テキストの特徴は視覚的特徴と良好に比較でき,両者の融合はアートワークの推薦に最も適した意味的関係を捉えていることがわかった。 最終的に,本論文は,ユーザの関心に合ったコンテンツの提供方法と,その認識方法の理解に寄与する。

Artwork recommendation is challenging because it requires understanding how users interact with highly subjective content, the complexity of the concepts embedded within the artwork, and the emotional and cognitive reflections they may trigger in users. In this paper, we focus on efficiently capturing the elements (i.e., latent semantic relationships) of visual art for personalized recommendation. We propose and study recommender systems based on textual and visual feature learning techniques, as well as their combinations. We then perform a small-scale and a large-scale user-centric evaluation of the quality of the recommendations. Our results indicate that textual features compare favourably with visual ones, whereas a fusion of both captures the most suitable hidden semantic relationships for artwork recommendation. Ultimately, this paper contributes to our understanding of how to deliver content that suitably matches the user's interests and how they are perceived.
翻訳日:2023-03-19 11:38:54 公開日:2023-02-28
# 強化学習を加速するヒューマンインスパイアフレームワーク

Human-Inspired Framework to Accelerate Reinforcement Learning ( http://arxiv.org/abs/2303.08115v1 )

ライセンス: Link先を確認
Ali Beikmohammadi and Sindri Magn\'usson(参考訳) 深層強化学習(RL)はデータサイエンスにおける優れた意思決定の不可欠な部分となっているが、それでもサンプルの非効率さに悩まされている。 物理的相互作用が高価であり、システムの安全性を危険にさらす現実世界環境で、ディープRLを適用する場合、これは難しい。 本稿では,RLアルゴリズムのサンプル効率を向上させるために,困難なRLタスクの高速探索と学習を容易にする,人間に触発された新しいフレームワークを提案する。 主なアイデアは、まず学習エージェントに、主タスクへの難易度と進捗が徐々に増加する、よりシンプルで類似したタスクを提供することである。 提案手法では事前学習は不要である。 具体的には、単純なタスクの学習は1回のイテレーションでのみ行われる。 生成された知識は、値転送やポリシー転送を含む任意の伝達学習によって、計算複雑性を加味せずにサンプルの複雑さを減らし得る。 したがって、どんな目標、環境、強化学習アルゴリズムにも適用できます — 値ベースの方法とポリシーベースの方法、表形式の方法とディープRLメソッドの両方です。 提案手法は,図示目的のための単純なランダムウォークと,制約を伴うより困難な最適制御問題の両方について評価した。 実験により,RL学習アルゴリズムのサンプル効率向上,特に主課題が困難な場合,提案手法の有効性が示された。

While deep reinforcement learning (RL) is becoming an integral part of good decision-making in data science, it is still plagued with sample inefficiency. This can be challenging when applying deep-RL in real-world environments where physical interactions are expensive and can risk system safety. To improve the sample efficiency of RL algorithms, this paper proposes a novel human-inspired framework that facilitates fast exploration and learning for difficult RL tasks. The main idea is to first provide the learning agent with simpler but similar tasks that gradually grow in difficulty and progress toward the main task. The proposed method requires no pre-training phase. Specifically, the learning of simpler tasks is only done for one iteration. The generated knowledge could be used by any transfer learning, including value transfer and policy transfer, to reduce the sample complexity while not adding to the computational complexity. So, it can be applied to any goal, environment, and reinforcement learning algorithm - both value-based methods and policy-based methods and both tabular methods and deep-RL methods. We have evaluated our proposed framework on both a simple Random Walk for illustration purposes and on more challenging optimal control problems with constraint. The experiments show the good performance of our proposed framework in improving the sample efficiency of RL-learning algorithms, especially when the main task is difficult.
翻訳日:2023-03-19 11:38:22 公開日:2023-02-28
# 特徴量を用いた原子構造からの知識発見

Knowledge Discovery from Atomic Structures using Feature Importances ( http://arxiv.org/abs/2303.09453v1 )

ライセンス: Link先を確認
Joakim Linja and Joonas H\"am\"al\"ainen and Antti Pihlajam\"aki and Paavo Nieminen and Sami Malola and Hannu H\"akkinen and Tommi K\"arkk\"ainen(参考訳) 原子構造の構成要素間の相互作用の分子レベルでの理解は、様々な応用において新しい材料の設計に不可欠である。 この必要性は、原子の数と種類、化学組成、化学相互作用の性格に関する基本的な知識以上のものとなる。 より大きな図は量子レベルで行われ、密度汎関数理論(dft)を用いて対処できる。 しかし、DFTの使用は計算的な課税プロセスであり、その結果は、材料設計において有用な情報となる原子間相互作用に対する容易に解釈可能な洞察を提供するものではない。 原子間相互作用に対処する別の方法は、予測的なDFTサロゲートを構築して分析する、解釈可能な機械学習アプローチを使用することである。 本稿では,最近発表された解釈可能な距離ベース回帰法を改良した手法を提案する。 代表的な分子群と複雑なハイブリッドナノ粒子を用いた実験により,提案手法の有効性と有用性を確認した。

Molecular-level understanding of the interactions between the constituents of an atomic structure is essential for designing novel materials in various applications. This need goes beyond the basic knowledge of the number and types of atoms, their chemical composition, and the character of the chemical interactions. The bigger picture takes place on the quantum level which can be addressed by using the Density-functional theory (DFT). Use of DFT, however, is a computationally taxing process, and its results do not readily provide easily interpretable insight into the atomic interactions which would be useful information in material design. An alternative way to address atomic interactions is to use an interpretable machine learning approach, where a predictive DFT surrogate is constructed and analyzed. The purpose of this paper is to propose such a procedure using a modification of the recently published interpretable distance-based regression method. Our tests with a representative benchmark set of molecules and a complex hybrid nanoparticle confirm the viability and usefulness of the proposed approach.
翻訳日:2023-03-19 11:31:16 公開日:2023-02-28
# 知的支援システムの倫理性測定に向けて

Towards Measuring Ethicality of an Intelligent Assistive System ( http://arxiv.org/abs/2303.03929v1 )

ライセンス: Link先を確認
M. Salman Shaukat and J.-C. P\~oder and Sebastian Bader and Thomas Kirste(参考訳) 人工知能(ai)ベースのアシストシステム、いわゆるintelligent assistive technology(iat)は、日々、ユビキタスになってきている。 IATは、提供されたデータに基づいたインテリジェントなアシストを提供することで、人々の生活の質の向上を支援する。 そのようなITAの例としては、自動運転車、ロボットアシスタント、スマートヘルス管理ソリューションなどがある。 しかし、このような自律的な組織の存在は、これらのシステムの使用に関わる利害関係者に関する倫理的課題をもたらす。 IATが倫理的・ロジスティック的・コスト的な問題にかかわる倫理的規制にどのように準拠しているかを分析しようとすると、研究の欠如がある。 本稿では,上記の問題ステートメントと課題を踏まえ,補助システムの倫理性を測定する手法を提案する。 そこで我々は,室内環境における認知症者(PwD)のナビゲーションと支援をモデル化するシミュレーションツールを開発した。 このツールを利用することで、利害関係者の自律性、正義、受益性といった倫理的規制が、いかに異なる援助戦略が適合するかを分析する。

Artificial intelligence (AI) based assistive systems, so called intelligent assistive technology (IAT) are becoming increasingly ubiquitous by each day. IAT helps people in improving their quality of life by providing intelligent assistance based on the provided data. A few examples of such IATs include self-driving cars, robot assistants and smart-health management solutions. However, the presence of such autonomous entities poses ethical challenges concerning the stakeholders involved in using these systems. There is a lack of research when it comes to analysing how such IAT adheres to provided ethical regulations due to ethical, logistic and cost issues associated with such an analysis. In the light of the above-mentioned problem statement and issues, we present a method to measure the ethicality of an assistive system. To perform this task, we utilised our simulation tool that focuses on modelling navigation and assistance of Persons with Dementia (PwD) in indoor environments. By utilising this tool, we analyse how well different assistive strategies adhere to provided ethical regulations such as autonomy, justice and beneficence of the stakeholders.
翻訳日:2023-03-12 03:41:09 公開日:2023-02-28
# ブラックホール時空のアナログモデルにおける準正規モードの量子真空励起

Quantum vacuum excitation of a quasi-normal mode in an analog model of black hole spacetime ( http://arxiv.org/abs/2110.14452v3 )

ライセンス: Link先を確認
Maxime J Jacquet, Luca Giacomelli, Quentin Valnais, Malo Joly, Ferdinand Claude, Elisabeth Giacobino, Quentin Glorieux, Iacopo Carusotto and Alberto Bramati(参考訳) 地平線近傍の真空量子揺らぎはホーキング効果によって相関した放出を生じることが知られている。 我々は,ブラックホール時空における量子場理論のアナログモデルとして,微小キャビティ偏光子の駆動散逸量子流体を用い,相関放射を数値計算した。 ソニックホライズでのホーキング効果に加えて、量子揺らぎは、場の理論の準正規モードのスケール可能な定常励起をもたらす可能性があることを示す。 準正規モードの励起の観測可能なシグネチャは、空間密度変動やホーキング放射のスペクトルにも見られる。 これは、ブラックホール時空上の準正規モードの量子励起につながる内在的な揺らぎ駆動機構を示唆する。

Vacuum quantum fluctuations near horizons are known to yield correlated emission by the Hawking effect. We use a driven-dissipative quantum fluid of microcavity polaritons as an analog model of a quantum field theory on a black-hole spacetime and numerically calculate correlated emission. We show that, in addition to the Hawking effect at the sonic horizon, quantum fluctuations may result in a sizeable stationary excitation of a quasi-normal mode of the field theory. Observable signatures of the excitation of the quasi-normal mode are found in the spatial density fluctuations as well as in the spectrum of Hawking emission. This suggests an intrinsic fluctuation-driven mechanism leading to the quantum excitation of quasi-normal modes on black hole spacetimes.
翻訳日:2023-03-10 03:26:43 公開日:2023-02-28
# 量子スピンヘリックスは基底状態よりも安定:ヘリカル保護の開始

Quantum spin helices more stable than the ground state: onset of helical protection ( http://arxiv.org/abs/2302.02603v2 )

ライセンス: Link先を確認
Stefan K\"uhn, Felix Gerken, Lena Funcke, Tobias Hartung, Paolo Stornati, Karl Jansen, Thore Posske(参考訳) トポロジカル磁気構造はレジリエントな情報記憶の候補となる。 基本的な例は1次元易平面量子磁石のスピンヘリックスである。 それらの安定性を定量化するために、局所磁場が変動するスピン鎖に対する確率的シュリンガー方程式と時間依存摂動理論を数値的に実装する。スピン電流を最大化するヘリスと、最近発見された「ファントムヘリス」という2種類の量子スピンヘリスを発見した。 さらに、ヘリシティ自体(左回転または右回転)がさらに安定していることを示す。 分離ヘリカルセクタを連続スピン系の位相セクタに結合することにより,これらの知見を説明する。 結果として生じるヘリカル保護機構は、例えば超低温原子や固体系においてヘリカル量子構造を安定化させる、有望な現象である。 私たちの知る限り、以前は知られていなかった新しいタイプの幻のヘリスも特定します。

Topological magnetic structures are promising candidates for resilient information storage. An elementary example are spin helices in one-dimensional easy-plane quantum magnets. To quantify their stability, we numerically implement the stochastic Schr\"odinger equation and time-dependent perturbation theory for spin chains with fluctuating local magnetic fields. We find two classes of quantum spin helices that can reach and even exceed ground-state stability: Spin-current-maximizing helices and, for fine-tuned boundary conditions, the recently discovered "phantom helices". Beyond that, we show that the helicity itself (left- or right-rotating) is even more stable. We explain these findings by separated helical sectors and connect them to topological sectors in continuous spin systems. The resulting helical protection mechanism is a promising phenomenon towards stabilizing helical quantum structures, e.g., in ultracold atoms and solid state systems. We also identify an - up to our knowledge - previously unknown new type of phantom helices.
翻訳日:2023-03-05 05:47:14 公開日:2023-02-28
# ねじれた多層グラフェンのフラットバンドと高チャーン数

Flat Bands and High Chern Numbers in Twisted Multilayer Graphene ( http://arxiv.org/abs/2303.00103v1 )

ライセンス: Link先を確認
Mengxuan Yang(参考訳) 近年の Wang-Liu と Ledwith-Vishwanath-Khalaf の物理レビューレターに触発され,Berker-Embree-Wittsten-Zworski によって開発されたフレームワークを用いて,n$2層のベルナール積層グラフェンを小さな角度でねじったTarnopolsky-Kruchkov-Vishwanath キラルモデルについて検討した。 このモデルのマジックアングルは、多重度を持つキラルツイスト二層グラフェンのマジックアングルと全く同じであることを示す。 小層間トンネル電位の場合、トンネルパラメータをオンにしながらディラック点におけるバンド分離を計算する。 フラットバンド固有関数は、新しいテータ関数の引数を使って構成され、これはチャーン数 $-n$ の複素ラインバンドルが得られる。

Motivated by recent Physical Review Letters of Wang-Liu and Ledwith-Vishwanath-Khalaf, we study Tarnopolsky-Kruchkov-Vishwanath chiral model of two sheets of $n$-layer Bernal stacked graphene twisted by a small angle using the framework developed by Becker-Embree-Wittsten-Zworski. We show that magic angles of this model are exactly the same as magic angles of chiral twisted bilayer graphene with multiplicity. For small inter-layer tunneling potentials, we compute the band separation at Dirac points as we turning on the tunneling parameter. Flat band eigenfunctions are also constructed using a new theta function argument and this yields a complex line bundle with the Chern number $-n$.
翻訳日:2023-03-03 17:21:48 公開日:2023-02-28
# エンド・ツー・エンド多言語音声認識のための知識蒸留を用いた言語共通アダプタ学習

Language-Universal Adapter Learning with Knowledge Distillation for End-to-End Multilingual Speech Recognition ( http://arxiv.org/abs/2303.01249v1 )

ライセンス: Link先を確認
Zhijie Shen, Wu Guo, Bin Gu(参考訳) 本稿では,エンドツーエンドの多言語自動音声認識(ASR)のための事前学習モデルに基づく言語大学用アダプタ学習フレームワークを提案する。 音響モデリングでは、wav2vec 2.0事前学習されたモデルは、言語固有および言語共通アダプタを挿入することで微調整される。 オンライン知識蒸留は、言語固有の特徴と普遍的な特徴の両方を学習するために使用される。 また、言語識別子(LID)を活用することにより、言語情報の混乱も軽減される。 LIDでは、マルチヘッドアテンション出力の位置ワイドな修正を行う。 推論手順では、言語固有のアダプタは削除され、言語共通アダプタはアクティベートされる。 提案手法は、認識精度を改善し、共通多言語ASRシステムにおける言語数とアダプタパラメータ数の線形増加に対処する。 BABELデータセットの実験により,提案フレームワークの有効性が確認された。 従来の多言語モデルと比較すると、3.3%の絶対誤差率削減を達成している。 コードは、https://github.com/shen9712/UniversalAdapterLearningで入手できる。

In this paper, we propose a language-universal adapter learning framework based on a pre-trained model for end-to-end multilingual automatic speech recognition (ASR). For acoustic modeling, the wav2vec 2.0 pre-trained model is fine-tuned by inserting language-specific and language-universal adapters. An online knowledge distillation is then used to enable the language-universal adapters to learn both language-specific and universal features. The linguistic information confusion is also reduced by leveraging language identifiers (LIDs). With LIDs we perform a position-wise modification on the multi-head attention outputs. In the inference procedure, the language-specific adapters are removed while the language-universal adapters are kept activated. The proposed method improves the recognition accuracy and addresses the linear increase of the number of adapters' parameters with the number of languages in common multilingual ASR systems. Experiments on the BABEL dataset confirm the effectiveness of the proposed framework. Compared to the conventional multilingual model, a 3.3% absolute error rate reduction is achieved. The code is available at: https://github.com/shen9712/UniversalAdapterLearning.
翻訳日:2023-03-03 14:20:21 公開日:2023-02-28
# panacea:covid-19の誤情報自動検出システム

PANACEA: An Automated Misinformation Detection System on COVID-19 ( http://arxiv.org/abs/2303.01241v1 )

ライセンス: Link先を確認
Runcong Zhao, Miguel Arana-Catania, Lixing Zhu, Elena Kochkina, Lin Gui, Arkaitz Zubiaga, Rob Procter, Maria Liakata and Yulan He(参考訳) 本デモでは, 事実チェックと噂検出という2つのモジュールを備える, COVID-19関連クレームに対するWebベースの誤情報検出システムPANACEAを紹介する。 我々のファクトチェックモジュールは、自己アテンションネットワークを用いた新しい自然言語推論手法によってサポートされており、最先端のアプローチよりも優れています。 また、自動的正当性評価や、チェック対象のクレームに対するスタンスによる支持証拠のランク付けも可能である。 さらに、PANACEAは、知識ベースに頼るのではなく、関連するツイートのコメントネットワークに基づいて噂を検出することができる双方向グラフ畳み込みネットワークモデルを適用する。 この噂検出モジュールは、知識ベースが利用できない可能性がある初期段階のユーザに警告することで支援する。

In this demo, we introduce a web-based misinformation detection system PANACEA on COVID-19 related claims, which has two modules, fact-checking and rumour detection. Our fact-checking module, which is supported by novel natural language inference methods with a self-attention network, outperforms state-of-the-art approaches. It is also able to give automated veracity assessment and ranked supporting evidence with the stance towards the claim to be checked. In addition, PANACEA adapts the bi-directional graph convolutional networks model, which is able to detect rumours based on comment networks of related tweets, instead of relying on the knowledge base. This rumour detection module assists by warning the users in the early stages when a knowledge base may not be available.
翻訳日:2023-03-03 14:19:22 公開日:2023-02-28
# カシミール効果の存在下での黒体熱力学

Blackbody thermodynamics in the presence of Casimir's effect ( http://arxiv.org/abs/2112.13596v2 )

ライセンス: Link先を確認
E. S. Moreira Jr. and Heitor da Silva(参考訳) 本論文は, 壁が完全な導体でできている薄板内における温度T$の電磁放射の研究である。 面積$A$の2つの大きな平行壁は距離$d\ll \sqrt{A}$で区切られている。 熱力学パラメータとして$t$、$a$、$d$を取り、ブラウンとマクレイによってずっと前に計算された応力-エネルギー-運動量テンソルのアンサンブル平均のスラブ上の積分を含む手続きから自由エネルギーを得る。 どちらの熱力学系も、$kTd/\hbar c\gg 1$と$kTd/\hbar c\ll 1$は完全に対応している。 通常の黒体熱力学において不定義(あるいは自明)であると悪名高い熱力学量は、スラブの壁の境界条件の存在(カシミール効果)により、現在ではよく定義されている(非自明)。 これらの量間の関係は十分に解明されており、実験的に検証される可能性があると推測されている。 スラブ内の電磁放射は熱的に安定であるが、機械的に不安定である。 温度, 内部エネルギー, エントロピー, エンタルピーが一定となる熱力学過程を調べ, 非定型的な挙動を明らかにした。 例えば、気体から期待するものとは対照的に、$ktd/\hbar c\ll 1$のとき、「自由膨張」は熱力学の第2法則に従って「自由収縮」となる。 公式の整合性の確認として,様々なカルノーサイクルが検討され,カルノーの効率を正しく導くことを検証した。

This paper is a study of the electromagnetic radiation at temperature $T$ in a thin slab whose walls are made of a perfect conductor. The two large parallel walls of area $A$ are apart by a distance $d\ll \sqrt{A}$. We take $T$, $A$, and $d$ as thermodynamic parameters, obtaining the free energy from a procedure that involves the integration over the slab of the ensemble average of the stress-energy-momentum tensor calculated long ago by Brown and Maclay. Both thermodynamic regimes $kTd/\hbar c\gg 1$ and $kTd/\hbar c\ll 1$ are fully addressed. We show that certain thermodynamic quantities which are notoriously ill defined (or trivial) in ordinary blackbody thermodynamics are now well defined (or nontrivial) due to presence of boundary conditions at the walls of the slab ("Casimir's effect"). The relationships among such quantities are fully explored and it is speculated that they may be experimentally checked. Stability is addressed, showing that electromagnetic radiation in the slab is thermally stable; but mechanically unstable. We investigate thermodynamic processes where temperature, internal energy, entropy and enthalpy are each taken to be constant, revealing rather atypical behaviors. For example, in sharp contrast with what one would expect from a gas, when $kTd/\hbar c\ll 1$, "free expansion" gives place to "free contraction'' in accordance with the second law of thermodynamics. As a check of consistency of the formulae we remark that various Carnot cycles have been examined and verified that they correctly lead to Carnot's efficiency.
翻訳日:2023-03-03 03:52:03 公開日:2023-02-28
# 量子メルクルツリー

Quantum Merkle Trees ( http://arxiv.org/abs/2112.14317v3 )

ライセンス: Link先を確認
Lijie Chen and Ramis Movassagh(参考訳) コミットスキーム(Commitment scheme)は、暗号における中心的なタスクであり、パーティー(通常は証明者と呼ばれる)は変更しない約束で情報(例えばビット文字列)を格納する。 この情報は(典型的には検証者と呼ばれる)他の当事者によってアクセスされ、後にその情報を学び、それが混じっていないことを検証することができる。 メルクルツリーは簡潔な方法で行うためのよく知られた構成であり、検証者は正直な証明者から短い証明を受け取って情報の一部を学習することができる。 古典暗号においてその重要性はあったが、メルクルツリーの量子アナログは存在しなかった。 量子ランダムオラクルモデル(QROM)を用いた直接一般化は、安全ではないようである。 本研究では,量子メルクル木を提案する。 それは私たちがQuantum Haar Random Oracle Model (QHROM)と呼ぶものに基づいている。 QHROM では、証明者も検証者もハールランダム量子オラクル G とその逆数にアクセスすることができる。 量子メルクル木を用いてgap-k局所ハミルトニアン問題に対する簡潔な量子引数を提案する。 我々は、QHROMにおける半正直な証明者に対して安全であることを証明し、その一般的なセキュリティを推測する。 量子PCP予想が真であると仮定すると、この簡潔な議論はすべてのQMAにまで及ぶ。 この研究は、多くの興味深いオープンリサーチの問題を引き起こす。

Commitment scheme is a central task in cryptography, where a party (typically called a prover) stores a piece of information (e.g., a bit string) with the promise of not changing it. This information can be accessed by another party (typically called the verifier), who can later learn the information and verify that it was not meddled with. Merkle tree is a well-known construction for doing so in a succinct manner, in which the verifier can learn any part of the information by receiving a short proof from the honest prover. Despite its significance in classical cryptography, there was no quantum analog of the Merkle tree. A direct generalization using the Quantum Random Oracle Model (QROM) does not seem to be secure. In this work, we propose the quantum Merkle tree. It is based on what we call the Quantum Haar Random Oracle Model (QHROM). In QHROM, both the prover and the verifier have access to a Haar random quantum oracle G and its inverse. Using the quantum Merkle tree, we propose a succinct quantum argument for the Gap-k-Local-Hamiltonian problem. We prove it is secure against semi-honest provers in QHROM and conjecture its general security. Assuming the Quantum PCP conjecture is true, this succinct argument extends to all of QMA. This work raises a number of interesting open research problems.
翻訳日:2023-03-03 01:26:22 公開日:2023-02-28
# クラスタリングのためのマルチビューセマンティクス一貫性に基づく情報ボトルネック

Multi-view Semantic Consistency based Information Bottleneck for Clustering ( http://arxiv.org/abs/2303.00002v1 )

ライセンス: Link先を確認
Wenbiao Yan, Jihua Zhu, Yiyang Zhou, Yifei Wang, Qinghai Zheng(参考訳) マルチビュークラスタリングは、教師なしクラスタリングにマルチソース情報を利用することができる。 既存のほとんどの手法は、個人情報やノイズの影響を無視しながら、融合表現行列の学習に重点を置いている。 そこで本研究では,マルチビュー・セマンティクス・一貫性に基づくクラスタリングのための情報ボトルネック(mscib)を提案する。 特に、MSCIBは、異なる視点における情報ボトルネックの学習プロセスを改善するために、セマンティック一貫性を追求している。 意味空間における複数のビューのアライメント操作を行い、協調してマルチビューデータの貴重な一貫性情報を得る。 このように、マルチビューデータからの学習されたセマンティック一貫性は、情報のボトルネックを改善し、一貫性のある情報をより正確に識別し、クラスタリングのためのより差別的な一貫性のある情報を持つ統一された特徴表現を学習することができる。 様々なタイプのマルチビューデータセットの実験により、MSCIBが最先端のパフォーマンスを達成することが示された。

Multi-view clustering can make use of multi-source information for unsupervised clustering. Most existing methods focus on learning a fused representation matrix, while ignoring the influence of private information and noise. To address this limitation, we introduce a novel Multi-view Semantic Consistency based Information Bottleneck for clustering (MSCIB). Specifically, MSCIB pursues semantic consistency to improve the learning process of information bottleneck for different views. It conducts the alignment operation of multiple views in the semantic space and jointly achieves the valuable consistent information of multi-view data. In this way, the learned semantic consistency from multi-view data can improve the information bottleneck to more exactly distinguish the consistent information and learn a unified feature representation with more discriminative consistent information for clustering. Experiments on various types of multi-view datasets show that MSCIB achieves state-of-the-art performance.
翻訳日:2023-03-02 17:15:35 公開日:2023-02-28
# 2重正則プーリングスキームを用いたプールデータからの効率的な近似復元

Efficient Approximate Recovery from Pooled Data Using Doubly Regular Pooling Schemes ( http://arxiv.org/abs/2303.00043v1 )

ライセンス: Link先を確認
Max Hahn-Klimroth, Dominik Kaaser, Malin Rau(参考訳) プールされたデータ問題では、隠された状態ビットを持つ$n$エージェント、0$または$1$が与えられます。 隠れた状態は未知であり、基礎となる真理は$\sigma$であると見なすことができる。 その事実を明らかにするために、複数のエージェントを同時にクエリするクエリ方法が与えられた。 各クエリは、クエリされたエージェントの状態の合計を報告します。 私たちのゴールは、できるだけ少ないクエリを使って隠れた状態ビットを学ぶことです。 これまでのところ、ほとんどの文献は隠れた状態ビットの正確な再構築を扱っている。 我々は、少数のエージェントを誤って分類できる、より緩和された変種について研究する。 これは、クエリの結果がランダムノイズを受けるプールデータ問題において、特にノイズに関係している。 この設定では、エージェントをクエリに割り当てる2つの定期的なテスト設計を提供します。 この設計のために,隠れたビットを欲深い方法で推定する近似再構成アルゴリズムを解析する。 本稿では,アルゴリズムの性能,誤差確率,近似品質を厳密に分析する。 主な技術的ノベルティとして、我々の分析はノイズの程度と$\sigma$のスパーシティで一様である。 最後に、シミュレーションは我々の理論的な結果を裏付け、我々のアルゴリズムが現実的なサンプルサイズでうまく機能することを示す強力な実証的な証拠を提供する。

In the pooled data problem we are given $n$ agents with hidden state bits, either $0$ or $1$. The hidden states are unknown and can be seen as the underlying ground truth $\sigma$. To uncover that ground truth, we are given a querying method that queries multiple agents at a time. Each query reports the sum of the states of the queried agents. Our goal is to learn the hidden state bits using as few queries as possible. So far, most literature deals with exact reconstruction of all hidden state bits. We study a more relaxed variant in which we allow a small fraction of agents to be classified incorrectly. This becomes particularly relevant in the noisy variant of the pooled data problem where the queries' results are subject to random noise. In this setting, we provide a doubly regular test design that assigns agents to queries. For this design we analyze an approximate reconstruction algorithm that estimates the hidden bits in a greedy fashion. We give a rigorous analysis of the algorithm's performance, its error probability, and its approximation quality. As a main technical novelty, our analysis is uniform in the degree of noise and the sparsity of $\sigma$. Finally, simulations back up our theoretical findings and provide strong empirical evidence that our algorithm works well for realistic sample sizes.
翻訳日:2023-03-02 17:07:00 公開日:2023-02-28
# 汎用的映像モーメント検索に向けて:画像テキスト事前学習へのビジュアルダイナミックインジェクション

Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training ( http://arxiv.org/abs/2303.00040v1 )

ライセンス: Link先を確認
Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu(参考訳) 視覚とテキストの相関関係はビデオモーメント検索(VMR)において重要であるが,既存の手法では視覚とテキストの理解のために,個別の事前学習機能抽出器に大きく依存している。 十分な時間境界アノテーションがなければ、ユニバーサルなビデオテキストアライメントを学ぶことは簡単ではない。 本研究では,大規模画像テキストデータから派生したマルチモーダル相関を探索し,vmrの一般化を容易にする。 映像変化のキャプチャにおける画像テキスト事前学習モデルの限界に対処するため,映像モーメントの理解を促進するため,視覚動的インジェクション(vdi)と呼ばれる汎用的な手法を提案する。 既存のvmr手法は時相認識ビデオ機能の構築に重点を置いているが、時相変化に関するテキスト記述を認識することも重要であるが、元々は静的画像と文をマッチングして事前学習では見過ごされていた。 そこで,映像フレームから映像コンテキストと空間動的情報を抽出し,映像変化を表すフレーズ(例えば動詞)とのアライメントを明示的に強制する。 これにより、ビデオ中の可能性のある視覚および動きパターンを対応するテキスト埋め込み(インジェクション)にエンコードし、より正確なビデオテキストアライメントを可能にする。 我々は2つのVMRベンチマークデータセット(Charades-STAとActivityNet-Captions)で広範な実験を行い、最先端のパフォーマンスを実現した。 特に、VDIは、新規なシーンと語彙を含むテストサンプルが配布外分割でテストされる際、顕著な利点をもたらす。

The correlation between the vision and text is essential for video moment retrieval (VMR), however, existing methods heavily rely on separate pre-training feature extractors for visual and textual understanding. Without sufficient temporal boundary annotations, it is non-trivial to learn universal video-text alignments. In this work, we explore multi-modal correlations derived from large-scale image-text data to facilitate generalisable VMR. To address the limitations of image-text pre-training models on capturing the video changes, we propose a generic method, referred to as Visual-Dynamic Injection (VDI), to empower the model's understanding of video moments. Whilst existing VMR methods are focusing on building temporal-aware video features, being aware of the text descriptions about the temporal changes is also critical but originally overlooked in pre-training by matching static images with sentences. Therefore, we extract visual context and spatial dynamic information from video frames and explicitly enforce their alignments with the phrases describing video changes (e.g. verb). By doing so, the potentially relevant visual and motion patterns in videos are encoded in the corresponding text embeddings (injected) so to enable more accurate video-text alignments. We conduct extensive experiments on two VMR benchmark datasets (Charades-STA and ActivityNet-Captions) and achieve state-of-the-art performances. Especially, VDI yields notable advantages when being tested on the out-of-distribution splits where the testing samples involve novel scenes and vocabulary.
翻訳日:2023-03-02 17:06:41 公開日:2023-02-28
# M-L2O:テスト時間高速自己適応による一般化学習最適化を目指して

M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast Self-Adaptation ( http://arxiv.org/abs/2303.00039v1 )

ライセンス: Link先を確認
Junjie Yang, Xuxi Chen, Tianlong Chen, Zhangyang Wang, Yingbin Liang(参考訳) 最適化学習(L2O)は,「オーバーフィッティング」特定のタスクタイプによって複雑なタスクの最適化手順を著しく加速し,解析最適化に比べて性能が向上するなど,注目を集めている。一般的には,サンプル問題から学習することでパラメータ化最適化手法(すなわち「最適化手法」)を開発する。 このデータ駆動プロシージャは、トレーニングで見られる問題、すなわち、同じ ``task distribution" から引き出すような問題を効率的に解決できるl2oを生成する。 しかし、そのような学習されたオプティマイザは、新しいテスト問題がトレーニングタスクの分布からかなり逸脱した時にしばしば苦労する。 本稿では,この課題に対する潜在的な解決策を,数ステップでテストタイムの自己適応が可能なl2oオプティマイザをメタトレーニングすることで検証する。 理論的に L2O の一般化を特徴付けるとともに,提案するフレームワーク (M-L2O と呼ばれる) が,最適化器の重み付けに適応した初期点の位置を求めることにより,高速なタスク適応を促進することを示す。 LASSO や Quadratic のような古典的なタスクに関する実証的な観測は、M-L2O がバニラ L2O よりもかなり早く収束し、わずか5ドル(約540円)の順応しかできないことを示した。 コードはhttps://github.com/VITA-Group/M-L2Oで入手できる。

Learning to Optimize (L2O) has drawn increasing attention as it often remarkably accelerates the optimization procedure of complex tasks by ``overfitting" specific task type, leading to enhanced performance compared to analytical optimizers. Generally, L2O develops a parameterized optimization method (i.e., ``optimizer") by learning from solving sample problems. This data-driven procedure yields L2O that can efficiently solve problems similar to those seen in training, that is, drawn from the same ``task distribution". However, such learned optimizers often struggle when new test problems come with a substantially deviation from the training task distribution. This paper investigates a potential solution to this open challenge, by meta-training an L2O optimizer that can perform fast test-time self-adaptation to an out-of-distribution task, in only a few steps. We theoretically characterize the generalization of L2O, and further show that our proposed framework (termed as M-L2O) provably facilitates rapid task adaptation by locating well-adapted initial points for the optimizer weight. Empirical observations on several classic tasks like LASSO and Quadratic, demonstrate that M-L2O converges significantly faster than vanilla L2O with only $5$ steps of adaptation, echoing our theoretical results. Codes are available in https://github.com/VITA-Group/M-L2O.
翻訳日:2023-03-02 17:06:13 公開日:2023-02-28
# ピアツーピアプライバシを用いた間欠接続ネットワークにおける協調平均推定

Collaborative Mean Estimation over Intermittently Connected Networks with Peer-To-Peer Privacy ( http://arxiv.org/abs/2303.00035v1 )

ライセンス: Link先を確認
Rajarshi Saha, Mohamed Seif, Michal Yemini, Andrea J. Goldsmith, H. Vincent Poor(参考訳) 本研究は,分散ノード間でローカライズされたデータサンプルに対して,中央サーバの助けを借りてグローバル統計値を学ぶことを目的とした,間欠接続を持つネットワーク上での分散平均推定(dme)の問題を考える。 間欠リンクの影響を軽減するために、ノードは隣人と協調して、中央サーバに転送するローカルコンセンサスを計算することができる。 このようなセットアップでは、任意のノード間の通信は、ローカルな差分プライバシー制約を満たす必要がある。 ノード間のデータ共有による協調中継とプライバシリークのトレードオフについて検討し、その後、最適なトレードオフを実現するためにDMEのための新たな個人共同アルゴリズムを提案する。 最後に,理論的な知見を裏付ける数値シミュレーションを行う。

This work considers the problem of Distributed Mean Estimation (DME) over networks with intermittent connectivity, where the goal is to learn a global statistic over the data samples localized across distributed nodes with the help of a central server. To mitigate the impact of intermittent links, nodes can collaborate with their neighbors to compute local consensus which they forward to the central server. In such a setup, the communications between any pair of nodes must satisfy local differential privacy constraints. We study the tradeoff between collaborative relaying and privacy leakage due to the additional data sharing among nodes and, subsequently, propose a novel differentially private collaborative algorithm for DME to achieve the optimal tradeoff. Finally, we present numerical simulations to substantiate our theoretical findings.
翻訳日:2023-03-02 17:05:42 公開日:2023-02-28
# Tiny Classifier Circuits: タブラルデータのためのアクセラレータの進化

Tiny Classifier Circuits: Evolving Accelerators for Tabular Data ( http://arxiv.org/abs/2303.00031v1 )

ライセンス: Link先を確認
Konstantinos Iordanou, Timothy Atkinson, Emre Ozer, Jedrzej Kufel, John Biggs, Gavin Brown and Mikel Lujan(参考訳) エッジコンピューティングのための典型的な機械学習(ML)開発サイクルは、モデルトレーニング中のパフォーマンスを最大化し、トレーニングされたモデルのメモリ/領域フットプリントを最小化し、CPU、GPU、マイクロコントローラ、カスタムハードウェアアクセラレータをターゲットにしたエッジデバイスにデプロイすることである。 本稿では,従来のML手法に匹敵する予測性能を持つ表データの分類のための予測回路を自動的に生成する手法を提案する。 提案手法は、進化的アルゴリズムを用いて論理ゲートの空間を探索し、学習予測精度を最大化する分類回路を自動生成する。 分類回路は非常に小さく(すなわち300以上の論理ゲートで構成される)、「Tiny Classifier」回路と呼ばれ、ASICやFPGAで効率的に実装できる。 そこで我々は,多層パーセプトロンを用いたニューラルネットワークやAmazonのAutoGluon,GoogleのTabNetなどの従来のML技術と比較し,多層パーセプトロンを用いた自動Tiny分類回路生成手法や"Auto Tiny Classifiers"を実証的に評価した。 Tiny Classifiersは数百の論理ゲートに制約されているが、予測性能の統計的差はMLベースラインと比較して有意である。 シリコンチップとして合成すると、小さな分類器は8-56倍の面積と4-22倍の電力を消費する。 フレキシブル基板(FlexIC)上の超低価格チップとして実装されると、10-75倍の面積を占め、最もハードウェア効率のよいMLベースラインに比べて13-75倍の電力を消費する。 fpgaでは、小さな分類器が3-11倍のリソースを消費する。

A typical machine learning (ML) development cycle for edge computing is to maximise the performance during model training and then minimise the memory/area footprint of the trained model for deployment on edge devices targeting CPUs, GPUs, microcontrollers, or custom hardware accelerators. This paper proposes a methodology for automatically generating predictor circuits for classification of tabular data with comparable prediction performance to conventional ML techniques while using substantially fewer hardware resources and power. The proposed methodology uses an evolutionary algorithm to search over the space of logic gates and automatically generates a classifier circuit with maximised training prediction accuracy. Classifier circuits are so tiny (i.e., consisting of no more than 300 logic gates) that they are called "Tiny Classifier" circuits, and can efficiently be implemented in ASIC or on an FPGA. We empirically evaluate the automatic Tiny Classifier circuit generation methodology or "Auto Tiny Classifiers" on a wide range of tabular datasets, and compare it against conventional ML techniques such as Amazon's AutoGluon, Google's TabNet and a neural search over Multi-Layer Perceptrons. Despite Tiny Classifiers being constrained to a few hundred logic gates, we observe no statistically significant difference in prediction performance in comparison to the best-performing ML baseline. When synthesised as a Silicon chip, Tiny Classifiers use 8-56x less area and 4-22x less power. When implemented as an ultra-low cost chip on a flexible substrate (i.e., FlexIC), they occupy 10-75x less area and consume 13-75x less power compared to the most hardware-efficient ML baseline. On an FPGA, Tiny Classifiers consume 3-11x fewer resources.
翻訳日:2023-03-02 17:05:28 公開日:2023-02-28
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置

Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v1 )

ライセンス: Link先を確認
Kalvik Jakkala, Srinivas Akella(参考訳) 本研究では,空間的(あるいは時空間的に)相関現象を監視するセンサ配置問題に対処するために,スパースガウス過程(SGP)に基づく新しいアプローチを提案する。 既存のガウス過程(GP)に基づくセンサ配置手法は、GPを用いて現象をモデル化し、その後環境の離散化された表現におけるセンサ位置を最適化する。 提案手法では,SGPをランダムにサンプル化した環境に適合させ,学習したSGPの誘導点が連続空間におけるセンサ配置問題を本質的に解くことを示す。 SGPは環境の離散化を回避し、計算コストを3乗から線形に削減する。 センサ配置の候補集合に制限された場合、SGPの最適化で厳密な逐次選択アルゴリズムを用いて良い解を求めることができる。 また、割当問題を用いて、連続空間の解を離散解空間に効率的にマッピングし、一斉に最適化された離散センサ配置を与える手法を提案する。 さらに,効率の良い変換手法を用いて任意の視野形状(fov)の非点センサをモデル化する手法を一般化した。 最後に,sgp文献から得られた理論的結果を活用して,必要なセンサ数と解配置の質を限定した。 実世界の2つのデータセットに対する実験結果から,我々のアプローチは従来と同等のソリューションを生成できる一方で,極めて高速であることがわかった。 また,これまで実現できなかったスケールで,非点fovセンサと時空間相関現象の解配置を実証した。

We present a novel approach based on sparse Gaussian processes (SGPs) to address the sensor placement problem for monitoring spatially (or spatiotemporally) correlated phenomena such as temperature. Existing Gaussian process (GP) based sensor placement approaches use GPs to model the phenomena and subsequently optimize the sensor locations in a discretized representation of the environment. In our approach, we fit an SGP to randomly sampled unlabeled locations in the environment and show that the learned inducing points of the SGP inherently solve the sensor placement problem in continuous spaces. Using SGPs avoids discretizing the environment and reduces the computation cost from cubic to linear complexity. When restricted to a candidate set of sensor placement locations, we can use greedy sequential selection algorithms on the SGP's optimization bound to find good solutions. We also present an approach to efficiently map our continuous space solutions to discrete solution spaces using the assignment problem, which gives us discrete sensor placements optimized in unison. Moreover, we generalize our approach to model non-point sensors with an arbitrary field-of-view (FoV) shape using an efficient transformation technique. Finally, we leverage theoretical results from the SGP literature to bound the number of required sensors and the quality of the solution placements. Our experimental results on two real-world datasets show that our approaches generate solutions consistently on par with the prior state-of-the-art approach while being substantially faster. We also demonstrate our solution placements for non-point FoV sensors and a spatiotemporally correlated phenomenon on a scale that was previously infeasible.
翻訳日:2023-03-02 17:04:56 公開日:2023-02-28
# 量子平衡と測定 --不確かさ関係から得られる速度、リアプノフ指数および輸送係数の境界と実験データとの比較

Quantum equilibration and measurements -- bounds on speeds, Lyapunov exponents, and transport coefficients obtained from the uncertainty relations and their comparison with experimental data ( http://arxiv.org/abs/2303.00021v1 )

ライセンス: Link先を確認
Saurish Chakrabarty and Zohar Nussinov(参考訳) 量子多体系における局所量子力学的不確実性関係に関する最近の研究について述べる。 これらのことは、速度、加速、緩和時間、空間勾配、リャプノフ指数などの量に対する基本的な境界をもたらす。 さらに, 粘度, 拡散定数, 熱伝導率などの種々の輸送係数の境界を求める。 これらの境界のいくつかは、マルダセナ、シェンカー、スタンフォードによるカオスの境界など、初期の予想と関係している。 我々のアプローチは、かなり一般的な設定で正確な境界を得る直接的な方法である。 我々は,無関係な用語を可能な限り取り除き,非局所的な用語を除去する局所的量に対する不確実性関係を用いる。 境界値の有効性を評価するために,実験データから得られる典型値とそれらの数値を短時間で比較する。 様々な場合において、我々が得られる境界の近似的な単純化された変種、すなわち実験値に匹敵するかなり厳密になる。 これらの考慮は、熱平衡を達成するための最小限の時間に繋がる。 量子測定と平衡の間の予想された関係に基づいて、我々の境界は、より投機的に、測定が平衡値に安定するための最小の時間スケールを示唆する。

We discuss our recent study of local quantum mechanical uncertainty relations in quantum many body systems. These lead to fundamental bounds for quantities such as the speed, acceleration, relaxation times, spatial gradients and the Lyapunov exponents. We additionally obtain bounds on various transport coefficients like the viscosity, the diffusion constant, and the thermal conductivity. Some of these bounds are related to earlier conjectures, such as the bound on chaos by Maldacena, Shenker and Stanford while others are new. Our approach is a direct way of obtaining exact bounds in fairly general settings. We employ uncertainty relations for local quantities from which we strip off irrelevant terms as much as possible, thereby removing non-local terms. To gauge the utility of our bounds, we briefly compare their numerical values with typical values available from experimental data. In various cases, approximate simplified variants of the bounds that we obtain can become fairly tight, i.e., comparable to experimental values. These considerations lead to a minimal time for thermal equilibrium to be achieved. Building on a conjectured relation between quantum measurements and equilibration, our bounds, far more speculatively, suggest a minimal time scale for measurements to stabilize to equilibrium values.
翻訳日:2023-03-02 17:04:30 公開日:2023-02-28
# ファイバーキャビティに結合したナノ粒子中の単一イオンの検出

Detection of single ions in a nanoparticle coupled to a fiber cavity ( http://arxiv.org/abs/2303.00017v1 )

ライセンス: Link先を確認
Chetan Deshmukh and Eduardo Beattie and Bernardo Casabone and Samuele Grandi and Diana Serrano and Alban Ferrier and Philippe Goldner and David Hunger and Hugues de Riedmatten(参考訳) 多くの量子情報プロトコルは、長い時間にわたって情報の保存と操作を必要とし、長い距離にわたって量子ネットワークのノード間の交換を必要とする。 これらのプロトコルの実装には先進的な量子ハードウェアが必要で、例えば、通信帯域内の効率的な光インターフェースを持つ長寿命かつ相互作用する量子ビットのレジスタを特徴付ける。 本稿では,光子を1536nmのファイバーキャビティに配置したエルビウムドープナノ粒子中の単一固体イオンをパーセルで検出する。 空洞のオープンアクセス設計により、空間と周波数の両方で完全なチューニングが可能となり、個々の粒子とイオンを選択できる。 イオンは、以前の実現よりも2桁小さい体積で閉じ込められ、イオンが相互作用できる数ナノメートルだけ離れている確率が高まる。 本報告では, 放射数率と線幅の飽和を示す個々のスペクトル特性を, 2レベルシステムに期待されるように検出する。 また、未修正の$g^{(2)} \left (0 \right )$ of 0.24(5) を出力されたフィールドに対して報告し、単一のエミッタの存在を確認する。 我々の完全ファイバ集積システムは、当初想定されていた量子ハードウェアの実現に向けた重要なステップである。

Many quantum information protocols require the storage and manipulation of information over long times, and its exchange between nodes of a quantum network across long distances. Implementing these protocols requires an advanced quantum hardware, featuring, for example, a register of long-lived and interacting qubits with an efficient optical interface in the telecommunication band. Here we present the Purcell-enhanced detection of single solid-state ions in erbium-doped nanoparticles placed in a fiber cavity, emitting photons at 1536 nm. The open-access design of the cavity allows for complete tunability both in space and frequency, selecting individual particles and ions. The ions are confined in a volume two orders of magnitude smaller than in previous realizations, increasing the probability of finding ions separated only by a few nanometers which could then interact. We report the detection of individual spectral features presenting saturation of the emission count rate and linewidth, as expected for two-level systems. We also report an uncorrected $g^{(2)} \left ( 0 \right )$ of 0.24(5) for the emitted field, confirming the presence of a single emitter. Our fully fiber-integrated system is an important step towards the realization of the initially envisioned quantum hardware.
翻訳日:2023-03-02 17:04:11 公開日:2023-02-28
# 強化学習を用いた複数操作点を持つ LLC-Converter のパラメータ最適化

Parameter Optimization of LLC-Converter with multiple operation points using Reinforcement Learning ( http://arxiv.org/abs/2303.00004v1 )

ライセンス: Link先を確認
Georg Kruse, Dominik Happel, Stefan Ditze, Stefan Ehrlich, Andreas Rosskopf(参考訳) 電気回路の最適化は、専門家が行う困難で時間を要するプロセスであるが、より洗練されたアルゴリズムによっても行われる。 本稿では,異なる出力電力に対応する複数の動作点におけるLLCコンバータを,異なるスイッチング周波数で高いコンバータ効率で最適化するために,強化学習(RL)アプローチを適用する。 訓練期間中、rlエージェントは、予め定義された範囲内の任意の目的および境界条件の最適化を可能にする問題特定最適化ポリシーを学習する。 その結果、トレーニングされたRLエージェントは、基本調和近似(FHA)を用いたLLCコンバータシミュレーションに基づく新しい最適化問題を、電力効率90%以上の2つの演算点に対して50段階以内で解くことができることがわかった。 したがって、このAI技術は、パワーエレクトロニクスなど分野におけるデータ駆動型戦略抽出によって、専門家主導の設計プロセスを強化する可能性を秘めている。

The optimization of electrical circuits is a difficult and time-consuming process performed by experts, but also increasingly by sophisticated algorithms. In this paper, a reinforcement learning (RL) approach is adapted to optimize a LLC converter at multiple operation points corresponding to different output powers at high converter efficiency at different switching frequencies. During a training period, the RL agent learns a problem specific optimization policy enabling optimizations for any objective and boundary condition within a pre-defined range. The results show, that the trained RL agent is able to solve new optimization problems based on LLC converter simulations using Fundamental Harmonic Approximation (FHA) within 50 tuning steps for two operation points with power efficiencies greater than 90%. Therefore, this AI technique provides the potential to augment expert-driven design processes with data-driven strategy extraction in the field of power electronics and beyond.
翻訳日:2023-03-02 17:03:48 公開日:2023-02-28
# 隠れた変数のスペクトログラフは可能か?

Is a spectrograph of hidden variables possible? ( http://arxiv.org/abs/2303.00003v1 )

ライセンス: Link先を確認
Alejandro A. Hnilo(参考訳) 隠れ変数のゲダンケンの「スペクトル」が実際の(例えば波長)スペクトルとして振る舞うという「リアリズム」の新たな定義が提案されている。 問題は、この定義はベルの不等式の導出をそれ自体で許しているのかである。 もしそうなら、そのような分光器は不可能であり、ベルの不等式が破られることが観察される。 この短い論文では、そのような分光器はベルの不等式違反と互換性があると報告されている。 この結果、ベルの不等式を導出するために必要な仮説に関する論争に新たな光が当たっている。 特に、"Spectrograph's Realism" と "Locality" は、ベルの不等式を導出する仮説が異なることが証明されている。

A new definition of "Realism" is proposed: it is that a gedanken "spectrograph" of hidden variables behaves as an actual (say, wavelength) spectrograph. The question is: does this definition allow, by itself, the derivation of Bell's inequalities? If it were, then such a spectrograph would be impossible, for Bell's inequalities are observed to be violated. In this short paper it is reported that, on the contrary, such spectrograph is compatible with the violation of Bell's inequalities. This result puts some new light on the controversy about the hypotheses necessary to derive Bell's inequalities. In particular, "Spectrograph's Realism", and "Locality", are proven to be different, and both necessary, hypotheses to derive Bell's inequalities.
翻訳日:2023-03-02 17:03:35 公開日:2023-02-28
# Tainted Love:オンラインロマンス詐欺のシステムレビュー

Tainted Love: A Systematic Review of Online Romance Fraud ( http://arxiv.org/abs/2303.00070v1 )

ライセンス: Link先を確認
Alexander Bilz, Lynsay A. Shepherd, Graham I. Johnson(参考訳) ロマンス詐欺とは、サイバー犯罪者がオンラインデートプラットフォーム上でロマンチックな関係をつくりだす行為である。 サイバー犯罪の残酷な形態であり、被害者は悲惨な状況に陥り、しばしば財政破綻に直面する。 我々は,現代的質的,定量的な証拠を体系的にレビューし,合成することによって,ロマンス詐欺の文学的景観を特徴づけ,研究者や実践者の理解を深める。 本研究は,被害要因の解明と,恋愛詐欺の緩和に向けた対策を検討することで,現場の概観を提供するものである。 ロマンス詐欺に関する用語を用いて10の学術データベースとウェブサイトを検索した。 検出された研究はスクリーニングされ、高レベルのメタデータと発見が抽出され、合成され、対比された。 この方法論はPRISMAガイドラインに従い、合計232の論文が審査された。 最終分析では,82論文を適性評価し,44論文を収録した。 主な貢献は, ロマンス詐欺のプロファイル, ロマンス詐欺の緩和対策, 詐欺師や被害者となることを前提とした要因の3つであった。 文学のコーパスの増大にもかかわらず、経験的または実験的な試験の総数は限られていた。 本論文は, 実践者, 法執行機関, 産業に対する今後の研究・被害者介入戦略の道程をまとめたものである。

Romance fraud involves cybercriminals engineering a romantic relationship on online dating platforms. It is a cruel form of cybercrime whereby victims are left heartbroken, often facing financial ruin. We characterise the literary landscape on romance fraud, advancing the understanding of researchers and practitioners by systematically reviewing and synthesising contemporary qualitative and quantitative evidence. The systematic review provides an overview of the field by establishing influencing factors of victimhood and exploring countermeasures for mitigating romance scams. We searched ten scholarly databases and websites using terms related to romance fraud. Studies identified were screened, and high-level metadata and findings were extracted, synthesised, and contrasted. The methodology followed the PRISMA guidelines: a total of 232 papers were screened. Eighty-two papers were assessed for eligibility, and 44 were included in the final analysis. Three main contributions were identified: profiles of romance scams, countermeasures for mitigating romance scams, and factors that predispose an individual to become a scammer or a victim. Despite a growing corpus of literature, the total number of empirical or experimental examinations remained limited. The paper concludes with avenues for future research and victimhood intervention strategies for practitioners, law enforcement, and industry.
翻訳日:2023-03-02 16:57:28 公開日:2023-02-28
# ClArTTS: オープンソースの古典アラビア語テキスト音声コーパス

ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus ( http://arxiv.org/abs/2303.00069v1 )

ライセンス: Link先を確認
Ajinkya Kulkarni and Atharva Kulkarni and Sara Abedalmonem Mohammad Shatnawi and Hanan Aldarmaki(参考訳) 現在、エンドツーエンドのニューラルモデルを用いて高品質な音声データで訓練されたテキスト音声合成システム(TTS)は、人間の音声に近づきやすく、自然な音声を生成することができる。 これらのモデルは、プロが録音した比較的大きなシングルスピーカーで訓練され、典型的にはオーディオブックから抽出される。 一方、この種の自由な音声コーパスが不足しているため、アラビア語のTTS研究と開発において大きなギャップが存在する。 既存のアラビア語音声コーパスのほとんどは、記録条件と品質の異なるマルチスピーカーカジュアル音声を含むため、TS訓練には適していないが、音声合成のためにキュレートされたコーパスは一般に小さく、最先端モデルの訓練には適していない。 このギャップを埋めるために,古典アラビア語のテキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスを提案し,アラビア語のエンドツーエンドTTSシステムの開発を支援する。 音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。 最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。 本稿では,コーパス作成のプロセスについて述べるとともに,コーパス統計と既存資源との比較について述べる。 さらに、Grad-TTSとGlow-TTSに基づく2つのTSシステムを開発し、主観的および客観的評価により結果システムの性能を示す。 コーパスは研究目的でwww.clartts.comで公開され、ベースラインのTSシステムのデモも行われる。

At present, Text-to-speech (TTS) systems that are trained with high-quality transcribed speech data using end-to-end neural models can generate speech that is intelligible, natural, and closely resembles human speech. These models are trained with relatively large single-speaker professionally recorded audio, typically extracted from audiobooks. Meanwhile, due to the scarcity of freely available speech corpora of this kind, a larger gap exists in Arabic TTS research and development. Most of the existing freely available Arabic speech corpora are not suitable for TTS training as they contain multi-speaker casual speech with variations in recording conditions and quality, whereas the corpus curated for speech synthesis are generally small in size and not suitable for training state-of-the-art end-to-end models. In a move towards filling this gap in resources, we present a speech corpus for Classical Arabic Text-to-Speech (ClArTTS) to support the development of end-to-end TTS systems for Arabic. The speech is extracted from a LibriVox audiobook, which is then processed, segmented, and manually transcribed and annotated. The final ClArTTS corpus contains about 12 hours of speech from a single male speaker sampled at 40100 kHz. In this paper, we describe the process of corpus creation and provide details of corpus statistics and a comparison with existing resources. Furthermore, we develop two TTS systems based on Grad-TTS and Glow-TTS and illustrate the performance of the resulting systems via subjective and objective evaluations. The corpus will be made publicly available at www.clartts.com for research purposes, along with the baseline TTS systems demo.
翻訳日:2023-03-02 16:57:09 公開日:2023-02-28
# spiking-phasor ニューロンを用いた超次元計算

Hyperdimensional Computing with Spiking-Phasor Neurons ( http://arxiv.org/abs/2303.00066v1 )

ライセンス: Link先を確認
Jeff Orchard, Russell Jarvis(参考訳) ベクトル記号アーキテクチャ(VSAs)は、構成的推論を表現するための強力なフレームワークである。 それらはニューラルネットワークの実装に役立ち、空間的推論、算術、記号結合、論理といった認知的機能を実行できるニューラルネットワークを作ることができます。 しかし、関連するベクトルは非常に大きく、それゆえ代替ラベルの超次元(hd)コンピューティングである。 ニューロモルフィックハードウェアの進歩は、ニューラルネットワークのランニング時間とエネルギーフットプリントを桁違いに削減するという約束を達成している。 本稿では,ニューロモルフィックハードウェア上で効率的に動作可能なスパイキングニューロンの基板上でVSAアルゴリズムを実行するための先駆的な作業を拡張する。

Vector Symbolic Architectures (VSAs) are a powerful framework for representing compositional reasoning. They lend themselves to neural-network implementations, allowing us to create neural networks that can perform cognitive functions, like spatial reasoning, arithmetic, symbol binding, and logic. But the vectors involved can be quite large, hence the alternative label Hyperdimensional (HD) computing. Advances in neuromorphic hardware hold the promise of reducing the running time and energy footprint of neural networks by orders of magnitude. In this paper, we extend some pioneering work to run VSA algorithms on a substrate of spiking neurons that could be run efficiently on neuromorphic hardware.
翻訳日:2023-03-02 16:56:37 公開日:2023-02-28
# WEARDA:人間の活動監視のためのウェアラブルセンサーデータを記録する

WEARDA: recording wearable sensor data for human activity monitoring ( http://arxiv.org/abs/2303.00064v1 )

ライセンス: Link先を確認
Richard van Dijk, Daniela Gawehns and Matthijs van Leeuwen(参考訳) 本稿では,オープンソースのウェアラブルセンサデータ取得ソフトウェアであるweardaを提案する。 WEARDAはスマートウォッチによる人間の活動データ取得を促進しており、主に透明性、完全な制御、生のセンサーデータへのアクセスを必要とする研究者を対象としている。 これは4つのセンサー(三軸加速度計、三軸ジャイロスコープ、気圧計、GPS)の生データを同時に記録する機能を提供する。 Tizen OSを搭載したSamsungのスマートウォッチが選ばれた 1)スマートウォッチソフトウェアAPIに必要な機能。 2) ソフトウェア開発ツールとアクセス可能なドキュメントの可用性。 3) 必要なセンサを有すること、及び 4) 対象ユーザグループによる受け入れのためのケースデザインの要件。 WEARDAは、効率的でエラーのないデータ収集を保証するための準備、計測、物流、プライバシー保護、再現性に関する5つの実践的な課題に対処する。 ソフトウェアパッケージは最初、プロジェクトの``dementia back at the heart of the community'のために作成され、その文脈でうまく使われました。

We present WEARDA, the open source WEARable sensor Data Acquisition software package. WEARDA facilitates the acquisition of human activity data with smartwatches and is primarily aimed at researchers who require transparency, full control, and access to raw sensor data. It provides functionality to simultaneously record raw data from four sensors -- tri-axis accelerometer, tri-axis gyroscope, barometer, and GPS -- which should enable researchers to, for example, estimate energy expenditure and mine movement trajectories. A Samsung smartwatch running the Tizen OS was chosen because of 1) the required functionalities of the smartwatch software API, 2) the availability of software development tools and accessible documentation, 3) having the required sensors, and 4) the requirements on case design for acceptance by the target user group. WEARDA addresses five practical challenges concerning preparation, measurement, logistics, privacy preservation, and reproducibility to ensure efficient and errorless data collection. The software package was initially created for the project ``Dementia back at the heart of the community'', and has been successfully used in that context.
翻訳日:2023-03-02 16:56:27 公開日:2023-02-28
# 階層型多層トピーモデリングのためのニューラル非負行列因子化

Neural Nonnegative Matrix Factorization for Hierarchical Multilayer Topic Modeling ( http://arxiv.org/abs/2303.00058v1 )

ライセンス: Link先を確認
Tyler Will, Runyu Zhang, Eli Sadovnik, Mengdi Gao, Joshua Vendrow, Jamie Haddock, Denali Molitor, Deanna Needell(参考訳) 本稿では,データ中の潜在階層構造を検出するために,非負行列分解に基づく新しい手法であるneural nmfを提案する。 階層構造を持つデータセットは、文書分類、画像処理、バイオインフォマティクスなど、幅広い分野に存在している。 ニューラルNMFは階層にNMFを再帰的に適用し、低レベルの特徴を含む包括的なトピックを発見する。 ニューラルネットワークとして階層的NMFをフレーム化するためのバックプロパゲーション最適化スキームを導出する。 我々は、合成階層データセット、20ニュースグループデータセット、MyLymeData症状データセットでNeural NMFをテストする。 数値計算により、ニューラルNMFはこれらのデータセット上で他の階層的NMF法よりも優れており、より学習された階層構造とトピックの解釈可能性を提供する。

We introduce a new method based on nonnegative matrix factorization, Neural NMF, for detecting latent hierarchical structure in data. Datasets with hierarchical structure arise in a wide variety of fields, such as document classification, image processing, and bioinformatics. Neural NMF recursively applies NMF in layers to discover overarching topics encompassing the lower-level features. We derive a backpropagation optimization scheme that allows us to frame hierarchical NMF as a neural network. We test Neural NMF on a synthetic hierarchical dataset, the 20 Newsgroups dataset, and the MyLymeData symptoms dataset. Numerical results demonstrate that Neural NMF outperforms other hierarchical NMF methods on these data sets and offers better learned hierarchical structure and interpretability of topics.
翻訳日:2023-03-02 16:56:10 公開日:2023-02-28
# 2層ニューラルネットワークにおける学習時間スケール

Learning time-scales in two-layers neural networks ( http://arxiv.org/abs/2303.00055v1 )

ライセンス: Link先を確認
Rapha\"el Berthier, Andrea Montanari, Kangjie Zhou(参考訳) 多層ニューラルネットワークにおける勾配ベースの学習には、多くの素晴らしい特徴がある。 特に, 大規模なバッチを平均化しても, 経験的リスクの減少率は非モノトンである。 ほとんど進行を観測しない長い台地は、急激な減少の間隔で交互に変化する。 これらの連続した学習段階は、しばしば非常に異なる時間スケールで起こる。 最後に、初期段階で学習されるモデルは、形式化が困難であるが、通常、'simpler' または 'easier to learn' である。 これらの現象に関する理論的な説明は前進しているが、それぞれが特定の特定の状況下で捉えている。 本稿では,広層2層ニューラルネットワークの高次元における勾配流れのダイナミクスについて,データが単一インデックスモデルに従って分布する場合(すなわち,対象関数は共変量の1次元投影に依存する)に検討する。 本研究では,新しい厳密な結果と非リゴラスな数学的導出,数値シミュレーションの混合に基づき,この設定における学習ダイナミクスのシナリオを提案する。 特に、提案された進化は時間スケールと断続性の分離を示す。 これらの挙動は、集団勾配の流れを特異な摂動力学系として再キャストできるため自然に生じる。

Gradient-based learning in multi-layer neural networks displays a number of striking features. In particular, the decrease rate of empirical risk is non-monotone even after averaging over large batches. Long plateaus in which one observes barely any progress alternate with intervals of rapid decrease. These successive phases of learning often take place on very different time scales. Finally, models learnt in an early phase are typically `simpler' or `easier to learn' although in a way that is difficult to formalize. Although theoretical explanations of these phenomena have been put forward, each of them captures at best certain specific regimes. In this paper, we study the gradient flow dynamics of a wide two-layer neural network in high-dimension, when data are distributed according to a single-index model (i.e., the target function depends on a one-dimensional projection of the covariates). Based on a mixture of new rigorous results, non-rigorous mathematical derivations, and numerical simulations, we propose a scenario for the learning dynamics in this setting. In particular, the proposed evolution exhibits separation of timescales and intermittency. These behaviors arise naturally because the population gradient flow can be recast as a singularly perturbed dynamical system.
翻訳日:2023-03-02 16:55:56 公開日:2023-02-28
# フォールトトレラント量子コンピューティングのためのリアルタイムデコード:進歩、挑戦、展望

Real-Time Decoding for Fault-Tolerant Quantum Computing: Progress, Challenges and Outlook ( http://arxiv.org/abs/2303.00054v1 )

ライセンス: Link先を確認
Francesco Battistel, Christopher Chamberland, Kauser Johar, Ramon W. J. Overwater, Fabio Sebastiano, Luka Skoric, Yosuke Ueno, Muhammad Usman(参考訳) 量子コンピューティングは、古典的スーパーコンピュータでは計算的に難解な、実用上有用な問題を解決するために準備されている。 しかし、現在の世代の量子コンピュータは、高品質な量子ビットを開発することで部分的に緩和できるエラーによって制限されている。 したがって、フォールトトレランスを確保するには量子エラー補正(QEC)が必要である。 QECは、エラーに関するシンドローム情報を循環的に測定することで論理情報を保護する。 QECの本質的な部分はデコーダであり、このシンドロームを使用して、論理的自由度に対する誤差の可能性のある影響を計算し、仮の補正を与える。 デコーダは正確で、QECサイクル(例えば超伝導量子ビットのマイクロ秒タイムスケール)にペースを維持するのに十分な速度で、論理演算をサポートするためにハードリアルタイムシステム統合が必要である。 そのため、フォールトトレラント量子コンピューティングを実現し、量子アドバンテージを達成するためには、リアルタイムデコーディングが不可欠である。 本稿では, リアルタイムデコーダの実装に直面する重要な課題について紹介するとともに, これまでの進捗状況を簡潔にまとめる。 さらに,我々は今後数年で,リアルタイムデコード分野のロードマップを提供するとともに,今後の開発への展望を概説する。 量子ハードウェアのスケールアップが期待されているので、この視点は研究者にガイダンスを提供し、リアルタイムデコーディングにおける最も差し迫った問題に注目し、量子科学とコンピュータ科学におけるソリューションの開発を促進する。

Quantum computing is poised to solve practically useful problems which are computationally intractable for classical supercomputers. However, the current generation of quantum computers are limited by errors that may only partially be mitigated by developing higher-quality qubits. Quantum error correction (QEC) will thus be necessary to ensure fault tolerance. QEC protects the logical information by cyclically measuring syndrome information about the errors. An essential part of QEC is the decoder, which uses the syndrome to compute the likely effect of the errors on the logical degrees of freedom and provide a tentative correction. The decoder must be accurate, fast enough to keep pace with the QEC cycle (e.g., on a microsecond timescale for superconducting qubits) and with hard real-time system integration to support logical operations. As such, real-time decoding is essential to realize fault-tolerant quantum computing and to achieve quantum advantage. In this work, we highlight some of the key challenges facing the implementation of real-time decoders while providing a succinct summary of the progress to-date. Furthermore, we lay out our perspective for the future development and provide a possible roadmap for the field of real-time decoding in the next few years. As the quantum hardware is anticipated to scale up, this perspective article will provide a guidance for researchers, focusing on the most pressing issues in real-time decoding and facilitating the development of solutions across quantum and computer science.
翻訳日:2023-03-02 16:55:39 公開日:2023-02-28
# ニューラルインシシシトサーフェスを用いた動的マルチビューシーン再構成

Dynamic Multi-View Scene Reconstruction Using Neural Implicit Surface ( http://arxiv.org/abs/2303.00050v1 )

ライセンス: Link先を確認
Decai Chen, Haofei Lu, Ingo Feldmann, Oliver Schreer, Peter Eisert(参考訳) 一般的な動的シーンの再構築は多くのコンピュータビジョンやグラフィックスアプリケーションにとって重要である。 最近の研究は、光リアルビュー合成のためのニューラルラジアンス場を持つ動的シーンを表現している。 他の研究は、静的シーン再構成のための幾何学と外観場の曖昧さを解消するために、暗黙の神経表現に表面的制約を導入する。 動的シーンのレンダリングと静的表面幾何の復元のギャップを埋めるため,多視点映像からの神経的暗黙表現を用いて表面形状と外観をテンプレートフリーで再構成する手法を提案する。 トポロジー認識変形と符号付き距離場を利用して,テンプレートモデルのようなシーン固有の事前知識を必要とせず,微分可能なボリュームレンダリングを通じて複雑な動的曲面を学習する。 さらに, 時間変化領域の最適化を著しく向上させるため, マスクを用いた新しい光線選択戦略を提案する。 異なる多視点ビデオデータセットを用いた実験により,本手法は高忠実度表面再構成とフォトリアリスティックな新規ビュー合成を実現する。

Reconstructing general dynamic scenes is important for many computer vision and graphics applications. Recent works represent the dynamic scene with neural radiance fields for photorealistic view synthesis, while their surface geometry is under-constrained and noisy. Other works introduce surface constraints to the implicit neural representation to disentangle the ambiguity of geometry and appearance field for static scene reconstruction. To bridge the gap between rendering dynamic scenes and recovering static surface geometry, we propose a template-free method to reconstruct surface geometry and appearance using neural implicit representations from multi-view videos. We leverage topology-aware deformation and the signed distance field to learn complex dynamic surfaces via differentiable volume rendering without scene-specific prior knowledge like template models. Furthermore, we propose a novel mask-based ray selection strategy to significantly boost the optimization on challenging time-varying regions. Experiments on different multi-view video datasets demonstrate that our method achieves high-fidelity surface reconstruction as well as photorealistic novel view synthesis.
翻訳日:2023-03-02 16:55:15 公開日:2023-02-28
# 相互作用を持つ不可解な暗号プリミティブ

Uncloneable Cryptographic Primitives with Interaction ( http://arxiv.org/abs/2303.00048v1 )

ライセンス: Link先を確認
Anne Broadbent and Eric Culf(参考訳) 量子暗号の強度の多くは、量子情報の非閉性に起因する可能性がある。 我々は、3つの新しい暗号プリミティブを構築し、セキュリティはuncloneability(uncloneability)に基づいており、そのセキュリティは、新しいmonogamy-of-entanglement(moe)プロパティによって確立できることが共通している。 我々は,すべてのインタラクションを盗聴しても,他の受信者がそのメッセージを学習できないという意味で,情報理論的な設定でセキュアなワンラウンド構成を提供する。 -ビット文字列のコミットメントスキームを不可能にする方法を提供する。 このスキームは、コミットとオープンステップの間のチェックステップの時系列で拡張され、たとえレシーバーが悪意があるとしても、正直な送信者が盗聴者によってそのコミットメントが開かないように検証される。 そこで我々は,受信機の古典的デバイスを信頼できないものにすることで,Tomamichel, Fehr, Kaniewski, Wehner (TFKW) [NJP 2013] の一方的なデバイス独立QKDの概念を強化する,受信機非依存の量子鍵分布(QKD)方式を構築した。 明示的には、送信者は完全に信頼され続け、受信者の通信のみが信頼される。 安全性を示すために,コラダンジェロ,リウ,リウ,ザンドリー (Crypto 2021) によって導入されたコセット状態のMoE特性の拡張を証明した。 我々のより強固なバージョンでは、プレイヤーのチャーリーはボブの答えを推測する前に受け取り、会話を盗聴するパーティーをシミュレートする。 この性質を利用するために、基礎となるmoeゲームの構造から自然に生じる新しいタイプのエントロピー不確実性関係として表現する。

Much of the strength of quantum cryptography may be attributed to the no-cloning property of quantum information. We construct three new cryptographic primitives whose security is based on uncloneability, and that have in common that their security can be established via a novel monogamy-of-entanglement (MoE) property: - We define interactive uncloneable encryption, a version of the uncloneable encryption defined by Broadbent and Lord [TQC 2020] where the receiver must partake in an interaction with the sender in order to decrypt the ciphertext. We provide a one-round construction that is secure in the information-theoretic setting, in the sense that no other receiver may learn the message even if she eavesdrops on all the interactions. - We provide a way to make a bit string commitment scheme uncloneable. The scheme is augmented with a check step chronologically in between the commit and open steps, where an honest sender verifies that the commitment may not be opened by an eavesdropper, even if the receiver is malicious. - We construct a receiver-independent quantum key distribution (QKD) scheme, which strengthens the notion of one-sided device independent QKD of Tomamichel, Fehr, Kaniewski, and Wehner (TFKW) [NJP 2013] by also permitting the receiver's classical device to be untrusted. Explicitly, the sender remains fully trusted while only the receiver's communication is trusted. To show security, we prove an extension of the MoE property of coset states introduced by Coladangelo, Liu, Liu, and Zhandry [Crypto 2021]. In our stronger version, the player Charlie also receives Bob's answer prior to making his guess, simulating a party who eavesdrops on an interaction. To use this property, we express it as a new type of entropic uncertainty relation which arises naturally from the structure of the underlying MoE game.
翻訳日:2023-03-02 16:54:57 公開日:2023-02-28
# 編集ニューラルネットワークのロバスト性

Robustness of edited neural networks ( http://arxiv.org/abs/2303.00046v1 )

ライセンス: Link先を確認
Davis Brown, Charles Godfrey, Cody Nizinski, Jonathan Tu, Henry Kvinge(参考訳) 不確実で現実的な環境でのデプロイメントの成功には、予期しない問題に適応するために、ディープラーニングモデルを効率的かつ確実に修正する必要がある。 しかし、より大規模なモデルへの最近のトレンドにより、標準的な再訓練手順はより高価な負担になる。 このため、計算量的に安価で解釈可能なポストホックなモデル修正を可能にするモデル編集への関心が高まっている。 多くのモデル編集技術は有望であるが、編集モデルの特性に関する研究は検証精度の評価にほとんど制限されている。 編集モデルのロバスト性は重要だが、ほとんど未検討のトピックである。 本稿では,モデル編集がモデルの一般的なロバスト性に与える影響と,編集対象の特定の動作のロバスト性の両方を調査するために,ディープラーニングロバストネスの分野から最近開発された手法を用いる。 編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は選択した編集アルゴリズムに依存する。 特にロバスト性は、モデルのより少ない変更を行うより制約のある技術によって最もよく保存される。 これらの結果に動機づけられ, 2つのモデル編集アルゴリズム, 直接低ランクモデル編集と1層補間(1-li)を導入し, それぞれ高い一般化性能を示す。

Successful deployment in uncertain, real-world environments requires that deep learning models can be efficiently and reliably modified in order to adapt to unexpected issues. However, the current trend toward ever-larger models makes standard retraining procedures an ever-more expensive burden. For this reason, there is growing interest in model editing, which enables computationally inexpensive, interpretable, post-hoc model modifications. While many model editing techniques are promising, research on the properties of edited models is largely limited to evaluation of validation accuracy. The robustness of edited models is an important and yet mostly unexplored topic. In this paper, we employ recently developed techniques from the field of deep learning robustness to investigate both how model editing affects the general robustness of a model, as well as the robustness of the specific behavior targeted by the edit. We find that edits tend to reduce general robustness, but that the degree of degradation depends on the editing algorithm chosen. In particular, robustness is best preserved by more constrained techniques that modify less of the model. Motivated by these observations, we introduce two new model editing algorithms, direct low-rank model editing and 1-layer interpolation (1-LI), which each exhibit strong generalization performance.
翻訳日:2023-03-02 16:54:22 公開日:2023-02-28
# 格子場理論の量子平均推定

Quantum mean estimation for lattice field theory ( http://arxiv.org/abs/2303.00094v1 )

ライセンス: Link先を確認
Erik J. Gustafson, Henry Lamm, Judah Unmuth-Yockey(参考訳) ユークリッド格子場理論における量子平均推定アルゴリズムを実証する。 これは、符号問題の存在下でも持続するモンテカルロ法に対して二次的な優位性を示し、臨界減速には敏感である。 このアルゴリズムは、符号問題、おもちゃのu(1)ゲージ理論モデル、イジングモデルで$\pi$を計算するために使用される。 将来のフォールトトレラント量子コンピュータに対する$R_{Z}$-gate合成誤差の影響について検討した。

We demonstrate the quantum mean estimation algorithm on Euclidean lattice field theories. This shows a quadratic advantage over Monte Carlo methods which persists even in presence of a sign problem, and is insensitive to critical slowing down. The algorithm is used to compute $\pi$ with and without a sign problem, a toy U(1) gauge theory model, and the Ising model. The effect of $R_{Z}$-gate synthesis errors on a future fault-tolerant quantum computer is investigated.
翻訳日:2023-03-02 16:47:31 公開日:2023-02-28
# 画像中に埋め込まれたメッセージの操作を検出する知覚的ハッシュ法に関する研究

A study on the use of perceptual hashing to detect manipulation of embedded messages in images ( http://arxiv.org/abs/2303.00092v1 )

ライセンス: Link先を確認
Sven-Jannik W\"ohnert, Kai Hendrik W\"ohnert, Eldar Almamedov, Carsten Frank, Volker Skwarek(参考訳) 通常、画像のメタデータは画像ファイルの特定のデータセグメントに格納される。 しかし、変更を安全に検出するために、データはイメージの中に埋め込むこともできる。 これは、可能な限り多くの情報を埋め込んで、理想的には圧縮を生き残るという目標に従っている。 この研究は、画像圧縮の損失による意図しない変更と、その知覚的あるいは堅牢なハッシュの変化に基づいて、埋め込みメッセージの悪意的な操作を区別できる埋め込み原理を探索する。 異なる埋め込みおよび圧縮アルゴリズムを比較する。 この研究は、整数ウェーブレット変換によるメッセージの埋め込みとカルフネン・ローヴ変換による圧縮が最良の結果をもたらすことを示している。 しかし、すべてのケースで操作と圧縮を区別することは不可能であった。

Typically, metadata of images are stored in a specific data segment of the image file. However, to securely detect changes, data can also be embedded within images. This follows the goal to invisibly and robustly embed as much information as possible to, ideally, even survive compression. This work searches for embedding principles which allow to distinguish between unintended changes by lossy image compression and malicious manipulation of the embedded message based on the change of its perceptual or robust hash. Different embedding and compression algorithms are compared. The study shows that embedding a message via integer wavelet transform and compression with Karhunen-Loeve-transform yields the best results. However, it was not possible to distinguish between manipulation and compression in all cases.
翻訳日:2023-03-02 16:47:24 公開日:2023-02-28
# 結合クラスタダウンフォールディング技術:化学系における古典的および量子コンピューティングにおける既存の応用のレビュー

Coupled cluster downfolding techniques: a review of existing applications in classical and quantum computing for chemical systems ( http://arxiv.org/abs/2303.00087v1 )

ライセンス: Link先を確認
Nicholas P. Bauman, Bo Peng, Karol Kowalski(参考訳) 本稿では,量子系の基底状態問題を能動空間を用いて定義される有効/ダウンフォールドハミルトニアンを用いて表現する,結合クラスタ(cc)ダウンフォールディング手法の最近の展開の概要を示す。 ここで論じるすべてのccダウンフォールディング手法は、基底状態問題に対する単参照指数 ansatz に由来する。 我々は、時間領域といわゆる量子フローに対する非エルミートおよびエルミートダウンフォールディングアプローチのいくつかの拡張について議論する。 ノイズの多い量子デバイスからスケーラブルでエラー訂正された量子コンピュータへ化学応用を移行する上で、形式論をダウンフォールディングする重要な役割を強調する。

In this manuscript, we provide an overview of the recent developments of the coupled cluster (CC) downfolding methods, where the ground-state problem of a quantum system is represented through effective/downfolded Hamiltonians defined using active spaces. All CC downfolding techniques discussed here are derived from a single-reference exponential ansatz for the ground-state problem. We discuss several extensions of the non-Hermitian and Hermitian downfolding approaches to the time domain and the so-called quantum flows. We emphasize the important role of downfolding formalisms in transitioning chemical applications from noisy quantum devices to scalable and error-corrected quantum computers.
翻訳日:2023-03-02 16:46:51 公開日:2023-02-28
# プレーントランスを実世界のクラウドに適用する

Applying Plain Transformers to Real-World Point Clouds ( http://arxiv.org/abs/2303.00086v1 )

ライセンス: Link先を確認
Lanxiao Li, Michael Heizmann(参考訳) 帰納バイアスがないため、トランスフォーマーベースのモデルは通常、大量のトレーニングデータを必要とする。 3Dデータは取得や注釈が難しいため、特に3Dビジョンでは問題となる。 この問題を解決するために、従来の研究は、例えば局所的な注意とダウンサンプリングを適用して、帰納バイアスを組み込むようにトランスフォーマーのアーキテクチャを変更した。 彼らは有望な結果を得たが、ポイントクラウドのトランスフォーマーに関する初期の研究には2つの問題がある。 第一に、変圧器のパワーはまだ未探索である。 第二に、複雑な現実世界のクラウドではなく、シンプルで小さなクラウドに焦点を当てている。 この研究は、現実世界のクラウド理解におけるプレーントランスフォーマーを再考する。 まず、効率と性能の両面で、パッチファイヤや位置埋め込みなど、プレーントランスフォーマーの基本的なコンポーネントをいくつか詳しく見てみましょう。 帰納バイアスや注釈付きデータの欠如によるパフォーマンスギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師付き事前学習について検討した。 具体的には,情報漏洩を防止し,MAEの有効性を大幅に改善するドロップパッチを提案する。 我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。 我々の研究は、ポイントクラウドのためのトランスフォーマーの研究のための新しいベースラインを提供する。

Due to the lack of inductive bias, transformer-based models usually require a large amount of training data. The problem is especially concerning in 3D vision, as 3D data are harder to acquire and annotate. To overcome this problem, previous works modify the architecture of transformers to incorporate inductive biases by applying, e.g., local attention and down-sampling. Although they have achieved promising results, earlier works on transformers for point clouds have two issues. First, the power of plain transformers is still under-explored. Second, they focus on simple and small point clouds instead of complex real-world ones. This work revisits the plain transformers in real-world point cloud understanding. We first take a closer look at some fundamental components of plain transformers, e.g., patchifier and positional embedding, for both efficiency and performance. To close the performance gap due to the lack of inductive bias and annotated data, we investigate self-supervised pre-training with masked autoencoder (MAE). Specifically, we propose drop patch, which prevents information leakage and significantly improves the effectiveness of MAE. Our models achieve SOTA results in semantic segmentation on the S3DIS dataset and object detection on the ScanNet dataset with lower computational costs. Our work provides a new baseline for future research on transformers for point clouds.
翻訳日:2023-03-02 16:46:38 公開日:2023-02-28
# AR3n:ロボットリハビリテーションのための強化学習型補助制御

AR3n: A Reinforcement Learning-based Assist-As-Needed Controller for Robotic Rehabilitation ( http://arxiv.org/abs/2303.00085v1 )

ライセンス: Link先を確認
Shrey Pareek, Harris NIsar and henkurussi Kesavadas(参考訳) 本稿では,ロボットハンドライティングリハビリテーションタスクにおいて,強化学習を利用して適応的支援を提供するアシスト・アズ・ア・ニーズド(aan)コントローラar3n(aaronと発音する)を提案する。 従来のAANコントローラとは異なり,本手法は患者固有のコントローラパラメータや物理モデルに依存しない。 複数の被験者にまたがってAR3nを一般化するための仮想患者モデルを提案する。 このシステムは、被験者の追跡誤差に基づいてロボット支援をリアルタイムで調整し、ロボット支援の量を最小化する。 コントローラはシミュレーションと人体実験によって実験的に検証される。 最後に,従来のルールベース制御器との比較検討を行い,2つの制御器の補助機構の違いを分析した。

In this paper, we present AR3n (pronounced as Aaron), an assist-as-needed (AAN) controller that utilizes reinforcement learning to supply adaptive assistance during a robot assisted handwriting rehabilitation task. Unlike previous AAN controllers, our method does not rely on patient specific controller parameters or physical models. We propose the use of a virtual patient model to generalize AR3n across multiple subjects. The system modulates robotic assistance in realtime based on a subject's tracking error, while minimizing the amount of robotic assistance. The controller is experimentally validated through a set of simulations and human subject experiments. Finally, a comparative study with a traditional rule-based controller is conducted to analyze differences in assistance mechanisms of the two controllers.
翻訳日:2023-03-02 16:46:19 公開日:2023-02-28
# ニューラル確率エージェントに基づく極限順序ブックシミュレーション:ハイブリッド手法

Neural Stochastic Agent-Based Limit Order Book Simulation: A Hybrid Methodology ( http://arxiv.org/abs/2303.00080v1 )

ライセンス: Link先を確認
Zijian Shi and John Cartlidge(参考訳) 現代の金融取引所は電子的リミット注文帳(LOB)を使用して入札を保管し、特定の金融資産の注文を求める。 資産の需要と供給を示す最もきめ細かい情報として、LOBデータは市場のダイナミクスを理解する上で不可欠である。 したがって、現実的なLOBシミュレーションは市場の経験的性質を説明する貴重な方法論を提供する。 主なシミュレーションモデルにはエージェントベースモデル(abms)と確率モデル(sms)がある。 しかし、abmは実際の履歴データに基づくものではなく、smsは動的エージェント-インタラクションを有効にしない傾向がある。 これらの制約を克服するために,1) ニューラルネットワーク処理モデルを用いて過去のLOBデータに基づいて事前訓練されたニューラルネットワークによるマーケットイベントのロジックの集約を表現する,2) バックグラウンドトレーサを他のトレーダとのマルチエージェントシミュレーションに組み込む,という,新しいハイブリッドLOBシミュレーション手法を提案する。 ABIDESプラットフォームを用いて、このハイブリッドNS-ABMモデルをインスタンス化する。 まず、背景トレーダーを分離して実行し、シミュレーションされたLOBが、現実的な市場行動を示すスタイリングされた事実の包括的リストを再現できることを示します。 次に,'trend' と 'value' のトレーディングエージェントの集団を紹介し,背景トレーダと相互作用する。 スタイル化された事実は残っており、実市場の経験的観察に則った秩序フローの影響と金融的隠れ行動を示す。

Modern financial exchanges use an electronic limit order book (LOB) to store bid and ask orders for a specific financial asset. As the most fine-grained information depicting the demand and supply of an asset, LOB data is essential in understanding market dynamics. Therefore, realistic LOB simulations offer a valuable methodology for explaining empirical properties of markets. Mainstream simulation models include agent-based models (ABMs) and stochastic models (SMs). However, ABMs tend not to be grounded on real historical data, while SMs tend not to enable dynamic agent-interaction. To overcome these limitations, we propose a novel hybrid LOB simulation paradigm characterised by: (1) representing the aggregation of market events' logic by a neural stochastic background trader that is pre-trained on historical LOB data through a neural point process model; and (2) embedding the background trader in a multi-agent simulation with other trading agents. We instantiate this hybrid NS-ABM model using the ABIDES platform. We first run the background trader in isolation and show that the simulated LOB can recreate a comprehensive list of stylised facts that demonstrate realistic market behaviour. We then introduce a population of `trend' and `value' trading agents, which interact with the background trader. We show that the stylised facts remain and we demonstrate order flow impact and financial herding behaviours that are in accordance with empirical observations of real markets.
翻訳日:2023-03-02 16:46:06 公開日:2023-02-28
# 想像可能なメカニズムの限界を超えて: 大きな言語モデルと精神言語学

Beyond the limitations of any imaginable mechanism: large language models and psycholinguistics ( http://arxiv.org/abs/2303.00077v1 )

ライセンス: Link先を確認
Conor Houghton, Nina Kazanina, Priyanka Sukumaran(参考訳) 大きな言語モデルは人間の言語処理の詳細なモデルではない。 しかし、彼らは言語のためのモデルを提供するという第一のタスクで非常に成功しています。 この理由から、言語のための動物モデルが存在しないため、大きな言語モデルは精神言語学において重要である:それらは、言語と思考の関係を再キャストするための基礎として、図示的に比較し、哲学的に、実用的なツールとして有用である。

Large language models are not detailed models of human linguistic processing. They are, however, extremely successful at their primary task: providing a model for language. For this reason and because there are no animal models for language, large language models are important in psycholinguistics: they are useful as a practical tool, as an illustrative comparative, and philosophically, as a basis for recasting the relationship between language and thought.
翻訳日:2023-03-02 16:45:38 公開日:2023-02-28
# Q-Map:ブール関数の量子回路実装

Q-Map: Quantum Circuit Implementation of Boolean Functions ( http://arxiv.org/abs/2303.00075v1 )

ライセンス: Link先を確認
Hassan Hajjdiab, Ashraf Khalil, Hichem Eleuch(参考訳) 近年,量子コンピューティング技術の進歩により,量子コンピューティングが注目されている。 今日、IBM、Google、Microsoftのような多くの企業が研究と商業用の量子コンピュータとシミュレータを開発した。 量子技術とアルゴリズムの開発は、量子コンピュータの全力を活用するために不可欠である。 本稿では,古典論理回路の量子化のための単純な視覚的手法(Q-Mapと呼ぶ)を提案する。 提案手法はブール代数の概念を利用して最小数の量子ゲートを持つ量子回路を生成する。

Quantum computing has gained attention in recent years due to the significant progress in quantum computing technology. Today many companies like IBM, Google and Microsoft have developed quantum computers and simulators for research and commercial use. The development of quantum techniques and algorithms is essential to exploit the full power of quantum computers. In this paper we propose a simple visual technique (we call Q-Map) for quantum realisation of classical Boolean logic circuits. The proposed method utilises concepts from Boolean algebra to produce a quantum circuit with minimal number of quantum gates.
翻訳日:2023-03-02 16:45:32 公開日:2023-02-28
# 双極子中心を含むダイヤモンドを用いた相互関連量子温度測定

Cross-correlated quantum thermometry using diamond containing dual-defect centers ( http://arxiv.org/abs/2303.00073v1 )

ライセンス: Link先を確認
Madhav Gupta, Tongtong Zhang, Lambert Yeung, Jiahua Zhang, Yayin Tan, Yau Chuen Yiu, Shuxiang Zhang, Qi Wang, Zhongqiang Wang, Zhiqin Chu(参考訳) マイクロ/ナノスケールでの非接触温度測定は、近代科学技術の幅広い分野において不可欠である。 窒素空隙(nv)中心は、スピン依存光発光を持つダイヤモンド欠陥の一種であり、最も有望なナノ温度計の1つとして認識されている。 しかし、この量子温度測定技術は摂動の可能性があり、その実際の温度感度は避けられないほど低下する。 そこで本研究では,nv中心とシリコン空孔(siv)中心の両方を含むバルクダイヤモンド試料を用いたクロスバリデーテッド光熱測定法を初めて開発した。 特に、全光学法を許容する後者は、nvベースの量子温度測定の摂動に影響を与えるものに対して本質的に免疫があり、そのためリアルタイムのクロス検証システムとして機能する。 概念実証として, 様々な磁場の影響を受けながら, 信頼性の高い温度測定を行った。 この多モード性アプローチは、生体細胞のような複雑な環境でのマイクロ/ナノスケールの量子温度測定に必要とされる測定温度の同期クロスバリデーションを可能にする。

The contactless temperature measurement at micro/nanoscale is vital to a broad range of fields in modern science and technology. The nitrogen vacancy (NV) center, a kind of diamond defect with unique spin-dependent photoluminescence, has been recognized as one of the most promising nanothermometers. However, this quantum thermometry technique has been prone to a number of possible perturbations, which will unavoidably degrade its actual temperature sensitivity. Here, for the first time, we have developed a cross-validated optical thermometry method using a bulk diamond sample containing both NV centers and silicon vacancy (SiV) centers. Particularly, the latter allowing all-optical method has been intrinsically immune to those influencing perturbations for the NV-based quantum thermometry, hence serving as a real-time cross validation system. As a proof-of-concept demonstration, we have shown a trustworthy temperature measurement under the influence of varying magnetic fields. This multi-modality approach allows a synchronized cross-validation of the measured temperature, which is required for micro/nanoscale quantum thermometry in complicated environments such as a living cell.
翻訳日:2023-03-02 16:45:25 公開日:2023-02-28
# TwitterによるCOVID-19トピックモデリングの深層学習:Alpha、Delta、Omicron

Deep learning for COVID-19 topic modelling via Twitter: Alpha, Delta and Omicron ( http://arxiv.org/abs/2303.00135v1 )

ライセンス: Link先を確認
Janhavi Lande, Arti Pillay, Rohitash Chandra(参考訳) 革新的なディープラーニング手法によるトピックモデリングは、COVID-19を含む幅広いアプリケーションに注目を集めている。 トピックモデリングは、新型コロナウイルス(covid-19)パンデミックのような極端な出来事における人間の行動を理解するための、心理的、社会的、文化的洞察を提供することができる。 本稿では,創発(アルファ)からomicron変異までのデータを考慮し,covid-19トピックモデリングにディープラーニングに基づく著明な言語モデルを用いる。 トピックモデリングを用いて,インドからのtwitterデータセットに基づいて,第1,第2,第3波の公開行動をレビューする。 以上の結果から,covid-19パンデミックの政治的,社会的,経済的な状況において新たな課題が引き起こされる一方で,ガバナンスやワクチン接種,パンデミック管理といったテーマが重複することが明らかとなった。 また,各期間に広く分布するニュースメディアに対して,質的に主話題の相関関係が強かった。 したがって、他の国や地域にも拡大できる新型コロナウイルス(covid-19)パンデミックのさまざまな段階で発生する大きな問題を捉えることができる。

Topic modelling with innovative deep learning methods has gained interest for a wide range of applications that includes COVID-19. Topic modelling can provide, psychological, social and cultural insights for understanding human behaviour in extreme events such as the COVID-19 pandemic. In this paper, we use prominent deep learning-based language models for COVID-19 topic modelling taking into account data from emergence (Alpha) to the Omicron variant. We apply topic modeling to review the public behaviour across the first, second and third waves based on Twitter dataset from India. Our results show that the topics extracted for the subsequent waves had certain overlapping themes such as covers governance, vaccination, and pandemic management while novel issues aroused in political, social and economic situation during COVID-19 pandemic. We also found a strong correlation of the major topics qualitatively to news media prevalent at the respective time period. Hence, our framework has the potential to capture major issues arising during different phases of the COVID-19 pandemic which can be extended to other countries and regions.
翻訳日:2023-03-02 16:39:51 公開日:2023-02-28
# 識別による正規化による表現不連続化

Representation Disentaglement via Regularization by Identification ( http://arxiv.org/abs/2303.00128v1 )

ライセンス: Link先を確認
Juan Castorena(参考訳) 本研究は,観測データから不整合表現を学習する問題に焦点をあてる。 観測値${\mathbf{x}^{(i)}}$ for $i=1,...,n $ drawing from $p(\mathbf{x}|\mathbf{y})$ with generative variable $\mathbf{y}$ admiting the distribution factorization $p(\mathbf{y}) = \prod_{c} p(\mathbf{y}_c )$ 後方の$p(\mathbf{z}| \mathbf{y}, \hat{\mathbf{y}}_c)$ 観測の空間と後方の$p(\mathbf{x}| \mathbf{y},\hat{\mathbf{y}}}_c)$ に一致する不連続表現を学習するかどうかを問う。 現代の深層表現学習モデルは、変数生成間の絡み合いを生み出すバイアスの源である衝突型バイアスの振る舞いが不適切であると主張する。 因果関係のルーリックの下では、この問題が識別可能性の条件の下で説明され、調整可能であることを示す。 そこで本研究では,学習課題に関連する因果クエリの識別によって定義される正規化フレームワークであるregularization by identification (rei)を提案する。 実験的な証拠は、ReIを変動的枠組みで強制すると、一般化能力を備えた分散表現が分布外例に結びつき、生成変数と測定装置の間の真の期待効果とうまく一致していることを示している。

This work focuses on the problem of learning disentangled representations from observational data. Given observations ${\mathbf{x}^{(i)}}$ for $i=1,...,N $ drawn from $p(\mathbf{x}|\mathbf{y})$ with generative variables $\mathbf{y}$ admitting the distribution factorization $p(\mathbf{y}) = \prod_{c} p(\mathbf{y}_c )$ we ask whether learning disentangled representations matching the space of observations with identification guarantees on the posterior $p(\mathbf{z}| \mathbf{x}, \hat{\mathbf{y}}_c)$ for each $c$, is plausible. We argue modern deep representation learning models are ill-posed with collider bias behaviour; a source of bias producing entanglement between generating variables. Under the rubric of causality, we show this issue can be explained and reconciled under the condition of identifiability; attainable under supervision or a weak-form of it. For this, we propose regularization by identification (ReI), a regularization framework defined by the identification of the causal queries involved in the learning problem. Empirical evidence shows that enforcing ReI in a variational framework results in disentangled representations equipped with generalization capabilities to out-of-distribution examples and that aligns nicely with the true expected effect between generating variables and measurement apparatus.
翻訳日:2023-03-02 16:39:33 公開日:2023-02-28
# QCLAB++:GPU上の量子回路のシミュレーション

QCLAB++: Simulating Quantum Circuits on GPUs ( http://arxiv.org/abs/2303.00123v1 )

ライセンス: Link先を確認
Roel Van Beeumen, Daan Camps, Neil Mehta(参考訳) 我々は、GPU加速量子回路シミュレーションのための軽量で完全なC++パッケージであるqclab++を紹介する。 外部依存関係がなく、GPUカーネルはOpenMPオフロードを通じて生成されるため、コードは高い可搬性を提供します。 qclab++ は 1-qubit, 制御 1-qubit, 2-qubit ゲートに対する高度に最適化されたゲートシミュレーションアルゴリズムにより性能と数値安定性を設計する。 さらに、qclab++を模倣した構文を持つMatlab用の量子回路ツールボックスであるqclabも導入する。 これにより、ユーザはmatlabのようなスクリプト言語を使って量子アルゴリズムを勉強でき、必要に応じて高性能なgpuアクセラレーションを提供することができる。 したがって、qclab++ライブラリは特徴のユニークな組み合わせを提供する。 我々は、qclab++のCPUシミュレータとOpenMPで生成されたGPUカーネルを比較し、40ドル以上のスピードアップを観察する。 さらに,nerscのperlmutterシステム上で実施した一連のベンチマークにおいて,qclab++をcirq-qsimやqiboといった他の回路シミュレーションパッケージと比較し,その競合性を示す。

We introduce qclab++, a light-weight, fully-templated C++ package for GPU-accelerated quantum circuit simulations. The code offers a high degree of portability as it has no external dependencies and the GPU kernels are generated through OpenMP offloading. qclab++ is designed for performance and numerical stability through highly optimized gate simulation algorithms for 1-qubit, controlled 1-qubit, and 2-qubit gates. Furthermore, we also introduce qclab, a quantum circuit toolbox for Matlab with a syntax that mimics qclab++. This provides users the flexibility and ease of use of a scripting language like Matlab for studying their quantum algorithms, while offering high-performance GPU acceleration when required. As such, the qclab++ library offers a unique combination of features. We compare the CPU simulator in qclab++ with the GPU kernels generated by OpenMP and observe a speedup of over $40\times$. Furthermore, we also compare qclab++ to other circuit simulation packages, such as cirq-qsim and qibo, in a series of benchmarks conducted on NERSC's Perlmutter system and illustrate its competitiveness.
翻訳日:2023-03-02 16:38:44 公開日:2023-02-28
# バイダ情報に反するニューラルオークション

Neural Auctions Compromise Bidder Information ( http://arxiv.org/abs/2303.00116v1 )

ライセンス: Link先を確認
Alex Stein, Avi Schwarzschild, Michael Curry, Tom Goldstein, John Dickerson(参考訳) シングルショットオークションは、例えば広告スペースの販売や無線周波数の割り当てなど、商品を販売する手段として一般的に使用されるが、複数の入札者と複数の商品を持つオークションの仕組みは複雑である。 ニューラルネットワークは、オークションが戦略的かつ個別的に合理的であるという制約を満たしながら、最適なメカニズムを近似するために使用できることが示されている。 このようなオークションは収益を最大化するが、個人入札情報を開示するコストがかかることを示している。 ランダム性はしばしばプライバシを構築するために使用されるが、このコンテキストでは、注意せずに行うと複雑になる。 具体的には、合理性と実現可能性の制約に違反し、メカニズムのインセンティブ構造を根本的に変えたり、収益や社会福祉といったトップレベルの指標を害したりすることができる。 本稿では,収益を犠牲にしてのみオークション機構の要件を満たしつつ,プライバシ向上のための確率的手法を提案する。 我々は、一般的なオークション設定で様々なプライバシーを導入し、オークションハウスのコストを分析します。 その結果、現在のニューラルネットワークオークションでは最適なメカニズムを近似する能力があるにもかかわらず、ニューラルネットワークに依存することによって生じる脆弱性を考慮すべきであることがわかった。

Single-shot auctions are commonly used as a means to sell goods, for example when selling ad space or allocating radio frequencies, however devising mechanisms for auctions with multiple bidders and multiple items can be complicated. It has been shown that neural networks can be used to approximate optimal mechanisms while satisfying the constraints that an auction be strategyproof and individually rational. We show that despite such auctions maximizing revenue, they do so at the cost of revealing private bidder information. While randomness is often used to build in privacy, in this context it comes with complications if done without care. Specifically, it can violate rationality and feasibility constraints, fundamentally change the incentive structure of the mechanism, and/or harm top-level metrics such as revenue and social welfare. We propose a method that employs stochasticity to improve privacy while meeting the requirements for auction mechanisms with only a modest sacrifice in revenue. We analyze the cost to the auction house that comes with introducing varying degrees of privacy in common auction settings. Our results show that despite current neural auctions' ability to approximate optimal mechanisms, the resulting vulnerability that comes with relying on neural networks must be accounted for.
翻訳日:2023-03-02 16:38:26 公開日:2023-02-28
# 核物理学における量子情報科学と技術 2023年米国長期計画への入力

Quantum Information Science and Technology for Nuclear Physics. Input into U.S. Long-Range Planning, 2023 ( http://arxiv.org/abs/2303.00113v1 )

ライセンス: Link先を確認
Douglas Beck, Joseph Carlson, Zohreh Davoudi, Joseph Formaggio, Sofia Quaglioni, Martin Savage, Joao Barata, Tanmoy Bhattacharya, Michael Bishof, Ian Cloet, Andrea Delgado, Michael DeMarco, Caleb Fink, Adrien Florio, Marianne Francois, Dorota Grabowska, Shannon Hoogerheide, Mengyao Huang, Kazuki Ikeda, Marc Illa, Kyungseon Joo, Dmitri Kharzeev, Karol Kowalski, Wai Kin Lai, Kyle Leach, Ben Loer, Ian Low, Joshua Martin, David Moore, Thomas Mehen, Niklas Mueller, James Mulligan, Pieter Mumm, Francesco Pederiva, Rob Pisarski, Mateusz Ploskon, Sanjay Reddy, Gautam Rupak, Hersh Singh, Maninder Singh, Ionel Stetcu, Jesse Stryker, Paul Szypryt, Semeon Valgushev, Brent VanDevender, Samuel Watkins, Christopher Wilson, Xiaojun Yao, Andrei Afanasev, Akif Baha Balantekin, Alessandro Baroni, Raymond Bunker, Bipasha Chakraborty, Ivan Chernyshev, Vincenzo Cirigliano, Benjamin Clark, Shashi Kumar Dhiman, Weijie Du, Dipangkar Dutta, Robert Edwards, Abraham Flores, Alfredo Galindo-Uribarri, Ronald Fernando Garcia Ruiz, Vesselin Gueorguiev, Fanqing Guo, Erin Hansen, Hector Hernandez, Koichi Hattori, Philipp Hauke, Morten Hjorth-Jensen, Keith Jankowski, Calvin Johnson, Denis Lacroix, Dean Lee, Huey-Wen Lin, Xiaohui Liu, Felipe J. Llanes-Estrada, John Looney, Misha Lukin, Alexis Mercenne, Jeff Miller, Emil Mottola, Berndt Mueller, Benjamin Nachman, John Negele, John Orrell, Amol Patwardhan, Daniel Phillips, Stephen Poole, Irene Qualters, Mike Rumore, Thomas Schaefer, Jeremy Scott, Rajeev Singh, James Vary, Juan-Jose Galvez-Viruet, Kyle Wendt, Hongxi Xing, Liang Yang, Glenn Young and Fanyi Zhao(参考訳) 2023年のnsac長距離計画(英語版)(lrp)に備えて、核科学コミュニティのメンバーが集まり、2023年1月31日から2月1日にかけて、ニューメキシコ州サンタフェで開かれた量子情報科学研究所(英語版)のqist in np research for the quantum information science for u.s. nuclear physics long range planning workshop(英語版)が開催された。 ワークショップには45人の参加者と53人のリモート参加者が参加した。 ワークショップの結果は、NP内で量子センシングと量子シミュレーションを推進し、多様な量子対応の労働力を開発するために、今後5~10年の戦略的計画と要件を特定した。 この計画には、NPとQISTの交差点における説得力のある科学的機会に対処するために参加者が支持する決議が含まれている。 これらの支持は、lrp計算核物理学とai/mlワークショップ、原子核構造、反応、天体物理学lrpタウンホール、基本的な対称性、中性子、ニュートリノlrpタウンホールによる同様の肯定と一致している。

In preparation for the 2023 NSAC Long Range Plan (LRP), members of the Nuclear Science community gathered to discuss the current state of, and plans for further leveraging opportunities in, QIST in NP research at the Quantum Information Science for U.S. Nuclear Physics Long Range Planning workshop, held in Santa Fe, New Mexico on January 31 - February 1, 2023. The workshop included 45 in-person participants and 53 remote attendees. The outcome of the workshop identified strategic plans and requirements for the next 5-10 years to advance quantum sensing and quantum simulations within NP, and to develop a diverse quantum-ready workforce. The plans include resolutions endorsed by the participants to address the compelling scientific opportunities at the intersections of NP and QIST. These endorsements are aligned with similar affirmations by the LRP Computational Nuclear Physics and AI/ML Workshop, the Nuclear Structure, Reactions, and Astrophysics LRP Town Hall, and the Fundamental Symmetries, Neutrons, and Neutrinos LRP Town Hall communities.
翻訳日:2023-03-02 16:37:50 公開日:2023-02-28
# PixCUE -- Deep Pixel 分類を用いたMRIにおける関節不確かさ推定と画像再構成

PixCUE -- Joint Uncertainty Estimation and Image Reconstruction in MRI using Deep Pixel Classification ( http://arxiv.org/abs/2303.00111v1 )

ライセンス: Link先を確認
Mevan Ekanayake, Kamlesh Pawar, Gary Egan, Zhaolin Chen(参考訳) ディープラーニング(DL)モデルはMRデータの潜在表現をうまく活用することができ、MRIの高速化のための最先端技術となっている。 しかし、k空間における測定のアンダーサンプリングと、DLの過度または過度なパラメータ化および非透明性により、これらのモデルは不確実性にさらされる。 その結果, DLMRIでは不確実性評価が大きな問題となっている。 不確実性を推定するために、モンテカルロ(MC)推論技術は、複数の再構成を用いて不確実性の測定として再構成のばらつきを計算する一般的な手法となっている。 しかし、これらの手法はDLモデルを通じて複数の推論を必要とするため、高い計算コストを必要とする。 そこで我々は,画素分類フレームワークを用いたMRI再構成における不確実性を推定する手法を提案する。 提案手法であるpixcue (stands for pixel classification uncertainty estimation) では,dlモデルによる単一フォワードパス中の不確かさマップとともに再構成画像を生成する。 本研究では,様々なMR画像系列と多数の逆条件下で再構成誤差と高い相関関係を持つ不確実性マップを生成することを示す。 また,推定された不確実性は従来のMC法と相関していることを示す。 さらに,pixcueを用いた不確実性推定とnmse,psnr,ssimなどの確立された再構成指標との経験的関係を示す。 PixCUEはMRI再構成における不確実性を最小の計算コストで確実に推定できる。

Deep learning (DL) models are capable of successfully exploiting latent representations in MR data and have become state-of-the-art for accelerated MRI reconstruction. However, undersampling the measurements in k-space as well as the over- or under-parameterized and non-transparent nature of DL make these models exposed to uncertainty. Consequently, uncertainty estimation has become a major issue in DL MRI reconstruction. To estimate uncertainty, Monte Carlo (MC) inference techniques have become a common practice where multiple reconstructions are utilized to compute the variance in reconstruction as a measurement of uncertainty. However, these methods demand high computational costs as they require multiple inferences through the DL model. To this end, we introduce a method to estimate uncertainty during MRI reconstruction using a pixel classification framework. The proposed method, PixCUE (stands for Pixel Classification Uncertainty Estimation) produces the reconstructed image along with an uncertainty map during a single forward pass through the DL model. We demonstrate that this approach generates uncertainty maps that highly correlate with the reconstruction errors with respect to various MR imaging sequences and under numerous adversarial conditions. We also show that the estimated uncertainties are correlated to that of the conventional MC method. We further provide an empirical relationship between the uncertainty estimations using PixCUE and well-established reconstruction metrics such as NMSE, PSNR, and SSIM. We conclude that PixCUE is capable of reliably estimating the uncertainty in MRI reconstruction with a minimum additional computational cost.
翻訳日:2023-03-02 16:37:16 公開日:2023-02-28
# 2022年アラスカ特別選挙における投票と選挙センターのランク付け:他の投票方法と比べてどうか?

Ranked Choice Voting And the Center Squeeze in the Alaska 2022 Special Election: How Might Other Voting Methods Compare? ( http://arxiv.org/abs/2303.00108v1 )

ライセンス: Link先を確認
Jeanne N. Clelland(参考訳) 2022年8月にアラスカで開催されたアメリカ合衆国下院議員特別選挙は3人の主要候補者を擁立し、"instant runoff voting"として知られる1人の当選者による投票方法によって行われた。 「この選挙の結果はよく知られたが比較的稀な現象であり、いわゆる「中央圧迫」である。」 得票率最多のマーク・ベギッチは第1回投票で圧倒的多数を獲得したものの、敗退した。 実際、ベギッチはこの選挙の「最高の当選者」であり、候補者の投票記録に基づいて、他の2人の候補者を頭対頭で破ったが、最少得票数で第1回投票で落選した。 本研究の目的は, この選挙が承認投票とSTAR投票の2つの代替投票方式で実施された場合, 投票記録中のデータを用いて, 潜在的結果の範囲を探ることである。 投票者の行動に関する最善の仮定の下では、最も可能性の高い結果は、ペトララが依然として投票で当選し、ベギチがスター投票で勝利したであろうことである。

The August 2022 special election for U.S. House Representative in Alaska featured three main candidates and was conducted by by single-winner ranked choice voting method known as ``instant runoff voting." The results of this election displayed a well-known but relatively rare phenomenon known as the ``center squeeze:" The most centrist candidate, Mark Begich, was eliminated in the first round despite winning an overwhelming majority of second-place votes. In fact, Begich was the {\em Condorcet winner} of this election: Based on the cast vote record, he would have defeated both of the other two candidates in head-to-head contests, but he was eliminated in the first round of ballot counting due to receiving the fewest first-place votes. The purpose of this paper is to use the data in the cast vote record to explore the range of likely outcomes if this election had been conducted under two alternative voting methods: Approval Voting and STAR (``Score Then Automatic Runoff") Voting. We find that under the best assumptions available about voter behavior, the most likely outcomes are that Peltola would still have won the election under Approval Voting, while Begich would have won under STAR Voting.
翻訳日:2023-03-02 16:36:52 公開日:2023-02-28
# コントラスト学習における表現の普遍性とラベル効率のトレードオフ

The Trade-off between Universality and Label Efficiency of Representations from Contrastive Learning ( http://arxiv.org/abs/2303.00106v1 )

ライセンス: Link先を確認
Zhenmei Shi, Jiefeng Chen, Kunyang Li, Jayaram Raghuram, Xi Wu, Yingyu Liang, Somesh Jha(参考訳) 事前学習表現(または基礎モデル)は、最近一般的な学習パラダイムとなり、まず大規模なラベル付きデータを使用して表現を事前学習し、次に下流のタスクから小さなラベル付きデータを使用して表現の上に単純な予測子を学習する。 表現には2つの重要なデシラタがある: ラベル効率(ラベル付きデータの少ない量で表現の上に正確な分類器を学習する能力)と普遍性(幅広い下流タスクにまたがる使い勝手)である。 本稿では,このパラダイムの最も一般的なインスタンスの1つ,線形プローブを用いたコントラスト学習,すなわち,コントラスト学習によって事前学習された表現について線形予測子を学習することに焦点を当てる。 2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。 具体的には、理論データモデルを用いて分析を行い、より多様な事前学習データによって異なるタスクに対してより多様な機能(普遍性の改善)をもたらすが、タスク固有の機能に重点を置き、ダウンストリームの教師付きタスクのサンプル複雑さを増大させ、予測性能を低下させることを示した。 この分析により、トレードオフを改善するための対照的な正則化法を提案する。 実世界のデータセットと基礎モデルを用いて,系統実験により分析手法と手法を実証的に検証した。

Pre-training representations (a.k.a. foundation models) has recently become a prevalent learning paradigm, where one first pre-trains a representation using large-scale unlabeled data, and then learns simple predictors on top of the representation using small labeled data from the downstream tasks. There are two key desiderata for the representation: label efficiency (the ability to learn an accurate classifier on top of the representation with a small amount of labeled data) and universality (usefulness across a wide range of downstream tasks). In this paper, we focus on one of the most popular instantiations of this paradigm: contrastive learning with linear probing, i.e., learning a linear predictor on the representation pre-trained by contrastive learning. We show that there exists a trade-off between the two desiderata so that one may not be able to achieve both simultaneously. Specifically, we provide analysis using a theoretical data model and show that, while more diverse pre-training data result in more diverse features for different tasks (improving universality), it puts less emphasis on task-specific features, giving rise to larger sample complexity for down-stream supervised tasks, and thus worse prediction performance. Guided by this analysis, we propose a contrastive regularization method to improve the trade-off. We validate our analysis and method empirically with systematic experiments using real-world datasets and foundation models.
翻訳日:2023-03-02 16:36:29 公開日:2023-02-28
# 電力系統状態推定のためのグラフニューラルネットワークのスケーラビリティとサンプル効率解析

Scalability and Sample Efficiency Analysis of Graph Neural Networks for Power System State Estimation ( http://arxiv.org/abs/2303.00105v1 )

ライセンス: Link先を確認
Ognjen Kundacina, Gorana Gojic, Mirsad Cosovic, Dragisa Miskovic, Dejan Vukobratovic(参考訳) データ駆動状態推定(SE)は、リアルタイム計測データを用いたシステム動作のより効率的な分析を可能にするため、現代の電力システムではますます重要になっている。 本稿では,因子グラフに適用されるグラフニューラルネットワーク(gnns)に基づくpmuのみの状態推定器を徹底的に評価する。 gnnモデルのサンプル効率を評価するために,様々なトレーニングセットサイズで複数のトレーニング実験を行った。 さらに, GNNモデルのスケーラビリティを評価するために, 様々なサイズの電力系統の実験を行う。 以上の結果から,gnnベースの状態推定器は,高い精度と効率的なデータ利用率を示す。 さらに、メモリ使用量と推論時間の両方の観点からスケーラビリティを実証し、現代の電力システムにおけるデータ駆動seの有望なソリューションとなった。

Data-driven state estimation (SE) is becoming increasingly important in modern power systems, as it allows for more efficient analysis of system behaviour using real-time measurement data. This paper thoroughly evaluates a PMU-only state estimator based on graph neural networks (GNNs) applied over factor graphs. To assess the sample efficiency of the GNN model, we perform multiple training experiments on various training set sizes. Additionally, to evaluate the scalability of the GNN model, we conduct experiments on power systems of various sizes. Our results show that the GNN-based state estimator exhibits high accuracy and efficient use of data. Additionally, it demonstrated scalability in terms of both memory usage and inference time, making it a promising solution for data-driven SE in modern power systems.
翻訳日:2023-03-02 16:36:05 公開日:2023-02-28
# 資源効率測定によるトランスモン量子ビットの低周波・高周波ノイズのモデル化

Modeling low- and high-frequency noise in transmon qubits with resource-efficient measurement ( http://arxiv.org/abs/2303.00095v1 )

ライセンス: Link先を確認
Vinay Tripathi, Huo Chen, Eli Levenson-Falk, Daniel A. Lidar(参考訳) transmon qubitsは広い周波数域でノイズとして現れるオープンシステム効果を経験する。 低周波成分と高周波成分からなるハイブリッド浴を用いたレッドフィールドマスター方程式を用いて,これらの効果のモデルを提案する。 超伝導量子ビットのデコヒーレンス源である1/f型ノイズ挙動をシミュレートするために, 2レベルゆらぎ器を用いる。 自由発展下での量子状態の忠実度を動的デカップリング(dd)なしで測定することで、モデルにおける低周波および高周波ノイズパラメータに適合させることができる。 私たちはIBM量子体験を通じて利用可能な量子デバイスの実験を使用してモデルをトレーニングし、テストします。 我々のモデルはDDパルス列の効果を含むランダム初期状態の忠実度減衰を正確に予測する。 本モデルと2つの簡易モデルを比較し,トランスモンの挙動を正確に予測するために,高周波ノイズと1/fノイズの両方を含めることの重要性を確認した。

Transmon qubits experience open system effects that manifest as noise at a broad range of frequencies. We present a model of these effects using the Redfield master equation with a hybrid bath consisting of low and high-frequency components. We use two-level fluctuators to simulate 1/f-like noise behavior, which is a dominant source of decoherence for superconducting qubits. By measuring quantum state fidelity under free evolution with and without dynamical decoupling (DD), we can fit the low- and high-frequency noise parameters in our model. We train and test our model using experiments on quantum devices available through IBM quantum experience. Our model accurately predicts the fidelity decay of random initial states, including the effect of DD pulse sequences. We compare our model with two simpler models and confirm the importance of including both high-frequency and 1/f noise in order to accurately predict transmon behavior.
翻訳日:2023-03-02 16:35:52 公開日:2023-02-28
# グラフ誘導スパースモーション推定によるビデオポーズトラック

Video Pose Track with Graph-Guided Sparse Motion Estimation ( http://arxiv.org/abs/2303.00138v1 )

ライセンス: Link先を確認
Yalong Jiang, Wenrui Ding, Hongguang Li and Zheru Chi(参考訳) 本稿では,オクルージョンと動きのぼかしの下での多人数ポーズ推定と追跡のための新しいフレームワークを提案する。 具体的には、連続するフレームからのグラフ構造の整合性は、可視体関節に集中し、可視体関節を囲むスパースキーポイントの運動ベクトルを推定することによって向上する。 提案するフレームワークには3つのコンポーネントがある。 (i)身体関節周辺からキーポイントをサンプリングし、身体関節位置の精細化及びポーズ推定器の微調整に寄与するキーポイントの動きベクトルを推定するためのスパースキーポイントフロー推定モジュール(skfem) (II)階層グラフからノードの可視性を評価するための階層グラフ距離最小化モジュール(HGMM)とそのノード周辺のサンプル数を決定するノードの可視性スコア (iii)同一性をマッチングするための複数の歴史的枠の組み合わせ。 HGMMとのグラフマッチングは、部分閉塞下においてもより正確な追跡を容易にする。 提案手法は,PoseTrackデータセットの最先端性能を達成するだけでなく,人為的異常検出の大幅な改善にも寄与する。 精度の向上に加えて、提案したSKFEMは高密度光フロー推定よりもはるかに高い効率を示す。

In this paper, we propose a novel framework for multi-person pose estimation and tracking under occlusions and motion blurs. Specifically, the consistency in graph structures from consecutive frames is improved by concentrating on visible body joints and estimating the motion vectors of sparse key-points surrounding visible joints. The proposed framework involves three components: (i) A Sparse Key-point Flow Estimating Module (SKFEM) for sampling key-points from around body joints and estimating the motion vectors of key-points which contribute to the refinement of body joint locations and fine-tuning of pose estimators; (ii) A Hierarchical Graph Distance Minimizing Module (HGMM) for evaluating the visibility scores of nodes from hierarchical graphs with the visibility score of a node determining the number of samples around that node; and (iii) The combination of multiple historical frames for matching identities. Graph matching with HGMM facilitates more accurate tracking even under partial occlusions. The proposed approach not only achieves state-of-the-art performance on the PoseTrack dataset but also contributes to significant improvements in human-related anomaly detection. Besides a higher accuracy, the proposed SKFEM also shows a much higher efficiency than dense optical flow estimation.
翻訳日:2023-03-02 16:27:17 公開日:2023-02-28
# PixHt-Lab:画像合成のための画素高さに基づく光効果生成

PixHt-Lab: Pixel Height Based Light Effect Generation for Image Compositing ( http://arxiv.org/abs/2303.00137v1 )

ライセンス: Link先を確認
Yichen Sheng, Jianming Zhang, Julien Philip, Yannick Hold-Geoffroy, Xin Sun, HE Zhang, Lu Ling, Bedrich Benes(参考訳) シャドウやリフレクションなどの照明効果は、合成画像を写実的で視覚的に魅力的なものにするための鍵となる。 このような効果を生成するために、従来のコンピュータグラフィックスは物理ベースのレンダラーと3D幾何学を使用する。 2次元画像合成における幾何学の欠如を補うため、ディープラーニングに基づく最近のアプローチでは、ソフトシャドウと反射を生成するピクセル高さ表現が導入されている。 しかし、幾何学の欠如は生成したソフトシャドウの品質を制限し、反射を純粋な鏡面に制限する。 PixHt-Labは,ピクセルの高さ表現から3次元空間への明示的なマッピングを利用するシステムである。 このマッピングを使ってpixht-labはカットアウトと背景の両方を再構成し、画像合成のためのリアルで多彩な照明効果をレンダリングする。 表面を物理的に基づいた素材が与えられると、様々な光沢を持つ反射をレンダリングできる。 さらに,より現実的なソフトシャドウを生成するために,ニューラルレンダラーを誘導する3D対応バッファチャネルを提案する。 定量的および定性的評価は、PixHt-Labがソフトシャドウ生成を著しく改善することを示している。

Lighting effects such as shadows or reflections are key in making synthetic images realistic and visually appealing. To generate such effects, traditional computer graphics uses a physically-based renderer along with 3D geometry. To compensate for the lack of geometry in 2D Image compositing, recent deep learning-based approaches introduced a pixel height representation to generate soft shadows and reflections. However, the lack of geometry limits the quality of the generated soft shadows and constrain reflections to pure specular ones. We introduce PixHt-Lab, a system leveraging an explicit mapping from pixel height representation to 3D space. Using this mapping, PixHt-Lab reconstructs both the cutout and background geometry and renders realistic, diverse, lighting effects for image compositing. Given a surface with physically-based materials, we can render reflections with varying glossiness. To generate more realistic soft shadows, we further propose to use 3D-aware buffer channels to guide a neural renderer. Both quantitative and qualitative evaluations demonstrate that PixHt-Lab significantly improves soft shadow generation.
翻訳日:2023-03-02 16:26:59 公開日:2023-02-28
# 圧縮映像品質向上のためのバリデーション情報誘導ネットワーク

Valid Information Guidance Network for Compressed Video Quality Enhancement ( http://arxiv.org/abs/2303.00520v1 )

ライセンス: Link先を確認
Xuan Sun, Ziyue Zhang, Guannan Chen and Dan Zhu(参考訳) 近年,映像品質向上タスクにおいて,深層学習の手法が優れていることが示されている。 既存の手法は、通常、生動画を基礎的真実と捉え、様々なアーティファクトを含む連続フレームから実用的な情報を抽出する。 しかし、圧縮ビデオの品質向上を導くために、圧縮ビデオと生ビデオの有効情報を十分に活用していない。 本稿では,圧縮ビデオと生ビデオの両方から有効な情報をマイニングすることにより,圧縮ビデオの品質を高めるための,ユニークな検証情報誘導手法を提案する。 具体的には、速度と拡張のバランスをとるために、効率的なフレームワークである圧縮冗長フィルタリング(CRF)ネットワークを提案する。 情報をフィルタリングすることで冗長性を除去した後、CRFは圧縮されたビデオの有効な情報を用いてテクスチャを再構築することができる。 さらに,教師モデルや蒸留損失関数の設計を必要とせず,プログレッシブ・真実指導蒸留(tgd)戦略を提案する。 基礎的真理を入力として、モデルが生のフレームをまたいで正しい時空間対応を集約するのを助けるだけで、tgdは余分なトレーニングコストを増加させることなく、強化効果を著しく向上させることができる。 拡張実験により,圧縮映像品質向上の最先端性能を精度と効率で達成できることが示された。

In recent years deep learning methods have shown great superiority in compressed video quality enhancement tasks. Existing methods generally take the raw video as the ground truth and extract practical information from consecutive frames containing various artifacts. However, they do not fully exploit the valid information of compressed and raw videos to guide the quality enhancement for compressed videos. In this paper, we propose a unique Valid Information Guidance scheme (VIG) to enhance the quality of compressed videos by mining valid information from both compressed videos and raw videos. Specifically, we propose an efficient framework, Compressed Redundancy Filtering (CRF) network, to balance speed and enhancement. After removing the redundancy by filtering the information, CRF can use the valid information of the compressed video to reconstruct the texture. Furthermore, we propose a progressive Truth Guidance Distillation (TGD) strategy, which does not need to design additional teacher models and distillation loss functions. By only using the ground truth as input to guide the model to aggregate the correct spatio-temporal correspondence across the raw frames, TGD can significantly improve the enhancement effect without increasing the extra training cost. Extensive experiments show that our method achieves the state-of-the-art performance of compressed video quality enhancement in terms of accuracy and efficiency.
翻訳日:2023-03-02 14:40:53 公開日:2023-02-28
# 逆整形によるエピソードRLの多重抽象化

Exploiting Multiple Abstractions in Episodic RL via Reward Shaping ( http://arxiv.org/abs/2303.00516v1 )

ライセンス: Link先を確認
Roberto Cipollone, Giuseppe De Giacomo, Marco Favorito, Luca Iocchi, Fabio Patrizi(参考訳) 多くの実践領域への強化学習(rl)の適用性に対する大きな制限の1つは、最適なポリシーを学ぶのに必要な大量のサンプルである。 この問題に対処し、学習効率を向上させるために、ターゲット領域の根底にあるマルコフ決定プロセス(MDP)の抽象層の線形階層を考える。 各層は階層内の直下の層の粗いモデルを表すMDPである。 そこで本研究では,より具体的なmdpに対して,抽象的な解がより複雑な領域で学習を導くように,抽象レベルで得られる解を用いて報奨を与える,新しい報奨形法を提案する。 階層型rlの他の作品とは対照的に,本手法は抽象モデルの設計における要件がほとんどなく,また,誤差のモデル化にも耐性があるため,提案手法が実用的である。 抽象モデルと低レベル領域で引き起こされる探索ヒューリスティックとの関係を形式的に解析する。 さらに,本手法が最適収束を保証し,その効果を実験的に実証する。

One major limitation to the applicability of Reinforcement Learning (RL) to many practical domains is the large number of samples required to learn an optimal policy. To address this problem and improve learning efficiency, we consider a linear hierarchy of abstraction layers of the Markov Decision Process (MDP) underlying the target domain. Each layer is an MDP representing a coarser model of the one immediately below in the hierarchy. In this work, we propose a novel form of Reward Shaping where the solution obtained at the abstract level is used to offer rewards to the more concrete MDP, in such a way that the abstract solution guides the learning in the more complex domain. In contrast with other works in Hierarchical RL, our technique has few requirements in the design of the abstract models and it is also tolerant to modeling errors, thus making the proposed approach practical. We formally analyze the relationship between the abstract models and the exploration heuristic induced in the lower-level domain. Moreover, we prove that the method guarantees optimal convergence and we demonstrate its effectiveness experimentally.
翻訳日:2023-03-02 14:40:21 公開日:2023-02-28
# 水位予測のための解釈変換器

Interpretable Transformer for Water Level Forecasting ( http://arxiv.org/abs/2303.00515v1 )

ライセンス: Link先を確認
Sunghcul Hong, Yunjin Choi and Jong-June Jeon(参考訳) ハン川の水位を予測することは交通の制御や自然災害の回避に重要である。 漢川には多くの変数があり、複雑に繋がっている。 本研究は,ハン川に架かる4つの橋であるチョンダム,ジャムス,ハングル,ハエンジュを,変数間の事前の知識に基づいて因果関係を利用して予測するトランスフォーマーを提案する。 提案モデルは,多層ネットワークとして因果構造を定式化し,マスキング法を用いて空間的および時間的因果関係を考察する。 このアプローチにより、事前の知識と一致する解釈可能性を持つことができます。 さらに,時系列における極度リスクの高精度化のための新しい校正手法と損失関数を提案する。 実データ解析では,2016年から2021年までのhan riverデータセットを用いて,提案モデルとディープラーニングモデルを比較した。

Forecasting the water level of the Han river is important to control the traffic and avoid natural disasters. There are many variables related to the Han river and they are intricately connected. In this work, we propose a novel transformer that exploits the causal relationship based on the prior knowledge among the variables and forecasts the four bridges of the Han river: Cheongdam, Jamsu, Hangang, and Haengju. Our proposed model considers both spatial and temporal causation by formalizing the causal structure as a multilayer network and using masking methods. Due to this approach, we can have the interpretability that consistent with prior knowledge. Additionally, we propose a novel recalibration method and loss function for high accuracy of extreme risk in time series. In real data analysis, we use the Han river dataset from 2016 to 2021, and compare the proposed model with deep learning models.
翻訳日:2023-03-02 14:40:05 公開日:2023-02-28
# 適応型ハイブリッド空間時間グラフニューラルネットワークによるセルトラフィック予測

Adaptive Hybrid Spatial-Temporal Graph Neural Network for Cellular Traffic Prediction ( http://arxiv.org/abs/2303.00498v1 )

ライセンス: Link先を確認
Xing Wang, Kexin Yang, Zhendong Wang, Junlan Feng, Lin Zhu, Juan Zhao, Chao Deng(参考訳) セルトラフィック予測は、インテリジェント通信ネットワークにとって欠かせない部分である。 しかし、ユーザモビリティと複雑なネットワークスケジューリング機構のため、セルトラフィックは複雑な時空間パターンを継承することが多く、予測が驚くほど難しい。 グラフベースの予測手法のような最近の高度なアルゴリズムは提案されているが、静的グラフや動的グラフに基づく空間依存をしばしばモデル化し、トラフィック生成によって誘導される複数の空間相関を無視する。 一方、いくつかの研究では、多様なセルラートラフィックパターンが考慮されていないため、最適以下の予測結果が得られる。 本稿では,新しいディープラーニングネットワークアーキテクチャであるAdaptive Hybrid Spatial-Temporal Graph Neural Network (AHSTGNN)を提案する。 まず,適応型ハイブリッドグラフ学習を用いてセルタワー間の複合空間相関を学習する。 第2に,多重周期データ入力を持つ時相畳み込みモジュールを実装し,非線形時相依存性をキャプチャする。 さらに, セルタワー内の不均一性を克服するために, 時空間適応モジュールを導入する。 実世界の2つのセルラートラフィックデータセットを用いた実験では,ahstgnnが最先端のセルラートラフィック予測手法の優れたスケーラビリティを示した。

Cellular traffic prediction is an indispensable part for intelligent telecommunication networks. Nevertheless, due to the frequent user mobility and complex network scheduling mechanisms, cellular traffic often inherits complicated spatial-temporal patterns, making the prediction incredibly challenging. Although recent advanced algorithms such as graph-based prediction approaches have been proposed, they frequently model spatial dependencies based on static or dynamic graphs and neglect the coexisting multiple spatial correlations induced by traffic generation. Meanwhile, some works lack the consideration of the diverse cellular traffic patterns, result in suboptimal prediction results. In this paper, we propose a novel deep learning network architecture, Adaptive Hybrid Spatial-Temporal Graph Neural Network (AHSTGNN), to tackle the cellular traffic prediction problem. First, we apply adaptive hybrid graph learning to learn the compound spatial correlations among cell towers. Second, we implement a Temporal Convolution Module with multi-periodic temporal data input to capture the nonlinear temporal dependencies. In addition, we introduce an extra Spatial-Temporal Adaptive Module to conquer the heterogeneity lying in cell towers. Our experiments on two real-world cellular traffic datasets show AHSTGNN outperforms the state-of-the-art by a significant margin, illustrating the superior scalability of our method for spatial-temporal cellular traffic prediction.
翻訳日:2023-03-02 14:38:29 公開日:2023-02-28
# トラフィック需要予測のためのヘテロジニアスグラフニューラルネットワークの半分散推論:エッジコンピューティングアプローチ

Semi-decentralized Inference in Heterogeneous Graph Neural Networks for Traffic Demand Forecasting: An Edge-Computing Approach ( http://arxiv.org/abs/2303.00524v1 )

ライセンス: Link先を確認
Mahmoud Nazzal, Abdallah Khreishah, Joyoung Lee, and Shaahin Angizi(参考訳) 交通需要と供給の正確かつタイムリーな予測は、顧客体験の向上と提供者の利益向上に不可欠である。 近年,小都市部における交通需要と供給の予測にグラフニューラルネットワーク(GNN)が期待されている。 これにより、ノードの履歴的特徴と、他のノードとのリレーショナル情報の両方をモデル化できる。 しかし、より効率的なタクシー需要と供給予測は、2つの主要ルートを従えば達成できる。 まず、予測グラフのスケールを、より多くの領域を含むように拡張すること。 第二に、複数のノードとエッジタイプを同時に利用することで、トラフィックシステムにおける複雑で多様な関係の集合をよりよく公開し、活用する。 それにもかかわらず、両方のアプローチの適用性は、システムワイドGNNトレーニングと推論のスケーラビリティによって挑戦されている。 スケーラビリティの課題に対する即時対策は、GNN操作を分散化することだ。 しかし、GNN操作の分散化はノード間通信の過大なオーバーヘッドを生み出し、このアプローチの可能性を妨げる。 本稿では,エッジ上のマルチサイズ,中規模,高スループットのクラウドレット通信ネットワークを用いた半分散方式を提案する。 このアプローチは、集中型と分散型の設定の最良の機能を組み合わせる。クラウドレット間の通信を最小限にすることで、分散型のアプローチの通信オーバーヘッドを軽減し、cloudletレベルの分散化によるスケーラビリティを促進する。 また、タクシーレベルの需要と供給予測を改善するための異種GNN-LSTMアルゴリズムを提案する。 このアプローチにより、ノードがタクシーであるような動的タクシーグラフの処理が可能になる。 実データに対する一連の実験を通して、タクシー需要と供給予測のためのGNN-LSTMアルゴリズム上でテストされた半分散アプローチの利点を示す。

Accurate and timely prediction of transportation demand and supply is essential for improving customer experience and raising the provider's profit. Recently, graph neural networks (GNNs) have been shown promising in predicting traffic demand and supply in small city regions. This awes their capability in modeling both a node's historical features and its relational information with other nodes. However, more efficient taxi demand and supply forecasting can still be achieved by following two main routes. First, is extending the scale of the prediction graph to include more regions. Second, is the simultaneous exploitation of multiple node and edge types to better expose and exploit the complex and diverse set of relations in a traffic system. Nevertheless, the applicability of both approaches is challenged by the scalability of system-wide GNN training and inference. An immediate remedy to the scalability challenge is to decentralize the GNN operation. However, decentralizing GNN operation creates excessive node-to-node communication overhead which hinders the potential of this approach. In this paper, we propose a semi-decentralized approach based on the use of multiple, moderately sized, and high-throughout cloudlet communication networks on the edge. This approach combines the best features of the centralized and decentralized settings; it may minimize the inter-cloudlet communication thereby alleviating the communication overhead of the decentralized approach while promoting scalability due to cloudlet-level decentralization. Also, we propose a heterogeneous GNN-LSTM algorithm for improved taxi-level demand and supply forecasting. This approach allows for handling dynamic taxi graphs where nodes are taxis. Through a set of experiments over real data, we show the advantage of the semi-decentralized approach as tested over our GNN-LSTM algorithm for taxi demand and supply prediction.
翻訳日:2023-03-02 14:29:30 公開日:2023-02-28
# 半教師付き制約付きクラスタリング:詳細な概要と分類と今後の研究方向

Semi-Supervised Constrained Clustering: An In-Depth Overview, Ranked Taxonomy and Future Research Directions ( http://arxiv.org/abs/2303.00522v1 )

ライセンス: Link先を確認
Germ\'an Gonz\'alez-Almagro, Daniel Peralta, Eli De Poorter, Jos\'e-Ram\'on Cano, Salvador Garc\'ia(参考訳) クラスタリングはよく知られた教師なし機械学習アプローチであり、同様の特徴を持つ個別のインスタンスセットを自動的にグループ化することができる。 制約クラスタリング(Constrained clustering)は、専門家の知識が利用可能で、活用可能な制約を示すときに使用できる、このプロセスの半教師付き拡張である。 このような制約のよく知られた例は、 must-link (2つのインスタンスが同じグループに属していることを示す) と cannot-link (2つのインスタンスは間違いなく一緒に属さない) である。 制約クラスタリングの研究領域は、様々な新しいアルゴリズムとより高度な制約が提案されているため、長年にわたって大きく成長してきた。 しかし、広く利用可能なメソッド、制約、ベンチマークを簡単に理解するための統一的な概要は提供されていない。 そこで本研究では,制約クラスタリングの背景を詳細に把握し,制約クラスタリングに使用できる制約の種類を分類する新たな分類法を提案する。 さらに、インスタンスレベルのペアワイズ制約に焦点を当て、そのアプリケーションとその歴史的なコンテキストの概要を示す。 最後に,307の制約付きクラスタリング手法を網羅した統計分析を行い,それらの特徴に応じて分類し,その人気度と検証品質に基づいて,どの手法が最も有意かを示す。 最後に、この分析に基づいて、潜在的な落とし穴と今後の研究指針を提供する。

Clustering is a well-known unsupervised machine learning approach capable of automatically grouping discrete sets of instances with similar characteristics. Constrained clustering is a semi-supervised extension to this process that can be used when expert knowledge is available to indicate constraints that can be exploited. Well-known examples of such constraints are must-link (indicating that two instances belong to the same group) and cannot-link (two instances definitely do not belong together). The research area of constrained clustering has grown significantly over the years with a large variety of new algorithms and more advanced types of constraints being proposed. However, no unifying overview is available to easily understand the wide variety of available methods, constraints and benchmarks. To remedy this, this study presents in-detail the background of constrained clustering and provides a novel ranked taxonomy of the types of constraints that can be used in constrained clustering. In addition, it focuses on the instance-level pairwise constraints, and gives an overview of its applications and its historical context. Finally, it presents a statistical analysis covering 307 constrained clustering methods, categorizes them according to their features, and provides a ranking score indicating which methods have the most potential based on their popularity and validation quality. Finally, based upon this analysis, potential pitfalls and future research directions are provided.
翻訳日:2023-03-02 14:29:03 公開日:2023-02-28
# 騒音を考慮した貯留層計算

Reservoir Computing with Noise ( http://arxiv.org/abs/2303.00585v1 )

ライセンス: Link先を確認
Chad Nathe and Chandra Pappu and Nicholas A. Mecholsky and Joseph D. Hart and Thomas Carroll and Francesco Sorrentino(参考訳) 本稿では,貯留層計算の性能に及ぼす騒音の影響について詳細に検討する。 我々は,カオスシステムの状態変数間の関係を学習するために,貯水池コンピュータを使用するアプリケーションに焦点をあてる。 ノイズがトレーニングとテストのフェーズに異なる影響を与えることは認識しています。 学習段階では入力信号に影響を及ぼす雑音の強度が、試験段階では入力信号に影響を及ぼす雑音の強度と等しくなると、貯水池の最高の性能が達成される。 検討したすべての症例について、ノイズに対する良い対策は入力と訓練・試験信号の低域通過フィルタであり、これは典型的には、望ましくないノイズの効果を低減しつつ、貯水池の性能を保ちます。

This paper investigates in detail the effects of noise on the performance of reservoir computing. We focus on an application in which reservoir computers are used to learn the relationship between different state variables of a chaotic system. We recognize that noise can affect differently the training and testing phases. We find that the best performance of the reservoir is achieved when the strength of the noise that affects the input signal in the training phase equals the strength of the noise that affects the input signal in the testing phase. For all the cases we examined, we found that a good remedy to noise is to low-pass filter the input and the training/testing signals; this typically preserves the performance of the reservoir, while reducing the undesired effects of noise.
翻訳日:2023-03-02 14:20:59 公開日:2023-02-28
# WENDyを用いたODEモデルのパラメータの直接推定:非線形ダイナミクスの弱形式推定

Direct Estimation of Parameters in ODE Models Using WENDy: Weak-form Estimation of Nonlinear Dynamics ( http://arxiv.org/abs/2302.13271v2 )

ライセンス: Link先を確認
David M. Bortz, Daniel A. Messenger, Vanja Dukic(参考訳) ODEの非線形系に対するモデルパラメータを推定するためのWendy法を提案する。 中心的な数学的アイデアは、モデルの強形式表現をその弱形式に効率よく変換し、パラメータ推論を実行するために回帰問題を解くことである。 中心となる統計的アイデアは、反復的に再重み付けされた最小二乗アルゴリズムを使用する必要があるErrors-In-Variablesフレームワークに依存している。 さらなる改善は、様々なサポートサイズの$C^{\infty}$バンプ関数のセットから生成される正則なテスト関数を使用することによって得られる。 ウェンディは微分方程式におけるパラメータ推定の高ロバストで効率的な手法であることを示す。 数値微分方程式の解法に頼らず、WENDyは正確な推定値を計算し、大きな(生物学的に関係のある)測定ノイズレベルに頑健である。 控えめなデータ量を持つ低次元システムでは、WENDyは速度と精度の点で従来の前方解法に基づく非線形最小二乗法と競合する。 高次元システムと剛性システムの両方において、WENDyは(しばしば桁違いに)より高速で、前方解法に基づくアプローチよりも正確である。 本手法は,ロジスティック成長,ロトカ・ボルテラ,フィッツヒュー・ナグモ,ヒンドマーシュ・ローズ,タンパク質翻訳ベンチマークモデルなど,一般的な個体群および神経科学モデルにおいてその性能を示す。 サンプルを再現するためのソフトウェアとコードはhttps://github.com/MathBioCU/WENDy.comで入手できる。

We introduce the Weak-form Estimation of Nonlinear Dynamics (WENDy) method for estimating model parameters for non-linear systems of ODEs. The core mathematical idea involves an efficient conversion of the strong form representation of a model to its weak form, and then solving a regression problem to perform parameter inference. The core statistical idea rests on the Errors-In-Variables framework, which necessitates the use of the iteratively reweighted least squares algorithm. Further improvements are obtained by using orthonormal test functions, created from a set of $C^{\infty}$ bump functions of varying support sizes. We demonstrate that WENDy is a highly robust and efficient method for parameter inference in differential equations. Without relying on any numerical differential equation solvers, WENDy computes accurate estimates and is robust to large (biologically relevant) levels of measurement noise. For low dimensional systems with modest amounts of data, WENDy is competitive with conventional forward solver-based nonlinear least squares methods in terms of speed and accuracy. For both higher dimensional systems and stiff systems, WENDy is typically both faster (often by orders of magnitude) and more accurate than forward solver-based approaches. We illustrate the method and its performance in some common population and neuroscience models, including logistic growth, Lotka-Volterra, FitzHugh-Nagumo, Hindmarsh-Rose, and a Protein Transduction Benchmark model. Software and code for reproducing the examples is available at (https://github.com/MathBioCU/WENDy).
翻訳日:2023-03-02 11:46:40 公開日:2023-02-28
# 敵環境における対話的ノベルティハンドリングの方法とメカニズム

Methods and Mechanisms for Interactive Novelty Handling in Adversarial Environments ( http://arxiv.org/abs/2302.14208v1 )

ライセンス: Link先を確認
Tung Thai, Ming Shen, Mayank Garg, Ayush Kalani, Nakul Vaidya, Utkarsh Soni, Mudit Verma, Sriram Gopalakrishnan, Chitta Baral, Subbarao Kambhampati, Jivko Sinapov, and Matthias Scheutz(参考訳) 新規性の検出、特徴付け、適応の学習は、オープンワールドドメインで動作するエージェントが適切なタスクパフォーマンスを保証するために対処する必要がある課題である。 特定の新規性(環境力学の変化など)は、パフォーマンスを阻害したり、エージェントがタスク目標を達成するのを妨げたりします。 本稿では,異なる種類のノベルティを検出し,特徴付けるための一般的な手法とアーキテクチャ機構を導入し,論理的表現や推論手法を用いて適合する適切な適応モデルを構築する。 対戦型マルチエージェントボードゲームMonopolyにおいて,サードパーティによる評価において提案手法の有効性を示す。 その結果、ゲームルールの変更やエージェントのアクション能力の変更など、さまざまなノベルティタイプにわたる新規性検出と宿泊率の向上が示された。

Learning to detect, characterize and accommodate novelties is a challenge that agents operating in open-world domains need to address to be able to guarantee satisfactory task performance. Certain novelties (e.g., changes in environment dynamics) can interfere with the performance or prevent agents from accomplishing task goals altogether. In this paper, we introduce general methods and architectural mechanisms for detecting and characterizing different types of novelties, and for building an appropriate adaptive model to accommodate them utilizing logical representations and reasoning methods. We demonstrate the effectiveness of the proposed methods in evaluations performed by a third party in the adversarial multi-agent board game Monopoly. The results show high novelty detection and accommodation rates across a variety of novelty types, including changes to the rules of the game, as well as changes to the agent's action capabilities.
翻訳日:2023-03-01 18:43:19 公開日:2023-02-28
# ニューラルネットワーク学習のセマンティック強化

Semantic Strengthening of Neuro-Symbolic Learning ( http://arxiv.org/abs/2302.14207v1 )

ライセンス: Link先を確認
Kareem Ahmed, Kai-Wei Chang, Guy Van den Broeck(参考訳) 最近、ニューラルネットワークの出力層に記号的知識を追加することを目的として、多くのニューロシンボリックアプローチが提案されている。 理想的には、そのような損失はニューラルネットワークの予測が基盤となる領域を満たす確率を最大化する。 残念ながら、この種の確率的推論はしばしば計算不可能である。 したがって、ニューロシンボリックなアプローチは一般に、この確率的目標のファジィ近似に依拠し、音の確率的意味論を犠牲にしたり、非常に稀なサンプリングを行う。 まず,ネットワークが学習した特徴に基づいて制約を分解したと仮定して,その問題にアプローチする。 我々は近似を反復的に強化し、近似の品質を劣化させる最も責任のある制約間の依存性を回復する。 これは、ネットワークの学習した特徴に基づく制約のペア間の相互情報を計算することに対応し、2つの分布の勾配がいかによく整っているかの尺度として構成することができる。 トラクタブル回路の効率的な計算法を示す。 我々は、ウォークラフトにおける最小コストパスの予測、最小コストの完全マッチングの予測、そしてsudokuパズルの解法という3つのタスクで我々のアプローチをテストする。

Numerous neuro-symbolic approaches have recently been proposed typically with the goal of adding symbolic knowledge to the output layer of a neural network. Ideally, such losses maximize the probability that the neural network's predictions satisfy the underlying domain. Unfortunately, this type of probabilistic inference is often computationally infeasible. Neuro-symbolic approaches therefore commonly resort to fuzzy approximations of this probabilistic objective, sacrificing sound probabilistic semantics, or to sampling which is very seldom feasible. We approach the problem by first assuming the constraint decomposes conditioned on the features learned by the network. We iteratively strengthen our approximation, restoring the dependence between the constraints most responsible for degrading the quality of the approximation. This corresponds to computing the mutual information between pairs of constraints conditioned on the network's learned features, and may be construed as a measure of how well aligned the gradients of two distributions are. We show how to compute this efficiently for tractable circuits. We test our approach on three tasks: predicting a minimum-cost path in Warcraft, predicting a minimum-cost perfect matching, and solving Sudoku puzzles, observing that it improves upon the baselines while sidestepping intractability.
翻訳日:2023-03-01 18:43:04 公開日:2023-02-28
# 外科的文脈推論とジェスチャーへの翻訳に向けて

Towards Surgical Context Inference and Translation to Gestures ( http://arxiv.org/abs/2302.14237v1 )

ライセンス: Link先を確認
Kay Hutchinson, Zongyu Li, Ian Reyes, Homa Alemzadeh(参考訳) ロボット支援手術におけるジェスチャーのマニュアルラベリングは、労働集約的であり、エラーを起こしやすく、専門知識や訓練を必要とする。 本稿では,画像セグメント化のためのデータ量の多さを利用して,手術用ツールとオブジェクトマスクを提供する手術シーンセグメント化モデルを訓練するジェスチャーテキストの自動生成手法を提案する。 ツールとオブジェクト間の距離と交差点を調べることにより,セグメンテーションマスクを用いて外科的コンテキストを検出する。 次に、コンテキストラベルを知識ベース有限状態機械(FSM)とデータ駆動長短項メモリ(LSTM)モデルを用いてジェスチャーの書き起こしに変換する。 本研究では,提案手法の各段階の性能を,JIGSAWSデータセットの基底真理セグメンテーションマスク,コンセンサスコンテキストラベル,ジェスチャーラベルと比較することによって評価する。 以上の結果から,サチューリングにおける針と糸の認識において,我々のセグメンテーションモデルは,クラウドソースラベル(サチューリングにおける把握者とオブジェクト間の接触など)と高い一致で重要な手術状態を自動検出できることが示唆された。 また, FSMモデルはLSTMよりも, セグメンテーションやラベル付け性能に優れていた。 提案手法は,ジェスチャラベリングプロセスを大幅に短縮できる(2.8倍)。

Manual labeling of gestures in robot-assisted surgery is labor intensive, prone to errors, and requires expertise or training. We propose a method for automated and explainable generation of gesture transcripts that leverages the abundance of data for image segmentation to train a surgical scene segmentation model that provides surgical tool and object masks. Surgical context is detected using segmentation masks by examining the distances and intersections between the tools and objects. Next, context labels are translated into gesture transcripts using knowledge-based Finite State Machine (FSM) and data-driven Long Short Term Memory (LSTM) models. We evaluate the performance of each stage of our method by comparing the results with the ground truth segmentation masks, the consensus context labels, and the gesture labels in the JIGSAWS dataset. Our results show that our segmentation models achieve state-of-the-art performance in recognizing needle and thread in Suturing and we can automatically detect important surgical states with high agreement with crowd-sourced labels (e.g., contact between graspers and objects in Suturing). We also find that the FSM models are more robust to poor segmentation and labeling performance than LSTMs. Our proposed method can significantly shorten the gesture labeling process (~2.8 times).
翻訳日:2023-03-01 18:34:42 公開日:2023-02-28
# ゴール駆動による言語記述による分布差の発見

Goal Driven Discovery of Distributional Differences via Language Descriptions ( http://arxiv.org/abs/2302.14233v1 )

ライセンス: Link先を確認
Ruiqi Zhong, Peter Zhang, Steve Li, Jinwoo Ahn, Dan Klein, Jacob Steinhardt(参考訳) 大きなコーパスを採掘することは有用な発見を生み出すが、人間には時間がかかる。 我々は、ゴール駆動方式で2つの大きなコーパス間の差異を自動的に発見する新しいタスクD5を定式化する。 タスク入力は、研究目標「$\textit{comparing the side effects of drug a and drug b}$」とコーパスペア(各薬を服用した後の患者の自己報告反応の2つの大規模なコレクション)からなる問題である。出力は、これらのコーパスがどのように異なるかの言語記述(発見)である(患者は「$\textit{mention feelings of paranoia}$」を服用することが多い)。 私たちはD5システムを構築し、その性能を定量的に測定します。 1) メタデータセット OpenD5 に貢献し、ビジネス、社会科学、人文科学、機械学習、健康など幅広い675の公開課題を集約する。 2) 妥当性,妥当性,新規性,重要度などの統一評価指標を提案する。 データセットと統一メトリクスによって、言語モデルがその目標を使って、より関連性があり、新しく、重要な候補の発見を提案できることを確認します。 最後に,議論トピックの時間的・人口的差異や政治的スタンス,言論のステレオタイプ,商業レビューの洞察,NLPモデルのエラーパターンなど,OpenD5の幅広い応用について著者がこれまで知らなかった発見を生成する。

Mining large corpora can generate useful discoveries but is time-consuming for humans. We formulate a new task, D5, that automatically discovers differences between two large corpora in a goal-driven way. The task input is a problem comprising a research goal "$\textit{comparing the side effects of drug A and drug B}$" and a corpus pair (two large collections of patients' self-reported reactions after taking each drug). The output is a language description (discovery) of how these corpora differ (patients taking drug A "$\textit{mention feelings of paranoia}$" more often). We build a D5 system, and to quantitatively measure its performance, we 1) contribute a meta-dataset, OpenD5, aggregating 675 open-ended problems ranging across business, social sciences, humanities, machine learning, and health, and 2) propose a set of unified evaluation metrics: validity, relevance, novelty, and significance. With the dataset and the unified metrics, we confirm that language models can use the goals to propose more relevant, novel, and significant candidate discoveries. Finally, our system produces discoveries previously unknown to the authors on a wide range of applications in OpenD5, including temporal and demographic differences in discussion topics, political stances and stereotypes in speech, insights in commercial reviews, and error patterns in NLP models.
翻訳日:2023-03-01 18:34:17 公開日:2023-02-28
# CHGNet:電荷インフォームド原子モデルのための訓練済みユニバーサルニューラルネットワークポテンシャル

CHGNet: Pretrained universal neural network potential for charge-informed atomistic modeling ( http://arxiv.org/abs/2302.14231v1 )

ライセンス: Link先を確認
Bowen Deng, Peichen Zhong, KyuJung Jun, Kevin Han, Christopher J. Bartel, Gerbrand Ceder(参考訳) 複雑な電子相互作用を持つ大規模系のシミュレーションは、物質の原子論モデリングにおける最大の課題の1つである。 古典的な力場はしばしば電子状態とイオン再配置の結合を記述するのに失敗するが、より正確な \textit{ab-initio} 分子動力学は、反応、イオン移動、相転移、分解など、多くの技術的に重要な現象を研究するのに欠かせない、長期および大規模シミュレーションを防ぐ計算複雑性に苦しむ。 本稿では,グラフニューラルネットワークに基づく力場を用いて,新しい機械学習原子間ポテンシャル(mlip)としてクリスタルハミルトニアングラフニューラルネットワーク(chgnet)を提案する。 chgnetは、10年以上の密度汎関数理論と、$\sim 1.5$m(150万ドル)の無機構造の緩和軌道からなるmaterials project trackデータセットのエネルギー、力、応力、磁気モーメントに基づいて事前訓練されている。 磁気モーメントの明示的な包含により、chgnetは電子の軌道占有率を学習し正確に表現することができ、原子と電子の自由度を記述する能力を高めることができる。 li$_x$mno$_2$の電荷変換分子動力学、li$_x$fepo$_4$の有限温度相図、ガーネット導体のli拡散など、固体材料におけるchgnetのいくつかの応用例を示す。 適切な化学を捉えるための電荷情報を含むことの重要性を批判的に分析し、以前のmlipでは観測できない電子自由度を付加したイオン系に新たな洞察を与える。

The simulation of large-scale systems with complex electron interactions remains one of the greatest challenges for the atomistic modeling of materials. Although classical force-fields often fail to describe the coupling between electronic states and ionic rearrangements, the more accurate \textit{ab-initio} molecular dynamics suffers from computational complexity that prevents long-time and large-scale simulations, which are essential to study many technologically relevant phenomena, such as reactions, ion migrations, phase transformations, and degradation. In this work, we present the Crystal Hamiltonian Graph neural Network (CHGNet) as a novel machine-learning interatomic potential (MLIP), using a graph-neural-network-based force-field to model a universal potential energy surface. CHGNet is pretrained on the energies, forces, stresses, and magnetic moments from the Materials Project Trajectory Dataset, which consists of over 10 years of density functional theory static and relaxation trajectories of $\sim 1.5$ million inorganic structures. The explicit inclusion of magnetic moments enables CHGNet to learn and accurately represent the orbital occupancy of electrons, enhancing its capability to describe both atomic and electronic degrees of freedom. We demonstrate several applications of CHGNet in solid-state materials, including charge-informed molecular dynamics in Li$_x$MnO$_2$, the finite temperature phase diagram for Li$_x$FePO$_4$ and Li diffusion in garnet conductors. We critically analyze the significance of including charge information for capturing appropriate chemistry, and we provide new insights into ionic systems with additional electronic degrees of freedom that can not be observed by previous MLIPs.
翻訳日:2023-03-01 18:33:47 公開日:2023-02-28
# ChatGPTによる言語横断要約

Cross-Lingual Summarization via ChatGPT ( http://arxiv.org/abs/2302.14229v1 )

ライセンス: Link先を確認
Jiaan Wang, Yunlong Liang, Fandong Meng, Zhixu Li, Jianfeng Qu, Jie Zhou(参考訳) ソース言語の文書が与えられた場合、言語間要約(CLS)は異なるターゲット言語で要約を生成することを目的としている。 近年、ChatGPTの出現は、計算言語学コミュニティから広く注目を集めている。 しかし、CLSにおけるChatGPTの性能は未だ分かっていない。 本報告では,ChatGPTを誘導する様々なプロンプトを用いて,異なるパラダイム(例えばエンドツーエンドとパイプライン)からゼロショットCLSを実行し,生成されたサマリーの予備評価を行う。 しかし、対話的なプロンプトの助けを借りて、ChatGPTは情報量と簡潔さのバランスを保ち、CLSの性能を大幅に向上させることができる。 広く使われている3つのCLSデータセットの実験結果から、ChatGPTは高度なGPT 3.5モデル(つまり、text-davinci-003)より優れていることが示された。 さらに,CLSにおけるChatGPTの優位性を示すための定性的なケーススタディを提供する。

Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of ChatGPT has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of ChatGPT on CLS. In this report, we empirically use various prompts to guide ChatGPT to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on its generated summaries.We find that ChatGPT originally prefers to produce lengthy summaries with more detailed information. But with the help of an interactive prompt, ChatGPT can balance between informativeness and conciseness, and significantly improve its CLS performance. Experimental results on three widely-used CLS datasets show that ChatGPT outperforms the advanced GPT 3.5 model (i.e., text-davinci-003). In addition, we provide qualitative case studies to show the superiority of ChatGPT on CLS.
翻訳日:2023-03-01 18:33:15 公開日:2023-02-28
# 物理形ニューラルネットワーク(pinns)の因果スイーピング戦略と時間分解のための統一スケーラブルな枠組み

A unified scalable framework for causal sweeping strategies for Physics-Informed Neural Networks (PINNs) and their temporal decompositions ( http://arxiv.org/abs/2302.14227v1 )

ライセンス: Link先を確認
Michael Penwarden, Ameya D. Jagtap, Shandian Zhe, George Em Karniadakis, Robert M. Kirby(参考訳) 偏微分方程式(PDE)を解く手段として物理情報ニューラルネットワーク(PINN)がCS&E(Computational Science and Engineering)において注目を集めている。 しかし、近年の関心事は、様々なトレーニング(すなわち、最適化)の課題を探求することである。特に、最適化ランドスケープの貧弱なローカルミニマにたどり着くと、PINN近似は、データ無しで時間依存PDEを前方で解く際に、劣等で、時に自明な解を与える。 この問題はまた、XPINNを用いた時間分解のような領域分解戦略により、ある意味でより難しい。 この問題に対処するために、我々はまず、従来の因果解法に対する一般的な分類を可能にし、そこから従来のアプローチのギャップを識別する。 次に,様々な学習課題,その原因,情報伝達と時間分解との関連について,実例と解説を行った。 本稿では,このような因果関係の概念を,先行手法や手法の組み合わせを記述可能な一般化された情報伝達フレームワークに反映することで,このギャップを埋める解決策を提案する。 統合されたフレームワークは、検討すべきPINNメソッドの数削減と、徹底的な比較のための実装と修正コストの削減に向けられている。 本稿では,時間マーチング PINN と XPINN のギャップを埋める新たな積み重ね分解法を提案する。 また,転送学習の概念を用いて,ドメイン内のサブネットワークを初期化し,サブドメインに対する損失耐性に基づく伝播を行うことにより,重要な計算速度アップを導入する。 我々は,従来のピンズ因果関係文献に触発された新しい時間分割型コロケーションポイントアルゴリズムを定式化し,コスト削減による計算速度向上を実現する。 最後に,ベースラインPDE問題に関する数値結果を提供する。

Physics-informed neural networks (PINNs) as a means of solving partial differential equations (PDE) have garnered much attention in Computational Science and Engineering (CS&E). However, a recent topic of interest is exploring various training (i.e., optimization) challenges - in particular, arriving at poor local minima in the optimization landscape results in a PINN approximation giving an inferior, and sometimes trivial, solution when solving forward time-dependent PDEs with no data. This problem is also found in, and in some sense more difficult, with domain decomposition strategies such as temporal decomposition using XPINNs. To address this problem, we first enable a general categorization for previous causality methods, from which we identify a gap in the previous approaches. We then furnish examples and explanations for different training challenges, their cause, and how they relate to information propagation and temporal decomposition. We propose a solution to fill this gap by reframing these causality concepts into a generalized information propagation framework in which any prior method or combination of methods can be described. Our unified framework moves toward reducing the number of PINN methods to consider and the implementation and retuning cost for thorough comparisons. We propose a new stacked-decomposition method that bridges the gap between time-marching PINNs and XPINNs. We also introduce significant computational speed-ups by using transfer learning concepts to initialize subnetworks in the domain and loss tolerance-based propagation for the subdomains. We formulate a new time-sweeping collocation point algorithm inspired by the previous PINNs causality literature, which our framework can still describe, and provides a significant computational speed-up via reduced-cost collocation point segmentation. Finally, we provide numerical results on baseline PDE problems.
翻訳日:2023-03-01 18:32:56 公開日:2023-02-28
# マスク言語モデリングのための重み付きサンプリング

Weighted Sampling for Masked Language Modeling ( http://arxiv.org/abs/2302.14225v1 )

ライセンス: Link先を確認
Linhan Zhang, Qian Chen, Wen Wang, Chong Deng, Xin Cao, Kongzhang Hao, Yuxin Jiang, Wei Wang(参考訳) masked language modeling (mlm) は、言語モデルの事前学習に広く使われている。 mlmの標準ランダムマスキング戦略は、事前訓練された言語モデル(plm)を高周波トークンに偏らせる。 稀なトークンの表現学習は貧弱であり、plmは下流タスクのパフォーマンスに制限がある。 この周波数バイアス問題を緩和するために,トークンの頻度とトレーニング損失に基づくマスキングトークンの簡易かつ効果的な重み付きサンプリング戦略を提案する。 これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。 セマンティックテキスト類似性ベンチマーク(STS)の実験では、WSBERTはBERTに対する文の埋め込みを大幅に改善している。 WSBERTと校正手法を組み合わせることで、文の埋め込みをさらに改善する。 また、GLUEベンチマークの微調整WSBERTについて検討し、重み付きサンプリングにより、バックボーンPLMの転写学習能力も向上することを示した。 さらに、WSBERTがトークンの埋め込みをどのように改善するかを分析し、洞察を提供する。

Masked Language Modeling (MLM) is widely used to pretrain language models. The standard random masking strategy in MLM causes the pre-trained language models (PLMs) to be biased toward high-frequency tokens. Representation learning of rare tokens is poor and PLMs have limited performance on downstream tasks. To alleviate this frequency bias issue, we propose two simple and effective Weighted Sampling strategies for masking tokens based on the token frequency and training loss. We apply these two strategies to BERT and obtain Weighted-Sampled BERT (WSBERT). Experiments on the Semantic Textual Similarity benchmark (STS) show that WSBERT significantly improves sentence embeddings over BERT. Combining WSBERT with calibration methods and prompt learning further improves sentence embeddings. We also investigate fine-tuning WSBERT on the GLUE benchmark and show that Weighted Sampling also improves the transfer learning capability of the backbone PLM. We further analyze and provide insights into how WSBERT improves token embeddings.
翻訳日:2023-03-01 18:32:20 公開日:2023-02-28
# 多パラメータ量子状態推定問題に対するBayesian Nagaoka-Hayashi境界

Bayesian Nagaoka-Hayashi Bound for Multiparameter Quantum-State Estimation Problem ( http://arxiv.org/abs/2302.14223v1 )

ライセンス: Link先を確認
Jun Suzuki(参考訳) 本研究では,量子状態のパラメトリック族を推定する際に,永岡はやし境界のベイズ版を提案する。 この下界は、最近提案されたベイズ推定への点推定に対する境界の一般化である。 次に,提案する下限を半定値計画問題として効率的に計算できることを示す。 下限として、ベイジアン長岡はやし(bayesian nagaoka-hayashi)から伸びるホールボのベイジアン版も導出する。 最後に、rubio と dunningham による研究により、新しい下限は一般化されたペルソミック境界よりもタイトであることが証明される。

In this work we propose a Bayesian version of the Nagaoka-Hayashi bound when estimating a parametric family of quantum states. This lower bound is a generalization of a recently proposed bound for point estimation to Bayesian estimation. We then show that the proposed lower bound can be efficiently computed as a semidefinite programming problem. As a lower bound, we also derive a Bayesian version of the Holevo bound from the Bayesian Nagaoka-Hayashi bound. Lastly, we prove that the new lower bound is tighter than the generalized Personick bound, studied by Rubio and Dunningham.
翻訳日:2023-03-01 18:32:06 公開日:2023-02-28
# 文字レベルの翻訳は待つ価値があるか? 機械翻訳における文字レベルとサブワードレベルモデルの比較

Are Character-level Translations Worth the Wait? An Extensive Comparison of Character- and Subword-level Models for Machine Translation ( http://arxiv.org/abs/2302.14220v1 )

ライセンス: Link先を確認
Lukas Edman, Antonio Toral, Gertjan van Noord(参考訳) 事前訓練された大きな文字レベルの言語モデルは最近活性化され、様々なnlpタスクでサブワードモデルと競合することが示されている。 しかしながら、ニューラルマシン翻訳(NMT)の有効性を示す研究は行われていない。 本研究は,NMTにおける複数の言語間の比較と,最先端の文字レベルとサブワードレベルの事前訓練モデル(ByT5とmT5)の実験条件により,前者が翻訳に有効であるだけでなく,特に訓練データに制限がある場合において,単語モデルよりも優れていることを示す。 キャラクタモデルの唯一の欠点は、その非効率性(少なくとも列車や推論の4倍遅い)である。 さらに分析すると、キャラクタモデルは単語またはサブワードレベルで暗黙的に翻訳できるため、キャラクタレベルでの操作の潜在的な弱点を無効にすることができる。

Pretrained large character-level language models have been recently revitalized and shown to be competitive with subword models across a range of NLP tasks. However, there has not been any research showing their effectiveness in neural machine translation (NMT). This work performs an extensive comparison across multiple languages and experimental conditions of state-of-the-art character- and subword-level pre-trained models (ByT5 and mT5, respectively) on NMT, and shows that the former not only are effective in translation, but frequently outperform subword models, particularly in cases where training data is limited. The only drawback of character models appears to be their inefficiency (at least 4 times slower to train and for inference). Further analysis indicates that character models are capable of implicitly translating on the word or subword level, thereby nullifying a major potential weakness of operating on the character level.
翻訳日:2023-03-01 18:31:54 公開日:2023-02-28
# 視覚位置認識のためのグローバルプロキシに基づくハードマイニング

Global Proxy-based Hard Mining for Visual Place Recognition ( http://arxiv.org/abs/2302.14217v1 )

ライセンス: Link先を確認
Amar Ali-bey, Brahim Chaib-draa, Philippe Gigu\`ere(参考訳) 視覚的な場所認識のための深層表現の学習は、各トレーニングイテレーションでサンプリングされたサンプルの硬度に大きく依存するペアワイズまたはトリプルロス関数を用いて行われる。 既存のテクニックでは、計算とメモリコストのかかるオフラインハードマイニングを使用して、各イテレーションにおいて、トレーニングセットから最も難しいサンプルを特定することで、この問題に対処している。 本稿では, プロキシをベースとした世界規模のミニバッチサンプリングを行う手法を提案する。 そのために、ネットワークに新しいエンドツーエンドのトレーニング可能なブランチを追加し、効率の良い場所記述子(各場所に1つのプロキシ)を生成する。 これらのプロキシ表現は、データセット内のすべての場所間の類似性を包含するグローバルインデックスを構築するために使用され、各トレーニングイテレーションで非常に有益なミニバッチサンプリングを可能にする。 提案手法は,既存の2値損失関数と3値損失関数を組み合わせ,メモリと計算コストを考慮しない。 我々は広範なアブレーション研究を行い,ピッツバーグ,マピラリーsls,spedなどの大規模ベンチマークにおいて,新たな最先端性能をもたらすことを示す。 特に本手法は,難解なnordlandデータセットに対して100%以上の相対的改善を提供する。 私たちのコードはhttps://github.com/amaralibey/GPMで利用可能です。

Learning deep representations for visual place recognition is commonly performed using pairwise or triple loss functions that highly depend on the hardness of the examples sampled at each training iteration. Existing techniques address this by using computationally and memory expensive offline hard mining, which consists of identifying, at each iteration, the hardest samples from the training set. In this paper we introduce a new technique that performs global hard mini-batch sampling based on proxies. To do so, we add a new end-to-end trainable branch to the network, which generates efficient place descriptors (one proxy for each place). These proxy representations are thus used to construct a global index that encompasses the similarities between all places in the dataset, allowing for highly informative mini-batch sampling at each training iteration. Our method can be used in combination with all existing pairwise and triplet loss functions with negligible additional memory and computation cost. We run extensive ablation studies and show that our technique brings new state-of-the-art performance on multiple large-scale benchmarks such as Pittsburgh, Mapillary-SLS and SPED. In particular, our method provides more than 100% relative improvement on the challenging Nordland dataset. Our code is available at https://github.com/amaralibey/GPM
翻訳日:2023-03-01 18:31:35 公開日:2023-02-28
# 4次二重井戸のスペクトルの準古典的極限における不安定性の顕現

Manifestation of instability in the quasiclassical limit of the spectrum of the quartic double well ( http://arxiv.org/abs/2302.14211v1 )

ライセンス: Link先を確認
D . J. Nader, J. R. Hernandez-Gonzalez, H. Vazquez-Sanchez, and S. Lerma-Hernandez(参考訳) ボーアの対応原理において、量子論は古典的世界を$\hbar\to 0$ で再現すべきである。 実際には、離散エネルギーは連続体を通過する前に互いに近接し、高い励起状態は到達不能となる。 しかし、スペクトルが連続極限に近づいているという署名を特定することは可能である。 この研究で、$\hbar \to 0$の場合、我々は1次元四面体井戸のスペクトルに注目し、臨界エネルギーに近い量子スペクトルにおける古典的不安定性の符号を見つけ、トンネル現象がいかにこの臨界エネルギーに近いエネルギーのみに留まるかを探求する。

Within the Bohr's correspondence principle, the quantum theory should reproduce the classical world when $\hbar\to 0$. In practice, the discrete energies come close to each other before passing to continuum, causing that highly excited states become inaccessible. However it is possible to identify signatures that the spectrum is approaching the continuum limit. In this work, for $\hbar \to 0$, we focus our attention on the spectrum of the 1D quartic double well and find signatures of the classical instability in the quantum spectrum near the critical energy, and explore how the tunneling phenomenon remains only at energies close to this critical energy.
翻訳日:2023-03-01 18:31:16 公開日:2023-02-28
# パートレベルSE(3)等分散を用いた自己教師付きカテゴリーレベルArticulated Object Poseの推定

Self-Supervised Category-Level Articulated Object Pose Estimation with Part-Level SE(3) Equivariance ( http://arxiv.org/abs/2302.14268v1 )

ライセンス: Link先を確認
Xueyi Liu, Ji Zhang, Ruizhen Hu, Haibin Huang, He Wang, Li Yi(参考訳) カテゴリーレベルの調音オブジェクトポーズ推定は、未知の調音オブジェクトポーズの階層を既知のカテゴリから推定することを目的としている。 教師付き学習手法に必要な重いアノテーションを減らすため,人間ラベルを使わずにこの問題を解決できる新たな自己教師型戦略を提案する。 我々のキーとなる考え方は、入力された調音形状から標準形状と調音物体のポーズを、部分レベル同変形状解析によって分解することである。 具体的には、まず、部分レベルSE(3)同値の概念を導入し、そのような特性の特徴を学習するためのネットワークを考案する。 次に,細粒度に細粒度なポーズ形状の絡み合い方略を用いて,ポーズ推定を支援する正準空間が自動的に引き起こされることを期待する。 これにより、各部分の剛性変換として、各部分の正準部分空間からカメラ空間への変換方法を記述することができる。 総合的な実験により,本手法が合成および実調音対象データセットから完全および部分点の雲に対して有効であることを示す。

Category-level articulated object pose estimation aims to estimate a hierarchy of articulation-aware object poses of an unseen articulated object from a known category. To reduce the heavy annotations needed for supervised learning methods, we present a novel self-supervised strategy that solves this problem without any human labels. Our key idea is to factorize canonical shapes and articulated object poses from input articulated shapes through part-level equivariant shape analysis. Specifically, we first introduce the concept of part-level SE(3) equivariance and devise a network to learn features of such property. Then, through a carefully designed fine-grained pose-shape disentanglement strategy, we expect that canonical spaces to support pose estimation could be induced automatically. Thus, we could further predict articulated object poses as per-part rigid transformations describing how parts transform from their canonical part spaces to the camera space. Extensive experiments demonstrate the effectiveness of our method on both complete and partial point clouds from synthetic and real articulated object datasets.
翻訳日:2023-03-01 18:25:39 公開日:2023-02-28
# 雨滴による敵攻撃

Adversarial Attack with Raindrops ( http://arxiv.org/abs/2302.14267v1 )

ライセンス: Link先を確認
Jiyuan Liu, Bingyi Lu, Mingkang Xiong, Tao Zhang, Huilin Xiong(参考訳) ディープニューラルネットワーク(DNN)は、通常、愚かなDNNに人工的に設計されるが、現実のシナリオにはほとんど存在しない敵の例に弱いことが知られている。 本稿では,雨滴による逆襲事例について検討し,DNNに対する逆襲攻撃として機能する自然現象が多数存在することを示す。 さらに, 自然雨滴をシミュレートするgenerative adversarial network (gan) 手法を用いて, advrd と呼ばれる逆雨滴を生成する新しい手法を提案する。 われわれのAdvRDが作成した画像は、実際の雨滴画像と非常によく似ており、統計的に真の雨滴画像の分布に近づき、さらに重要なのは、最先端のDNNモデルに対して強力な敵攻撃を行うことができることだ。 一方,AdvRD画像を用いた逆行訓練は実世界の雨滴攻撃に対するDNNの堅牢性を大幅に向上させることができることを示す。 AdvRDが作成した画像が自然雨滴画像に視覚的かつ統計的に近いこと、DNNモデルに対する強力な攻撃者として機能すること、また、雨滴攻撃に対するDNNの堅牢性向上に役立つことを実証するために、大規模な実験が行われた。

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples, which are usually designed artificially to fool DNNs, but rarely exist in real-world scenarios. In this paper, we study the adversarial examples caused by raindrops, to demonstrate that there exist plenty of natural phenomena being able to work as adversarial attackers to DNNs. Moreover, we present a new approach to generate adversarial raindrops, denoted as AdvRD, using the generative adversarial network (GAN) technique to simulate natural raindrops. The images crafted by our AdvRD look very similar to the real-world raindrop images, statistically close to the distribution of true raindrop images, and more importantly, can perform strong adversarial attack to the state-of-the-art DNN models. On the other side, we show that the adversarial training using our AdvRD images can significantly improve the robustness of DNNs to the real-world raindrop attacks. Extensive experiments are carried out to demonstrate that the images crafted by AdvRD are visually and statistically close to the natural raindrop images, can work as strong attackers to DNN models, and also help improve the robustness of DNNs to raindrop attacks.
翻訳日:2023-03-01 18:25:19 公開日:2023-02-28
# クロスモーダル注意による奥行き案内学習によるrgb次元把持検出

RGB-D Grasp Detection via Depth Guided Learning with Cross-modal Attention ( http://arxiv.org/abs/2302.14264v1 )

ライセンス: Link先を確認
Ran Qin, Haoxiang Ma, Boyang Gao, Di Huang(参考訳) 平面グリップ検出はロボット操作における最も基本的なタスクの1つであり、最近の消費者グレードのRGB-Dセンサーの進歩により、テクスチャと形状の両面からより包括的な機能を提供する。 しかし、深度マップは一般にrgb画像に比べて比較的低い品質であり、ノイズが強いため、把握深度を取得し、マルチモーダルな手がかりを融合することが困難である。 この2つの問題に対処するため,本研究では,RGB-Dグリップ検出,すなわちDGCAN(Depth Guided Cross-modal Attention Network)に対する新しい学習手法を提案する。 深度チャネルに記録された幾何情報をよりよく活用するために、共通5次元の長方形に加えて、専用に考慮された深度深さで完全な6次元矩形表現を採用する。 余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。 さらに,データ品質のばらつきによる悪影響を2つのモダリティで低減するために,クロスモーダル関係に従って奥行き特性を洗練し,rgbと結合したローカルクロスモーダルアテンション(lca)モジュールを設計した。 シミュレーションと物理的評価を行い,実験結果から提案手法の優位性を明らかにする。

Planar grasp detection is one of the most fundamental tasks to robotic manipulation, and the recent progress of consumer-grade RGB-D sensors enables delivering more comprehensive features from both the texture and shape modalities. However, depth maps are generally of a relatively lower quality with much stronger noise compared to RGB images, making it challenging to acquire grasp depth and fuse multi-modal clues. To address the two issues, this paper proposes a novel learning based approach to RGB-D grasp detection, namely Depth Guided Cross-modal Attention Network (DGCAN). To better leverage the geometry information recorded in the depth channel, a complete 6-dimensional rectangle representation is adopted with the grasp depth dedicatedly considered in addition to those defined in the common 5-dimensional one. The prediction of the extra grasp depth substantially strengthens feature learning, thereby leading to more accurate results. Moreover, to reduce the negative impact caused by the discrepancy of data quality in two modalities, a Local Cross-modal Attention (LCA) module is designed, where the depth features are refined according to cross-modal relations and concatenated to the RGB ones for more sufficient fusion. Extensive simulation and physical evaluations are conducted and the experimental results highlight the superiority of the proposed approach.
翻訳日:2023-03-01 18:24:59 公開日:2023-02-28
# 多言語シーン認識のための適応n-gram埋め込みによる拡張トランス

Augmented Transformers with Adaptive n-grams Embedding for Multilingual Scene Text Recognition ( http://arxiv.org/abs/2302.14261v1 )

ライセンス: Link先を確認
Xueming Yan, Zhihang Fang, Yaochu Jin(参考訳) 視覚変換器は画像ベースタスクの性能向上に成功しているが、多言語テキストの視覚的外観の複雑さのため、多言語シーンテキスト認識にトランスフォーマーを適用する作業はあまり行われていない。 このギャップを埋めるため,本論文ではn-grams embedded and cross-language rectification (tanger) を用いた拡張トランスフォーマーアーキテクチャを提案する。 TANGERは、視覚画像の単一パッチ埋め込みを持つ一次変換器と、多言語シーンテキストからの特徴抽出に不可欠な近隣の視覚パッチ間の潜在的な相関を柔軟に探求することを目的とした適応的なn-gramの埋め込みを持つ補助変換器からなる。 言語交叉は、言語識別と文脈的コヒーレンススコアの両方を考慮した損失関数によって達成される。 4つのベンチマークデータセットと、インドネシアの観光シーンから収集されたインドネシア語、英語、中国語を含む新しい多言語シーンテキストデータセットについて、広範な比較研究が行われている。 実験の結果,複雑な多言語シーンのテキストを扱う場合,タンガーは最先端に比べてかなり優れていることがわかった。

While vision transformers have been highly successful in improving the performance in image-based tasks, not much work has been reported on applying transformers to multilingual scene text recognition due to the complexities in the visual appearance of multilingual texts. To fill the gap, this paper proposes an augmented transformer architecture with n-grams embedding and cross-language rectification (TANGER). TANGER consists of a primary transformer with single patch embeddings of visual images, and a supplementary transformer with adaptive n-grams embeddings that aims to flexibly explore the potential correlations between neighbouring visual patches, which is essential for feature extraction from multilingual scene texts. Cross-language rectification is achieved with a loss function that takes into account both language identification and contextual coherence scoring. Extensive comparative studies are conducted on four widely used benchmark datasets as well as a new multilingual scene text dataset containing Indonesian, English, and Chinese collected from tourism scenes in Indonesia. Our experimental results demonstrate that TANGER is considerably better compared to the state-of-the-art, especially in handling complex multilingual scene texts.
翻訳日:2023-03-01 18:24:34 公開日:2023-02-28
# 概念ボトルネックモデルの干渉手順のより綿密な考察

A Closer Look at the Intervention Procedure of Concept Bottleneck Models ( http://arxiv.org/abs/2302.14260v1 )

ライセンス: Link先を確認
Sungbin Shin, Yohan Jo, Sungsoo Ahn, Namhoon Lee(参考訳) 概念ボトルネックモデル(cbms)は、そのハイレベルな概念に基づいて与えられた入力のターゲット応答を予測する、解釈可能なニューラルネットワークモデルのクラスである。 標準のエンドツーエンドモデルとは異なり、CBMはドメインの専門家が予測された概念に介入し、テスト時に間違いを修正できるので、最後にもっと正確なタスク予測ができる。 このような対話性は強力な制御手段を提供するが、介入手順の多くの側面は未調査のままである。 本研究では,介入効果を改善するために介入概念を選択する様々な方法を開発し,異なる状況下でどのように進化するかを詳細に分析する。 具体的には、情報的介入戦略は、実際の介入数と同じ量の介入数で現在のベースラインと比較して10倍以上のタスクエラーを低減できるが、異なる介入粒度を考慮すると、かなり大きな違いがある。 我々は, 標準実データ集合だけでなく, 異なる因果グラフの集合に基づいて生成する合成データセットについても, 総合的な評価を行い, 検証を行った。 適切な対応がなければ、介入手続きの信頼性と公平性に対する懸念が高まる現在のプラクティスのいくつかの大きな落とし穴をさらに発見する。

Concept bottleneck models (CBMs) are a class of interpretable neural network models that predict the target response of a given input based on its high-level concepts. Unlike the standard end-to-end models, CBMs enable domain experts to intervene on the predicted concepts and rectify any mistakes at test time, so that more accurate task predictions can be made at the end. While such intervenability provides a powerful avenue of control, many aspects of the intervention procedure remain rather unexplored. In this work, we develop various ways of selecting intervening concepts to improve the intervention effectiveness and conduct an array of in-depth analyses as to how they evolve under different circumstances. Specifically, we find that an informed intervention strategy can reduce the task error more than ten times compared to the current baseline under the same amount of intervention counts in realistic settings, and yet, this can vary quite significantly when taking into account different intervention granularity. We verify our findings through comprehensive evaluations, not only on the standard real datasets, but also on synthetic datasets that we generate based on a set of different causal graphs. We further discover some major pitfalls of the current practices which, without a proper addressing, raise concerns on reliability and fairness of the intervention procedure.
翻訳日:2023-03-01 18:24:14 公開日:2023-02-28
# Masked Image Modeling (MIM) を用いたリモートセンシングシーン分類

Remote Sensing Scene Classification with Masked Image Modeling (MIM) ( http://arxiv.org/abs/2302.14256v1 )

ライセンス: Link先を確認
Liya Wang, Alex Tien(参考訳) リモートセンシングシーンの分類は、地質調査、石油探査、交通管理、地震予知、山火事モニタリング、情報監視において重要な役割を果たしている。 過去には、タスクを実行する機械学習(ML)メソッドは、主に教師あり学習(SL)の方法で事前訓練されたバックボーンを使用していた。 自己教師付き学習(SSL)技術であるMasked Image Modeling(MIM)が視覚特徴表現学習のより良い方法として示されたため、シーン分類タスクにおけるMLパフォーマンスを改善する新たな機会が提示された。 本研究では,merced, aid, nwpu-resisc45, optimal-31の4つの分類データセットにおいて,mim事前学習されたバックボーンの可能性を検討することを目的とした。 公開ベンチマークと比較すると,mimプリトレーニング視覚トランスフォーマ(vits)バックボーンは,他の選択肢(トップ1の精度では最大18%)よりも優れており,mimテクニックは教師あり学習よりも優れた特徴表現(トップ1の精度では最大5%)を学習できることが示されている。 さらに, 汎用MIM-Pretrained ViTsは, リモートセンシング(TRS)フレームワークとして設計されながら複雑なトランスフォーマーとして, 競争力を発揮することを示す。 実験結果は,今後の研究における性能ベースラインも提供する。

Remote sensing scene classification has been extensively studied for its critical roles in geological survey, oil exploration, traffic management, earthquake prediction, wildfire monitoring, and intelligence monitoring. In the past, the Machine Learning (ML) methods for performing the task mainly used the backbones pretrained in the manner of supervised learning (SL). As Masked Image Modeling (MIM), a self-supervised learning (SSL) technique, has been shown as a better way for learning visual feature representation, it presents a new opportunity for improving ML performance on the scene classification task. This research aims to explore the potential of MIM pretrained backbones on four well-known classification datasets: Merced, AID, NWPU-RESISC45, and Optimal-31. Compared to the published benchmarks, we show that the MIM pretrained Vision Transformer (ViTs) backbones outperform other alternatives (up to 18% on top 1 accuracy) and that the MIM technique can learn better feature representation than the supervised learning counterparts (up to 5% on top 1 accuracy). Moreover, we show that the general-purpose MIM-pretrained ViTs can achieve competitive performance as the specially designed yet complicated Transformer for Remote Sensing (TRS) framework. Our experiment results also provide a performance baseline for future studies.
翻訳日:2023-03-01 18:23:44 公開日:2023-02-28
# 意味セグメンテーションのための弱増分学習を支援する基礎モデル

Foundation Model Drives Weakly Incremental Learning for Semantic Segmentation ( http://arxiv.org/abs/2302.14250v1 )

ライセンス: Link先を確認
Chaohui Yu, Qiang Zhou, Jingliang Li, Jianlong Yuan, Zhibin Wang, Fan Wang(参考訳) セグメンテーション手法の現代的漸進的学習は通常、密接なアノテーションに基づいて新しいカテゴリを学ぶ。 有望な結果が得られるが、ピクセルごとのラベリングはコストと時間を要する。 セマンティックセグメンテーションのための弱インクリメンタル学習(WILSS)は、安価で広く利用可能なイメージレベルのラベルから新しいクラスをセグメンテーションすることを目的とした、新しく魅力的なタスクである。 同等の結果にもかかわらず、画像レベルのラベルは各セグメントを特定する詳細を提供できないため、WILSSの性能は制限される。 これにより,画像レベルのラベルが与えられた新しいクラスを,古いクラスを忘れずに改善し,効果的に活用する方法を考えることができる。 本研究では,WILSS のための新しいデータ効率フレームワーク FMWISS を提案する。 具体的には,擬似ラベルを生成するための相補的基礎モデルの知識を抽出するために,事前学習に基づくコセグメンテーションを提案する。 さらに,提案する濃密なコントラスト損失にプラグイン教師を最適化した教師・学生アーキテクチャを用いて,うるさい仮面を最適化する。 さらに,古いクラスの破滅的な忘れ方を改善するために,メモリベースのコピーペースト拡張を導入する。 pascal voc と coco データセットに関する広範な実験により、fmwiss は 15-5 voc 設定において 70.7% と 73.3% を達成し、それぞれ 3.4% と 6.1% で最先端法を上回った。

Modern incremental learning for semantic segmentation methods usually learn new categories based on dense annotations. Although achieve promising results, pixel-by-pixel labeling is costly and time-consuming. Weakly incremental learning for semantic segmentation (WILSS) is a novel and attractive task, which aims at learning to segment new classes from cheap and widely available image-level labels. Despite the comparable results, the image-level labels can not provide details to locate each segment, which limits the performance of WILSS. This inspires us to think how to improve and effectively utilize the supervision of new classes given image-level labels while avoiding forgetting old ones. In this work, we propose a novel and data-efficient framework for WILSS, named FMWISS. Specifically, we propose pre-training based co-segmentation to distill the knowledge of complementary foundation models for generating dense pseudo labels. We further optimize the noisy pseudo masks with a teacher-student architecture, where a plug-in teacher is optimized with a proposed dense contrastive loss. Moreover, we introduce memory-based copy-paste augmentation to improve the catastrophic forgetting problem of old classes. Extensive experiments on Pascal VOC and COCO datasets demonstrate the superior performance of our framework, e.g., FMWISS achieves 70.7% and 73.3% in the 15-5 VOC setting, outperforming the state-of-the-art method by 3.4% and 6.1%, respectively.
翻訳日:2023-03-01 18:23:20 公開日:2023-02-28
# 非定常状態におけるCDFの時間均一信頼バンド

Time-uniform confidence bands for the CDF under nonstationarity ( http://arxiv.org/abs/2302.14248v1 )

ライセンス: Link先を確認
Paul Mineiro and Steven R. Howard(参考訳) ランダム変数の完全分布の推定は、手動および自動決定の両方に有用なプリミティブである。 この問題は、i.i.d.設定で広く注目されているが、任意のデータ依存設定は、概ね未対応のままである。 既知の非可算性結果と一致し,実数値確率変数が常に有効かつ自明な平均条件付き分布のcdf上に,インスタンス依存の収束保証とともに,計算量的に異質な時間一様および値一様境界を提示する。 重み付けされた拡張は、例えばA/Bテストや文脈的バンディットから、制御された実験データ排気の報酬の完全な反実分布を推定するのに適している。

Estimation of the complete distribution of a random variable is a useful primitive for both manual and automated decision making. This problem has received extensive attention in the i.i.d. setting, but the arbitrary data dependent setting remains largely unaddressed. Consistent with known impossibility results, we present computationally felicitous time-uniform and value-uniform bounds on the CDF of the running averaged conditional distribution of a real-valued random variable which are always valid and sometimes trivial, along with an instance-dependent convergence guarantee. The importance-weighted extension is appropriate for estimating complete counterfactual distributions of rewards given controlled experimentation data exhaust, e.g., from an A/B test or a contextual bandit.
翻訳日:2023-03-01 18:22:55 公開日:2023-02-28
# 階層型ベイズ学習を用いた連続エッジ検出

Sequential edge detection using joint hierarchical Bayesian learning ( http://arxiv.org/abs/2302.14247v1 )

ライセンス: Link先を確認
Yao Xiao, Anne Gelb, and Guohui Song(参考訳) 本稿では,雑音およびアンダーサンプリングされたフーリエデータからエッジマップの時間列を協調的に復元する新しいスパースベイズ学習アルゴリズムを提案する。 この手法はベイジアン・フレームワークに実装され、画像内情報を同時に組み込んで各エッジマップ内の空間情報を画像間情報で促進し、変化しない地域での類似性を促進させる。 エッジと隣接画像間の類似性の両方を確率変数として扱うことにより、変更の領域を別々に形成する必要がなくなる。 これにより,画像の事前処理による情報損失だけでなく,計算コストの増大も回避できる。 我々の数値的な例は、我々の新しい手法がより標準的なSBL手法と比較できることを示している。

This paper introduces a new sparse Bayesian learning (SBL) algorithm that jointly recovers a temporal sequence of edge maps from noisy and under-sampled Fourier data. The new method is cast in a Bayesian framework and uses a prior that simultaneously incorporates intra-image information to promote sparsity in each individual edge map with inter-image information to promote similarities in any unchanged regions. By treating both the edges as well as the similarity between adjacent images as random variables, there is no need to separately form regions of change. Thus we avoid both additional computational cost as well as any information loss resulting from pre-processing the image. Our numerical examples demonstrate that our new method compares favorably with more standard SBL approaches.
翻訳日:2023-03-01 18:22:40 公開日:2023-02-28
# マルチモーダル画像に対する非線形強度, スケール, 回転不変量マッチング

Nonlinear Intensity, Scale and Rotation Invariant Matching for Multimodal Images ( http://arxiv.org/abs/2302.14239v1 )

ライセンス: Link先を確認
Zhongli Fan, Li Zhang, Yuxuan Liu(参考訳) 本稿では,マルチモーダル画像のマッチングに有効な手法を提案する。 正確な画像マッチングは、画像登録や動きの構造といった様々な応用の基礎である。 ノイズの多いマルチモーダル画像対を重大なスケール変化、回転、非線形強度歪み(NID)で扱う場合、従来のマッチング手法は失敗する。 このニーズに向けて,我々は,スケール変化に取り組むためのイメージピラミッド戦略を提案する。 我々は,任意の角度における画像回転の影響を低減するために,精度の高い一次方向推定手法を提案する。 マルチスケール・マルチオリエンテーション画像フィルタリング結果と特徴対テンプレートマッチング方式を用いて,大規模なNIDにおいて有効かつ正確なマッチングを実現する。 これらの改善を統合することで、ノイズ、スケール、回転、NID不変性が大幅に向上する。 実験の結果,様々なマルチモーダル画像で高品質なマッチングを実現することができた。 提案手法は,定性的,定量的評価において,主流のマルチモーダル画像マッチング法より優れている。 私たちの実装はhttps://github.com/zhongli-fan/nisrで利用可能です。

We present an effective method for the matching of multimodal images. Accurate image matching is the basis of various applications, such as image registration and structure from motion. Conventional matching methods fail when handling noisy multimodal image pairs with severe scale change, rotation, and nonlinear intensity distortion (NID). Toward this need, we introduce an image pyramid strategy to tackle scale change. We put forward an accurate primary orientation estimation approach to reduce the effect of image rotation at any angle. We utilize multi-scale and multi-orientation image filtering results and a feature-to-template matching scheme to ensure effective and accurate matching under large NID. Integrating these improvements significantly increases noise, scale, rotation, and NID invariant capability. Our experimental results confirm the excellent ability to achieve high-quality matches across various multimodal images. The proposed method outperforms the mainstream multimodal image matching methods in qualitative and quantitative evaluations. Our implementation is available at https://github.com/Zhongli-Fan/NISR.
翻訳日:2023-03-01 18:22:23 公開日:2023-02-28
# 画像分類モデルのロバスト性に関する総合的研究:ベンチマークと再考

A Comprehensive Study on Robustness of Image Classification Models: Benchmarking and Rethinking ( http://arxiv.org/abs/2302.14301v1 )

ライセンス: Link先を確認
Chang Liu, Yinpeng Dong, Wenzhao Xiang, Xiao Yang, Hang Su, Jun Zhu, Yuefeng Chen, Yuan He, Hui Xue, Shibao Zheng(参考訳) ディープニューラルネットワークのロバスト性は通常、逆の例、共通の腐敗、分散シフトの下では欠如しており、ディープラーニングの開発において重要な研究課題となっている。 新しい深層学習法とロバスト性改善手法が常に提案されているが、既存の手法のロバスト性評価は、その急速な発展、多様なノイズパターン、単純な評価指標のために不適切であることが多い。 徹底的な堅牢性評価がなければ、現場の進歩を理解し、有効な方法を特定することは困難である。 本稿では,画像分類タスクにおける包括的ロバスト性ベンチマークである \textbf{ares-bench} を確立する。 ベンチマークでは,さまざまなアーキテクチャ(CNN,Transformerなど)と学習アルゴリズム(通常の教師付きトレーニング,事前トレーニング,対人トレーニングなど)を,多数の敵攻撃とアウト・オブ・ディストリビューション(OOD)データセットの下で,ImageNet上で55の典型的なディープラーニングモデルの堅牢性を評価する。 主評価基準としてロバスト性曲線を用い,大規模実験を行い,次のような重要な知見を得た。 1) 同一のモデルアーキテクチャに対して,敵対的かつ自然な堅牢性の間に固有のトレードオフがある。 2) 対人訓練は,特にトランスフォーマーアーキテクチャ上で実施する場合において,対人堅牢性を効果的に向上させる。 3)事前学習は,訓練データや自己指導型学習に基づいて,自然の堅牢性を大幅に向上させる。 ARES-Benchに基づいて、ImageNet上の大規模対人訓練におけるトレーニング手法をさらに分析する。 トレーニング設定を適切に設計することにより,新たな最先端の敵対的ロバスト性を実現する。 ベンチマーク結果とコードプラットフォームを一般公開しました。

The robustness of deep neural networks is usually lacking under adversarial examples, common corruptions, and distribution shifts, which becomes an important research problem in the development of deep learning. Although new deep learning methods and robustness improvement techniques have been constantly proposed, the robustness evaluations of existing methods are often inadequate due to their rapid development, diverse noise patterns, and simple evaluation metrics. Without thorough robustness evaluations, it is hard to understand the advances in the field and identify the effective methods. In this paper, we establish a comprehensive robustness benchmark called \textbf{ARES-Bench} on the image classification task. In our benchmark, we evaluate the robustness of 55 typical deep learning models on ImageNet with diverse architectures (e.g., CNNs, Transformers) and learning algorithms (e.g., normal supervised training, pre-training, adversarial training) under numerous adversarial attacks and out-of-distribution (OOD) datasets. Using robustness curves as the major evaluation criteria, we conduct large-scale experiments and draw several important findings, including: 1) there is an inherent trade-off between adversarial and natural robustness for the same model architecture; 2) adversarial training effectively improves adversarial robustness, especially when performed on Transformer architectures; 3) pre-training significantly improves natural robustness based on more training data or self-supervised learning. Based on ARES-Bench, we further analyze the training tricks in large-scale adversarial training on ImageNet. By designing the training settings accordingly, we achieve the new state-of-the-art adversarial robustness. We have made the benchmarking results and code platform publicly available.
翻訳日:2023-03-01 18:16:17 公開日:2023-02-28
# 勾配ブーストに基づく構造化と非構造化学習

Gradient-Boosted Based Structured and Unstructured Learning ( http://arxiv.org/abs/2302.14299v1 )

ライセンス: Link先を確認
Andrea Trevi\~no Gavito, Diego Klabjan, Jean Utke(参考訳) 構造化データと非構造化データの両方が利用できる問題設定を扱うための2つのフレームワークを提案する。 構造化データ問題はブースティングやツリーベースのアルゴリズムといった従来の機械学習モデルによって最もよく解決されるが、ディープラーニングは画像、テキスト、オーディオ、その他の非構造化データソースを扱う問題に広く適用されている。 しかし、構造化データと非構造化データの両方にアクセス可能な設定では、両方のデータソースの性能を同時に向上させる最善のモデリング手法が何かは明らかではない。 提案するフレームワークは,モデルとディープニューラルネットワークのパラダイムを統合することで,両データの共同学習を可能にする。 最初のフレームワークであるboosted-feature-vector deep learning networkは、勾配ブースティングを使用して構造化データから特徴を学習し、非構造化データから2つの分岐型ディープニューラルネットワークを介して埋め込みと組み合わせる。 2つ目は、2つの入力データソースでブースティングパラダイムを設定に拡張することである。 このフレームワークの1階法と2階法を比較した。 公開データセットと実世界のデータセットの両方における実験結果は、選択されたベースラインに対するフレームワークによるパフォーマンス向上を0.1%から4.7%の範囲で示しています。

We propose two frameworks to deal with problem settings in which both structured and unstructured data are available. Structured data problems are best solved by traditional machine learning models such as boosting and tree-based algorithms, whereas deep learning has been widely applied to problems dealing with images, text, audio, and other unstructured data sources. However, for the setting in which both structured and unstructured data are accessible, it is not obvious what the best modeling approach is to enhance performance on both data sources simultaneously. Our proposed frameworks allow joint learning on both kinds of data by integrating the paradigms of boosting models and deep neural networks. The first framework, the boosted-feature-vector deep learning network, learns features from the structured data using gradient boosting and combines them with embeddings from unstructured data via a two-branch deep neural network. Secondly, the two-weak-learner boosting framework extends the boosting paradigm to the setting with two input data sources. We present and compare first- and second-order methods of this framework. Our experimental results on both public and real-world datasets show performance gains achieved by the frameworks over selected baselines by magnitudes of 0.1% - 4.7%.
翻訳日:2023-03-01 18:15:50 公開日:2023-02-28
# 獲得しながら保持する学習--逆データ型知識蒸留における分布シフトと戦う

Learning to Retain while Acquiring: Combating Distribution-Shift in Adversarial Data-Free Knowledge Distillation ( http://arxiv.org/abs/2302.14290v1 )

ライセンス: Link先を確認
Gaurav Patel, Konda Reddy Mopuri, Qiang Qiu(参考訳) データフリー知識蒸留(dfkd)は、教師ニューラルネットワークから生徒ニューラルネットワークへの知識伝達を、トレーニングデータ無しで行うという基本的な考え方から、近年普及している。 しかし、Adversarial DFKDフレームワークでは、学生ネットワークの精度は、複数のジェネレータ更新時の擬似サンプルの非定常分布によって低下する。 この目的のために、ジェネレータ更新毎に、現在の分布のサンプルから知識を得ながら、以前に遭遇した例で生徒のパフォーマンスを維持することを目指している。 そこで本研究では,メタトレインとメタテストとして,知識獲得(新たに生成されたサンプルからの学習)と知識保持(以前に得られたサンプルの知識の保持)のタスクをそれぞれ扱うメタ学習型フレームワークを提案する。 したがって、取得しながら保持する学習として、私たちの手法をダビングします。 さらに,提案手法が両タスクの共通勾配方向を強制することを示す知識獲得課題と知識獲得課題の暗黙的調整因子を同定し,この2つの目的間の干渉を緩和する。 最後に,提案手法を複数のデータセット上で先行技術と比較することにより,その仮説を支持する。

Data-free Knowledge Distillation (DFKD) has gained popularity recently, with the fundamental idea of carrying out knowledge transfer from a Teacher neural network to a Student neural network in the absence of training data. However, in the Adversarial DFKD framework, the student network's accuracy, suffers due to the non-stationary distribution of the pseudo-samples under multiple generator updates. To this end, at every generator update, we aim to maintain the student's performance on previously encountered examples while acquiring knowledge from samples of the current distribution. Thus, we propose a meta-learning inspired framework by treating the task of Knowledge-Acquisition (learning from newly generated samples) and Knowledge-Retention (retaining knowledge on previously met samples) as meta-train and meta-test, respectively. Hence, we dub our method as Learning to Retain while Acquiring. Moreover, we identify an implicit aligning factor between the Knowledge-Retention and Knowledge-Acquisition tasks indicating that the proposed student update strategy enforces a common gradient direction for both tasks, alleviating interference between the two objectives. Finally, we support our hypothesis by exhibiting extensive evaluation and comparison of our method with prior arts on multiple datasets.
翻訳日:2023-03-01 18:15:29 公開日:2023-02-28
# WISK:空間キーワードクエリのためのワークロード対応学習指標

WISK: A Workload-aware Learned Index for Spatial Keyword Queries ( http://arxiv.org/abs/2302.14287v1 )

ライセンス: Link先を確認
Yufan Sheng, Xin Cao, Yixiang Fang, Kaiqi Zhao, Jianzhong Qi, Gao Cong, Wenjie Zhang(参考訳) 空間オブジェクトは、しばしば、地理テクスチュアルデータ(geo-textual data)と呼ばれる、その記述を伴うPOI(Points of Interest)のようなテキスト情報を持ってくる。 このようなデータを検索するために、空間的近接性とテキスト的関連性の両方を考慮した空間的キーワードクエリが広く研究されている。 空間的キーワードクエリ用に設計された既存のインデックスは、すでに受信したクエリの分布を考慮せずに、ジオテキストデータに基づいて構築されている。 しかし、従来の研究では、既知のクエリ分布を利用することで、将来のクエリ処理のインデックス構造を改善することが示されている。 本稿では,問合せ作業負荷に対して,問合せコストを最適化するために自己適応する空間キーワード問合せの学習インデックスであるwiskを提案する。 重要な課題の1つは、インデックスの学習中に構造化された空間属性と構造化されていないテキスト情報の両方を利用する方法である。 まず、与えられたクエリワークロードの処理コストを最小限に抑えるために、データオブジェクトをパーティションに分割する。 分割問題のNP硬度を証明し、最適分割を見つけるための機械学習モデルを提案する。 そして,より多くの刈り取り力を達成するために,強化学習に基づくアプローチにより,生成した分割に基づいてボトムアップ方式で階層構造を構築する。 実世界のデータセットとクエリワークロードをさまざまなディストリビューションで広範な実験を行い、その結果、WISKは競合企業すべてより優れており、ストレージオーバーヘッドに匹敵するクエリ時間の最大8倍のスピードアップを実現しています。

Spatial objects often come with textual information, such as Points of Interest (POIs) with their descriptions, which are referred to as geo-textual data. To retrieve such data, spatial keyword queries that take into account both spatial proximity and textual relevance have been extensively studied. Existing indexes designed for spatial keyword queries are mostly built based on the geo-textual data without considering the distribution of queries already received. However, previous studies have shown that utilizing the known query distribution can improve the index structure for future query processing. In this paper, we propose WISK, a learned index for spatial keyword queries, which self-adapts for optimizing querying costs given a query workload. One key challenge is how to utilize both structured spatial attributes and unstructured textual information during learning the index. We first divide the data objects into partitions, aiming to minimize the processing costs of the given query workload. We prove the NP-hardness of the partitioning problem and propose a machine learning model to find the optimal partitions. Then, to achieve more pruning power, we build a hierarchical structure based on the generated partitions in a bottom-up manner with a reinforcement learning-based approach. We conduct extensive experiments on real-world datasets and query workloads with various distributions, and the results show that WISK outperforms all competitors, achieving up to 8x speedup in querying time with comparable storage overhead.
翻訳日:2023-03-01 18:15:06 公開日:2023-02-28
# HugNLP: 自然言語処理のための統一的で総合的なライブラリ

HugNLP: A Unified and Comprehensive Library for Natural Language Processing ( http://arxiv.org/abs/2302.14286v1 )

ライセンス: Link先を確認
Jianing Wang, Nuo Chen, Qiushi Sun, Wenkang Huang, Chengyu Wang, Ming Gao(参考訳) 本稿では,自然言語処理(nlp)のための総合的なライブラリであるhughnlpについて紹介する。hughingface transformersのバックエンドとして広く普及している。これはnlp研究者が既成のアルゴリズムを容易に活用し,ユーザ定義のモデルやタスクを現実のシナリオに組み込んだ新しい手法を開発するために設計されている。 HugNLPは、モデル、プロセッサ、アプリケーションを含む階層構造で構成され、異なるNLPタスクで事前訓練された言語モデル(PLM)の学習プロセスを統一する。 さらに,知識強化PLM,ユニバーサル情報抽出,低リソースマイニング,コード理解・生成など,HugNLPの有効性を示すNLPアプリケーションについても紹介する。 ソースコードはGitHubで公開される(https://github.com/wjn 1996/HugNLP)。

In this paper, we introduce HugNLP, a unified and comprehensive library for natural language processing (NLP) with the prevalent backend of HuggingFace Transformers, which is designed for NLP researchers to easily utilize off-the-shelf algorithms and develop novel methods with user-defined models and tasks in real-world scenarios. HugNLP consists of a hierarchical structure including models, processors and applications that unifies the learning process of pre-trained language models (PLMs) on different NLP tasks. Additionally, we present some featured NLP applications to show the effectiveness of HugNLP, such as knowledge-enhanced PLMs, universal information extraction, low-resource mining, and code understanding and generation, etc. The source code will be released on GitHub (https://github.com/wjn1996/HugNLP).
翻訳日:2023-03-01 18:14:40 公開日:2023-02-28
# 視覚変換を用いたロングテール認識の再考

Rethink Long-tailed Recognition with Vision Transforms ( http://arxiv.org/abs/2302.14284v1 )

ライセンス: Link先を確認
Zhengzhuo Xu, Shuo Yang, Xingjun Wang, Chun Yuan(参考訳) 現実の世界では、データは長い尾の分布w.r.t.クラスや属性に従う傾向にあり、LTR(Long-Tailed Recognition)問題に挑戦する動機となっている。 本稿では,視覚変換器(ViT)を用いた最近のLTR手法を再検討する。 私たちはそれを理解し 1)ViTは長い尾のデータで訓練するのは難しい。 2) ViTはマスク生成トレーニングのような教師なしの方法で一般化された特徴を学習する。 そこで本稿では,教師なし学習を長期データ利用に適用することを提案する。 さらに,予測分布校正法(PDC)をLTRの新しい指標として提案する。 我々のPDCは予測選好のモデル校正を定量的に測定できる。 精度が向上したにもかかわらず,多くのLTR手法が若干緩和されている。 ベンチマークデータセットの大規模な実験は、PDCがモデルの予測的嗜好を正確に反映していることを検証する。

In the real world, data tends to follow long-tailed distributions w.r.t. class or attribution, motivating the challenging Long-Tailed Recognition (LTR) problem. In this paper, we revisit recent LTR methods with promising Vision Transformers (ViT). We figure out that 1) ViT is hard to train with long-tailed data. 2) ViT learns generalized features in an unsupervised manner, like mask generative training, either on long-tailed or balanced datasets. Hence, we propose to adopt unsupervised learning to utilize long-tailed data. Furthermore, we propose the Predictive Distribution Calibration (PDC) as a novel metric for LTR, where the model tends to simply classify inputs into common classes. Our PDC can measure the model calibration of predictive preferences quantitatively. On this basis, we find many LTR approaches alleviate it slightly, despite the accuracy improvement. Extensive experiments on benchmark datasets validate that PDC reflects the model's predictive preference precisely, which is consistent with the visualization.
翻訳日:2023-03-01 18:14:25 公開日:2023-02-28
# 量子コンピュータ上での熱状態作成によるイジングモデルの臨界挙動

Critical behavior of Ising model by preparing thermal state on quantum computer ( http://arxiv.org/abs/2302.14279v1 )

ライセンス: Link先を確認
Xiaoyang Wang and Xu Feng and Tobias Hartung and Karl Jansen and Paolo Stornati(参考訳) 量子コンピューティング技術を用いて作製した熱状態を利用して,イジングモデルの臨界挙動をシミュレートする。 熱状態の生成は、変動量子想像時間進化(QITE)アルゴリズムに基づいている。 QITEの初期状態は古典的な製品状態として準備されており、QITEの変分アンサッツを設計するための体系的手法を提案する。 我々は、長距離相互作用型Isingモデルの比熱と感受性を計算し、Ising臨界度を小さな格子サイズで観測する。 量子アルゴリズムによる結果は, 臨界温度近傍と低温領域の両方において, 厳密な対角化から得られた結果とよく一致していることがわかった。

We simulate the critical behavior of the Ising model utilizing a thermal state prepared using quantum computing techniques. The preparation of the thermal state is based on the variational quantum imaginary time evolution (QITE) algorithm. The initial state of QITE is prepared as a classical product state, and we propose a systematic method to design the variational ansatz for QITE. We calculate the specific heat and susceptibility of the long-range interacting Ising model and observe indications of the Ising criticality on a small lattice size. We find the results derived by the quantum algorithm are well consistent with the ones from exact diagonalization, both in the neighbourhood of the critical temperature and the low-temperature region.
翻訳日:2023-03-01 18:14:08 公開日:2023-02-28
# 表データ用変圧器による多層注意型説明可能性

Multi-Layer Attention-Based Explainability via Transformers for Tabular Data ( http://arxiv.org/abs/2302.14278v1 )

ライセンス: Link先を確認
Andrea Trevi\~no Gavito, Diego Klabjan, Jean Utke(参考訳) グラフ指向の注意に基づく表データの説明可能性法を提案する。 表データに関わるタスクは主に、機能選択とエンジニアリングの課題を持つ従来のツリーベースの機械学習モデルを使用して解決されている。 そこで本稿では,表層データに対するトランスフォーマーアーキテクチャについて考察し,説明可能性に配慮し,各層全体の注意行列を考慮し,自己注意機構を活用して説明を提供する新しい手法を提案する。 行列は、特徴の群がノードに対応し、注意値がアークに対応するグラフ構造にマッピングされる。 グラフの最大確率パスを見つけることで、モデルの予測を説明するのにより大きな貢献を提供する特徴群を識別する。 本研究では,多層注意に基づく説明の質を評価するため,注意・勾配・摂動・説明の方法と比較した。

We propose a graph-oriented attention-based explainability method for tabular data. Tasks involving tabular data have been solved mostly using traditional tree-based machine learning models which have the challenges of feature selection and engineering. With that in mind, we consider a transformer architecture for tabular data, which is amenable to explainability, and present a novel way to leverage self-attention mechanism to provide explanations by taking into account the attention matrices of all layers as a whole. The matrices are mapped to a graph structure where groups of features correspond to nodes and attention values to arcs. By finding the maximum probability paths in the graph, we identify groups of features providing larger contributions to explain the model's predictions. To assess the quality of multi-layer attention-based explanations, we compare them with popular attention-, gradient-, and perturbation-based explanability methods.
翻訳日:2023-03-01 18:13:57 公開日:2023-02-28
# decor-net:低レベルの特徴と関連特徴を強調したcovid-19肺感染分断ネットワーク

DECOR-NET: A COVID-19 Lung Infection Segmentation Network Improved by Emphasizing Low-level Features and Decorrelating Features ( http://arxiv.org/abs/2302.14277v1 )

ライセンス: Link先を確認
Jiesi Hu, Yanwu Yang, Xutao Guo, Ting Ma(参考訳) 2019年以降、新型コロナウイルス(COVID-19)は広く普及し、公衆衛生にとって深刻な脅威となっている。 胸部CT(Chest Computed Tomography)は,この疾患のスクリーニングと診断に大きな可能性を秘めている。 新型コロナウイルスのCT画像のセグメンテーションは、感染の定量的評価と疾患の進行を追跡することができる。 新型コロナウイルスの感染は、高い多様性と不明瞭な境界によって特徴づけられるため、セグメンテーションにはテクスチャや強度といった低レベルの特徴が不可欠である。 しかし,低レベル機能を重視したセグメンテーションネットワークはいまだに欠落している。 本研究では,よりデコな低レベルの特徴をキャプチャできるDECOR-Netを提案する。 チャネル再重み付け戦略を適用して低レベルの特徴を多数取得し,提案したデコリレーション損失によりチャネル間の依存性を低減する。 実験の結果、DECOR-Netは他の最先端手法よりも優れており、Dice係数と結合上の交点の点でベースラインを5.1%、および4.9%上回ることがわかった。 さらに,提案する非相関損失は,異なる設定下で常に性能を向上させることができる。 コードはhttps://github.com/jiesihu/DECOR-Net.gitで入手できる。

Since 2019, coronavirus Disease 2019 (COVID-19) has been widely spread and posed a serious threat to public health. Chest Computed Tomography (CT) holds great potential for screening and diagnosis of this disease. The segmentation of COVID-19 CT imaging can achieves quantitative evaluation of infections and tracks disease progression. COVID-19 infections are characterized by high heterogeneity and unclear boundaries, so capturing low-level features such as texture and intensity is critical for segmentation. However, segmentation networks that emphasize low-level features are still lacking. In this work, we propose a DECOR-Net capable of capturing more decorrelated low-level features. The channel re-weighting strategy is applied to obtain plenty of low-level features and the dependencies between channels are reduced by proposed decorrelation loss. Experiments show that DECOR-Net outperforms other cutting-edge methods and surpasses the baseline by 5.1% and 4.9% in terms of Dice coefficient and intersection over union. Moreover, the proposed decorrelation loss can improve the performance constantly under different settings. The Code is available at https://github.com/jiesihu/DECOR-Net.git.
翻訳日:2023-03-01 18:13:43 公開日:2023-02-28
# マルチエージェント強化学習における創発的コミュニケーションの役割について

On the Role of Emergent Communication for Social Learning in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.14276v1 )

ライセンス: Link先を確認
Seth Karten, Siva Kailas, Huao Li, Katia Sycara(参考訳) 人間間の明示的なコミュニケーションが協調と学習の鍵となる。 専門家の手がかりを利用する社会学習は、不均一なポリシーを整合させ、サンプルの複雑さを減らし、部分的に観察可能なタスクを解決するために、明示的なコミュニケーションを使用することで大きな恩恵を受けることができる。 明示的なコミュニケーションの一種である創発的コミュニケーションは、データから直接高いタスクユーティリティメッセージをエンコードする人工言語の作成を研究する。 しかし、多くの場合、創発的な通信は、ほとんどまたはヌル情報を持たない不十分な圧縮されたメッセージを送信する。 本稿では,マルチエージェント強化学習(marl)における疎社会コミュニケーションシナリオを適切に探究するために,情報ボトルネックに基づく教師なし手法を提案する。 私たちのモデルは 一 発端概念の集合から独立して構成され、最小ビットの観測と意図にまたがる、自然言語に触発されたメッセージの語彙を開発すること。 二 異種エージェントの行動ポリシーを異種特徴モデルと整合させるコミュニケーションを開発すること、及び 三 「社会的シャドーイング」という専門家の行動方針を見てコミュニケーション方針を学ぶこと。

Explicit communication among humans is key to coordinating and learning. Social learning, which uses cues from experts, can greatly benefit from the usage of explicit communication to align heterogeneous policies, reduce sample complexity, and solve partially observable tasks. Emergent communication, a type of explicit communication, studies the creation of an artificial language to encode a high task-utility message directly from data. However, in most cases, emergent communication sends insufficiently compressed messages with little or null information, which also may not be understandable to a third-party listener. This paper proposes an unsupervised method based on the information bottleneck to capture both referential complexity and task-specific utility to adequately explore sparse social communication scenarios in multi-agent reinforcement learning (MARL). We show that our model is able to i) develop a natural-language-inspired lexicon of messages that is independently composed of a set of emergent concepts, which span the observations and intents with minimal bits, ii) develop communication to align the action policies of heterogeneous agents with dissimilar feature models, and iii) learn a communication policy from watching an expert's action policy, which we term `social shadowing'.
翻訳日:2023-03-01 18:13:23 公開日:2023-02-28
# 量子特異値変換のためのcsガイド

A CS guide to the quantum singular value transformation ( http://arxiv.org/abs/2302.14324v1 )

ライセンス: Link先を確認
Ewin Tang, Kevin Tian(参考訳) ブロックエンコード行列に多項式関数を適用するための量子特異値変換(qsvt)フレームワークを導入した [gily\'en, su, low, wiebe, stoc'19, arxiv:1806.01838] の一部を単純化した。 QSVTフレームワークは、[GSLW19]によって、行列関数の応用として自然に表現される多くの既存のアルゴリズムをカプセル化することが実証されたように、量子アルゴリズムコミュニティからかなりの関心を集めている。 まず、量子特異処理 (QSP) から QSVT への持ち上げは([GSLW19] によって示唆されたように)ジョルダンの補題を通してではなく、より明示的で強いヨルダンの補題として考えられるコサイン-正弦分解の応用であると仮定する。 第2に,フーリエ解析,チェビシェフ級数,テイラー級数から導かれる様々なアドホックなアプローチを用いた[gslw19] で与えられる有界多項式近似の構成は,チェビシェフ級数の切断の枠組みの下で統一することができ,実際,[trefethen, 2013] からの標準メタ理論の有界変種によって,大部分において一致することが示されている。 この作業が[gslw19]の強力なフレームワークを理解し,適用するためのコンパニオンガイドとして,コミュニティに利用されることを願っています。

We present a simplified exposition of some pieces of [Gily\'en, Su, Low, and Wiebe, STOC'19, arXiv:1806.01838], who introduced a quantum singular value transformation (QSVT) framework for applying polynomial functions to block-encoded matrices. The QSVT framework has garnered substantial recent interest from the quantum algorithms community, as it was demonstrated by [GSLW19] to encapsulate many existing algorithms naturally phrased as an application of a matrix function. First, we posit that the lifting of quantum singular processing (QSP) to QSVT is better viewed not through Jordan's lemma (as was suggested by [GSLW19]) but as an application of the cosine-sine decomposition, which can be thought of as a more explicit and stronger version of Jordan's lemma. Second, we demonstrate that the constructions of bounded polynomial approximations given in [GSLW19], which use a variety of ad hoc approaches drawing from Fourier analysis, Chebyshev series, and Taylor series, can be unified under the framework of truncation of Chebyshev series, and indeed, can in large part be matched via a bounded variant of a standard meta-theorem from [Trefethen, 2013]. We hope this work finds use to the community as a companion guide for understanding and applying the powerful framework of [GSLW19].
翻訳日:2023-03-01 18:07:49 公開日:2023-02-28
# 人間ライクアライメントと認識アルゴリズムに基づく複雑な環境における読み出しポインターメーター

Read Pointer Meters in complex environments based on a Human-like Alignment and Recognition Algorithm ( http://arxiv.org/abs/2302.14323v1 )

ライセンス: Link先を確認
Yan Shu, Shaohui Liu, Honglei Xu, Feng Jiang(参考訳) 近年,多数の機器の収集が可能なアナログ計測機器の自動読解システムの開発が注目されている。 それでも、現実世界のアプリケーションへのデプロイを妨げる2つの大きな障害がある。 最初の問題は、パイプライン全体の速度を考慮することはめったにないことです。 2つ目は、低画質の画像(メーターの破損、ぼかし、不均一なスケールなど)を扱うことができないことだ。 本稿では,これらの問題を克服するための人間型アライメントと認識アルゴリズムを提案する。 より具体的には、改良された空間トランスフォーマーネットワーク(stn)に基づいて自己自律的に画像のフロントビューを得るための空間変換モジュール(stm)を提案する。 一方、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために、バリュー獲得モジュール(VAM)が提案されている。 従来の研究とは対照的に,本モデルでは,人間の動作を模倣した学習可能な処理によって完全に実装されたメーターを協調認識し,より高い性能を実現する。 実験結果から,提案モデルの有効性を精度と効率の観点から検証した。

Recently, developing an automatic reading system for analog measuring instruments has gained increased attention, as it enables the collection of numerous state of equipment. Nonetheless, two major obstacles still obstruct its deployment to real-world applications. The first issue is that they rarely take the entire pipeline's speed into account. The second is that they are incapable of dealing with some low-quality images (i.e., meter breakage, blur, and uneven scale). In this paper, we propose a human-like alignment and recognition algorithm to overcome these problems. More specifically, a Spatial Transformed Module(STM) is proposed to obtain the front view of images in a self-autonomous way based on an improved Spatial Transformer Networks(STN). Meanwhile, a Value Acquisition Module(VAM) is proposed to infer accurate meter values by an end-to-end trained framework. In contrast to previous research, our model aligns and recognizes meters totally implemented by learnable processing, which mimics human's behaviours and thus achieves higher performances. Extensive results verify the good robustness of the proposed model in terms of the accuracy and efficiency.
翻訳日:2023-03-01 18:07:16 公開日:2023-02-28
# GAN訓練障害への対処に向けて--可変パラメータを持つ2目的GAN

Towards Addressing GAN Training Instabilities: Dual-objective GANs with Tunable Parameters ( http://arxiv.org/abs/2302.14320v1 )

ライセンス: Link先を確認
Monica Welfert, Kyle Otstot, Gowtham R. Kurri, Lalitha Sankar(参考訳) GANのトレーニング不安定性に対処するために、生成器(G)と識別器(D)に対して異なる値関数(対象物)を持つ二重目的GANのクラスを導入する。 特に、調整可能な分類損失である$\alpha$-lossを用いて各目的をモデル化し、$(\alpha_D,\alpha_G)$-GANsを求め、$(\alpha_D,\alpha_G)\in [0,\infty)^2$とする。 g と d の十分な数のサンプルと容量について、結果の非零和ゲームは $(\alpha_d,\alpha_g)$ の適切な条件下での$f$-divergence を最小化する。 有限サンプルとキャパシティ設定において、無限サンプルの最適設定に対するジェネレータ性能のギャップを定量化するための推定誤差を定義し、この誤差の上限を求め、一定の条件下で最適であることを示す。 最後に、合成2Dガウス混合環とスタックドMNISTデータセットのトレーニング不安定性を緩和するために、$(\alpha_D,\alpha_G)$のチューニング値を強調した。

In an effort to address the training instabilities of GANs, we introduce a class of dual-objective GANs with different value functions (objectives) for the generator (G) and discriminator (D). In particular, we model each objective using $\alpha$-loss, a tunable classification loss, to obtain $(\alpha_D,\alpha_G)$-GANs, parameterized by $(\alpha_D,\alpha_G)\in [0,\infty)^2$. For sufficiently large number of samples and capacities for G and D, we show that the resulting non-zero sum game simplifies to minimizing an $f$-divergence under appropriate conditions on $(\alpha_D,\alpha_G)$. In the finite sample and capacity setting, we define estimation error to quantify the gap in the generator's performance relative to the optimal setting with infinite samples and obtain upper bounds on this error, showing it to be order optimal under certain conditions. Finally, we highlight the value of tuning $(\alpha_D,\alpha_G)$ in alleviating training instabilities for the synthetic 2D Gaussian mixture ring and the Stacked MNIST datasets.
翻訳日:2023-03-01 18:06:59 公開日:2023-02-28
# 強相関系の有限温度シミュレーション

Finite-temperature simulations of strongly correlated systems ( http://arxiv.org/abs/2302.14313v1 )

ライセンス: Link先を確認
Chong Sun(参考訳) 有限温度密度行列埋め込み理論(FT-DMET)、有限温度金属絶縁体遷移、量子想像時間進化(QITE)、量子ランツォス(QLanczos)、量子最小絡み合った典型的な熱状態(QMETTS)アルゴリズムを含む量子アルゴリズム。 絶対零温度は到達できないが、有限温度、特に低温における物理的および化学的問題の研究は、現実的な条件下での物質の量子挙動を理解するために不可欠である。 ここでは、温度を、量子効果が熱ゆらぎによってほとんど散逸しない温度状態と定義する。 低温でのシステムの処理は、古典近似が適用できる高温と、関心のシステムを記述するのに基底状態のみを必要とするゼロ温度の両方と比較して特に困難である。

This thesis describes several topics related to finite temperature studies of strongly correlated systems: finite temperature density matrix embedding theory (FT-DMET), finite temperature metal-insulator transition, and quantum algorithms including quantum imaginary time evolution (QITE), quantum Lanczos (QLanczos), and quantum minimally entangled typical thermal states (QMETTS) algorithms. While the absolute zero temperature is not reachable, studies of physical and chemical problems at finite temperatures, especially at low temperature, is essential for understanding the quantum behaviors of materials in realistic conditions. Here we define low temperature as the temperature regime where the quantum effect is not largely dissipated due to thermal fluctuation. Treatment of systems at low temperatures is especially difficult compared to both high temperatures - where classical approximation can be applied - and zero temperatures where only the ground state is required to describe the system of interest.
翻訳日:2023-03-01 18:06:33 公開日:2023-02-28
# 量子制御のためのタスクベース深層強化学習

Auxiliary Task-based Deep Reinforcement Learning for Quantum Control ( http://arxiv.org/abs/2302.14312v1 )

ライセンス: Link先を確認
Shumin Zhou, Hailan Ma, Sen Kuang, Daoyi Dong(参考訳) 環境の事前知識を必要としないという性質から、強化学習は量子制御問題に大きな可能性がある。 本研究では, 決定論的政策勾配に基づく連続制御政策の有効性について検討する。 量子学習制御問題におけるスパース報酬信号を解決するために,量子制御のためのタスクベース深部強化学習(AT-DRL)を提案する。 特に, 量子状態の忠実性に基づいて, 漸進的忠実性向上を可能にする誘導報酬関数をまず設計する。 そこで,本研究では,ネットワークが主ネットワークとパラメータを共有して,環境(主タスク)が提供する報酬を予測する補助タスクの概念を紹介した。 補助タスクはメインタスクと同期して学習し、環境の最も関連する特徴を選択できるため、エージェントが望ましい状態を達成する方法を理解するのに役立つ。 数値シミュレーションにより,提案するat-drlは,量子系におけるスパース報酬の解となり,効率的な量子状態形成を実現する制御パルスの設計において大きな可能性を秘めている。

Due to its property of not requiring prior knowledge of the environment, reinforcement learning has significant potential for quantum control problems. In this work, we investigate the effectiveness of continuous control policies based on deep deterministic policy gradient. To solve the sparse reward signal in quantum learning control problems, we propose an auxiliary task-based deep reinforcement learning (AT-DRL) for quantum control. In particular, we first design a guided reward function based on the fidelity of quantum states that enables incremental fidelity improvement. Then, we introduce the concept of an auxiliary task whose network shares parameters with the main network to predict the reward provided by the environment (called the main task). The auxiliary task learns synchronously with the main task, allowing one to select the most relevant features of the environment, thus aiding the agent in comprehending how to achieve the desired state. The numerical simulations demonstrate that the proposed AT-DRL can provide a solution to the sparse reward in quantum systems, and has great potential in designing control pulses that achieve efficient quantum state preparation.
翻訳日:2023-03-01 18:06:15 公開日:2023-02-28
# スパイクニューラルネットワークの学習のための記憶と時間効率のバックプロパゲーションに向けて

Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks ( http://arxiv.org/abs/2302.14311v1 )

ライセンス: Link先を確認
Qingyan Meng, Mingqing Xiao, Shen Yan, Yisen Wang, Zhouchen Lin, Zhi-Quan Luo(参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。 微分不可能なSNNモデルのトレーニングでは,代用勾配法(SG法)を用いたBPTT法が高性能である。 しかし、この方法はトレーニング中にかなりのメモリコストとトレーニング時間に苦しむ。 本稿では,BPTTと比較して訓練効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 まず、時間領域を通したSNNのバックプロパゲーションは、計算された最終的な勾配にわずかに寄与することを示す。 そこで,バックプロパゲーション中に計算グラフの重要でない経路を無視することを提案する。 提案手法は,スカラー乗算回数を削減し,全体の時間ステップに依存しない小さなメモリ占有を実現する。 さらに, SLTT の変種である SLTT-K を提案し, K 時間ステップでのみバックプロパゲーションが可能であり, 必要なスカラー乗算数が減少し, 総時間ステップに依存しない。 静的およびニューロモルフィックデータセットの実験により,SLTTの訓練効率と性能が向上した。 特に,bpttと比較してメモリコストとトレーニング時間は70%以上,50%以上低減する一方,imagenetでは最先端の精度を実現する。

Spiking Neural Networks (SNNs) are promising energy-efficient models for neuromorphic computing. For training the non-differentiable SNN models, the backpropagation through time (BPTT) with surrogate gradients (SG) method has achieved high performance. However, this method suffers from considerable memory cost and training time during training. In this paper, we propose the Spatial Learning Through Time (SLTT) method that can achieve high performance while greatly improving training efficiency compared with BPTT. First, we show that the backpropagation of SNNs through the temporal domain contributes just a little to the final calculated gradients. Thus, we propose to ignore the unimportant routes in the computational graph during backpropagation. The proposed method reduces the number of scalar multiplications and achieves a small memory occupation that is independent of the total time steps. Furthermore, we propose a variant of SLTT, called SLTT-K, that allows backpropagation only at K time steps, then the required number of scalar multiplications is further reduced and is independent of the total time steps. Experiments on both static and neuromorphic datasets demonstrate superior training efficiency and performance of our SLTT. In particular, our method achieves state-of-the-art accuracy on ImageNet, while the memory cost and training time are reduced by more than 70% and 50%, respectively, compared with BPTT.
翻訳日:2023-03-01 18:05:57 公開日:2023-02-28
# ロバストビデオ分類のための時間コヒーレントテスト時間最適化

Temporal Coherent Test-Time Optimization for Robust Video Classification ( http://arxiv.org/abs/2302.14309v1 )

ライセンス: Link先を確認
Chenyu Yi, Siyuan Yang, Yufei Wang, Haoliang Li, Yap-Peng Tan and Alex C. Kot(参考訳) ディープニューラルネットワークは、テストデータが現実世界のデプロイメント(例えば、ぼやけ、天気など)で破損したときに失敗する可能性がある。 テスト時間最適化(test-time optimization)は、テスト中に破損したデータを一般化するためにモデルを適用する効果的な方法である。 しかし,ビデオ分類のロバスト性を改善する手法は少ない。 本研究では,テスト時間最適化に時空間情報を活用するための時間コヒーレントテスト時間最適化フレームワーク(TeCo)を提案する。 自己教師付き学習でビデオの情報を活用するため、tecoはビデオクリップからのグローバルコンテンツを使用し、エントロピー最小化のためのモデルを最適化する。 TeCoは、ビデオクリップのグローバルコンテンツに基づいて予測のエントロピーを最小化する。 一方、ローカルコンテンツも供給し、時間的コヒーレンスを機能レベルで規則化する。 TeCoは様々なビデオ分類モデルの一般化能力を保ち、Mini Kinetics-CとMini SSV2-Cをまたいだ汚職の堅牢性を大幅に向上させる。 さらに、テコはテスト時間最適化によってビデオ分類の腐敗のロバスト性に新たなベースラインを設定する。

Deep neural networks are likely to fail when the test data is corrupted in real-world deployment (e.g., blur, weather, etc.). Test-time optimization is an effective way that adapts models to generalize to corrupted data during testing, which has been shown in the image domain. However, the techniques for improving video classification corruption robustness remain few. In this work, we propose a Temporal Coherent Test-time Optimization framework (TeCo) to utilize spatio-temporal information in test-time optimization for robust video classification. To exploit information in video with self-supervised learning, TeCo uses global content from video clips and optimizes models for entropy minimization. TeCo minimizes the entropy of the prediction based on the global content from video clips. Meanwhile, it also feeds local content to regularize the temporal coherence at the feature level. TeCo retains the generalization ability of various video classification models and achieves significant improvements in corruption robustness across Mini Kinetics-C and Mini SSV2-C. Furthermore, TeCo sets a new baseline in video classification corruption robustness via test-time optimization.
翻訳日:2023-03-01 18:05:36 公開日:2023-02-28
# GradMA: 破滅的予測を緩和したグラディエントメモリベースの加速的フェデレーションラーニング

GradMA: A Gradient-Memory-based Accelerated Federated Learning with Alleviated Catastrophic Forgetting ( http://arxiv.org/abs/2302.14307v1 )

ライセンス: Link先を確認
Kangyang Luo, Xiang Li, Yunshi Lan, Ming Gao(参考訳) フェデレーション学習(federated learning, fl)は、デファクトの機械学習分野として登場し、コミュニティから急速に研究関心が高まっている。 しかし、データの不均一性と部分的参加によって引き起こされる破滅的な忘れは、パフォーマンスを損なうflに特有の課題をもたらす。 そこで我々は,サーバサイドとワーカーサイドの更新方向を同時に修正し,サーバのリッチコンピューティングとメモリリソースを最大限活用するために,継続的学習から着想を得た新しいflアプローチ(gradma)を提案する。 さらに,gradma が大規模作業者に対して fl に対応するためのメモリ削減戦略を詳述した。 次に,GradMAのスムーズな非凸条件下での収束を理論的に解析し,その収束速度がサンプルアクティブワーカーの増加とともに線形速度アップを達成することを示す。 最後に,様々な画像分類タスクに関する広範囲な実験により,SOTAベースラインと比較して,GradMAの精度と通信効率が著しく向上したことを示す。

Federated Learning (FL) has emerged as a de facto machine learning area and received rapid increasing research interests from the community. However, catastrophic forgetting caused by data heterogeneity and partial participation poses distinctive challenges for FL, which are detrimental to the performance. To tackle the problems, we propose a new FL approach (namely GradMA), which takes inspiration from continual learning to simultaneously correct the server-side and worker-side update directions as well as take full advantage of server's rich computing and memory resources. Furthermore, we elaborate a memory reduction strategy to enable GradMA to accommodate FL with a large scale of workers. We then analyze convergence of GradMA theoretically under the smooth non-convex setting and show that its convergence rate achieves a linear speed up w.r.t the increasing number of sampled active workers. At last, our extensive experiments on various image classification tasks show that GradMA achieves significant performance gains in accuracy and communication efficiency compared to SOTA baselines.
翻訳日:2023-03-01 18:05:18 公開日:2023-02-28
# CLR-GAM: ガイド付き拡張と機能マッピングによる対照的なポイントクラウド学習

CLR-GAM: Contrastive Point Cloud Learning with Guided Augmentation and Feature Mapping ( http://arxiv.org/abs/2302.14306v1 )

ライセンス: Link先を確認
Srikanth Malla, Yi-Ting Chen(参考訳) ポイントクラウドデータは、ロボティクスと自動運転アプリケーションにおいて重要な役割を果たす。 しかし、ポイントクラウドデータの注釈付けは、分類やセグメンテーションなどの下流タスクを強化する3d表現の学習を可能にする一方で、時間がかかり、非自明である。 近年,3次元表現を自己指導的に学習する上で,学習型フレームワークが有望な成果を上げている。 しかし、既存のコントラスト学習法では、構造的特徴を正確にエンコードして関連づけ、高次元拡張空間を効率的に探索することはできない。 本稿では,効率的な動的探索戦略のためのガイド付き学習型フレームワークclr-gamと,拡張されたポイントクラウド間の類似した構造的特徴付けのためのガイド付き特徴マッピング(gfm)を提案する。 提案手法は,3つのダウンストリームタスク,すなわち3Dポイントクラウド分類,少数ショット学習,オブジェクト部分セグメンテーションに対して,シミュレーションおよび実世界の3Dポイントクラウドデータセットに対して,最先端のパフォーマンスを実現することを実証的に実証した。

Point cloud data plays an essential role in robotics and self-driving applications. Yet, annotating point cloud data is time-consuming and nontrivial while they enable learning discriminative 3D representations that empower downstream tasks, such as classification and segmentation. Recently, contrastive learning-based frameworks have shown promising results for learning 3D representations in a self-supervised manner. However, existing contrastive learning methods cannot precisely encode and associate structural features and search the higher dimensional augmentation space efficiently. In this paper, we present CLR-GAM, a novel contrastive learning-based framework with Guided Augmentation (GA) for efficient dynamic exploration strategy and Guided Feature Mapping (GFM) for similar structural feature association between augmented point clouds. We empirically demonstrate that the proposed approach achieves state-of-the-art performance on both simulated and real-world 3D point cloud datasets for three different downstream tasks, i.e., 3D point cloud classification, few-shot learning, and object part segmentation.
翻訳日:2023-03-01 18:04:57 公開日:2023-02-28
# 周波数領域における逆数拡大によるモデル一般化の改善

Improving Model Generalization by On-manifold Adversarial Augmentation in the Frequency Domain ( http://arxiv.org/abs/2302.14302v1 )

ライセンス: Link先を確認
Chang Liu, Wenzhao Xiang, Yuan He, Hui Xue, Shibao Zheng, Hang Su(参考訳) 深層ニューラルネットワーク(DNN)は、トレーニングデータとテストデータが異なる基盤分布である場合、大幅に劣化する。 オフ・オブ・ディストリビューション(OOD)データへのモデル一般化の重要性にもかかわらず、OODデータ上の最先端(SOTA)モデルの精度は低下する可能性がある。 近年の研究では、OODの一般化を改善するために、データ拡張の特別な例として、正規あるいはオフマニフォールドの逆数例が利用可能であることが示されている。 これに触発されて、理論上、on-manifold adversarial examples は ood の一般化に役立つことを証明している。 それでも、実多様体は概して複素であるため、多様体上の逆例を生成することは自明ではない。 この問題に対処するため,我々は,実装が容易なon-manifoldadversarialデータ拡張手法であるwavelet module (advwavaug) を用いて,逆行例によるデータ拡張手法を提案する。 特に、良性画像をウェーブレット領域に投影する。 ウェーブレット変換の空間特性を補助することにより、推定したデータ多様体上の画像を修正できる。 我々は,advprop トレーニングフレームワークを基盤とした敵意強化を行う。 ImageNetとその歪みバージョンを含む、異なるモデルと異なるデータセットに対する大規模な実験により、本手法がモデル一般化、特にOODデータにおいて改善できることが実証された。 トレーニングプロセスにAdvWavAugを統合することで、最近のトランスフォーマーモデルでSOTAの結果を得た。

Deep neural networks (DNNs) may suffer from significantly degenerated performance when the training and test data are of different underlying distributions. Despite the importance of model generalization to out-of-distribution (OOD) data, the accuracy of state-of-the-art (SOTA) models on OOD data can plummet. Recent work has demonstrated that regular or off-manifold adversarial examples, as a special case of data augmentation, can be used to improve OOD generalization. Inspired by this, we theoretically prove that on-manifold adversarial examples can better benefit OOD generalization. Nevertheless, it is nontrivial to generate on-manifold adversarial examples because the real manifold is generally complex. To address this issue, we proposed a novel method of Augmenting data with Adversarial examples via a Wavelet module (AdvWavAug), an on-manifold adversarial data augmentation technique that is simple to implement. In particular, we project a benign image into a wavelet domain. With the assistance of the sparsity characteristic of wavelet transformation, we can modify an image on the estimated data manifold. We conduct adversarial augmentation based on AdvProp training framework. Extensive experiments on different models and different datasets, including ImageNet and its distorted versions, demonstrate that our method can improve model generalization, especially on OOD data. By integrating AdvWavAug into the training process, we have achieved SOTA results on some recent transformer-based models.
翻訳日:2023-03-01 18:04:38 公開日:2023-02-28
# HelixSurf: 反復的交互正規化を伴う屋内シーンのロバストで効率的なニューラルネットワーク表面学習

HelixSurf: A Robust and Efficient Neural Implicit Surface Learning of Indoor Scenes with Iterative Intertwined Regularization ( http://arxiv.org/abs/2302.14340v1 )

ライセンス: Link先を確認
Zhihao Liang, Zhangjin Huang, Changxing Ding, Kui Jia(参考訳) マルチビュー画像からシーン形状を復元することは、コンピュータビジョン研究における長年の課題である。 最近の約束は、ニューラルな暗黙的表面学習と微分可能なボリュームレンダリングを活用し、シーン幾何学の回復と、ニューラルモデルの深い先行が帰納的滑らか性バイアスとして使用される新しいビューの合成の両方を達成する。 オブジェクトレベルのサーフェスを約束する一方で、これらのメソッドは複雑なシーンサーフェスを扱うときに苦しむ。 一方、従来のマルチビューステレオは、複数のビューにまたがる局所的画素対応をグローバルに最適化することにより、リッチなテクスチャでシーンの幾何学を復元することができる。 そこで我々は,この2つの戦略から相補的な利点を生かして,ヘリックス型神経暗黙的表面学習(helixsurf)と呼ばれる手法を提案する。 また,HelixSurfのボリュームレンダリングを効率よく行う手法を提案する。 屋内シーンの表面再構成実験では,既存の手法と同等に比較でき,既存の手法のいくつかに補助訓練データがある場合でも,桁違いに高速であることがわかった。 ソースコードはhttps://github.com/gorilla-lab-scut/helixsurfで入手できる。

Recovery of an underlying scene geometry from multiview images stands as a long-time challenge in computer vision research. The recent promise leverages neural implicit surface learning and differentiable volume rendering, and achieves both the recovery of scene geometry and synthesis of novel views, where deep priors of neural models are used as an inductive smoothness bias. While promising for object-level surfaces, these methods suffer when coping with complex scene surfaces. In the meanwhile, traditional multi-view stereo can recover the geometry of scenes with rich textures, by globally optimizing the local, pixel-wise correspondences across multiple views. We are thus motivated to make use of the complementary benefits from the two strategies, and propose a method termed Helix-shaped neural implicit Surface learning or HelixSurf; HelixSurf uses the intermediate prediction from one strategy as the guidance to regularize the learning of the other one, and conducts such intertwined regularization iteratively during the learning process. We also propose an efficient scheme for differentiable volume rendering in HelixSurf. Experiments on surface reconstruction of indoor scenes show that our method compares favorably with existing methods and is orders of magnitude faster, even when some of existing methods are assisted with auxiliary training data. The source code is available at https://github.com/Gorilla-Lab-SCUT/HelixSurf.
翻訳日:2023-03-01 17:58:08 公開日:2023-02-28
# 制約付き政策最適化における余剰安全予算を用いた効率的な探索

Efficient Exploration Using Extra Safety Budget in Constrained Policy Optimization ( http://arxiv.org/abs/2302.14339v1 )

ライセンス: Link先を確認
Haotian Xu and Shengjie Wang and Zhaolei Wang and Qing Zhuo and Tao Zhang(参考訳) 強化学習(RL)は多くのロボット制御タスクにおいて有望な結果を得た。 学習に基づくコントローラの安全性は、コントローラの有効性を保証するための重要な概念である。 現在の方法は、トレーニング中に完全な一貫性の制約を採用するため、初期段階での探索が非効率になる。 本稿では,esb-cpo(extreme safety budget)アルゴリズムを用いた,探索と制約のバランスを取るための制約付きポリシー最適化を提案する。 初期段階において,本手法は,提案する新たな指標を用いて,安全でない移行(追加の安全予算)の実用的な制約を緩和する。 トレーニングプロセスでは、最適化問題の制約がより厳しくなります。 一方,理論解析と実践実験により,本手法は最終訓練段階におけるコスト限界の要求を徐々に満たしていることが示された。 Safety-Gym と Bullet-Safety-Gym のベンチマークで評価した結果,安全性と最適性の観点からベースラインアルゴリズムよりも優位性を示した。 また,提案手法は,CPOアルゴリズムと比較して,同じコスト制限下での顕著な性能向上を実現している。

Reinforcement learning (RL) has achieved promising results on most robotic control tasks. Safety of learning-based controllers is an essential notion of ensuring the effectiveness of the controllers. Current methods adopt whole consistency constraints during the training, thus resulting in inefficient exploration in the early stage. In this paper, we propose a Constrained Policy Optimization with Extra Safety Budget (ESB-CPO) algorithm to strike a balance between the exploration and the constraints. In the early stage, our method loosens the practical constraints of unsafe transitions (adding extra safety budget) with the aid of a new metric we propose. With the training process, the constraints in our optimization problem become tighter. Meanwhile, theoretical analysis and practical experiments demonstrate that our method gradually meets the cost limit's demand in the final training stage. When evaluated on Safety-Gym and Bullet-Safety-Gym benchmarks, our method has shown its advantages over baseline algorithms in terms of safety and optimality. Remarkably, our method gains remarkable performance improvement under the same cost limit compared with CPO algorithm.
翻訳日:2023-03-01 17:57:44 公開日:2023-02-28
# CLIPモデルをScene Text Detectorに変換する

Turning a CLIP Model into a Scene Text Detector ( http://arxiv.org/abs/2302.14338v1 )

ライセンス: Link先を確認
Wenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren, Xiang Bai(参考訳) 最近の大規模コントラスト言語-画像事前学習(CLIP)モデルは、事前学習されたビジョンと言語知識を活用することで、様々な下流タスクに大きな可能性を示している。 リッチテキストとビジュアル情報を含むシーンテキストは、CLIPのようなモデルと本質的に関連している。 近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。 これらの研究とは対照的に,本研究では,CLIPモデルを事前学習せずに直接テキスト検出する手法であるTCMを提案する。 提案するtcmの利点を,(1)既存のシーンテキスト検出法を改善するために,基礎となるフレームワークの原則を適用することができる。 2)既存の手法,例えばラベル付きデータの10%を用いることで,f-measureの4つのベンチマークにおける平均22%のベースライン法の性能を大幅に向上させる。 3)クリップモデルを既存のシーンテキスト検出手法に変換することにより,より有望なドメイン適応能力を実現する。 コードは公開される予定だ。

The recent large-scale Contrastive Language-Image Pretraining (CLIP) model has shown great potential in various downstream tasks via leveraging the pretrained vision and language knowledge. Scene text, which contains rich textual and visual information, has an inherent connection with a model like CLIP. Recently, pretraining approaches based on vision language models have made effective progresses in the field of text detection. In contrast to these works, this paper proposes a new method, termed TCM, focusing on Turning the CLIP Model directly for text detection without pretraining process. We demonstrate the advantages of the proposed TCM as follows: (1) The underlying principle of our framework can be applied to improve existing scene text detector. (2) It facilitates the few-shot training capability of existing methods, e.g., by using 10% of labeled data, we significantly improve the performance of the baseline method with an average of 22% in terms of the F-measure on 4 benchmarks. (3) By turning the CLIP model into existing scene text detection methods, we further achieve promising domain adaptation ability. The code will be publicly released.
翻訳日:2023-03-01 17:57:27 公開日:2023-02-28
# UniFLG:テキストや音声から一元化した顔のランドマーク生成装置

UniFLG: Unified Facial Landmark Generator from Text or Speech ( http://arxiv.org/abs/2302.14337v1 )

ライセンス: Link先を確認
Kentaro Mitsui, Yukiya Hono, Kei Sawada(参考訳) 顔の生成は、その幅広い適用性のために広く研究されている。 話し顔生成に使用される2つの主要なフレームワークは、テキストから同期された音声と話し顔を生成するテキスト駆動フレームワークと、音声から話す顔を生成する音声駆動フレームワークからなる。 これらのフレームワークを統合するため,本稿では統一顔ランドマーク生成器 (uniflg) を提案する。 提案システムは、音声合成だけでなく、テキストや音声に共通する一連の潜在表現の抽出にも利用し、ランドマークデコーダに入力して顔のランドマークを生成する。 本研究では, 音声合成と顔のランドマーク生成において, 最先端のテキスト駆動方式よりも自然性が高いことを示す。 さらに, 顔画像データや音声データなしに, 話者の音声から顔のランドマークを生成できることを実証した。

Talking face generation has been extensively investigated owing to its wide applicability. The two primary frameworks used for talking face generation comprise a text-driven framework, which generates synchronized speech and talking faces from text, and a speech-driven framework, which generates talking faces from speech. To integrate these frameworks, this paper proposes a unified facial landmark generator (UniFLG). The proposed system exploits end-to-end text-to-speech not only for synthesizing speech but also for extracting a series of latent representations that are common to text and speech, and feeds it to a landmark decoder to generate facial landmarks. We demonstrate that our system achieves higher naturalness in both speech synthesis and facial landmark generation compared to the state-of-the-art text-driven method. We further demonstrate that our system can generate facial landmarks from speech of speakers without facial video data or even speech data.
翻訳日:2023-03-01 17:57:11 公開日:2023-02-28
# dc-former : 個人再識別のための多様でコンパクトな変圧器

DC-Former: Diverse and Compact Transformer for Person Re-Identification ( http://arxiv.org/abs/2302.14335v1 )

ライセンス: Link先を確認
Wen Li, Cheng Zou, Meng Wang, Furong Xu, Jianan Zhao, Ruobing Zheng, Yuan Cheng, Wei Chu(参考訳) 個人再識別(re-ID)タスクでは,データ不足のため,ディープラーニングによる識別表現の学習が依然として難しい。 一般的に言えば、データ量を増やすとモデルのパフォーマンスが向上します。 類似クラスの追加は、分類器が類似したアイデンティティを識別する能力を強化し、表現の識別を改善する。 本稿では,埋め込み空間を多様かつコンパクトな部分空間に分割することにより,同様の効果を得られる多様でコンパクトな変圧器(dc-former)を提案する。 compact embedded subspaceはモデルがより堅牢で差別的な埋め込みを学習し、類似したクラスを識別するのに役立つ。 そして、よりきめ細かい情報を含むこれらの多様な埋め込みの融合により、re-IDの効果はさらに向上する。 具体的には、複数のクラストークンがvision transformerで複数の埋め込み空間を表現するために使用される。 次に、これらの空間に自己多元制約(SDC)を適用し、それらを互いに引き離し、各埋め込み空間を多様かつコンパクトにする。 さらに、トレーニング中の相対的重要性のバランスをとるために、動的重み制御器(DWC)が設計されている。 提案手法の実験結果は有望であり,従来の手法を上回っている。

In person re-identification (re-ID) task, it is still challenging to learn discriminative representation by deep learning, due to limited data. Generally speaking, the model will get better performance when increasing the amount of data. The addition of similar classes strengthens the ability of the classifier to identify similar identities, thereby improving the discrimination of representation. In this paper, we propose a Diverse and Compact Transformer (DC-Former) that can achieve a similar effect by splitting embedding space into multiple diverse and compact subspaces. Compact embedding subspace helps model learn more robust and discriminative embedding to identify similar classes. And the fusion of these diverse embeddings containing more fine-grained information can further improve the effect of re-ID. Specifically, multiple class tokens are used in vision transformer to represent multiple embedding spaces. Then, a self-diverse constraint (SDC) is applied to these spaces to push them away from each other, which makes each embedding space diverse and compact. Further, a dynamic weight controller(DWC) is further designed for balancing the relative importance among them during training. The experimental results of our method are promising, which surpass previous state-of-the-art methods on several commonly used person re-ID benchmarks.
翻訳日:2023-03-01 17:56:56 公開日:2023-02-28
# 自己監督型シモン・トゥ・リアル・トランスファーによるマーカレスカメラ・ロボット・ポース推定

Markerless Camera-to-Robot Pose Estimation via Self-supervised Sim-to-Real Transfer ( http://arxiv.org/abs/2302.14332v1 )

ライセンス: Link先を確認
Jingpei Lu, Florian Richter, Michael C. Yip(参考訳) カメラとロボットのポーズを解くことは、視覚に基づくロボット制御の基本的な要件であり、正確な処理にかなりの労力と注意を要するプロセスである。 従来のアプローチではマーカによるロボットの修正が必要であり、その後のディープラーニングアプローチではマーカレスな特徴抽出が可能になった。 主流のディープラーニング手法は合成データのみを使用し、3dアノテーションの取得は労力を要するため、simと現実のギャップを埋めるためにドメインランダム化に依存する。 本研究では,実世界のデータに対する3Dアノテーションの制限を克服する。 本稿では,オンラインカメラとロボットのキャリブレーションが可能なエンドツーエンドのポーズ推定フレームワークと,ラベルのない実世界のデータにトレーニングをスケールするための自己教師付きトレーニング手法を提案する。 我々のフレームワークはロボットのポーズを解くための深層学習と幾何学的ビジョンを組み合わせており、パイプラインは完全に微分可能である。 CtRNet(Camera-to-Robot Pose Estimation Network)を訓練するために、画像レベルの自己監督のために、前景のセグメンテーションと微分可能なレンダリングを活用する。 ポーズ予測をレンダラを介して可視化し、入力画像による画像損失をバックプロパゲーションしてニューラルネットワークを訓練する。 2つの公開実データに対する実験結果から,既存の研究に対するアプローチの有効性が確認された。 また、我々のフレームワークをビジュアルサーボシステムに統合し、自動化タスクのためのリアルタイム精密ロボットポーズ推定の可能性を実証する。

Solving the camera-to-robot pose is a fundamental requirement for vision-based robot control, and is a process that takes considerable effort and cares to make accurate. Traditional approaches require modification of the robot via markers, and subsequent deep learning approaches enabled markerless feature extraction. Mainstream deep learning methods only use synthetic data and rely on Domain Randomization to fill the sim-to-real gap, because acquiring the 3D annotation is labor-intensive. In this work, we go beyond the limitation of 3D annotations for real-world data. We propose an end-to-end pose estimation framework that is capable of online camera-to-robot calibration and a self-supervised training method to scale the training to unlabeled real-world data. Our framework combines deep learning and geometric vision for solving the robot pose, and the pipeline is fully differentiable. To train the Camera-to-Robot Pose Estimation Network (CtRNet), we leverage foreground segmentation and differentiable rendering for image-level self-supervision. The pose prediction is visualized through a renderer and the image loss with the input image is back-propagated to train the neural network. Our experimental results on two public real datasets confirm the effectiveness of our approach over existing works. We also integrate our framework into a visual servoing system to demonstrate the promise of real-time precise robot pose estimation for automation tasks.
翻訳日:2023-03-01 17:56:36 公開日:2023-02-28
# パーソナライズされた前処理パイプライン探索に向けて

Towards Personalized Preprocessing Pipeline Search ( http://arxiv.org/abs/2302.14329v1 )

ライセンス: Link先を確認
Diego Martinez, Daochen Zha, Qiaoyu Tan, Xia Hu(参考訳) 生の入力機能を数値表現に変換する特徴前処理は、自動機械学習(AutoML)システムにおいて重要なステップである。 しかし、既存のシステムは、全ての数値的特徴に適用されるのと同じ前処理パイプラインを持つ機能前処理のための非常に小さな検索スペースを持つことが多い。 異なるデータセットには様々な特徴があり、データセット内の機能には独自のプリプロセッシングの好みがあるため、これは最適以下のパフォーマンスをもたらす可能性がある。 このギャップを埋めるため、検索アルゴリズムでは、各機能に対して異なる前処理パイプラインを適用できるパーソナライズされた前処理パイプライン検索を探求する。 検索スペースは、より多くの機能で指数関数的に成長するので、これは難しい課題です。 この課題に対処するため、ClusteringによるPersonalized Preprocessing Pipeline Searchのための新しいフレームワークであるClusterP3Sを提案する。 主要なアイデアは、クラスタ内の機能に対して、同じ前処理パイプラインを使用することで、検索スペースを大幅に削減できる機能クラスタを学習することだ。 この目的のために、クラスタを共同で学習し、最適なパイプラインを探索する階層的な探索戦略を提案する。そこで、上位レベルの探索は、クラスタ上に構築されたより良いパイプラインを実現するために機能クラスタを最適化し、下位レベルの探索は、特定のクラスタ割り当てを与えられたパイプラインを最適化する。 私たちはこのアイデアを,上位レベルの強化学習と下位レベルのランダム検索でトレーニングされた深層クラスタリングネットワークでインスタンス化する。 ベンチマーク分類データセットの実験は、特徴的前処理パイプライン探索を可能にする効果を実証する。

Feature preprocessing, which transforms raw input features into numerical representations, is a crucial step in automated machine learning (AutoML) systems. However, the existing systems often have a very small search space for feature preprocessing with the same preprocessing pipeline applied to all the numerical features. This may result in sub-optimal performance since different datasets often have various feature characteristics, and features within a dataset may also have their own preprocessing preferences. To bridge this gap, we explore personalized preprocessing pipeline search, where the search algorithm is allowed to adopt a different preprocessing pipeline for each feature. This is a challenging task because the search space grows exponentially with more features. To tackle this challenge, we propose ClusterP3S, a novel framework for Personalized Preprocessing Pipeline Search via Clustering. The key idea is to learn feature clusters such that the search space can be significantly reduced by using the same preprocessing pipeline for the features within a cluster. To this end, we propose a hierarchical search strategy to jointly learn the clusters and search for the optimal pipelines, where the upper-level search optimizes the feature clustering to enable better pipelines built upon the clusters, and the lower-level search optimizes the pipeline given a specific cluster assignment. We instantiate this idea with a deep clustering network that is trained with reinforcement learning at the upper level, and random search at the lower level. Experiments on benchmark classification datasets demonstrate the effectiveness of enabling feature-wise preprocessing pipeline search.
翻訳日:2023-03-01 17:56:10 公開日:2023-02-28
# 無障害キタエフモデルにおける創発的ガラス性

Emergent glassiness in disorder-free Kitaev model ( http://arxiv.org/abs/2302.14328v1 )

ライセンス: Link先を確認
K. B. Yogendra, Tanmoy Das, G. Baskaran(参考訳) 最近の実験では、北エフのスピン液体候補であるほぼ無秩序な$\alpha$-RuCl$_3$のガラスのような特徴(npj量子材料6, 1 (2021))を中間磁場領域の低温で示している。 この実験に触発されて、ゼロ温度の磁場の存在下で密度行列再正規化群 (dmrg) 法におけるキタエフモデルの研究を行った。 磁場が増大する5つの異なる相は、いわゆるu(1)スピン液体領域において均質なフラックス相、z2渦ガス、固相および創発性ガラス相、そして最終的にスピン偏極相によって特徴づけられる。 相関関数と基底状態の忠実度を計算し、異なるフラックス構成に対応するエネルギー的にアクセス可能な直交サドル点の多さを示すことにより、創発的なガラス性を確認する。 乱れのない量子多体系における創発的ガラス性の理論と合わせて、ガラス性は乱れのない汎用量子スピン液体に固有のものであることを提案する。

A recent experiment shows surprising glass-like features [npj Quantum Materials 6, 1 (2021)] in the nearly disorder-free $\alpha$-RuCl$_3$, a Kitaev spin liquid candidate, at low temperatures in the intermediate magnetic field region. Inspired by this experiment, we study the Kitaev model within the density-matrix renormalization group (DMRG) method in the presence of a magnetic field at zero temperature. We find five distinct phases with increasing magnetic field, which are characterized by a homogeneous flux phase, the Z2 vortex gas, solid and emergent glass phase in the so-called U(1) spin liquid region, and finally a spin-polarized phase. The emergent glassiness is confirmed by calculating correlation functions as well as ground state fidelity, showing a plethora of energetically accessible orthogonal saddle points corresponding to different flux configurations. Taking our result together with previous theories of emergent glassiness in disorder-free quantum many-body systems, we propose that glassiness is intrinsic to disorder-free generic quantum spin liquids.
翻訳日:2023-03-01 17:55:47 公開日:2023-02-28
# 倫理的枠組みとコンピュータセキュリティのトロリー問題--会話の基礎

Ethical Frameworks and Computer Security Trolley Problems: Foundations for Conversations ( http://arxiv.org/abs/2302.14326v1 )

ライセンス: Link先を確認
Tadayoshi Kohno, Yasemin Acar, Wulf Loh(参考訳) コンピュータセキュリティ研究コミュニティは、倫理的な問題に定期的に取り組む。 倫理・道徳哲学の分野は、何世紀にもわたって、それが「道徳的に良い」あるいは少なくとも「道徳的に許される/受け入れられる」を意味するかを検討してきた。 哲学の貢献の中には、(1)行動の道徳性を評価するための枠組み、(2)道徳的推論と意思決定に関する異なる視点に関する議論と知的な探求を促進する道徳的ジレンマを特徴とするシナリオ(トロリー問題など)などがある。 古典的なトロリー問題では、コンシークエンシャル解析とデオントロジー解析は異なる意見を述べることができる。 本研究では,コンピュータセキュリティ研究における道徳的問題と倫理的/道徳哲学の関連性について,トロリー問題のようなコンピュータセキュリティをテーマとした道徳的ジレンマの作成と分析を通じて明確に検証し,セキュリティ研究に関する意思決定の道徳性に関するセキュリティ研究者の間での議論に貢献することを目的とする。 道徳的に正しいか間違っているかを明確に定義しようとはしませんし、別のフレームワークよりもひとつのフレームワークを主張することもできません。 実際、私たちが中心とするコンシークエンシストとデオントロジーの枠組みは、シナリオで異なる結論に達することに加えて、大きな制限があります。 代わりに、私たちのシナリオを提供し、2つの異なる倫理的アプローチを比較することによって、コンピュータセキュリティ研究分野が倫理的問題をどう考えるか、そしてどのように会話するか、特に道徳的に正しいか、許容できるかに関する異なる視点がある場合に貢献しようと努めています。

The computer security research community regularly tackles ethical questions. The field of ethics / moral philosophy has for centuries considered what it means to be "morally good" or at least "morally allowed / acceptable". Among philosophy's contributions are (1) frameworks for evaluating the morality of actions -- including the well-established consequentialist and deontological frameworks -- and (2) scenarios (like trolley problems) featuring moral dilemmas that can facilitate discussion about and intellectual inquiry into different perspectives on moral reasoning and decision-making. In a classic trolley problem, consequentialist and deontological analyses may render different opinions. In this research, we explicitly make and explore connections between moral questions in computer security research and ethics / moral philosophy through the creation and analysis of trolley problem-like computer security-themed moral dilemmas and, in doing so, we seek to contribute to conversations among security researchers about the morality of security research-related decisions. We explicitly do not seek to define what is morally right or wrong, nor do we argue for one framework over another. Indeed, the consequentialist and deontological frameworks that we center, in addition to coming to different conclusions for our scenarios, have significant limitations. Instead, by offering our scenarios and by comparing two different approaches to ethics, we strive to contribute to how the computer security research field considers and converses about ethical questions, especially when there are different perspectives on what is morally right or acceptable.
翻訳日:2023-03-01 17:55:26 公開日:2023-02-28
# BEVPlace:鳥の視線画像を用いたLiDARによる位置認識学習

BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images ( http://arxiv.org/abs/2302.14325v1 )

ライセンス: Link先を確認
Lun Luo, Shuhang Zheng, Yixuan Li, Yongzhi Fan, Beinan Yu, Siyuan Cao, Huiliang Shen(参考訳) 場所認識は長期SLAMシステムにとって重要なモジュールである。 現在のlidarに基づく位置認識手法は、通常、不整点や範囲画像などの点雲の表現に基づいている。 これらの手法は検索のリコール率が高いが、ビューの変化やシーンの変化で性能が低下する可能性がある。 本研究では、位置認識における異なる表現の可能性、すなわち、鳥の視線(BEV)画像について検討する。 我々は,bev画像の構造的内容は点雲の回転や変換の影響が少ないことを観察する。 微妙な設計がなければ、bevイメージで訓練された単純なvggnetが、わずかな視点変化の場面で最先端の場所認識手法と同等の性能を達成できることを検証する。 より堅牢な位置認識のために、BEVPlaceと呼ばれる回転不変ネットワークを設計する。 我々はグループ畳み込みを用いて画像から回転同変局所特徴を抽出し,大域的特徴集合にNetVLADを用いる。 さらに,BEV特徴量間の距離が点雲の幾何学的距離と相関していることが観察された。 そこで本研究では,クエリクラウドの位置を推定し,位置認識の利用範囲を拡大する手法を開発した。 大規模公開データセットを用いた実験により,本手法が得られた。 1)リコール率で最先端のパフォーマンスを達成する。 2) 変化を見るのに堅牢です。 3)強い一般化能力を示し、 4) 問合せ点雲の位置を推定できる。 ソースコードはhttps://github.com/zjuluolun/BEVPlace.comで公開されている。

Place recognition is a key module for long-term SLAM systems. Current LiDAR-based place recognition methods are usually based on representations of point clouds such as unordered points or range images. These methods achieve high recall rates of retrieval, but their performance may degrade in the case of view variation or scene changes. In this work, we explore the potential of a different representation in place recognition, i.e. bird's eye view (BEV) images. We observe that the structural contents of BEV images are less influenced by rotations and translations of point clouds. We validate that, without any delicate design, a simple VGGNet trained on BEV images achieves comparable performance with the state-of-the-art place recognition methods in scenes of slight viewpoint changes. For more robust place recognition, we design a rotation-invariant network called BEVPlace. We use group convolution to extract rotation-equivariant local features from the images and NetVLAD for global feature aggregation. In addition, we observe that the distance between BEV features is correlated with the geometry distance of point clouds. Based on the observation, we develop a method to estimate the position of the query cloud, extending the usage of place recognition. The experiments conducted on large-scale public datasets show that our method 1) achieves state-of-the-art performance in terms of recall rates, 2) is robust to view changes, 3) shows strong generalization ability, and 4) can estimate the positions of query point clouds. Source code will be made publicly available at https://github.com/zjuluolun/BEVPlace.
翻訳日:2023-03-01 17:54:57 公開日:2023-02-28
# LiDARを用いた効率的なインシシシトニューラルコンストラクション

Efficient Implicit Neural Reconstruction Using LiDAR ( http://arxiv.org/abs/2302.14363v1 )

ライセンス: Link先を確認
Dongyu Yan, Xiaoyang Lyu, Jieqi Shi and Yi Lin(参考訳) 暗黙的神経表現を用いたシーン幾何のモデリングにより、精度、柔軟性、メモリ使用率の面での利点が明らかになった。 従来のアプローチでは、色や深度画像による印象的な結果が示されていたが、光条件や大規模シーンの扱いが難しい。 グローバルポイントクラウドを入力とする方法は、正確な登録と基底真理座標ラベルを必要とするため、アプリケーションのシナリオは制限される。 本稿では, 微小なLiDAR点雲と粗いオドメトリーを用いて, 数分以内に微細な暗黙の占有場を効率的に再構築する手法を提案する。 2次元レンダリングなしで直接3次元空間を監視できる新たなロス関数を導入し、情報損失を回避する。 また、入力フレームのポーズをエンドツーエンドで洗練し、グローバルポイントクラウド登録なしで一貫した幾何を生成する。 我々の知る限り、この手法はLiDARのみの入力から暗黙のシーン表現を再構築する最初の方法である。 室内と屋外のシーンを含む合成および実世界のデータセット実験により,本手法が有効で,効率的で,正確であることが証明された。

Modeling scene geometry using implicit neural representation has revealed its advantages in accuracy, flexibility, and low memory usage. Previous approaches have demonstrated impressive results using color or depth images but still have difficulty handling poor light conditions and large-scale scenes. Methods taking global point cloud as input require accurate registration and ground truth coordinate labels, which limits their application scenarios. In this paper, we propose a new method that uses sparse LiDAR point clouds and rough odometry to reconstruct fine-grained implicit occupancy field efficiently within a few minutes. We introduce a new loss function that supervises directly in 3D space without 2D rendering, avoiding information loss. We also manage to refine poses of input frames in an end-to-end manner, creating consistent geometry without global point cloud registration. As far as we know, our method is the first to reconstruct implicit scene representation from LiDAR-only input. Experiments on synthetic and real-world datasets, including indoor and outdoor scenes, prove that our method is effective, efficient, and accurate, obtaining comparable results with existing methods using dense input.
翻訳日:2023-03-01 17:49:49 公開日:2023-02-28
# ワンショット・ビデオ・インペインティング

One-Shot Video Inpainting ( http://arxiv.org/abs/2302.14362v1 )

ライセンス: Link先を確認
Sangjin Lee, Suhwan Cho, Sangyoun Lee(参考訳) 近年,deep video inpainting (vi) アルゴリズムを用いて,映像から物体を取り除き,消去領域を埋め込む手法が注目されている。 通常、このタスクの入力には、すべてのフレームに対するビデオシーケンスとオブジェクトセグメンテーションマスクが必要である。 しかし、現実世界のアプリケーションでは、すべてのフレームにセグメンテーションマスクを提供することは非常に困難で非効率です。 そこで我々は、初期フレームのオブジェクトマスクのみを入力として、VIをワンショットで処理する。 ビデオオブジェクトセグメンテーション(VOS)とVIメソッドの単純な組み合わせで実現できるが、それらは準最適であり、一般的に致命的なエラーを引き起こす。 そこで我々は,one-shot video inpainting (osvi) のための統一パイプラインを提案する。 マスク予測とビデオ補完をエンドツーエンドで共同学習することで、各モジュールではなくタスク全体に対して最適な結果が得られる。 さらに, 予測マスクを地中真理の手がかりとして用いる2段階の手法とは異なり, 予測マスクをネットワークの内部ガイダンスとして用いることができるため, 本手法は信頼性が高い。 osvi用の合成データセットについて,提案手法は定量的および定性的に他手法よりも優れている。

Recently, removing objects from videos and filling in the erased regions using deep video inpainting (VI) algorithms has attracted considerable attention. Usually, a video sequence and object segmentation masks for all frames are required as the input for this task. However, in real-world applications, providing segmentation masks for all frames is quite difficult and inefficient. Therefore, we deal with VI in a one-shot manner, which only takes the initial frame's object mask as its input. Although we can achieve that using naive combinations of video object segmentation (VOS) and VI methods, they are sub-optimal and generally cause critical errors. To address that, we propose a unified pipeline for one-shot video inpainting (OSVI). By jointly learning mask prediction and video completion in an end-to-end manner, the results can be optimal for the entire task instead of each separate module. Additionally, unlike the two stage methods that use the predicted masks as ground truth cues, our method is more reliable because the predicted masks can be used as the network's internal guidance. On the synthesized datasets for OSVI, our proposed method outperforms all others both quantitatively and qualitatively.
翻訳日:2023-03-01 17:49:27 公開日:2023-02-28
# Rideshare Marketplaceの均衡と効率のための統一表現フレームワーク

A Unified Representation Framework for Rideshare Marketplace Equilibrium and Efficiency ( http://arxiv.org/abs/2302.14358v1 )

ライセンス: Link先を確認
Alex Chin and Zhiwei Qin(参考訳) ライドシェアリングプラットフォームは、‘サプライド・デマンド・バランス’が市場効率にとって重要でありながら、定義と分析が複雑である両面市場の一種である。 配車市場の需給時空間状態と効率を定量化するためのグラフベースの均衡指標(GEM)に基づく統合分析フレームワークを提案する。 GEMは配車市場における需要分布と需給分布の一般化されたワッサースタイン距離として開発され、需給アライメントを改善するアルゴリズムの評価指標として利用されている。 GEMを基盤として、ライドシェア市場均衡の二重パースペクティブ(供給側および需要側)表現であるSD-GEMを開発する。 この2つの視点の間にはしばしば相違があり、この双対視点が市場効率の概念にどのようにつながるのかを検証し、改善を捉え、基礎となる要因を説明するための新しい統計テストを提案する。

Ridesharing platforms are a type of two-sided marketplace where ``supply-demand balance'' is critical for market efficiency and yet is complex to define and analyze. We present a unified analytical framework based on the graph-based equilibrium metric (GEM) for quantifying the supply-demand spatiotemporal state and efficiency of a ridesharing marketplace. GEM was developed as a generalized Wasserstein distance between the supply and demand distributions in a ridesharing market and has been used as an evaluation metric for algorithms expected to improve supply-demand alignment. Building upon GEM, we develop SD-GEM, a dual-perspective (supply- and demand-side) representation of rideshare market equilibrium. We show that there are often disparities between the two views and examine how this dual-view leads to the notion of market efficiency, in which we propose novel statistical tests for capturing improvement and explaining the underlying driving factors.
翻訳日:2023-03-01 17:49:07 公開日:2023-02-28
# rnn-tにおけるトークンワイズビーム探索アルゴリズム

A Token-Wise Beam Search Algorithm for RNN-T ( http://arxiv.org/abs/2302.14357v1 )

ライセンス: Link先を確認
Gil Keren(参考訳) 音声認識のための標準リカレントニューラルネットワークトランスデューサ(RNN-T)復号アルゴリズムは、次のタイムステップに移行する前に1つのタイムステップがデコードされるように、時間軸上で反復される。 これらのアルゴリズムは、以前の研究で示されていた、復号速度を低下させる重要な要因であるジョイントネットワークへの多数の呼び出しをもたらす。 提案手法では,接続ネットワークコールを複数の時間ステップにまたがってバッチ化するデコードビーム探索アルゴリズムを提案し,その結果,すべてのモデルと実験した設定に対して,40%~70%のデコードスピードアップを実現した。 さらに,セグメント上でのエミッション確率の集約は,最も可能性の高いモデル出力の探索に適しており,セグメントサイズが大きくなるにつれて,オラクル単語の誤り率を最大10%向上させ,一般単語の誤り率をわずかに向上させる。

Standard Recurrent Neural Network Transducers (RNN-T) decoding algorithms for speech recognition are iterating over the time axis, such that one time step is decoded before moving on to the next time step. Those algorithms result in a large number of calls to the joint network, that were shown in previous work to be an important factor that reduces decoding speed. We present a decoding beam search algorithm that batches the joint network calls across a segment of time steps, which results in 40%-70% decoding speedups, consistently across all models and settings experimented with. In addition, aggregating emission probabilities over a segment may be seen as a better approximation to finding the most likely model output, causing our algorithm to improve oracle word error rate by up to 10% relative as the segment size increases, and to slightly improve general word error rate.
翻訳日:2023-03-01 17:48:50 公開日:2023-02-28
# 画像分類とGrad-CAMを用いたイランの文化遺産建造物の保存性に関する深層学習

Deep Learning for Identifying Iran's Cultural Heritage Buildings in Need of Conservation Using Image Classification and Grad-CAM ( http://arxiv.org/abs/2302.14354v1 )

ライセンス: Link先を確認
Mahdi Bahrami and Amir Albadvi(参考訳) 文化遺産建造物(CHB)は人類の歴史とアイデンティティの一部であり、常に被害の危険にさらされている。 そうは言っても、新しい方法で存在する、あるいは推定される欠陥を特定して、修復プロセスを適宜かつ高い精度で行えるようにすることで、それらを保存することが最も重要である。 この研究の主な目標は、イランのような発展途上国では特に無視されてきた、新しい深層学習(dl)手法(chb)を、手動で、さらには直接の人的監督を必要とする古式な手法で保存することである。 画像処理におけるその効果と性能を実証したコンボリューショナルニューラルネットワーク(CNN)は,コンピュータビジョン(CV)リテラシーの基盤であり,この論文は例外ではない。 十分なchb画像が不足している場合には、cnnをスクラッチからトレーニングすることは非常に難しく、過剰フィッティングしがちです。そのため、私たちは、事前トレーニングされたresnet、mobilenet、inception networksを使った転送学習(tl)と呼ばれるテクニックを分類に使用することにしました。 さらに、Grad-CAMは欠陥をある程度ローカライズするために使用された。 最終結果は同様の研究結果に基づいて非常に好意的であった。 最後に提案されたモデルは、手動から無人のchb保存に移行する道を開くことができるため、精度が向上し、人間によるエラーが減少する。

The cultural heritage buildings (CHB), which are part of mankind's history and identity, are in constant danger of damage or in extreme situations total destruction. That being said, it's of utmost importance to preserve them by identifying the existent, or presumptive, defects using novel methods so that renovation processes can be done in a timely manner and with higher accuracy. The main goal of this research is to use new deep learning (DL) methods in the process of preserving CHBs (situated in Iran); a goal that has been neglected especially in developing countries such as Iran, as these countries still preserve their CHBs using manual, and even archaic, methods that need direct human supervision. Having proven their effectiveness and performance when it comes to processing images, the convolutional neural networks (CNN) are a staple in computer vision (CV) literacy and this paper is not exempt. When lacking enough CHB images, training a CNN from scratch would be very difficult and prone to overfitting; that's why we opted to use a technique called transfer learning (TL) in which we used pre-trained ResNet, MobileNet, and Inception networks, for classification. Even more, the Grad-CAM was utilized to localize the defects to some extent. The final results were very favorable based on those of similar research. The final proposed model can pave the way for moving from manual to unmanned CHB conservation, hence an increase in accuracy and a decrease in human-induced errors.
翻訳日:2023-03-01 17:48:33 公開日:2023-02-28
# グラフ畳み込みネットワークに対する意味的バックドア攻撃

A semantic backdoor attack against Graph Convolutional Networks ( http://arxiv.org/abs/2302.14353v1 )

ライセンス: Link先を確認
Jiazhu Dai, Zhipeng Xiong(参考訳) グラフ畳み込みネットワーク(GCN)は、ノード分類やグラフ分類など、様々なグラフ構造化タスクの問題に対処するのに非常に効果的である。 しかし、広範な研究により、GCNは敵の攻撃に弱いことが示されている。 GCNが直面しているセキュリティ上の脅威の1つは、モデルに誤った分類規則を隠蔽し、特定の特徴を含む特定の入力(例えば、トリガーと呼ばれるサブグラフのような固定されたパターン)に遭遇したときのみアクティベートするバックドア攻撃である。 セマンティクスバックドアアタック(semantic backdoor attack)は、トリガがサンプルのセマンティクス部分であるバックドアアタックの一種である。すなわち、トリガは元のデータセットに自然に存在するもので、攻撃者はバックドアアタックとして自然に発生する特徴を選択できる。 一方、通常のサンプルと比較して異常がないため、攻撃者が推論フェーズで入力サンプルを修正しても検出が困難である。 したがって、セマンティクスバックドア攻撃は非セマンティクス攻撃よりも不可避である。 しかし、セマンティックバックドア攻撃の研究は、GCNに対して十分に研究されていない画像とテキストドメインのみに焦点を当てている。 本稿では,gcnsに対するblack-box semantic backdoor attack (sba)を提案する。 我々は、データセット内の特定のノードのクラスとしてトリガーを割り当て、トリガーはセマンティックです。 実世界のベンチマークグラフデータセットの評価を通じて, 提案したSBAは, 通常の予測精度に影響を与えることなく, 5%未満の毒性率で攻撃成功率をほぼ100%達成できることを示した。

Graph Convolutional Networks (GCNs) have been very effective in addressing the issue of various graph-structured related tasks, such as node classification and graph classification. However, extensive research has shown that GCNs are vulnerable to adversarial attacks. One of the security threats facing GCNs is the backdoor attack, which hides incorrect classification rules in models and activates only when the model encounters specific inputs containing special features (e.g., fixed patterns like subgraphs, called triggers), thus outputting incorrect classification results, while the model behaves normally on benign samples. The semantic backdoor attack is a type of the backdoor attack where the trigger is a semantic part of the sample; i.e., the trigger exists naturally in the original dataset and the attacker can pick a naturally occurring feature as the backdoor trigger, which causes the model to misclassify even unmodified inputs. Meanwhile, it is difficult to detect even if the attacker modifies the input samples in the inference phase as they do not have any anomaly compared to normal samples. Thus, semantic backdoor attacks are more imperceptible than non-semantic ones. However, existed research on semantic backdoor attacks has only focused on image and text domains, which have not been well explored against GCNs. In this work, we propose a black-box Semantic Backdoor Attack (SBA) against GCNs. We assign the trigger as a certain class of nodes in the dataset and our trigger is semantic. Through evaluation on several real-world benchmark graph datasets, the experimental results demonstrate that our proposed SBA can achieve almost 100% attack success rate under the poisoning rate less than 5% while having no impact on normal predictive accuracy.
翻訳日:2023-03-01 17:48:05 公開日:2023-02-28
# グループ活動認識のための知識拡張関係推論

Knowledge Augmented Relation Inference for Group Activity Recognition ( http://arxiv.org/abs/2302.14350v1 )

ライセンス: Link先を確認
Xianglong Lang, Zhuming Wang, Zun Li, Meng Tian, Ge Shi, Lifang Wu(参考訳) 既存のグループ活動認識手法の多くは、単に視覚表現に基づく時空間関係を構築している。 いくつかのメソッドでは、アクションラベルのような余分な知識を導入して意味関係を構築し、視覚的なプレゼンテーションを洗練させる。 しかし、彼らが探求した知識は意味レベルにとどまるだけで、これは顕著な精度の浄化には不十分である。 本稿では,グループ活動認識のための知識の活用と,その知識を効果的に活用して個々の表現を改善する新しい知識拡張関係推論フレームワークの開発を提案する。 具体的には、個々の外観特徴を抽出する視覚表現モジュールと、個々のアクションのセマンティック表現を探索する知識拡張セマンティック・リレーション・モジュールと、その知識による視覚情報とセマンティック情報の統合を目的とした知識・セマンティック・インタラクション・モジュールから構成される。 これらのモジュールの利点を生かして,提案フレームワークは知識を活用して関係推論プロセスと個々人の表現を強化し,グループ行動認識の性能を向上させる。 2つの公開データセットによる実験結果から,提案手法は最先端の手法と比較して競争性能が向上することが示された。

Most existing group activity recognition methods construct spatial-temporal relations merely based on visual representation. Some methods introduce extra knowledge, such as action labels, to build semantic relations and use them to refine the visual presentation. However, the knowledge they explored just stay at the semantic-level, which is insufficient for pursing notable accuracy. In this paper, we propose to exploit knowledge concretization for the group activity recognition, and develop a novel Knowledge Augmented Relation Inference framework that can effectively use the concretized knowledge to improve the individual representations. Specifically, the framework consists of a Visual Representation Module to extract individual appearance features, a Knowledge Augmented Semantic Relation Module explore semantic representations of individual actions, and a Knowledge-Semantic-Visual Interaction Module aims to integrate visual and semantic information by the knowledge. Benefiting from these modules, the proposed framework can utilize knowledge to enhance the relation inference process and the individual representations, thus improving the performance of group activity recognition. Experimental results on two public datasets show that the proposed framework achieves competitive performance compared with state-of-the-art methods.
翻訳日:2023-03-01 17:47:16 公開日:2023-02-28
# 都市間ネットワークにおける非同期計測デバイス非依存量子鍵分布の利点

Advantages of Asynchronous Measurement-Device-Independent Quantum Key Distribution in Intercity Networks ( http://arxiv.org/abs/2302.14349v1 )

ライセンス: Link先を確認
Yuan-Mei Xie, Jun-Lin Bai, Yu-Shuo Lu, Chen-Xun Weng, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 測定デバイス非依存量子鍵分布(MDI-QKD)や非同期MDI-QKD、モードペアリングMDI-QKDは、同様のリピータライクなレートロススケーリングを提供するが、革新的なポスト測定ペアリング技術を活用することで、単純な技術実装の利点を享受できる。 本稿では,デコイ状態非同期MDI-QKDの実用的側面の評価を行う。 そこで本研究では,非対称チャネルとマルチユーザネットワークの影響を解析し,デコイ状態計算の最適手法について検討する。 シミュレーションの結果,MDI-QKDは実環境下では50kmから480kmの範囲で他のQKDプロトコルと比較して,MDIセキュリティの鍵レートが最も高いことがわかった。 ファイバ距離は50 kmと100 kmで、それぞれ6.02 Mbpsと2.29 Mbpsであり、リアルタイムのワンタイムパッドビデオ暗号化を容易にするのに十分である。 その結果,都市間ネットワークにおける非同期MDI-QKDの実験的実装は,実用的かつ効率的であることが示唆された。

The new variant of measurement-device-independent quantum key distribution (MDI-QKD), asynchronous MDI-QKD or called mode-pairing MDI-QKD, offers similar repeater-like rate-loss scaling but has the advantage of simple technology implementation by exploiting an innovative post-measurement pairing technique. We herein present an evaluation of the practical aspects of decoy-state asynchronous MDI-QKD. To determine its effectiveness, we analyze the optimal method of decoy-state calculation and examine the impact of asymmetrical channels and multi-user networks. Our simulations show that, under realistic conditions, aynchronous MDI-QKD can furnish the highest key rate with MDI security as compared to other QKD protocols over distances ranging from 50 km to 480 km. At fiber distances of 50 km and 100 km, the key rates attain 6.02 Mbps and 2.29 Mbps respectively, which are sufficient to facilitate real-time one-time-pad video encryption. Our findings indicate that experimental implementation of asynchronous MDI-QKD in intercity networks can be both practical and efficient.
翻訳日:2023-03-01 17:46:50 公開日:2023-02-28
# im2hands: 相互作用する両手形状の注意深い暗黙表現

Im2Hands: Learning Attentive Implicit Representation of Interacting Two-Hand Shapes ( http://arxiv.org/abs/2302.14348v1 )

ライセンス: Link先を確認
Jihyun Lee, Minhyuk Sung, Honggyu Choi, Tae-Kyun Kim(参考訳) 2つの相互作用する手の最初の神経的な表現である暗黙的な2つの手(im2hands)を提示する。 パラメトリックハンドモデルと/または低分解能メッシュに依存する既存の両手再構成法とは異なり、Im2Handsは両手高精細な形状を高精細に再現できる。 両手間の形状の複雑さと相互作用のコンテキストを扱うために、Im2Handsは、RGBイメージと粗い3Dキーポイントに設定された両手の占有量を、(1)初期占有率推定と(2)文脈認識占有率改善に責任を負う2つの新しい注意ベースのモジュールによってモデル化する。 Im2Handsはまず、クエリ・イメージ・アテンションを用いて、各手で設計された標準空間において、手動のニューラルネットワークによる占有を学習する。 その後、ポーズ空間における最初の両手の占有を洗練し、クエリアンカーの注意を使って両手の形状間の一貫性を高める。 さらに,単一画像再構成シナリオにおいて,予測した手指キーポイントからロバストな2手形状推定を可能にするキーポイントリファインメントモジュールを提案する。 筆者らは,im2ハンドの両手再建における効果を実験により実証し,本手法が最先端の結果を得る方法と比較した。 私たちのコードはhttps://github.com/jyunlee/im2handsで公開されています。

We present Implicit Two Hands (Im2Hands), the first neural implicit representation of two interacting hands. Unlike existing methods on two-hand reconstruction that rely on a parametric hand model and/or low-resolution meshes, Im2Hands can produce fine-grained geometry of two hands with high hand-to-hand and hand-to-image coherency. To handle the shape complexity and interaction context between two hands, Im2Hands models the occupancy volume of two hands - conditioned on an RGB image and coarse 3D keypoints - by two novel attention-based modules responsible for (1) initial occupancy estimation and (2) context-aware occupancy refinement, respectively. Im2Hands first learns per-hand neural articulated occupancy in the canonical space designed for each hand using query-image attention. It then refines the initial two-hand occupancy in the posed space to enhance the coherency between the two hand shapes using query-anchor attention. In addition, we introduce an optional keypoint refinement module to enable robust two-hand shape estimation from predicted hand keypoints in a single-image reconstruction scenario. We experimentally demonstrate the effectiveness of Im2Hands on two-hand reconstruction in comparison to related methods, where ours achieves state-of-the-art results. Our code is publicly available at https://github.com/jyunlee/Im2Hands.
翻訳日:2023-03-01 17:46:29 公開日:2023-02-28
# 点集合用サンプル変圧器

Sampled Transformer for Point Sets ( http://arxiv.org/abs/2302.14346v1 )

ライセンス: Link先を確認
Shidi Li, Christian Walder, Alexander Soen, Lexing Xie, Miaomiao Liu(参考訳) スパース変換器は、連続列列列関数の普遍近似器でありながら、自己アテンション層の計算複雑性を$O(n)$に下げることができる。 しかし、この置換変種演算は集合への直接適用には適さない。 本稿では,余分な帰納バイアスを伴わずに点集合要素を直接処理できる$O(n)$複雑性サンプリング変換器を提案する。 サンプル変換器はランダム要素サンプリングを導入し, ランダムに点集合をサブセットに分割し, その後, 各サブセットに共有ハミルトン自己アテンション機構を適用する。 全体のアテンション機構は完全なアテンショングラフにおいてハミルトニアンサイクルと見なすことができ、点集合要素の置換はランダムにサンプリングされたハミルトニアンサイクルと等価である。 このメカニズムは、O(n^2)$高密度注意接続のモンテカルロシミュレーションを実装している。 連続的な集合対集合関数に対する普遍近似であることを示す。 点雲実験の結果、高密度変圧器や別のスパースアテンション方式と比較して計算複雑性を著しく低減し、比較または精度が向上した。

The sparse transformer can reduce the computational complexity of the self-attention layers to $O(n)$, whilst still being a universal approximator of continuous sequence-to-sequence functions. However, this permutation variant operation is not appropriate for direct application to sets. In this paper, we proposed an $O(n)$ complexity sampled transformer that can process point set elements directly without any additional inductive bias. Our sampled transformer introduces random element sampling, which randomly splits point sets into subsets, followed by applying a shared Hamiltonian self-attention mechanism to each subset. The overall attention mechanism can be viewed as a Hamiltonian cycle in the complete attention graph, and the permutation of point set elements is equivalent to randomly sampling Hamiltonian cycles. This mechanism implements a Monte Carlo simulation of the $O(n^2)$ dense attention connections. We show that it is a universal approximator for continuous set-to-set functions. Experimental results on point-clouds show comparable or better accuracy with significantly reduced computational complexity compared to the dense transformer or alternative sparse attention schemes.
翻訳日:2023-03-01 17:46:01 公開日:2023-02-28
# 部分方向図形モデルの向き付けのための実践的アルゴリズム

Practical Algorithms for Orientations of Partially Directed Graphical Models ( http://arxiv.org/abs/2302.14386v1 )

ライセンス: Link先を確認
Malte Luttermann, Marcel Wien\"obst, Maciej Li\'skiewicz(参考訳) 観測研究において、真の因果モデルは通常不明であり、利用可能な観測データと限られた実験データから推定する必要がある。 このような場合、学習因果モデルは通常、ランダム変数間の因果関係の不確実性を示す有向エッジと無向エッジの両方を含む部分有向非巡回グラフ(PDAG)として表現される。 本稿の主な焦点は、与えられたPDAGに対して、結果のグラフが入力PDAGと同じマルコフ等価なDAGを表すように、無向エッジを最大に配向することを目的とする、最大配向タスクである。 このタスクは因果発見に頻繁に使用されるサブルーチンである。 g. は、有名なPCアルゴリズムの最終段階である。 PDAGの一貫したDAG拡張を求める問題への接続を利用して、PDAGを拡張するための2つの新しいアプローチを提案することにより、PDAGの最大方向を計算するためのより高速なアルゴリズムを導出する。

In observational studies, the true causal model is typically unknown and needs to be estimated from available observational and limited experimental data. In such cases, the learned causal model is commonly represented as a partially directed acyclic graph (PDAG), which contains both directed and undirected edges indicating uncertainty of causal relations between random variables. The main focus of this paper is on the maximal orientation task, which, for a given PDAG, aims to orient the undirected edges maximally such that the resulting graph represents the same Markov equivalent DAGs as the input PDAG. This task is a subroutine used frequently in causal discovery, e. g., as the final step of the celebrated PC algorithm. Utilizing connections to the problem of finding a consistent DAG extension of a PDAG, we derive faster algorithms for computing the maximal orientation by proposing two novel approaches for extending PDAGs, both constructed with an emphasis on simplicity and practical effectiveness.
翻訳日:2023-03-01 17:39:16 公開日:2023-02-28
# 意味の線形空間:VLMの構成言語

Linear Spaces of Meanings: the Compositional Language of VLMs ( http://arxiv.org/abs/2302.14383v1 )

ライセンス: Link先を確認
Matthew Trager, Pramuditha Perera, Luca Zancato, Alessandro Achille, Parminder Bhatia, Bing Xiang, Stefano Soatto(参考訳) 事前学習された視覚言語モデル(vlms)からのベクトルデータ埋め込みにおける構成構造について検討する。 伝統的に、構成性は既存の語彙からの単語の埋め込みに関する代数的操作と関連付けられている。 対照的に、テキストエンコーダからのラベル表現を埋め込み空間内のベクトルの小さな集合の組み合わせとして近似することを模索する。 これらのベクトルは「理想語」と見なすことができ、新しい概念を効率的に生成することができる。 本稿では,線形構成性の理解,数学的表現論との結びつき,および従来の絡み合いの定義に関する理論的枠組みを提案する。 我々は、理想語が合成概念のよい合成近似を提供し、同じ概念のトークンベース分解よりも効果的であるという理論的および実証的な証拠を提供する。

We investigate compositional structures in vector data embeddings from pre-trained vision-language models (VLMs). Traditionally, compositionality has been associated with algebraic operations on embeddings of words from a pre-existing vocabulary. In contrast, we seek to approximate label representations from a text encoder as combinations of a smaller set of vectors in the embedding space. These vectors can be seen as "ideal words" which can be used to generate new concepts in an efficient way. We present a theoretical framework for understanding linear compositionality, drawing connections with mathematical representation theory and previous definitions of disentanglement. We provide theoretical and empirical evidence that ideal words provide good compositional approximations of composite concepts and can be more effective than token-based decompositions of the same concepts.
翻訳日:2023-03-01 17:38:59 公開日:2023-02-28
# gnot: 演算子学習のための一般ニューラルネットワークトランスフォーマー

GNOT: A General Neural Operator Transformer for Operator Learning ( http://arxiv.org/abs/2302.14376v1 )

ライセンス: Link先を確認
Zhongkai Hao, Chengyang Ying, Zhengyi Wang, Hang Su, Yinpeng Dong, Songming Liu, Ze Cheng, Jun Zhu, Jian Song(参考訳) 偏微分方程式(pdes)解演算子の学習は、機械学習において不可欠な問題である。 しかし、不規則メッシュ、複数入力関数、PDEの解の複雑さなど、実践的な応用における演算子学習にはいくつかの課題がある。 そこで本研究では,学習操作者のためのスケーラブルで効果的なトランスフォーマーフレームワークであるgeneral neural operator transformer (gnot)を提案する。 新規な異種正規化アテンション層を設計することにより、複数の入力関数や不規則メッシュを扱うことができる。 また,マルチスケール問題を解くためにソフトドメイン分解と見なすことのできる幾何学的ゲーティング機構を導入する。 トランスフォーマーアーキテクチャの大規模モデルキャパシティは,大規模データセットへのスケール可能性と実用上の問題をモデルに与えます。 異なる領域の複数の挑戦的データセットを広範囲に実験し,代替手法と比較して著しく改善した。

Learning partial differential equations' (PDEs) solution operators is an essential problem in machine learning. However, there are several challenges for learning operators in practical applications like the irregular mesh, multiple input functions, and complexity of the PDEs' solution. To address these challenges, we propose a general neural operator transformer (GNOT), a scalable and effective transformer-based framework for learning operators. By designing a novel heterogeneous normalized attention layer, our model is highly flexible to handle multiple input functions and irregular mesh. Besides, we introduce a geometric gating mechanism which could be viewed as a soft domain decomposition to solve the multi-scale problems. The large model capacity of transformer architecture grants our model the possibility to scale to large datasets and practical problems. We conduct extensive experiments on multiple challenging datasets from different domains and achieve a remarkable improvement compared with alternative methods.
翻訳日:2023-03-01 17:38:49 公開日:2023-02-28
# オフライン強化学習のためのサンプル内ソフトマックス

The In-Sample Softmax for Offline Reinforcement Learning ( http://arxiv.org/abs/2302.14372v1 )

ライセンス: Link先を確認
Chenjun Xiao, Han Wang, Yangchen Pan, Adam White, Martha White(参考訳) 強化学習(RL)エージェントは、以前に収集したデータのバッチを利用して合理的な制御ポリシーを抽出することができる。 しかし、このオフラインRL設定における新たな問題は、我々のメソッドの多くの基盤となるブートストラップ更新が、不十分なアクションカバレッジに悩まされていることである。 これらの不正確な値からのブートストラッピングは、過大評価や分散につながる可能性がある。 データセットでよくカバーされたアクションのみを使用する \emph{in-sample} maxを近似しようとするメソッドが増えている。 データセット内のアクションのみを使用して、サンプル内 \emph{softmax} を近似することはより簡単である。 本研究は, サンプル内ソフトマックスに基づく政策反復が収束し, 温度低下のためにサンプル内最大値に近づくことを示す。 In-Sample Actor-Critic (AC) をこのインサンプルソフトマックスを用いて導き、既存のオフラインRL法と一貫して良いか同等かを示し、微調整にも適していることを示す。

Reinforcement learning (RL) agents can leverage batches of previously collected data to extract a reasonable control policy. An emerging issue in this offline RL setting, however, is that the bootstrapping update underlying many of our methods suffers from insufficient action-coverage: standard max operator may select a maximal action that has not been seen in the dataset. Bootstrapping from these inaccurate values can lead to overestimation and even divergence. There are a growing number of methods that attempt to approximate an \emph{in-sample} max, that only uses actions well-covered by the dataset. We highlight a simple fact: it is more straightforward to approximate an in-sample \emph{softmax} using only actions in the dataset. We show that policy iteration based on the in-sample softmax converges, and that for decreasing temperatures it approaches the in-sample max. We derive an In-Sample Actor-Critic (AC), using this in-sample softmax, and show that it is consistently better or comparable to existing offline RL methods, and is also well-suited to fine-tuning.
翻訳日:2023-03-01 17:38:34 公開日:2023-02-28
# CrossSpeech: 言語間音声合成のための話者非依存音響表現

CrossSpeech: Speaker-independent Acoustic Representation for Cross-lingual Speech Synthesis ( http://arxiv.org/abs/2302.14370v1 )

ライセンス: Link先を確認
Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, and Byeong-Yeol Kim(参考訳) 最近のTTS(text-to-speech)システムは、人間のレベル品質に顕著な一歩を踏み出したが、言語内TSよりも遅れた言語間TSラグの性能は向上した。 このギャップは主に、言語間TSにおける話者言語絡みの問題に根ざしている。 本稿では,音声特徴量レベルで話者と言語情報を効果的に分離することにより,言語間音声の質を向上させるクロスペアを提案する。 具体的には、CrossSpeechは音声生成パイプラインを話者非依存ジェネレータ(SIG)と話者依存ジェネレータ(SDG)に分解する。 SIGは、特定の話者分布に偏らない話者非依存の音響表現を生成する。 一方、SDGは話者属性を特徴付ける話者依存型音声変化をモデル化する。 各情報を別々に扱うことで、CrossSpeechは不整合話者と言語表現を得ることができる。 実験により,CrossSpeechは,特に話者の話者類似性において,言語間TSの大幅な改善を実現していることを確認した。

While recent text-to-speech (TTS) systems have made remarkable strides toward human-level quality, the performance of cross-lingual TTS lags behind that of intra-lingual TTS. This gap is mainly rooted from the speaker-language entanglement problem in cross-lingual TTS. In this paper, we propose CrossSpeech which improves the quality of cross-lingual speech by effectively disentangling speaker and language information in the level of acoustic feature space. Specifically, CrossSpeech decomposes the speech generation pipeline into the speaker-independent generator (SIG) and speaker-dependent generator (SDG). The SIG produces the speaker-independent acoustic representation which is not biased to specific speaker distributions. On the other hand, the SDG models speaker-dependent speech variation that characterizes speaker attributes. By handling each information separately, CrossSpeech can obtain disentangled speaker and language representations. From the experiments, we verify that CrossSpeech achieves significant improvements in cross-lingual TTS, especially in terms of speaker similarity to the target speaker.
翻訳日:2023-03-01 17:38:15 公開日:2023-02-28
# Rydberg Atom Graphsを用いた満足度問題の量子プログラミング

Quantum Programming of the Satisfiability Problem with Rydberg Atom Graphs ( http://arxiv.org/abs/2302.14369v1 )

ライセンス: Link先を確認
Seokho Jeong, Minhyuk Kim, Minki Hhan, and Jaewook Ahn(参考訳) 非決定論的多項式時間(NP)完全問題の解法を見つけることは、現在、量子情報科学において最重要となっている。 ここでは、Rydberg 原子を用いて、すべての NP 問題の一般的なプログラミングを可能にするプロトタイプNP完全問題である満足度 (3-SAT) 問題を解く(すなわち、プログラムし、解を得る)実験を行う。 3SAT問題のブール式は、Rydberg原子グラフのブロックド相互作用によってプログラムされ、その多体基底状態は実験的に取得され、与えられた3SAT問題のインスタンスの量子力学的満足度を決定する。

Finding a quantum computing method to solve nondeterministic polynomial time (NP)-complete problems is currently of paramount importance in quantum information science. Here an experiment is presented to demonstrate the use of Rydberg atoms to solve (i.e., to program and obtain the solution of) the satisfiability (3-SAT) problem, which is the prototypical NP-complete problem allowing general programming of all NP problems. Boolean expressions of the 3-SAT problem are programmed with the blockade interactions of Rydberg atom graphs and their many-body ground states are experimentally obtained, to determine the satisfiabilities of the given 3-SAT problem instances quantum mechanically.
翻訳日:2023-03-01 17:37:59 公開日:2023-02-28
# 拡散モデルの制御性向上に向けて

Towards Enhanced Controllability of Diffusion Models ( http://arxiv.org/abs/2302.14368v1 )

ライセンス: Link先を確認
Wonwoong Cho, Hareesh Ravi, Midhun Harikumar, Vinh Khuc, Krishna Kumar Singh, Jingwan Lu, David I. Inouye, Ajinkya Kale(参考訳) 雑音拡散モデルでは、リアルで高品質で多様な画像を生成することができる。 しかし、拡散モデルによる制御可能性と編集性の範囲はgansと比較して過小評価されている。 画像操作のためのganモデルの潜在空間に基づく手法に着想を得て,空間的コンテンツマスクとフラットなスタイル埋め込みという2つの潜在コードに基づく拡散モデルを訓練する。 拡散モデルの進行分節化過程の帰納的バイアスに基づき,空間構造マスクのポーズ・レイアウト情報とスタイルコードにおける意味・スタイル情報を符号化する。 条件付き入力間の依存性を許容するために,合成可能な拡散モデルからサンプリング手法を拡張する。 これにより、世代の品質が大幅に向上すると同時に、各潜在コードからのガイダンスの量と、それらの共同配布のコントロールも可能となる。 制御性をさらに高めるために,分別時間ステップに基づいて,構造やスタイル潜伏者の指導レベルを異にする。 従来の手法と比較して制御性が向上し,明示的なトレーニング目標がなければ,拡散モデルが効果的な画像操作,参照ベース画像翻訳,スタイル転送に活用できることを示す。

Denoising Diffusion models have shown remarkable capabilities in generating realistic, high-quality and diverse images. However, the extent of controllability and editability with diffusion models is underexplored relative to GANs. Inspired by techniques based on the latent space of GAN models for image manipulation, we propose to train a diffusion model conditioned on two latent codes, a spatial content mask and a flattened style embedding. We rely on the inductive bias of the progressive denoising process of diffusion models to encode pose/layout information in the spatial structure mask and semantic/style information in the style code. We extend the sampling technique from composable diffusion models to allow for some dependence between conditional inputs. This improves the quality of the generations significantly while also providing control over the amount of guidance from each latent code separately as well as from their joint distribution. To further enhance controllability, we vary the level of guidance for structure and style latents based on the denoising timestep. We observe more controllability compared to existing methods and show that without explicit training objectives, diffusion models can be leveraged for effective image manipulation, reference based image translation and style transfer.
翻訳日:2023-03-01 17:37:47 公開日:2023-02-28
# BrainBERT:脳内記録のための自己教師付き表現学習

BrainBERT: Self-supervised representation learning for intracranial recordings ( http://arxiv.org/abs/2302.14367v1 )

ライセンス: Link先を確認
Christopher Wang, Vighnesh Subramaniam, Adam Uri Yaari, Gabriel Kreiman, Boris Katz, Ignacio Cases, Andrei Barbu(参考訳) 我々は、脳内記録のための再利用可能なトランスフォーマー、brainbertを作成し、現代の表現学習アプローチを神経科学にもたらします。 NLPや音声認識と同様に、この変換器は複雑な概念の分類を可能にする。すなわち、非注釈のニューラルレコードの大きなコーパス上で、教師なしの方法で事前訓練することにより、より高精度で、はるかに少ないデータで、神経データを復号する。 提案手法は、新しい位置にある電極を持つ新しい被験者に一般化し、その表現が神経信号を頑健に歪めていることを示す非関連タスクに一般化する。 言語モデルが何を学ぶかを調べることで言語を研究できるnlpのように、このアプローチは脳のモデルが何を学ぶかによって脳を調べるための扉を開く。 この経路に沿った最初のステップとして、脳の様々な領域における計算の内在的な次元に関する新しい分析を実証する。 これらの表現を構築するために,ニューラルデータの超解像スペクトログラムを生成する手法と,マスキングによる音声の文脈表現を生成する手法を組み合わせた。 将来的には、表現学習を使うことで、より多くの概念が神経録音から切り離され、言語モデルのような脳をアンロックする可能性がある。

We create a reusable Transformer, BrainBERT, for intracranial recordings bringing modern representation learning approaches to neuroscience. Much like in NLP and speech recognition, this Transformer enables classifying complex concepts, i.e., decoding neural data, with higher accuracy and with much less data by being pretrained in an unsupervised manner on a large corpus of unannotated neural recordings. Our approach generalizes to new subjects with electrodes in new positions and to unrelated tasks showing that the representations robustly disentangle the neural signal. Just like in NLP where one can study language by investigating what a language model learns, this approach opens the door to investigating the brain by what a model of the brain learns. As a first step along this path, we demonstrate a new analysis of the intrinsic dimensionality of the computations in different areas of the brain. To construct these representations, we combine a technique for producing super-resolution spectrograms of neural data with an approach designed for generating contextual representations of audio by masking. In the future, far more concepts will be decodable from neural recordings by using representation learning, potentially unlocking the brain like language models unlocked language.
翻訳日:2023-03-01 17:37:30 公開日:2023-02-28
# RemoteTouch: 手触で没入型3Dビデオコミュニケーションを実現する

RemoteTouch: Enhancing Immersive 3D Video Communication with Hand Touch ( http://arxiv.org/abs/2302.14365v1 )

ライセンス: Link先を確認
Yizhong Zhang, Zhiqi Li, Sicheng Xu, Chong Li, Jiaolong Yang, Xin Tong, Baining Guo(参考訳) 最近の研究は没入型3dビデオ通信の視覚リアリズムを著しく改善している。 本研究は,手触り機能(「リモートハンドクラップ」)を付加することで,この没入感を高める手法を提案する。 本システムでは,各参加者は触覚フィードバックのある大きなスクリーンの前に座る。 ローカルの参加者はスクリーンに手を差し伸べ、リモートの参加者と手をたたくことができる。 リモートハンドタッチをエミュレートする上で重要な課題は、画面に触れるときの参加者の手と腕のリアルなレンダリングである。 手が画面に非常に近い場合、リアルレンダリングに必要なrgbdデータはもはや利用できない。 この課題に対処するため,利用者の手の二重表現を提案する。 我々の双対表現は、最近の画像ベースのレンダリングシステムで通常見られる高品質なレンダリングを保持するだけでなく、手がスクリーンに到達できるようにする。 これは、イメージベースモデルと3dジオメトリベースモデルの両方を含み、後者はサイドビューカメラで追跡される手骨格によって駆動されるためである。 さらに、双対表現は、手が画面に近づくにつれて、画像ベースと3dジオメトリベースのモデルの距離ベースの融合を提供する。 その結果、画像ベースと3次元幾何ベースのモデルが相互に強化され、現実的でシームレスなレンダリングにつながった。 本実験は,遠隔ユーザ間の一貫した接触体験を提供するとともに,3Dビデオ通信の没入感の向上を図っている。

Recent research advance has significantly improved the visual realism of immersive 3D video communication. In this work we present a method to further enhance this immersive experience by adding the hand touch capability ("remote hand clapping"). In our system, each meeting participant sits in front of a large screen with haptic feedback. The local participant can reach his hand out to the screen and perform hand clapping with the remote participant as if the two participants were only separated by a virtual glass. A key challenge in emulating the remote hand touch is the realistic rendering of the participant's hand and arm as the hand touches the screen. When the hand is very close to the screen, the RGBD data required for realistic rendering is no longer available. To tackle this challenge, we present a dual representation of the user's hand. Our dual representation not only preserves the high-quality rendering usually found in recent image-based rendering systems but also allows the hand to reach the screen. This is possible because the dual representation includes both an image-based model and a 3D geometry-based model, with the latter driven by a hand skeleton tracked by a side view camera. In addition, the dual representation provides a distance-based fusion of the image-based and 3D geometry-based models as the hand moves closer to the screen. The result is that the image-based and 3D geometry-based models mutually enhance each other, leading to realistic and seamless rendering. Our experiments demonstrate that our method provides consistent hand contact experience between remote users and improves the immersive experience of 3D video communication.
翻訳日:2023-03-01 17:37:10 公開日:2023-02-28
# グラディエント探索によるコヒーレントおよび非コヒーレント光による2レベルオープン量子系の量子ゲート生成

Quantum Gate Generation in Two-Level Open Quantum Systems by Coherent and Incoherent Photons Found with Gradient Search ( http://arxiv.org/abs/2302.14364v1 )

ライセンス: Link先を確認
Vadim Petruhanov and Alexander Pechen(参考訳) 本研究では,非コヒーレント光子によって形成される環境を,非コヒーレント制御によるオープン量子系制御の資源とみなす。 これらのコヒーレントおよび非コヒーレント制御によって決定される時間依存係数を持つGorini-Kossakowski-Sudarshan-Lindblad(GKSL)マスター方程式に従って進化する2レベルのオープン量子系に対して、時間依存のデコヒーレンス率$\gamma_k(t)$ (時間依存の非コヒーレント光子のスペクトル密度) を単一キュービットゲートの生成に活用する。 制御問題は目的関数の最小化として定式化され、これはGKSLマスター方程式の下で進化した4つの固定基底状態と、理想ゲート変換の下で進化した同じ4つの状態の間のヒルベルト=シュミットノルムの和である。 片方向の定数制御に対する目的関数の勾配の正確な式を得る。 その後の最適化は、勾配ノルムと反復の振動挙動をもたらす適応的なステップサイズを持つ勾配型アルゴリズムを用いて行われる。 ブロッホボールの様々な初期状態における最適軌道を計算する。 複素スティーフェル多様体上での量子ゲート生成と最適化の関係について論じる。 テスト例として、方法論を開発し、ユニタリゲートに適用する。 次のステップは、非単位過程の生成法とマルチレベル量子システムに適用することである。

In this work, we consider an environment formed by incoherent photons as a resource for controlling open quantum systems via an incoherent control. We exploit a coherent control in the Hamiltonian and an incoherent control in the dissipator which induces the time-dependent decoherence rates $\gamma_k(t)$ (via time-dependent spectral density of incoherent photons) for generation of single-qubit gates for a two-level open quantum system which evolves according to the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equation with time-dependent coefficients determined by these coherent and incoherent controls. The control problem is formulated as minimization of the objective functional, which is the sum of Hilbert-Schmidt norms between four fixed basis states evolved under the GKSL master equation with controls and the same four states evolved under the ideal gate transformation. The exact expression for the gradient of the objective functional with respect to piecewise constant controls is obtained. Subsequent optimization is performed using a gradient type algorithm with an adaptive step size that leads to oscillating behaviour of the gradient norm vs iterations. Optimal trajectories in the Bloch ball for various initial states are computed. A relation of quantum gate generation with optimization on complex Stiefel manifolds is discussed. We develop methodology and apply it here for unitary gates as a testing example. The next step is to apply the method for generation of non-unitary processes and to multi-level quantum systems.
翻訳日:2023-03-01 17:36:47 公開日:2023-02-28
# 複雑な放射歪補正下でのカメラアトリビューションの適応法

An Adaptive Method for Camera Attribution under Complex Radial Distortion Corrections ( http://arxiv.org/abs/2302.14409v1 )

ライセンス: Link先を確認
Andrea Montibeller and Fernando P\'erez-Gonz\'alez(参考訳) インカメラまたは外部カメラソフトウェア/アサートウェアで適用された放射補正歪みは、PRNUベースのカメラ属性を妨げるために画像の支持格子を変更する。 この問題に対処する既存の解は、計算負荷を抑えるために数変数でパラメータ化された半径変換を用いて補正を反転・推定しようとするが、より一般的な複雑な歪み補正では、それらの性能は満足できない。 本稿では,Adobe Lightroom, Photoshop, Gimp, PT-Lensといったサードパーティ製ソフトウェアが適用したような高度な補正処理を,同心円錐に分割することで実現する適応アルゴリズムを提案する。 また,相関エネルギーの累積ピーク (CPCE) という統計手法を導入し,効率的な早期停止戦略を実現する。 カメラ内およびカメラ外ラジアル補正画像の大規模データセットにおける実験により,本ソリューションが精度と計算コストの両面で,芸術の状態を改善できることが確認された。

Radial correction distortion, applied by in-camera or out-camera software/firmware alters the supporting grid of the image so as to hamper PRNU-based camera attribution. Existing solutions to deal with this problem try to invert/estimate the correction using radial transformations parameterized with few variables in order to restrain the computational load; however, with ever more prevalent complex distortion corrections their performance is unsatisfactory. In this paper we propose an adaptive algorithm that by dividing the image into concentric annuli is able to deal with sophisticated corrections like those applied out-camera by third party software like Adobe Lightroom, Photoshop, Gimp and PT-Lens. We also introduce a statistic called cumulative peak of correlation energy (CPCE) that allows for an efficient early stopping strategy. Experiments on a large dataset of in-camera and out-camera radially corrected images show that our solution improves the state of the art in terms of both accuracy and computational cost.
翻訳日:2023-03-01 17:31:06 公開日:2023-02-28
# 一様帯域とガウス帯域に対する漸近的最適トンプソンサンプリング法

Asymptotically Optimal Thompson Sampling Based Policy for the Uniform Bandits and the Gaussian Bandits ( http://arxiv.org/abs/2302.14407v1 )

ライセンス: Link先を確認
Jongyeong Lee, Chao-Kai Chiang, Masashi Sugiyama(参考訳) パラメトリック確率的マルチアームバンディットのためのトンプソンサンプリング(TS)は、一次元パラメトリックモデルの下でよく研究されている。 TSは、後悔の境界に関して、前者の選択にかなり敏感であるとしばしば報告されている。 しかし、この性質は、例えば、未知の平均と分散パラメータを持つガウスモデルなど、多パラメータモデルを考える場合に必ずしも当てはまらない。 本稿ではまず, ts の後悔解析を, 未知の支持を持つ一様分布のモデルに拡張する。 具体的には,非インフォーマティブプライオリティの切り替えが,期待の後悔に大きく影響することを示す。 我々の分析により、一様事前は、期待される後悔の観点で最適選択であることが証明され、一方、参照先行とジェフリー先行は、ガウス分布のモデルにおける以前の発見と一致する準最適であることが判明した。 しかし、一様事前は分布のパラメータ化に特有であり、もしエージェントが同じモデルの異なるパラメータ化を考慮すれば、一様事前を持つエージェントが必ずしも最適性能を達成するとは限らない。 この制限を考慮に入れ、我々はTS-T(TS with Truncation)と呼ばれる少し修正されたTSベースのポリシーを提案し、これはガウス分布と一様分布の漸近最適性を1対1のパラメータ化の下で不変な基準前とジェフリーズ前の基準を用いて達成することができる。 後方分布の前処理はts-tの鍵であり,後方分布のパラメータ空間に適応的切断法を加える。 シミュレーションの結果,ts-tは他の既知の最適方針と比較して有限時間水平線で最高の性能を示し,tsは不変前もって性能が低かった。

Thompson sampling (TS) for the parametric stochastic multi-armed bandits has been well studied under the one-dimensional parametric models. It is often reported that TS is fairly insensitive to the choice of the prior when it comes to regret bounds. However, this property is not necessarily true when multiparameter models are considered, e.g., a Gaussian model with unknown mean and variance parameters. In this paper, we first extend the regret analysis of TS to the model of uniform distributions with unknown supports. Specifically, we show that a switch of noninformative priors drastically affects the regret in expectation. Through our analysis, the uniform prior is proven to be the optimal choice in terms of the expected regret, while the reference prior and the Jeffreys prior are found to be suboptimal, which is consistent with previous findings in the model of Gaussian distributions. However, the uniform prior is specific to the parameterization of the distributions, meaning that if an agent considers different parameterizations of the same model, the agent with the uniform prior might not always achieve the optimal performance. In light of this limitation, we propose a slightly modified TS-based policy, called TS with Truncation (TS-T), which can achieve the asymptotic optimality for the Gaussian distributions and the uniform distributions by using the reference prior and the Jeffreys prior that are invariant under one-to-one reparameterizations. The pre-processig of the posterior distribution is the key to TS-T, where we add an adaptive truncation procedure on the parameter space of the posterior distributions. Simulation results support our analysis, where TS-T shows the best performance in a finite-time horizon compared to other known optimal policies, while TS with the invariant priors performs poorly.
翻訳日:2023-03-01 17:30:50 公開日:2023-02-28
# マルチモーダル・コラボレーティブ・ダイアログゲームにおける指示明確化要求:タスクとCoDrawデータセットの解析

Instruction Clarification Requests in Multimodal Collaborative Dialogue Games: Tasks, and an Analysis of the CoDraw Dataset ( http://arxiv.org/abs/2302.14406v1 )

ライセンス: Link先を確認
Brielen Madureira and David Schlangen(参考訳) ビジュアルインストラクションフォローの対話ゲームでは、プレイヤーは世界のアクションに完全にマッピングできない曖昧で不特定なインストラクションに直面して、修復メカニズムに関与することができる。 本研究では,マルチモーダル協調対話ゲームにおける既存のインタラクションデータセットであるCoDrawで,命令明確化要求(iCR)を注釈付けする。 本研究は,課題の解決に成功するために,プレイヤーが自己動機付けで作成した語彙的・意味論的に多様なiCRを含むことを示す。 9.9kの対話で8.8kのiCRが見つかると、CoDraw-iCR (v1)は大きな自発的iCRコーパスとなり、対話の明確化に関するデータ駆動研究の貴重な資源となる。 次に,2つのタスクのベースラインモデルを形式化し,提供する。 icrをいつ作成するか,どのように認識するかを判断し,これらのタスクがデータからどの程度学習可能かを調べる。

In visual instruction-following dialogue games, players can engage in repair mechanisms in face of an ambiguous or underspecified instruction that cannot be fully mapped to actions in the world. In this work, we annotate Instruction Clarification Requests (iCRs) in CoDraw, an existing dataset of interactions in a multimodal collaborative dialogue game. We show that it contains lexically and semantically diverse iCRs being produced self-motivatedly by players deciding to clarify in order to solve the task successfully. With 8.8k iCRs found in 9.9k dialogues, CoDraw-iCR (v1) is a large spontaneous iCR corpus, making it a valuable resource for data-driven research on clarification in dialogue. We then formalise and provide baseline models for two tasks: Determining when to make an iCR and how to recognise them, in order to investigate to what extent these tasks are learnable from data.
翻訳日:2023-03-01 17:30:16 公開日:2023-02-28
# 移住研究におけるソーシャルメディア分析の倫理

The Ethics of Social Media Analytics in Migration Studies ( http://arxiv.org/abs/2302.14404v1 )

ライセンス: Link先を確認
Jamie Mahoney, Kahina Le Louvier, Shaun Lawson(参考訳) ソーシャルメディアプラットフォームの普及と世界中での利用は、大規模な人々、特にそのプラットフォームの一部が大量の構造化データへのアクセスを提供している場合に、魅力的な選択肢となっている。 しかし、このデータの収集、保管、利用によって倫理的・法的責任が生じるため、移民のような社会集団を見つめる際には特に重要である。 ソーシャルメディアデータが最も倫理的に使用されるように、様々なガイドライン、枠組み、法律が開発されている。 しかし、ここ数年で急速に発展し、様々な分野や領域に散在している。 研究者がこれらの問題をナビゲートするのを助けるため、この章では、ソーシャルメディアプラットフォームによるマイグレーション研究の倫理的考察の概要を提供する。 関連する学術文献や国家的・超国家的枠組みや法律を基礎として,過去20年間にソーシャルメディア研究に関連する倫理的課題がどのように議論されてきたのかを考察し,その緩和のための実践例を概説する。 この概要は、移住関連の文脈におけるソーシャルメディア研究に関連する倫理的課題を考察し緩和するための理論的かつ実践的なツールを提供することを目的としている。

The prevalence of social media platforms and their use across the globe makes them attractive options for studying large groups of people, particularly when some of these platforms provide access to large amounts of structured data. However, with the collection, storage, and use of this data comes ethical and legal responsibilities, which are particularly important when looking at social groups such as migrants, who are often stigmatised and criminalised. Various guidelines, frameworks and laws have been developed to ensure social media data is used in the most ethical way. However, they have quickly evolved within the past few years and are scattered across various fields and domains. To help researchers navigate these issues, this chapter provides an overview of the ethical considerations of studying migration via social media platforms. Building on relevant academic literature, as well as national and supranational frameworks and legislations, we review how the main ethical issues related to social media research have been discussed in the past twenty years and outline good practice examples to mitigate them. This overview is designed to provide researchers with theoretical and practical tools to consider and mitigate the ethical challenges related to social media research in migration-related contexts.
翻訳日:2023-03-01 17:29:54 公開日:2023-02-28
# 異なる文脈でのニューラルビデオ圧縮

Neural Video Compression with Diverse Contexts ( http://arxiv.org/abs/2302.14402v1 )

ライセンス: Link先を確認
Jiahao Li, Bin Li, Yan Lu(参考訳) 任意のビデオコーデックにおいて、符号化効率は、エンコードされる現在の信号が、以前の再構成された信号から関連するコンテキストを見つけることができるかどうかに大きく依存する。 従来のコーデックは、多くのコンテキストを検証し、かなりのコードゲインをもたらすが、時間を要する。 しかし、新興のニューラルビデオコーデック(NVC)では、そのコンテキストはまだ限られており、圧縮比は低い。 本稿では,nvcを増大させるために,時間次元と空間次元の両方においてコンテキストの多様性を高めることを提案する。 まず、フレーム間の階層的な品質パターンを学習し、長期的かつ高品質な時間的コンテキストを充実させる。 さらに,光フローベースの符号化フレームワークの可能性を活かすため,グループ間の相互作用がコンテキストマイニングを改善するために提案されるグループベースのオフセット多様性を導入する。 さらに,本論文では,潜在表現を並列に符号化する際の空間空間の多様性を高めるために,クワッドツリーに基づく分割も導入している。 実験の結果, コーデックは従来のSOTA NVCよりも23.5%のビットレートを節約できることがわかった。 さらに、我々のコーデックは、PSNRの観点から、RGBとYUV420の色空間において、未開発の次世代コーデック/ECMを上回っています。 コードはhttps://github.com/microsoft/DCVCにある。

For any video codecs, the coding efficiency highly relies on whether the current signal to be encoded can find the relevant contexts from the previous reconstructed signals. Traditional codec has verified more contexts bring substantial coding gain, but in a time-consuming manner. However, for the emerging neural video codec (NVC), its contexts are still limited, leading to low compression ratio. To boost NVC, this paper proposes increasing the context diversity in both temporal and spatial dimensions. First, we guide the model to learn hierarchical quality patterns across frames, which enriches long-term and yet high-quality temporal contexts. Furthermore, to tap the potential of optical flow-based coding framework, we introduce a group-based offset diversity where the cross-group interaction is proposed for better context mining. In addition, this paper also adopts a quadtree-based partition to increase spatial context diversity when encoding the latent representation in parallel. Experiments show that our codec obtains 23.5% bitrate saving over previous SOTA NVC. Better yet, our codec has surpassed the under-developing next generation traditional codec/ECM in both RGB and YUV420 colorspaces, in terms of PSNR. The codes are at https://github.com/microsoft/DCVC.
翻訳日:2023-03-01 17:29:34 公開日:2023-02-28
# GLM-Dialog:知識基底対話生成のためのノイズ耐性事前学習

GLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue Generation ( http://arxiv.org/abs/2302.14401v1 )

ライセンス: Link先を確認
Jing Zhang, Xiaokang Zhang, Daniel Zhang-Li, Jifan Yu, Zijun Yao, Zeyao Ma, Yiqi Xu, Haohua Wang, Xiaohan Zhang, Nianyi Lin, Sunrui Lu, Juanzi Li, Jie Tang(参考訳) GLM-Dialogは大規模言語モデル(LLM)で、中国語で10Bのパラメータを持ち、サーチエンジンを用いて中国語の知識に基づく会話ができる。 glm-dialogは、有用な知識と騒がしい知識の両方を含む様々な外部知識を利用するための、適用可能な一連の技術を提供する。 GLM-Dialogをより公平に評価するために,複数デプロイされたボットとの同時会話を可能にする新たな評価手法を提案し,その性能を多次元メトリクスを用いて明示的に評価するのではなく,暗黙的に比較する。 モデルチェックポイントとソースコードの両方をリリースし、ユーザと対話するためのWeChatアプリケーションとしてデプロイします。 我々は,オープンソースモデルと信頼性のある対話評価システムの開発を促進するために,評価プラットフォームをオンラインで提供します。 短いテキストエンティティリンク、クエリ生成、有用な知識分類からなる、使い易いツールキットもリリースされ、多様なアプリケーションを可能にする。 すべてのソースコードはGithubで入手できる。

We present GLM-Dialog, a large-scale language model (LLM) with 10B parameters capable of knowledge-grounded conversation in Chinese using a search engine to access the Internet knowledge. GLM-Dialog offers a series of applicable techniques for exploiting various external knowledge including both helpful and noisy knowledge, enabling the creation of robust knowledge-grounded dialogue LLMs with limited proper datasets. To evaluate the GLM-Dialog more fairly, we also propose a novel evaluation method to allow humans to converse with multiple deployed bots simultaneously and compare their performance implicitly instead of explicitly rating using multidimensional metrics.Comprehensive evaluations from automatic to human perspective demonstrate the advantages of GLM-Dialog comparing with existing open source Chinese dialogue models. We release both the model checkpoint and source code, and also deploy it as a WeChat application to interact with users. We offer our evaluation platform online in an effort to prompt the development of open source models and reliable dialogue evaluation systems. The additional easy-to-use toolkit that consists of short text entity linking, query generation, and helpful knowledge classification is also released to enable diverse applications. All the source code is available on Github.
翻訳日:2023-03-01 17:29:10 公開日:2023-02-28
# 実用的コミュニケーションと制御のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Pragmatic Communication and Control ( http://arxiv.org/abs/2302.14399v1 )

ライセンス: Link先を確認
Federico Mason and Federico Chiariotti and Andrea Zanella and Petar Popovski(参考訳) 工場や製造プロセスの自動化はここ数年で加速しており、モバイル、フレキシブルエージェントによる多様なシナリオを含む業界4.0パラダイムによって加速されている。 移動ロボット間の効率的な協調は、しばしば厳しいタイミングで、非常にダイナミックな環境で信頼性の高い無線伝送を必要とする。 目標指向のコミュニケーションは、この問題に対して可能な解決策である: コミュニケーション決定は、ターゲット制御タスクに最適化されるべきであり、どのアクションをとるかを決めるのに最も関係のある情報を提供する。 制御の観点からは、ネットワーク制御設計は物理行動の最適化において通信障害を考慮に入れている。 本研究では,目標指向通信とネットワーク制御を組み合わせた協調設計を,CP-POMDP(Cyber-Physical POMDP)と呼ばれるマルチエージェントPOMDPの拡張として提案する。 このモデルは,複数のSwarmおよび協調シナリオを表現するのに十分柔軟であり,単一のエージェントと支持センサのセットによる2つの単純な参照シナリオでその可能性を説明する。 コミュニケーションと制御システムの合同トレーニングは、コミュニケーションが厳しく制約され、コミュニケーションアクションの暗黙の調整につながる場合、全体的なパフォーマンスを著しく改善することができる。

The automation of factories and manufacturing processes has been accelerating over the past few years, boosted by the Industry 4.0 paradigm, including diverse scenarios with mobile, flexible agents. Efficient coordination between mobile robots requires reliable wireless transmission in highly dynamic environments, often with strict timing requirements. Goal-oriented communication is a possible solution for this problem: communication decisions should be optimized for the target control task, providing the information that is most relevant to decide which action to take. From the control perspective, networked control design takes the communication impairments into account in its optmization of physical actions. In this work, we propose a joint design that combines goal-oriented communication and networked control into a single optimization model, an extension of a multiagent POMDP which we call Cyber-Physical POMDP (CP-POMDP). The model is flexible enough to represent several swarm and cooperative scenarios, and we illustrate its potential with two simple reference scenarios with a single agent and a set of supporting sensors. Joint training of the communication and control systems can significantly improve the overall performance, particularly if communication is severely constrained, and can even lead to implicit coordination of communication actions.
翻訳日:2023-03-01 17:28:52 公開日:2023-02-28
# adversarial variational auto-encoder warm-upによるアイテムコールドスタートレコメンデーション

Item Cold Start Recommendation via Adversarial Variational Auto-encoder Warm-up ( http://arxiv.org/abs/2302.14395v1 )

ライセンス: Link先を確認
Shenzheng Zhang, Qi Tan, Xinzhi Zheng, Yi Ren, Xu Zhao(参考訳) ランダムに初期化したアイテムIDの埋め込みとよく訓練されたウォームアイテムIDの埋め込みのギャップは、過去のウォームアイテムのデータに基づいてトレーニングされたレコメンデーションシステムに適合しにくくする。 新しい項目の推薦性能の低下を軽減するため、新しい項目IDの埋め込みの分布は、過去の温かい項目に近いものにすべきである。 この目的を達成するために,寒冷品に組み込むウォームアップアイテムIDを生成するためのAdversarial Variational Auto-Encoder Warm-up Model (AVAEW)を提案する。 具体的には,アイテムの側面情報を利用してウォームアップアイテムid埋め込みを生成する条件付き変分オートエンコーダモデルを開発した。 特に,暖房アイテムIDの埋め込み分布と履歴アイテムIDの埋め込み分布のアライメントを強制する対向モジュールを導入する。 大規模ニュースレコメンデーションプラットフォーム上で,公開データセットに対する大規模なオフライン実験とオンラインA/Bテストにより提案手法の有効性と適合性を示す。

The gap between the randomly initialized item ID embedding and the well-trained warm item ID embedding makes the cold items hard to suit the recommendation system, which is trained on the data of historical warm items. To alleviate the performance decline of new items recommendation, the distribution of the new item ID embedding should be close to that of the historical warm items. To achieve this goal, we propose an Adversarial Variational Auto-encoder Warm-up model (AVAEW) to generate warm-up item ID embedding for cold items. Specifically, we develop a conditional variational auto-encoder model to leverage the side information of items for generating the warm-up item ID embedding. Particularly, we introduce an adversarial module to enforce the alignment between warm-up item ID embedding distribution and historical item ID embedding distribution. We demonstrate the effectiveness and compatibility of the proposed method by extensive offline experiments on public datasets and online A/B tests on a real-world large-scale news recommendation platform.
翻訳日:2023-03-01 17:28:31 公開日:2023-02-28
# 時系列はバイナリイメージに価値がある: 時系列予測のためのマシンビジョン支援ディープフレームワーク

Your time series is worth a binary image: machine vision assisted deep framework for time series forecasting ( http://arxiv.org/abs/2302.14390v1 )

ライセンス: Link先を確認
Luoxiao Yang, Xinqi Fan, Zijun Zhang(参考訳) 時系列予測(tsf)は困難な研究分野であり、この課題に対処するために様々なモデルが開発されている。 しかし、これらのモデルのほとんどは数値時系列データで訓練されており、視覚情報ほど効果的には処理されない。 そこで本稿では,この課題に対処するために,mv-dtsa(deep time series analysis)フレームワークを提案する。 MV−DTSAフレームワークは、数値時系列空間からバイナリマシンビジョン空間への写像と逆マッピング関数を含む、新しいバイナリマシンビジョン時系列計量空間における時系列データを解析し、バイナリ空間におけるTLFタスクに対処するように設計されたディープマシンビジョンモデルを実行する。 包括的な計算分析により、MV-DTSAフレームワークは高度なデータ分解やモデルカスタマイズを必要とせず、最先端の深層TSFモデルより優れていることが示された。 私たちのフレームワークのコードはhttps://github.com/IkeYang/ machine-vision-assisted-deep-time-series-analysis-MV-DTSA-でアクセスできます。

Time series forecasting (TSF) has been a challenging research area, and various models have been developed to address this task. However, almost all these models are trained with numerical time series data, which is not as effectively processed by the neural system as visual information. To address this challenge, this paper proposes a novel machine vision assisted deep time series analysis (MV-DTSA) framework. The MV-DTSA framework operates by analyzing time series data in a novel binary machine vision time series metric space, which includes a mapping and an inverse mapping function from the numerical time series space to the binary machine vision space, and a deep machine vision model designed to address the TSF task in the binary space. A comprehensive computational analysis demonstrates that the proposed MV-DTSA framework outperforms state-of-the-art deep TSF models, without requiring sophisticated data decomposition or model customization. The code for our framework is accessible at https://github.com/IkeYang/ machine-vision-assisted-deep-time-series-analysis-MV-DTSA-.
翻訳日:2023-03-01 17:28:14 公開日:2023-02-28
# 情報制限型ニューラルランゲージモデルによる脳領域のセマンティクス・構文・文脈に対する感受性の解明

Information-Restricted Neural Language Models Reveal Different Brain Regions' Sensitivity to Semantics, Syntax and Context ( http://arxiv.org/abs/2302.14389v1 )

ライセンス: Link先を確認
Alexandre Pasquiou, Yair Lakretz, Bertrand Thirion, Christophe Pallier(参考訳) 神経言語学における基本的な問題は、語彙処理(単語処理)と超語彙処理(文文処理と談話処理)の両方において、音声理解における統語的および意味的処理に関わる脳領域に関するものである。 これらの領域はどの程度分離されているか? そこで我々は,構文情報と意味情報の両方を選択的に除去するテキストコーパスを用いて,語彙言語モデルGloveと超語彙言語モデルGPT-2を訓練した。 そして、これらの情報制限モデルが、自然言語テキストを聴く人間のfmri信号の時間経過を予測できる程度まで評価した。 また,gpt-2に提供された文脈情報のサイズを操作し,超語彙処理に関わる脳領域の統合の窓を判断した。 分析の結果,言語に関わる脳領域の多くは構文変数と意味変数の両方に敏感であるが,これらの効果の相対的大きさは地域によって大きく異なることがわかった。 さらに左半球と右半球の間に非対称性があり,左半球では意味的・構文的処理が右半球よりも解離し,左半球と右半球は短大と長大の文脈に対してそれぞれ高い感度を示した。 情報制限付きnlpモデルを用いることで、構文処理、意味処理、構成性の空間的構成に新たな光を当てた。

A fundamental question in neurolinguistics concerns the brain regions involved in syntactic and semantic processing during speech comprehension, both at the lexical (word processing) and supra-lexical levels (sentence and discourse processing). To what extent are these regions separated or intertwined? To address this question, we trained a lexical language model, Glove, and a supra-lexical language model, GPT-2, on a text corpus from which we selectively removed either syntactic or semantic information. We then assessed to what extent these information-restricted models were able to predict the time-courses of fMRI signal of humans listening to naturalistic text. We also manipulated the size of contextual information provided to GPT-2 in order to determine the windows of integration of brain regions involved in supra-lexical processing. Our analyses show that, while most brain regions involved in language are sensitive to both syntactic and semantic variables, the relative magnitudes of these effects vary a lot across these regions. Furthermore, we found an asymmetry between the left and right hemispheres, with semantic and syntactic processing being more dissociated in the left hemisphere than in the right, and the left and right hemispheres showing respectively greater sensitivity to short and long contexts. The use of information-restricted NLP models thus shed new light on the spatial organization of syntactic processing, semantic processing and compositionality.
翻訳日:2023-03-01 17:27:55 公開日:2023-02-28
# slowの学習による高速追跡: rgbドメインの知識を活用したイベントベース速度適応ハンドトラッカ

Tracking Fast by Learning Slow: An Event-based Speed Adaptive Hand Tracker Leveraging Knowledge in RGB Domain ( http://arxiv.org/abs/2302.14430v1 )

ライセンス: Link先を確認
Chuanlin Lan, Ziyuan Yin, Arindam Basu, Rosa H. M. Chan(参考訳) 単眼のrgbビデオに基づく3dハンドトラッキングはモーションボケの影響を受けやすいが、時間分解能が高くダイナミックレンジのセンサーであるイベントカメラは、出力が少なく消費電力も少ないこのタスクに適している。 しかし、イベントベースのハンドトラッキングデータセットを構築するには、手の動きの速い3Dアノテーションの取得が困難である。 本稿では,イベントカメラに基づくハンドトラッキング問題を解決するために,イベントベースの速度適応ハンドトラッカー(ESAHT)を提案する。 動作が遅いハンドトラッキングデータセットでトレーニングされたCNNモデルを,RGBベースのハンドトラッキングソリューションの知識を活用して,高速ハンドトラッキングタスクの開発を可能にした。 提案手法を実現するために,実環境においてイベントカメラによってキャプチャされた最初の3次元手の動き追跡データセットを構築し,スローモーションデータと高速モーションデータの間の領域ギャップを狭めるための2つのデータ拡張手法を考案し,異なる移動速度で手の動きを処理するための速度適応型イベントストリームセグメンテーション法を開発し,異なる長さのイベントストリームに適応する新しいイベント・ツー・フレーム表現法を導入した。 実験の結果、我々のソリューションは、高速ハンドトラッキングタスクにおけるRGBベースと、それ以前のイベントベースのソリューションよりも優れており、コードとデータセットが公開されます。

3D hand tracking methods based on monocular RGB videos are easily affected by motion blur, while event camera, a sensor with high temporal resolution and dynamic range, is naturally suitable for this task with sparse output and low power consumption. However, obtaining 3D annotations of fast-moving hands is difficult for constructing event-based hand-tracking datasets. In this paper, we provided an event-based speed adaptive hand tracker (ESAHT) to solve the hand tracking problem based on event camera. We enabled a CNN model trained on a hand tracking dataset with slow motion, which enabled the model to leverage the knowledge of RGB-based hand tracking solutions, to work on fast hand tracking tasks. To realize our solution, we constructed the first 3D hand tracking dataset captured by an event camera in a real-world environment, figured out two data augment methods to narrow the domain gap between slow and fast motion data, developed a speed adaptive event stream segmentation method to handle hand movements in different moving speeds, and introduced a new event-to-frame representation method adaptive to event streams with different lengths. Experiments showed that our solution outperformed RGB-based as well as previous event-based solutions in fast hand tracking tasks, and our codes and dataset will be publicly available.
翻訳日:2023-03-01 17:20:59 公開日:2023-02-28
# マルコフサンプリングスキームにおける確率的勾配の沈み込み

Stochastic Gradient Descent under Markovian Sampling Schemes ( http://arxiv.org/abs/2302.14428v1 )

ライセンス: Link先を確認
Mathieu Even(参考訳) 最適化器がマルコフ型サンプリング方式にのみアクセス可能なバニラ確率勾配勾配の変動について検討する。 これらのスキームは、ランダムウォーカによる分散最適化(トークンアルゴリズム)から、RLおよびオンラインシステム識別問題まで幅広い応用を含んでいる。 下位のマルコフ連鎖と最適化された関数に可能な最小制限条件下での収束率の獲得に着目する。 まず,マルコフ連鎖の経路に沿った確率的勾配をサンプリングし,マルコフ連鎖の衝突時間の依存性を表わす手法の理論的下限を明らかにした。 次に、マルコフ連鎖 SGD (MC-SGD) を以前の研究よりも遥かに穏やかな正則性仮定の下で研究する。 最終的に MC-SGD の代替として MC-SAG を導入し,マルコフ連鎖の打上げ時間にのみ依存するため,通信効率のよいトークンアルゴリズムが得られた。

We study a variation of vanilla stochastic gradient descent where the optimizer only has access to a Markovian sampling scheme. These schemes encompass applications that range from decentralized optimization with a random walker (token algorithms), to RL and online system identification problems. We focus on obtaining rates of convergence under the least restrictive assumptions possible on the underlying Markov chain and on the functions optimized. We first unveil the theoretical lower bound for methods that sample stochastic gradients along the path of a Markov chain, making appear a dependency in the hitting time of the underlying Markov chain. We then study Markov chain SGD (MC-SGD) under much milder regularity assumptions than prior works. We finally introduce MC-SAG, an alternative to MC-SGD with variance reduction, that only depends on the hitting time of the Markov chain, therefore obtaining a communication-efficient token algorithm.
翻訳日:2023-03-01 17:20:33 公開日:2023-02-28
# 目標値の欠落に対する連立共変量シフト適応

Federated Covariate Shift Adaptation for Missing Target Output Values ( http://arxiv.org/abs/2302.14427v1 )

ライセンス: Link先を確認
Yaqian Xu, Wenquan Cui, Jianjun Xu, Haoyang Cheng(参考訳) 最新のマルチソース共変量シフトアルゴリズムは、目標出力の不足に対する効率的なハイパーパラメータ最適化アルゴリズムである。 本稿では,このアルゴリズムを連合学習の枠組みに拡張する。 フェデレート学習および共変量シフト適応におけるデータ島々について, 好ましくは漸近的かつ漸近的な分散特性を伴わない対象リスクのフェデレーションドメイン適応推定法を提案する。 対象タスクの重み付けモデルを構築し,我々の設定で好ましく機能する共変量シフト適応アルゴリズムを提案する。 本手法の有効性は理論的にも実証的にも正当化される。

The most recent multi-source covariate shift algorithm is an efficient hyperparameter optimization algorithm for missing target output. In this paper, we extend this algorithm to the framework of federated learning. For data islands in federated learning and covariate shift adaptation, we propose the federated domain adaptation estimate of the target risk which is asymptotically unbiased with a desirable asymptotic variance property. We construct a weighted model for the target task and propose the federated covariate shift adaptation algorithm which works preferably in our setting. The efficacy of our method is justified both theoretically and empirically.
翻訳日:2023-03-01 17:20:15 公開日:2023-02-28
# 多値決定変数の分布推定アルゴリズム

Estimation-of-Distribution Algorithms for Multi-Valued Decision Variables ( http://arxiv.org/abs/2302.14420v1 )

ライセンス: Link先を確認
Firas Ben Jedidia, Benjamin Doerr, Martin S. Krejca(参考訳) 疑似ブール最適化と置換問題に焦点をあてた分布推定アルゴリズム(EDAs)に関するすべての研究により、決定変数が2つ以上の値を取ることができるが、置換問題ではない問題にEDAを使用するための第一歩を踏み出した。 この目的のために、既知の単変数EDAをそのような変数に拡張する自然な方法を提案する。 バイナリケースへのナイーブな還元とは異なり、追加の制約を回避する。 遺伝的ドリフトの理解は最適なパラメータ選択に不可欠であるため、遺伝的ドリフトの既知の定量分析を多値変数のEDAに拡張する。 大まかに言えば、変数が異なる値 r$ を取るとき、遺伝的ドリフトが重要になる時間は二項の場合よりも r$ 倍短い。 そのため、確率モデルの更新強度は、現在$r$よりも低く選択する必要がある。 このフレームワークでモデル更新がどの程度望ましいかを調べるため、$r$-valued LeadingOnes問題に関する数学的ランタイム解析を実施します。 適切なパラメータを用いて、multi-valued UMDAは、$O(r\log(r)^2 n^2 \log(n))$関数評価において、この問題を効率的に解く。 全体としては、edasが多値問題に適応できることを示し、メインパラメータの設定方法に関するアドバイスを提供します。

With apparently all research on estimation-of-distribution algorithms (EDAs) concentrated on pseudo-Boolean optimization and permutation problems, we undertake the first steps towards using EDAs for problems in which the decision variables can take more than two values, but which are not permutation problems. To this aim, we propose a natural way to extend the known univariate EDAs to such variables. Different from a naive reduction to the binary case, it avoids additional constraints. Since understanding genetic drift is crucial for an optimal parameter choice, we extend the known quantitative analysis of genetic drift to EDAs for multi-valued variables. Roughly speaking, when the variables take $r$ different values, the time for genetic drift to become significant is $r$ times shorter than in the binary case. Consequently, the update strength of the probabilistic model has to be chosen $r$ times lower now. To investigate how desired model updates take place in this framework, we undertake a mathematical runtime analysis on the $r$-valued LeadingOnes problem. We prove that with the right parameters, the multi-valued UMDA solves this problem efficiently in $O(r\log(r)^2 n^2 \log(n))$ function evaluations. Overall, our work shows that EDAs can be adjusted to multi-valued problems, and it gives advice on how to set the main parameters.
翻訳日:2023-03-01 17:20:05 公開日:2023-02-28
# PCR-CG:深色と幾何学によるポイントクラウド登録

PCR-CG: Point Cloud Registration via Deep Color and Geometry ( http://arxiv.org/abs/2302.14418v1 )

ライセンス: Link先を確認
Yu Zhang, Junle Yu, Xiaolin Huang, Wenhui Zhou, Ji Hou(参考訳) 本稿では,新しい3Dポイントクラウド登録モジュールであるPCR-CGについて紹介する。 幾何表現のみを使用する従来の方法とは異なり、このモジュールはポイントクラウド登録タスクにおいて、色を幾何学に効果的に関連付けるように特別に設計されている。 我々の重要な貢献は、色信号から学習した深い特徴を幾何学表現に埋め込む2D-3Dクロスプラットフォーム学習アルゴリズムである。 2d-3dプロジェクションモジュールの設計により,画像から知覚される対応を中心にした正方形領域の画素特徴は,ポイントクラウドと効果的に相関する。 このように、重なり合う領域は点雲だけでなく、テクスチャの外観からも推測することができる。 色を加えるのは簡単ではない。 3dに色を加えるために設計された様々なベースラインと比較し、ピクセルごとの機能やrgb値を暗黙的に追加するなどした。 Predator [25]をベースラインメソッドとして利用し、提案したモジュールをその上に組み込む。 2次元特徴の有効性を検証するために,異なる2次元事前学習ネットワークを省略し,事前学習した重みとタスク性能の正の相関を示す。 実験の結果,3dlomatchベンチマークにおけるベースライン法より6.5%の登録リコールが有意に改善した。 さらに,sota法に対するアプローチを評価し,ジオトランスフォーマに対する2.4%の登録リコールやコフィニットに対する3.5%の改善など,一貫した改善を観察した。 本研究は,登録作業のポイントクラウドに明示的な深色特徴を関連付ける大きな利点を明らかにした。

In this paper, we introduce PCR-CG: a novel 3D point cloud registration module explicitly embedding the color signals into the geometry representation. Different from previous methods that only use geometry representation, our module is specifically designed to effectively correlate color into geometry for the point cloud registration task. Our key contribution is a 2D-3D cross-modality learning algorithm that embeds the deep features learned from color signals to the geometry representation. With our designed 2D-3D projection module, the pixel features in a square region centered at correspondences perceived from images are effectively correlated with point clouds. In this way, the overlapped regions can be inferred not only from point cloud but also from the texture appearances. Adding color is non-trivial. We compare against a variety of baselines designed for adding color to 3D, such as exhaustively adding per-pixel features or RGB values in an implicit manner. We leverage Predator [25] as the baseline method and incorporate our proposed module onto it. To validate the effectiveness of 2D features, we ablate different 2D pre-trained networks and show a positive correlation between the pre-trained weights and the task performance. Our experimental results indicate a significant improvement of 6.5% registration recall over the baseline method on the 3DLoMatch benchmark. We additionally evaluate our approach on SOTA methods and observe consistent improvements, such as an improvement of 2.4% registration recall over GeoTransformer as well as 3.5% over CoFiNet. Our study reveals a significant advantages of correlating explicit deep color features to the point cloud in the registration task.
翻訳日:2023-03-01 17:19:43 公開日:2023-02-28
# DREAM: 代表マッチングによる効率的なデータセット蒸留

DREAM: Efficient Dataset Distillation by Representative Matching ( http://arxiv.org/abs/2302.14416v1 )

ライセンス: Link先を確認
Yanqing Liu, Jianyang Gu, Kai Wang, Zheng Zhu, Wei Jiang and Yang You(参考訳) データセット蒸留は、ストレージとトレーニングコストを削減するための大規模なデータセットとして、情報損失の少ない小さなデータセットを生成することを目的としている。 近年の最先端手法は, 合成画像と, 勾配, 埋め込み分布, 訓練軌道に関する原画像とをマッチングすることにより, 試料生成過程を制約している。 マッチング対象は多種多様であるが、現在では原画像の選び方はナイーブなランダムサンプリングに限られている。 ランダムサンプリングには必然的に決定境界付近のサンプルが含まれており、大きなあるいはノイズの多いマッチングターゲットを提供する可能性がある。 さらに、ランダムサンプリングはサンプル分布の均一性と多様性を保証できない。 これらの要因が組み合わさって大きな最適化振動を引き起こし、マッチング効率を低下させる。 そこで,本稿では,マッチングのために代表的オリジナル画像のみを選択した,新たなマッチング戦略である \textbf{re}present\textbf{a}tive \textbf{m}atching (dream)を提案する。 DREAMは一般的なデータセット蒸留フレームワークに簡単にプラグインでき、パフォーマンス低下なしにマッチングイテレーションを10倍削減できる。 十分なトレーニング時間があれば、dreamはさらに大きな改善を行い、最先端のパフォーマンスを達成します。

Dataset distillation aims to generate small datasets with little information loss as large-scale datasets for reducing storage and training costs. Recent state-of-the-art methods mainly constrain the sample generation process by matching synthetic images and the original ones regarding gradients, embedding distributions, or training trajectories. Although there are various matching objectives, currently the method for selecting original images is limited to naive random sampling. We argue that random sampling inevitably involves samples near the decision boundaries, which may provide large or noisy matching targets. Besides, random sampling cannot guarantee the evenness and diversity of the sample distribution. These factors together lead to large optimization oscillations and degrade the matching efficiency. Accordingly, we propose a novel matching strategy named as \textbf{D}ataset distillation by \textbf{RE}present\textbf{A}tive \textbf{M}atching (DREAM), where only representative original images are selected for matching. DREAM is able to be easily plugged into popular dataset distillation frameworks and reduce the matching iterations by 10 times without performance drop. Given sufficient training time, DREAM further provides significant improvements and achieves state-of-the-art performances.
翻訳日:2023-03-01 17:19:16 公開日:2023-02-28
# Mesh-SORT: 位置対応トラッカーのシンプルで効果的

Mesh-SORT: Simple and effective of location-wise tracker ( http://arxiv.org/abs/2302.14415v1 )

ライセンス: Link先を確認
ZongTan Li(参考訳) マルチオブジェクトトラッキング(mot:multi-object tracking)は、トラフィックやパーソナライズに幅広い展望があるため、近年多くの注目を集めている。 カメラの動きのないほとんどのトラッキングシナリオでは、オブジェクトは特定の位置特異性を持って動き、失われます。 本稿では,検出方式による追跡のための簡易かつ効果的な位置割り手法を提案し,その可能性とベースラインの改善を示す。

Multi-object tracking (MOT) raised much attention in recent years because of its wide prospect on traffic and person. We found that in most tracking scenarios without camera motion, objects move and lost with a certain location specificity. In this paper simple and effective location-wise method is proposed for tracking by detection scheme, the experiment shows its potential and improvement on the baseline.
翻訳日:2023-03-01 17:18:46 公開日:2023-02-28
# SMoA: 複数のデータセットバイアスを緩和するアダプタのスパース混合

SMoA: Sparse Mixture of Adapters to Mitigate Multiple Dataset Biases ( http://arxiv.org/abs/2302.14413v1 )

ライセンス: Link先を確認
Yanchen Liu, Jing Yan, Yan Chen, Jing Liu, Hua Wu(参考訳) 最近の研究では、異なるNLPタスクに様々なバイアスが存在し、バイアスに対する過度な依存は、モデルの一般化能力の低下と低い敵の堅牢性をもたらすことが示されている。 データセットのバイアスを軽減するために、以前の研究では、特定のバイアスに取り組むための多くのデバイアス手法が提案されている。 本稿では,複数のデータセットバイアスを効果的かつ効率的に緩和する,分散混合適応器(SMOA)を新たに提案する。 自然言語推論およびパラフレーズ識別タスクの実験は、SMoAがフルファインタニング、アダプタチューニングベースライン、および以前の強いデバイアス法よりも優れていることを示した。 さらなる分析は、サブアダプタがトレーニングデータから特定のパターンをキャプチャし、特定のバイアスに対処できるSMoAの解釈可能性を示している。

Recent studies reveal that various biases exist in different NLP tasks, and over-reliance on biases results in models' poor generalization ability and low adversarial robustness. To mitigate datasets biases, previous works propose lots of debiasing techniques to tackle specific biases, which perform well on respective adversarial sets but fail to mitigate other biases. In this paper, we propose a new debiasing method Sparse Mixture-of-Adapters (SMoA), which can mitigate multiple dataset biases effectively and efficiently. Experiments on Natural Language Inference and Paraphrase Identification tasks demonstrate that SMoA outperforms full-finetuning, adapter tuning baselines, and prior strong debiasing methods. Further analysis indicates the interpretability of SMoA that sub-adapter can capture specific pattern from the training data and specialize to handle specific bias.
翻訳日:2023-03-01 17:18:40 公開日:2023-02-28
# 因果単位選択のためのアルゴリズムと複雑度結果

An Algorithm and Complexity Results for Causal Unit Selection ( http://arxiv.org/abs/2302.14412v1 )

ライセンス: Link先を確認
Haiying Huang and Adnan Darwiche(参考訳) 単位選択問題(unit selection problem)は、刺激を受けるときに望ましい行動モードを示す可能性のある、単位(unit)と呼ばれる物体を識別することを目的としている(例えば、推奨されると考えを変える)。 対物目的関数を用いた単位選択は、比較的最近、観察的および介入的データに基づいて、利益関数と呼ばれる特定の目的関数のクラスの境界にフォーカスした既存の作業で導入された。 対象関数の幅広いクラスと構造的因果モデル(scm)が与えられた最適単位を求めるための最初の厳密なアルゴリズムを提案することで、この作業を補完する。 この目的関数のクラスの下での単位選択は$\text{np}^\text{pp}$-completeであるが、単位変数がscm内のすべての外在変数に対応する場合、$\text{np}$-completeである。 また,木幅に基づく複雑性境界を提案アルゴリズムに適用し,最大事後推定のためのよく知られたアルゴリズムに関連付けた。

The unit selection problem aims to identify objects, called units, that are most likely to exhibit a desired mode of behavior when subjected to stimuli (e.g., customers who are about to churn but would change their mind if encouraged). Unit selection with counterfactual objective functions was introduced relatively recently with existing work focusing on bounding a specific class of objective functions, called the benefit functions, based on observational and interventional data -- assuming a fully specified model is not available to evaluate these functions. We complement this line of work by proposing the first exact algorithm for finding optimal units given a broad class of causal objective functions and a fully specified structural causal model (SCM). We show that unit selection under this class of objective functions is $\text{NP}^\text{PP}$-complete but is $\text{NP}$-complete when unit variables correspond to all exogenous variables in the SCM. We also provide treewidth-based complexity bounds on our proposed algorithm while relating it to a well-known algorithm for Maximum a Posteriori (MAP) inference.
翻訳日:2023-03-01 17:18:25 公開日:2023-02-28
# webを横切るための分散サブweb仕様

Distributed Subweb Specifications for Traversing the Web ( http://arxiv.org/abs/2302.14411v1 )

ライセンス: Link先を確認
Bart Bogaerts, Bas Ketsman, Younes Zeboudj, Heba Aamer, Ruben Taelman, Ruben Verborgh(参考訳) 単一のデータセットではなく、ドキュメントのweb上でsparqlクエリが評価されるリンクトラバーサルベースのクエリ処理(ltqp)は、理論上興味深いが非現実的だと見なされることが多い。 しかし、データの分散化がますます精査される中で、シンプルなドキュメントベースのインターフェースを備えた分散データWebは、データパブリッシャが自身のデータとアクセス権をコントロールすることを可能にし、魅力的である。 ltqpはそのようなWeb上で複雑なクエリの評価を可能にするが、パフォーマンス上の問題(データを含むドキュメントの多さによる)と情報品質の懸念(そのようなドキュメントを提供する多くの情報源による)に悩まされている。 既存のltqpアプローチでは、クエリソースを見つけることの負担は、データコンシューマの手に委ねられている。 本稿では,これらの問題を解決するためには,データパブリッシャが興味のある情報源を示唆し,データ消費者を信頼に値するデータへと導くことも可能であるべきであると論じる。 このようなリンクトラバーサルの導出を可能にする理論的枠組みを導入し,その特性について検討する。 これはクエリ結果を改善し、ネットワーク要求数を削減できるという理論的な例を示します。 提案提案は,仕様付き仮想リンクWeb上で実験的に評価し,データ品質だけでなく,クエリの効率も向上することを確認した。 論理プログラミングの理論と実践(tplp)における考察。

Link Traversal-based Query Processing (ltqp), in which a sparql query is evaluated over a web of documents rather than a single dataset, is often seen as a theoretically interesting yet impractical technique. However, in a time where the hypercentralization of data has increasingly come under scrutiny, a decentralized Web of Data with a simple document-based interface is appealing, as it enables data publishers to control their data and access rights. While ltqp allows evaluating complex queries over such webs, it suffers from performance issues (due to the high number of documents containing data) as well as information quality concerns (due to the many sources providing such documents). In existing ltqp approaches, the burden of finding sources to query is entirely in the hands of the data consumer. In this paper, we argue that to solve these issues, data publishers should also be able to suggest sources of interest and guide the data consumer towards relevant and trustworthy data. We introduce a theoretical framework that enables such guided link traversal and study its properties. We illustrate with a theoretic example that this can improve query results and reduce the number of network requests. We evaluate our proposal experimentally on a virtual linked web with specifications and indeed observe that not just the data quality but also the efficiency of querying improves. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2023-03-01 17:18:04 公開日:2023-02-28
# 複雑な3次元環境における階層的強化学習

Hierarchical Reinforcement Learning in Complex 3D Environments ( http://arxiv.org/abs/2302.14451v1 )

ライセンス: Link先を確認
Bernardo Avila Pires, Feryal Behbahani, Hubert Soyer, Kyriacos Nikiforou, Thomas Keck, Satinder Singh(参考訳) 階層強化学習(HRL)エージェントは、抽象化、転送、スキル再利用による計画や探索といった魅力的な能力を示す可能性がある。 近年のHRLの成功は、既存のエージェントがHRLの可能性を完全に認識していない場合でも、実用的で効果的なHRLエージェントが可能であることを示す証拠となる。 これらの成功にもかかわらず、視覚的に部分的に観察可能な3D環境はHRLエージェントにとって課題のままであった。 この問題を解決するために,階層型ハイブリッドオフラインオンライン(h2o2)を開発した。 我々は,H2O2がDeepMind Hard Eightタスクにおいて,強力な非階層的Museliベースラインと競合していることを示し,複雑な環境下での階層的エージェントの学習問題に新たな光を当てた。 我々のH2O2に関する実証的研究は、未発見の実践的課題を明らかにし、複雑なドメインにおける階層的エージェントの現在の理解に新たな視点をもたらす。

Hierarchical Reinforcement Learning (HRL) agents have the potential to demonstrate appealing capabilities such as planning and exploration with abstraction, transfer, and skill reuse. Recent successes with HRL across different domains provide evidence that practical, effective HRL agents are possible, even if existing agents do not yet fully realize the potential of HRL. Despite these successes, visually complex partially observable 3D environments remained a challenge for HRL agents. We address this issue with Hierarchical Hybrid Offline-Online (H2O2), a hierarchical deep reinforcement learning agent that discovers and learns to use options from scratch using its own experience. We show that H2O2 is competitive with a strong non-hierarchical Muesli baseline in the DeepMind Hard Eight tasks and we shed new light on the problem of learning hierarchical agents in complex environments. Our empirical study of H2O2 reveals previously unnoticed practical challenges and brings new perspective to the current understanding of hierarchical agents in complex domains.
翻訳日:2023-03-01 17:11:58 公開日:2023-02-28
# 医用画像分割のためのスウィンデフォルマブルアテンションハイブリッドU-Net

Swin Deformable Attention Hybrid U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2302.14450v1 )

ライセンス: Link先を確認
Lichao Wang, Jiahao Huang, Guang Yang(参考訳) 近年,医療画像分割の分野では,畳み込みと多頭部セルフアテンション機構の調和が重要な研究分野となっている。 様々な組み合わせ方法が提案されている。 しかし、これらの研究には共通の欠点があり、臨床シナリオにおいて重要なハイブリッドモデルの直接的な説明が得られなかった。 変形性注意は、セグメンテーション性能を改善し、変形場に基づく説明を提供する。 変形可能な注意をハイブリッドモデルに組み込むことは、説明可能性を高めながらセグメンテーション性能を高めるための相乗効果をもたらす可能性がある。 本研究では,スイニング・デフォルタブル・アテンションをハイブリッドアーキテクチャに組み込むことにより,セグメンテーション性能を向上し,説明可能性を確立した。 SDAH-UNet(Swin Deformable Attention Hybrid UNet)では,解剖学的および病変のセグメンテーション作業における最先端の性能を示す。

How to harmonize convolution and multi-head self-attention mechanisms has recently emerged as a significant area of research in the field of medical image segmentation. Various combination methods have been proposed. However, there is a common flaw in these works: failed to provide a direct explanation for their hybrid model, which is crucial in clinical scenarios. Deformable Attention can improve the segmentation performance and provide an explanation based on the deformation field. Incorporating Deformable Attention into a hybrid model could result in a synergistic effect to boost segmentation performance while enhancing the explainability. In this study, we propose the incorporation of Swin Deformable Attention with hybrid architecture to improve the segmentation performance while establishing explainability. In the experiment section, our proposed Swin Deformable Attention Hybrid UNet (SDAH-UNet) demonstrates state-of-the-art performance on both anatomical and lesion segmentation tasks.
翻訳日:2023-03-01 17:11:41 公開日:2023-02-28
# 量子秘密のための量子共有の高度共有

Advance sharing of quantum shares for quantum secrets ( http://arxiv.org/abs/2302.14448v1 )

ライセンス: Link先を確認
Mamoru Shibata and Ryutaroh Matsumoto(参考訳) シークレット・シェアリング(英: Secret sharing)とは、複数の株式を参加者に配布する秘密をエンコードする暗号スキームである。 秘密共有方式で秘密をエンコードして共有を配布する場合、すべての参加者がアクセス可能であるわけではなく、秘密情報が決定される前に共有を配布することが望ましい。 古典的秘密の秘密共有スキームは、特定の秘密の前にいくつかの株式を分配できることが知られている。 Lie et al. は純粋に$(k,2k-1)$-threshold secret sharing for quantum secrets が与えられた秘密の前に株を分配できることを発見した。 しかし、ある秘密にいくつかの共有を分配することは、量子秘密の秘密共有の他のアクセス構造とともに可能かどうかは不明である。 我々は、ある秘密が他のアクセス構造と共有される前に、いくつかの共有を分配できる量子秘密の量子秘密共有方式を提案する。

Secret sharing is a cryptographic scheme to encode a secret to multiple shares being distributed to participants, so that only qualified sets of participants can restore the original secret from their shares. When we encode a secret by a secret sharing scheme and distribute shares, sometimes not all participants are accessible, and it is desirable to distribute shares to those participants before a secret information is determined. Secret sharing schemes for classical secrets have been known to be able to distribute some shares before a given secret. Lie et al. found any pure $(k,2k-1)$-threshold secret sharing for quantum secrets can distribute some shares before a given secret. However, it is unknown whether distributing some shares before a given secret is possible with other access structures of secret sharing for quantum secrets. We propose a quantum secret sharing scheme for quantum secrets that can distribute some shares before a given secret with other access structures.
翻訳日:2023-03-01 17:11:26 公開日:2023-02-28
# 平均場極限における核ヒルベルト空間の再現

Reproducing kernel Hilbert spaces in the mean field limit ( http://arxiv.org/abs/2302.14446v1 )

ライセンス: Link先を確認
Christian Fiedler, Michael Herty, Michael Rom, Chiara Segala, Sebastian Trimpe(参考訳) カーネルメソッドは、十分に発達した理論によってサポートされ、効率的なアルゴリズムとともに、最も人気があり成功した機械学習技術の一つである。 数学的観点からは、これらの手法はカーネルによって生成される関数空間やカーネルの概念に依拠し、カーネルヒルベルト空間を再現する。 粒子系の相互作用の文脈における近年の学習手法の発展により,多くの測定変数を持つデータに作用するカーネル手法を考察した。 核の厳密な平均場限度を示し、制限再生核ヒルベルト空間の詳細な解析を提供する。 さらに、厳密な平均場限界を許容するカーネルのいくつかの例を示す。

Kernel methods, being supported by a well-developed theory and coming with efficient algorithms, are among the most popular and successful machine learning techniques. From a mathematical point of view, these methods rest on the concept of kernels and function spaces generated by kernels, so called reproducing kernel Hilbert spaces. Motivated by recent developments of learning approaches in the context of interacting particle systems, we investigate kernel methods acting on data with many measurement variables. We show the rigorous mean field limit of kernels and provide a detailed analysis of the limiting reproducing kernel Hilbert space. Furthermore, several examples of kernels, that allow a rigorous mean field limit, are presented.
翻訳日:2023-03-01 17:11:08 公開日:2023-02-28
# LiDARとイベントデータから2つの深度を推定する学習

Learning to Estimate Two Dense Depths from LiDAR and Event Data ( http://arxiv.org/abs/2302.14444v1 )

ライセンス: Link先を確認
Vincent Brebion, Julien Moreau, Franck Davoine(参考訳) イベントカメラは画像を生成するのではなく、各ピクセルの照明の変化を独立かつ非同期にエンコードする連続的なイベントの流れを生成する。 時間的に豊富な情報を出力するが、他のセンサーでの使用を容易にする深度情報がない。 LiDARは、この深度情報を提供することができるが、自然には非常に疎いため、深度と深度の関係はより複雑になる。 さらに、事象は照明の変化を表すため、深度の変化を表すこともあるが、それらと1つの深度を関連付けることは不十分である。 そこで本研究では,イベントカメラとlidarからの情報を融合して,精度の高い深層マップを推定する学習に基づく手法を提案する。 深度の潜在的な変化」問題を解決するため、各ステップで2つの深度マップを推定することを提案する。 さらに,各イベントの深さ差を計算するために,この2組の深さを用いて,さらに多くのコンテキストを与えるように提案する。 我々は、合成運転シーケンスと実運転シーケンスの両方で、我々のネットワークであるALEDをトレーニングし、評価し、アートの現在の状態と比較して最大61%の誤差で深度を予測することができることを示す。 また,2-deepths-to-eventアソシエーションの品質と,深度差情報の有用性も示す。 最後に、イベント、LiDAR点雲、RGB画像、深度マップを含む新しい合成データセットであるSLEDをリリースする。

Event cameras do not produce images, but rather a continuous flow of events, which encode changes of illumination for each pixel independently and asynchronously. While they output temporally rich information, they lack any depth information which could facilitate their use with other sensors. LiDARs can provide this depth information, but are by nature very sparse, which makes the depth-to-event association more complex. Furthermore, as events represent changes of illumination, they might also represent changes of depth; associating them with a single depth is therefore inadequate. In this work, we propose to address these issues by fusing information from an event camera and a LiDAR using a learning-based approach to estimate accurate dense depth maps. To solve the "potential change of depth" problem, we propose here to estimate two depth maps at each step: one "before" the events happen, and one "after" the events happen. We further propose to use this pair of depths to compute a depth difference for each event, to give them more context. We train and evaluate our network, ALED, on both synthetic and real driving sequences, and show that it is able to predict dense depths with an error reduction of up to 61% compared to the current state of the art. We also demonstrate the quality of our 2-depths-to-event association, and the usefulness of the depth difference information. Finally, we release SLED, a novel synthetic dataset comprising events, LiDAR point clouds, RGB images, and dense depth maps.
翻訳日:2023-03-01 17:10:58 公開日:2023-02-28
# MCMCを用いた最大流れのサンプリングによる都市大気汚染対策

City-scale Pollution Aware Traffic Routing by Sampling Max Flows using MCMC ( http://arxiv.org/abs/2302.14442v1 )

ライセンス: Link先を確認
Shreevignesh Suriyanarayanan, Praveen Paruchuri, Girish Varma(参考訳) 世界の都市部における大気汚染の大きな原因は、道路交通量の増加である。 大気汚染の長期曝露は深刻な健康問題を引き起こす可能性がある。 この問題に取り組むための1つのアプローチは、複数の目的のバランスをとる汚染対策トラフィックルーティングポリシーを設計することである。 一 極度の汚染を避けること 二 短い通過時間を可能にすること、及び 三 道路の容量を有効利用すること。 この問題に対する新しいサンプリングベースアプローチを提案する。 我々は、平面グラフの整数最大フロー解をサンプリングできるマルコフ連鎖の最初の構成を提供し、その確率は総移動長に依存することを理論的に保証する。 相撲交通シミュレータを用いて,多種多様なサンプルと実世界の道路地図上での交通シミュレーションを用いた交通政策を考案した。 世界の大都市の地図を他の手法と比較すると, 大気汚染の激しい地域では, かなりの減少が見られた。

A significant cause of air pollution in urban areas worldwide is the high volume of road traffic. Long-term exposure to severe pollution can cause serious health issues. One approach towards tackling this problem is to design a pollution-aware traffic routing policy that balances multiple objectives of i) avoiding extreme pollution in any area ii) enabling short transit times, and iii) making effective use of the road capacities. We propose a novel sampling-based approach for this problem. We provide the first construction of a Markov Chain that can sample integer max flow solutions of a planar graph, with theoretical guarantees that the probabilities depend on the aggregate transit length. We designed a traffic policy using diverse samples and simulated traffic on real-world road maps using the SUMO traffic simulator. We observe a considerable decrease in areas with severe pollution when experimented with maps of large cities across the world compared to other approaches.
翻訳日:2023-03-01 17:10:33 公開日:2023-02-28
# 推薦型コントラスト学習による自己監督型利子移動ネットワーク

Self-Supervised Interest Transfer Network via Prototypical Contrastive Learning for Recommendation ( http://arxiv.org/abs/2302.14438v1 )

ライセンス: Link先を確認
Guoqiang Sun, Yibin Shen, Sijin Zhou, Xiang Chen, Hongyan Liu, Chunming Wu, Chenyi Lei, Xianhui Wei, Fei Fang(参考訳) クロスドメインレコメンデーションは近年、産業やアカデミックから注目を集めている。 しかし、既存のほとんどの手法は、準最適解をもたらす領域間の関心の分散を利用していない。 本稿では,先駆的なコントラスト学習を通じてドメイン間の不変知識を効果的に伝達するクロスドメイン推薦手法である自己教師付き利子転送ネットワーク(sitn)を提案する。 具体的には、クロスドメイン・コントラスト学習の2つのレベルを実行する。 1)インスタンス間コントラスト学習 2)インスタンス間コントラスト学習。 それだけでなく、ユーザのマルチグラニュラリティやマルチビューの関心も考慮しています。 このパラダイムにより、SITNはドメイン間の関心クラスタの不変知識を明示的に学習し、ユーザの意図や好みを正確に捉えることができる。 我々は,世界有数のeコマース企業から収集した公開データセットと大規模産業データセットについて広範な実験を行った。 実験結果から,SITNは最先端のレコメンデーション手法よりも大幅に改善されていることが示唆された。 さらに、SITNはマイクロビデオレコメンデーションプラットフォームにデプロイされており、オンラインA/Bテストの結果はその実用的価値をさらに証明している。 Supplement は以下の https://github.com/fanqieCoffee/SITN-Supplement で利用可能である。

Cross-domain recommendation has attracted increasing attention from industry and academia recently. However, most existing methods do not exploit the interest invariance between domains, which would yield sub-optimal solutions. In this paper, we propose a cross-domain recommendation method: Self-supervised Interest Transfer Network (SITN), which can effectively transfer invariant knowledge between domains via prototypical contrastive learning. Specifically, we perform two levels of cross-domain contrastive learning: 1) instance-to-instance contrastive learning, 2) instance-to-cluster contrastive learning. Not only that, we also take into account users' multi-granularity and multi-view interests. With this paradigm, SITN can explicitly learn the invariant knowledge of interest clusters between domains and accurately capture users' intents and preferences. We conducted extensive experiments on a public dataset and a large-scale industrial dataset collected from one of the world's leading e-commerce corporations. The experimental results indicate that SITN achieves significant improvements over state-of-the-art recommendation methods. Additionally, SITN has been deployed on a micro-video recommendation platform, and the online A/B testing results further demonstrate its practical value. Supplement is available at: https://github.com/fanqieCoffee/SITN-Supplement.
翻訳日:2023-03-01 17:10:20 公開日:2023-02-28
# ProxyFormer: 部分感性変換器を欠いた点クラウド補完を支援するプロキシアライメント

ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with Missing Part Sensitive Transformer ( http://arxiv.org/abs/2302.14435v1 )

ライセンス: Link先を確認
Shanshan Li, Pan Gao, Xiaoyang Tan, Mingqiang Wei(参考訳) 機器欠陥や限られた視点などの問題は、捕獲された点雲が不完全になる。 したがって、部分的な部分からの完全点雲の復元は多くの実践的なタスクにおいて重要な役割を担い、キーの1つが欠落した部分の予測にある。 本稿では,点雲を既存の(入力)と欠落した(予測される)部分に分割し,各部分がプロキシを介して情報を伝達する新しい点雲補完手法であるProxyFormerを提案する。 具体的には、特徴および位置抽出器を介して情報をポイントプロキシに融合し、既存のポイントプロキシの特徴から欠落点プロキシの特徴を生成する。 そして,失点位置をよりよく把握するために,無作為正規分布を合理的な位置情報に変換する欠落部分センシティブトランスを設計,欠落したプロキシアライメントを用いて補間を行う。 これにより、予測された点プロキシは、欠落した部分の特徴や位置に対してより敏感になり、これらのプロキシはその後の粗いプロセスに適合する。 実験結果から,提案手法は複数のベンチマークデータセット上で,最先端の補完ネットワークより優れ,推論速度が最速であることが示唆された。 コードはhttps://github.com/I2-Multimedia-Lab/ProxyFormerで入手できる。

Problems such as equipment defects or limited viewpoints will lead the captured point clouds to be incomplete. Therefore, recovering the complete point clouds from the partial ones plays an vital role in many practical tasks, and one of the keys lies in the prediction of the missing part. In this paper, we propose a novel point cloud completion approach namely ProxyFormer that divides point clouds into existing (input) and missing (to be predicted) parts and each part communicates information through its proxies. Specifically, we fuse information into point proxy via feature and position extractor, and generate features for missing point proxies from the features of existing point proxies. Then, in order to better perceive the position of missing points, we design a missing part sensitive transformer, which converts random normal distribution into reasonable position information, and uses proxy alignment to refine the missing proxies. It makes the predicted point proxies more sensitive to the features and positions of the missing part, and thus make these proxies more suitable for subsequent coarse-to-fine processes. Experimental results show that our method outperforms state-of-the-art completion networks on several benchmark datasets and has the fastest inference speed. Code is available at https://github.com/I2-Multimedia-Lab/ProxyFormer.
翻訳日:2023-03-01 17:10:02 公開日:2023-02-28
# 奥行き画像からの高精度・詳細な顔再構成のための階層的表現ネットワーク

A Hierarchical Representation Network for Accurate and Detailed Face Reconstruction from In-The-Wild Images ( http://arxiv.org/abs/2302.14434v1 )

ライセンス: Link先を確認
Biwen Lei, Jianqiang Ren, Mengyang Feng, Miaomiao Cui, Xuansong Xie(参考訳) 3DMMの低次元表現能力の性質により、ほとんどの3DMMベースの顔再構成(FR)法は、シワ、ディアンプなどの高周波顔の細部を回復できない。 詳細マップや非線形操作を導入してこの問題を解決する試みもあるが、その結果はまだ鮮明ではない。 そこで本研究では,単一の画像から顔の正確な再現を実現するために,新しい階層型表現ネットワーク(HRN)を提案する。 具体的には,幾何学的絡み合いを実装し,詳細な顔モデルを実現するために階層表現を導入する。 一方,再建結果の正確性と信頼性を高めるため,顔詳細の3次元前処理が組み込まれている。 また,形状と外観の疎結合性を向上するデタッチモジュールを提案する。 異なるビューの詳細な一貫性を考慮して、フレームワークをマルチビューに拡張できることは注目に値する。 2つのシングルビューFRベンチマークと2つのマルチビューFRベンチマークの大規模な実験により、提案手法は再現精度と視覚効果の両方において既存の手法よりも優れていることが示された。 最後に,高品質な3d顔データセットfacehd-100を導入し,高忠実度顔再構成の研究を促進する。

Limited by the nature of the low-dimensional representational capacity of 3DMM, most of the 3DMM-based face reconstruction (FR) methods fail to recover high-frequency facial details, such as wrinkles, dimples, etc. Some attempt to solve the problem by introducing detail maps or non-linear operations, however, the results are still not vivid. To this end, we in this paper present a novel hierarchical representation network (HRN) to achieve accurate and detailed face reconstruction from a single image. Specifically, we implement the geometry disentanglement and introduce the hierarchical representation to fulfill detailed face modeling. Meanwhile, 3D priors of facial details are incorporated to enhance the accuracy and authenticity of the reconstruction results. We also propose a de-retouching module to achieve better decoupling of the geometry and appearance. It is noteworthy that our framework can be extended to a multi-view fashion by considering detail consistency of different views. Extensive experiments on two single-view and two multi-view FR benchmarks demonstrate that our method outperforms the existing methods in both reconstruction accuracy and visual effects. Finally, we introduce a high-quality 3D face dataset FaceHD-100 to boost the research of high-fidelity face reconstruction.
翻訳日:2023-03-01 17:09:39 公開日:2023-02-28
# 自己一貫性を有する効率的なマスク付きオートエンコーダ

Efficient Masked Autoencoders with Self-Consistency ( http://arxiv.org/abs/2302.14431v1 )

ライセンス: Link先を確認
Zhaowen Li, Yousong Zhu, Zhiyang Chen, Wei Li, Chaoyang Zhao, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang(参考訳) 自然言語処理におけるマスク付き言語モデリング(MLM)にインスパイアされたマスク付き画像モデリング(MIM)は、コンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。 しかし、その高いランダムマスク比は2つの深刻な問題をもたらす。 1) データは効率よく利用されないため、非効率な事前学習(MAE $vs の1600 epochs)をもたらす。 監督官のために300ドルのエポック、そして 2) プリトレーニングモデルである \ie の高い不確実性と不整合は, 異なるマスクラウンドにおいて同一パッチの予測が矛盾する可能性がある。 これらの問題に対処するため,自己整合性を有する効率的なマスク付きオートエンコーダ(EMAE)を提案し,事前学習効率の向上とMIMの整合性の向上を図る。 特に、画像をK個の非重なり部分に段階的に分割し、それぞれがランダムマスクによって生成され、同じマスク比を持つ。 そして、mimタスクをイテレーションのすべての部分で並列に実行し、予測を生成する。 さらに,部分間の重なり合うパッチの予測の一貫性をさらに維持するために,自己整合モジュールを設計する。 提案手法は,データをより効率的に利用し,信頼性の高い表現が得られる。 ImageNet の実験では、EMAE は MAE (1600 epochs) よりも ViT-Base の下で300 の事前学習エポックしか達成していない。 EMAEはまた、オブジェクト検出やセマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送性能を一貫して取得する。

Inspired by masked language modeling (MLM) in natural language processing, masked image modeling (MIM) has been recognized as a strong and popular self-supervised pre-training method in computer vision. However, its high random mask ratio would result in two serious problems: 1) the data are not efficiently exploited, which brings inefficient pre-training (\eg, 1600 epochs for MAE $vs.$ 300 epochs for the supervised), and 2) the high uncertainty and inconsistency of the pre-trained model, \ie, the prediction of the same patch may be inconsistent under different mask rounds. To tackle these problems, we propose efficient masked autoencoders with self-consistency (EMAE), to improve the pre-training efficiency and increase the consistency of MIM. In particular, we progressively divide the image into K non-overlapping parts, each of which is generated by a random mask and has the same mask ratio. Then the MIM task is conducted parallelly on all parts in an iteration and generates predictions. Besides, we design a self-consistency module to further maintain the consistency of predictions of overlapping masked patches among parts. Overall, the proposed method is able to exploit the data more efficiently and obtains reliable representations. Experiments on ImageNet show that EMAE achieves even higher results with only 300 pre-training epochs under ViT-Base than MAE (1600 epochs). EMAE also consistently obtains state-of-the-art transfer performance on various downstream tasks, like object detection, and semantic segmentation.
翻訳日:2023-03-01 17:09:19 公開日:2023-02-28
# シナリオと分岐点が未来のマシンインテリジェンスへ

Scenarios and branch points to future machine intelligence ( http://arxiv.org/abs/2302.14478v1 )

ライセンス: Link先を確認
Koichi Takahashi(参考訳) 我々は、将来のマシンインテリジェンスに関する4つの主要な結果に対するシナリオと分岐点について議論する。 1) 第一および唯一の超知能が決定的な戦略的優位性を得るシングルトンシナリオ。 2 シングルトンシナリオが技術的に否定されるのではなく、人間の社会における政治的その他の要因、または知的エージェント間のマルチエージェント相互作用が単一のエージェントが決定的な戦略的優位性を得るのを妨げる多極性シナリオ。 3)シングルトンシナリオが否定され,多数の自律型知的エージェントが相互依存的かつ事実上停止不能な方法で運用されるエコシステムシナリオ 4) 人間の設計した知的エージェントやその子孫によって達成される認知能力が本質的に人間以下のレベルに限定される上界シナリオ。 1)自律性の制約,(2)自己構造を改善する能力の制約,(3)熱力学の効率に関する制約,(4)物理的なインフラの更新に関する制約,(5)相対的な優位性に対する制約,(6)局所性に対する制約,である。

We discuss scenarios and branch points to four major possible consequences regarding future machine intelligence; 1) the singleton scenario where the first and only super-intelligence acquires a decisive strategic advantage, 2) the multipolar scenario where the singleton scenario is not technically denied but political or other factors in human society or multi-agent interactions between the intelligent agents prevent a single agent from gaining a decisive strategic advantage, 3) the ecosystem scenario where the singleton scenario is denied and many autonomous intelligent agents operate in such a way that they are interdependent and virtually unstoppable, and 4) the upper-bound scenario where cognitive capabilities that can be achieved by human-designed intelligent agents or their descendants are inherently limited to the sub-human level. We identify six major constraints that can form branch points to these scenarios; (1) constraints on autonomy, (2) constraints on the ability to improve self-structure, (3) constraints related to thermodynamics efficiency, (4) constraints on updating physical infrastructure, (5) constraints on relative advantage, and (6) constraints on locality.
翻訳日:2023-03-01 17:02:26 公開日:2023-02-28
# ベンチマークによるdeepart検出

Benchmarking Deepart Detection ( http://arxiv.org/abs/2302.14475v1 )

ライセンス: Link先を確認
Yabin Wang, Zhiwu Huang, Xiaopeng Hong(参考訳) ディープフェイク技術は、現実と非現実の境界を曖昧にしており、おそらく悪質なイベントを引き起こしている。 新たに登場したディープフェイク技術を活用することで、ディープフェイクの研究者たちは、ディープフェイクアート(ディーパート)を作るための大きな進歩を遂げてきた。 本稿では,5つの最先端ディープフェイクモデルによって生成された,高品質な従来のアート画像(conarts)と5つのディープアート画像からなる,deepart detection database(dddb)を構築した。 このデータベースを使うことで、すべてのdeepart検出と継続的なdeepart検出を探索できます。 2つの新しい問題に対して、構築されたDDDB上で4つのベンチマーク評価と4つのソリューションファミリーを提案する。 この包括的研究は、deepart検出のより興味深い方向への道を開くことができる確立されたベンチマークデータセットにおける提案手法の有効性を示している。 構築されたベンチマークデータセットとソースコードが公開される予定だ。

Deepfake technologies have been blurring the boundaries between the real and unreal, likely resulting in malicious events. By leveraging newly emerged deepfake technologies, deepfake researchers have been making a great upending to create deepfake artworks (deeparts), which are further closing the gap between reality and fantasy. To address potentially appeared ethics questions, this paper establishes a deepart detection database (DDDB) that consists of a set of high-quality conventional art images (conarts) and five sets of deepart images generated by five state-of-the-art deepfake models. This database enables us to explore once-for-all deepart detection and continual deepart detection. For the two new problems, we suggest four benchmark evaluations and four families of solutions on the constructed DDDB. The comprehensive study demonstrates the effectiveness of the proposed solutions on the established benchmark dataset, which is capable of paving a way to more interesting directions of deepart detection. The constructed benchmark dataset and the source code will be made publicly available.
翻訳日:2023-03-01 17:02:07 公開日:2023-02-28
# Implicit Bilevel Optimization: Bilevel Optimization Programmingによる微分

Implicit Bilevel Optimization: Differentiating through Bilevel Optimization Programming ( http://arxiv.org/abs/2302.14473v1 )

ライセンス: Link先を確認
Francesco Alesiani(参考訳) 双レベル最適化プログラミングは、ロバストAIやプライバシ保存AIなど、エージェント間の複雑で矛盾するインタラクションをモデル化するために使用される。 したがって、ディープラーニングに二段階数学プログラミングを統合することは、機械学習コミュニティにとって必須の目的である。 以前はシングルレベルプログラミングしか考慮していなかった。 本稿では,既存の単一レベル最適化プログラミングアプローチを拡張し,バイレベルプログラミングを層として使用するモデルのエンドツーエンド学習のためのバイレベル最適化プログラミング(BiGrad)による微分を提案する。 BiGradは幅広い適用性を持ち、現代の機械学習フレームワークで使用することができる。 BiGrad は連続と組合せの両双レベル最適化問題に適用できる。 連続変数の場合、勾配計算は効率的な実装のためにプッシュバックアプローチ(すなわちベクトル-ジャコビアン積)を利用する。 実験によると、bigradは既存のシングルレベルアプローチをバイレベルプログラミングにうまく拡張できた。

Bilevel Optimization Programming is used to model complex and conflicting interactions between agents, for example in Robust AI or Privacy-preserving AI. Integrating bilevel mathematical programming within deep learning is thus an essential objective for the Machine Learning community. Previously proposed approaches only consider single-level programming. In this paper, we extend existing single-level optimization programming approaches and thus propose Differentiating through Bilevel Optimization Programming (BiGrad) for end-to-end learning of models that use Bilevel Programming as a layer. BiGrad has wide applicability and can be used in modern machine learning frameworks. BiGrad is applicable to both continuous and combinatorial Bilevel optimization problems. We describe a class of gradient estimators for the combinatorial case which reduces the requirements in terms of computation complexity; for the case of the continuous variable, the gradient computation takes advantage of the push-back approach (i.e. vector-jacobian product) for an efficient implementation. Experiments show that the BiGrad successfully extends existing single-level approaches to Bilevel Programming.
翻訳日:2023-03-01 17:01:49 公開日:2023-02-28
# 補助材料を用いたl0規則化最小二乗の安全剥離

Safe peeling for l0-regularized least-squares with supplementary material ( http://arxiv.org/abs/2302.14471v1 )

ライセンス: Link先を確認
Th\'eo Guyard, Gilles Monnoyer, Cl\'ement Elvira, C\'edric Herzet(参考訳) 分岐境界法 (BnB) を用いて, l0-正規化最小二乗問題の解法を高速化するために, 「安全剥離」と呼ばれる新しい手法を導入する。 提案手法により,BnB決定木の各ノードで考慮される凸緩和を緩和し,より積極的な刈り取りが可能となる。 シミュレーションにより,提案手法は探索ノード数や解法時間全般において有意な向上をもたらすことが示された。

We introduce a new methodology dubbed ``safe peeling'' to accelerate the resolution of l0-regularized least-squares problems via a Branch-and-Bound (BnB) method. Our procedure enables to tighten the convex relaxation considered at each node of the BnB decision tree and therefore potentially allows for more aggressive pruning. Numerical simulations show that our proposed methodology leads to significant gains in terms of number of nodes explored and overall solving time.
翻訳日:2023-03-01 17:01:33 公開日:2023-02-28
# 3次元シュミレーションを伴わない単視点体積運動の学習

Learning to Estimate Single-View Volumetric Flow Motions without 3D Supervision ( http://arxiv.org/abs/2302.14470v1 )

ライセンス: Link先を確認
Erik Franz (1), Barbara Solenthaler (2 and 3), Nils Thuerey (1) ((1) Technical University of Munich (TUM), (2) ETH Zurich, (3) TUM - Institute for Advanced Study)(参考訳) 本稿では,深層ニューラルネットワークを用いた単眼入力映像から流体中を移動する3次元流れと体積密度を共同で推定する課題を解決する。 このタスクの複雑さにもかかわらず、トレーニングに3D基底真理を必要とせず、対応するネットワークをトレーニングすることが可能であることを示す。 地上の真実データがない場合には、合成再構成に頼るのではなく、実世界の観測装置でモデルを訓練することができる。 本研究では,まず初期プロトタイプのボリュームを生成して,ボリュームの監督を必要とせずに時間とともに移動・輸送することで,教師なしのトレーニングアプローチを可能にする。 我々のアプローチは、画像に基づく損失、敵対的差別者ネットワーク、正規化に依存している。 本手法は,スモークプルームの上昇など入力の目標と密接に一致しながら,長期のシーケンスを安定的に推定することができる。

We address the challenging problem of jointly inferring the 3D flow and volumetric densities moving in a fluid from a monocular input video with a deep neural network. Despite the complexity of this task, we show that it is possible to train the corresponding networks without requiring any 3D ground truth for training. In the absence of ground truth data we can train our model with observations from real-world capture setups instead of relying on synthetic reconstructions. We make this unsupervised training approach possible by first generating an initial prototype volume which is then moved and transported over time without the need for volumetric supervision. Our approach relies purely on image-based losses, an adversarial discriminator network, and regularization. Our method can estimate long-term sequences in a stable manner, while achieving closely matching targets for inputs such as rising smoke plumes.
翻訳日:2023-03-01 17:01:23 公開日:2023-02-28
# saine: 科学的注釈と推論エンジン

SAINE: Scientific Annotation and Inference Engine of Scientific Research ( http://arxiv.org/abs/2302.14468v1 )

ライセンス: Link先を確認
Susie Xi Rao, Yilei Tu, Peter H. Egger(参考訳) 本稿では, Label Studio や MLflow などの標準オープンソースソフトウェアをベースとした,Scientific Annotation and Inference ENgine について紹介する。 アノテーションエンジンはより正確な分類のさらなる発展に有効であることを示す。 階層的分野分類に関するこれまでの研究に基づいて,SAINEを用いた学術出版分野の理解を実証した。 注記結果のユーザスタディは,システムの助けを借りて収集したユーザ入力が,分類プロセスの理解を深める上で有用であることを示す。 私たちの研究は、より透明性を高め、科学的研究をより理解するのに役立ちます。 アノテーションと推論エンジンは、下流のメタサイエンスプロジェクトをさらにサポートします。 これらのプロジェクトに関する科学コミュニティからの協力とフィードバックを歓迎します。 デモビデオはhttps://youtu.be/ytoo-g9yqk4からアクセスできる。 ライブデモサイトはhttps://app.heartex.com/user/signup/? token=e2435a2f97449fa1 無料登録。

We present SAINE, an Scientific Annotation and Inference ENgine based on a set of standard open-source software, such as Label Studio and MLflow. We show that our annotation engine can benefit the further development of a more accurate classification. Based on our previous work on hierarchical discipline classifications, we demonstrate its application using SAINE in understanding the space for scholarly publications. The user study of our annotation results shows that user input collected with the help of our system can help us better understand the classification process. We believe that our work will help to foster greater transparency and better understand scientific research. Our annotation and inference engine can further support the downstream meta-science projects. We welcome collaboration and feedback from the scientific community on these projects. The demonstration video can be accessed from https://youtu.be/yToO-G9YQK4. A live demo website is available at https://app.heartex.com/user/signup/?token=e2435a2f97449fa1 upon free registration.
翻訳日:2023-03-01 17:01:10 公開日:2023-02-28
# 小児虫垂炎に対するインタープリタブル・インターベンタブル超音波ベース機械学習モデル

Interpretable and Intervenable Ultrasonography-based Machine Learning Models for Pediatric Appendicitis ( http://arxiv.org/abs/2302.14460v1 )

ライセンス: Link先を確認
Ri\v{c}ards Marcinkevi\v{c}s, Patricia Reis Wolfertstetter, Ugne Klimiene, Ece Ozkan, Kieran Chin-Cheong, Alyssia Paschke, Julia Zerres, Markus Denzinger, David Niederberger, Sven Wellmann, Christian Knorr, Julia E. Vogt(参考訳) 虫垂炎は小児腹部手術の最も多い原因の一つである。 機械学習の最近の進歩により、データ駆動意思決定サポートは、患者を診断し管理し、非クリティカルな手術の数を減らすのに役立つ。 虫垂炎の診断支援システムは, 腹部超音波を主に無視し, 臨床, 検査, 採点, およびCTデータに重点を置いていた。 そこで我々は,超音波画像を用いた虫垂炎の診断,管理,重症度を予測するための解釈可能な機械学習モデルを開発した。 対象は小児579例, 超音波画像1709例, 臨床・臨床データ, 検査データであった。 我々の方法論的貢献は,複数の視点と不完全概念集合を用いた予測問題に対する概念ボトルネックモデルの一般化である。 特に、そのようなモデルは、パフォーマンスを犠牲にしたり、デプロイ時に時間を要する画像アノテーションを必要とせずに、臨床医に理解可能な高レベルな概念による解釈と相互作用に役立ちます。

Appendicitis is among the most frequent reasons for pediatric abdominal surgeries. With recent advances in machine learning, data-driven decision support could help clinicians diagnose and manage patients while reducing the number of non-critical surgeries. Previous decision support systems for appendicitis focused on clinical, laboratory, scoring and computed tomography data, mainly ignoring abdominal ultrasound, a noninvasive and readily available diagnostic modality. To this end, we developed and validated interpretable machine learning models for predicting the diagnosis, management and severity of suspected appendicitis using ultrasound images. Our models were trained on a dataset comprising 579 pediatric patients with 1709 ultrasound images accompanied by clinical and laboratory data. Our methodological contribution is the generalization of concept bottleneck models to prediction problems with multiple views and incomplete concept sets. Notably, such models lend themselves to interpretation and interaction via high-level concepts understandable to clinicians without sacrificing performance or requiring time-consuming image annotation when deployed.
翻訳日:2023-03-01 17:00:55 公開日:2023-02-28
# 深部ニューラルネットワークの超低精度乗算学習

Ultra-low Precision Multiplication-free Training for Deep Neural Networks ( http://arxiv.org/abs/2302.14458v1 )

ライセンス: Link先を確認
Chang Liu, Rui Zhang, Xishan Zhang, Yifan Hao, Zidong Du, Xing Hu, Ling Li, Qi Guo(参考訳) 深層ニューラルネットワーク(dnn)のトレーニングでは、大量のエネルギー消費が要求されるため、ディープラーニングの開発と二酸化炭素排出量の増加が制限される。 したがって、DNNのエネルギー効率向上に関する研究は不可欠である。 訓練において、線形層はエネルギー消費フル精度(FP32)の乗算を乗算(MAC)に強く利用するため、最もエネルギーを消費する。 エネルギー効率の良い研究は、乗算の精度を下げるか、加算やビットシフトなどのエネルギー効率の高い演算に置き換え、FP32乗算のエネルギー消費を減少させようとする。 しかし、既存のエネルギー効率の高い作業は、フォワードおよび後方伝播中の全てのFP32乗法を低精度のエネルギー効率で置き換えることはできない。 本研究では,FP32 の乗算を INT4 の追加と 1-bit XOR 演算に置き換えるため,適応層スケール PoT 量子化 (ALS-POTQ) 法と乗算自由MAC (MF-MAC) 法を提案する。 さらに、安定トレーニングと精度向上のための重み付きバイアス補正およびパラメータ化比クリッピング手法を提案する。 トレーニング手法では, 上記の手法はすべて余剰乗算を導入しないので, トレーニング中の線形層におけるエネルギー消費量の最大95.8%を削減できる。 実験により、WMT En-DeタスクのImageNetおよびTransformerモデルにおいて、CNNモデルに対して1%未満の精度劣化を実現する。 要約すると、エネルギー効率と精度の両面で既存の手法よりも優れている。

The training for deep neural networks (DNNs) demands immense energy consumption, which restricts the development of deep learning as well as increases carbon emissions. Thus, the study of energy-efficient training for DNNs is essential. In training, the linear layers consume the most energy because of the intense use of energy-consuming full-precision (FP32) multiplication in multiply-accumulate (MAC). The energy-efficient works try to decrease the precision of multiplication or replace the multiplication with energy-efficient operations such as addition or bitwise shift, to reduce the energy consumption of FP32 multiplications. However, the existing energy-efficient works cannot replace all of the FP32 multiplications during both forward and backward propagation with low-precision energy-efficient operations. In this work, we propose an Adaptive Layer-wise Scaling PoT Quantization (ALS-POTQ) method and a Multiplication-Free MAC (MF-MAC) to replace all of the FP32 multiplications with the INT4 additions and 1-bit XOR operations. In addition, we propose Weight Bias Correction and Parameterized Ratio Clipping techniques for stable training and improving accuracy. In our training scheme, all of the above methods do not introduce extra multiplications, so we reduce up to 95.8% of the energy consumption in linear layers during training. Experimentally, we achieve an accuracy degradation of less than 1% for CNN models on ImageNet and Transformer model on the WMT En-De task. In summary, we significantly outperform the existing methods for both energy efficiency and accuracy.
翻訳日:2023-03-01 17:00:38 公開日:2023-02-28
# 量子計算用ファイバシステムにおける低損失偏光制御

Low-loss polarization control in fiber systems for quantum computation ( http://arxiv.org/abs/2302.14454v1 )

ライセンス: Link先を確認
Tomohiro Nakamura, Takefumi Nomura, Mamoru Endo, He Ruofan, Takahiro Kashiwazaki, Takeshi Umeki, Jun-ichi Yoshikawa, and Akira Furusawa(参考訳) 光量子情報処理は、量子光の干渉を利用する。 しかし、干渉計が光ファイバで構成されている場合、有限偏光消滅率による干渉視認性の低下が問題となる。 本稿では,poincar\'{e}球面上の2つの円軌道の交差点への偏光を制御して干渉視認性を最適化する手法を提案する。 本手法は、ファイバストレッチャーを偏光制御器として用いることで、量子光に不可欠な低光損失による可視性を最大化する。 また,光損失0.02dB(0.5%)のファイバストレッチャーを用いて,視界を99.9%以上3時間維持する手法を実験的に実証した。 本手法は, 実用的な耐故障性光量子コンピュータのためのファイバシステムを実現する。

Optical quantum information processing exploits interference of quantum light. However, when the interferometer is composed of optical fibers, degradation of interference visibility due to the finite polarization extinction ratio becomes a problem. Here we propose a method to optimize interference visibility by controlling the polarizations to a crosspoint of two circular trajectories on the Poincar\'{e} sphere. Our method maximizes visibility with low optical loss, which is essential for quantum light, by using fiber stretchers as polarization controllers. We also experimentally demonstrate our method, where the visibility was maintained basically above 99.9% for three hours using fiber stretchers with an optical loss of 0.02 dB (0.5%). Our method makes fiber systems promising for practical fault-tolerant optical quantum computers.
翻訳日:2023-03-01 17:00:16 公開日:2023-02-28
# 少ない被写体検出に有効なクロップペーストパイプライン

An Effective Crop-Paste Pipeline for Few-shot Object Detection ( http://arxiv.org/abs/2302.14452v1 )

ライセンス: Link先を確認
Shaobo Lin, Kun Wang, Xingyu Zeng, Rui Zhao(参考訳) Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。 しかし、少数のサンプルしか持たない新しいカテゴリの検出は、通常、誤分類の問題につながる。 FSODでは,新規カテゴリーの偽陽性(FP)が顕著であり,基本カテゴリーは新規カテゴリーと認識されることが多い。 この問題に対処するために, cnpbと呼ばれる, 新規インスタンスを抽出し, 選択したベースイメージにペーストする新しいデータ拡張パイプラインを提案する。 1) 有用なベースイメージをどのように選択するか? そして(2)新しいデータとベースデータを組み合わせるには? 有用なベースデータを見つけるために,多段階選択戦略を設計する。 具体的には、まず、新しいカテゴリのFPを含むベースイメージを発見し、そのベースと新しいカテゴリのバランスのために、一定の量のサンプルを選択する。 そして、CLIPを使用して、未ラベルの基底画像や容易に混乱したベースインスタンスなどの悪いケースを除去する。 最後に、n の FP の基底画像上に、n の新規なインスタンスをペーストする同じカテゴリ戦略が採用されている。 組み合わせの間、新規インスタンスをトリミングしてランダムにダウンサイズし、選択されたベース画像内のランダムに生成された候補から割り当てられた最適な位置にペーストする。 本手法は単純かつ効果的であり,既存のfsodメソッドへの接続が容易であり,有用性が示唆される。 PASCAL VOCおよびMS COCOの大規模実験により,本法の有効性が検証された。

Few-shot object detection (FSOD) aims to expand an object detector for novel categories given only a few instances for training. However, detecting novel categories with only a few samples usually leads to the problem of misclassification. In FSOD, we notice the false positive (FP) of novel categories is prominent, in which the base categories are often recognized as novel ones. To address this issue, a novel data augmentation pipeline that Crops the Novel instances and Pastes them on the selected Base images, called CNPB, is proposed. There are two key questions to be answered: (1) How to select useful base images? and (2) How to combine novel and base data? We design a multi-step selection strategy to find useful base data. Specifically, we first discover the base images which contain the FP of novel categories and select a certain amount of samples from them for the base and novel categories balance. Then the bad cases, such as the base images that have unlabeled ground truth or easily confused base instances, are removed by using CLIP. Finally, the same category strategy is adopted, in which a novel instance with category n is pasted on the base image with the FP of n. During combination, a novel instance is cropped and randomly down-sized, and thus pasted at the assigned optimal location from the randomly generated candidates in a selected base image. Our method is simple yet effective and can be easy to plug into existing FSOD methods, demonstrating significant potential for use. Extensive experiments on PASCAL VOC and MS COCO validate the effectiveness of our method.
翻訳日:2023-03-01 17:00:03 公開日:2023-02-28
# 任意形状の位相物体の光学パラメータ推定精度の量子限界

Quantum limits for the precision of optical parameter estimation of arbitrarily shaped phase objects ( http://arxiv.org/abs/2302.14504v1 )

ライセンス: Link先を確認
Arturo Villegas, Marcello H. M. Passos, Juan P. Torres(参考訳) 量子推定理論のツールを用いて、位相対象を特徴付けるパラメータを推定するための精度境界を求める。 単一光子状態の N コピーと平均光子数 N のコヒーレント状態の 2 つの実験的な種類の多モード量子状態に対して Cr\`amer-Rao の下界を計算する。 これらの結果を用いて、光ファイバの分散パラメータと、半導体回路に関連する崖状のナノ構造の高さと側壁角度を推定する。

Using tools from quantum estimation theory, we derive precision bounds for the estimation of parameters that characterize phase objects. We compute the Cr\`amer-Rao lower bound for two experimentally relevant types of multimode quantum states: N copies of a single-photon state and a coherent state with mean photon number N. We show that the equivalence between them depends on the symmetry of the phase. We apply these results to estimate the dispersion parameters of an optical fiber as well as the height and sidewall angle of a cliff-like nanostructure, relevant for semiconductor circuits.
翻訳日:2023-03-01 16:54:03 公開日:2023-02-28
# 拡散確率モデルによる3次元運動予測は可能か?

Can We Use Diffusion Probabilistic Models for 3D Motion Prediction? ( http://arxiv.org/abs/2302.14503v1 )

ライセンス: Link先を確認
Hyemin Ahn, Esteve Valls Mascaro, Dongheui Lee(参考訳) 最近の拡散確率モデルから多くの研究者が実りを観察した後、画像生成におけるその効果は近年活発に研究されている。 本稿では,3次元動作関連課題に対する拡散確率モデルの可能性を評価することを目的とする。 そこで本研究では, 拡散確率モデルを用いて, 前回観測した動きから将来の3次元人間の動きを予測する手法を提案する。 我々は,Human 3.6MとHumanEva-Iデータセットに基づいて,拡散確率モデルが単一(決定論的)かつ複数(確率的)な3次元動作予測タスクに対して,単一のトレーニングプロセス終了後に競合することを示した。 さらに,拡散確率モデルが,予測される将来の動きの確率と多様性の適切なバランスをとることができるため,魅力的な妥協をもたらすことが判明した。 私たちのコードはプロジェクトのWebサイト(https://sites.google.com/view/diffusion-motion-prediction)で公開されています。

After many researchers observed fruitfulness from the recent diffusion probabilistic model, its effectiveness in image generation is actively studied these days. In this paper, our objective is to evaluate the potential of diffusion probabilistic models for 3D human motion-related tasks. To this end, this paper presents a study of employing diffusion probabilistic models to predict future 3D human motion(s) from the previously observed motion. Based on the Human 3.6M and HumanEva-I datasets, our results show that diffusion probabilistic models are competitive for both single (deterministic) and multiple (stochastic) 3D motion prediction tasks, after finishing a single training process. In addition, we find out that diffusion probabilistic models can offer an attractive compromise, since they can strike the right balance between the likelihood and diversity of the predicted future motions. Our code is publicly available on the project website: https://sites.google.com/view/diffusion-motion-prediction.
翻訳日:2023-03-01 16:53:52 公開日:2023-02-28
# 変圧器を用いた長文モデリングに関する研究

A Survey on Long Text Modeling with Transformers ( http://arxiv.org/abs/2302.14502v1 )

ライセンス: Link先を確認
Zican Dong, Tianyi Tang, Lunyi Li and Wayne Xin Zhao(参考訳) 長文のモデリングは自然言語処理(NLP)の分野で重要な技術である。 長い文書の数が増え続ける中、そのようなテキストを処理し分析できる効果的なモデリング手法を開発することが重要である。 しかし、長いテキストは、より複雑な意味論と特別な特徴を持つ既存のテキストモデルにとって重要な研究課題となる。 本稿では,トランスフォーマーモデルに基づく長文モデリングの最近の進歩について概説する。 まず,長文モデリングの形式的定義を紹介する。 そして,コアコンテンツとして,長さ制限を満たすために長い入力をいかに処理するかを議論し,最大文脈長を効果的に拡張するためにトランスフォーマーアーキテクチャを改良した。 次に, 長文の特殊特性を捉えるためにトランスフォーマーモデルを適応させる方法について述べる。 最後に,長文モデリングを含む4つの典型的なアプリケーションについて述べるとともに,今後の方向性について考察する。 本調査は,長文モデリングに関する研究の合成とポインタを研究者に提供することを目的としている。

Modeling long texts has been an essential technique in the field of natural language processing (NLP). With the ever-growing number of long documents, it is important to develop effective modeling methods that can process and analyze such texts. However, long texts pose important research challenges for existing text models, with more complex semantics and special characteristics. In this paper, we provide an overview of the recent advances on long texts modeling based on Transformer models. Firstly, we introduce the formal definition of long text modeling. Then, as the core content, we discuss how to process long input to satisfy the length limitation and design improved Transformer architectures to effectively extend the maximum context length. Following this, we discuss how to adapt Transformer models to capture the special characteristics of long texts. Finally, we describe four typical applications involving long text modeling and conclude this paper with a discussion of future directions. Our survey intends to provide researchers with a synthesis and pointer to related work on long text modeling.
翻訳日:2023-03-01 16:53:36 公開日:2023-02-28
# FreeEagle: データフリーケースにおける複雑なニューラルトロイの木馬の検出

FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases ( http://arxiv.org/abs/2302.14500v1 )

ライセンス: Link先を確認
Chong Fu, Xuhong Zhang, Shouling Ji, Ting Wang, Peng Lin, Yanghe Feng, Jianwei Yin(参考訳) バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。 トロイの木馬ニューラルネットワークは通常クリーンな入力で振る舞う。 しかし、入力が特定のトリガーを含む場合、トロイの木馬モデルはアタッカー・チョーセン異常挙動を持つ。 多くのバックドア検出方法が存在するが、ほとんどの場合、ディフェンダーは、モデル共有プラットフォームの保守者である場合など、いくつかの重要な現実世界のケースでは保持されない、クリーンなバリデーションサンプルやトリガー付きサンプルにアクセスすることができると仮定している。 そこで本稿では,ディープニューラルネットワークにおける複雑なバックドア攻撃を,トリガーによるクリーンなサンプルやサンプルへのアクセスに頼らずに効果的に検出できる,初のデータフリーバックドア検出手法であるfreeeagleを提案する。 多様なデータセットとモデルアーキテクチャによる評価結果は、FreeEagleが様々な複雑なバックドア攻撃に対して有効であることを示している。

Trojan attack on deep neural networks, also known as backdoor attack, is a typical threat to artificial intelligence. A trojaned neural network behaves normally with clean inputs. However, if the input contains a particular trigger, the trojaned model will have attacker-chosen abnormal behavior. Although many backdoor detection methods exist, most of them assume that the defender has access to a set of clean validation samples or samples with the trigger, which may not hold in some crucial real-world cases, e.g., the case where the defender is the maintainer of model-sharing platforms. Thus, in this paper, we propose FreeEagle, the first data-free backdoor detection method that can effectively detect complex backdoor attacks on deep neural networks, without relying on the access to any clean samples or samples with the trigger. The evaluation results on diverse datasets and model architectures show that FreeEagle is effective against various complex backdoor attacks, even outperforming some state-of-the-art non-data-free backdoor detection methods.
翻訳日:2023-03-01 16:53:21 公開日:2023-02-28
# ウズベク語のテキスト分類データセットと解析

Text classification dataset and analysis for Uzbek language ( http://arxiv.org/abs/2302.14494v1 )

ライセンス: Link先を確認
Elmurod Kuriyozov, Ulugbek Salaev, Sanatbek Matlatipov, Gayrat Matlatipov(参考訳) テキスト分類は自然言語処理(NLP)において重要な課題であり、テキストデータを事前に定義されたクラスに分類することが目的である。 本研究では,テキスト分類の一環として,マルチラベルニュース分類タスクのデータセット作成手順と評価手法を分析した。 まず,新たに得られたウズベク語テキスト分類データセットを10種類のニュース・報道サイトから収集し,15種類のニュース・報道・法律テキストを網羅した。 また,この新たなデータセット上で,従来の単語の袋モデルからディープラーニングアーキテクチャまで,さまざまなモデルの包括的評価を行う。 実験の結果,recurrent neural network (rnn) とconvolutional neural network (cnn) のモデルがルールベースモデルよりも優れていることがわかった。 最高のパフォーマンスは、Uzbekコーパスでトレーニングされた変換器ベースのBERTモデルであるBERTbekモデルによって達成される。 本研究は,ウズベク語テキスト分類のさらなる研究に有効なベースラインを提供する。

Text classification is an important task in Natural Language Processing (NLP), where the goal is to categorize text data into predefined classes. In this study, we analyse the dataset creation steps and evaluation techniques of multi-label news categorisation task as part of text classification. We first present a newly obtained dataset for Uzbek text classification, which was collected from 10 different news and press websites and covers 15 categories of news, press and law texts. We also present a comprehensive evaluation of different models, ranging from traditional bag-of-words models to deep learning architectures, on this newly created dataset. Our experiments show that the Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN) based models outperform the rule-based models. The best performance is achieved by the BERTbek model, which is a transformer-based BERT model trained on the Uzbek corpus. Our findings provide a good baseline for further research in Uzbek text classification.
翻訳日:2023-03-01 16:53:03 公開日:2023-02-28
# MR画像による頭部運動の推定

Estimating Head Motion from MR-Images ( http://arxiv.org/abs/2302.14490v1 )

ライセンス: Link先を確認
Clemens Pollak, David K\"ugler and Martin Reuter(参考訳) 頭部運動は、視覚的品質制御を行っても、形態計測に系統的に影響を及ぼすため、MRI(MRI)解析の総称である。 専門家が検出していない微妙な頭部運動を推定するために,t1重み付き (t1w), t2重み付き (t2w), fluid-attenuated inversion recovery (flair) 画像から直接スキャナー内頭部運動を予測するための深層学習法を提案する。 Rhineland Study(Rhineland Study)の健康な参加者のデータを分析した結果、頭部の動きや画像のアーチファクトは、ほとんどの臨床コホートよりも一般的でなく、検出も困難である。 本手法は,最先端動作推定法と比較して性能が向上し,ドリフト運動と呼吸運動を独立に定量化できることを示す。 最後に、未発見のデータでは、我々の予測は年齢と既知の有意な相関を保つ。

Head motion is an omnipresent confounder of magnetic resonance image (MRI) analyses as it systematically affects morphometric measurements, even when visual quality control is performed. In order to estimate subtle head motion, that remains undetected by experts, we introduce a deep learning method to predict in-scanner head motion directly from T1-weighted (T1w), T2-weighted (T2w) and fluid-attenuated inversion recovery (FLAIR) images using motion estimates from an in-scanner depth camera as ground truth. Since we work with data from compliant healthy participants of the Rhineland Study, head motion and resulting imaging artifacts are less prevalent than in most clinical cohorts and more difficult to detect. Our method demonstrates improved performance compared to state-of-the-art motion estimation methods and can quantify drift and respiration movement independently. Finally, on unseen data, our predictions preserve the known, significant correlation with age.
翻訳日:2023-03-01 16:52:47 公開日:2023-02-28
# Fusion Transformerにおける階層型スケーラブルクエリによる分類の強化

Enhancing Classification with Hierarchical Scalable Query on Fusion Transformer ( http://arxiv.org/abs/2302.14487v1 )

ライセンス: Link先を確認
Sudeep Kumar Sahoo, Sathish Chalasani, Abhishek Joshi and Kiran Nanjunda Iyer(参考訳) 実世界のビジョンベースのアプリケーションは、電子商取引、モバイルアプリケーション、倉庫管理など、さまざまな分野の詳細な分類を必要とし、ミスの深刻度を低減し、分類精度を向上させることが最も重要である。 本稿では,学習可能な独立クエリ埋め込みによる階層的アプローチによる細粒度分類の促進手法を提案する。 これは、粗いクラス予測を使用して、段階的な逐次的な方法で正確なクラス精度を改善する分類ネットワークによって達成される。 階層構造の概念を利用して、あらゆるレベルにわたってスケーラブルなクエリ埋め込みを学習するので、クラスが多数存在する極端な分類においても、これは関連するアプローチになります。 クエリは、トレーニングサンプルから算出した重み付きEigenイメージで初期化され、オブジェクトの分散を最もよく表現し、キャプチャする。 そこで我々は,問合せを行う中間層を融合するトランスフォーマティブブロックを導入し,異なるスケールで特徴マップの空間表現を強化する。 このマルチスケール融合は、小型物体の精度を向上させる。 学習可能なクエリのユニークな表現のための2つのアプローチを提案する。 まず、各階層レベルでクラスタベースの損失を利用して、クラス間のクエリの埋め込みを最大限に分離し、高次元空間におけるより良い(クエリ)表現の学習を支援する。 第二に、学習スケールファクターによって重み付けされたより細かいレベルのクエリで粗いレベルのクエリを融合する。 さらに,マルチレベルクエリにクロス・アテンション(cross attention)と呼ばれる新しいブロックを導入することで,全階層分類器において一般的な問題である粗いレベルから細かいレベルへのエラー伝搬を低減できる。 本手法は, 粒度分類において, 〜11%の精度で既存手法を上回ることができる。

Real-world vision based applications require fine-grained classification for various area of interest like e-commerce, mobile applications, warehouse management, etc. where reducing the severity of mistakes and improving the classification accuracy is of utmost importance. This paper proposes a method to boost fine-grained classification through a hierarchical approach via learnable independent query embeddings. This is achieved through a classification network that uses coarse class predictions to improve the fine class accuracy in a stage-wise sequential manner. We exploit the idea of hierarchy to learn query embeddings that are scalable across all levels, thus making this a relevant approach even for extreme classification where we have a large number of classes. The query is initialized with a weighted Eigen image calculated from training samples to best represent and capture the variance of the object. We introduce transformer blocks to fuse intermediate layers at which query attention happens to enhance the spatial representation of feature maps at different scales. This multi-scale fusion helps improve the accuracy of small-size objects. We propose a two-fold approach for the unique representation of learnable queries. First, at each hierarchical level, we leverage cluster based loss that ensures maximum separation between inter-class query embeddings and helps learn a better (query) representation in higher dimensional spaces. Second, we fuse coarse level queries with finer level queries weighted by a learned scale factor. We additionally introduce a novel block called Cross Attention on Multi-level queries with Prior (CAMP) Block that helps reduce error propagation from coarse level to finer level, which is a common problem in all hierarchical classifiers. Our method is able to outperform the existing methods with an improvement of ~11% at the fine-grained classification.
翻訳日:2023-03-01 16:52:27 公開日:2023-02-28
# TrainSim:LiDARとカメラデータセット生成のための鉄道シミュレーションフレームワーク

TrainSim: A Railway Simulation Framework for LiDAR and Camera Dataset Generation ( http://arxiv.org/abs/2302.14486v1 )

ライセンス: Link先を確認
Gianluca D'Amico, Mauro Marinoni, Federico Nesti, Giulio Rossolini, Giorgio Buttazzo, Salvatore Sabina, Gianluigi Lauro(参考訳) 鉄道産業は、カメラ、ライダー、ホイールエンコーダ、慣性測定ユニットなど、様々な種類のセンサーを通して鉄道環境を人工的に知覚することを必要とする、物体検出、軌道識別、正確な列車位置推定など、多くの複雑な列車機能を自動化する新しい方法を模索している。 このような感覚データを処理するための有望なアプローチは、ロボット工学や自動運転車など、他のアプリケーション領域で優れたパフォーマンスを達成できたディープラーニングモデルの利用である。 しかし、新しいアルゴリズムとソリューションをテストするには、異なるシナリオと運用条件で取得された大量のラベル付きデータが必要である。これは、線路脇のインフラにアクセスし、必要なセンサーを装備する上で、厳格な規制と実践的な制約のために、実際の鉄道環境では入手が困難である。 そこで本稿では,仮想環境において現実的な鉄道シナリオを生成でき,エミュレートされたライダーやカメラから慣性データやラベル付きデータセットを自動的に生成し,ディープニューラルネットワークのトレーニングや革新的なアルゴリズムのテストに有用なビジュアルシミュレーションフレームワークを提案する。 提案手法の有効性を示す実験結果が報告されている。

The railway industry is searching for new ways to automate a number of complex train functions, such as object detection, track discrimination, and accurate train positioning, which require the artificial perception of the railway environment through different types of sensors, including cameras, LiDARs, wheel encoders, and inertial measurement units. A promising approach for processing such sensory data is the use of deep learning models, which proved to achieve excellent performance in other application domains, as robotics and self-driving cars. However, testing new algorithms and solutions requires the availability of a large amount of labeled data, acquired in different scenarios and operating conditions, which are difficult to obtain in a real railway setting due to strict regulations and practical constraints in accessing the trackside infrastructure and equipping a train with the required sensors. To address such difficulties, this paper presents a visual simulation framework able to generate realistic railway scenarios in a virtual environment and automatically produce inertial data and labeled datasets from emulated LiDARs and cameras useful for training deep neural networks or testing innovative algorithms. A set of experimental results are reported to show the effectiveness of the proposed approach.
翻訳日:2023-03-01 16:51:57 公開日:2023-02-28
# 協調物体検出のためのメモリ支援コンセンサス学習

Memory-aided Contrastive Consensus Learning for Co-salient Object Detection ( http://arxiv.org/abs/2302.14485v1 )

ライセンス: Link先を確認
Peng Zheng, Jie Qin, Shuo Wang, Tian-Zhu Xiang, Huan Xiong(参考訳) cosod(co-salient object detection)は、関連するソースイメージのグループ内で共通のサルエントオブジェクトを検出することを目的としている。 最新の研究のほとんどは、共通のオブジェクトを見つけるための注意メカニズムを採用している。 高品質な地図と高効率で正確なCoSOD結果を実現するために,コサレントオブジェクト(約110fps)をリアルタイムに検出可能な,メモリ支援コントラスト学習(MCCL)フレームワークを提案する。 グループコンセンサスを改善するために,各画像群の共通特徴を抽象化するグループコンセンサスアグリゲーションモジュール (gcam) を提案する。一方,コンセンサス表現をより識別的にするために,メモリキュー内の異なるグループからのイメージコンセンサスを保存・更新するメモリベースコントラストモジュール (mcm) を導入する。 最後に,予測地図の品質と整合性を改善するため,周辺雑音の少ない完全物体からなるセグメント領域をより高次に構築するAdversarial Integrity Learning(AIL)戦略を開発した。 最新のCoSODベンチマークに関する大規模な実験により、私たちのMCCLは13の最先端モデルより優れており、新しい技術(それぞれCoSOD3kとCoSal2015のS測定の改善は5.9%と6.2%)を達成している。 私たちのソースコード、唾液マップ、オンラインデモはhttps://github.com/ZhengPeng7/MCCLで公開されています。

Co-Salient Object Detection (CoSOD) aims at detecting common salient objects within a group of relevant source images. Most of the latest works employ the attention mechanism for finding common objects. To achieve accurate CoSOD results with high-quality maps and high efficiency, we propose a novel Memory-aided Contrastive Consensus Learning (MCCL) framework, which is capable of effectively detecting co-salient objects in real time (~110 fps). To learn better group consensus, we propose the Group Consensus Aggregation Module (GCAM) to abstract the common features of each image group; meanwhile, to make the consensus representation more discriminative, we introduce the Memory-based Contrastive Module (MCM), which saves and updates the consensus of images from different groups in a queue of memories. Finally, to improve the quality and integrity of the predicted maps, we develop an Adversarial Integrity Learning (AIL) strategy to make the segmented regions more likely composed of complete objects with less surrounding noise. Extensive experiments on all the latest CoSOD benchmarks demonstrate that our lite MCCL outperforms 13 cutting-edge models, achieving the new state of the art (~5.9% and ~6.2% improvement in S-measure on CoSOD3k and CoSal2015, respectively). Our source codes, saliency maps, and online demos are publicly available at https://github.com/ZhengPeng7/MCCL.
翻訳日:2023-03-01 16:51:34 公開日:2023-02-28
# RoPAWS: 未処理データからのロバストな半教師付き表現学習

RoPAWS: Robust Semi-supervised Representation Learning from Uncurated Data ( http://arxiv.org/abs/2302.14483v1 )

ライセンス: Link先を確認
Sangwoo Mo, Jong-Chyi Su, Chih-Yao Ma, Mido Assran, Ishan Misra, Licheng Yu, Sean Bell(参考訳) 半教師付き学習は限定ラベルを使ってモデルを訓練することを目的としている。 pawsのような画像分類のための最先端の半教師あり手法は、大規模なラベルのないキュレーションデータで学習された自己教師あり表現に依存している。 しかしながら、PAWSは、例えばクラス外データを含むような未ラベルの実際のデータを使用する場合、しばしば効果が低い。 我々は、現実世界のラベルなしデータを扱うことができるPAWSの堅牢な拡張であるRoPAWSを提案する。 まず、カーネル密度推定を用いて密度をモデル化する生成分類器として、PAWSを再解釈する。 この確率論的観点からは、ラベル付きデータとラベルなしデータの密度に基づいて予測を校正し、ベイズの法則から単純なクローズドフォームソリューションへと導く。 我々は、RoPAWSが未処理のSemi-iNatのPAWSを+5.3%改善し、ImageNetを+0.4%改善したことを実証した。

Semi-supervised learning aims to train a model using limited labels. State-of-the-art semi-supervised methods for image classification such as PAWS rely on self-supervised representations learned with large-scale unlabeled but curated data. However, PAWS is often less effective when using real-world unlabeled data that is uncurated, e.g., contains out-of-class data. We propose RoPAWS, a robust extension of PAWS that can work with real-world unlabeled data. We first reinterpret PAWS as a generative classifier that models densities using kernel density estimation. From this probabilistic perspective, we calibrate its prediction based on the densities of labeled and unlabeled data, which leads to a simple closed-form solution from the Bayes' rule. We demonstrate that RoPAWS significantly improves PAWS for uncurated Semi-iNat by +5.3% and curated ImageNet by +0.4%.
翻訳日:2023-03-01 16:51:00 公開日:2023-02-28
# AdaptiveShape:幾何学的アンカー分布を考慮した3次元物体検出のための形状変数の解法

AdaptiveShape: Solving Shape Variability for 3D Object Detection with Geometry Aware Anchor Distributions ( http://arxiv.org/abs/2302.14522v1 )

ライセンス: Link先を確認
Benjamin Sick, Michael Walter, Jochen Abhau(参考訳) 点群と画像を用いた3次元物体検出は、自動運転などの知覚タスクにおいて重要な役割を果たす。 現在の方法は、標準形車両の検出と姿勢推定において優れた性能を示すが、セミトレーラートラックの組み合わせのようなより複雑な形状に欠ける。 これらの特殊車両の形状と動きを正確に決定することは、ヤード操作や操縦、産業自動化の応用において不可欠である。 この研究は、そのようなクラスのパフォーマンスを改善し、測定するいくつかの新しい方法を紹介します。 State-of-the-artメソッドは、既定のアンカーグリッドや、地上真実のターゲットのヒートマップに基づいている。 しかし、基礎となる表現は異なる大きさの物体の形を考慮に入れていない。 当社の主な貢献であるadaptiveshapeは、形状認識アンカー分布とヒートマップを使用して検出能力を高めています。 大型車両では、現在の形状に依存しない方法と比較して+10.9%APを達成する。 さらに,新しい高速LiDARカメラ融合を導入する。 これは、多くの処理パイプラインで利用可能な2Dバウンディングボックスカメラ検出に基づいている。 この融合法は、完全に校正または時間的に同期されたシステムに依存しないので、幅広いロボット応用に適用できる。 時間的データを考慮した標準的なポイントピラーネットワークを拡張し,複雑な物体の動きの学習を改善する。 さらに,本研究では,従来の増量法に比べて,トラックAPを+2.2%向上させるため,グループ化されたオブジェクトペアを使用するための基礎的真理増倍法を拡張した。

3D object detection with point clouds and images plays an important role in perception tasks such as autonomous driving. Current methods show great performance on detection and pose estimation of standard-shaped vehicles but lack behind on more complex shapes as e.g. semi-trailer truck combinations. Determining the shape and motion of those special vehicles accurately is crucial in yard operation and maneuvering and industrial automation applications. This work introduces several new methods to improve and measure the performance for such classes. State-of-the-art methods are based on predefined anchor grids or heatmaps for ground truth targets. However, the underlying representations do not take the shape of different sized objects into account. Our main contribution, AdaptiveShape, uses shape aware anchor distributions and heatmaps to improve the detection capabilities. For large vehicles we achieve +10.9% AP in comparison to current shape agnostic methods. Furthermore we introduce a new fast LiDAR-camera fusion. It is based on 2D bounding box camera detections which are available in many processing pipelines. This fusion method does not rely on perfectly calibrated or temporally synchronized systems and is therefore applicable to a broad range of robotic applications. We extend a standard point pillar network to account for temporal data and improve learning of complex object movements. In addition we extended a ground truth augmentation to use grouped object pairs to further improve truck AP by +2.2% compared to conventional augmentation.
翻訳日:2023-03-01 16:45:26 公開日:2023-02-28
# steganography (複数形 steganographys)

Steganography of Steganographic Networks ( http://arxiv.org/abs/2302.14521v1 )

ライセンス: Link先を確認
Guobiao Li, Sheng Li, Meiling Li, Xinpeng Zhang, Zhenxing Qian(参考訳) ステガノグラフィー(英: Steganography)は、2つの当事者間の秘密の通信技術である。 近年、ディープニューラルネットワーク(DNN)の急速な発展に伴い、より多くのステガノグラフィーネットワークが提案され、優れたパフォーマンスを実現することが期待されている。 伝統的な手作りのステガノグラフィーツールとは異なり、ステガノグラフィーのネットワークは比較的大きい。 これは、現実世界のアプリケーションにおけるステガノグラフィーのパイプラインの重要な段階である公共のチャンネルでステガノグラフィーネットワークを隠密に送信する方法に関する懸念を提起する。 このような問題に対処するため、本稿では、ステガノグラフィーネットワークのステガノグラフィーのための新しいスキームを提案する。 既存のステガノグラフィーとは異なり、秘密に対応するためにカバーデータの微妙な変更に焦点を当てている。 本稿では、ステガノグラフィーネットワーク(シークレットDNNモデルとみなす)を、通常の機械学習タスク(ステゴタスクとみなす)を実行するステゴDNNモデルに偽装することを提案する。 モデル検証中に,秘密dnnモデルにおけるフィルタのサブセットを選択してチューニングし,その機能を秘密タスクに保持し,残りのフィルタを部分最適化戦略に従って再活性化し,秘密dnnモデル全体をstego dnnモデルに偽装する。 シークレットDNNモデルは、必要に応じてステゴDNNモデルから復元することができる。 ステガノグラフィーネットワークと一般的なdnnモデルとの密接な通信における提案手法の利点を実証するために,様々な実験を行った。

Steganography is a technique for covert communication between two parties. With the rapid development of deep neural networks (DNN), more and more steganographic networks are proposed recently, which are shown to be promising to achieve good performance. Unlike the traditional handcrafted steganographic tools, a steganographic network is relatively large in size. It raises concerns on how to covertly transmit the steganographic network in public channels, which is a crucial stage in the pipeline of steganography in real world applications. To address such an issue, we propose a novel scheme for steganography of steganographic networks in this paper. Unlike the existing steganographic schemes which focus on the subtle modification of the cover data to accommodate the secrets. We propose to disguise a steganographic network (termed as the secret DNN model) into a stego DNN model which performs an ordinary machine learning task (termed as the stego task). During the model disguising, we select and tune a subset of filters in the secret DNN model to preserve its function on the secret task, where the remaining filters are reactivated according to a partial optimization strategy to disguise the whole secret DNN model into a stego DNN model. The secret DNN model can be recovered from the stego DNN model when needed. Various experiments have been conducted to demonstrate the advantage of our proposed method for covert communication of steganographic networks as well as general DNN models.
翻訳日:2023-03-01 16:45:04 公開日:2023-02-28
# 翻訳品質評価のための大規模言語モデル

Large Language Models Are State-of-the-Art Evaluators of Translation Quality ( http://arxiv.org/abs/2302.14520v1 )

ライセンス: Link先を確認
Tom Kocmi and Christian Federmann(参考訳) 我々はgembaについて述べる。gembaはgptベースの翻訳品質評価指標で、参照翻訳と無翻訳の両方で動作する。 本評価では,ゼロショットプロンプトに着目し,参照の可利用性に基づいて4つのプロンプトを2つのモードで比較する。 本稿では,ChatGPTを含む7種類のGPTモデルについて検討する。 翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。 WMT22のMetrics共有タスクの結果と比較して,本手法はMQMに基づく人間ラベルと比較して,両モードの最先端の精度を実現する。 WMT22Metricsの3つのタスク言語ペア、すなわち英語をドイツ語、英語をロシア語、中国語を英語に分けてシステムレベルで有効である。 これは、翻訳の品質評価のための事前学習された生成型大言語モデルの有用性を初めて垣間見ることができる。 当社は、この作業で記述された実験に使用されるすべてのコードとプロンプトテンプレート、および対応するスコア結果を公開して、外部の検証と再現性を実現しています。

We describe GEMBA, a GPT-based metric for assessment of translation quality, which works both with a reference translation and without. In our evaluation, we focus on zero-shot prompting, comparing four prompt variants in two modes, based on the availability of the reference. We investigate seven versions of GPT models, including ChatGPT. We show that our method for translation quality assessment only works with GPT 3.5 and larger models. Comparing to results from WMT22's Metrics shared task, our method achieves state-of-the-art accuracy in both modes when compared to MQM-based human labels. Our results are valid on the system level for all three WMT22 Metrics shared task language pairs, namely English into German, English into Russian, and Chinese into English. This provides a first glimpse into the usefulness of pre-trained, generative large language models for quality assessment of translations. We publicly release all our code and prompt templates used for the experiments described in this work, as well as all corresponding scoring results, to allow for external validation and reproducibility.
翻訳日:2023-03-01 16:44:40 公開日:2023-02-28
# 雑音・反復アルゴリズムに対する漸近的最適一般化誤差境界

Asymptotically Optimal Generalization Error Bounds for Noisy, Iterative Algorithms ( http://arxiv.org/abs/2302.14518v1 )

ライセンス: Link先を確認
Ibrahim Issa, Amedeo Roberto Esposito, Michael Gastpar(参考訳) 我々は,反復型,雑音型学習アルゴリズムの一般化行動を分析するために,情報理論の枠組みを採用する。 このクラスは、アルゴリズムが本質的にランダム化されており、SGLD(Stochastic Gradient Langevin Dynamics)のような一般的なアルゴリズムを含むため、情報理論のメトリクスの下での研究に特に適している。 ここでは、解析が簡単であるため、最大リーク(同様に、オーダー無限性のシブソン相互情報)計量を用い、これは、大きな一般化誤差を持つ確率とその期待値に関する両方の境界を暗示する。 更新関数(例えば、勾配)が$L_2$-normで有界であれば、等方的ガウス雑音を加えると最適な一般化境界が導かれる:事実、この場合の学習アルゴリズムの入力と出力は漸近的に統計的に独立である。 さらに,更新関数の仮定が雑音の最適選択(最大漏洩を最小化する意味で)にどのように影響するかを示す。 最後に、いくつかの関心シナリオに対して、誘導された最大リークの厳密な上限を計算する。

We adopt an information-theoretic framework to analyze the generalization behavior of the class of iterative, noisy learning algorithms. This class is particularly suitable for study under information-theoretic metrics as the algorithms are inherently randomized, and it includes commonly used algorithms such as Stochastic Gradient Langevin Dynamics (SGLD). Herein, we use the maximal leakage (equivalently, the Sibson mutual information of order infinity) metric, as it is simple to analyze, and it implies both bounds on the probability of having a large generalization error and on its expected value. We show that, if the update function (e.g., gradient) is bounded in $L_2$-norm, then adding isotropic Gaussian noise leads to optimal generalization bounds: indeed, the input and output of the learning algorithm in this case are asymptotically statistically independent. Furthermore, we demonstrate how the assumptions on the update function affect the optimal (in the sense of minimizing the induced maximal leakage) choice of the noise. Finally, we compute explicit tight upper bounds on the induced maximal leakage for several scenarios of interest.
翻訳日:2023-03-01 16:44:22 公開日:2023-02-28
# 差別化訓練の隠れ費用としての任意決定

Arbitrary Decisions are a Hidden Cost of Differentially-Private Training ( http://arxiv.org/abs/2302.14517v1 )

ライセンス: Link先を確認
Bogdan Kulynych, Hsiang Hsu, Carmela Troncoso, Flavio P. Calmon(参考訳) プライバシ保存機械学習で使用されるメカニズムは、モデルトレーニング中に差分プライバシー(DP)を保証することを目的としていることが多い。 実用的なdp補償トレーニング方法は、モデルパラメータをプライバシーに敏感なデータに適合させる(例えば、クリップされた勾配にガウスノイズを追加する)際にランダム化を使用する。 このようなランダム化は、与えられた入力例に対して、等プライベートモデルによって予測される出力は、トレーニングで使用されるランダム性に依存する。 したがって、与えられた入力に対して、モデルが再トレーニングされた場合、同じトレーニングデータセットを使用した場合であっても、予測出力は劇的に変化する。 DPトレーニングの予測多重コストは研究されておらず、現在、モデルデザイナやステークホルダーに監査も伝達もしていない。 予測多重度を確実に推定するために必要な再学習の回数に制限を課す。 我々は,DP-SGD の出力摂動,客観摂動,DP-SGD の予測乗算コストを理論的および広範囲な実験により解析する。 プライバシのレベルが向上するにつれて,予測多重度が増加し,データ内の個人や人口集団に不均一に分散することを示す。 学習中にDPを確実にするために使用されるランダム性は、いくつかの例で予測を説明できるため、我々の結果は、高い評価条件下での差分プライベートモデルによって支持される決定の正当性に対する根本的な課題を浮き彫りにする。 我々は,個人レベルのアプリケーションに適用する前に,dp補償アルゴリズムの予測多重性を監査するべきであると結論づけた。

Mechanisms used in privacy-preserving machine learning often aim to guarantee differential privacy (DP) during model training. Practical DP-ensuring training methods use randomization when fitting model parameters to privacy-sensitive data (e.g., adding Gaussian noise to clipped gradients). We demonstrate that such randomization incurs predictive multiplicity: for a given input example, the output predicted by equally-private models depends on the randomness used in training. Thus, for a given input, the predicted output can vary drastically if a model is re-trained, even if the same training dataset is used. The predictive-multiplicity cost of DP training has not been studied, and is currently neither audited for nor communicated to model designers and stakeholders. We derive a bound on the number of re-trainings required to estimate predictive multiplicity reliably. We analyze -- both theoretically and through extensive experiments -- the predictive-multiplicity cost of three DP-ensuring algorithms: output perturbation, objective perturbation, and DP-SGD. We demonstrate that the degree of predictive multiplicity rises as the level of privacy increases, and is unevenly distributed across individuals and demographic groups in the data. Because randomness used to ensure DP during training explains predictions for some examples, our results highlight a fundamental challenge to the justifiability of decisions supported by differentially-private models in high-stakes settings. We conclude that practitioners should audit the predictive multiplicity of their DP-ensuring algorithms before deploying them in applications of individual-level consequence.
翻訳日:2023-03-01 16:44:02 公開日:2023-02-28
# 知覚的批判を伴う圧縮映像強調のための敵訓練における深部ハイパーパラメータ選択の学習

Learnt Deep Hyperparameter selection in Adversarial Training for compressed video enhancement with perceptual critic ( http://arxiv.org/abs/2302.14516v1 )

ライセンス: Link先を確認
Darren Ramsook, Anil Kokaram(参考訳) 画像に基づくDeep Feature Quality Metrics(DFQM)は、従来のメトリクスよりも主観的知覚スコアと相関することが示されている。 これらのDFQMの基本的な焦点は、メートル法の特徴空間として大規模分類ネットワークから内部表現を利用することである。 以前は、どの層が最も知覚的に関連があるかを特定するという問題には何の注意も払われていなかった。 本稿では,階層行動の神経科学的解釈に基づいて,そのようなネットワークから知覚関連レイヤを選択する新しい手法を提案する。 選択された層は、W−GANの批評家ネットワークに対するハイパーパラメータとして扱われる。 批評家は、これらの層からの出力を予備段階として知覚情報を抽出する。 ビデオエンハンスメントネットワークは、この批評家と敵対的に訓練される。 その結果,これらの特徴を批評家に導入すると,最適化された特徴選択のアイデアを生かしていない他の批評家ネットワークに対して10%(FID)と15%(KID)のパフォーマンスが向上することがわかった。

Image based Deep Feature Quality Metrics (DFQMs) have been shown to better correlate with subjective perceptual scores over traditional metrics. The fundamental focus of these DFQMs is to exploit internal representations from a large scale classification network as the metric feature space. Previously, no attention has been given to the problem of identifying which layers are most perceptually relevant. In this paper we present a new method for selecting perceptually relevant layers from such a network, based on a neuroscience interpretation of layer behaviour. The selected layers are treated as a hyperparameter to the critic network in a W-GAN. The critic uses the output from these layers in the preliminary stages to extract perceptual information. A video enhancement network is trained adversarially with this critic. Our results show that the introduction of these selected features into the critic yields up to 10% (FID) and 15% (KID) performance increase against other critic networks that do not exploit the idea of optimised feature selection.
翻訳日:2023-03-01 16:43:34 公開日:2023-02-28
# 微分プライベート分散凸最適化

Differentially Private Distributed Convex Optimization ( http://arxiv.org/abs/2302.14514v1 )

ライセンス: Link先を確認
Minseok Ryu and Kibaek Kim(参考訳) 本稿では,複数のエージェントが協調して,局所目的の和として表されるグローバル目的関数を最小化する分散最適化(do)について検討する。 DOでは、各エージェントは、自身のデータによって構築された局所最適化モデルを反復的に解決し、グローバルなソリューションが得られるまで、いくつかの情報(例えば、ローカルソリューション)を隣人と通信する。 ローカルに保存されたデータは他のエージェントと共有されていないが、エージェント間で通信される情報からデータを再構築することは可能である。 この問題に対処するため、制約付き凸最適化モデルのためのプライバシ保存型DOアルゴリズムを提案し、差分プライバシーとして知られるデータプライバシの統計的保証と、期待する最適解に収束する反復列を提供する。 提案手法は,多重局所更新手法を導入して通信コストを低減し,局所最適化モデルに客観的摂動法を取り入れ,局所データの再構成に利用できないランダム化可能な局所解を計算・伝達し,データのプライバシーを保ちながら,乗算器の線形交替方向法を一般化する。 凸制約の存在下では,両アルゴリズムが同じレベルのデータプライバシーを提供する一方で,提案アルゴリズムで使用される客観的摂動は,雑音を付加することにより局所解をランダム化する広く採用されている出力摂動法よりも優れた解を提供できることを示す。 プライバシと収束分析の詳細を述べるとともに,データプライバシが懸念される分散型の電力フロー制御とフェデレーション学習という,2つの異なるアプリケーションに適用することで,提案アルゴリズムの有効性を数値的に実証する。

This paper considers distributed optimization (DO) where multiple agents cooperate to minimize a global objective function, expressed as a sum of local objectives, subject to some constraints. In DO, each agent iteratively solves a local optimization model constructed by its own data and communicates some information (e.g., a local solution) with its neighbors until a global solution is obtained. Even though locally stored data are not shared with other agents, it is still possible to reconstruct the data from the information communicated among agents, which could limit the practical usage of DO in applications with sensitive data. To address this issue, we propose a privacy-preserving DO algorithm for constrained convex optimization models, which provides a statistical guarantee of data privacy, known as differential privacy, and a sequence of iterates that converges to an optimal solution in expectation. The proposed algorithm generalizes a linearized alternating direction method of multipliers by introducing a multiple local updates technique to reduce communication costs and incorporating an objective perturbation method in the local optimization models to compute and communicate randomized feasible local solutions that cannot be utilized to reconstruct the local data, thus preserving data privacy. Under the existence of convex constraints, we show that, while both algorithms provide the same level of data privacy, the objective perturbation used in the proposed algorithm can provide better solutions than does the widely adopted output perturbation method that randomizes the local solutions by adding some noise. We present the details of privacy and convergence analyses and numerically demonstrate the effectiveness of the proposed algorithm by applying it in two different applications, namely, distributed control of power flow and federated learning, where data privacy is of concern.
翻訳日:2023-03-01 16:43:17 公開日:2023-02-28
# 3次元局所特徴の合同学習とオーバーラップ推定のための統一型BEVモデル

A Unified BEV Model for Joint Learning of 3D Local Features and Overlap Estimation ( http://arxiv.org/abs/2302.14511v1 )

ライセンス: Link先を確認
Lin Li, Wendong Ding, Yongkun Wen, Yufei Liang, Yong Liu, Guowei Wan(参考訳) ペアワイズポイントクラウド登録は多くのアプリケーションにとって重要なタスクであり、2つのポイントクラウドから適切な対応を見つけることに大きく依存している。 しかし、入力点雲間の重なりが低ければ、登録が失敗しにくくなり、特に重複しない領域が類似した構造を含む場面では、重なりの重なりや不一致の対応が生じる。 本稿では,3次元局所特徴の同時学習と重なり推定を併用し,両面の登録とループ閉鎖を両立させる統一鳥眼ビュー(BEV)モデルを提案する。 bev表現に基づく特徴記述をスパースunetライクなネットワークで行い、これら3dキーポイントを2dロケーション用検出ヘッドと高さ用回帰ヘッドとでそれぞれ抽出する。 重なり検出には、入力点雲のコンテクスト情報間の相互作用にクロスアテンションモジュールを適用し、次に分類ヘッドを用いて重なり領域を推定する。 kittiデータセットとapollo-southbayデータセットで統一モデルを評価した。 実験により,本手法が既存の重なり予測手法,特に重なりが小さいシーンを有意に上回ることを示した。 登録精度は、翻訳および回転誤差の観点から、両方のデータセット上で最高のパフォーマンスを達成する。 ソースコードはもうすぐ入手できる。

Pairwise point cloud registration is a critical task for many applications, which heavily depends on finding the right correspondences from the two point clouds. However, the low overlap between the input point clouds makes the registration prone to fail, leading to mistaken overlapping and mismatched correspondences, especially in scenes where non-overlapping regions contain similar structures. In this paper, we present a unified bird's-eye view (BEV) model for jointly learning of 3D local features and overlap estimation to fulfill the pairwise registration and loop closure. Feature description based on BEV representation is performed by a sparse UNet-like network, and the 3D keypoints are extracted by a detection head for 2D locations and a regression head for heights, respectively. For overlap detection, a cross-attention module is applied for interacting contextual information of the input point clouds, followed by a classification head to estimate the overlapping region. We evaluate our unified model extensively on the KITTI dataset and Apollo-SouthBay dataset. The experiments demonstrate that our method significantly outperforms existing methods on overlap prediction, especially in scenes with small overlaps. The registration precision also achieves top performance on both datasets in terms of translation and rotation errors. Source codes will be available soon.
翻訳日:2023-03-01 16:42:46 公開日:2023-02-28
# ベイズ最適化のためのサロゲートとしてのベイズ核化テンソル分解

Bayesian Kernelized Tensor Factorization as Surrogate for Bayesian Optimization ( http://arxiv.org/abs/2302.14510v1 )

ライセンス: Link先を確認
Mengying Lei and Lijun Sun(参考訳) ベイズ最適化(BO)は、主にガウス過程(GP)をキーサロゲートモデルとして用いており、主に広く使われている2乗指数カーネル(SE-ARD)のような固定的で分離可能なカーネル関数を持つ。 しかし、そのような単純なカーネル仕様は、非定常性、非分離性、マルチモーダルといった複雑な特徴を持つ学習機能に欠けている。 局所GPを用いたそのような函数の近似は、低次元空間であっても、高次元の設定では言うまでもなく、多数のサンプルを必要とする。 本稿では,BKTF(Bayesian Kernelized Tensor Factorization)を新しい代理モデルとして,D次元カルテジアン積空間におけるBOに使用することを提案する。 我々の重要なアイデアは、基礎となるd-次元固体を完全ベイズ低ランクテンソルcp分解で近似することであり、gp を各次元の潜在基底関数に前置して局所的一貫性と滑らかさを符号化する。 この定式化により、各サンプルからの情報は隣人だけでなく、次元にわたって共有できる。 BKTFはもはや分析後部を持たないが、マルコフ連鎖モンテカルロ(MCMC)による後部分布を効率的に近似し、予測と完全不確実量化(UQ)を得ることができる。 我々は,標準BO試験問題と機械学習ハイパーパラメータチューニング問題の両方について数値実験を行い,サンプル効率の観点からBKTFの優位性を確認した。

Bayesian optimization (BO) primarily uses Gaussian processes (GP) as the key surrogate model, mostly with a simple stationary and separable kernel function such as the widely used squared-exponential kernel with automatic relevance determination (SE-ARD). However, such simple kernel specifications are deficient in learning functions with complex features, such as being nonstationary, nonseparable, and multimodal. Approximating such functions using a local GP, even in a low-dimensional space, will require a large number of samples, not to mention in a high-dimensional setting. In this paper, we propose to use Bayesian Kernelized Tensor Factorization (BKTF) -- as a new surrogate model -- for BO in a D-dimensional Cartesian product space. Our key idea is to approximate the underlying D-dimensional solid with a fully Bayesian low-rank tensor CP decomposition, in which we place GP priors on the latent basis functions for each dimension to encode local consistency and smoothness. With this formulation, information from each sample can be shared not only with neighbors but also across dimensions. Although BKTF no longer has an analytical posterior, we can still efficiently approximate the posterior distribution through Markov chain Monte Carlo (MCMC) and obtain prediction and full uncertainty quantification (UQ). We conduct numerical experiments on both standard BO testing problems and machine learning hyperparameter tuning problems, and our results confirm the superiority of BKTF in terms of sample efficiency.
翻訳日:2023-03-01 16:42:24 公開日:2023-02-28
# 非マルコフ環境における政策分散

Policy Dispersion in Non-Markovian Environment ( http://arxiv.org/abs/2302.14509v1 )

ライセンス: Link先を確認
Bohao Qu, Xiaofeng Cao, Jielong Yang, Hechang Chen, Chang Yi, Ivor W.Tsang, Yew-Soon Ong(参考訳) マルコフ決定過程(MDP)は、強化学習におけるエージェントの学習過程を定式化する数学的枠組みを示す。 MDPは、報酬は即時状態と行動にのみ依存するというマルコフの仮定によって制限される。 しかし、報酬は時として国家や行動の歴史に依存し、非マルコフ環境における決定過程をもたらす可能性がある。 このような環境では、エージェントは時間的に拡張された行動を通じて報酬を受け取り、学習されたポリシーは似ているかもしれない。 これにより、同様のポリシーで取得されたエージェントは、一般に与えられたタスクに過度に適合し、環境の摂動に迅速に適応できない。 この問題を解決するために,本稿では,多様政策表現を求める政策分散スキームを設計した非マルコフ環境下で,状態-作用対の歴史から多様政策の学習を試みる。 具体的には、まず、ポリシー埋め込みを学習するトランスフォーマーベースの手法を採用する。 次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。 最後に、分散行列が正定値であれば、分散埋め込みはポリシー間の不一致を効果的に拡大することができ、元のポリシー埋め込み分布に対する多様な表現が得られることを示す。 実験結果から, この分散方式は, 様々な学習環境下での最近の学習ベースラインよりも, より表現力に富んだ多種多様なポリシーが得られることが示された。

Markov Decision Process (MDP) presents a mathematical framework to formulate the learning processes of agents in reinforcement learning. MDP is limited by the Markovian assumption that a reward only depends on the immediate state and action. However, a reward sometimes depends on the history of states and actions, which may result in the decision process in a non-Markovian environment. In such environments, agents receive rewards via temporally-extended behaviors sparsely, and the learned policies may be similar. This leads the agents acquired with similar policies generally overfit to the given task and can not quickly adapt to perturbations of environments. To resolve this problem, this paper tries to learn the diverse policies from the history of state-action pairs under a non-Markovian environment, in which a policy dispersion scheme is designed for seeking diverse policy representation. Specifically, we first adopt a transformer-based method to learn policy embeddings. Then, we stack the policy embeddings to construct a dispersion matrix to induce a set of diverse policies. Finally, we prove that if the dispersion matrix is positive definite, the dispersed embeddings can effectively enlarge the disagreements across policies, yielding a diverse expression for the original policy embedding distribution. Experimental results show that this dispersion scheme can obtain more expressive diverse policies, which then derive more robust performance than recent learning baselines under various learning environments.
翻訳日:2023-03-01 16:41:56 公開日:2023-02-28
# FPCD:ファームポンド変更検出のためのオープン航空VHRデータセット

FPCD: An Open Aerial VHR Dataset for Farm Pond Change Detection ( http://arxiv.org/abs/2302.14554v1 )

ライセンス: Link先を確認
Chintan Tundia, Rajiv Kumar, Om Damani, G. Sivakumar(参考訳) 航空画像の変化検出は、地理的位置の両時間的画像と複数時間的画像の間の関心領域に関する変化の特定と特定を含む。 農業用池 (farm pond) は、将来の灌水のために表面流出水を集めるために使用される小さな灌水構造物のカテゴリーに属する人工の構造物である。 空中画像からの農業池の検出とその進化は、土地調査において農業の変遷、政策実施、季節的影響、気候変化を分析するのに役立つ。 本稿では,航空画像から農業用池をローカライズするためのオブジェクト検出とインスタンスセグメンテーション(OD/IS)データセットを提案する。 また,17の村で14年間に渡りバイタイムデータを収集,注釈した。その結果,2値変化検出データセットである \textbf{F}arm \textbf{P}ond \textbf{C}hange \textbf{D}etection Dataset (\textbf{FPCD}) が得られた。 FPCDデータセット上でのOD/ISデータセットにおける様々なオブジェクト検出およびインスタンスセグメンテーション手法と変更検出手法のパフォーマンスをベンチマークし分析した。 データセットはこのページで公開されている。 \textit{\url{https://huggingface.co/datasets/ctundia/FPCD}}

Change detection for aerial imagery involves locating and identifying changes associated with the areas of interest between co-registered bi-temporal or multi-temporal images of a geographical location. Farm ponds are man-made structures belonging to the category of minor irrigation structures used to collect surface run-off water for future irrigation purposes. Detection of farm ponds from aerial imagery and their evolution over time helps in land surveying to analyze the agricultural shifts, policy implementation, seasonal effects and climate changes. In this paper, we introduce a publicly available object detection and instance segmentation (OD/IS) dataset for localizing farm ponds from aerial imagery. We also collected and annotated the bi-temporal data over a time-span of 14 years across 17 villages, resulting in a binary change detection dataset called \textbf{F}arm \textbf{P}ond \textbf{C}hange \textbf{D}etection Dataset (\textbf{FPCD}). We have benchmarked and analyzed the performance of various object detection and instance segmentation methods on our OD/IS dataset and the change detection methods over the FPCD dataset. The datasets are publicly accessible at this page: \textit{\url{https://huggingface.co/datasets/ctundia/FPCD}}
翻訳日:2023-03-01 16:36:09 公開日:2023-02-28
# ランダム活性化関数を用いたロバスト不確かさ推定に向けて

Toward Robust Uncertainty Estimation with Random Activation Functions ( http://arxiv.org/abs/2302.14552v1 )

ライセンス: Link先を確認
Yana Stoyanova, Soroush Ghandi, Maryam Tavakol(参考訳) ディープニューラルネットワークは、多くのデータ駆動アプリケーションで優れたパフォーマンスを持つマシンラーニングの目玉です。 しかし、分散外データポイントに問い合わせて不正確な予測に繋がる可能性があるため、医療や交通といった繊細なドメインでは、誤った予測は非常に費用がかかり、危険になる可能性がある。 その後、ニューラルネットワークの出力の不確かさを定量化して予測の信頼性を評価し、アンサンブルモデルがモデルのプール上の予測のばらつきを利用して不確かさを測定するのに有効であることが証明された。 本稿では,各ニューラルネットワークを異なる(ランダム)アクティベーション関数に適応させることにより,よりロバストな推定に向けたアンサンブルの多様性を向上させることを目的とした,ランダムアクティベーション関数(rafs)アンサンブルによる不確実性定量化手法を提案する。 広範な実証研究により、rafsアンサンブルは一連の回帰タスクにおいて、合成データと実世界のデータセットの両方の最先端アンサンブル不確実性定量化法よりも優れていることが示されている。

Deep neural networks are in the limelight of machine learning with their excellent performance in many data-driven applications. However, they can lead to inaccurate predictions when queried in out-of-distribution data points, which can have detrimental effects especially in sensitive domains, such as healthcare and transportation, where erroneous predictions can be very costly and/or dangerous. Subsequently, quantifying the uncertainty of the output of a neural network is often leveraged to evaluate the confidence of its predictions, and ensemble models have proved to be effective in measuring the uncertainty by utilizing the variance of predictions over a pool of models. In this paper, we propose a novel approach for uncertainty quantification via ensembles, called Random Activation Functions (RAFs) Ensemble, that aims at improving the ensemble diversity toward a more robust estimation, by accommodating each neural network with a different (random) activation function. Extensive empirical study demonstrates that RAFs Ensemble outperforms state-of-the-art ensemble uncertainty quantification methods on both synthetic and real-world datasets in a series of regression tasks.
翻訳日:2023-03-01 16:35:41 公開日:2023-02-28
# 一般化クラスターモデルにおける対称性保護位相相の検出と安定化

Detecting and stabilizing measurement-induced symmetry-protected topological phases in generalized cluster models ( http://arxiv.org/abs/2302.14551v1 )

ライセンス: Link先を確認
Ra\'ul Morral-Yepes, Frank Pollmann, Izabella Lovas(参考訳) 本研究では,安定化器形式内の計算とテンソルネットワークシミュレーションを組み合わせることにより,幅広い量子ランダム回路モデルにおける計測誘起対称性保護位相秩序(spt)について検討する。 量子ランダム回路の族を構築し、すべての一般化クラスタモデルの平衡バージョンを生成し、異なるspt位相を識別するための非局所文字列順序パラメータのセットを導出する。 この枠組みを用いて,XZXクラスタモデルのランダム回路実現を検証し,この文字列順序パラメータを用いて,回路内のユニタリゲートのクラスをクリフォードゲートからハールユニタリーに拡張することに対して,位相図が安定であることを示す。 次に,xzzx一般化クラスタモデルを用いて,文字列順序パラメータと連結相関関数に依存することにより,spt次数と自発的対称性の破れの共存を実証する。

We study measurement-induced symmetry-protected topological (SPT) order in a wide class of quantum random circuit models by combining calculations within the stabilizer formalism with tensor network simulations. We construct a family of quantum random circuits, generating the out-of-equilibrium version of all generalized cluster models, and derive a set of non-local string order parameters to distinguish different SPT phases. We apply this framework to investigate a random circuit realization of the XZX cluster model, and use the string order parameter to demonstrate that the phase diagram is stable against extending the class of unitary gates in the circuit, from Clifford gates to Haar unitaries. We then turn to the XZZX generalized cluster model, and demonstrate the coexistence of SPT order and spontaneous symmetry breaking, by relying on string order parameters and a connected correlation function.
翻訳日:2023-03-01 16:35:10 公開日:2023-02-28
# Safe-DS: データサイエンスを安全にするためのドメイン固有言語

Safe-DS: A Domain Specific Language to Make Data Science Safe ( http://arxiv.org/abs/2302.14548v1 )

ライセンス: Link先を確認
Lars Reimann, G\"unter Kniesel-W\"unsche(参考訳) データサイエンス(DS)パイプラインの長期実行のため、静的に検出されない場合、小さなプログラミングミスでさえ非常にコストがかかる。 しかし、ほとんどがpythonで書かれているため、dsパイプラインの基本的な静的型チェックさえ難しい。 静的型付けはPythonでは外部リンタでのみ利用できる。 これらは、多くのDSライブラリが提供していないパラメータや関数の結果に対する静的な型アノテーションを必要とする。 本稿では,多くのPython DSライブラリが,ドメイン固有言語(DSL)であるSafe-DSを介して静的に安全な方法で利用可能であることを示す。 Safe-DSは、従来の型エラーに加えて、範囲制限、データ操作、関数の呼び出し順序に関連するエラーをキャッチする。 Pythonライブラリは、宣言のインターフェースを指定するスタブ言語と、Pythonライブラリのコードとドキュメントから型情報を抽出し、適切なスタブを自動的に生成するAPI-Editorを介してSafe-DSに統合される。 さらに、Safe-DSは構文エラーを防止して安全な開発を容易にするグラフィカル表現でテキストDSパイプラインを補完する。 テキストとグラフィックビューのシームレスな同期により、開発者は常にスキルと現在のタスクに最適なものを選ぶことができる。 Safe-DSにより、DS開発がより簡単、より速く、より信頼性が高く、開発コストを大幅に削減できると考えています。

Due to the long runtime of Data Science (DS) pipelines, even small programming mistakes can be very costly, if they are not detected statically. However, even basic static type checking of DS pipelines is difficult because most are written in Python. Static typing is available in Python only via external linters. These require static type annotations for parameters or results of functions, which many DS libraries do not provide. In this paper, we show how the wealth of Python DS libraries can be used in a statically safe way via Safe-DS, a domain specific language (DSL) for DS. Safe-DS catches conventional type errors plus errors related to range restrictions, data manipulation, and call order of functions, going well beyond the abilities of current Python linters. Python libraries are integrated into Safe-DS via a stub language for specifying the interface of its declarations, and an API-Editor that is able to extract type information from the code and documentation of Python libraries, and automatically generate suitable stubs. Moreover, Safe-DS complements textual DS pipelines with a graphical representation that eases safe development by preventing syntax errors. The seamless synchronization of textual and graphic view lets developers always choose the one best suited for their skills and current task. We think that Safe-DS can make DS development easier, faster, and more reliable, significantly reducing development costs.
翻訳日:2023-03-01 16:34:42 公開日:2023-02-28
# 現代のベイズ実験設計

Modern Bayesian Experimental Design ( http://arxiv.org/abs/2302.14545v1 )

ライセンス: Link先を確認
Tom Rainforth, Adam Foster, Desi R Ivanova and Freddie Bickford Smith(参考訳) ベイズ実験設計 (bed) は実験の設計を最適化するための強力で汎用的なフレームワークを提供する。 しかし、その展開はしばしば、その実用性を損なうような重大な計算上の課題を引き起こす。 本稿では,近年の進歩がこれらの課題を克服し,BEDを効果的に活用する能力にどのように変化をもたらしたかを概説する。

Bayesian experimental design (BED) provides a powerful and general framework for optimizing the design of experiments. However, its deployment often poses substantial computational challenges that can undermine its practical use. In this review, we outline how recent advances have transformed our ability to overcome these challenges and thus utilize BED effectively, before discussing some key areas for future development in the field.
翻訳日:2023-03-01 16:34:07 公開日:2023-02-28
# 時空におけるアハロノフ・ボーム効果と電磁場のトポロジー

Aharonov-Bohm Effects and the Topology of Electromagnetic Fields in Spacetime ( http://arxiv.org/abs/2302.14542v1 )

ライセンス: Link先を確認
Pablo L. Saldanha(参考訳) 干渉計経路が磁束を包含していない場合でも、非ゼロのAB位相差が現れる新しいAharonov-Bohm(AB)方式を提案する。 提案では、干渉計の外側のソレノイドの電流は時間によって変化するが、量子粒子は2つのファラデーケージ内の重ね合わせ状態にあり、常にヌル電磁場を受ける。 一見すると、この結果はAB効果のトポロジカルな性質に挑戦する可能性がある。 しかし, 時空における電磁界と粒子軌道のトポロジーを考慮し, 効果解析を一般化し, この新しい状態の位相的性質と電気的ab効果を実証する。 提案方式の原理による実験的実装は、現在の技術で実現可能である。

We propose a novel Aharonov-Bohm (AB) scheme where a nonzero AB phase difference appears even if the interferometer paths do not enclose a magnetic flux. In the proposal, the current in a solenoid outside the interferometer varies in time while the quantum particle is in a superposition state inside two Faraday cages, such that it is always subjected to null electromagnetic fields. At first glance, this result could challenge the topological nature of the AB effect. However, we generalize the effect analysis by considering the topology of the electromagnetic fields and particles trajectories in spacetime, demonstrating the topological nature of this novel situation and also of the electric AB effect. The experimental implementation of the proposed scheme in principle is feasible with current technology.
翻訳日:2023-03-01 16:34:00 公開日:2023-02-28
# Spacerini:PyseriniとHugging Faceを備えたプラグイン・アンド・プレイ検索エンジン

Spacerini: Plug-and-play Search Engines with Pyserini and Hugging Face ( http://arxiv.org/abs/2302.14534v1 )

ライセンス: Link先を確認
Christopher Akiki, Odunayo Ogundepo, Aleksandra Piktus, Xinyu Zhang, Akintunde Oladipo, Jimmy Lin, Martin Potthast(参考訳) 本研究では,大規模研究データセットの質的解析を容易にするために,対話型検索アプリケーションのシームレスな構築と展開を行うモジュール型フレームワークであるSpaceriniを提案する。 SpaceriniはPyseriniツールキットとHugging Faceエコシステムの機能を統合して、テキストコレクションのインデックス付けを容易にし、アドホックな探索のための検索エンジンとしてデプロイし、関連するデータポイントの検索を迅速かつ効率的にする。 ユーザフレンドリーなインターフェースにより、大量のデータセットをコードなしで検索できるため、テキストコレクションを質的に監査したい人なら誰でもSpaceriniを利用できる。 これは、シンプルでインタラクティブな方法でインデックスの能力を実証することを目的としたir~researchersと、大規模な言語モデルの障害モードをよりよく理解し、監査しようとするnlp~researchersの両方にとって有用である。 https://github.com/castorini/hf-spacerini は、ローカルおよびweb検索アプリケーションをロード、前処理、インデックス化、デプロイするユーティリティを含んでいる。 多数のユースケースのためにSpaceriniで作成されたアプリケーションのポートフォリオは、https://hf.co/spacerini.com/で見ることができる。

We present Spacerini, a modular framework for seamless building and deployment of interactive search applications, designed to facilitate the qualitative analysis of large scale research datasets. Spacerini integrates features from both the Pyserini toolkit and the Hugging Face ecosystem to ease the indexing text collections and deploy them as search engines for ad-hoc exploration and to make the retrieval of relevant data points quick and efficient. The user-friendly interface enables searching through massive datasets in a no-code fashion, making Spacerini broadly accessible to anyone looking to qualitatively audit their text collections. This is useful both to IR~researchers aiming to demonstrate the capabilities of their indexes in a simple and interactive way, and to NLP~researchers looking to better understand and audit the failure modes of large language models. The framework is open source and available on GitHub: https://github.com/castorini/hf-spacerini, and includes utilities to load, pre-process, index, and deploy local and web search applications. A portfolio of applications created with Spacerini for a multitude of use cases can be found by visiting https://hf.co/spacerini.
翻訳日:2023-03-01 16:33:45 公開日:2023-02-28
# Deff-GAN:Few-Shot画像合成のための分散属性変換

DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis ( http://arxiv.org/abs/2302.14533v1 )

ライセンス: Link先を確認
Rajiv Kumar, G. Sivakumar(参考訳) 大量のデータの要求は、多くのganのトレーニングが難しい。 データ効率のよいganは、ジェネレータの連続ターゲット分布を限られたデータサンプルの離散セットに適合させるが、これは難しい作業である。 単一画像法は、単一画像の内部分布をモデル化し、そのサンプルを生成することに重点を置いている。 単一画像法は画像サンプルを多様性で合成することができるが、複数の画像をモデル化したり、2つの画像間の固有の関係を捉えることはできない。 少数の画像だけを考えると、私たちはサンプルを生成し、入力画像の共通点を活用することに興味があります。 本研究では,サンプル合成のための複数画像のモデリングに単一画像GAN法を拡張した。 我々は識別器を補助分類器ブランチで修正し、多様なサンプルを生成し、入力ラベルを分類するのに役立つ。 我々のデータ効率GAN(DEff-GAN)は、入力画像やクラス間で類似性や対応性を引き出すことができる場合に優れた結果をもたらす。

Requirements of large amounts of data is a difficulty in training many GANs. Data efficient GANs involve fitting a generators continuous target distribution with a limited discrete set of data samples, which is a difficult task. Single image methods have focused on modeling the internal distribution of a single image and generating its samples. While single image methods can synthesize image samples with diversity, they do not model multiple images or capture the inherent relationship possible between two images. Given only a handful of images, we are interested in generating samples and exploiting the commonalities in the input images. In this work, we extend the single-image GAN method to model multiple images for sample synthesis. We modify the discriminator with an auxiliary classifier branch, which helps to generate a wide variety of samples and to classify the input labels. Our Data-Efficient GAN (DEff-GAN) generates excellent results when similarities and correspondences can be drawn between the input images or classes.
翻訳日:2023-03-01 16:33:24 公開日:2023-02-28
# 時間変化パラメータによる最大確率

Maximum Likelihood With a Time Varying Parameter ( http://arxiv.org/abs/2302.14529v1 )

ライセンス: Link先を確認
Alberto Lanconelli and Christopher S. A. Lauria(参考訳) 独立観測の系列の確率的進化を特徴付ける未知の時間変化パラメータを追跡する問題を考える。 本研究では,観測の対数類似性が時間変化利得関数として作用する確率的勾配勾配勾配に基づく再帰スキームを提案する。 本研究では,未知の時間変化パラメータの適切な近傍における平均二乗誤差の収束性を証明し,指数族に属する分布からデータを生成する場合の知見の詳細を説明する。

We consider the problem of tracking an unknown time varying parameter that characterizes the probabilistic evolution of a sequence of independent observations. To this aim, we propose a stochastic gradient descent-based recursive scheme in which the log-likelihood of the observations acts as time varying gain function. We prove convergence in mean-square error in a suitable neighbourhood of the unknown time varying parameter and illustrate the details of our findings in the case where data are generated from distributions belonging to the exponential family.
翻訳日:2023-03-01 16:33:06 公開日:2023-02-28
# RAD-TTSアライナを用いた自動ヘテロニム分解管

Automatic Heteronym Resolution Pipeline Using RAD-TTS Aligners ( http://arxiv.org/abs/2302.14523v1 )

ライセンス: Link先を確認
Jocelyn Huang, Evelina Bakhturina, Oktai Tatanov(参考訳) Grapheme-to-phoneme (G2P) は、標準的なTTSパイプラインの一部である。 しかし、G2P変換はヘテロ語を含む言語では困難である。 注釈付きヘテロネムを持つG2Pデータセットはサイズが限られており、人間のラベル付けがヘテロネムの曖昧化の主要な方法であり、作成に費用がかかる。 我々はRAD-TTS Alignerベースのパイプラインを提案し、音声とテキストの書き起こしの両方を含むデータセットの異名を自動的に曖昧にする。 最適な発音は、各ヘテロニムの候補を全て生成し、Alignerモデルで評価することで選択できる。 得られたラベルは、マルチステージとエンドツーエンドのG2Pシステムの両方で使用するトレーニングデータセットを作成するために使用することができる。

Grapheme-to-phoneme (G2P) transduction is part of the standard text-to-speech (TTS) pipeline. However, G2P conversion is difficult for languages that contain heteronyms -- words that have one spelling but can be pronounced in multiple ways. G2P datasets with annotated heteronyms are limited in size and expensive to create, as human labeling remains the primary method for heteronym disambiguation. We propose a RAD-TTS Aligner-based pipeline to automatically disambiguate heteronyms in datasets that contain both audio with text transcripts. The best pronunciation can be chosen by generating all possible candidates for each heteronym and scoring them with an Aligner model. The resulting labels can be used to create training datasets for use in both multi-stage and end-to-end G2P systems.
翻訳日:2023-03-01 16:32:59 公開日:2023-02-28
# ミニマリズムロボット群における大域座標系の分散的構成

Decentralised construction of a global coordinate system in a large swarm of minimalistic robots ( http://arxiv.org/abs/2302.14587v1 )

ライセンス: Link先を確認
Michal Pluhacek, Simon Garnier, Andreagiovanni Reina(参考訳) ロボット集団の集団知性と自律性は、個々のロボットがより大きな全体の構成単位であり、その役割を認識できるようにすることで改善することができる。 本研究では,メッセージをローカルにブロードキャストし,近隣からの距離を推定できる最小限のエラー発生ロボット群において,位置自覚を可能にするアルゴリズムを提案する。 受信メッセージのベアリングを計測できないにもかかわらず、アルゴリズムを実行しているロボットは、定期的に配置されたSwarm内の位置を計算することができる。 最大200キロボットロボットによる実験により,ロボットが位置自己認識を利用して共有座標系を作成し,動的に位置依存タスクを割り当てることを示す。 我々のソリューションは最先端のアルゴリズムよりも少ない要件を持ち、総合的なノイズフィルタリング機構を含んでいる。 そのため、動作可能な幅広いロボットプラットフォームを備えています。 すべてのロボットは交換可能で、同じコードを実行し、事前の知識は必要ない。 我々のアルゴリズムにより、ロボットは集団同期に到達し、Swarmの空間構成とその位置を自律的に認識することができる。

Collective intelligence and autonomy of robot swarms can be improved by enabling the individual robots to become aware they are the constituent units of a larger whole and what is their role. In this study, we present an algorithm to enable positional self-awareness in a swarm of minimalistic error-prone robots which can only locally broadcast messages and estimate the distance from their neighbours. Despite being unable to measure the bearing of incoming messages, the robots running our algorithm can calculate their position within a swarm deployed in a regular formation. We show through experiments with up to 200 Kilobot robots that such positional self-awareness can be employed by the robots to create a shared coordinate system and dynamically self-assign location-dependent tasks. Our solution has fewer requirements than state-of-the-art algorithms and contains collective noise-filtering mechanisms. Therefore, it has an extended range of robotic platforms on which it can run. All robots are interchangeable, run the same code, and do not need any prior knowledge. Through our algorithm, robots reach collective synchronisation, and can autonomously become self-aware of the swarm's spatial configuration and their position within it.
翻訳日:2023-03-01 16:26:51 公開日:2023-02-28
# ManQala: 量子状態工学のためのゲームインスパイアされた戦略

ManQala: Game-Inspired Strategies for Quantum State Engineering ( http://arxiv.org/abs/2302.14582v1 )

ライセンス: Link先を確認
Onur Danaci, Wenlei Zhang, Robert Coleman, William Djakam, Michaela Amoo, Ryan T. Glasser, Brian T. Kirby, Moussa N'Gom, Thomas A. Searles(参考訳) 量子工学によって特定のターゲット状態のシステムを作成する能力は、第2の量子革命によって約束される新しい技術を実現するために不可欠である。 ここでは,西アフリカソイングゲームmancalaに触発された量子ゲームmanqalaとして,高次元ヒルベルト空間における状態準備の基本問題を再演する。 ソリティア・マンカラ(英語版)における最適なゲームプレイによって動機付けられ、ネストされた最寄りの置換とアクションがゲームボードの状態をそのターゲット構成に進化させ、マンカラは量子制御問題において粒子を決定論的に配置するための前処理アプローチとして機能する。 ManQalaによる事前処理が完了すると、既存の量子制御法が適用されるが、現在では検索スペースが減っている。 探索空間の相対的減少が最小限であることから、小規模の量子状態工学問題においても、マンカラ型戦略は最終状態のばらつきという点で競合するアプローチと一致し、あるいは優れる。 これらの結果から,ManQalaは短期中規模量子技術に関連する制御プロトコルを設計するための豊富なプラットフォームを提供すると考えられる。

The ability to prepare systems in specific target states through quantum engineering is essential for realizing the new technologies promised by a second quantum revolution. Here, we recast the fundamental problem of state preparation in high-dimensional Hilbert spaces as ManQala, a quantum game inspired by the West African sowing game mancala. Motivated by optimal gameplay in solitaire mancala, where nested nearest-neighbor permutations and actions evolve the state of the game board to its target configuration, ManQala acts as a pre-processing approach for deterministically arranging particles in a quantum control problem. Once pre-processing with ManQala is complete, existing quantum control methods are applied, but now with a reduced search space. We find that ManQala-type strategies match, or outperform, competing approaches in terms of final state variance even in small-scale quantum state engineering problems where we expect the slightest advantage since the relative reduction in search space is the least. These results suggest that ManQala provides a rich platform for designing control protocols relevant to near-term intermediate-scale quantum technologies.
翻訳日:2023-03-01 16:26:34 公開日:2023-02-28
# hopfir: 3次元ポーズ推定のためのグループ内関節改良型ホップワイズグラフフォーマ

HopFIR: Hop-wise GraphFormer with Intragroup Joint Refinement for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.14581v1 )

ライセンス: Link先を確認
Kai Zhai, Qiang Nie, Bo Ouyang, Xiang Li and ShanLin Yang(参考訳) 2次元から3次元のポーズリフトは3次元のポーズ推定(HPE)の基礎となる。 グラフ畳み込みネットワーク(gcn)は、本質的にヒト骨格トポロジーのモデル化に適していることが証明されている。 しかし、現在のGCNベースの3D HPE法は、異なる動作パターンの関節の相互作用を考慮せずに、隣人の情報を集約することでノードの特徴を更新する。 運動パターンを学ぶために手足情報をインポートする研究もあるが、運動のバランスを維持するなど関節間の潜伏したシナジーはほとんど調べられていない。 3次元hpe問題に取り組むために,グループ内ジョイントリファインメント(hopfir)を用いたホップワイズグラフフォーマを提案する。 HopFIRは主に、新しいホップワイドグラフフォーマー(HGF)モジュールと、周辺関節改善のための前肢情報を利用するグループ内関節リファインメント(IJR)モジュールで構成されている。 hgfモジュールはジョイントをk$-hop近傍でグループ化し、これらのグループの中でホップワイズトランスフォーマーのような注意機構を利用して潜在的なジョイントシナジーを発見する。 大規模な実験の結果、HopFIRはSOTA法よりも大きなマージンを持つ(Human3.6Mデータセットでは、関節位置誤差の平均は32.67mm)。 また,従来のsoma gcnベースの手法では,semcnやmgcnなどの性能向上効果をそれぞれ8.9%,4.5%向上させ,ホップワイズアテンション機構を効率的に活用できることが実証された。

2D-to-3D human pose lifting is fundamental for 3D human pose estimation (HPE). Graph Convolutional Network (GCN) has been proven inherently suitable to model the human skeletal topology. However, current GCN-based 3D HPE methods update the node features by aggregating their neighbors' information without considering the interaction of joints in different motion patterns. Although some studies import limb information to learn the movement patterns, the latent synergies among joints, such as maintaining balance in the motion are seldom investigated. We propose a hop-wise GraphFormer with intragroup joint refinement (HopFIR) to tackle the 3D HPE problem. The HopFIR mainly consists of a novel Hop-wise GraphFormer(HGF) module and an Intragroup Joint Refinement(IJR) module which leverages the prior limb information for peripheral joints refinement. The HGF module groups the joints by $k$-hop neighbors and utilizes a hop-wise transformer-like attention mechanism among these groups to discover latent joint synergy. Extensive experimental results show that HopFIR outperforms the SOTA methods with a large margin (on the Human3.6M dataset, the mean per joint position error (MPJPE) is 32.67mm). Furthermore, it is also demonstrated that previous SOTA GCN-based methods can benefit from the proposed hop-wise attention mechanism efficiently with significant performance promotion, such as SemGCN and MGCN are improved by 8.9% and 4.5%, respectively.
翻訳日:2023-03-01 16:26:11 公開日:2023-02-28
# ガウス過程分類としての対話的セグメンテーション

Interactive Segmentation as Gaussian Process Classification ( http://arxiv.org/abs/2302.14578v1 )

ライセンス: Link先を確認
Minghao Zhou, Hong Wang, Qian Zhao, Yuexiang Li, Yawen Huang, Deyu Meng, Yefeng Zheng(参考訳) クリックベースのインタラクティブセグメンテーション(is)は、ユーザインタラクション下でターゲットオブジェクトを抽出することを目的としている。 このタスクでは、現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。 有望なパフォーマンスを達成する一方で、クリック情報の完全かつ明示的な利用や伝播は行わず、クリックポイントにおいても、必然的に不満足なセグメンテーション結果につながる。 本稿では,各画像上のガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。 そこで本モデルでは,データ駆動方式で計算可能なgp後続部を近似し,近似したgp後続部を二重空間形式に分離し,線形複雑化を伴う効率的なサンプリングを行う。 そこで,我々はGP分類フレームワークであるGPCISを構築し,より柔軟性を高めるために深層カーネル学習機構と統合する。 提案されたGPCISの主な特異性は次のとおりである。 1) 導出GP後部の明示的な指示の下で,クリックに含まれる情報は,画像全体に対して微妙に伝播し,セグメンテーションを増強することができる。 2) クリック時の予測精度は理論的に良好である。 GPCISのこれらの利点は、その優れた一般性と高い効率性は、いくつかのベンチマークでの包括的な実験によって、定量的かつ定性的に代表的手法と比較される。

Click-based interactive segmentation (IS) aims to extract the target objects under user interaction. For this task, most of the current deep learning (DL)-based methods mainly follow the general pipelines of semantic segmentation. Albeit achieving promising performance, they do not fully and explicitly utilize and propagate the click information, inevitably leading to unsatisfactory segmentation results, even at clicked points. Against this issue, in this paper, we propose to formulate the IS task as a Gaussian process (GP)-based pixel-wise binary classification model on each image. To solve this model, we utilize amortized variational inference to approximate the intractable GP posterior in a data-driven manner and then decouple the approximated GP posterior into double space forms for efficient sampling with linear complexity. Then, we correspondingly construct a GP classification framework, named GPCIS, which is integrated with the deep kernel learning mechanism for more flexibility. The main specificities of the proposed GPCIS lie in: 1) Under the explicit guidance of the derived GP posterior, the information contained in clicks can be finely propagated to the entire image and then boost the segmentation; 2) The accuracy of predictions at clicks has good theoretical support. These merits of GPCIS as well as its good generality and high efficiency are substantiated by comprehensive experiments on several benchmarks, as compared with representative methods both quantitatively and qualitatively.
翻訳日:2023-03-01 16:25:41 公開日:2023-02-28
# 超資源制約プリント回路用近似多層パーセプトロンの共設計

Co-Design of Approximate Multilayer Perceptron for Ultra-Resource Constrained Printed Circuits ( http://arxiv.org/abs/2302.14576v1 )

ライセンス: Link先を確認
Giorgos Armeniakos, Georgios Zervakis, Dimitrios Soudris, Mehdi B. Tahoori, J\"org Henkel(参考訳) Printed Electronics(PE)は、その追加製造プロセスのために、オンデマンドで非常に低コストなハードウェアを展示しており、シリコンベースのシステムが提供できない極低コスト、適合性、非毒性要件を特徴とするドメインに対する機械学習(ML)アプリケーションを可能にする。 それでも、PEにおける大きな特徴サイズは、複雑な印刷ML回路の実現を禁止している。 本研究は,コンピュータの原理を生かした自動印刷対応ソフトウェア/ハードウェア共同設計フレームワークを初めて提示し,超リソース制約型多層パーセプトロン(MLP)の実現について述べる。 評価の結果,最先端のベースラインと比較して,回路は平均6倍 (5.7x) 以下の領域 (電力) と1%未満の精度損失を特徴としている。

Printed Electronics (PE) exhibits on-demand, extremely low-cost hardware due to its additive manufacturing process, enabling machine learning (ML) applications for domains that feature ultra-low cost, conformity, and non-toxicity requirements that silicon-based systems cannot deliver. Nevertheless, large feature sizes in PE prohibit the realization of complex printed ML circuits. In this work, we present, for the first time, an automated printed-aware software/hardware co-design framework that exploits approximate computing principles to enable ultra-resource constrained printed multilayer perceptrons (MLPs). Our evaluation demonstrates that, compared to the state-of-the-art baseline, our circuits feature on average 6x (5.7x) lower area (power) and less than 1% accuracy loss.
翻訳日:2023-03-01 16:25:18 公開日:2023-02-28
# 人の再識別に必要なのは、少しだけ注意が必要です。

A Little Bit Attention Is All You Need for Person Re-Identification ( http://arxiv.org/abs/2302.14574v1 )

ライセンス: Link先を確認
Markus Eisenbach, Jannik L\"ubberstedt, Dustin Aganian, Horst-Michael Gross(参考訳) 個人の再識別は、移動ロボットが長期間にわたってユーザーを追跡する必要があるアプリケーションにおいて重要な役割を担っている。 この文脈では,複数のタスクに対して計算資源を共有できる専用デバイス上で,モバイルロボットのディープラーニングに基づくリアルタイム特徴抽出を行うことが多い。 したがって、推論速度を考慮する必要がある。 対照的に、人の再識別は、推論を著しく遅くするコストがかかるアーキテクチャの変更によって改善されることが多い。 注意ブロックはそのような例である。 現状で使われている注意ブロックのいくつかは、モバイルロボットアプリケーションでの使用を正当化するにはあまりにも高い推論コストがかかっていることを示します。 その結果,再同定精度の面では,より深いネットワークやより複雑な注意ブロックに追随しながら,推論速度にわずかに影響する注意ブロックを提案する。 我々は、この注意ブロックをアーキテクチャに組み込むべき場所のルールを導出するために、広範囲のニューラルアーキテクチャ探索を行い、速度と精度の最良のトレードオフを達成する。 最後に、再識別ベンチマークにおける最適な構成が屋内ロボットデータセット上でも良好であることを確認した。

Person re-identification plays a key role in applications where a mobile robot needs to track its users over a long period of time, even if they are partially unobserved for some time, in order to follow them or be available on demand. In this context, deep-learning based real-time feature extraction on a mobile robot is often performed on special-purpose devices whose computational resources are shared for multiple tasks. Therefore, the inference speed has to be taken into account. In contrast, person re-identification is often improved by architectural changes that come at the cost of significantly slowing down inference. Attention blocks are one such example. We will show that some well-performing attention blocks used in the state of the art are subject to inference costs that are far too high to justify their use for mobile robotic applications. As a consequence, we propose an attention block that only slightly affects the inference speed while keeping up with much deeper networks or more complex attention blocks in terms of re-identification accuracy. We perform extensive neural architecture search to derive rules at which locations this attention block should be integrated into the architecture in order to achieve the best trade-off between speed and accuracy. Finally, we confirm that the best performing configuration on a re-identification benchmark also performs well on an indoor robotic dataset.
翻訳日:2023-03-01 16:25:03 公開日:2023-02-28
# Combinatorial Coverageによるアクティブラーニング

Active Learning with Combinatorial Coverage ( http://arxiv.org/abs/2302.14567v1 )

ライセンス: Link先を確認
Sai Prathyush Katragadda, Tyler Cody, Peter Beling, Laura Freeman(参考訳) アクティブな学習は、ラベル付けするデータを選択するプロセスを自動化する機械学習の実践的な分野である。 現在の手法はデータラベリングの負担を軽減するのに有効であるが、モデルに強く依存する。 これにより、サンプルデータの新しいモデルへの転送が不可能になり、サンプリングバイアスの問題も発生した。 どちらも、機械学習のデプロイメントにおいて重要な問題だ。 本稿では,これらの課題を克服するために,組合せ被覆を用いたアクティブラーニング手法を提案する。 提案手法は, モデル中心とは対照的にデータ中心であり, 実験により, アクティブラーニングにカバレッジを組み込むことで, よりよいモデルへの転向に最適で, ベンチマーク法に比べて競合的なサンプリングバイアスを持つデータサンプリングが実現することを示した。

Active learning is a practical field of machine learning that automates the process of selecting which data to label. Current methods are effective in reducing the burden of data labeling but are heavily model-reliant. This has led to the inability of sampled data to be transferred to new models as well as issues with sampling bias. Both issues are of crucial concern in machine learning deployment. We propose active learning methods utilizing combinatorial coverage to overcome these issues. The proposed methods are data-centric, as opposed to model-centric, and through our experiments we show that the inclusion of coverage in active learning leads to sampling data that tends to be the best in transferring to better performing models and has a competitive sampling bias compared to benchmark methods.
翻訳日:2023-03-01 16:24:44 公開日:2023-02-28
# 義足・高齢者音声認識のための自己教師付き事前学習型asrモデルの検討

Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2302.14564v1 )

ライセンス: Link先を確認
Shujie Hu, Xurong Xie, Zengrui Jin, Mengzhe Geng, Yi Wang, Mingyu Cui, Jiajun Deng, Xunying Liu, Helen Meng(参考訳) 不規則・高齢の音声の自動認識は、大量のデータ収集が困難であるため、現在まで非常に困難な課題である。 本稿では,TDNN と Conformer ASR システムにドメイン適応型SSL事前訓練モデルを統合するための一連のアプローチについて検討する。 a) 標準音響フロントエンドと領域適応wav2vec2.0音声表現との入力特徴融合 b)標準音響特徴と追加のwav2vec2.0特徴のみを用いて個別に訓練されたTDNNシステムのフレームレベル共同復号 c) ドメイン適応wav2vec2.0モデルを用いて、TDNN/Conformerシステム出力を含むマルチパス復号化を行う。 さらに、ドメイン適応wav2vec2.0表現はa2aインバージョンで活用され、マルチモーダル・ディサルトリックおよび高齢者音声認識システムを構築する。 uaspeech dysarthric と dementiabank pitt elderly speech corpora の実験では、tdnn と conformer asr systems integrated domain adapt wav2vec2.0 モデルが、統計学的に有意な wer モデルを8.22% と 3.43% の絶対値 (26.71% と 15.88% の絶対値) でそれぞれ上回っていることが示唆された。 最も低いWERは22.56%(非常に低い知性では52.53%、見えない単語では39.09%)で、UASpeechテストセットの16の変形性スピーカでは18.17%、DementiaBank Pittテストセットでは18.17%である。

Automatic recognition of disordered and elderly speech remains a highly challenging task to date due to the difficulty in collecting such data in large quantities. This paper explores a series of approaches to integrate domain adapted SSL pre-trained models into TDNN and Conformer ASR systems for dysarthric and elderly speech recognition: a) input feature fusion between standard acoustic frontends and domain adapted wav2vec2.0 speech representations; b) frame-level joint decoding of TDNN systems separately trained using standard acoustic features alone and with additional wav2vec2.0 features; and c) multi-pass decoding involving the TDNN/Conformer system outputs to be rescored using domain adapted wav2vec2.0 models. In addition, domain adapted wav2vec2.0 representations are utilized in acoustic-to-articulatory (A2A) inversion to construct multi-modal dysarthric and elderly speech recognition systems. Experiments conducted on the UASpeech dysarthric and DementiaBank Pitt elderly speech corpora suggest TDNN and Conformer ASR systems integrated domain adapted wav2vec2.0 models consistently outperform the standalone wav2vec2.0 models by statistically significant WER reductions of 8.22% and 3.43% absolute (26.71% and 15.88% relative) on the two tasks respectively. The lowest published WERs of 22.56% (52.53% on very low intelligibility, 39.09% on unseen words) and 18.17% are obtained on the UASpeech test set of 16 dysarthric speakers, and the DementiaBank Pitt test set respectively.
翻訳日:2023-03-01 16:24:31 公開日:2023-02-28
# 古典系および量子系における時空間パターンの平衡から定量化

Quantifying spatio-temporal patterns in classical and quantum systems out of equilibrium ( http://arxiv.org/abs/2302.14558v1 )

ライセンス: Link先を確認
E.A. Maletskii, I.A. Iakovlev, V.V. Mazurenko(参考訳) 様々な非平衡力学現象やプロセスは、完全に異なる性質を持つ多体系における空間的自由度と時間的自由度の間の複雑な相互作用を探索し推定する一般的な数値技術の発達を明白に求めている。 本研究では,システムの時間依存ディジタル表現における時空間パターンを定量化するための構造的複雑性尺度を適用することで,この問題に対する解決策を提案する。 非常に限られた量のデータに基づいて、このアプローチは異なる動的レジームを区別し、古典的および量子的なシステムの両方において重要なパラメータを定義することができる。 非平衡量子系で実現される離散時間結晶の例により、この非自明な動的位相の完全な低レベルキャラクタリゼーションをビットストリングのみを処理し、量子ビット相関関数の計算に基づく以前の研究の代替として価値あるものと考えることができる。

A rich variety of non-equilibrium dynamical phenomena and processes unambiguously calls for the development of general numerical techniques to probe and estimate a complex interplay between spatial and temporal degrees of freedom in many-body systems of completely different nature. In this work we provide a solution to this problem by adopting a structural complexity measure to quantify spatio-temporal patterns in the time-dependent digital representation of a system. On the basis of very limited amount of data our approach allows to distinguish different dynamical regimes and define critical parameters in both classical and quantum systems. By the example of the discrete time crystal realized in non-equilibrium quantum systems we provide a complete low-level characterization of this nontrivial dynamical phase with only processing bitstrings, which can be considered as a valuable alternative to previous studies based on the calculations of qubit correlation functions.
翻訳日:2023-03-01 16:24:00 公開日:2023-02-28
# GRAN:シングルイメージ超解像のためのゴースト残留注意ネットワーク

GRAN: Ghost Residual Attention Network for Single Image Super Resolution ( http://arxiv.org/abs/2302.14557v1 )

ライセンス: Link先を確認
Axi Niu, Pei Wang, Yu Zhu, Jinqiu Sun, Qingsen Yan, Yanning Zhang(参考訳) 近年,画像の高解像度化を実現するために,より広範に深いネットワークを設計する作業が数多く行われている。 その優れた性能にもかかわらず、高い計算資源に苦しんでおり、組み込みデバイスに直接適用できない。 計算資源の削減と性能の維持を目的として,高速超解像のための新しいゴースト残留注意ネットワーク(GRAN)を提案する。 本稿では,Ghost Residual Attention Block (GRAB) グループを導入し,標準的な畳み込み操作の欠点,すなわち中間機能の冗長性を克服する。 grabはghostモジュールとchannelとspatial attention module(csam)で構成され、冗長な機能の生成を緩和する。 具体的には、Ghost Moduleは、標準の畳み込みを置き換えるために線形操作を採用することで、本質的な機能の基盤となる情報を明らかにすることができる。 Ghost Moduleによる冗長な機能の削減により、ネットワーク内のメモリとコンピューティングリソースの要求を低減します。 CSAMは、機能抽出の場所と場所について、より包括的な注意を払っている。 ベンチマークデータセット上で行った実験は,質的および定量的に,本手法の優れた性能を示す。 ベースラインモデルと比較すると,計算資源が小さく,パラメータやフロップが10倍以上も減少し,高い性能を実現している。

Recently, many works have designed wider and deeper networks to achieve higher image super-resolution performance. Despite their outstanding performance, they still suffer from high computational resources, preventing them from directly applying to embedded devices. To reduce the computation resources and maintain performance, we propose a novel Ghost Residual Attention Network (GRAN) for efficient super-resolution. This paper introduces Ghost Residual Attention Block (GRAB) groups to overcome the drawbacks of the standard convolutional operation, i.e., redundancy of the intermediate feature. GRAB consists of the Ghost Module and Channel and Spatial Attention Module (CSAM) to alleviate the generation of redundant features. Specifically, Ghost Module can reveal information underlying intrinsic features by employing linear operations to replace the standard convolutions. Reducing redundant features by the Ghost Module, our model decreases memory and computing resource requirements in the network. The CSAM pays more comprehensive attention to where and what the feature extraction is, which is critical to recovering the image details. Experiments conducted on the benchmark datasets demonstrate the superior performance of our method in both qualitative and quantitative. Compared to the baseline models, we achieve higher performance with lower computational resources, whose parameters and FLOPs have decreased by more than ten times.
翻訳日:2023-03-01 16:23:42 公開日:2023-02-28
# ソフトウェア開発におけるチームインタラクションの検出と最適化

Detecting and Optimising Team Interactions in Software Development ( http://arxiv.org/abs/2302.14609v1 )

ライセンス: Link先を確認
Christian Zingg, Alexander von Gernler, Carsten Arzig, Frank Schweitzer, Christoph Gote(参考訳) チームの機能的な相互作用構造は、異なる役割のメンバーが相互作用する好みを捉えます。 本稿では,開発チームが日常作業中に開発プラットフォームから離脱する痕跡から,ソフトウェア開発チームの機能的インタラクション構造を検出するためのデータ駆動アプローチを提案する。 提案手法では,チームメンバーのアクティビティレベルの違いを考慮し,異なる役割のメンバ間の相互作用の選好を計算するためにブロック制約設定モデルを用いる。 我々は,ドイツのITセキュリティ企業genua GmbHの製品チームの機能的インタラクション構造を抽出するケーススタディにアプローチを適用した。 その後,5人のチームメンバーとのインタビューにおいて,検出されたインタラクション構造の正確性を検証する。 最後に、我々のアプローチによって、チームが合成されたベンチマークシナリオと機能的な相互作用構造を比較することができることを示す。 具体的には、チーム内の知識拡散のレベルを評価し、チームがさらに改善できる領域を特定します。 私たちのアプローチは計算効率が高く、チームのインタラクション構造を管理するためにリアルタイムで適用できます。

The functional interaction structure of a team captures the preferences with which members of different roles interact. This paper presents a data-driven approach to detect the functional interaction structure for software development teams from traces team members leave on development platforms during their daily work. Our approach considers differences in the activity levels of team members and uses a block-constrained configuration model to compute interaction preferences between members of different roles. We apply our approach in a case study to extract the functional interaction structure of a product team at the German IT security company genua GmbH. We subsequently validate the accuracy of the detected interaction structure in interviews with five team members. Finally, we show how our approach enables teams to compare their functional interaction structure against synthetically created benchmark scenarios. Specifically, we evaluate the level of knowledge diffusion in the team and identify areas where the team can further improve. Our approach is computationally efficient and can be applied in real time to manage a team's interaction structure.
翻訳日:2023-03-01 16:17:38 公開日:2023-02-28
# 帯域制御mott遷移の量子臨界性

Quantum criticality of bandwidth-controlled Mott transition ( http://arxiv.org/abs/2302.14605v1 )

ライセンス: Link先を確認
Kensaku Takai, Youhei Yamaji, Fakher F. Assaad and Masatoshi Imada(参考訳) モット絶縁体近傍の金属状態は、様々な磁性、電荷秩序状態、様々な遷移金属酸化物と有機固体の高温超伝導を含む様々な量子相を示す。 様々な相の出現とその競合は、電子相関駆動mott絶縁体とその臨界性によって特徴づけられる金属の間の量子遷移と密接に関連しており、凝縮物質の多くの中心的問題と関連している。 しかし、量子臨界性は、遷移が圧力などの物理的パラメータを通して帯域幅によって制御されるときによく理解されない。 本稿では,オープンソースの革新型量子多体解法として実装した変分モンテカルロ法を用いて,一般的な帯域制御モット遷移におけるスケーリング則の確立により,臨界指数の包括的集合を特徴とする遷移の普遍性クラスを定量的に推定する。 臨界性はキャリアドーピングによって達成された充填制御遷移とは対照的に電荷が弱く密度不安定であり、超伝導にも弱い不安定性を示す。 この包括的解明は、量子モット転移の解明と、機能の将来設計を育む近傍のストレンジメタルの完全な理解のために、定量的な実験的研究のための多くの経路を開く。

Metallic states near the Mott insulator show a variety of quantum phases including various magnetic, charge ordered states and high-temperature superconductivity in various transition metal oxides and organic solids. The emergence of a variety of phases and their competitions are likely intimately associated with quantum transitions between the electron-correlation driven Mott insulator and metals characterized by its criticality, and is related to many central questions of condensed matter. The quantum criticality is, however, not well understood when the transition is controlled by the bandwidth through physical parameters such as pressure. Here, we quantitatively estimate the universality class of the transition characterized by a comprehensive set of critical exponents by using a variational Monte Carlo method implemented as an open-source innovated quantum many-body solver, with the help of established scaling laws at a typical bandwidth-controlled Mott transition. The criticality indicates a weaker charge and density instability in contrast to the filling-controlled transition realized by carrier doping, implying a weaker instability to superconductivity as well. The present comprehensive clarification opens up a number of routes for quantitative experimental studies for complete understanding of elusive quantum Mott transition and nearby strange metal that cultivate future design of functionality.
翻訳日:2023-03-01 16:17:25 公開日:2023-02-28
# IQ-Flow:シークエンシャル社会ジレンマにおける自己関心エージェントの協調行動誘導機構の設計

IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to Self-Interested Agents in Sequential Social Dilemmas ( http://arxiv.org/abs/2302.14604v1 )

ライセンス: Link先を確認
Bengisu Guresti, Abdullah Vanlioglu, Nazim Kemal Ure(参考訳) 共通の目的を達成するためのエージェント間の協力と維持は、MARL(Multi-Agent Reinforcement Learning)の中心的な目標の1つである。 それにもかかわらず、多くの現実世界のシナリオでは、個別に訓練されたエージェントと専門化されたエージェントが共有環境にデプロイされる。 これらの専門性と目的のバリエーションは、最終的にはすべての当事者が失われる社会的ジレンマを引き起こす混合動機を引き起こす可能性が高い。 この問題を解決するために,インセンティブ型Qフロー(IQ-Flow)アルゴリズムを提案する。このアルゴリズムは,協調政策がエージェントの自己関心ポリシーに対応するように,インセンティブ型規制エージェントでシステムの報酬設定を変更する。 自己関心のあるエージェントにインセンティブを与えることを学ぶ既存の方法とは異なり、iq-flowはエージェントのポリシーや学習アルゴリズムについて仮定していない。 IQ-Flowは、他のエージェントが提供したデータを用いて、学習したポリシーの最適性をオフラインで評価し、協調的かつ自己関心の政策を決定する。 次に、IQ-Flowはメタグラディエント学習を用いて、与えられたインセンティブに応じて政策評価がどのように変化するかを推定し、協調目的と自己関心の対象に対する欲求政策が同じ行動をもたらすようなインセンティブを変更する。 反復行列ゲームにおけるIQ-Flowの動作特性について述べる。 Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。 さらに,事前学習したIQ-Flow機構は,2プレーヤクリーンアップ環境における共有報酬設定の性能を著しく向上させることを示した。

Achieving and maintaining cooperation between agents to accomplish a common objective is one of the central goals of Multi-Agent Reinforcement Learning (MARL). Nevertheless in many real-world scenarios, separately trained and specialized agents are deployed into a shared environment, or the environment requires multiple objectives to be achieved by different coexisting parties. These variations among specialties and objectives are likely to cause mixed motives that eventually result in a social dilemma where all the parties are at a loss. In order to resolve this issue, we propose the Incentive Q-Flow (IQ-Flow) algorithm, which modifies the system's reward setup with an incentive regulator agent such that the cooperative policy also corresponds to the self-interested policy for the agents. Unlike the existing methods that learn to incentivize self-interested agents, IQ-Flow does not make any assumptions about agents' policies or learning algorithms, which enables the generalization of the developed framework to a wider array of applications. IQ-Flow performs an offline evaluation of the optimality of the learned policies using the data provided by other agents to determine cooperative and self-interested policies. Next, IQ-Flow uses meta-gradient learning to estimate how policy evaluation changes according to given incentives and modifies the incentive such that the greedy policy for cooperative objective and self-interested objective yield the same actions. We present the operational characteristics of IQ-Flow in Iterated Matrix Games. We demonstrate that IQ-Flow outperforms the state-of-the-art incentive design algorithm in Escape Room and 2-Player Cleanup environments. We further demonstrate that the pretrained IQ-Flow mechanism significantly outperforms the performance of the shared reward setup in the 2-Player Cleanup environment.
翻訳日:2023-03-01 16:17:02 公開日:2023-02-28
# スケーラブルクラスタリング:異常値を持つガウス混合モデルの大規模非教師なし学習

Scalable Clustering: Large Scale Unsupervised Learning of Gaussian Mixture Models with Outliers ( http://arxiv.org/abs/2302.14599v1 )

ライセンス: Link先を確認
Yijia Zhou, Kyle A. Gallivan, Adrian Barbu(参考訳) クラスタリングは、様々な分野で長く豊かな歴史を持つ広く使われているテクニックである。 しかし、既存のアルゴリズムは大きなデータセットにうまくスケールしていないか、あるいは収束の理論的保証が欠けている。 本稿では,ガウス混合モデルに対して,損失最小化に基づく頑健なクラスタリングアルゴリズムを提案する。 これはアルゴリズムが特定の仮定の下で高い確率で高い精度を得るという理論的保証を提供する。 さらに、$k$-meansクラスタリングの初期化戦略としても使用できる。 実世界の大規模データセットに関する実験では、多数のクラスタをクラスタリングするアルゴリズムの有効性が実証され、アルゴリズムによって初期化された$k$-meansアルゴリズムは、imagenetのような大規模データセットによくスケーリングしながら、多くの古典的なクラスタリング手法をスピードと精度で上回っている。

Clustering is a widely used technique with a long and rich history in a variety of areas. However, most existing algorithms do not scale well to large datasets, or are missing theoretical guarantees of convergence. This paper introduces a provably robust clustering algorithm based on loss minimization that performs well on Gaussian mixture models with outliers. It provides theoretical guarantees that the algorithm obtains high accuracy with high probability under certain assumptions. Moreover, it can also be used as an initialization strategy for $k$-means clustering. Experiments on real-world large-scale datasets demonstrate the effectiveness of the algorithm when clustering a large number of clusters, and a $k$-means algorithm initialized by the algorithm outperforms many of the classic clustering methods in both speed and accuracy, while scaling well to large datasets such as ImageNet.
翻訳日:2023-03-01 16:16:04 公開日:2023-02-28
# 交通システムにおける準定常状態間の遷移--ケルン軌道を例として

Transitions between quasi-stationary states in traffic systems: Cologne orbital motorways as an example ( http://arxiv.org/abs/2302.14596v1 )

ライセンス: Link先を確認
Shanshan Wang, Michael Schreckenberg and Thomas Guhr(参考訳) 交通システムは様々なモードで運用できる。 前回の研究では、これらのモードを相関構造において異なる準定常状態と同定した。 本稿では,準定常状態間の遷移,すなわちシステムが動作モードをどのように変化させるかを分析する。 長期的には、トラフィックの相関パターンの時間的進化を予測するのに役立つかもしれない。 我々はケルン軌道を例として、2015年第4四半期ごとに状態遷移ネットワークを構築し、交通システムにおける準定常状態に季節的依存を見出す。 PageRankアルゴリズムを用いて、2015年に60日間の移動時間ウィンドウ内で頻繁に発生する支配的状態を特定し、探索する。 私たちの知る限りでは、このタイプの交通システムに関する最初の研究である。

Traffic systems can operate in different modes. In a previous work, we identified these modes as different quasi-stationary states in the correlation structure. Here, we analyze the transitions between such quasi-stationary states, i.e., how the system changes its operational mode. In the longer run this might be helpful to forecast the time evolution of correlation patterns in traffic. We take Cologne orbital motorways as an example, we construct a state transition network for each quarter of 2015 and find a seasonal dependence for those quasi-stationary states in the traffic system. Using the PageRank algorithm, we identify and explore the dominant states which occur frequently within a moving time window of 60 days in 2015. To the best of our knowledge, this is the first study of this type for traffic systems.
翻訳日:2023-03-01 16:15:49 公開日:2023-02-28
# MateRobot:視覚障害者のためのウェアラブルロボットの素材認識

MateRobot: Material Recognition in Wearable Robotics for People with Visual Impairments ( http://arxiv.org/abs/2302.14595v1 )

ライセンス: Link先を確認
Junwei Zheng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen(参考訳) ウェアラブルロボットは、追加の感覚情報を提供することで、視覚障害者(PVI)の生活を改善することができる。 盲人は通常、触覚を通して物体を認識する。 しかし, 触る前に資料を知ることは, 補助技術の分野では未熟である。 このギャップを埋めるために、この作業では、PVIが材料を事前に認識するために、ウェアラブルロボットシステムであるMateRobotが確立されている。 特に、人中心のシステムは、オブジェクトや材料のピクセルワイドなセマンティックセグメンテーションを行うことができる。 汎用オブジェクトセグメンテーションと材料セグメンテーションの両方を考慮すると、異なる対象領域から補完的な利益を得るために、Learningable Importance Smpling(LIS)とMulti-gate Mixture-of-Experts(MMoE)を用いた効率的なMateViTアーキテクチャがウェアラブルロボットに提案されている。 提案手法は,COCOStuffおよびDMSデータセット上でmIoUの40.2%と51.1%をそれぞれ達成し,従来の手法を+5.7%,+7.0%で上回った。 さらに, 参加者とのフィールドテストでは, nasa-task load indexで28点のスコアを取得し, 認知能力の低下と使いやすさを示した。 我々のMateRobotは、視覚的手がかりによる材料特性の認識の実現可能性を示し、PVIのためのウェアラブルロボットの機能を改善するための有望なステップを提供する。 コードは、https://github.com/JunweiZheng93/MATERobot.comで入手できる。

Wearable robotics can improve the lives of People with Visual Impairments (PVI) by providing additional sensory information. Blind people typically recognize objects through haptic perception. However, knowing materials before touching is under-explored in the field of assistive technology. To fill this gap, in this work, a wearable robotic system, MateRobot, is established for PVI to recognize materials before hand. Specially, the human-centric system can perform pixel-wise semantic segmentation of objects and materials. Considering both general object segmentation and material segmentation, an efficient MateViT architecture with Learnable Importance Sampling (LIS) and Multi-gate Mixture-of-Experts (MMoE) is proposed to wearable robots to achieve complementary gains from different target domains. Our methods achieve respective 40.2% and 51.1% of mIoU on COCOStuff and DMS datasets, surpassing previous method with +5.7% and +7.0% gains. Moreover, on the field test with participants, our wearable system obtains a score of 28 in NASA-Task Load Index, indicating low cognitive demands and ease of use. Our MateRobot demonstrates the feasibility of recognizing material properties through visual cues, and offers a promising step towards improving the functionality of wearable robots for PVI. Code will be available at: https://github.com/JunweiZheng93/MATERobot.
翻訳日:2023-03-01 16:15:38 公開日:2023-02-28
# オープンシステムのノイズ支援ディジタル量子シミュレーション

Noise-assisted digital quantum simulation of open systems ( http://arxiv.org/abs/2302.14592v1 )

ライセンス: Link先を確認
Jos\'e D. Guimar\~aes, James Lim, Mikhail I. Vasilevskiy, Susana F. Huelga and Martin B. Plenio(参考訳) 量子系は本質的に開放的であり、環境騒音の影響を受けやすい。 特に、ノイズは生体分子系の新しい機能を可能にするために観測され、そのダイナミクスのシミュレーションはデジタルおよびアナログ量子シミュレーションの重要なターゲットとなっている。 しかし、現在の量子デバイスは一般に騒がしく、計算能力に制限がある。 本研究では,量子デバイスの本質的な雑音を利用して,オープン量子システムのシミュレーションに必要な量子計算資源を削減する手法を提案する。 我々は,量子回路における固有雑音の変換と制御を可能にする量子雑音特性評価法と量子誤差緩和法を組み合わせることで,これを実現する。 具体的には,開放系力学の所望のシミュレーションを実現するために,量子回路のデコヒーレンス率を選択的に増減する。 提案手法を詳述し,実およびエミュレートされたIBM量子コンピュータ上でのノイズ特性と量子誤差低減の結果について報告する。 また,実験的な資源要求の見積もりも行っている。 我々は,本手法が,その固有雑音を利用して量子計算を補助する,ノイズ中規模量子(NISQ)デバイスにおける新しいシミュレーション手法の道を開くことができると考えている。

Quantum systems are inherently open and subject to environmental noise, which can have both detrimental and beneficial effects on their dynamics. In particular, noise has been observed to enable novel functionalities in bio-molecular systems, making the simulation of their dynamics an important target for digital and analog quantum simulation. However, current quantum devices are typically noisy, limiting their computational capabilities. In this work, we propose a novel approach that leverages the intrinsic noise of a quantum device to reduce the quantum computational resources required for simulating open quantum systems. We achieve this by combining quantum noise characterization methods with quantum error mitigation techniques, which allow us to transform and control the intrinsic noise in a quantum circuit. Specifically, we selectively enhance or reduce decoherence rates in the quantum circuit to achieve the desired simulation of open system dynamics. We describe our methods in detail and report on the results of noise characterization and quantum error mitigation on real and emulated IBM Quantum computers. We also provide estimates of the experimental resource requirements for our techniques. We believe that this approach can pave the way for new simulation techniques in Noisy Intermediate-Scale Quantum (NISQ) devices, where their intrinsic noise can be harnessed to assist quantum computations.
翻訳日:2023-03-01 16:15:12 公開日:2023-02-28
# 詳細に焦点をあてる: 多様な細粒度表現を持つオンラインマルチオブジェクト追跡

Focus On Details: Online Multi-object Tracking with Diverse Fine-grained Representation ( http://arxiv.org/abs/2302.14589v1 )

ライセンス: Link先を確認
Hao Ren, Shoudong Han, Huilin Ding, Ziwen Zhang, Hongwei Wang, Faquan Wang(参考訳) 識別表現は、Multiple Object Tracking (MOT)において、各ターゲットに対してユニークな識別子を保持するために不可欠である。 最近のmot法は、境界ボックス領域や中心点の特徴をアイデンティティ埋め込みとして抽出する。 しかし、ターゲットがオクルードされるとき、これらの粗い粒度のグローバル表現は信頼できない。 この目的のために,グローバルおよびローカルな視点から外観を包括的に表現する多彩な細粒度表現について検討する。 このきめ細かい表現には高い特徴解像度と正確な意味情報が必要である。 文脈情報アグリゲーションの不特定による意味的ミスアライメントを効果的に軽減するために,マルチスケール特徴アライメントアグリゲーションに対してフローアライメントFPN(FAFPN)を提案する。 異なる解像度から特徴マップ間のセマンティックフローを生成し、画素位置を変換する。 さらに,アライメント特徴マップに基づいて細粒度表現を抽出するマルチヘッド部分マスク生成器(mpmg)を提案する。 MPMGの複数の並列ブランチは、ラベルの監督なしにターゲットの異なる部分に集中してローカルマスクを生成することができる。 ターゲットマスクの様々な詳細は、きめ細かい表現を促進する。 最終的に、正と負のサンプルのバランスが取れたShuffle-Group Smpling(SGS)トレーニング戦略の恩恵を受け、MOT17およびMOT20テストセットの最先端性能を達成する。 ターゲットの出現が極めて近いDanceTrackでも,HOTAではByteTrackが5.0%,IDF1では5.6%向上した。 広範囲な実験により、Re-IDがMOTで再び優れていることが証明された。

Discriminative representation is essential to keep a unique identifier for each target in Multiple object tracking (MOT). Some recent MOT methods extract features of the bounding box region or the center point as identity embeddings. However, when targets are occluded, these coarse-grained global representations become unreliable. To this end, we propose exploring diverse fine-grained representation, which describes appearance comprehensively from global and local perspectives. This fine-grained representation requires high feature resolution and precise semantic information. To effectively alleviate the semantic misalignment caused by indiscriminate contextual information aggregation, Flow Alignment FPN (FAFPN) is proposed for multi-scale feature alignment aggregation. It generates semantic flow among feature maps from different resolutions to transform their pixel positions. Furthermore, we present a Multi-head Part Mask Generator (MPMG) to extract fine-grained representation based on the aligned feature maps. Multiple parallel branches of MPMG allow it to focus on different parts of targets to generate local masks without label supervision. The diverse details in target masks facilitate fine-grained representation. Eventually, benefiting from a Shuffle-Group Sampling (SGS) training strategy with positive and negative samples balanced, we achieve state-of-the-art performance on MOT17 and MOT20 test sets. Even on DanceTrack, where the appearance of targets is extremely similar, our method significantly outperforms ByteTrack by 5.0% on HOTA and 5.6% on IDF1. Extensive experiments have proved that diverse fine-grained representation makes Re-ID great again in MOT.
翻訳日:2023-03-01 16:14:54 公開日:2023-02-28
# mmsense:ミニチュアレーダーセンサーで隠された武器を検知する

mmSense: Detecting Concealed Weapons with a Miniature Radar Sensor ( http://arxiv.org/abs/2302.14625v1 )

ライセンス: Link先を確認
Kevin Mitchell, Khaled Kassem, Chaitanya Kaul, Valentin Kapitany, Philip Binner, Andrew Ramsay, Roderick Murray-Smith, Daniele Faccio(参考訳) 広く採用されるためには、公共のセキュリティと監視システムは、観察される個人のプライバシーを損なうことなく、正確でポータブルで、コンパクトで、リアルタイムでなければならない。 現在のシステムは、正確だがプライバシーに欠けるイメージベースと、プライバシーを維持するがポータビリティ、コンパクトさ、正確性を欠くRF信号ベースの2つのカテゴリに分類される。 本論文は,個人に隠された金属物体の存在を個別に検出する,エンドツーエンドの小型化システムであるmmSenseを提案する。 mmSenseは、GoogleのSoliセンサーがデータ取得のために提供しているミリ波レーダー技術と、19ミリ秒で単一のレーダーデータフレームを処理できるリアルタイムニューラルネットワークであるTransDopeを備えています。

For widespread adoption, public security and surveillance systems must be accurate, portable, compact, and real-time, without impeding the privacy of the individuals being observed. Current systems broadly fall into two categories -- image-based which are accurate, but lack privacy, and RF signal-based, which preserve privacy but lack portability, compactness and accuracy. Our paper proposes mmSense, an end-to-end portable miniaturised real-time system that can accurately detect the presence of concealed metallic objects on persons in a discrete, privacy-preserving modality. mmSense features millimeter wave radar technology, provided by Google's Soli sensor for its data acquisition, and TransDope, our real-time neural network, capable of processing a single radar data frame in 19 ms. mmSense achieves high recognition rates on a diverse set of challenging scenes while running on standard laptop hardware, demonstrating a significant advancement towards creating portable, cost-effective real-time radar based surveillance systems.
翻訳日:2023-03-01 16:07:32 公開日:2023-02-28
# 2022年nist言語認識評価

The 2022 NIST Language Recognition Evaluation ( http://arxiv.org/abs/2302.14624v1 )

ライセンス: Link先を確認
Yooyoung Lee, Craig Greenberg, Eliot Godard, Asad A. Butt, Elliot Singer, Trang Nguyen, Lisa Mason, Douglas Reynolds(参考訳) 2022年、米国国立標準技術研究所(NIST)は、1996年からNISTが管理している最新の言語認識評価(LRE)を実施。 従来のLREと同様、LRE22は会話電話音声(CTS)と放送狭帯域音声(BNBS)データに焦点を当てていた。 LRE22はまた、低リソース言語を含むアフリカの言語に重点を置くことや、より長い録音からランダムにサンプリングされ抽出された3sから35sの音声を含むセグメントからなるテストセットなど、新しい評価機能を導入した。 この3ヶ月にわたる評価には,計21の研究機関が参加し,評価対象とした65の有効なシステム提案を行った。 本稿では,LRE22の概要と評価条件の異なるシステム性能の解析について述べる。 評価の結果,オロモとティグリニャは検出が容易であり,XhosaとZuluはより困難であることが示唆された。 いくつかの言語ペアでは、より難易度が高いことが分かる。 音声の持続時間が増加すると、システム性能は一定期間まで顕著に増加し、その後、システム性能の低下が観測される。

In 2022, the U.S. National Institute of Standards and Technology (NIST) conducted the latest Language Recognition Evaluation (LRE) in an ongoing series administered by NIST since 1996 to foster research in language recognition and to measure state-of-the-art technology. Similar to previous LREs, LRE22 focused on conversational telephone speech (CTS) and broadcast narrowband speech (BNBS) data. LRE22 also introduced new evaluation features, such as an emphasis on African languages, including low resource languages, and a test set consisting of segments containing between 3s and 35s of speech randomly sampled and extracted from longer recordings. A total of 21 research organizations, forming 16 teams, participated in this 3-month long evaluation and made a total of 65 valid system submissions to be evaluated. This paper presents an overview of LRE22 and an analysis of system performance over different evaluation conditions. The evaluation results suggest that Oromo and Tigrinya are easier to detect while Xhosa and Zulu are more challenging. A greater confusability is seen for some language pairs. When speech duration increased, system performance significantly increased up to a certain duration, and then a diminishing return on system performance is observed afterward.
翻訳日:2023-03-01 16:07:12 公開日:2023-02-28
# fast as chita: 組合せ最適化によるニューラルネットワークのプルーニング

Fast as CHITA: Neural Network Pruning with Combinatorial Optimization ( http://arxiv.org/abs/2302.14623v1 )

ライセンス: Link先を確認
Riade Benbaki, Wenyu Chen, Xiang Meng, Hussein Hazimeh, Natalia Ponomareva, Zhe Zhao, Rahul Mazumder(参考訳) 現代のニューラルネットワークの大きさは、モデルが真剣な計算課題となる。 一般的な圧縮手法のクラスは、事前訓練されたネットワークの重みを刈り取るか、スペーシングすることでこの課題を克服する。 有用ではあるが、これらの技術は計算要求と圧縮品質の間の深刻なトレードオフに直面することが多い。 本研究では,空間的制約を考慮した複数重み付け(および更新)の併用効果を考慮した,新しい最適化型プルーニングフレームワークを提案する。 我々のアプローチであるCHITAは、従来の最適脳サージオンフレームワークを拡張し、既存の最適化に基づくネットワークプルーニングのアプローチよりも、スピード、メモリ、パフォーマンスが大幅に向上した。 チタの主な仕事馬は、損失関数の局所二次近似(s)のメモリフレンドリーな表現について組合せ最適化更新を行う。 事前トレーニングされたモデルとデータセットの標準ベンチマークでは、CHITAは競合するメソッドよりも、スペーサビリティと精度のトレードオフが大幅に向上する。 例えば、重量の2%しか保持していないMPPNetでは、我々の手法は、最先端技術と比較して精度を63%向上させる。 さらに、微調整SGDステップと併用することで、最先端の手法よりも精度の高い手法を実現する。

The sheer size of modern neural networks makes model serving a serious computational challenge. A popular class of compression techniques overcomes this challenge by pruning or sparsifying the weights of pretrained networks. While useful, these techniques often face serious tradeoffs between computational requirements and compression quality. In this work, we propose a novel optimization-based pruning framework that considers the combined effect of pruning (and updating) multiple weights subject to a sparsity constraint. Our approach, CHITA, extends the classical Optimal Brain Surgeon framework and results in significant improvements in speed, memory, and performance over existing optimization-based approaches for network pruning. CHITA's main workhorse performs combinatorial optimization updates on a memory-friendly representation of local quadratic approximation(s) of the loss function. On a standard benchmark of pretrained models and datasets, CHITA leads to significantly better sparsity-accuracy tradeoffs than competing methods. For example, for MLPNet with only 2% of the weights retained, our approach improves the accuracy by 63% relative to the state of the art. Furthermore, when used in conjunction with fine-tuning SGD steps, our method achieves significant accuracy gains over the state-of-the-art approaches.
翻訳日:2023-03-01 16:06:52 公開日:2023-02-28
# 非平衡定常電流による量子電池充電

Quantum battery charging by non-equilibrium steady-state currents ( http://arxiv.org/abs/2302.14617v1 )

ライセンス: Link先を確認
F. H. Kamin, Z. Abuali, H. Ness, S. Salimi(参考訳) 本稿では、電荷電流および/または熱定常電流の存在下での量子電池の可用性と最大抽出能の解析を行う。 量子電池は、定常状態における非平衡グリーン関数理論の枠組みの中で、2つの熱的および粒子的貯水池に強く結合した非相互作用型オープン量子システム(メソスコピックシステム)としてモデル化される。 その結果、特にオフ共振輸送方式では、蓄電池は熱に比べて定常電荷電流によって顕著に帯電できることがわかった。 これにより、高バイアス充電方式で量子電池の性能を確実にアクセスできます。

We present an analysis of the availability and maximum extractable work of quantum batteries in the presence of charge and/or heat steady-state currents. Quantum batteries are modelled as non-interacting open quantum systems (mesoscopic systems) strongly coupled to two thermal and particle reservoirs within the framework of non-equilibrium Green's function theory in a steady-state regime. We found that the battery can be charged manifestly by a steady-state charge current compared to heat one, especially, in an off-resonant transport regime. It allows us to reliably access the performance of the quantum batteries in the high bias-charging regime.
翻訳日:2023-03-01 16:05:52 公開日:2023-02-28
# メトリック学習による分類エラー予測のための組合せカバレッジの能力向上

Metric Learning Improves the Ability of Combinatorial Coverage Metrics to Anticipate Classification Error ( http://arxiv.org/abs/2302.14616v1 )

ライセンス: Link先を確認
Tyler Cody, Laura Freeman(参考訳) 機械学習モデルは、実際にますます使われている。 しかし、多くの機械学習手法は、訓練データとは異なるテストデータや運用データに敏感である。 アウト・オブ・ディストリビューション(OOD)データは、エラーの確率を高め、データの相違がモデルパフォーマンスにどのような影響を及ぼすかを特定するメトリクスを研究することが知られている。 近年,分散指標の代替として,組合せカバレッジ指標が文献で研究されている。 その結果,カバレッジ指標は分類誤差と相関できることがわかった。 しかし、他の結果は、カバレッジメトリクスの有用性はデータセットに依存していることを示している。 本稿では,このデータセット依存を,異なるクラスのデータがさらに分離されている潜在空間を学習するための機械学習手法であるメートル法学習で軽減できることを示す。 6つのオープンソースデータセットの研究では、正しい分類データと間違った分類データに基づいて計算されたセット・ディファレンス・カバレッジ(sdccms)の差が、メートル法学習によって増大し、sdccmによる分類エラーの予測能力が向上することを示した。 ペアtテストは, 統計学的意義を検証した。 総じて、メトリック学習は、分類器エラーを予測し、OODデータがモデル性能を低下させる可能性のあるタイミングを特定するためのカバレッジメトリクスの能力を向上させると結論付けている。

Machine learning models are increasingly used in practice. However, many machine learning methods are sensitive to test or operational data that is dissimilar to training data. Out-of-distribution (OOD) data is known to increase the probability of error and research into metrics that identify what dissimilarities in data affect model performance is on-going. Recently, combinatorial coverage metrics have been explored in the literature as an alternative to distribution-based metrics. Results show that coverage metrics can correlate with classification error. However, other results show that the utility of coverage metrics is highly dataset-dependent. In this paper, we show that this dataset-dependence can be alleviated with metric learning, a machine learning technique for learning latent spaces where data from different classes is further apart. In a study of 6 open-source datasets, we find that metric learning increased the difference between set-difference coverage metrics (SDCCMs) calculated on correctly and incorrectly classified data, thereby demonstrating that metric learning improves the ability of SDCCMs to anticipate classification error. Paired t-tests validate the statistical significance of our findings. Overall, we conclude that metric learning improves the ability of coverage metrics to anticipate classifier error and identify when OOD data is likely to degrade model performance.
翻訳日:2023-03-01 16:05:44 公開日:2023-02-28
# 擬エルミート系における例外点の形成

Formation of Exceptional Points in pseudo-Hermitian Systems ( http://arxiv.org/abs/2302.14672v1 )

ライセンス: Link先を確認
Grigory A. Starkov, Mikhail V. Fistul and Ilya M. Eremin(参考訳) 最近の$\mathcal{P}\mathcal{T}$-対称ハミルトニアン系への関心の高まりにより、擬エルミート的ハミルトニアン(英語版)の固有スペクトルにおける例外点(英語版)(\textit{EP}$s)と呼ばれる特異点の緊急性について理論的に研究する。 一般対称性の引数を用いて、擬計量作用素 $\hat \zeta$ の固有値の符号 $\pm 1$ に対応するトポロジカル $\mathbb{Z}_2$ インデックスにより、ハーミシティ破れ項がないときに、別個のエネルギー準位を特徴づける。 その後、二階の$\textit{ep}$s の生成は、この$\mathbb{z}_2$-index によって制御されていることを明示的に示す:$\textit{opposite}$ index を持つレベルのペアのみが、2階の$\textit{ep}$sを提供できる。 我々の一般的な分析は、例えば$\mathcal{p}\mathcal{t}$-symmetric pseudo-hermitian system における$\textit{ep}$s の出現に関する詳細な研究に付随する。 すべてのレベルの解析計算されたパリティ指数を用いて、モデルの固有スペクトルを解析し、特に3階の$\textit{EP}$sを形成する。

Motivated by the recent growing interest in the field of $\mathcal{P}\mathcal{T}$-symmetric Hamiltonian systems we theoretically study the emergency of singularities called Exceptional Points ($\textit{EP}$s) in the eigenspectrum of pseudo-Hermitian Hamiltonian as the strength of Hermiticity-breaking terms turns on. Using general symmetry arguments, we characterize the separate energy levels by a topological $\mathbb{Z}_2$ index which corresponds to the signs $\pm 1$ of the eigenvalues of pseudo-metric operator $\hat \zeta$ in the absence of Hermiticity-breaking terms. After that, we show explicitly that the formation of second-order $\textit{EP}$s is governed by this $\mathbb{Z}_2$-index: only the pairs of levels with $\textit{opposite}$ index can provide second-order $\textit{EP}$s. Our general analysis is accompanied by a detailed study of $\textit{EP}$s appearance in an exemplary $\mathcal{P}\mathcal{T}$-symmetric pseudo-Hermitian system with parity operator in the role of $\hat \zeta$: a transverse-field Ising spin chain with a staggered imaginary longitudinal field. Using analytically computed parity indices of all the levels, we analyze the eigenspectrum of the model in general, and the formation of third-order $\textit{EP}$s in particular
翻訳日:2023-03-01 15:59:36 公開日:2023-02-28
# GANのためのダブルダイナミックスパーストレーニング

Double Dynamic Sparse Training for GANs ( http://arxiv.org/abs/2302.14670v1 )

ライセンス: Link先を確認
Yite Wang, Jing Wu, Naira Hovakimyan, Ruoyu Sun(参考訳) 過去10年で、特にGAN(Generative Adversarial Network)では、現代のディープニューラルネットワーク(DNN)サイズが大幅に増加した。 GANは通常、高い計算複雑性に悩まされているため、研究者はGANのトレーニングと推論コストを減らすためにプルーニング手法を適用することへの関心が高まっている。 教師あり学習のために考案された様々なプルーニング手法の中で,ポストホットプルーニングに匹敵する優れたトレーニング効率を享受するダイナミックスパーストレーニング(DST)が近年注目を集めている。 したがって, DST を GAN に適用し, トレーニング期間を通じてパラメータ数を一定に設定したスパース GAN を訓練することで, GAN のトレーニングコストを削減できる可能性が示唆された。 しかし、GANの敵対的な性質から、劣化するトレーニング不安定性を含むいくつかの課題が浮かび上がっている。 そこで我々は, 発生器と判別器のバランスを定量化するために, 平衡比 (BR) という量を導入する。 我々は,スパース GAN トレーニングの理解において BR の重要性を示す一連の実験を行った。 単一のsdst(single dynamic sparse training, sdst)に基づいて,gan訓練中にbrを制御するための二重動的スパーストレーニング(double dynamic sparse training, ddst)を提案する。 DDSTは、識別器の密度を自動的に決定し、複数のデータセット上でスパースGANの性能を大幅に向上させる。

The past decade has witnessed a drastic increase in modern deep neural networks (DNNs) size, especially for generative adversarial networks (GANs). Since GANs usually suffer from high computational complexity, researchers have shown an increased interest in applying pruning methods to reduce the training and inference costs of GANs. Among different pruning methods invented for supervised learning, dynamic sparse training (DST) has gained increasing attention recently as it enjoys excellent training efficiency with comparable performance to post-hoc pruning. Hence, applying DST on GANs, where we train a sparse GAN with a fixed parameter count throughout training, seems to be a good candidate for reducing GAN training costs. However, a few challenges, including the degrading training instability, emerge due to the adversarial nature of GANs. Hence, we introduce a quantity called balance ratio (BR) to quantify the balance of the generator and the discriminator. We conduct a series of experiments to show the importance of BR in understanding sparse GAN training. Building upon single dynamic sparse training (SDST), where only the generator is adjusted during training, we propose double dynamic sparse training (DDST) to control the BR during GAN training. Empirically, DDST automatically determines the density of the discriminator and greatly boosts the performance of sparse GANs on multiple datasets.
翻訳日:2023-03-01 15:59:03 公開日:2023-02-28
# 複合ネットワークによる製品形状のパラメトリゼーション

Parametrizing Product Shape Manifolds by Composite Networks ( http://arxiv.org/abs/2302.14665v1 )

ライセンス: Link先を確認
Josua Sassen, Klaus Hildebrandt, Martin Rumpf, Benedikt Wirth(参考訳) 形状空間におけるデータ多様体のパラメトリゼーションはリーマン幾何学の豊富なツールボックスを用いて計算できる。 しかし、これはしばしば高い計算コストを伴うため、効率的なニューラルネットワーク近似を学べるかどうかという疑問が提起される。 これは、特別な積構造を持つ形状空間、すなわち低次元多様体の直和によって滑らかに近似できる空間に対して実際に可能であることを示す。 提案アーキテクチャは,低次元因子の近似とその後の組み合わせを別々に学習することで,この構造を利用する。 一般的な枠組みとしてこのアプローチを開発した後、三角面の形状空間に適用する。 ここでは、データ多様体の典型的な例は、調音されたモデルのデータセットを通して与えられ、例えばスパース主測地解析(SPGA)によって分解できる。 本研究では,SPGAを用いた合成データおよびデータから抽出した多様体に関する実験により,提案手法の有効性を示す。

Parametrizations of data manifolds in shape spaces can be computed using the rich toolbox of Riemannian geometry. This, however, often comes with high computational costs, which raises the question if one can learn an efficient neural network approximation. We show that this is indeed possible for shape spaces with a special product structure, namely those smoothly approximable by a direct sum of low-dimensional manifolds. Our proposed architecture leverages this structure by separately learning approximations for the low-dimensional factors and a subsequent combination. After developing the approach as a general framework, we apply it to a shape space of triangular surfaces. Here, typical examples of data manifolds are given through datasets of articulated models and can be factorized, for example, by a Sparse Principal Geodesic Analysis (SPGA). We demonstrate the effectiveness of our proposed approach with experiments on synthetic data as well as manifolds extracted from data via SPGA.
翻訳日:2023-03-01 15:58:38 公開日:2023-02-28
# 説明可能性の拡大:説明可能な人工知能から説明可能なハードウェアへ

Expanding Explainability: From Explainable Artificial Intelligence to Explainable Hardware ( http://arxiv.org/abs/2302.14661v1 )

ライセンス: Link先を確認
Timo Speith, Julian Speith, Steffen Becker, Yixin Zou, Asia Biega, Christof Paar(参考訳) AIの不透明さの高まりと、私たちのデジタル社会への影響力の高まりは、信頼できる、説明責任のある、公正なAIベースのシステムの必要性を強調している。 これまでの研究では、これらの性質を達成する手段として説明可能性を強調している。 本稿では、AIアプリケーションを含む全てのデジタルシステムが実現される基盤となるハードウェアを考慮しない限り、システム説明性は達成できないと論じる。 そこで我々は,(信頼性の高い)半導体に関する現在の地政学的議論に特に関係する,説明可能なハードウェアの概念を提案し,チップに焦点を当てる。 説明可能な人工知能(XAI)に関するこれまでの研究に触発されて、我々は、関係する利害関係者を特定し、説明可能性の概念の下で既存のアプローチを統一し、異なる利害関係者のニーズを満たすためのそれらの有用性を議論するハードウェア説明可能性フレームワークを開発した。 我々の研究は、将来の作業の基礎となり、説明可能なハードウェアに関する構造化された議論が行われます。

The increasing opaqueness of AI and its growing influence on our digital society highlight the necessity for AI-based systems that are trustworthy, accountable, and fair. Previous research emphasizes explainability as a means to achieve these properties. In this paper, we argue that system explainability cannot be achieved without accounting for the underlying hardware on which all digital systems - including AI applications - are realized. As a remedy, we propose the concept of explainable hardware, and focus on chips - which are particularly relevant to current geopolitical discussions on (trustworthy) semiconductors. Inspired by previous work on Explainable Artificial Intelligence (XAI), we develop a hardware explainability framework by identifying relevant stakeholders, unifying existing approaches form hardware manufacturing under the notion of explainability, and discussing their usefulness to satisfy different stakeholders' needs. Our work lays the foundation for future work and structured debates on explainable hardware.
翻訳日:2023-03-01 15:58:25 公開日:2023-02-28
# 不均衡なコールドスタート勧告に対する適応重み付きメタラーニング

Meta-Learning with Adaptive Weighted Loss for Imbalanced Cold-Start Recommendation ( http://arxiv.org/abs/2302.14640v1 )

ライセンス: Link先を確認
Minchang Kim, Yongjin Yang, Jung Hyun Ryu, Taesup Kim(参考訳) 逐次的なレコメンデーションは、ユーザの好みをキャプチャする上で大きな進歩を遂げています。 それにもかかわらず、コールドスタートの推奨は、パーソナライズのために少数のユーザー-テーマインタラクションしか利用できないという根本的な課題である。 勾配に基づくメタラーニングアプローチは,適応性が速いことや統合性が容易であることから,逐次的レコメンデーションの分野で最近登場している。 メタ学習アルゴリズムは、冷間開始推奨を数発の学習問題として定式化し、各ユーザが適応すべきタスクとして表現する。 しかし、メタラーニングアルゴリズムは一般的に、タスクワイドのサンプルはクラスや値に均等に分散されていると仮定するが、実際のアプリケーションではユーザとイテムの相互作用はそうではない(例えば、お気に入りのビデオを何度も見ながら、良い評価と悪いものだけを残している)。 その結果、現実世界では、ほとんどのタスクトレーニングデータに対する不均衡なユーザフィードバックがユーザ適応を支配し、パーソナライズされたレコメンデーションのためにメタ学習アルゴリズムが意味のあるメタ知識を学習するのを防ぐことができる。 この制限を緩和するために,各ユーザの評価分布の不均衡を捉え,ユーザ固有の学習に対する適応的損失を算出する,勾配に基づくメタラーニングに基づく新しいシーケンシャルレコメンデーションフレームワークを提案する。 コールドスタートの逐次レコメンデーションシナリオにおける不均衡評価の影響に対処する最初の仕事である。 我々は適応重み付き損失を設計し、最先端のシーケンシャルレコメンデーション手法のための既存のメタ学習アルゴリズムを改善する。 実世界のデータセットで実施された大規模な実験は、我々のフレームワークの有効性を示す。

Sequential recommenders have made great strides in capturing a user's preferences. Nevertheless, the cold-start recommendation remains a fundamental challenge in which only a few user-item interactions are available for personalization. Gradient-based meta-learning approaches have recently emerged in the sequential recommendation field due to their fast adaptation and easy-to-integrate abilities. The meta-learning algorithms formulate the cold-start recommendation as a few-shot learning problem, where each user is represented as a task to be adapted. However, while meta-learning algorithms generally assume that task-wise samples are evenly distributed over classes or values, user-item interactions are not that way in real-world applications (e.g., watching favorite videos multiple times, leaving only good ratings and no bad ones). As a result, in the real-world, imbalanced user feedback that accounts for most task training data may dominate the user adaptation and prevent meta-learning algorithms from learning meaningful meta-knowledge for personalized recommendations. To alleviate this limitation, we propose a novel sequential recommendation framework based on gradient-based meta-learning that captures the imbalance of each user's rating distribution and accordingly computes adaptive loss for user-specific learning. It is the first work to tackle the impact of imbalanced ratings in cold-start sequential recommendation scenarios. We design adaptive weighted loss and improve the existing meta-learning algorithms for state-of-the-art sequential recommendation methods. Extensive experiments conducted on real-world datasets demonstrate the effectiveness of our framework.
翻訳日:2023-03-01 15:57:23 公開日:2023-02-28
# H-AES:ヒンディー語の自動評価に向けて

H-AES: Towards Automated Essay Scoring for Hindi ( http://arxiv.org/abs/2302.14635v1 )

ライセンス: Link先を確認
Shubhankar Singh, Anirudh Pupneja, Shivaansh Mital, Cheril Shah, Manish Bawkar, Lakshman Prasad Gupta, Ajit Kumar, Yaman Kumar, Rushali Gupta, Rajiv Ratn Shah(参考訳) AES(Automated Essay Scoring)における自然言語処理(NLP)の利用は、人間のスコアに匹敵する性能を示すベンチマークモデルを用いて、英語でよく研究されている。 しかし、ヒンディー語や他の低リソース言語におけるAESは未だ探索されていない。 本研究では,ヒンディー語領域におけるAESの最先端手法を再現・比較する。 LSTM Networks や Fine-Tuned Transformer Architecture など,古典的な機能ベースの機械学習(ML) と高度なエンドツーエンドモデルを用いて,我々のアプローチと,英語領域に匹敵する結果を導出する。 低リソースの言語であるHindiには、エッセイの専門コーパスがない。 我々は、英訳エッセイを用いて、我々のモデルを訓練し、評価し、自分たちの小規模で実世界のヒンディー語コーパスでそのパフォーマンスを実証的に測定する。 我々は、実装された異なる言語モデルのプロンプト特有の振る舞いについて詳細に分析する。

The use of Natural Language Processing (NLP) for Automated Essay Scoring (AES) has been well explored in the English language, with benchmark models exhibiting performance comparable to human scorers. However, AES in Hindi and other low-resource languages remains unexplored. In this study, we reproduce and compare state-of-the-art methods for AES in the Hindi domain. We employ classical feature-based Machine Learning (ML) and advanced end-to-end models, including LSTM Networks and Fine-Tuned Transformer Architecture, in our approach and derive results comparable to those in the English language domain. Hindi being a low-resource language, lacks a dedicated essay-scoring corpus. We train and evaluate our models using translated English essays and empirically measure their performance on our own small-scale, real-world Hindi corpus. We follow this up with an in-depth analysis discussing prompt-specific behavior of different language models implemented.
翻訳日:2023-03-01 15:56:27 公開日:2023-02-28
# OEKG: オープンイベント知識グラフ

OEKG: The Open Event Knowledge Graph ( http://arxiv.org/abs/2302.14688v1 )

ライセンス: Link先を確認
Simon Gottschalk, Endri Kacupaj, Sara Abdollahi, Diego Alves, Gabriel Amaral, Elisavet Koutsiana, Tin Kuculo, Daniela Major, Caio Mello, Gullal S. Cheema, Abdul Sittar, Swati, Golsa Tahmasebzadeh, Gaurish Thakkar(参考訳) アメリカ合衆国大統領選挙やオリンピックのような世界的影響の現代的・歴史的出来事へのアクセスと理解は、国の境界をまたがる出来事の原因、認識、結果を調査する言語間イベント分析の重要な前提条件である。 本稿では、質問応答、エンティティ推薦、名前付きエンティティ認識を含む、複数のアプリケーションドメインから7つの異なるデータセットからなる多言語、イベント中心、時間的知識グラフであるopen event knowledge graph(oekg)を提案する。 これらのデータセットはすべて、使いやすく堅牢なパイプラインと、イベント中心の知識グラフEventKGへのリンクを通じて統合されます。 本稿では,それらの共通スキーマについて述べるとともに,タイプ固有の画像検索,ナレッジグラフとニュース記事に対するハイブリッド質問応答,言語固有のイベントレコメンデーションという3つのユースケースにおけるoekgの使用例を示す。 OEKGとそのクエリエンドポイントは公開されています。

Accessing and understanding contemporary and historical events of global impact such as the US elections and the Olympic Games is a major prerequisite for cross-lingual event analytics that investigate event causes, perception and consequences across country borders. In this paper, we present the Open Event Knowledge Graph (OEKG), a multilingual, event-centric, temporal knowledge graph composed of seven different data sets from multiple application domains, including question answering, entity recommendation and named entity recognition. These data sets are all integrated through an easy-to-use and robust pipeline and by linking to the event-centric knowledge graph EventKG. We describe their common schema and demonstrate the use of the OEKG at the example of three use cases: type-specific image retrieval, hybrid question answering over knowledge graphs and news articles, as well as language-specific event recommendation. The OEKG and its query endpoint are publicly available.
翻訳日:2023-03-01 15:49:24 公開日:2023-02-28
# クナプサックによる約定置帯

Approximately Stationary Bandits with Knapsacks ( http://arxiv.org/abs/2302.14686v1 )

ライセンス: Link先を確認
Giannis Fikioris, \'Eva Tardos(参考訳) 予算制約下でのマルチ武装バンディットの一般化であるナップサック(bwk)によるバンディットは近年注目を集めている。 動的価格、繰り返しオークションなど、多くのアプリケーションがあります。 以前の研究では、各ラウンドのリソースの報酬と消費がi.d.ディストリビューションからサンプリングされる確率的BwKと、これらの値が相手によって選択される逆BwKの2つの極端に焦点が当てられていた。 非回帰学習は確率的bwkでは達成可能であるが、敵対的bwkでは、競争比率のスタイル保証のみが達成可能であり、競争比率は予算に依存する。 このギャップを大きくしているのは、Adversarial BwKでは、予算がより拘束力のある場合、保証が悪化することです。 ``best-of-both-worlds''型のアルゴリズムは知られているが(両方の極端な場合において最も達成可能な保証を提供するアルゴリズム)、環境が完全に確率的でないとすぐにその保証は敵のケースに低下する。 私たちの仕事は、このギャップを埋めることを目的としており、厳密には確率的ではなく最悪のケースでもないワークロードの保証を提供しています。 我々は、インスタンスが確率的あるいは逆数的に近いかをパラメータ化する条件 A approximately Stationary BwK を定義する。 これらのパラメータに基づいて、BwKで達成可能な最高の競争比率を探索する。 パラメータの値に従わない2つのアルゴリズムを探索し、パラメータの値に依存する2つの極端なケースにおいて、最善の保証間のスムーズな遷移が可能な競合比を保証する。 我々の保証は、特に利用可能な予算が少なければ、敵の保証を大きく改善します。 私たちはまた、達成可能な保証の限界を証明し、予算が小さい場合の結果がほぼタイトであることを示します。

Bandits with Knapsacks (BwK), the generalization of the Multi-Armed Bandits under budget constraints, has received a lot of attention in recent years. It has numerous applications, including dynamic pricing, repeated auctions, etc. Previous work has focused on one of the two extremes: Stochastic BwK where the rewards and consumptions of the resources each round are sampled from an i.i.d. distribution, and Adversarial BwK where these values are picked by an adversary. Achievable guarantees in the two cases exhibit a massive gap: No-regret learning is achievable in Stochastic BwK, but in Adversarial BwK, only competitive ratio style guarantees are achievable, where the competitive ratio depends on the budget. What makes this gap so vast is that in Adversarial BwK the guarantees get worse in the typical case when the budget is more binding. While ``best-of-both-worlds'' type algorithms are known (algorithms that provide the best achievable guarantee in both extreme cases), their guarantees degrade to the adversarial case as soon as the environment is not fully stochastic. Our work aims to bridge this gap, offering guarantees for a workload that is not exactly stochastic but is also not worst-case. We define a condition, Approximately Stationary BwK, that parameterizes how close to stochastic or adversarial an instance is. Based on these parameters, we explore what is the best competitive ratio attainable in BwK. We explore two algorithms that are oblivious to the values of the parameters but guarantee competitive ratios that smoothly transition between the best possible guarantees in the two extreme cases, depending on the values of the parameters. Our guarantees offer great improvement over the adversarial guarantee, especially when the available budget is small. We also prove bounds on the achievable guarantee, showing that our results are approximately tight when the budget is small.
翻訳日:2023-03-01 15:49:09 公開日:2023-02-28
# DART: ニューラルネットワークの一般化を改善

DART: Diversify-Aggregate-Repeat Training Improves Generalization of Neural Networks ( http://arxiv.org/abs/2302.14685v1 )

ライセンス: Link先を確認
Samyak Jain, Sravanti Addepalli, Pawan Sahu, Priyam Dey and R. Venkatesh Babu(参考訳) ニューラルネットワークの一般化は、現実世界に安全にデプロイするには不可欠である。 一般化を改善するための一般的なトレーニング戦略は、データ拡張、センスリング、モデル平均化の使用である。 本研究は,まず,トレーニングミニバッチ内で多種多様な拡張を生かした,驚くほど単純だが強力な一般化ベンチマークを構築し,よりバランスの取れた機能分布を学習できることを示す。 さらに,損失盆地を探索するために,異なる拡張(あるいはドメイン)を用いた多種多様なモデルを訓練し,その専門知識を組み合わせるために重みを集約し,一般化する,多種多様化・集約・リピート訓練(dart)戦略を提案する。 トレーニングを通じて集約のステップを繰り返すことで、全体的な最適化軌道が向上し、個々のモデルに十分な損失障壁があることが保証され、それらの組み合わせによる一般化が向上する。 shenらによって提案されたフレームワークにキャストすることで、私たちのアプローチに光を当て、理論的にはそれがより一般化していることを示している。 In-Domain Generalizationの改善に加えて、人気のあるDomainBedフレームワークのDomain GeneralizationベンチマークでもSOTAのパフォーマンスを実証する。 本手法は汎用的であり,複数のベーストレーニングアルゴリズムと容易に統合して性能向上を図ることができる。

Generalization of neural networks is crucial for deploying them safely in the real world. Common training strategies to improve generalization involve the use of data augmentations, ensembling and model averaging. In this work, we first establish a surprisingly simple but strong benchmark for generalization which utilizes diverse augmentations within a training minibatch, and show that this can learn a more balanced distribution of features. Further, we propose Diversify-Aggregate-Repeat Training (DART) strategy that first trains diverse models using different augmentations (or domains) to explore the loss basin, and further Aggregates their weights to combine their expertise and obtain improved generalization. We find that Repeating the step of Aggregation throughout training improves the overall optimization trajectory and also ensures that the individual models have a sufficiently low loss barrier to obtain improved generalization on combining them. We shed light on our approach by casting it in the framework proposed by Shen et al. and theoretically show that it indeed generalizes better. In addition to improvements in In- Domain generalization, we demonstrate SOTA performance on the Domain Generalization benchmarks in the popular DomainBed framework as well. Our method is generic and can easily be integrated with several base training algorithms to achieve performance gains.
翻訳日:2023-03-01 15:48:35 公開日:2023-02-28
# naturengp : ヒトnerfのための内在座標に基づくハッシュ符号化

IntrinsicNGP: Intrinsic Coordinate based Hash Encoding for Human NeRF ( http://arxiv.org/abs/2302.14683v1 )

ライセンス: Link先を確認
Bo Peng, Jun Hu, Jingtao Zhou, Xuan Gao, Juyong Zhang(参考訳) 近年,人間パフォーマーの新たな視点合成に神経放射場を利用する研究が数多く提案されている。 しかし、これらの手法のほとんどは訓練に時間を要するため、実用上は困難である。 この課題に対処するために,人間パフォーマーのビデオを用いて,スクラッチからトレーニングし,高忠実度を数分で達成できるIntrinsicNGPを提案する。 この目的を達成するために,即時NGPのハッシュ符号化モジュールにおいて,元の明示的ユークリッド座標よりも連続的に最適化可能な固有座標を導入する。 この新しい固有座標により、IntrinsicNGPはプロキシ幾何学形状の助けを借りて動的オブジェクトのフレーム間情報を集約することができる。 さらに、与えられた粗い形状でトレーニングされた結果は、内在座標に基づいて最適化可能なオフセット場によりさらに洗練され、内在NGPの有効性と効率性を示す。 また,再構成対象の形状を編集する手法についても述べる。

Recently, many works have been proposed to utilize the neural radiance field for novel view synthesis of human performers. However, most of these methods require hours of training, making them difficult for practical use. To address this challenging problem, we propose IntrinsicNGP, which can train from scratch and achieve high-fidelity results in few minutes with videos of a human performer. To achieve this target, we introduce a continuous and optimizable intrinsic coordinate rather than the original explicit Euclidean coordinate in the hash encoding module of instant-NGP. With this novel intrinsic coordinate, IntrinsicNGP can aggregate inter-frame information for dynamic objects with the help of proxy geometry shapes. Moreover, the results trained with the given rough geometry shapes can be further refined with an optimizable offset field based on the intrinsic coordinate.Extensive experimental results on several datasets demonstrate the effectiveness and efficiency of IntrinsicNGP. We also illustrate our approach's ability to edit the shape of reconstructed subjects.
翻訳日:2023-03-01 15:48:13 公開日:2023-02-28
# どちらに言及していますか。 位置対話におけるマルチモーダル物体識別

Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue ( http://arxiv.org/abs/2302.14680v1 )

ライセンス: Link先を確認
Holy Lovenia, Samuel Cahyawijaya, Pascale Fung(参考訳) 様々な領域においてマルチモーダル対話システムに対する需要が高まり、会話的・状況的文脈からのマルチモーダル入力の解釈の重要性が強調されている。 本稿では,この問題に対処する3つの手法を探索し,最大位置の対話データセット SIMMC 2.1 で評価する。 最良手法であるシーン対話アライメントは,SIMMC 2.1ベースラインに比べてF1スコアが約20%向上する。 我々は,本手法の限界と今後の研究の今後の方向性について,分析と議論を行う。 私たちのコードはhttps://github.com/holylovenia/multimodal-object-identificationで公開されています。

The demand for multimodal dialogue systems has been rising in various domains, emphasizing the importance of interpreting multimodal inputs from conversational and situational contexts. We explore three methods to tackle this problem and evaluate them on the largest situated dialogue dataset, SIMMC 2.1. Our best method, scene-dialogue alignment, improves the performance by ~20% F1-score compared to the SIMMC 2.1 baselines. We provide analysis and discussion regarding the limitation of our methods and the potential directions for future works. Our code is publicly available at https://github.com/holylovenia/multimodal-object-identification.
翻訳日:2023-03-01 15:47:54 公開日:2023-02-28
# 拡散モデルを用いた混合電子健康記録の合成

Synthesizing Mixed-type Electronic Health Records using Diffusion Models ( http://arxiv.org/abs/2302.14679v1 )

ライセンス: Link先を確認
Taha Ceritli, Ghadeer O. Ghosheh, Vinod Kumar Chauhan, Tingting Zhu, Andrew P. Creagh, and David A. Clifton(参考訳) 電子健康記録(ehrs)はセンシティブな患者情報を含み、そのようなデータを共有する際にプライバシーの懸念を示す。 合成データ生成はこれらのリスクを軽減するための有望なソリューションであり、しばしばジェネレーティブ・アドバイザリ・ネットワーク(GAN)のような深層生成モデルに依存している。 しかし、最近の研究では、拡散モデルがより現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点をもたらすことが示されている。 本研究では,データ品質,ユーティリティ,プライバシ,拡張性の観点から,TabDDPMモデルと4つのデータセット上の既存手法を比較して,現実的な混合型表型EHRを生成するための拡散モデルの可能性を検討する。 実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。

Electronic Health Records (EHRs) contain sensitive patient information, which presents privacy concerns when sharing such data. Synthetic data generation is a promising solution to mitigate these risks, often relying on deep generative models such as Generative Adversarial Networks (GANs). However, recent studies have shown that diffusion models offer several advantages over GANs, such as generation of more realistic synthetic data and stable training in generating data modalities, including image, text, and sound. In this work, we investigate the potential of diffusion models for generating realistic mixed-type tabular EHRs, comparing TabDDPM model with existing methods on four datasets in terms of data quality, utility, privacy, and augmentation. Our experiments demonstrate that TabDDPM outperforms the state-of-the-art models across all evaluation metrics, except for privacy, which confirms the trade-off between privacy and utility.
翻訳日:2023-03-01 15:47:45 公開日:2023-02-28
# ALNSメタヒューリスティックにおける演算子選択のためのグラフ強化学習

Graph Reinforcement Learning for Operator Selection in the ALNS Metaheuristic ( http://arxiv.org/abs/2302.14678v1 )

ライセンス: Link先を確認
Syu-Ning Johnn, Victor-Alexandru Darvariu, Julia Handl, Joerg Kalcsics(参考訳) ALNSは、組合せ最適化問題の解法において有名な効率性を持つメタヒューリスティックである。 しかし、ALNSに関する16年間の研究にもかかわらず、組込み適応層が演算子を効率よく選択できるかどうかについては未解決のままである。 本研究では,マルコフ決定過程として演算子の選択を定式化し,Deep Reinforcement Learning と Graph Neural Networks に基づく実践的アプローチを提案する。 その結果,提案手法は従来のALNS適応層よりも高い性能を達成できることがわかった。 また,演算子ポートフォリオのサイズや演算子スケールの選択の影響など,重要な考察についても論じる。 特に,本手法は,問題固有の運用ポートフォリオを手作りする上で,多大な時間と労力を節約できる。

ALNS is a popular metaheuristic with renowned efficiency in solving combinatorial optimisation problems. However, despite 16 years of intensive research into ALNS, whether the embedded adaptive layer can efficiently select operators to improve the incumbent remains an open question. In this work, we formulate the choice of operators as a Markov Decision Process, and propose a practical approach based on Deep Reinforcement Learning and Graph Neural Networks. The results show that our proposed method achieves better performance than the classic ALNS adaptive layer due to the choice of operator being conditioned on the current solution. We also discuss important considerations such as the size of the operator portfolio and the impact of the choice of operator scales. Notably, our approach can also save significant time and labour costs for handcrafting problem-specific operator portfolios.
翻訳日:2023-03-01 15:47:28 公開日:2023-02-28
# 適応周波数トリガーによる深部画像圧縮に対するバックドア攻撃

Backdoor Attacks Against Deep Image Compression via Adaptive Frequency Trigger ( http://arxiv.org/abs/2302.14677v1 )

ライセンス: Link先を確認
Yi Yu, Yufei Wang, Wenhan Yang, Shijian Lu, Yap-peng Tan, Alex C. Kot(参考訳) 近年の深層学習に基づく圧縮法は,従来の手法に比べて優れた性能を示した。 しかし、ディープラーニングモデルはバックドア攻撃に弱いことが証明されており、入力に特定のトリガーパターンを追加すると、モデルの悪意ある振る舞いにつながる可能性がある。 本稿では,学習画像圧縮モデルに対する複数トリガによるバックドア攻撃について述べる。 既存の圧縮システムや標準で広く使われている離散コサイン変換(DCT)によって動機付けられ,DCT領域にトリガを付加する周波数ベースのトリガインジェクションモデルを提案する。 特に、さまざまな攻撃シナリオに対する攻撃目標をいくつか設計します。 1) ビットレート及び再構成品質の観点から圧縮品質を攻撃すること。 2)ダウンストリーム顔認識やセマンティクスセグメンテーションといったタスク駆動型手法への攻撃。 さらに、新しい単純な動的損失は、異なる損失項の影響を適応的にバランスさせ、より効率的なトレーニングを達成するために設計されている。 実験の結果,訓練したトリガインジェクションモデルと(圧縮モデルの)エンコーダパラメータの簡単な修正により,単一の画像圧縮モデルに対応するトリガで複数のバックドアを注入することができた。

Recent deep-learning-based compression methods have achieved superior performance compared with traditional approaches. However, deep learning models have proven to be vulnerable to backdoor attacks, where some specific trigger patterns added to the input can lead to malicious behavior of the models. In this paper, we present a novel backdoor attack with multiple triggers against learned image compression models. Motivated by the widely used discrete cosine transform (DCT) in existing compression systems and standards, we propose a frequency-based trigger injection model that adds triggers in the DCT domain. In particular, we design several attack objectives for various attacking scenarios, including: 1) attacking compression quality in terms of bit-rate and reconstruction quality; 2) attacking task-driven measures, such as down-stream face recognition and semantic segmentation. Moreover, a novel simple dynamic loss is designed to balance the influence of different loss terms adaptively, which helps achieve more efficient training. Extensive experiments show that with our trained trigger injection models and simple modification of encoder parameters (of the compression model), the proposed attack can successfully inject several backdoors with corresponding triggers in a single image compression model.
翻訳日:2023-03-01 15:47:16 公開日:2023-02-28
# 軸電気力学におけるゼロカシミール力と新しい力探索

Zero Casimir Force in Axion Electrodynamics and New Force Search ( http://arxiv.org/abs/2302.14676v1 )

ライセンス: Link先を確認
Yohei Ema, Masashi Hazumi, Hideo Iizuka, Kyohei Mukaida, Kazunori Nakayama(参考訳) カシミール力がアクシオン電気力学で消滅している金属板の安定な構成が指摘されている。 カシミール力に対するアキシオン効果の測定に向けて、電磁気に対するアキシオン様効果をホストするワイル半金属を含むコンクリートの構成を考察する。 我々の装置は金属間のゼロカシミール力を実現し、微小スケールの光粒子による新しい力の探索に有用かもしれない。

We point out that there is a stable configuration of metal plates where the Casimir force is vanishing in axion electrodynamics. We consider a concrete setup involving Weyl semimetals, which hosts an axion-like effect on the electromagnetism, towards the measurement of the axionic effect on the Casimir force. Our setup realizes zero Casimir force between metals and may be useful for the search for new force mediated by light particles at the micrometer scale.
翻訳日:2023-03-01 15:46:58 公開日:2023-02-28
# 注意に基づくポイントクラウドエッジサンプリング

Attention-based Point Cloud Edge Sampling ( http://arxiv.org/abs/2302.14673v1 )

ライセンス: Link先を確認
Chengzhi Wu, Junwei Zheng, Julius Pfrommer, J\"urgen Beyerer(参考訳) ポイントクラウドサンプリングは、このデータ表現についてあまり研究されていないトピックである。 現在最も一般的なサンプリング方法は、古典的ランダムサンプリングと最遠点サンプリングである。 ニューラルネットワークの開発により、タスクベースの学習方法で点雲をサンプリングする様々な手法が提案されている。 しかし、これらの手法は、数学的な統計で直接点を選択すること以外は、主に生成に基づくものである。 画像のCannyエッジ検出アルゴリズムにインスパイアされ、注意機構の助けを借りて、入力点雲の輪郭を捉える非生成的注意型ポイントクラウドエッジサンプリング法(APES)を提案する。 実験の結果,学習した重要なアウトライン情報により,サンプリング法により良好な性能が得られた。

Point cloud sampling is a less explored research topic for this data representation. The most common sampling methods nowadays are still classical random sampling and farthest point sampling. With the development of neural networks, various methods have been proposed to sample point clouds in a task-based learning manner. However, these methods are mostly generative-based, other than selecting points directly with mathematical statistics. Inspired by the Canny edge detection algorithm for images and with the help of the attention mechanism, this paper proposes a non-generative Attention-based Point cloud Edge Sampling method (APES), which can capture the outline of input point clouds. Experimental results show that better performances are achieved with our sampling method due to the important outline information it learned.
翻訳日:2023-03-01 15:46:50 公開日:2023-02-28
# 日本のCCGBankは実証的に正しいか? 受動的・因果的構成の事例研究

Is Japanese CCGBank empirically correct? A case study of passive and causative constructions ( http://arxiv.org/abs/2302.14708v1 )

ライセンス: Link先を確認
Daisuke Bekki and Hitomi Yanaka(参考訳) 日本のCCGBankは、日本のCCGパーサー開発のためのトレーニングおよび評価データを提供する。 しかし、依存木バンクである京都コーポレーションから自動生成されるため、その言語的妥当性を十分に検証する必要がある。 本稿では,日本語ccgバンクにおける受動的/因果的構成の分析に着目し,意味的構文解析システムであるccg2lambdaの構成意味論とともに,受動的/因果的構成の入れ子的予測を経験的に誤ったものにすることを示す。

The Japanese CCGBank serves as training and evaluation data for developing Japanese CCG parsers. However, since it is automatically generated from the Kyoto Corpus, a dependency treebank, its linguistic validity still needs to be sufficiently verified. In this paper, we focus on the analysis of passive/causative constructions in the Japanese CCGBank and show that, together with the compositional semantics of ccg2lambda, a semantic parsing system, it yields empirically wrong predictions for the nested construction of passives and causatives.
翻訳日:2023-03-01 15:41:25 公開日:2023-02-28
# 1つのトランスモンの2つのキュービット -- アンシラハードウェアのないQEC

Two qubits in one transmon -- QEC without ancilla hardware ( http://arxiv.org/abs/2302.14707v1 )

ライセンス: Link先を確認
Alexander Simm, Shai Machnes, Frank K. Wilhelm(参考訳) 超伝導トランスモン内の2つの量子ビットの保存と制御に高エネルギーレベルを使用することが理論的に可能であることを示す。 これはエネルギー準位を複数のエクビット間の積状態として同定する。 概念実証として,各量子ビット上の単一量子ビットゲートの制御パルスを数値的に最適化し,2つの量子ビット間のゲートを1つのトランモンに絡み,2つの結合トランモンから2つの量子ビット間のゲートを絡み合わせることにより,普遍計算に必要なゲートの完全なセットを実現する。 最適化は、これを実験的に検証できるパラメータを検討する。 これらの制御パルスにより、ハードウェアのオーバーヘッドなしに利用可能なキュービットの数を2倍にすることができる。 追加の量子ビットは、syndrom qubits in error correctionやeffecitve high connectivity in qubit networksのような多くの短命な量子ビットを必要とするアルゴリズムで使用できる。

We show that it is theoretically possible to use higher energy levels for storing and controlling two qubits within a superconducting transmon. This is done by identifying energy levels as product states between multiple effecitve qubits. As a proof of concept we realise a complete set of gates necessary for universal computing by numerically optimising control pulses for single qubit gates on each of the qubits, entangling gates between the two qubits in one transmon, and an entangling gate between two qubits from two coupled transmons. The optimisation considers parameters which could make it possible to validate this experimentally. With these control pulses it is in principle possible to double the number of available qubits without any overhead in hardware. The additional qubits could be used in algorithms which need many short-living qubits such as syndrom qubits in error correction or by embedding effecitve higher connectivity in qubit networks.
翻訳日:2023-03-01 15:41:15 公開日:2023-02-28
# acceltran: トランスフォーマーを用いた動的推論のためのスパーシティアウェアアクセラレーション

AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with Transformers ( http://arxiv.org/abs/2302.14705v1 )

ライセンス: Link先を確認
Shikhar Tuli and Niraj K. Jha(参考訳) 自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。 有効性にもかかわらず、この変換器の高速化は2次計算の複雑さと大きなアクティベーションサイズのために困難である。 既存のトランスフォーマーアクセラレータは、高い計算オーバーヘッドがあるにもかかわらず、メモリアクセスを減らすためにトークンを創り出そうとする。 さらに,従来の作業は,ハードウェア利用を制限した注意操作に関わる大きな行列を直接操作する。 これらの課題に対処するため、本研究では、実行時に低オーバーヘッドでアクティベーションを回避し、事実上の操作数を削減する新しい動的推論スキームdynatranを提案する。 これにより、トランスフォーマー推論のスループットが向上する。 さらに,データ再利用を改善するために,変圧器操作の行列を多種多様なデータフローとともにタイリングすることを提案する。 そこで本研究では,トランスフォーマーのための新しい加速器アーキテクチャであるacceltranを提案する。 異なるモデルとベンチマークによる大規模な実験により、DynaTranは最先端のハードウェア対応プルーニング戦略よりも高い精度を達成し、最大1.2$\times$高頻度を実現している。 提案しているアクセラレータの1つであるacceltran-edgeは、raspberry piデバイスと比較して330k$\times$高いスループットと93k$\times$低いエネルギー要求を実現しています。 一方、AccelTran-Serverは5.73$\times$高スループット、3.69$\times$低消費電力を実現している。

Self-attention-based transformer models have achieved tremendous success in the domain of natural language processing. Despite their efficacy, accelerating the transformer is challenging due to its quadratic computational complexity and large activation sizes. Existing transformer accelerators attempt to prune its tokens to reduce memory access, albeit with high compute overheads. Moreover, previous works directly operate on large matrices involved in the attention operation, which limits hardware utilization. In order to address these challenges, this work proposes a novel dynamic inference scheme, DynaTran, which prunes activations at runtime with low overhead, substantially reducing the number of ineffectual operations. This improves the throughput of transformer inference. We further propose tiling the matrices in transformer operations along with diverse dataflows to improve data reuse, thus enabling higher energy efficiency. To effectively implement these methods, we propose AccelTran, a novel accelerator architecture for transformers. Extensive experiments with different models and benchmarks demonstrate that DynaTran achieves higher accuracy than the state-of-the-art top-k hardware-aware pruning strategy while attaining up to 1.2$\times$ higher sparsity. One of our proposed accelerators, AccelTran-Edge, achieves 330K$\times$ higher throughput with 93K$\times$ lower energy requirement when compared to a Raspberry Pi device. On the other hand, AccelTran-Server achieves 5.73$\times$ higher throughput and 3.69$\times$ lower energy consumption compared to the state-of-the-art transformer co-processor, Energon.
翻訳日:2023-03-01 15:40:57 公開日:2023-02-28
# 専門家の混合による専門化の改善

Improving Expert Specialization in Mixture of Experts ( http://arxiv.org/abs/2302.14703v1 )

ライセンス: Link先を確認
Yamuna Krishnamurthy and Chris Watkins and Thomas Gaertner(参考訳) 20年以上前に導入されたMixture of Expert(MoE)は、最もシンプルなゲート付きモジュラーニューラルネットワークアーキテクチャである。 最近の大規模自然言語処理モデルで実証されたように、条件付き計算によって各推論中にネットワークの一部のみを使用できるため、moeに対する新たな関心が生まれている。 MoEはまた、専門家が新しいタスクのために再利用され、新しい専門家が導入されたため、継続的な学習に対する潜在的な関心を持っている。 MoEアーキテクチャのゲートはタスクの分解を学習し、個々の専門家はゲートの分解に適した単純な機能を学ぶ。 本稿では,(1)moeアーキテクチャとそのトレーニング手法が直感的なタスク分解や優れたエキスパート利用を保証していないこと,(2)mnistやfashionmnistといった単純なデータであっても著しく失敗する可能性があること,(2)パフォーマンスを向上し,エントロピーなタスク分解を低下させる新たなゲーティングアーキテクチャ,(3)専門家の専門化を改善する新しいデータ駆動正規化を導入すること,などについて述べる。 我々は,MNIST,FashionMNIST,CIFAR-100データセットの手法を実証的に検証した。

Mixture of experts (MoE), introduced over 20 years ago, is the simplest gated modular neural network architecture. There is renewed interest in MoE because the conditional computation allows only parts of the network to be used during each inference, as was recently demonstrated in large scale natural language processing models. MoE is also of potential interest for continual learning, as experts may be reused for new tasks, and new experts introduced. The gate in the MoE architecture learns task decompositions and individual experts learn simpler functions appropriate to the gate's decomposition. In this paper: (1) we show that the original MoE architecture and its training method do not guarantee intuitive task decompositions and good expert utilization, indeed they can fail spectacularly even for simple data such as MNIST and FashionMNIST; (2) we introduce a novel gating architecture, similar to attention, that improves performance and results in a lower entropy task decomposition; and (3) we introduce a novel data-driven regularization that improves expert specialization. We empirically validate our methods on MNIST, FashionMNIST and CIFAR-100 datasets.
翻訳日:2023-03-01 15:40:32 公開日:2023-02-28
# コミュニティ検出のためのヒューリスティックモジュラリティ最大化アルゴリズムは、最適パーティションなどを返すことは滅多にない

Heuristic Modularity Maximization Algorithms for Community Detection Rarely Return an Optimal Partition or Anything Similar ( http://arxiv.org/abs/2302.14698v1 )

ライセンス: Link先を確認
Samin Aref, Mahdi Mostajabdaveh, and Hriday Chheda(参考訳) コミュニティ検出はネットワーク科学における古典的な問題であり、様々な分野に幅広く応用されている。 最もよく使われる方法は、ネットワークノードの異なるパーティションからコミュニティへのモジュラリティを最大化するアルゴリズムである。 幅広い文脈から80個の実ネットワークとランダムネットワークを用いて、現在のヒューリスティックモジュラリティ最大化アルゴリズムがモジュラリティ最大(最適)パーティションの返却に成功する範囲について検討する。 1) 出力のモジュラリティと各入力グラフの最大モジュラリティとの比、(2) 出力のパーティションとそのグラフの任意の最適パーティションとの最大類似度を評価する。 我々の計算実験では、モジュラリティをグローバルに最大化する完全整数計画法と比較する8つの既存のヒューリスティックアルゴリズムを含む。 平均モジュラリティに基づくヒューリスティックアルゴリズムは、考慮された80グラフのうち16.9%の最適分割を返す。 調整された相互情報の結果は、実験において、準最適分割とグラフの最適分割との間にかなりの相似性を示す。 さらに, この結果から, ほぼ最適分割は任意の最適分割と不均等に異なる傾向を示した。 まとめると、我々の分析は、コミュニティを発見するためによく使われるモジュラリティベースのアルゴリズムが決定的に制限されていることを指摘している。 この発見を踏まえ、モジュール性最大化のための正確なあるいは近似アルゴリズムの開発は、コミュニティ検出におけるモジュール性をより方法論的に活用するために推奨される。

Community detection is a classic problem in network science with extensive applications in various fields. The most commonly used methods are the algorithms designed to maximize modularity over different partitions of the network nodes into communities. Using 80 real and random networks from a wide range of contexts, we investigate the extent to which current heuristic modularity maximization algorithms succeed in returning modularity-maximum (optimal) partitions. We evaluate (1) the ratio of their output modularity to the maximum modularity for each input graph and (2) the maximum similarity between their output partition and any optimal partition of that graph. Our computational experiments involve eight existing heuristic algorithms which we compare against an exact integer programming method that globally maximizes modularity. The average modularity-based heuristic algorithm returns optimal partitions for only 16.9% of the 80 graphs considered. Results on adjusted mutual information show considerable dissimilarity between the sub-optimal partitions and any optimal partitions of the graphs in our experiments. More importantly, our results show that near-optimal partitions tend to be disproportionally dissimilar to any optimal partition. Taken together, our analysis points to a crucial limitation of commonly used modularity-based algorithms for discovering communities: they rarely return an optimal partition or a partition resembling an optimal partition. Given this finding, developing an exact or approximate algorithm for modularity maximization is recommendable for a more methodologically sound usage of modularity in community detection.
翻訳日:2023-03-01 15:40:09 公開日:2023-02-28
# 溶解は増幅する:細粒度異常検出に向けて

Dissolving Is Amplifying: Towards Fine-Grained Anomaly Detection ( http://arxiv.org/abs/2302.14696v1 )

ライセンス: Link先を確認
Jian Shi, Pengyi Zhang, Ni Zhang, Hakim Ghazzai, Yehia Massoud(参考訳) 医学的異常データは通常、微細なインスタンス単位の付加的特徴パターン(例えば、腫瘍、出血)を含んでおり、しばしば批判的だが重要ではない。 興味深いことに、拡散モデルの顕著な画像生成能力とは別に、拡散モデルが与えられた画像の像詳細を解き、一般化された特徴表現をもたらすことが観察された。 本稿では,分解が増幅されるDIAを提案する。これは,画像とその溶解した特徴とを対比することにより,微細な画像特徴を増幅する。 特に, 拡散モデルは, 異常検出タスク, 特に細粒度特徴差のある医療領域において, きめ細粒度異常パターンの学習を支援するセマンティック保存機能解法として機能することを示す。 その結果, インスタンスレベルの特徴パターンの増幅を目的とした新しい細粒度異常検出法を考案し, 明示的な細粒度異常パターンの知識を必要とせず, 医療的異常検出精度を大幅に向上させることができた。

Medical anomalous data normally contains fine-grained instance-wise additive feature patterns (e.g. tumor, hemorrhage), that are oftenly critical but insignificant. Interestingly, apart from the remarkable image generation abilities of diffusion models, we observed that diffusion models can dissolve image details for a given image, resulting in generalized feature representations. We hereby propose DIA, dissolving is amplifying, that amplifies fine-grained image features by contrasting an image against its feature dissolved counterpart. In particular, we show that diffusion models can serve as semantic preserving feature dissolvers that help learning fine-grained anomalous patterns for anomaly detection tasks, especially for medical domains with fine-grained feature differences. As a result, our method yields a novel fine-grained anomaly detection method, aims at amplifying instance-level feature patterns, that significantly improves medical anomaly detection accuracy in a large margin without any prior knowledge of explicit fine-grained anomalous feature patterns.
翻訳日:2023-03-01 15:39:42 公開日:2023-02-28
# 複数ラベル学習における1組のラベルの分割:単一正のラベルから完全のラベルへ

Pushing One Pair of Labels Apart Each Time in Multi-Label Learning: From Single Positive to Full Labels ( http://arxiv.org/abs/2302.14695v1 )

ライセンス: Link先を確認
Xiang Li, Xinrui Wang, Songcan Chen(参考訳) MLL(Multi-Label Learning)では、高価なコストと限られた知識のために、出現するすべてのオブジェクトを正確にアノテートすることが極めて困難である。 このような課題に直面した場合、より実用的で安価な選択肢は単一の正のマルチラベル学習(spmll: single positive multi-label learning)でなければならない。 既存のspmll法は通常未知のラベルを負として仮定するが、これは必然的にノイズラベルとして偽の陰性をもたらす。 より真面目な話として、bce(binary cross entropy)の損失はトレーニングによく使われ、ノイズラベルには堅牢ではないことで悪名高い。 この問題を軽減するため,SPMLL にノイズラベルを適合させる主要な原因である負ラベルが支配されるのを防ぐために,ラベルを1つずつ分割することで,SPMLL の目的関数をカスタマイズする。 このようなノイズのあるラベルにさらに対処するために,ラベル行列の高次性について検討する。 完全なラベルでSPMLLからMLLへ直接拡張することで、両方の設定に適用可能な統一的な損失が導出される。 実データセットでの実験では、提案する損失はspmllのノイズラベルよりも頑健なだけでなく、フルラベルでもうまく動作することが示されている。 さらに,SPMLLの劇的な性能低下を緩和できることを示す。 もっとも驚くべきことに、正規化や微調整されたラベル修正がなくても、私たちの損失はCUBの最先端のSPMLLメソッドを破るだけです。

In Multi-Label Learning (MLL), it is extremely challenging to accurately annotate every appearing object due to expensive costs and limited knowledge. When facing such a challenge, a more practical and cheaper alternative should be Single Positive Multi-Label Learning (SPMLL), where only one positive label needs to be provided per sample. Existing SPMLL methods usually assume unknown labels as negatives, which inevitably introduces false negatives as noisy labels. More seriously, Binary Cross Entropy (BCE) loss is often used for training, which is notoriously not robust to noisy labels. To mitigate this issue, we customize an objective function for SPMLL by pushing only one pair of labels apart each time to prevent the domination of negative labels, which is the main culprit of fitting noisy labels in SPMLL. To further combat such noisy labels, we explore the high-rankness of label matrix, which can also push apart different labels. By directly extending from SPMLL to MLL with full labels, a unified loss applicable to both settings is derived. Experiments on real datasets demonstrate that the proposed loss not only performs more robustly to noisy labels for SPMLL but also works well for full labels. Besides, we empirically discover that high-rankness can mitigate the dramatic performance drop in SPMLL. Most surprisingly, even without any regularization or fine-tuned label correction, only adopting our loss defeats state-of-the-art SPMLL methods on CUB, a dataset that severely lacks labels.
翻訳日:2023-03-01 15:39:22 公開日:2023-02-28
# 重力波と量子物質間のエネルギー移動

Energy transfer between gravitational waves and quantum matter ( http://arxiv.org/abs/2302.14694v1 )

ライセンス: Link先を確認
Jonathan Gr\"afe, Falk Adamietz and Ralf Sch\"utzhold(参考訳) 重力波とボース・アインシュタイン凝縮、超流動ヘリウム、超低温固体などの量子物質との相互作用について検討し、重力波によって引き起こされるトラップ電位の変化を明示的に考慮した。 観測可能なものとしては、重力波によるエネルギーの変化を考察し、運動エネルギーと粒子数の観点から厳密な境界を導出する。 最後に,実験実験の可能性について考察する。

We study the interaction between gravitational waves and quantum matter such as Bose-Einstein condensates, super-fluid Helium, or ultra-cold solids, explicitly taking into account the changes of the trapping potential induced by the gravitational wave. As a possible observable, we consider the change of energy due to the gravitational wave, for which we derive rigorous bounds in terms of kinetic energy and particle number. Finally, we discuss implications for possible experimental tests.
翻訳日:2023-03-01 15:38:52 公開日:2023-02-28
# インコンテキストインストラクション学習

In-Context Instruction Learning ( http://arxiv.org/abs/2302.14691v1 )

ライセンス: Link先を確認
Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo(参考訳) 大規模言語モデル(LLM)の指導学習により,ゼロショットタスクの一般化が可能になった。 しかし、命令学習は、命令のチューニングや人間からのフィードバックからの強化学習を含む微調整問題として、主にアプローチされてきた。 本稿では,in-context instruction learning (icil) と呼ばれるインコンテキスト学習を授業学習に適用することで,事前学習モデルとインストラクション調整モデルの両方において,ゼロショットタスクの一般化性能が大幅に向上することを示す。 ICILの主な利点の1つは、すべてのタスクを評価するために単一の固定プロンプトを使うことである。 特に、最も強力な命令ファインチューニングベースライン(text-davinci-003)もまたICILの9.3%の恩恵を受けており、ICILの効果は命令ベースの微調整と相補的であることを示す。

Instruction learning of Large Language Models (LLMs) has enabled zero-shot task generalization. However, instruction learning has been predominantly approached as a fine-tuning problem, including instruction tuning and reinforcement learning from human feedback, where LLMs are multi-task fine-tuned on various tasks with instructions. In this paper, we present a surprising finding that applying in-context learning to instruction learning, referred to as In-Context Instruction Learning (ICIL), significantly improves the zero-shot task generalization performance for both pretrained and instruction-fine-tuned models. One of the core advantages of ICIL is that it uses a single fixed prompt to evaluate all tasks, which is a concatenation of cross-task demonstrations. In particular, we demonstrate that the most powerful instruction-fine-tuned baseline (text-davinci-003) also benefits from ICIL by 9.3%, indicating that the effect of ICIL is complementary to instruction-based fine-tuning.
翻訳日:2023-03-01 15:38:44 公開日:2023-02-28
# 浅層残留reluニューラルネットワーク最適化ランドスケープにおける最小値の存在について

On the existence of minimizers in shallow residual ReLU neural network optimization landscapes ( http://arxiv.org/abs/2302.14690v1 )

ライセンス: Link先を確認
Steffen Dereich, Arnulf Jentzen, Sebastian Kassing(参考訳) 勾配降下法(gd)に基づくアルゴリズムの多くの数学的収束結果は、gd過程が(ほぼ確実に)有界であると仮定し、具体的な数値シミュレーションでは、gd過程の発散が遅くなり、誤差関数の収束が完全に無視される可能性がある。 実際の関連する学習問題では、gd最適化プロセスが境界を保ち続けるようにannアーキテクチャを設計することが望ましいようである。 与えられた学習問題に対するGDプロセスの有界性の性質は、最適化ランドスケープにおける最小値の存在と密接に関連しているようで、特に、GDトラジェクトリは、最適化ランドスケープにおいてエラー関数(対象関数)の無限小が得られない場合、無限大に逃れることができる。 このことは、最適化ランドスケープにおける最小化器の存在に関する疑問を自然に提起し、多次元入力層とReLUアクティベーションを持つ多次元隠蔽層を持つ浅層ANNの状況において、この研究の主な結果は、一般的な損失関数のクラスと全ての連続目標関数に対して肯定的に答える。 このステートメントの証明では、極限が一般化応答と呼ばれる探索空間のある種の閉包を提案し、その後、全ての付加的な人工的一般化応答が準最適であることを保証する損失関数と基礎確率分布の十分な基準を提供し、最終的に最適化環境における最小値の存在を結論付けることができる。

Many mathematical convergence results for gradient descent (GD) based algorithms employ the assumption that the GD process is (almost surely) bounded and, also in concrete numerical simulations, divergence of the GD process may slow down, or even completely rule out, convergence of the error function. In practical relevant learning problems, it thus seems to be advisable to design the ANN architectures in a way so that GD optimization processes remain bounded. The property of the boundedness of GD processes for a given learning problem seems, however, to be closely related to the existence of minimizers in the optimization landscape and, in particular, GD trajectories may escape to infinity if the infimum of the error function (objective function) is not attained in the optimization landscape. This naturally raises the question of the existence of minimizers in the optimization landscape and, in the situation of shallow residual ANNs with multi-dimensional input layers and multi-dimensional hidden layers with the ReLU activation, the main result of this work answers this question affirmatively for a general class of loss functions and all continuous target functions. In our proof of this statement, we propose a kind of closure of the search space, where the limits are called generalized responses, and, thereafter, we provide sufficient criteria for the loss function and the underlying probability distribution which ensure that all additional artificial generalized responses are suboptimal which finally allows us to conclude the existence of minimizers in the optimization landscape.
翻訳日:2023-03-01 15:38:24 公開日:2023-02-28
# TextIR: テキストベースの編集可能な画像復元のためのシンプルなフレームワーク

TextIR: A Simple Framework for Text-based Editable Image Restoration ( http://arxiv.org/abs/2302.14736v1 )

ライセンス: Link先を確認
Yunpeng Bai, Cairong Wang, Shuzhao Xie, Chao Dong, Chun Yuan, Zhi Wang(参考訳) 既存の画像復元手法のほとんどは、巨大なデータから強い画像レベルの優先順位を学習するためにニューラルネットワークを使用し、失われた情報を推定する。 しかし、画像が深刻な情報不足を抱えている場合、これらの作業は依然として困難である。 外部プリエントの導入や情報提供のためのリファレンスイメージの使用は、アプリケーションドメインにも制限がある。 対照的に、テキスト入力はより容易に利用でき、柔軟性の高い情報を提供する。 本研究では,テキスト記述による劣化画像の復元過程をユーザが制御できる効果的なフレームワークを設計した。 クリップのテキストと画像の互換性を利用して,テキストと画像の機能を融合することの難しさを緩和する。 本フレームワークは,画像インペイント,画像超解像,画像カラー化など,さまざまな画像復元作業に利用できる。 広範な実験により本手法の有効性が実証された。

Most existing image restoration methods use neural networks to learn strong image-level priors from huge data to estimate the lost information. However, these works still struggle in cases when images have severe information deficits. Introducing external priors or using reference images to provide information also have limitations in the application domain. In contrast, text input is more readily available and provides information with higher flexibility. In this work, we design an effective framework that allows the user to control the restoration process of degraded images with text descriptions. We use the text-image feature compatibility of the CLIP to alleviate the difficulty of fusing text and image features. Our framework can be used for various image restoration tasks, including image inpainting, image super-resolution, and image colorization. Extensive experiments demonstrate the effectiveness of our method.
翻訳日:2023-03-01 15:30:42 公開日:2023-02-28
# 単一分子における刺激ラマン転移

Stimulated Raman transition in a single molecule ( http://arxiv.org/abs/2302.14733v1 )

ライセンス: Link先を確認
Johannes Zirkelbach, Burak Gurlek, Masoud Mirzaei, Alexey Shkarin, Tobias Utikal, Stephan G\"otzinger, Vahid Sandoghdar(参考訳) ラマン散乱の小さな断面積は、この効果を単一分子レベルで直接研究することを妨げている。 共振共振器のFranck-Condon因子を利用して,電子基底と励起状態の大きな振動周波数差を抽出し,T<2Kでの操作により,コヒーレント刺激されたラマン遷移を単一分子で駆動することに成功した。 我々は、目の前のコヒーレント現象の特徴的なシグネチャとなるスペクトル分割を観察し、モデル化する。 本研究は、固体状態における量子光学操作のための分子の振動と電子自由度を本質的に効率的に結合するための基礎を定めている。

The small cross section of Raman scattering has hampered the direct study of this effect at the single molecule level. By exploiting the high Franck-Condon factor of a common-mode resonance, choosing a large vibrational frequency difference in electronic ground and excited states, and operation at T < 2 K, we succeed at driving a coherent stimulated Raman transition in a single molecule. We observe and model a spectral splitting that serves as a characteristic signature of the coherent phenomenon at hand. Our study sets the ground for exploiting the intrinsically efficient coupling of the vibrational and electronic degrees of freedom in molecules for quantum optical operations in the solid state.
翻訳日:2023-03-01 15:30:30 公開日:2023-02-28
# 自動水中車両ハル設計のための制約ベイズ最適化

Constrained Bayesian Optimization for Automatic Underwater Vehicle Hull Design ( http://arxiv.org/abs/2302.14732v1 )

ライセンス: Link先を確認
Harsh Vardhan, Peter Volgyesi, Janos Sztipanovits(参考訳) 自動水中船体設計最適化は、与えられた要求に応じて最適化された特性を持つUUV船体を生成する複雑なエンジニアリングプロセスである。 第一に、関連する計算的複雑なエンジニアリングシミュレーションツールの統合です。 第2に、サンプル効率的な最適化フレームワークと統合ツールチェーンの統合が必要です。 そこで我々はFreeCADと呼ばれるCADツールとCFDツールopenFoamを統合し,自動設計評価を行った。 最適化のためにベイズ最適化(bayesian optimization, bo)を選択した。これは、時間を要する高価なエンジニアリングシミュレーションを最適化するために開発されたよく知られた手法であり、ハイパーパラメータチューニングや実験設計など、様々な問題において非常にサンプル効率が高いことが証明されている。 最適化プロセスの間、最適化プロセスに統合された制約として実現不可能な設計を扱うことができる。 ドメイン固有ツールチェーンとaiに基づく最適化を統合することで,水中車体設計の自動設計最適化を行った。 実験的な評価のために,実世界の水中車両設計の2つの異なるユースケースを用いてツールの実行を検証した。

Automatic underwater vehicle hull Design optimization is a complex engineering process for generating a UUV hull with optimized properties on a given requirement. First, it involves the integration of involved computationally complex engineering simulation tools. Second, it needs integration of a sample efficient optimization framework with the integrated toolchain. To this end, we integrated the CAD tool called FreeCAD with CFD tool openFoam for automatic design evaluation. For optimization, we chose Bayesian optimization (BO), which is a well-known technique developed for optimizing time-consuming expensive engineering simulations and has proven to be very sample efficient in a variety of problems, including hyper-parameter tuning and experimental design. During the optimization process, we can handle infeasible design as constraints integrated into the optimization process. By integrating domain-specific toolchain with AI-based optimization, we executed the automatic design optimization of underwater vehicle hull design. For empirical evaluation, we took two different use cases of real-world underwater vehicle design to validate the execution of our tool.
翻訳日:2023-03-01 15:30:18 公開日:2023-02-28
# グローバルコンテキスト認識による人物画像生成

Global Context-Aware Person Image Generation ( http://arxiv.org/abs/2302.14728v1 )

ライセンス: Link先を確認
Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal, Michael Blumenstein(参考訳) 文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。 具体的には、合成されたインスタンスが複雑なシーンに融合できるような人物画像の生成を試みる。 本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。 提案手法は3つの段階に分けられる。 まず、新しい人の空間的位置、スケール、潜在的なポーズを表す粗いセマンティックマスクを推測するためにPix2PixHDモデルを用いる。 次に、データ中心のアプローチを用いて、あらかじめ計算されたセマンティックマスクのクラスタから最も近い表現を選択する。 最後に,複数スケールの注意誘導型アーキテクチャを採用し,外観属性を例示画像から転送する。 提案手法は,既存のシーンに融合可能な意味的にコヒーレントなリアルな人物を,グローバルコンテキストを変えずに合成することを可能にする。 本研究は質的および定量的評価によって結論づける。

We propose a data-driven approach for context-aware person image generation. Specifically, we attempt to generate a person image such that the synthesized instance can blend into a complex scene. In our method, the position, scale, and appearance of the generated person are semantically conditioned on the existing persons in the scene. The proposed technique is divided into three sequential steps. At first, we employ a Pix2PixHD model to infer a coarse semantic mask that represents the new person's spatial location, scale, and potential pose. Next, we use a data-centric approach to select the closest representation from a precomputed cluster of fine semantic masks. Finally, we adopt a multi-scale, attention-guided architecture to transfer the appearance attributes from an exemplar image. The proposed strategy enables us to synthesize semantically coherent realistic persons that can blend into an existing scene without altering the global context. We conclude our findings with relevant qualitative and quantitative evaluations.
翻訳日:2023-03-01 15:30:00 公開日:2023-02-28
# テキストに基づく感情の自動分類:異なるデータセットの比較探索

Automatically Classifying Emotions based on Text: A Comparative Exploration of Different Datasets ( http://arxiv.org/abs/2302.14727v1 )

ライセンス: Link先を確認
Anna Koufakou, Jairo Garciga, Adam Paul, Joseph Morelli and Christopher Frank(参考訳) テキストに基づく感情分類は,近年関心が高まっている多くのアプリケーションを対象としたタスクである。 本稿では、研究者や実践者が比較的新しいデータセットと一般的な感情分類の洞察を得ることを目的として、予備研究を行う。 関連文献に最近提示された3つのデータセットに注目し,従来型および最先端のディープラーニングモデルの性能を,データに異なる特性が存在する場合に検証する。 また、パフォーマンスを改善するために、データ拡張の利用も検討します。 実験により,RoBERTaのような最先端モデルがすべてのケースで最高の性能を発揮することが示された。 また、これらのデータセットにおける感情分類の複雑さを強調する観察と議論を行い、我々が収集しラベル付けした実際のソーシャルメディア投稿に適用性をテストする。

Emotion Classification based on text is a task with many applications which has received growing interest in recent years. This paper presents a preliminary study with the goal to help researchers and practitioners gain insight into relatively new datasets as well as emotion classification in general. We focus on three datasets that were recently presented in the related literature, and we explore the performance of traditional as well as state-of-the-art deep learning models in the presence of different characteristics in the data. We also explore the use of data augmentation in order to improve performance. Our experimental work shows that state-of-the-art models such as RoBERTa perform the best for all cases. We also provide observations and discussion that highlight the complexity of emotion classification in these datasets and test out the applicability of the models to actual social media posts we collected and labeled.
翻訳日:2023-03-01 15:29:47 公開日:2023-02-28
# クロスドメインオピニオンターゲット抽出のための分類器による自己学習

Self-training through Classifier Disagreement for Cross-Domain Opinion Target Extraction ( http://arxiv.org/abs/2302.14719v1 )

ライセンス: Link先を確認
Kai Sun, Richong Zhang, Samuel Mensah, Nikolaos Aletras, Yongyi Mao, Xudong Liu(参考訳) オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は、意見が表現されたターゲット(または側面)を抽出することを目的とした意見マイニングの基本的なタスクである。 最近の研究は、テストとトレーニングのディストリビューションが異なる現実世界のシナリオで一般的に発生するクロスドメインのOTEに焦点を当てている。 ほとんどの手法では、ラベル付きソースと未ラベルのターゲットドメイン間のドメインギャップを減らし、ターゲットドメインの性能を改善するためにドメイン対向ニューラルネットワークを使用する。 しかし、このアプローチは特徴分布のみをアライメントし、クラスワイドな特徴アライメントを考慮せず、亜最適結果をもたらす。 半教師付き学習(SSL)はソリューションとして検討されてきたが、モデルによって生成された擬似ラベルの品質によって制限されている。 ドメイン適応の理論的基礎に触発されて、ドメイン固有の教師と学生ネットワークから出力されるモデルがラベルなしのターゲットデータと一致しないターゲットサンプルを選択することを選択し、ターゲットドメインのパフォーマンスを向上させる新しいsslアプローチを提案する。 ベンチマーククロスドメインoteデータセットに関する広範な実験は、このアプローチが効果的であり、ドメインシフトが大きい設定で一貫して機能することを示している。

Opinion target extraction (OTE) or aspect extraction (AE) is a fundamental task in opinion mining that aims to extract the targets (or aspects) on which opinions have been expressed. Recent work focus on cross-domain OTE, which is typically encountered in real-world scenarios, where the testing and training distributions differ. Most methods use domain adversarial neural networks that aim to reduce the domain gap between the labelled source and unlabelled target domains to improve target domain performance. However, this approach only aligns feature distributions and does not account for class-wise feature alignment, leading to suboptimal results. Semi-supervised learning (SSL) has been explored as a solution, but is limited by the quality of pseudo-labels generated by the model. Inspired by the theoretical foundations in domain adaptation [2], we propose a new SSL approach that opts for selecting target samples whose model output from a domain-specific teacher and student network disagree on the unlabelled target data, in an effort to boost the target domain performance. Extensive experiments on benchmark cross-domain OTE datasets show that this approach is effective and performs consistently well in settings with large domain shifts.
翻訳日:2023-03-01 15:29:35 公開日:2023-02-28
# 相互作用障害型tavis-cummingsモデルにおける多重フラクタル性

Multifractality in the interacting disordered Tavis-Cummings model ( http://arxiv.org/abs/2302.14718v1 )

ライセンス: Link先を確認
Francesco Mattiotti, J\'er\^ome Dubail, David Hagenm\"uller, Johannes Schachenmayer, Jean-Philippe Brantut, Guido Pupillo(参考訳) 相互作用しないTavis-Cummingsモデルのスペクトルおよび輸送特性を半励起充填で解析する。 ポアソニアンレベル統計はヒルベルト空間における多重フラクタル(拡張だが非エルゴード)の固有函数と共存し、光-物質相互作用のすべての強みを示す。 これは局所摂動に対する熱化の欠如と関連しており、これは無限時間極限で部分的に局所化されている。 これらの効果は有限相互作用とモデルの可積分性の組み合わせによるものであると主張する。 小さな可積分性破壊摂動(nearest-neighbour hopping)が導入されると、典型的な固有関数はエルゴードとなり、単励起非相互作用の場合とは対照的に、システムがほぼ完全な導体になるように見える。 冷水原子を用いたモデルの実現を提案する。

We analyze the spectral and transport properties of the interacting disordered Tavis-Cummings model at half excitation filling. We demonstrate that a poissonian level statistics coexists with eigenfunctions that are multifractal (extended, but non-ergodic) in the Hilbert space, for all strengths of light-matter interactions. This is associated with a lack of thermalization for a local perturbation, which remains partially localized in the infinite-time limit. We argue that these effects are due to the combination of finite interactions and integrability of the model. When a small integrability-breaking perturbation (nearest-neighbour hopping) is introduced, typical eigenfunctions become ergodic, seemingly turning the system into a near-perfect conductor, contrary to the single-excitation non-interacting case. We propose a realization of this model with cold atoms.
翻訳日:2023-03-01 15:29:14 公開日:2023-02-28
# マルコフ決定過程における故障確率の最小化

Minimizing the Outage Probability in a Markov Decision Process ( http://arxiv.org/abs/2302.14714v1 )

ライセンス: Link先を確認
Vincent Corlay and Jean-Christophe Sibel(参考訳) 標準マルコフ決定プロセス(MDP)と強化学習アルゴリズムは、期待される利益に関してポリシーを最適化する。 本稿では,ゲインが与えられた値よりも大きい確率という,代替目的の最適化を可能にするアルゴリズムを提案する。 このアルゴリズムは、値反復アルゴリズムの拡張と見なすことができる。 また、Q学習の深層学習拡張と同様、提案アルゴリズムがニューラルネットワークの使用にどのように一般化できるかを示す。

Standard Markov decision process (MDP) and reinforcement learning algorithms optimize the policy with respect to the expected gain. We propose an algorithm which enables to optimize an alternative objective: the probability that the gain is greater than a given value. The algorithm can be seen as an extension of the value iteration algorithm. We also show how the proposed algorithm could be generalized to use neural networks, similarly to the deep Q learning extension of Q learning.
翻訳日:2023-03-01 15:28:57 公開日:2023-02-28
# 生涯機械学習のための正確な仮想サンプル生成

Generating Accurate Virtual Examples For Lifelong Machine Learning ( http://arxiv.org/abs/2302.14712v1 )

ライセンス: Link先を確認
Sazia Mahfuz(参考訳) 生涯機械学習(lml)は、人間のような永続的かつ累積的な学習に関する機械学習研究の分野である。 LMLシステムの目的は、以前の情報を壊滅的に破壊することなく、新しい情報を既存の機械学習モデルに統合することである。 本研究は,タスクのトレーニング例を保持することなく,タスクリハーサルを通じて知識統合ネットワークを構築するためのLML保持問題に対処する。 その結果、トレーニングされた制限ボルツマンマシンからのトレーニングデータ復元誤差は、トレーニングモデルに与えられた一様ランダムな例の集合の再構成集合から正確な仮想例を生成するのに有効であることがわかった。 また,トレーニングされたネットワークモデルに与えられた2つのデータセットの確率分布を,その復元平均二乗誤差に基づいて比較する尺度を定式化した。

Lifelong machine learning (LML) is an area of machine learning research concerned with human-like persistent and cumulative nature of learning. LML system's objective is consolidating new information into an existing machine learning model without catastrophically disrupting the prior information. Our research addresses this LML retention problem for creating a knowledge consolidation network through task rehearsal without retaining the prior task's training examples. We discovered that the training data reconstruction error from a trained Restricted Boltzmann Machine can be successfully used to generate accurate virtual examples from the reconstructed set of a uniform random set of examples given to the trained model. We also defined a measure for comparing the probability distributions of two datasets given to a trained network model based on their reconstruction mean square errors.
翻訳日:2023-03-01 15:28:51 公開日:2023-02-28
# 10^{-4}$レベルインテンシティクロストークによるba$^+$ qubitsのアジャイル個別アドレッシングのための誘導光システム

A guided light system for agile individual addressing of Ba$^+$ qubits with $10^{-4}$ level intensity crosstalk ( http://arxiv.org/abs/2302.14711v1 )

ライセンス: Link先を確認
Ali Binai-Motlagh, Matthew Day, Nikolay Videnov, Noah Greenberg, Crystal Senko, and Rajibul Islam(参考訳) トラップイオンは量子情報処理の主要なプラットフォームの一つであり、競合する全てのハードウェアの最も高いゲートと測定精度を示す。 捕捉イオンを持つ普遍量子コンピュータを実現するためには、各量子ビットの状態に対する独立および並列制御が必要である。 励起ラマン遷移によるイオン鎖内の個々の量子状態の操作は、一般に個々のイオンに焦点を当てた光を必要とする。 本稿では,超微粒子ba$^+$ qubitsのための,新しい誘導型光個別アドレッシングシステムを提案する。 このシステムはレーザーによる導波路技術を利用してba$^+$の原子構造を実現し、可視光を使ってラマン遷移を駆動できる。 このような導波路は空間的な光モードを定義し、それ以外は自由空間光学系に蓄積していた収差を抑える。 その結果, 有効収差補正を伴わずに, 10$^{-4}$の近傍の近接強度クロストークを実測した。 これは、以前の個々のアドレッシングのデモと同等またはそれ以上である。 同時に、当社のモジュラーアプローチは、各チャネルの振幅、頻度、フェーズに対する独立かつアジャイルなコントロールを提供します。

Trapped ions are one of the leading platforms for quantum information processing, exhibiting the highest gate and measurement fidelities of all contending hardware. In order to realize a universal quantum computer with trapped ions, independent and parallel control over the state of each qubit is necessary. The manipulation of individual qubit states in an ion chain via stimulated Raman transitions generally requires light focused on individual ions. In this manuscript, we present a novel, guided-light individual addressing system for hyperfine Ba$^+$ qubits. The system takes advantage of laser-written waveguide technology, enabled by the atomic structure of Ba$^+$, allowing the use of visible light to drive Raman transitions. Such waveguides define the spatial mode of light, suppressing aberrations that would have otherwise accumulated in a free-space optics set up. As a result, we demonstrate a nearest neighbour relative intensity crosstalk on the order of 10$^{-4}$, without any active aberration compensation. This is comparable to or better than other previous demonstrations of individual addressing. At the same time, our modular approach provides independent and agile control over the amplitude, frequency, and phase of each channel; combining the strengths of previous implementations.
翻訳日:2023-03-01 15:28:40 公開日:2023-02-28
# Kartezio: 生体画像解析のための説明可能なパイプラインの進化設計

Kartezio: Evolutionary Design of Explainable Pipelines for Biomedical Image Analysis ( http://arxiv.org/abs/2302.14762v1 )

ライセンス: Link先を確認
K\'evin Cortacero, Brienne McKenzie, Sabina M\"uller, Roxana Khazen, Fanny Lafouresse, Ga\"elle Corsaut, Nathalie Van Acker, Fran\c{c}ois-Xavier Frenois, Laurence Lamant, Nicolas Meyer, B\'eatrice Vergier, Dennis G. Wilson, Herv\'e Luga, Oskar Staufer, Michael L. Dustin, Salvatore Valitutti and Sylvain Cussat-Blanc(参考訳) 現代の生物医学における未解決の問題は、注釈、分析、解釈を必要とする複雑な画像の圧倒的な数と多様性である。 ディープラーニングの最近の進歩はコンピュータビジョンの分野に革命をもたらし、画像分割タスクにおいて人間の専門家と競合するアルゴリズムを生み出した。 しかし、これらのフレームワークはトレーニングのために大きな人間の注釈付きデータセットを必要とし、結果のモデルは解釈が難しい。 本研究では,コンピュータビジョン関数を反復的に組み立て,パラメータ化することにより,透明で容易に解釈可能な画像処理パイプラインを生成する,モジュール型カルテジアン遺伝的プログラミングに基づく計算戦略であるkartezioを提案する。 それによって生成されたパイプラインは、インスタンスセグメンテーションタスクにおける最先端のDeep Learningアプローチに匹敵する精度を示し、同時に、このアプローチに対する柔軟性、スピード、機能を示す、非常に小さなトレーニングデータセットを必要とする。 また,実世界の4つのユースケースにおける意味的およびインスタンスセグメンテーションの問題を解決するためにkartezioを配置し,高分解能顕微鏡から臨床病理まで,画像領域におけるその有用性を示した。 細胞構造から腫瘍組織まで,画像のポートフォリオ上でKartezioをうまく実装することにより,この完全に説明可能な進化的デザイナの柔軟性,堅牢性,実用性を実証した。

An unresolved issue in contemporary biomedicine is the overwhelming number and diversity of complex images that require annotation, analysis and interpretation. Recent advances in Deep Learning have revolutionized the field of computer vision, creating algorithms that compete with human experts in image segmentation tasks. Crucially however, these frameworks require large human-annotated datasets for training and the resulting models are difficult to interpret. In this study, we introduce Kartezio, a modular Cartesian Genetic Programming based computational strategy that generates transparent and easily interpretable image processing pipelines by iteratively assembling and parameterizing computer vision functions. The pipelines thus generated exhibit comparable precision to state-of-the-art Deep Learning approaches on instance segmentation tasks, while requiring drastically smaller training datasets, a feature which confers tremendous flexibility, speed, and functionality to this approach. We also deployed Kartezio to solve semantic and instance segmentation problems in four real-world Use Cases, and showcase its utility in imaging contexts ranging from high-resolution microscopy to clinical pathology. By successfully implementing Kartezio on a portfolio of images ranging from subcellular structures to tumoral tissue, we demonstrated the flexibility, robustness and practical utility of this fully explicable evolutionary designer for semantic and instance segmentation.
翻訳日:2023-03-01 15:23:43 公開日:2023-02-28
# 低エネルギー安定状態を持たない局所ハミルトン

Local Hamiltonians with no low-energy stabilizer states ( http://arxiv.org/abs/2302.14755v1 )

ライセンス: Link先を確認
Nolan J. Coble, Matthew Coudron, Jon Nelson, Seyed Sajjad Nezhadi(参考訳) 最近定義されたガリビアンとル・ギャルのNo Low-Energy Sampleable States (NLSS)予想は、低エネルギーエネルギーの全ての状態が完全なサンプリングアクセスを可能にする簡潔な表現を持たないような局所ハミルトンの族の存在を示唆している。 クリフォードゲートのみを用いて準備できる状態(すなわち安定化状態)はサンプル可能な状態の例であり、NLSS予想は低エネルギー空間が安定化状態を持たない局所ハミルトンの存在を示唆している。 ここでは,CSSコードに対応する局所ハミルトニアンへの簡単な変更を通じて,この要求特性を示す家族について述べる。 本手法は,最近のanshu,breuckmann,nirkhe [abn22] のnltsハミルトニアンにも適用でき,その結果,低エネルギー空間に安定状態も自明な状態も含まない局所ハミルトニアン群が生成する。 NLSS と NLTS を同時に満たすハミルトニアンの構築に,我々の技術が役立つことを期待している。

The recently-defined No Low-energy Sampleable States (NLSS) conjecture of Gharibian and Le Gall [GL22] posits the existence of a family of local Hamiltonians where all states of low-enough constant energy do not have succinct representations allowing perfect sampling access. States that can be prepared using only Clifford gates (i.e. stabilizer states) are an example of sampleable states, so the NLSS conjecture implies the existence of local Hamiltonians whose low-energy space contains no stabilizer states. We describe families that exhibit this requisite property via a simple alteration to local Hamiltonians corresponding to CSS codes. Our method can also be applied to the recent NLTS Hamiltonians of Anshu, Breuckmann, and Nirkhe [ABN22], resulting in a family of local Hamiltonians whose low-energy space contains neither stabilizer states nor trivial states. We hope that our techniques will eventually be helpful for constructing Hamiltonians which simultaneously satisfy NLSS and NLTS.
翻訳日:2023-03-01 15:23:19 公開日:2023-02-28
# 異なる照明条件下における農村2車線の道路出発事故パターンの同定:データマイニング手法を用いた関連知識

Identifying roadway departure crash patterns on rural two-lane highways under different lighting conditions: association knowledge using data mining approach ( http://arxiv.org/abs/2302.14754v1 )

ライセンス: Link先を確認
Ahmed Hossain, Xiaoduan Sun, Shahrin Islam, Shah Alam, Md Mahmud Hossain(参考訳) アメリカ国道の死亡者の半分以上が毎年道路の出発(rwd)によって死亡している。 従来,RwD事故に寄与する危険因子について検討されてきたが,照明条件の影響を考慮した総合的な調査は不十分である。 ルイジアナ州交通開発局の事故データベースを用いて、2008年から2017年の間、農村部2車線(r2l)の高速道路で発生した致命的および傷害性rwd事故を日光と暗い(街灯なし)に基づいて分析した。 本研究は,多次元衝突危険因子間の意味のある複雑な相互作用を探索するための安全なシステムアプローチを用いた。 これを実現するために、教師なしデータマイニングアルゴリズムアソシエーションルールマイニング(arm)が使用された。 生成したルールに基づいて, 日光, 街路灯, 街路灯などの興味深いクラッシュパターンを明らかにし, 照明条件に応じてRwDのクラッシュパターンを調べることの重要性を強調した。 日中は、RwDの致命的な事故は、曇りの天候、注意をそらされたドライバー、道路の立水、シートベルトの使用なし、建設ゾーンに関係している。 暗い照明条件(街灯無し)では、RwDの事故の大半はアルコールとドラッグの関与、若いドライバー(15-24年)、運転状態(不注意、気遣い、病気/疲労/睡眠など)、動物(s)との衝突に関係している。 この結果から, 運転行動パターンがrwdの衝突とどのように結びついているかが明らかになり, 暗暗暗条件下では, 飲酒・薬物中毒とシートベルト使用の強い関連が明らかになった。 この発見は、異なる照明条件下での衝突パターンと行動特性に基づいて、研究者や安全専門家が最も効果的なRwD事故軽減戦略を開発するのに役立つ可能性がある。

More than half of all fatalities on U.S. highways occur due to roadway departure (RwD) each year. Previous research has explored various risk factors that contribute to RwD crashes, however, a comprehensive investigation considering the effect of lighting conditions has been insufficiently addressed. Using the Louisiana Department of Transportation and Development crash database, fatal and injury RwD crashes occurring on rural two-lane (R2L) highways between 2008-2017 were analyzed based on daylight and dark (with/without streetlight). This research employed a safe system approach to explore meaningful complex interactions among multidimensional crash risk factors. To accomplish this, an unsupervised data mining algorithm association rules mining (ARM) was utilized. Based on the generated rules, the findings reveal several interesting crash patterns in the daylight, dark-with-streetlight, and dark-no-streetlight, emphasizing the importance of investigating RwD crash patterns depending on the lighting conditions. In daylight, fatal RwD crashes are associated with cloudy weather conditions, distracted drivers, standing water on the roadway, no seat belt use, and construction zones. In dark lighting conditions (with/without streetlight), the majority of the RwD crashes are associated with alcohol/drug involvement, young drivers (15-24 years), driver condition (e.g., inattentive, distracted, illness/fatigued/asleep) and colliding with animal (s). The findings reveal how certain driver behavior patterns are connected to RwD crashes, such as a strong association between alcohol/drug intoxication and no seat belt usage in the dark-no-streetlight condition. Based on the identified crash patterns and behavioral characteristics under different lighting conditions, the findings could aid researchers and safety specialists in developing the most effective RwD crash mitigation strategies.
翻訳日:2023-03-01 15:22:59 公開日:2023-02-28
# 条件付きサンプルを用いた隠れマルコフモデル学習

Learning Hidden Markov Models Using Conditional Samples ( http://arxiv.org/abs/2302.14753v1 )

ライセンス: Link先を確認
Sham M. Kakade, Akshay Krishnamurthy, Gaurav Mahajan, Cyril Zhang(参考訳) 本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。 HMMは、シーケンシャルおよび時系列モデリングにおいて最も広く使われているツールであるが、観察シーケンスのサンプルであるi.d.にアクセス可能な標準設定では、暗号的に学習が難しい。 本稿では,この設定から脱却し,HMMの条件分布からサンプルを検索できる対話型アクセスモデルを提案する。 HMMの対話的アクセスにより、計算効率のよい学習アルゴリズムが実現され、暗号化の難しさを回避できることを示す。 具体的には、HMMを2つの設定で学習するための効率的なアルゴリズムを得る。 (a)厳密な条件付き確率へのクエリアクセスが容易な設定。 このアルゴリズムは多項式時間で動作し、任意のHMMを全変動距離で近似するために多項式的に多くのクエリを生成する。 (b)条件分布からのみサンプルを得ることのできる、より難しい設定。 ここで、アルゴリズムの性能は、HMMの忠実度と呼ばれる新しいパラメータに依存する。 これは暗号処理の難しいインスタンスと、以前知られていたポジティブな結果をキャプチャする。 また,これらの結果は潜在低位構造を持つ分布のより広いクラスに拡張できることを示した。 我々のアルゴリズムは、会員クエリから決定論的有限オートマトンを学習するためのAngluinの$L^*$アルゴリズムの一般化とロバスト化と見なすことができる。

This paper is concerned with the computational complexity of learning the Hidden Markov Model (HMM). Although HMMs are some of the most widely used tools in sequential and time series modeling, they are cryptographically hard to learn in the standard setting where one has access to i.i.d. samples of observation sequences. In this paper, we depart from this setup and consider an interactive access model, in which the algorithm can query for samples from the conditional distributions of the HMMs. We show that interactive access to the HMM enables computationally efficient learning algorithms, thereby bypassing cryptographic hardness. Specifically, we obtain efficient algorithms for learning HMMs in two settings: (a) An easier setting where we have query access to the exact conditional probabilities. Here our algorithm runs in polynomial time and makes polynomially many queries to approximate any HMM in total variation distance. (b) A harder setting where we can only obtain samples from the conditional distributions. Here the performance of the algorithm depends on a new parameter, called the fidelity of the HMM. We show that this captures cryptographically hard instances and previously known positive results. We also show that these results extend to a broader class of distributions with latent low rank structure. Our algorithms can be viewed as generalizations and robustifications of Angluin's $L^*$ algorithm for learning deterministic finite automata from membership queries.
翻訳日:2023-03-01 15:22:10 公開日:2023-02-28
# 拡散に基づく音声強調のための確率微分方程式の事前ミスマッチの低減

Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement ( http://arxiv.org/abs/2302.14748v1 )

ライセンス: Link先を確認
Bunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann(参考訳) 近年,音声強調のためのスコアベース生成モデルが成功している。 確率微分方程式を用いて反復進行過程をモデル化し、各ステップで環境雑音と白色ガウス雑音がクリーン音声信号に付加される。 限界では、フォワードプロセスの平均はノイズの混合物で終わるが、実際にはより早く停止し、ノイズの混合物の近似でのみ停止する。 これにより、前処理の終了分布と、推論時に逆プロセスを解くのに使われる前処理との差が生じる。 本稿では,この相違に対処する。 そこで本研究では,ブラウン橋を基礎とした前方プロセスを提案し,そのようなプロセスが従来の拡散過程と比較してミスマッチの低減につながることを示す。 さらに重要なことは、私たちのアプローチが、イテレーションステップの半分しかなく、チューニングするハイパーパラメータが1つも少なく、ベースラインプロセスよりも客観的なメトリクスが改善されていることを示しています。

Recently, score-based generative models have been successfully employed for the task of speech enhancement. A stochastic differential equation is used to model the iterative forward process, where at each step environmental noise and white Gaussian noise are added to the clean speech signal. While in limit the mean of the forward process ends at the noisy mixture, in practice it stops earlier and thus only at an approximation of the noisy mixture. This results in a discrepancy between the terminating distribution of the forward process and the prior used for solving the reverse process at inference. In this paper, we address this discrepancy. To this end, we propose a forward process based on a Brownian bridge and show that such a process leads to a reduction of the mismatch compared to previous diffusion processes. More importantly, we show that our approach improves in objective metrics over the baseline process with only half of the iteration steps and having one hyperparameter less to tune.
翻訳日:2023-03-01 15:21:37 公開日:2023-02-28
# mask3d:マスク3d事前学習による2次元視覚トランスフォーマー

Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors ( http://arxiv.org/abs/2302.14746v1 )

ライセンス: Link先を確認
Ji Hou, Xiaoliang Dai, Zijian He, Angela Dai, Matthias Nie{\ss}ner(参考訳) ビジョントランスフォーマー(ViT)やResNetsのようなコンピュータビジョンにおける現在の一般的なバックボーンは、2D画像から世界を認識するために訓練されている。 しかし,2次元バックボーンにおける3次元構造的先行性をより効果的に理解するために,既存の大規模RGB-Dデータを活用するMask3Dを提案する。 3次元再構成やマルチビュー対応を必要とする従来の3Dコントラスト学習パラダイムとは対照的に,本手法はRGBと深度パッチを個別のRGB-Dフレームでマスキングすることで,事前テキスト再構築タスクを定式化する。 我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを示し,セマンティックセグメンテーション,インスタンスセグメンテーション,オブジェクト検出など,様々な場面理解タスクにおける表現学習の改善を可能にする。 実験の結果、Mask3DはScanNet、NYUv2、Cityscapesの画像理解タスクにおいて既存の教師付き3D事前訓練アプローチよりも優れており、ScanNetイメージセマンティックセグメンテーションにおける最先端のPri3Dに対して+6.5% mIoUが改善されている。

Current popular backbones in computer vision, such as Vision Transformers (ViT) and ResNets are trained to perceive the world from 2D images. However, to more effectively understand 3D structural priors in 2D backbones, we propose Mask3D to leverage existing large-scale RGB-D data in a self-supervised pre-training to embed these 3D priors into 2D learned feature representations. In contrast to traditional 3D contrastive learning paradigms requiring 3D reconstructions or multi-view correspondences, our approach is simple: we formulate a pre-text reconstruction task by masking RGB and depth patches in individual RGB-D frames. We demonstrate the Mask3D is particularly effective in embedding 3D priors into the powerful 2D ViT backbone, enabling improved representation learning for various scene understanding tasks, such as semantic segmentation, instance segmentation and object detection. Experiments show that Mask3D notably outperforms existing self-supervised 3D pre-training approaches on ScanNet, NYUv2, and Cityscapes image understanding tasks, with an improvement of +6.5% mIoU against the state-of-the-art Pri3D on ScanNet image semantic segmentation.
翻訳日:2023-03-01 15:21:11 公開日:2023-02-28
# 説明的木に基づく混合整数最適化の厳密性

Tightness of prescriptive tree-based mixed-integer optimization formulations ( http://arxiv.org/abs/2302.14744v1 )

ライセンス: Link先を確認
Max Biggs and Georgia Perakis(参考訳) 本研究では,入力特徴ベクトルと学習決定木の予測結果との関係を混合整数最適化を用いてモデル化する。 これは、決定木またはツリーアンサンブルが最適化問題に組み込まれ、決定の予測結果がモデル化される多くの実用的なアプリケーションで使用できる。 従来よりも厳密な混合整数最適化法を提案する。 既存の定式化は、単一の決定木をモデリングする単純な場合であっても、最小の極点を持つ線形緩和を持つことが示される。 私たちが提案する定式化は、射影されたポリヘドラアプローチに基づいて、単一の決定木に最適である。 定式化は一般に木のアンサンブルには適さないが、追加の制約を加えると、極端な点がより少なくなり、特に比較的少数の木がある場合、解ける時間が短縮される。 しかし、以前の研究では、特徴ベクトルのバイナリ表現に基づく定式化がよく計算され、実用的な応用には魅力的なことが示されている。 既存の定式化をバイナリベクトルで引き締める複数のアプローチを示し、同じ特徴に複数の分割がある場合、分数極点が取り除かれることを示す。 極端に、これは1次元特徴ベクトルをモデル化したツリーアンサンブルの理想的な定式化をもたらすことを証明している。 この結果に基づいて,これらの制約が,特徴ベクトルが低次元である場合の線形緩和を著しく厳密にすることを示す数値シミュレーションも行った。 また,これらの定式化を用いて最適解法時間を大幅に改善する事例も提示する。

We focus on modeling the relationship between an input feature vector and the predicted outcome of a trained decision tree using mixed-integer optimization. This can be used in many practical applications where a decision tree or tree ensemble is incorporated into an optimization problem to model the predicted outcomes of a decision. We propose tighter mixed-integer optimization formulations than those previously introduced. Existing formulations can be shown to have linear relaxations that have fractional extreme points, even for the simple case of modeling a single decision tree. A formulation we propose, based on a projected union of polyhedra approach, is ideal for a single decision tree. While the formulation is generally not ideal for tree ensembles or if additional constraints are added, it generally has fewer extreme points, leading to a faster time to solve, particularly if the formulation has relatively few trees. However, previous work has shown that formulations based on a binary representation of the feature vector perform well computationally and hence are attractive for use in practical applications. We present multiple approaches to tighten existing formulations with binary vectors, and show that fractional extreme points are removed when there are multiple splits on the same feature. At an extreme, we prove that this results in ideal formulations for tree ensembles modeling a one-dimensional feature vector. Building on this result, we also show via numerical simulations that these additional constraints result in significantly tighter linear relaxations when the feature vector is low dimensional. We also present instances where the time to solve to optimality is significantly improved using these formulations.
翻訳日:2023-03-01 15:20:45 公開日:2023-02-28
# マルチソースモバイルデバイス位置データからのデバイス重複検出のためのビッグデータ駆動フレームワーク

A Big Data Driven Framework for Duplicate Device Detection from Multi-sourced Mobile Device Location Data ( http://arxiv.org/abs/2302.14742v1 )

ライセンス: Link先を確認
Aliakbar Kabiri, Aref Darzi, Saeed Saleh Namadi, Yixuan Pan, Guangchen Zhao, Qianqian Sun, Mofeng Yang, Mohammad Ashoori(参考訳) モバイル端末位置情報(MDLD)は様々な分野で広く利用されている。 しかし、その大規模アプリケーションは、個々のデータベンダからのデータのバイアスや空間的カバレッジが不十分なため、制限されている。 データカバレッジを改善する1つのアプローチは、複数のデータベンダのデータを活用して、より代表的なデータセットを構築することだ。 データ統合には、いくつかの理由から、マルチソースデータセットのさらなる処理が必要である。 第一に、複数のデバイスを運ぶ可能性は、同じデータ対象から重複した観察結果をもたらす可能性がある。 さらに、複数のデータソースを利用する場合、同じデバイスが複数のデータプロバイダによってキャプチャされる可能性がある。 本稿では,複数のソースからのデータを統合する可能性を検討するために,データに新たなバイアスを加えることなくデータ統合手法を提案する。 各装置の走行パターンの独自性を活用することにより、重複装置を特定する。 提案手法は,所望の精度を達成しながら費用対効果を示す。 以上の結果から,同時期に最も訪問の多い場所と同一の場所を共有するデバイスは,MDLDで同じユーザを表現できることが示唆された。 上記の属性が共通する試料装置の99.6%以上が同じ場所で同時に観測されていることが示されている。 最後に,提案アルゴリズムは2020年の国家レベルのMDLDに適用され,NextGeneration National Household Travel Survey (NextGen NHTS)プログラムの国民的乗客原産地調査データの生成に成功した。

Mobile Device Location Data (MDLD) has been popularly utilized in various fields. Yet its large-scale applications are limited because of either biased or insufficient spatial coverage of the data from individual data vendors. One approach to improve the data coverage is to leverage the data from multiple data vendors and integrate them to build a more representative dataset. For data integration, further treatments on the multi-sourced dataset are required due to several reasons. First, the possibility of carrying more than one device could result in duplicated observations from the same data subject. Additionally, when utilizing multiple data sources, the same device might be captured by more than one data provider. Our paper proposes a data integration methodology for multi-sourced data to investigate the feasibility of integrating data from several sources without introducing additional biases to the data. By leveraging the uniqueness of travel pattern of each device, duplicate devices are identified. The proposed methodology is shown to be cost-effective while it achieves the desired accuracy level. Our findings suggest that devices sharing the same imputed home location and the top five most-visited locations during a month can represent the same user in the MDLD. It is shown that more than 99.6% of the sample devices having the aforementioned attribute in common are observed at the same location simultaneously. Finally, the proposed algorithm has been successfully applied to the national-level MDLD of 2020 to produce the national passenger origin-destination data for the NextGeneration National Household Travel Survey (NextGen NHTS) program.
翻訳日:2023-03-01 15:20:15 公開日:2023-02-28
# 最適化プロペラ設計のための数値シミュレーションとmlの融合

Fusion of ML with numerical simulation for optimized propeller design ( http://arxiv.org/abs/2302.14740v1 )

ライセンス: Link先を確認
Harsh Vardhan, Peter Volgyesi, Janos Sztipanovits(参考訳) コンピュータ支援工学設計において,設計者の目標は,最適化手法を用いてループ内の数値シミュレータを用いて,与えられた要求に対して最適な設計を求めることである。 この設計最適化プロセスでは、優れた設計最適化プロセスは、開始から設計までの時間を短縮することができる。 本研究では,計算機的に安価に評価できるが,高次元設計空間を有する設計問題について考察する。 そのような場合、従来のサロゲートベースの最適化はいかなる利点も与えない。 本研究では,探索問題を逆問題として定式化し,最適設計を求めるか,少なくとも最適化のための良い初期シード設計を見つけることで時間を節約できる設計プロセスを,mlモデルを用いてサロゲートする方法を提案する。 このトレーニングされたサロゲートモデルと従来の最適化手法を用いることで、両方の世界の長所を得られる。 我々はこれをSurrogate Assisted Optimization (SAO)と呼び、従来の最適化手法とMLサロゲートを混合したハイブリッドアプローチである。 プロペラ設計問題に対する実証的な評価は、SAOを用いたより少ない評価でより効率的な設計を見出すことができることを示している。

In computer-aided engineering design, the goal of a designer is to find an optimal design on a given requirement using the numerical simulator in loop with an optimization method. In this design optimization process, a good design optimization process is one that can reduce the time from inception to design. In this work, we take a class of design problem, that is computationally cheap to evaluate but has high dimensional design space. In such cases, traditional surrogate-based optimization does not offer any benefits. In this work, we propose an alternative way to use ML model to surrogate the design process that formulates the search problem as an inverse problem and can save time by finding the optimal design or at least a good initial seed design for optimization. By using this trained surrogate model with the traditional optimization method, we can get the best of both worlds. We call this as Surrogate Assisted Optimization (SAO)- a hybrid approach by mixing ML surrogate with the traditional optimization method. Empirical evaluations of propeller design problems show that a better efficient design can be found in fewer evaluations using SAO.
翻訳日:2023-03-01 15:19:57 公開日:2023-02-28
# 平均場最適輸送のための深層学習

Deep Learning for Mean Field Optimal Transport ( http://arxiv.org/abs/2302.14739v1 )

ライセンス: Link先を確認
Sebastian Baudelet, Brieuc Fr\'enais, Mathieu Lauri\`ere, Amal Machtalay, Yuchen Zhu(参考訳) 戦略エージェントの大量集団における社会的最適性を研究するために,平均場制御(MFC)問題が導入されている。 主なアイデアは、無限の人口を考慮し、平均場近似を用いて解析を単純化することである。 これらの問題はマッキーン・ブラソフ力学の最適制御問題と見なすこともできる。 彼らは経済学、金融学、社会科学、工学など幅広い分野の応用を見出した。 通常、エージェントの目標は、ランニングコストとターミナルコストの積分からなる総コストを最小化することである。 本研究では,端末コストが存在しないmfc問題を考えるが,その代わりに端末分布が規定される。 このような問題は、ダイナミクスやランニングコスト関数で平均場相互作用が発生するとき、古典的な最適輸送問題の一般化と見なすことができるので、場最適輸送問題(英語版)と呼ぶ。 ニューラルネットワークに基づく3つの数値解法を提案する。 1つ目は、最適な制御を直接学習することに基づく。 2つ目は、その解を特徴づける前方PDEシステムの解法である。 3つ目は、原始双対アプローチである。 本稿では,2種類の実例を用いて数値実験を行った。

Mean field control (MFC) problems have been introduced to study social optima in very large populations of strategic agents. The main idea is to consider an infinite population and to simplify the analysis by using a mean field approximation. These problems can also be viewed as optimal control problems for McKean-Vlasov dynamics. They have found applications in a wide range of fields, from economics and finance to social sciences and engineering. Usually, the goal for the agents is to minimize a total cost which consists in the integral of a running cost plus a terminal cost. In this work, we consider MFC problems in which there is no terminal cost but, instead, the terminal distribution is prescribed. We call such problems mean field optimal transport problems since they can be viewed as a generalization of classical optimal transport problems when mean field interactions occur in the dynamics or the running cost function. We propose three numerical methods based on neural networks. The first one is based on directly learning an optimal control. The second one amounts to solve a forward-backward PDE system characterizing the solution. The third one relies on a primal-dual approach. We illustrate these methods with numerical experiments conducted on two families of examples.
翻訳日:2023-03-01 15:19:41 公開日:2023-02-28
# マルチモーダルFew-Shot学習のためのメタラーニングによる視覚と言語モデルの構築

Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning ( http://arxiv.org/abs/2302.14794v1 )

ライセンス: Link先を確認
Ivona Najdenkoska, Xiantong Zhen, Marcel Worring(参考訳) 視覚と言語モダリティの間に大きなドメインギャップがあるため、マルチモーダルな数ショット学習は困難である。 既存の手法は、凍結言語モデルへのプロンプトとして視覚概念を伝達しようとしているが、仮説空間を減らすために手作業によるタスク誘導に依存している。 プロセス全体を学習可能にするために,マルチモーダルメタラーニングアプローチを導入する。 具体的には、モデルのトレーニングを、関連するマルチモーダルな数ショットタスクのセットに分解する。 メタマッパーネットワークを定義し、メタリーナーとして機能し、凍結した大規模ビジョンと言語モデルを効率的に橋渡しし、既に学習済みの能力を活用する。 メタマッパーのみの学習可能なパラメータを更新することにより、これらのタスク間で共有メタ知識を取得することができる。 これにより、わずかな勾配更新だけで、新しく提示されたサンプルに迅速に適応することができる。 重要なことは、手作業によるタスク誘導を必要とせず、完全にデータ駆動の方法でタスクを誘導する。 我々は,最近提案されたマルチモーダル・スショット・ベンチマークを用いて,モデルが単語に新しい視覚概念を結合し,限られたラベル付き例のみを観察することで,視覚的疑問に答える速度を計測した。 実験の結果,我々のメタラーニングアプローチは,計算効率が向上しつつ,複数のデータセットと様々なトレーニング設定でベースラインを上回ることがわかった。

Multimodal few-shot learning is challenging due to the large domain gap between vision and language modalities. Existing methods are trying to communicate visual concepts as prompts to frozen language models, but rely on hand-engineered task induction to reduce the hypothesis space. To make the whole process learnable, we introduce a multimodal meta-learning approach. Specifically, our approach decomposes the training of the model into a set of related multimodal few-shot tasks. We define a meta-mapper network, acting as a meta-learner, to efficiently bridge frozen large-scale vision and language models and leverage their already learned capacity. By updating the learnable parameters only of the meta-mapper, it learns to accrue shared meta-knowledge among these tasks. Thus, it can rapidly adapt to newly presented samples with only a few gradient updates. Importantly, it induces the task in a completely data-driven manner, with no need for a hand-engineered task induction. We evaluate our approach on recently proposed multimodal few-shot benchmarks, measuring how rapidly the model can bind novel visual concepts to words and answer visual questions by observing only a limited set of labeled examples. The experimental results show that our meta-learning approach outperforms the baseline across multiple datasets and various training settings while being computationally more efficient.
翻訳日:2023-03-01 15:13:24 公開日:2023-02-28
# 検索と評価のためのテキストと知識グラフの統合表現

Joint Representations of Text and Knowledge Graphs for Retrieval and Evaluation ( http://arxiv.org/abs/2302.14785v1 )

ライセンス: Link先を確認
Teven Le Scao and Claire Gardent(参考訳) ニューラルネットワークの重要な特徴は、オブジェクト(テキスト、画像、音声など)の意味的ベクトル表現を生成でき、同様のオブジェクトがベクトル空間で互いに近接していることを保証することである。 多くの研究は、他のモダリティの表現の学習に焦点を合わせてきたが、テキストと知識ベース(KB)要素の整列したクロスモーダル表現は存在しない。 このような表現を学ぶ上での課題のひとつは、ヒューリスティックスベースのデータセットとデータ拡張に関する対照的なトレーニングを使用して、(KBグラフ、テキスト)ペアに埋め込みモデルをトレーニングすることである。 よりクリーンな手作業によるデータセットであるWebNLGでは,検索に適した整列表現を学習できることが示されている。 EREDAT(Ensembled Representations for Evaluation of DAta-to-Text)は、英語のテキストとKBグラフの類似度指標である。 EREDATは、WebNLG上の人間の判断と相関して、最先端の指標よりも優れているか、あるいは一致している。

A key feature of neural models is that they can produce semantic vector representations of objects (texts, images, speech, etc.) ensuring that similar objects are close to each other in the vector space. While much work has focused on learning representations for other modalities, there are no aligned cross-modal representations for text and knowledge base (KB) elements. One challenge for learning such representations is the lack of parallel data, which we use contrastive training on heuristics-based datasets and data augmentation to overcome, training embedding models on (KB graph, text) pairs. On WebNLG, a cleaner manually crafted dataset, we show that they learn aligned representations suitable for retrieval. We then fine-tune on annotated data to create EREDAT (Ensembled Representations for Evaluation of DAta-to-Text), a similarity metric between English text and KB graphs. EREDAT outperforms or matches state-of-the-art metrics in terms of correlation with human judgments on WebNLG even though, unlike them, it does not require a reference text to compare against.
翻訳日:2023-03-01 15:13:02 公開日:2023-02-28
# スマートホームにおける時系列異常検出 : ディープラーニングアプローチ

Time Series Anomaly Detection in Smart Homes: A Deep Learning Approach ( http://arxiv.org/abs/2302.14781v1 )

ライセンス: Link先を確認
Somayeh Zamani and Hamed Talebi and Gunnar Stevens(参考訳) 異なる異常によるエネルギー漏れの固定は、大幅な省エネルギーと家電寿命を延ばす可能性がある。 さらに、グリッドオペレーターが実際のエンドユーザのニーズを満たすようにリソースをスケジューリングするのを支援すると同時に、エンドユーザのエネルギーコストの削減を支援する。 本稿では,REFITデータセットの2つのハウスで使用される食器洗い機の消費電力に関するパターンを解析する。 次に、1D-CNNとTCNをバックボーンとする2つのオートエンコーダ(AE)をトレーニングし、正常なパターンと異常なパターンを区別する。 以上の結果から,TNはCNN1Dよりもエネルギー消費の異常を検出することが示唆された。 最終的に、REFITのFridge_Freezerと3号住宅のFreezerからのデータも、我々のアプローチを評価するために使われる。

Fixing energy leakage caused by different anomalies can result in significant energy savings and extended appliance life. Further, it assists grid operators in scheduling their resources to meet the actual needs of end users, while helping end users reduce their energy costs. In this paper, we analyze the patterns pertaining to the power consumption of dishwashers used in two houses of the REFIT dataset. Then two autoencoder (AEs) with 1D-CNN and TCN as backbones are trained to differentiate the normal patterns from the abnormal ones. Our results indicate that TCN outperforms CNN1D in detecting anomalies in energy consumption. Finally, the data from the Fridge_Freezer and the Freezer of house No. 3 in REFIT is also used to evaluate our approach.
翻訳日:2023-03-01 15:12:42 公開日:2023-02-28
# アクシオンに結合したフェルミオンに対する4-\epsilon$次元${\mathcal{PT}}$-対称場論における再正規化群の流れ

Renormalisation group flows in a $4-\epsilon$ dimensional ${\mathcal{PT}}$-symmetric field theory for a fermion coupled to an axion ( http://arxiv.org/abs/2302.14780v1 )

ライセンス: Link先を確認
Lewis Croney, Sarben Sarkar(参考訳) フェルミオンと軸の有効場理論における $\mathcal {pt}$ symmetry の役割は、時空次元 $d=4-\epsilon$ において考慮され、ここで $\epsilon >0$ である。 正規化可能場理論はディラック場と擬スカラー場に対するもので、その相互作用は湯川カップリング $g$ と四次スカラー自己結合 $u$ である。 体論はエルミートあるいは非エルミート(ただし$\mathcal{PT}$-対称)であり、湯川結合が虚数か実数か、クォートカップリングが正か負かに依存する。 また,$\epsilon$を導入することで,4次カップリングと湯川カップリングの正方形(スケール関数として考慮される)が再正規化群フローの符号を変える可能性があることを示す最近の研究の妥当性の検証が可能となった。 結合定数空間における再正規化群フローを,湯川カップリングにおいて最大3ループ,クォートスカラーカップリングにおいて最大2ループのベータ関数を計算するMathematica package RGBetaを用いて検討した。 6つの固定点が 0 でない $\epsilon$ に対して見出され、その線形安定性に従って分類される。 非自明な固定点近傍のフローは、$\epsilon$展開とともに摂動解析を用いて計算される。 グローバルフローは、正の$u$から負の$u$へのフローを表し、想像上の$g$から実$g$へのフローは存在しない。 発散級数に対する和法を用いて、$d=3$ に対して $\mathcal{pt}$-symmetric saddle fixed point が成り立つことを示す。

The role of $\mathcal {PT}$ symmetry in an effective field theory for fermions and axions is considered in spacetime dimensions $D=4-\epsilon$, where $\epsilon >0$. The renormalisable field theory is for a Dirac field and a pseudoscalar field, whose interactions are a Yukawa coupling $g$ and a quartic scalar self-coupling $u$. The field theory is Hermitian or non-Hermitian (but $\mathcal{PT}$-symmetric) depending on whether the Yukawa coupling is imaginary or real and the quartic coupling is positive or negative. The introduction of $\epsilon$ allows a controlled investigation of the validity of recent work which indicates that the quartic coupling and the square of the Yukawa coupling (regarded as a function of scale) may change sign in a renormalisation group flow. Renormalisation group flows in coupling constant space are investigated using the Mathematica package RGBeta, which calculates beta functions up to three loops in the Yukawa coupling and up to two loops in the quartic scalar coupling. Six fixed points are found for non-zero $\epsilon$, which are classified according to their linear stability. The flows in the neighbourhood of the non-trivial fixed points are calculated using perturbative analysis, together with the $\epsilon$ expansion. The global flow indicates flows from positive $u$ to negative $u$; there are no flows from imaginary $g$ to real $g$. Using summation techniques for divergent series, we demonstrate a possible $\mathcal{PT}$-symmetric saddle fixed point for $D=3$.
翻訳日:2023-03-01 15:12:30 公開日:2023-02-28
# 自己および共注意ブロックのカスケード付きVQA

VQA with Cascade of Self- and Co-Attention Blocks ( http://arxiv.org/abs/2302.14777v1 )

ライセンス: Link先を確認
Aakansha Mishra, Ashish Anand, Prithwijit Guha(参考訳) 複雑な注意モジュールの使用により、Visual Question Answering (VQA)タスクのパフォーマンスが改善された。 本研究は,視覚とテキストの密接な相互作用を通じて,マルチモーダル表現の改善を目標としている。 提案モデルは,画像とテキストに自己注意と共同注意の両方を含む注意ブロックを有する。 セルフアテンションモジュールは、答えを推測するのに重要なオブジェクト(画像用)と単語(質問用)のコンテキスト情報を提供する。 一方、コ・アテンションは画像とテキストの相互作用を支援する。 さらに、CSCA(Self- and Co-Attention Block)のカスケードを用いて、2つのモードからきめ細かい情報を得る。 この提案は広く使われているVQA2.0とTDIUCデータセットでベンチマークされている。 アブレーション解析を含む実験により, モデルの主要成分の有効性と注目モジュールのカスケードを実証した。

The use of complex attention modules has improved the performance of the Visual Question Answering (VQA) task. This work aims to learn an improved multi-modal representation through dense interaction of visual and textual modalities. The proposed model has an attention block containing both self-attention and co-attention on image and text. The self-attention modules provide the contextual information of objects (for an image) and words (for a question) that are crucial for inferring an answer. On the other hand, co-attention aids the interaction of image and text. Further, fine-grained information is obtained from two modalities by using a Cascade of Self- and Co-Attention blocks (CSCA). This proposal is benchmarked on the widely used VQA2.0 and TDIUC datasets. The efficacy of key components of the model and cascading of attention modules are demonstrated by experiments involving ablation analysis.
翻訳日:2023-03-01 15:11:52 公開日:2023-02-28
# 光ツイーザーにおけるRydberg原子と極性分子を用いた中心スピンモデルの量子シミュレーション

Quantum simulation of the central spin model with a Rydberg atom and polar molecules in optical tweezers ( http://arxiv.org/abs/2302.14774v1 )

ライセンス: Link先を確認
Jacek Dobrzyniecki, Micha{\l} Tomza(参考訳) 1つのスピンフル粒子がスピン環境と相互作用する中心スピンモデルは、量子情報技術の幅広い応用を見つけ、例えば時間とともに量子ビットのデコヒーレンスを記述するのに使うことができる。 本稿では、XX(スピン交換)相互作用を持つ中心スピンモデルの超低温量子シミュレータを実現する方法を提案する。 提案系は1つのRydberg原子(中心スピン)と周囲の極性分子(基底スピン)から構成され、双極子-双極子相互作用を介して互いに結合している。 内部粒子状態をスピン状態にマッピングすることで、スピン交換相互作用をシミュレートすることができる。 システム幾何学の例として、リング状の浴室スピンの配置について考察し、相互作用強度を正確に制御する方法を示す。 このセットアップにより、量子科学や技術への応用において、高度に調整可能なパラメータと幾何を持つ中心スピンモデルが実現できることを実証する。

Central spin models, where a single spinful particle interacts with a spin environment, find wide application in quantum information technology and can be used to describe, e.g., the decoherence of a qubit over time. We propose a method of realizing an ultracold quantum simulator of a central spin model with XX (spin-exchanging) interactions. The proposed system consists of a single Rydberg atom ("central spin") and surrounding polar molecules ("bath spins"), coupled to each other via dipole-dipole interactions. By mapping internal particle states to spin states, spin-exchanging interactions can be simulated. As an example system geometry, we consider a ring-shaped arrangement of bath spins, and show how it allows to exact precise control over the interaction strengths. We demonstrate that this setup allows to realize a central spin model with highly tunable parameters and geometry, for applications in quantum science and technology.
翻訳日:2023-03-01 15:11:40 公開日:2023-02-28
# PA&DA: 一貫性NASのための共同サンプリングPAthとDAta

PA&DA: Jointly Sampling PAth and DAta for Consistent NAS ( http://arxiv.org/abs/2302.14772v1 )

ライセンス: Link先を確認
Shun Lu, Yu Hu, Longxing Yang, Zihao Sun, Jilin Mei, Jianchao Tan, Chengru Song(参考訳) 重み共有機構に基づき、ワンショットnasメソッドはスーパーネットを訓練し、事前訓練された重みを継承してサブモデルを評価する。 しかし、いくつかの研究は、共有ウェイトはトレーニング中に勾配降下方向が異なることを指摘している。 さらに、スーパーネットトレーニング中に大きな勾配のばらつきが生じ、スーパーネットランキングの整合性を低下させる。 本稿では,PAth と DAta (PA&DA) のサンプリング分布を最適化することにより,スーパーネットトレーニングの勾配分散を明示的に最小化することを提案する。 理論的には、勾配分散とサンプリング分布の関係を導出し、最適サンプリング確率がパスとトレーニングデータの正規化勾配ノルムに比例していることを明らかにする。 したがって、正規化勾配ノルムを経路および訓練データの重要指標とし、スーパーネット訓練における重要サンプリング戦略を採用する。 提案手法は,パスとデータのサンプリング分布を最適化するためには無視可能な計算コストのみを必要とするが,スーパーネットトレーニング時の勾配分散の低減と,スーパーネットの一般化性能の向上を実現し,より一貫したNASを実現する。 我々は,様々な探索空間において,他の改良されたアプローチと包括的に比較する。 その結果,提案手法は信頼性が高く,検索アーキテクチャの精度も向上し,提案手法の有効性が示された。 コードはhttps://github.com/ShunLu91/PA-DAで入手できる。

Based on the weight-sharing mechanism, one-shot NAS methods train a supernet and then inherit the pre-trained weights to evaluate sub-models, largely reducing the search cost. However, several works have pointed out that the shared weights suffer from different gradient descent directions during training. And we further find that large gradient variance occurs during supernet training, which degrades the supernet ranking consistency. To mitigate this issue, we propose to explicitly minimize the gradient variance of the supernet training by jointly optimizing the sampling distributions of PAth and DAta (PA&DA). We theoretically derive the relationship between the gradient variance and the sampling distributions, and reveal that the optimal sampling probability is proportional to the normalized gradient norm of path and training data. Hence, we use the normalized gradient norm as the importance indicator for path and training data, and adopt an importance sampling strategy for the supernet training. Our method only requires negligible computation cost for optimizing the sampling distributions of path and data, but achieves lower gradient variance during supernet training and better generalization performance for the supernet, resulting in a more consistent NAS. We conduct comprehensive comparisons with other improved approaches in various search spaces. Results show that our method surpasses others with more reliable ranking performance and higher accuracy of searched architectures, showing the effectiveness of our method. Code is available at https://github.com/ShunLu91/PA-DA.
翻訳日:2023-03-01 15:11:24 公開日:2023-02-28
# マスクオートエンコーダの汎用蒸留

Generic-to-Specific Distillation of Masked Autoencoders ( http://arxiv.org/abs/2302.14771v1 )

ライセンス: Link先を確認
Wei Huang, Zhiliang Peng, Li Dong, Furu Wei, Jianbin Jiao, Qixiang Ye(参考訳) 自己監督型事前学習機構によって駆動される大型視覚変換器(ViT)は前例のない進歩を遂げた。 しかし、モデルキャパシティによって制限された軽量ViTモデルは、トレーニング前のメカニズムからはほとんど恩恵を受けない。 知識蒸留は、大きな(教師)モデルから小さな(学生)モデルへ表現を伝達するパラダイムを定義する。 しかし, 従来の単一段蒸留は, モデル一般化に不可欠なタスク非依存の知識を保たず, タスク固有の移行に容易に立ち往生する。 本研究では,マスク付きオートエンコーダによって事前訓練された大型モデルの監督の下で,小型ViTモデルのポテンシャルを活かす汎用蒸留(G2SD)を提案する。 汎用蒸留では,小型モデルのデコーダを用いて,特徴予測と大規模モデルの隠れ表現を一致させることで,タスク非依存の知識を伝達することができる。 特定の蒸留では、小さなモデルの予測は大きなモデルの予測と一致し、タスクパフォーマンスを保証するタスク固有の特徴を転送するように制約される。 G2SDでは、バニラのViT-Smallモデルは、イメージ分類、オブジェクト検出、セマンティックセグメンテーションのための教師(ViT-Base)のパフォーマンスの98.7%、98.1%、99.3%を達成した。 コードはhttps://github.com/pengzhiliang/G2SDで入手できる。

Large vision Transformers (ViTs) driven by self-supervised pre-training mechanisms achieved unprecedented progress. Lightweight ViT models limited by the model capacity, however, benefit little from those pre-training mechanisms. Knowledge distillation defines a paradigm to transfer representations from large (teacher) models to small (student) ones. However, the conventional single-stage distillation easily gets stuck on task-specific transfer, failing to retain the task-agnostic knowledge crucial for model generalization. In this study, we propose generic-to-specific distillation (G2SD), to tap the potential of small ViT models under the supervision of large models pre-trained by masked autoencoders. In generic distillation, decoder of the small model is encouraged to align feature predictions with hidden representations of the large model, so that task-agnostic knowledge can be transferred. In specific distillation, predictions of the small model are constrained to be consistent with those of the large model, to transfer task-specific features which guarantee task performance. With G2SD, the vanilla ViT-Small model respectively achieves 98.7%, 98.1% and 99.3% the performance of its teacher (ViT-Base) for image classification, object detection, and semantic segmentation, setting a solid baseline for two-stage vision distillation. Code will be available at https://github.com/pengzhiliang/G2SD.
翻訳日:2023-03-01 15:10:57 公開日:2023-02-28
# 原子構造表現の完全性

Completeness of Atomic Structure Representations ( http://arxiv.org/abs/2302.14770v1 )

ライセンス: Link先を確認
Jigyasa Nigam, Sergey N. Pozdnyakov, Kevin K. Huguenin-Dumittan, and Michele Ceriotti(参考訳) 分子内の原子のような点粒子群を完全かつ対称的に記述することは、物理学や理論化学において一般的な問題である。 機械学習の科学への導入は、モデルが任意の物理的関係を再現し、基本的な対称性や保存則に準拠しながらそれを行う能力の基盤となるため、この問題をさらに重要にした。 しかし、一般的に点雲を表すために使われる記述子(特に原子規模で物質を記述するために使われるもの)は、粒子の特別な配置を区別できない。 これにより、マシンでプロパティを学習することは不可能である。 証明可能な完全性を持つフレームワークは存在するが、それらは全ての原子間の相互関係を同時に記述する限界にのみ存在する。 粒子の三重項の相対配置に関する情報のみに依存するが、普遍近似力を持つ対称性に適合したモデルを構築するために使用できるディスクリプタを構築するための戦略である、原子配列の特に不気味なクラスを紹介し、実証する。

Achieving a complete and symmetric description of a group of point particles, such as atoms in a molecule, is a common problem in physics and theoretical chemistry. The introduction of machine learning to science has made this issue even more critical, as it underpins the ability of a model to reproduce arbitrary physical relationships, and to do so while being consistent with basic symmetries and conservation laws. However, the descriptors that are commonly used to represent point clouds -- most notably those adopted to describe matter at the atomic scale -- are unable to distinguish between special arrangements of particles. This makes it impossible to machine learn their properties. Frameworks that are provably complete exist, but are only so in the limit in which they simultaneously describe the mutual relationship between all atoms, which is impractical. We introduce, and demonstrate on a particularly insidious class of atomic arrangements, a strategy to build descriptors that rely solely on information on the relative arrangement of triplets of particles, but can be used to construct symmetry-adapted models that have universal approximation power.
翻訳日:2023-03-01 15:10:30 公開日:2023-02-28
# ベルーガクジラ差別に対する会員推測攻撃

Membership Inference Attack for Beluga Whales Discrimination ( http://arxiv.org/abs/2302.14769v1 )

ライセンス: Link先を確認
Voncarlos Marcelo Ara\'ujo, S\'ebastien Gambs, Cl\'ement Chion, Robert Michaud, L\'eo Schneider, Hadrien Lautraite(参考訳) 特定の野生生物の個体群の成長と進化を効率的に監視するために、動物生態学において対処する主な課題の1つは、これまで遭遇した個人を再同定することであり、また、既知の個体と未知の個体(いわゆる「オープンセット問題」)の識別である。 特に本研究では,特徴的な特徴の欠如により,最も識別が難しい海洋生物種であるベルガクジラのデジタル写真における識別に関心を持っている。 この問題に対処するために,特定の機械学習モデルのリリースに伴うプライバシーリスクを評価するために通常使用されるMIA(Commanship Inference Attacks)を用いた新しいアプローチを提案する。 より正確には、未知の個人と未知の個人を区別する問題は、MIAの最先端アプローチを用いて効率的に解決できることを実証する。 クジラに関連する3つのベンチマークデータセット、2つの異なるニューラルネットワークアーキテクチャ、3つのmiaに関する広範な実験は、アプローチのパフォーマンスを明確に示しています。 また、異なるMIAの出力を組み合わせ、偽陽性率を低減しつつ攻撃精度を向上させる、アンサンブルMIAと呼ばれる新しいMIA戦略を設計した。 全体として、私たちの主な目的の1つは、動物生態学で遭遇する実践的な課題に対処することで、プライバシ攻撃の研究を「善」に活用できることを示すことです。

To efficiently monitor the growth and evolution of a particular wildlife population, one of the main fundamental challenges to address in animal ecology is the re-identification of individuals that have been previously encountered but also the discrimination between known and unknown individuals (the so-called "open-set problem"), which is the first step to realize before re-identification. In particular, in this work, we are interested in the discrimination within digital photos of beluga whales, which are known to be among the most challenging marine species to discriminate due to their lack of distinctive features. To tackle this problem, we propose a novel approach based on the use of Membership Inference Attacks (MIAs), which are normally used to assess the privacy risks associated with releasing a particular machine learning model. More precisely, we demonstrate that the problem of discriminating between known and unknown individuals can be solved efficiently using state-of-the-art approaches for MIAs. Extensive experiments on three benchmark datasets related to whales, two different neural network architectures, and three MIA clearly demonstrate the performance of the approach. In addition, we have also designed a novel MIA strategy that we coined as ensemble MIA, which combines the outputs of different MIAs to increase the attack accuracy while diminishing the false positive rate. Overall, one of our main objectives is also to show that the research on privacy attacks can also be leveraged "for good" by helping to address practical challenges encountered in animal ecology.
翻訳日:2023-03-01 15:10:13 公開日:2023-02-28
# 量子チャネルの重ね合わせによる実験的コミュニケーション

Experimental Communication Through Superposition of Quantum Channels ( http://arxiv.org/abs/2302.14820v1 )

ライセンス: Link先を確認
Arthur O. T. Pang, Noah Lupu-Gladstein, Hugo Ferretti, Y. Batuhan Yilmaz, Aharon Brodutch, and Aephraim M. Steinberg(参考訳) チャネルのコヒーレント制御による情報キャパシティの強化は、チャネル因果順序のコヒーレント制御、チャネル重ね合わせ、情報エンコーディングの効果を探求する作業とともに、最近多くの注目を集めている。 コヒーレントに制御するチャネルは、キュービットチャネルを重畳するチャネル記述の非自明な拡張を必要とする。 本稿では,qubitチャネルの非分極化と関連する重畳チャネルとqutritチャネルによる最大コヒーレント情報の比較により,チャネルの重畳化に対するキャパシティエンハンスメントの性質について検討する。 重畳を使わずにキャパシティ・エンハンスメントを説明するには,拡張クォートチャネルの記述自体が十分であることを示す。

Information capacity enhancement through the coherent control of channels has attracted much attention of late, with work exploring the effect of coherent control of channel causal orders, channel superpositions, and information encoding. Coherently controlling channels necessitates a non-trivial expansion of the channel description, which for superposing qubit channels, is equivalent to expanding the channel to act on qutrits. Here we explore the nature of this capacity enhancement for the superposition of channels by comparing the maximum coherent information through depolarizing qubit channels and relevant superposed and qutrit channels. We show that the expanded qutrit channel description in itself is sufficient to explain the capacity enhancement without any use of superposition.
翻訳日:2023-03-01 15:04:27 公開日:2023-02-28
# 拡散モデルを用いた単眼深度推定

Monocular Depth Estimation using Diffusion Models ( http://arxiv.org/abs/2302.14816v1 )

ライセンス: Link先を確認
Saurabh Saxena, Abhishek Kar, Mohammad Norouzi, David J. Fleet(参考訳) 偏光拡散モデルを用いて単眼深度推定を定式化し、高忠実度画像生成における最近の成功に触発された。 そこで,本研究では,学習データにおけるノイズや不完全深度マップ,ステップアンロールデノナイジング拡散,損失$L_1,トレーニング中の深度埋め込みといった問題に対処するイノベーションを導入する。 教師付き訓練におけるデータの可用性の限界に対処するために,自己教師付き画像-画像間翻訳タスクの事前学習を利用する。 このアプローチの単純さと汎用的な損失とアーキテクチャにもかかわらず、深度モデルでは屋内nyuデータセットでsota性能を達成し、屋外kittiデータセットではsotaに近い結果が得られる。 さらに、マルチモーダル後方では、deepgenは自然に深さの曖昧さ(例えば透明な表面から)を表し、そのゼロショット性能と深さのインプテーションを組み合わせることで、シンプルで効果的なテキストから3dパイプラインを可能にする。 プロジェクトページ: https://depth-gen.github.io

We formulate monocular depth estimation using denoising diffusion models, inspired by their recent successes in high fidelity image generation. To that end, we introduce innovations to address problems arising due to noisy, incomplete depth maps in training data, including step-unrolled denoising diffusion, an $L_1$ loss, and depth infilling during training. To cope with the limited availability of data for supervised training, we leverage pre-training on self-supervised image-to-image translation tasks. Despite the simplicity of the approach, with a generic loss and architecture, our DepthGen model achieves SOTA performance on the indoor NYU dataset, and near SOTA results on the outdoor KITTI dataset. Further, with a multimodal posterior, DepthGen naturally represents depth ambiguity (e.g., from transparent surfaces), and its zero-shot performance combined with depth imputation, enable a simple but effective text-to-3D pipeline. Project page: https://depth-gen.github.io
翻訳日:2023-03-01 15:04:13 公開日:2023-02-28
# qSWIFT:ハミルトンシミュレーションのための高階ランダム化コンパイラ

qSWIFT: High-order randomized compiler for Hamiltonian simulation ( http://arxiv.org/abs/2302.14811v1 )

ライセンス: Link先を確認
Kouhei Nakaji, Mohsen Bagherimehrab, Alan Aspuru-Guzik(参考訳) ハミルトニアンシミュレーションは、最も直接的な応用、多体系をシミュレーションして物理特性を抽出するなど、様々な量子アルゴリズムの基本的な構成要素の1つとして知られている。 本研究では,ハミルトンシミュレーションのための高次ランダム化アルゴリズムqSWIFTを提案する。 qSWIFT では、与えられた精度のゲートの個数はハミルトンの項の数とは独立であり、体系的な誤差は順序パラメータに関して指数関数的に減少する。 この点において、我々のqswiftは、前述の量子確率ドリフトプロトコル(qdrift)の高次対応であり、そのゲート数は必要な精度の逆数で線形にスケールする。 ダイヤモンド標準を用いて,qSWIFTチャネルを構築し,体系的誤りに対する厳密な境界を確立する。 qSWIFTは、通常のトロッター・スズキ分解やqDRIFTのような他の製品-フォーミュラベースのアプローチと同じくらい単純な1つのアンシラ量子ビットを持つシステムを用いて、与えられた物理量を推定するアルゴリズムを提供する。 数値実験の結果,qSWIFTのゲート数はqDRIFTに比べて有意に減少した。 特に、高い精度が要求される問題では、例えば、系統的な相対的伝播誤差が10^{-6}$に達するためには、3次qSWIFTのゲート数は、qDRIFTの1000倍小さい。

Hamiltonian simulation is known to be one of the fundamental building blocks of a variety of quantum algorithms such as its most immediate application, that of simulating many-body systems to extract their physical properties. In this work, we present qSWIFT, a high-order randomized algorithm for Hamiltonian simulation. In qSWIFT, the required number of gates for a given precision is independent of the number of terms in Hamiltonian, while the systematic error is exponentially reduced with regards to the order parameter. In this respect, our qSWIFT is a higher-order counterpart of the previously proposed quantum stochastic drift protocol (qDRIFT), whose number of gates scales linearly with the inverse of the precision required. We construct the qSWIFT channel and establish a rigorous bound for the systematic error by using the diamond norm. qSWIFT provides an algorithm to estimate given physical quantities by using a system with one ancilla qubit, which is as simple as other product-formula-based approaches such as regular Trotter-Suzuki decompositions and qDRIFT. Our numerical experiment reveals that the required number of gates in qSWIFT is significantly reduced compared to qDRIFT. Particularly, the advantage is significant for problems where high precision is required; for example, to achieve a systematic relative propagation error of $10^{-6}$, the required number of gates in third-order qSWIFT is 1000 times smaller than that of qDRIFT.
翻訳日:2023-03-01 15:03:54 公開日:2023-02-28
# opto-unet:optical coherence tomographyにおける静脈静脈分画のための最適化unet

Opto-UNet: Optimized UNet for Segmentation of Varicose Veins in Optical Coherence Tomography ( http://arxiv.org/abs/2302.14808v1 )

ライセンス: Link先を確認
Maryam Viqar, Violeta Madjarova, Vipul Baghel, Elena Stoykova(参考訳) ヒトの静脈は体部から心臓へ血液を運ぶのに重要である。 ヒト静脈の不適切な機能は、いくつかの静脈疾患から生じる可能性がある。 水痘静脈は、血液の逆流が起こり得る病気の一つであり、静脈の構造の変化により静脈圧が上昇したり、血流が制限されたりする。 静脈瘤の機能的特性を調べるためには,静脈の物理的および生体力学的特性を検討することが重要である。 本研究は静脈壁構造のセグメンテーションのためのセグメンテーションモデルOpto-UNetを提案する。 光コヒーレンス・トモグラフィーは静脈静脈の画像取得に用いられている。 抽出された静脈は形状が均一ではないため,静脈壁の分画には適切な分画法が必要である。 Opto-UNetモデルはU-Netアーキテクチャに基づいており、新しいブロックをアーキテクチャに統合し、空間的に広い範囲と分離可能な特徴マップを抽出して高度な性能を得る。 さらに、深さワイド分離可能な畳み込みはパラメータ数を最適化することでネットワークの複雑さを著しく低減する。 このモデルは精度0.9830、感度0.8425、特異度0.9980、パラメータ8.54万である。 これらの結果から, 分画品質を低下させることなく, 静脈壁の分画に極めて有効なモデルであることが示唆された。

Human veins are important for carrying the blood from the body-parts to the heart. The improper functioning of the human veins may arise from several venous diseases. Varicose vein is one such disease wherein back flow of blood can occur, often resulting in increased venous pressure or restricted blood flow due to changes in the structure of vein. To examine the functional characteristics of the varicose vein, it is crucial to study the physical and bio mechanical properties of the vein. This work proposes a segmentation model Opto-UNet, for segmenting the venous wall structure. Optical Coherence Tomography system is used to acquire images of varicose vein. As the extracted vein is not uniform in shape, hence adequate method of segmentation is required to segment the venous wall. Opto-UNet model is based on the U-Net architecture wherein a new block is integrated into the architecture, employing atrous and separable convolution to extract spatially wide-range and separable features maps for attaining advanced performance. Furthermore, the depth wise separable convolution significantly reduces the complexity of the network by optimizing the number of parameters. The model achieves accuracy of 0.9830, sensitivity of 0.8425 and specificity of 0.9980 using 8.54 million number of parameters. These results indicate that model is highly adequate in segmenting the varicose vein wall without deteriorating the segmentation quality along with reduced complexity
翻訳日:2023-03-01 15:03:28 公開日:2023-02-28
# DFR-FastMOT:センサフュージョンに基づく高速多物体追跡のための耐故障トラッカー

DFR-FastMOT: Detection Failure Resistant Tracker for Fast Multi-Object Tracking Based on Sensor Fusion ( http://arxiv.org/abs/2302.14807v1 )

ライセンス: Link先を確認
Mohamed Nagy, Majid Khonji, Jorge Dias and Sajid Javed(参考訳) 永続多物体追跡(MOT)により、自動運転車は高度にダイナミックな環境で安全に走行することができる。 MOTのよく知られた課題の1つは、オブジェクトがその後のフレームで観測不能になったときのオブジェクトの閉塞である。 現在のMOTメソッドは、オブジェクトの軌跡のようなオブジェクト情報を内部メモリに格納し、閉塞後のオブジェクトを復元する。 しかし、計算時間を節約し、MOTメソッドを遅くするのを避けるために、短期記憶を保持する。 結果として、いくつかの閉塞シナリオ、特に長いシナリオにおいて、オブジェクトの追跡を失う。 本稿では,dfr-fastmotを提案する。カメラとlidarセンサーからのデータを用いて,物体の結合と融合のための代数的定式化を行う軽量mot手法である。 この定式化は計算時間を増加させ、より多くの閉塞シナリオに取り組む長期記憶を可能にする。 提案手法は,最近の学習および非学習ベンチマークと比較して,それぞれ3%,4%のマージンで優れた追跡性能を示す。 また,種々の歪みレベルの検出器を用いて咬合現象をシミュレートする実験を行った。 提案手法は,現在の最先端手法による検出において,様々な歪みレベル下での優れた性能を実現する。 私たちのフレームワークは、1.48秒で約7,763フレームを処理します。 このフレームワークはhttps://github.com/MohamedNagyMostafa/DFR-FastMOT.comから入手できる。

Persistent multi-object tracking (MOT) allows autonomous vehicles to navigate safely in highly dynamic environments. One of the well-known challenges in MOT is object occlusion when an object becomes unobservant for subsequent frames. The current MOT methods store objects information, like objects' trajectory, in internal memory to recover the objects after occlusions. However, they retain short-term memory to save computational time and avoid slowing down the MOT method. As a result, they lose track of objects in some occlusion scenarios, particularly long ones. In this paper, we propose DFR-FastMOT, a light MOT method that uses data from a camera and LiDAR sensors and relies on an algebraic formulation for object association and fusion. The formulation boosts the computational time and permits long-term memory that tackles more occlusion scenarios. Our method shows outstanding tracking performance over recent learning and non-learning benchmarks with about 3% and 4% margin in MOTA, respectively. Also, we conduct extensive experiments that simulate occlusion phenomena by employing detectors with various distortion levels. The proposed solution enables superior performance under various distortion levels in detection over current state-of-art methods. Our framework processes about 7,763 frames in 1.48 seconds, which is seven times faster than recent benchmarks. The framework will be available at https://github.com/MohamedNagyMostafa/DFR-FastMOT.
翻訳日:2023-03-01 15:03:07 公開日:2023-02-28
# Frameletメッセージパッシング

Framelet Message Passing ( http://arxiv.org/abs/2302.14806v1 )

ライセンス: Link先を確認
Xinliang Liu, Bingxin Zhou, Chutian Zhang, Yu Guang Wang(参考訳) グラフニューラルネットワーク(GNN)は、幅広いアプリケーションでチャンピオンを獲得している。 ニューラルメッセージパッシング(Neural message passing)は、隣り合う機能の集約による機能の伝搬のための典型的なキーモジュールである。 本研究では,マルチスケールのフレームレット変換に基づく新しいメッセージパッシングを提案する。 従来の空間的手法とは異なり、複数のホップから隣接ノードのフレームレット表現をノードメッセージ更新に統合する。 また,ニューラルODEソルバを用いた連続メッセージパッシングを提案する。 離散ケースと連続ケースの両方がネットワークの安定性を実現し、フレームレットのマルチスケール性によってオーバースムーシングを制限できる。 実グラフデータセットの数値実験により、フレームレットメッセージパッシングの連続バージョンは、異種グラフを学習する際に既存の手法よりも著しく優れており、計算コストの低い古典ノード分類タスクにおける最先端のパフォーマンスを実現する。

Graph neural networks (GNNs) have achieved champion in wide applications. Neural message passing is a typical key module for feature propagation by aggregating neighboring features. In this work, we propose a new message passing based on multiscale framelet transforms, called Framelet Message Passing. Different from traditional spatial methods, it integrates framelet representation of neighbor nodes from multiple hops away in node message update. We also propose a continuous message passing using neural ODE solvers. It turns both discrete and continuous cases can provably achieve network stability and limit oversmoothing due to the multiscale property of framelets. Numerical experiments on real graph datasets show that the continuous version of the framelet message passing significantly outperforms existing methods when learning heterogeneous graphs and achieves state-of-the-art performance on classic node classification tasks with low computational costs.
翻訳日:2023-03-01 15:02:46 公開日:2023-02-28
# キノダイナミックシステムのための学習リスクメトリックマップ

Learned Risk Metric Maps for Kinodynamic Systems ( http://arxiv.org/abs/2302.14803v1 )

ライセンス: Link先を確認
Ross Allen, Wei Xiao, Daniela Rus(参考訳) 本研究では,非構造的,部分的に観察された環境下で動作する高次元力学系のコヒーレントリスクメトリクスをリアルタイムに推定するためのLearted Risk Metric Maps(LRMM)を提案する。 LRMMモデルは、設計と訓練が簡単で、障害物セットの手続き的な生成、状態と制御のサンプリング、関数近似器の教師付きトレーニングしか必要とせず、任意のシステムダイナミクスや障害物セットに広く適用できる。 並列自律運転環境では, 高速走行する車型ロボットの衝突確率を素早く推定するモデルの能力を示し, lrmmエージェントが衝突を回避し, 衝突を回避できることを示す。 本稿では、制御障壁関数(CBF)とハミルトン・ヤコビ到達可能性(HJリーチ)に基づいて、LRMMが代替安全アルゴリズムの20~100倍の速度でリスクメトリクスを評価することを示し、LRMMエージェントによる障害物衝突をCBFやHJリーチよりも5~15倍少なくすることを示した。 この性能改善は、LRMMモデルが障害の局所的・部分的観察のみにしかアクセスできないのに対して、CBFおよびHJ-リーチエージェントは特権的・グローバルな情報を与える。 また, 本モデルは, 遮蔽屋内環境で動作する12次元四重子システム上で等しく訓練できることを示した。 LRMMのコードベースはhttps://github.com/mit-drl/pyrmmにある。

We present Learned Risk Metric Maps (LRMM) for real-time estimation of coherent risk metrics of high dimensional dynamical systems operating in unstructured, partially observed environments. LRMM models are simple to design and train -- requiring only procedural generation of obstacle sets, state and control sampling, and supervised training of a function approximator -- which makes them broadly applicable to arbitrary system dynamics and obstacle sets. In a parallel autonomy setting, we demonstrate the model's ability to rapidly infer collision probabilities of a fast-moving car-like robot driving recklessly in an obstructed environment; allowing the LRMM agent to intervene, take control of the vehicle, and avoid collisions. In this time-critical scenario, we show that LRMMs can evaluate risk metrics 20-100x times faster than alternative safety algorithms based on control barrier functions (CBFs) and Hamilton-Jacobi reachability (HJ-reach), leading to 5-15\% fewer obstacle collisions by the LRMM agent than CBFs and HJ-reach. This performance improvement comes in spite of the fact that the LRMM model only has access to local/partial observation of obstacles, whereas the CBF and HJ-reach agents are granted privileged/global information. We also show that our model can be equally well trained on a 12-dimensional quadrotor system operating in an obstructed indoor environment. The LRMM codebase is provided at https://github.com/mit-drl/pyrmm.
翻訳日:2023-03-01 15:02:31 公開日:2023-02-28
# テレポーテーションと高密度符号化の双対性について

On the Duality of Teleportation and Dense Coding ( http://arxiv.org/abs/2302.14798v1 )

ライセンス: Link先を確認
Eric Chitambar and Felix Leditzky(参考訳) 量子テレポーテーション(quantum teleportation)は、事前共有された絡み合いと一方通行の古典的通信を用いて長距離量子チャネルを構築する量子通信プリミティブである。 しかし、確立されたチャネルの品質は、事前共有されたエンタングルメントの品質に大きく依存する。 本研究では,テレポーテーションのタスクにノイズの絡み合いを用いる問題を再検討する。 まず,この問題を状態差別問題として再評価する方法を示す。 本稿では,各Alice-to-BobテレポーテーションプロトコルをBob-to-Alice高密度符号化プロトコルとして再利用し,各プロトコルの品質を同一状態判別問題における成功確率で測定する,という方法を提案する。 私たちの主な結果の1つは、古典的な状態に対する一方通行のテレポーテーションプロトコルに何の利点も与えない状態の完全な特徴付けを提供し、そのような状態を特定するという長年のオープン問題に対する新しい興味をそそる視点を提供します。 これはまた、束縛された状態が古典的なテレポーテーションしきい値を超えることができないという既知の事実の新たな証明をもたらす。 さらに, テレポーテーションと高密度符号化の2重性は, 全く同じ状態が高密度符号化に非古典的利点を与えることができないことを示すために有効である。 また、通信容量の観点からの双対性についても論じ、関連するテレポーテーションプロトコルの完全性の観点から、高密度符号化プロトコルのアクセス可能な情報に対する上下境界を導出する。 この議論の系譜は、束縛されたエンタングル状態が密結合コーディングにおいて何の利点も与えないという、以前に確立された事実の単純な証明である。

Quantum teleportation is a quantum communication primitive that allows a long-distance quantum channel to be built using pre-shared entanglement and one-way classical communication. However, the quality of the established channel crucially depends on the quality of the pre-shared entanglement. In this work, we revisit the problem of using noisy entanglement for the task of teleportation. We first show how this problem can be rephrased as a state discrimination problem. In this picture, a quantitative duality between teleportation and dense coding emerges in which every Alice-to-Bob teleportation protocol can be repurposed as a Bob-to-Alice dense coding protocol, and the quality of each protocol can be measured by the success probability in the same state discrimination problem. One of our main results provides a complete characterization of the states that offer no advantage in one-way teleportation protocols over classical states, thereby offering a new and intriguing perspective on the long-standing open problem of identifying such states. This also yields a new proof of the known fact that bound entangled states cannot exceed the classical teleportation threshold. Moreover, our established duality between teleportation and dense coding can be used to show that the exact same states are unable to provide a non-classical advantage for dense coding as well. We also discuss the duality from a communication capacity point of view, deriving upper and lower bounds on the accessible information of a dense coding protocol in terms of the fidelity of its associated teleportation protocol. A corollary of this discussion is a simple proof of the previously established fact that bound entangled states do not provide any advantage in dense coding.
翻訳日:2023-03-01 15:02:04 公開日:2023-02-28
# 粒子を用いたオンラインベイズサンプリング

Particle-based Online Bayesian Sampling ( http://arxiv.org/abs/2302.14796v1 )

ライセンス: Link先を確認
Yifan Yang, Chang Liu, Zheng Zhang(参考訳) 実世界のストリーミングデータを追跡する能力により、オンライン最適化への関心が高まっている。 オンライン最適化手法は、頻繁な統計の設定において広く研究されているが、ベイジアンサンプリング問題によるオンライン最適化を考える研究はほとんどない。 本稿では,粒子の集合を用いて近似分布を表すオンライン粒子に基づく変分推論(OPVI)アルゴリズムについて検討する。 確率近似による勾配誤差を低減するために, ばらつきを低減するために, バッチサイズを増大させるサブ線形を含む。 動的に変化する目標後方の系列に対するopviアルゴリズムの性能を追跡するために,wasserstein勾配流の観点から,動的後悔を伴う詳細な理論的解析を行う。 合成およびベイジアンニューラルネットワーク実験により,提案アルゴリズムは既存のベイジアンサンプリング手法をオンライン環境に適用するよりも優れた結果が得られることが示された。

Online optimization has gained increasing interest due to its capability of tracking real-world streaming data. Although online optimization methods have been widely studied in the setting of frequentist statistics, few works have considered online optimization with the Bayesian sampling problem. In this paper, we study an Online Particle-based Variational Inference (OPVI) algorithm that uses a set of particles to represent the approximating distribution. To reduce the gradient error caused by the use of stochastic approximation, we include a sublinear increasing batch-size method to reduce the variance. To track the performance of the OPVI algorithm with respect to a sequence of dynamically changing target posterior, we provide a detailed theoretical analysis from the perspective of Wasserstein gradient flow with a dynamic regret. Synthetic and Bayesian Neural Network experiments show that the proposed algorithm achieves better results than naively applying existing Bayesian sampling methods in the online setting.
翻訳日:2023-03-01 15:01:33 公開日:2023-02-28
# Graph Convolutional Networks を用いたBi-Plane Angiography を用いた3次元冠動脈再建術

3D Coronary Vessel Reconstruction from Bi-Plane Angiography using Graph Convolutional Networks ( http://arxiv.org/abs/2302.14795v1 )

ライセンス: Link先を確認
Kit Mills Bransby, Vincenzo Tufaro, Murat Cap, Greg Slabaugh, Christos Bourantas, Qianni Zhang(参考訳) X線冠動脈造影(XCA)は冠動脈疾患の評価に用いられ、病変形態や重症度に関する貴重な情報を提供する。 しかしながら、XCA画像は2Dであるため、血管の可視化は制限される。 冠状血管の3次元再構築は複数の視点で行うことができるが,現在のソフトウェアでは結節境界検出が手作業で行われ,再現性が制限され処理時間が遅い。 本研究では,2次元xca画像を用いた高速3次元血管メッシュ再構成を実現する,新しい深層学習(dl)システムである3dangionetを提案する。 提案手法は,効率的なB3-UNetセグメンテーションネットワークとプロジェクションジオメトリを用いて粗いメッシュテンプレートを学習し,グラフ畳み込みネットワークを用いて変形する。 3DAngioNetは、同様の自動再構築方法より優れ、効率が向上し、分岐船のモデリングを可能にする。 このアプローチは、熟練した心科医が検証した最先端のソフトウェアを用いて検証された。

X-ray coronary angiography (XCA) is used to assess coronary artery disease and provides valuable information on lesion morphology and severity. However, XCA images are 2D and therefore limit visualisation of the vessel. 3D reconstruction of coronary vessels is possible using multiple views, however lumen border detection in current software is performed manually resulting in limited reproducibility and slow processing time. In this study we propose 3DAngioNet, a novel deep learning (DL) system that enables rapid 3D vessel mesh reconstruction using 2D XCA images from two views. Our approach learns a coarse mesh template using an EfficientB3-UNet segmentation network and projection geometries, and deforms it using a graph convolutional network. 3DAngioNet outperforms similar automated reconstruction methods, offers improved efficiency, and enables modelling of bifurcated vessels. The approach was validated using state-of-the-art software verified by skilled cardiologists.
翻訳日:2023-03-01 15:01:19 公開日:2023-02-28
# フォトニック量子ホール系におけるカイラル量子光学

Chiral quantum optics in the bulk of photonic quantum Hall systems ( http://arxiv.org/abs/2302.14863v1 )

ライセンス: Link先を確認
Daniele De Bernardis, Francesco Piccioli, Peter Rabl, and Iacopo Carusotto(参考訳) 2次元フォトニック格子系のバルクにおける光-物質相互作用について検討し,光子は合成磁場と直交合成電界の複合効果を受けることを示した。 この構成では、キラル導波路モードは格子のバルク領域に現れ、電子系における横ホール電流と直接類似している。 これらのモードに結合したエミッタの非マルコフダイナミクスを評価することにより、自発的に放出される光子の形状がほぼ完全に対称となる臨界結合条件を同定する。 この性質は、指向性で分散のない伝播と組み合わせて、時間依存的な制御に頼ることなく、別の遠方のエミッタによる光子の完全な再吸収を可能にする。 この機構は任意の面内合成ポテンシャルに一般化できるため、任意のキラル接続を持つ量子エミッタの再構成可能なネットワークを柔軟に実現することができる。

We study light-matter interactions in the bulk of a two-dimensional photonic lattice system, where photons are subject to the combined effect of a synthetic magnetic field and an orthogonal synthetic electric field. In this configuration, chiral waveguide modes appear in the bulk region of the lattice, in direct analogy to transverse Hall currents in electronic systems. By evaluating the non-Markovian dynamics of emitters that are coupled to those modes, we identify critical coupling conditions, under which the shape of the spontaneously emitted photons becomes almost fully symmetric. Combined with a directional, dispersionless propagation, this property enables a complete reabsorption of the photon by another distant emitter, without relying on any time-dependent control. We show that this mechanism can be generalized to arbitrary in-plane synthetic potentials, thereby enabling flexible realizations of re-configurable networks of quantum emitters with arbitrary chiral connectivity.
翻訳日:2023-03-01 14:54:57 公開日:2023-02-28
# 誤りのある学習から排除可能な暗号

Revocable Cryptography from Learning with Errors ( http://arxiv.org/abs/2302.14860v1 )

ライセンス: Link先を確認
Prabhanjan Ananth and Alexander Poremba and Vinod Vaikuntanathan(参考訳) 量子暗号はしばしば古典的に不可能である暗号プリミティブを構築するために量子情報のユニークな特徴を利用する。 本研究では,量子力学の非閉化原理と,鍵取り消し機能を備えた暗号スキームを設計する。 我々は、シークレットキーが量子状態として表現されるスキームを、シークレットキーが一度ユーザから取り消されたら、それらが以前と同じ機能を実行する能力を持たないことを保証して検討する。 我々は,疑似乱数関数,秘密鍵および公開鍵暗号,さらには完全な準同型暗号など,鍵要求機能を備えた基本的な暗号プリミティブを定義し,構築する。 我々のすべての構築の中心は、Dual-Regev暗号化スキーム(Gentry, Peikert, Vaikuntanathan, STOC 2008)を無効化するためのアプローチです。

Quantum cryptography leverages unique features of quantum information in order to construct cryptographic primitives that are oftentimes impossible classically. In this work, we build on the no-cloning principle of quantum mechanics and design cryptographic schemes with key-revocation capabilities. We consider schemes where secret keys are represented as quantum states with the guarantee that, once the secret key is successfully revoked from a user, they no longer have the ability to perform the same functionality as before. We define and construct several fundamental cryptographic primitives with key-revocation capabilities, namely pseudorandom functions, secret-key and public-key encryption, and even fully homomorphic encryption, assuming the quantum subexponential hardness of the learning with errors problem. Central to all our constructions is our approach for making the Dual-Regev encryption scheme (Gentry, Peikert and Vaikuntanathan, STOC 2008) revocable.
翻訳日:2023-03-01 14:54:40 公開日:2023-02-28
# BakedSDF:リアルタイムビュー合成のためのニューラルネットワークSDF

BakedSDF: Meshing Neural SDFs for Real-Time View Synthesis ( http://arxiv.org/abs/2302.14859v1 )

ライセンス: Link先を確認
Lior Yariv, Peter Hedman, Christian Reiser, Dor Verbin, Pratul P. Srinivasan, Richard Szeliski, Jonathan T. Barron, Ben Mildenhall(参考訳) 本稿では,フォトリアリスティックなノベルビューの合成に適した大規模非拘束現実世界シーンの高品質メッシュを再構築する手法を提案する。 まず,シーン内の表面に対応する高度レベル集合を持つように設計された,ハイブリッドニューラルボリューム・サーフェス・シーン表現を最適化する。 そして、この表現を高品質な三角形メッシュに焼き込み、球面ガウスに基づく、シンプルで高速なビュー依存の外観モデルと組み合わせる。 最後に, この焼成表現を最適に最適化して, 得られた視点を最適に再現し, 高速化されたポリゴンラスタライゼーションパイプラインを利用して, 商品ハードウェア上でのリアルタイムなビュー合成を行うモデルを提案する。 提案手法は,実時間レンダリングの精度,速度,消費電力の面で,従来のシーン表現を上回り,外観編集や物理シミュレーションなどのアプリケーションを可能にする高品質メッシュを生成する。

We present a method for reconstructing high-quality meshes of large unbounded real-world scenes suitable for photorealistic novel view synthesis. We first optimize a hybrid neural volume-surface scene representation designed to have well-behaved level sets that correspond to surfaces in the scene. We then bake this representation into a high-quality triangle mesh, which we equip with a simple and fast view-dependent appearance model based on spherical Gaussians. Finally, we optimize this baked representation to best reproduce the captured viewpoints, resulting in a model that can leverage accelerated polygon rasterization pipelines for real-time view synthesis on commodity hardware. Our approach outperforms previous scene representations for real-time rendering in terms of accuracy, speed, and power consumption, and produces high quality meshes that enable applications such as appearance editing and physical simulation.
翻訳日:2023-03-01 14:54:23 公開日:2023-02-28
# ハーフスペースのための効率的なテスタリーナー

An Efficient Tester-Learner for Halfspaces ( http://arxiv.org/abs/2302.14853v1 )

ライセンス: Link先を確認
Aravind Gollakota, Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan(参考訳) 最近rubinfeld と vasilyan (2023) によって定義されたテスト可能な学習モデルにおいて、ハーフスペースを学習するための最初の効率的なアルゴリズムを与える。 このモデルでは、学習者は、トレーニングセットが関連するテストに合格すると、その出力仮説の精度がほぼ最適であると確認し、目標分布(例えばガウス分布)から引き出されたトレーニングセットがテストに合格しなければならない。 このモデルは分布固有の非依存ノイズモデルやマッサートノイズモデルよりも困難であり、分布仮説が成立しない場合には学習者が任意に失敗することが許される。 対象分布がガウス分布(あるいはより一般的には強対流分布)であるような設定をd$次元で考慮し、ノイズモデルはマスアートまたは逆(非依存)である。 マッサートノイズに対して、テストレーナーは多項式時間で実行し、情報理論上最適である誤差 $\mathsf{opt} + \epsilon$ で仮説を出力する。 反対のノイズに対して、テスト担当者はエラー$\tilde{o}(\mathsf{opt}) + \epsilon$ を持ち、準多項時間で実行します。 テスト可能な学習に関する先行研究は、トレーニングセットのラベルを無視して、共変量の経験的モーメントがベース分布のモーメントに近いことをチェックする。 ここでは,ラベルを批判的に利用し,gollakotaらによるモーメントマッチングアプローチ(2023年)と組み合わせた,独立した関心の新たなテストを開発する。 これにより、非凸SGDを用いてノイズの多いハーフスペースを学習するために、Diakonikolas et al. (2020) のアルゴリズムの変種をシミュレートすることができる。

We give the first efficient algorithm for learning halfspaces in the testable learning model recently defined by Rubinfeld and Vasilyan (2023). In this model, a learner certifies that the accuracy of its output hypothesis is near optimal whenever the training set passes an associated test, and training sets drawn from some target distribution -- e.g., the Gaussian -- must pass the test. This model is more challenging than distribution-specific agnostic or Massart noise models where the learner is allowed to fail arbitrarily if the distributional assumption does not hold. We consider the setting where the target distribution is Gaussian (or more generally any strongly log-concave distribution) in $d$ dimensions and the noise model is either Massart or adversarial (agnostic). For Massart noise our tester-learner runs in polynomial time and outputs a hypothesis with error $\mathsf{opt} + \epsilon$, which is information-theoretically optimal. For adversarial noise our tester-learner has error $\tilde{O}(\mathsf{opt}) + \epsilon$ and runs in quasipolynomial time. Prior work on testable learning ignores the labels in the training set and checks that the empirical moments of the covariates are close to the moments of the base distribution. Here we develop new tests of independent interest that make critical use of the labels and combine them with the moment-matching approach of Gollakota et al. (2023). This enables us to simulate a variant of the algorithm of Diakonikolas et al. (2020) for learning noisy halfspaces using nonconvex SGD but in the testable learning setting.
翻訳日:2023-03-01 14:54:06 公開日:2023-02-28
# 確率勾配法の高確率収束

High Probability Convergence of Stochastic Gradient Methods ( http://arxiv.org/abs/2302.14843v1 )

ライセンス: Link先を確認
Zijian Liu, Ta Duy Nguyen, Thien Hang Nguyen, Alina Ene, Huy L\^e Nguyen(参考訳) 本研究では,ガウス雑音による確率凸と非凸最適化の両方の確率の高い収束を示す一般的な手法について述べる。 凸最適化に関する以前の研究では、収束は期待値のみであり、境界は領域の直径に依存する。 代わりに、最適解への初期距離に依存して有界な高確率収束を示す。 アルゴリズムは標準設定に類似したステップサイズを使用し、リプシッツ関数や滑らかな関数、それらの線形結合に普遍的である。 この方法は非凸の場合に適用できる。 sgdでは$t$が未知である場合には$o((1+\sigma^{2}\log(1/\delta))/t+\sigma/\sqrt{t})$収束率を示し、1-\delta$が望ましい成功確率であるsgdでは$t$が未知である場合、$o((1+\sigma^{2}\log(t/\delta))/\sqrt{t})$収束率を示す。 これらの境界は、文献の既存の境界よりも改善される。 さらに,本手法は,前の研究から境界勾配の仮定を取り除いたアダグラードノルム (ward et al., 2019) に対する高い確率バウンドが得られることを示す。 さらに、AdaGrad-Norm の手法は、標準のコーディネート AdaGrad アルゴリズム (Duchi et al., 2011) にまで拡張され、AdaGrad に対する最初の雑音適応高確率収束を提供する。

In this work, we describe a generic approach to show convergence with high probability for both stochastic convex and non-convex optimization with sub-Gaussian noise. In previous works for convex optimization, either the convergence is only in expectation or the bound depends on the diameter of the domain. Instead, we show high probability convergence with bounds depending on the initial distance to the optimal solution. The algorithms use step sizes analogous to the standard settings and are universal to Lipschitz functions, smooth functions, and their linear combinations. This method can be applied to the non-convex case. We demonstrate an $O((1+\sigma^{2}\log(1/\delta))/T+\sigma/\sqrt{T})$ convergence rate when the number of iterations $T$ is known and an $O((1+\sigma^{2}\log(T/\delta))/\sqrt{T})$ convergence rate when $T$ is unknown for SGD, where $1-\delta$ is the desired success probability. These bounds improve over existing bounds in the literature. Additionally, we demonstrate that our techniques can be used to obtain high probability bound for AdaGrad-Norm (Ward et al., 2019) that removes the bounded gradients assumption from previous works. Furthermore, our technique for AdaGrad-Norm extends to the standard per-coordinate AdaGrad algorithm (Duchi et al., 2011), providing the first noise-adapted high probability convergence for AdaGrad.
翻訳日:2023-03-01 14:53:33 公開日:2023-02-28
# EvoPrompting: コードレベルのニューラルアーキテクチャ検索のための言語モデル

EvoPrompting: Language Models for Code-Level Neural Architecture Search ( http://arxiv.org/abs/2302.14838v1 )

ライセンス: Link先を確認
Angelica Chen, David M. Dohan, David R. So(参考訳) コード生成のための言語モデル(lms)の最近の印象的な成果を踏まえ、進化的ニューラルアーキテクチャ探索(nas)アルゴリズムの適応的変異とクロスオーバー演算子としてのlmsの使用について検討する。 nasは、プロンプトのみを通じてlmsが成功するには、まだタスクが難しいことを証明していますが、進化的プロンプトエンジニアリングとソフトプロンプトチューニングの組み合わせは、私たちが"evoprompting"と呼ぶ方法であり、一貫して多様でハイパフォーマンスなモデルを見つけることが分かりました。 最初に、EvoPromptingは、人間の専門家が設計したものと、精度とモデルサイズの両方で数発のプロンプトの両方を上回り、畳み込みアーキテクチャの変種を生成する、計算効率の良いMNIST-1Dデータセットに有効であることを示す。 次に,提案手法をCLRS Algorithmic Reasoning Benchmark上でグラフニューラルネットワークの探索に適用する。EvoPromptingは,同モデルサイズを維持しながら,30のアルゴリズム推論タスク中21の最先端モデルよりも優れた,新しいアーキテクチャを設計することができる。 EvoPromptingは、さまざまな機械学習タスクにわたる正確で効率的なニューラルネットワークアーキテクチャの設計に成功し、ニューラルネットワーク設計以外のタスクへの容易に適応できるような汎用性も備えている。

Given the recent impressive accomplishments of language models (LMs) for code generation, we explore the use of LMs as adaptive mutation and crossover operators for an evolutionary neural architecture search (NAS) algorithm. While NAS still proves too difficult a task for LMs to succeed at solely through prompting, we find that the combination of evolutionary prompt engineering with soft prompt-tuning, a method we term EvoPrompting, consistently finds diverse and high performing models. We first demonstrate that EvoPrompting is effective on the computationally efficient MNIST-1D dataset, where EvoPrompting produces convolutional architecture variants that outperform both those designed by human experts and naive few-shot prompting in terms of accuracy and model size. We then apply our method to searching for graph neural networks on the CLRS Algorithmic Reasoning Benchmark, where EvoPrompting is able to design novel architectures that outperform current state-of-the-art models on 21 out of 30 algorithmic reasoning tasks while maintaining similar model size. EvoPrompting is successful at designing accurate and efficient neural network architectures across a variety of machine learning tasks, while also being general enough for easy adaptation to other tasks beyond neural network design.
翻訳日:2023-03-01 14:53:01 公開日:2023-02-28
# エチオピアにおける温度・リモートセンシングデータを用いた貧困予測のための新しい機械学習手法

Novel Machine Learning Approach for Predicting Poverty using Temperature and Remote Sensing Data in Ethiopia ( http://arxiv.org/abs/2302.14835v1 )

ライセンス: Link先を確認
Om Shah and Krti Tallam(参考訳) 多くの発展途上国では、貧困データがないため、重要な人道的組織は大規模な危機に対応できない。 現在、社会経済調査は、貧困を計測し追跡する組織や研究者にとって、大規模に実施されている唯一の方法である。 しかし, 調査データを効率的にかつ安価に収集できないことは, 貧困データに時間的ギャップを生じさせる。 本研究では,表面温度変化とリモートセンシングデータに基づく移動学習モデルを提案し,貧困率の予測に有用な特徴を抽出する。 貧困指標のデータソースによって支持される機械学習は、厳しい時間制約の中で、貧困率を正確に推定する可能性がある。 気候変動の結果として、高温は農業の障害、社会経済的問題、環境破壊を引き起こし、発展途上国の家族を貧困のサイクルに閉じ込めている。 空間的貧困率に最も影響を及ぼす気温に関連する貧困パターンを見つけるために,リモートセンシングデータを用いる。 2段階移動モデルは、高解像度衛星画像から温度デルタを予測し、貧困予測に有用な画像特徴を抽出する。 その結果, 温度予測精度は80%向上した。 本手法は,既存の調査手法に匹敵する方法で貧困を計測するために衛星データと温度データを利用し,類似した貧困予測モデルを超える。

In many developing nations, a lack of poverty data prevents critical humanitarian organizations from responding to large-scale crises. Currently, socioeconomic surveys are the only method implemented on a large scale for organizations and researchers to measure and track poverty. However, the inability to collect survey data efficiently and inexpensively leads to significant temporal gaps in poverty data; these gaps severely limit the ability of organizational entities to address poverty at its root cause. We propose a transfer learning model based on surface temperature change and remote sensing data to extract features useful for predicting poverty rates. Machine learning, supported by data sources of poverty indicators, has the potential to estimate poverty rates accurately and within strict time constraints. Higher temperatures, as a result of climate change, have caused numerous agricultural obstacles, socioeconomic issues, and environmental disruptions, trapping families in developing countries in cycles of poverty. To find patterns of poverty relating to temperature that have the highest influence on spatial poverty rates, we use remote sensing data. The two-step transfer model predicts the temperature delta from high resolution satellite imagery and then extracts image features useful for predicting poverty. The resulting model achieved 80% accuracy on temperature prediction. This method takes advantage of abundant satellite and temperature data to measure poverty in a manner comparable to the existing survey methods and exceeds similar models of poverty prediction.
翻訳日:2023-03-01 14:52:34 公開日:2023-02-28
# オフライン強化学習による観察から自律艦隊の制御

Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning ( http://arxiv.org/abs/2302.14833v1 )

ライセンス: Link先を確認
Carolin Schmidt, Daniele Gammelli, Francisco Camara Pereira, Filipe Rodrigues(参考訳) 自律型モビリティ・オン・デマンド(Autonomous Mobility-on-Demand、AMoD)システムは、中央に調整された自動運転車群が移動要求を動的に行う、急速に進化する交通手段である。 これらのシステムの制御は、一般に大規模なネットワーク最適化問題として定式化され、強化学習(RL)は、この分野のオープンな課題を解決するための有望なアプローチとして最近登場した。 しかし、現在のrlベースのアプローチは、オンラインデータからの学習のみに焦点を当てており、現実世界の輸送システム内の相互作用のサンプルあたりのコストを基本的に無視している。 これらの制約に対処するために,オフライン強化学習のレンズを通してamodシステムの制御を定式化し,オフラインデータのみを通じて効果的な制御戦略を学習することを提案する。 我々はさらに設計決定を調査し,オフライン学習がamod制御ポリシーを回復させる方法を示す実世界のモビリティシステムに関する実験を行う。 (i)オンライン手法と同等のパフォーマンスを示す。 (ii)データ効率を大幅に向上させ、 (iii)複雑なシミュレーション環境の必要性を完全に排除する。 本稿では, オフライン強化学習が, モビリティシステムなどの経済的にクリティカルなシステムにRLベースのソリューションを適用する上で有望なパラダイムであることを示す。

Autonomous Mobility-on-Demand (AMoD) systems are a rapidly evolving mode of transportation in which a centrally coordinated fleet of self-driving vehicles dynamically serves travel requests. The control of these systems is typically formulated as a large network optimization problem, and reinforcement learning (RL) has recently emerged as a promising approach to solve the open challenges in this space. However, current RL-based approaches exclusively focus on learning from online data, fundamentally ignoring the per-sample-cost of interactions within real-world transportation systems. To address these limitations, we propose to formalize the control of AMoD systems through the lens of offline reinforcement learning and learn effective control strategies via solely offline data, thus readily available to current mobility operators. We further investigate design decisions and provide experiments on real-world mobility systems showing how offline learning allows to recover AMoD control policies that (i) exhibit performance on par with online methods, (ii) drastically improve data efficiency, and (iii) completely eliminate the need for complex simulated environments. Crucially, this paper demonstrates that offline reinforcement learning is a promising paradigm for the application of RL-based solutions within economically-critical systems, such as mobility systems.
翻訳日:2023-03-01 14:52:13 公開日:2023-02-28
# FacEDiM:乳牛の生体認証のための顔埋め込み分布モデル

FacEDiM: A Face Embedding Distribution Model for Few-Shot Biometric Authentication of Cattle ( http://arxiv.org/abs/2302.14831v1 )

ライセンス: Link先を確認
Meshia C\'edric Oveneke, Rucha Vaishampayan, Deogratias Lukamba Nsadisa, Jenny Ambukiyenyi Onya(参考訳) 本研究は, プレトレーニングCNNを用いて得られたトレーニング埋め込みの多変量ガウス分布と試験埋め込みのマハラノビス距離を計算することで, バイオメトリック認証の課題を解決することを提案する。 実験の結果,ImageNetデータセット上で事前学習したモデルは,人間の顔上で事前学習したモデルよりも有意に優れていた。 VGG16モデルを用いて、20頭の牛の身元のデータセットから、FARが1.25%のFRRを1.18%取得する。

This work proposes to solve the problem of few-shot biometric authentication by computing the Mahalanobis distance between testing embeddings and a multivariate Gaussian distribution of training embeddings obtained using pre-trained CNNs. Experimental results show that models pre-trained on the ImageNet dataset significantly outperform models pre-trained on human faces. With a VGG16 model, we obtain a FRR of 1.18% for a FAR of 1.25% on a dataset of 20 cattle identities.
翻訳日:2023-03-01 14:51:48 公開日:2023-02-28
# 大規模言語モデルによるドリームレポートの感情内容の自動抽出

Automatic Scoring of Dream Reports' Emotional Content with Large Language Models ( http://arxiv.org/abs/2302.14828v1 )

ライセンス: Link先を確認
Lorenzo Bertolini, Valentina Elce, Adriana Michalak, Giulio Bernardi, Julie Weeds(参考訳) ドリーム研究の分野では、夢の内容の研究は一般的に、睡眠から目覚めたときに夢師が提供した言葉による報告の分析に依存する。 この作業は、訓練された注釈者によって提供される手作業によるスコアリングによって、非常に長い時間をかけて古典的に行われる。 一貫した研究は、自然言語処理(NLP)ツールが夢のレポートの自動解析をサポートすることを示唆しているが、提案手法にはレポートの全コンテキストを推論する能力がなく、広範なデータ前処理が必要であった。 さらに、たいていの場合、これらの手法は標準的な手動採点手法に対して検証されなかった。 そこで本研究では,本論文では,本論文の自発的アプローチと自発的アプローチの混合を用いて,ドリームレポートの手動アノテーションを学習・再現するために,大規模言語モデル(llm)を採用することで,これらの制約に対処する。 その結果,本手法は,個人別(集団別)に収集したレポート間の言語的差異を考慮し,低性能を達成できることが示唆された。 一方,提案手法は,潜在的なバイアスに対して頑健な高い性能を実現する。 全体として,本手法は大規模ドリームデータセットの解析に応用できる可能性を示し,結果の再現性と比較可能性に寄与する可能性が示唆された。

In the field of dream research, the study of dream content typically relies on the analysis of verbal reports provided by dreamers upon awakening from their sleep. This task is classically performed through manual scoring provided by trained annotators, at a great time expense. While a consistent body of work suggests that natural language processing (NLP) tools can support the automatic analysis of dream reports, proposed methods lacked the ability to reason over a report's full context and required extensive data pre-processing. Furthermore, in most cases, these methods were not validated against standard manual scoring approaches. In this work, we address these limitations by adopting large language models (LLMs) to study and replicate the manual annotation of dream reports, using a mixture of off-the-shelf and bespoke approaches, with a focus on references to reports' emotions. Our results show that the off-the-shelf method achieves a low performance probably in light of inherent linguistic differences between reports collected in different (groups of) individuals. On the other hand, the proposed bespoke text classification method achieves a high performance, which is robust against potential biases. Overall, these observations indicate that our approach could find application in the analysis of large dream datasets and may favour reproducibility and comparability of results across studies.
翻訳日:2023-03-01 14:51:37 公開日:2023-02-28
# ChatAug: テキストデータ拡張にChatGPTを活用する

ChatAug: Leveraging ChatGPT for Text Data Augmentation ( http://arxiv.org/abs/2302.13007v2 )

ライセンス: Link先を確認
Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Zihao Wu, Lin Zhao, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li(参考訳) テキストデータ拡張は、多くの自然言語処理(nlp)タスクにおける限られたサンプルサイズの課題を克服するための効果的な戦略である。 この課題は、ターゲット領域のデータが一般的に不足し、品質が低下する、少数の学習シナリオにおいて特に顕著である。 このような課題を緩和するための自然で広く利用されている戦略は、トレーニングデータに対するデータ拡張を実行し、データの不変性をよりよく捉え、サンプルサイズを増加させることである。 しかし、現在のテキストデータ拡張法は、生成されたデータの正しいラベル付けを保証できないか、または、生成されたデータの十分な多様性を保証できないか、または両方である。 本研究では,近年の大規模言語モデル,特にchatgptの開発に触発されて言語理解能力の向上を実証し,chatgpt(chataug)に基づくテキストデータ拡張手法を提案する。 ChatGPTは、非並列な言語的豊かさを持つデータに基づいて訓練され、大規模な人間のフィードバックによる強化トレーニングプロセスを採用し、人間の言語に親和性を持つモデルを提供する。 テキストデータ拡張アプローチchataugは、トレーニングサンプルの各文を、概念的に類似するが意味的に異なる複数のサンプルに分割する。 拡張されたサンプルは、下流モデルのトレーニングで使用できる。 少数の学習テキスト分類タスクにおける実験結果から,提案手法の精度と拡張サンプルの分布の観点から,最先端テキストデータ拡張法よりも優れた性能を示す。

Text data augmentation is an effective strategy for overcoming the challenge of limited sample sizes in many natural language processing (NLP) tasks. This challenge is especially prominent in the few-shot learning scenario, where the data in the target domain is generally much scarcer and of lowered quality. A natural and widely-used strategy to mitigate such challenges is to perform data augmentation on the training data to better capture the data invariance and increase the sample size. However, current text data augmentation methods either can not ensure the correct labeling of the generated data (lacking faithfulness) or can not ensure sufficient diversity in the generated data (lacking completeness), or both. Inspired by the recent success of large language models, especially the development of ChatGPT, which demonstrated improved language comprehension abilities, in this work, we propose a text data augmentation approach based on ChatGPT (named ChatAug). ChatGPT is trained on data with unparalleled linguistic richness and employs a reinforcement training process with large-scale human feedback, which endows the model with affinity to the naturalness of human language. Our text data augmentation approach ChatAug rephrases each sentence in the training samples into multiple conceptually similar but semantically different samples. The augmented samples can then be used in downstream model training. Experiment results on few-shot learning text classification tasks show the superior performance of the proposed ChatAug approach over state-of-the-art text data augmentation methods in terms of testing accuracy and distribution of the augmented samples.
翻訳日:2023-03-01 12:38:02 公開日:2023-02-28
# 学習したコンパクトメタデータを用いた生画像再構成

Raw Image Reconstruction with Learned Compact Metadata ( http://arxiv.org/abs/2302.12995v2 )

ライセンス: Link先を確認
Yufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex Kot, Bihan Wen(参考訳) 生画像はsrgb画像よりも優れている(線形性や細粒度量子化レベルなど)が、大きなストレージ要件のため一般ユーザでは広く使われていない。 ごく最近の研究は、原画像画素空間のサンプリングマスクを設計することで生画像の圧縮を提案し、最適化された画像表現と冗長なメタデータをもたらす。 本稿では,エンドツーエンドでメタデータとして機能する潜在空間におけるコンパクト表現を学ぶための新しい枠組みを提案する。 さらに,エントロピー推定法を改良した新しいsRGB誘導コンテキストモデルを提案する。 提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てる方法について述べる。 実験により,非圧縮sRGB画像とJPEG画像の両方のメタデータのサイズを小さくして,より優れた生画像再構成結果が得られることを示した。

While raw images exhibit advantages over sRGB images (e.g., linearity and fine-grained quantization level), they are not widely used by common users due to the large storage requirements. Very recent works propose to compress raw images by designing the sampling masks in the raw image pixel space, leading to suboptimal image representations and redundant metadata. In this paper, we propose a novel framework to learn a compact representation in the latent space serving as the metadata in an end-to-end manner. Furthermore, we propose a novel sRGB-guided context model with improved entropy estimation strategies, which leads to better reconstruction quality, smaller size of metadata, and faster speed. We illustrate how the proposed raw image compression scheme can adaptively allocate more bits to image regions that are important from a global perspective. The experimental results show that the proposed method can achieve superior raw image reconstruction results using a smaller size of the metadata on both uncompressed sRGB images and JPEG images.
翻訳日:2023-03-01 12:37:38 公開日:2023-02-28
# 少数ショット感情音声認識のためのプレファイナリング

Pre-Finetuning for Few-Shot Emotional Speech Recognition ( http://arxiv.org/abs/2302.12921v2 )

ライセンス: Link先を確認
Maximillian Chen, Zhou Yu(参考訳) 音声モデルは、多くの分類タスクにおいて個々の話者に過剰に適合することが長年知られている。 これは、製品環境でよく見られるように、話者がドメイン外あるいは分散外である設定での一般化が貧弱になる。 我々は,話者適応を数ショットの学習問題とみなし,自然言語タスクにおける事前学習モデルによる近年の成功に触発された伝達学習アプローチを提案する。 そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。 我々は,4種類の感情音声認識コーパスのすべての順列にWav2Vec2.0をプリファインチューンし,感情音声データセットの33,600個の数ショットの微調整試行を通して,我々のプレファインチューンモデルを評価する。

Speech models have long been known to overfit individual speakers for many classification tasks. This leads to poor generalization in settings where the speakers are out-of-domain or out-of-distribution, as is common in production environments. We view speaker adaptation as a few-shot learning problem and propose investigating transfer learning approaches inspired by recent success with pre-trained models in natural language tasks. We propose pre-finetuning speech models on difficult tasks to distill knowledge into few-shot downstream classification objectives. We pre-finetune Wav2Vec2.0 on every permutation of four multiclass emotional speech recognition corpora and evaluate our pre-finetuned models through 33,600 few-shot fine-tuning trials on the Emotional Speech Dataset.
翻訳日:2023-03-01 12:37:23 公開日:2023-02-28
# ニオブ酸リチウムの誘電率と損失接点のミリケルビン測定

Milli-Kelvin measurements of permittivity and loss tangent of lithium niobate ( http://arxiv.org/abs/2302.12916v2 )

ライセンス: Link先を確認
Silvia Zorzetti, Changqing Wang, Ivan Gonin, Sergey Kazakov, Timergali Khabiboulline, Alexander Romanenko, Vyacheslav P Yakovlev, Anna Grassellino(参考訳) ニオブ酸リチウムは電子光学材料であり、マイクロ波信号処理、通信、量子センシング、量子コンピューティングに多くの応用がある。 本稿では, ニオブ酸リチウムのミリケルビン温度における複素電磁誘電率の評価について述べる。 7GHz帯で動作し, 異方性誘電体を特徴付ける超電導高周波キャビティを用いた共振方式を用いて測定を行った。 相対誘電率テンソルと損失接点は前例のない精度で50mkで測定される。

Lithium Niobate is an electro-optic material with many applications in microwave signal processing, communication, quantum sensing, and quantum computing. In this letter, we present findings on evaluating the complex electromagnetic permittivity of lithium niobate at milli-Kelvin temperatures. Measurements are carried out using a resonant-type method with a superconducting radio-frequency (SRF) cavity operating at 7 GHz and designed to characterize anisotropic dielectrics. The relative permittivity tensor and loss tangent are measured at 50 mK with unprecedented accuracy.
翻訳日:2023-03-01 12:37:10 公開日:2023-02-28
# スペイン語構築 Factual Freectianary (スペイン語-BFF):最初のAI生成自由辞書

Spanish Built Factual Freectianary (Spanish-BFF): the first AI-generated free dictionary ( http://arxiv.org/abs/2302.12746v2 )

ライセンス: Link先を確認
Miguel Ortega-Mart\'in, \'Oscar Garc\'ia-Sierra, Alfonso Ardoiz, Juan Carlos Armenteros, Jorge \'Alvarez and Adri\'an Alonso(参考訳) 辞書は最も古く、最も使われている言語資源の1つである。 それらを構築することは、私たちの知る限りでは、生成的大規模言語モデル(LLM)ではまだ検討されていない複雑なタスクです。 スペインでは、最初のAI生成辞書として「スペイン語構築Factual Freectianary」(スペイン語-BFF)を導入している。 この最初のフリー辞書はGPT-3を使用している。 また、さらなる言語など、この分野へのこの最初のコミットメントを改善するために、これから続くステップを定義します。

Dictionaries are one of the oldest and most used linguistic resources. Building them is a complex task that, to the best of our knowledge, has yet to be explored with generative Large Language Models (LLMs). We introduce the "Spanish Built Factual Freectianary" (Spanish-BFF) as the first Spanish AI-generated dictionary. This first-of-its-kind free dictionary uses GPT-3. We also define future steps we aim to follow to improve this initial commitment to the field, such as more additional languages.
翻訳日:2023-03-01 12:36:59 公開日:2023-02-28
# 英語以外の言語モデルの公平性:ギャップと課題

Fairness in Language Models Beyond English: Gaps and Challenges ( http://arxiv.org/abs/2302.12578v2 )

ライセンス: Link先を確認
Krithika Ramesh, Sunayana Sitaram, Monojit Choudhury(参考訳) 言語モデルがますますユビキタス化するにつれ、多様な人口集団や要因に対する不平等な扱いに対処することが不可欠になっている。 フェアネス障害の評価と緩和に関するほとんどの研究は英語に集中しているが、多言語モデルや非英語言語は比較的ほとんど注目されていない。 本稿では,多言語・非英語の文脈におけるフェアネスに関する調査を行い,現在の研究の欠点と,英語のための手法が直面する課題を明らかにする。 世界中の多種多様な文化や言語が、公平なデータセットの構築において包括的カバレッジを達成するのを困難にしている、と我々は主張する。 したがって、バイアスの測定と緩和は、特定の次元やバイアスの種類に限定した、現在のデータセット駆動のプラクティスを超えて進化しなければならず、そのため言語や文化にまたがるスケーリングは不可能である。

With language models becoming increasingly ubiquitous, it has become essential to address their inequitable treatment of diverse demographic groups and factors. Most research on evaluating and mitigating fairness harms has been concentrated on English, while multilingual models and non-English languages have received comparatively little attention. This paper presents a survey of fairness in multilingual and non-English contexts, highlighting the shortcomings of current research and the difficulties faced by methods designed for English. We contend that the multitude of diverse cultures and languages across the world makes it infeasible to achieve comprehensive coverage in terms of constructing fairness datasets. Thus, the measurement and mitigation of biases must evolve beyond the current dataset-driven practices that are narrowly focused on specific dimensions and types of biases and, therefore, impossible to scale across languages and cultures.
翻訳日:2023-03-01 12:36:50 公開日:2023-02-28
# TrafFormer: 長期トラフィック予測のためのトランスフォーマーモデル

TrafFormer: A Transformer Model for Predicting Long-term Traffic ( http://arxiv.org/abs/2302.12388v2 )

ライセンス: Link先を確認
David Alexander Tedjopurnomo, Farhana M. Choudhury, A. K. Qin(参考訳) 交通予測は、都市空間における人間の移動性の重要性から、繁栄する研究分野である。 それにもかかわらず、既存の研究は、数時間前の短期的な予測にのみ焦点を合わせており、ほとんどが1時間のみである。 長期交通予測は交通渋滞に対するより包括的で情報があり、予防的な対策を可能にするため、調査すべき重要な課題である。 本稿では,長期交通予測の課題について検討し,24時間前までの交通予測を行う。 本稿では,長期トラフィック予測のための再帰構造に基づく既存モデルの弱点に注目し,改良されたトランスフォーマーモデル ``TrafFormer を提案する。 我々のモデルと既存のハイブリッドニューラルネットワークモデルを比較する実験は、我々のモデルの優位性を示している。

Traffic prediction is a flourishing research field due to its importance in human mobility in the urban space. Despite this, existing studies only focus on short-term prediction of up to few hours in advance, with most being up to one hour only. Long-term traffic prediction can enable more comprehensive, informed, and proactive measures against traffic congestion and is therefore an important task to explore. In this paper, we explore the task of long-term traffic prediction; where we predict traffic up to 24 hours in advance. We note the weaknesses of existing models--which are based on recurrent structures--for long-term traffic prediction and propose a modified Transformer model ``TrafFormer". Experiments comparing our model with existing hybrid neural network models show the superiority of our model.
翻訳日:2023-03-01 12:36:12 公開日:2023-02-28
# コントラスト表現学習のための一般化分析

Generalization Analysis for Contrastive Representation Learning ( http://arxiv.org/abs/2302.12383v2 )

ライセンス: Link先を確認
Yunwen Lei, Tianbao Yang, Yiming Ying, Ding-Xuan Zhou(参考訳) 近年、対照的な学習は、さまざまな機械学習タスクの解決において、最先端の技術の進歩に顕著な成功を収めている。 しかし、既存の一般化分析は非常に限定的であるか、あるいは意味がない。 特に、既存の一般化誤差境界は負の例の$k$の数に線形に依存するが、実際にはダウンストリームタスクにおけるコントラスト学習のよい一般化を保証するためには、大きな$k$を選択する必要があることが広く示されている。 本稿では、対数項まで$k$に依存しないコントラスト学習のための新しい一般化境界を確立する。 本解析では,損失関数のリプシッツ連続性を活用するために,経験的被覆数とラドマシェ複素数に関する構造的結果を用いる。 自己拘束型リプシッツ損失関数については,低騒音下での高速速度を示す楽観的境界を発達させることにより,さらに改善する。 本稿では,ニューラルネットワークによる線形表現と非線形表現の両方の学習に適用し,Radecherの複雑性境界を導出して一般化境界を改良した。

Recently, contrastive learning has found impressive success in advancing the state of the art in solving various machine learning tasks. However, the existing generalization analysis is very limited or even not meaningful. In particular, the existing generalization error bounds depend linearly on the number $k$ of negative examples while it was widely shown in practice that choosing a large $k$ is necessary to guarantee good generalization of contrastive learning in downstream tasks. In this paper, we establish novel generalization bounds for contrastive learning which do not depend on $k$, up to logarithmic terms. Our analysis uses structural results on empirical covering numbers and Rademacher complexities to exploit the Lipschitz continuity of loss functions. For self-bounding Lipschitz loss functions, we further improve our results by developing optimistic bounds which imply fast rates in a low noise condition. We apply our results to learning with both linear representation and nonlinear representation by deep neural networks, for both of which we derive Rademacher complexity bounds to get improved generalization bounds.
翻訳日:2023-03-01 12:36:00 公開日:2023-02-28
# 正規化擬似ラベルによる自己学習の再検討

Revisiting Self-Training with Regularized Pseudo-Labeling for Tabular Data ( http://arxiv.org/abs/2302.14013v2 )

ライセンス: Link先を確認
Minwook Kim, Juseong Kim, Jose Bento, Giltae Song(参考訳) 半教師付き学習の最近の進歩は、機械学習のための膨大なラベル付きデータの必要性とラベルなしデータの無関係性に関する長年の信念に亀裂をもたらした。 様々なデータで成功を収めているが、表データに一般化できる支配的な半教師あり学習法はない(つまり、既存の方法の多くは適切な表型データセットとアーキテクチャを必要とする)。 本稿では,最も広く使われているアーキテクチャ,勾配ブースティング決定木を含む任意のアルゴリズムに適用可能な自己学習を再検討し,表型ドメインのカリキュラム擬似ラベル(画像における最先端の擬似ラベル技術)を導入する。 さらに、既存の擬似ラベル技術は、ラベルなしデータから生成された疑似ラベルの信頼度スコアを計算する場合、クラスタの仮定を保証しない。 そこで本研究では,高密度領域にあるより信頼性の高い疑似ラベルを得られるように,疑似ラベルの可能性に基づいて信頼度を正則化する,新しい擬似ラベル手法を提案する。 様々なモデルと表付きデータセットを用いて、アプローチの優位性を徹底的に検証する。

Recent progress in semi- and self-supervised learning has caused a rift in the long-held belief about the need for an enormous amount of labeled data for machine learning and the irrelevancy of unlabeled data. Although it has been successful in various data, there is no dominant semi- and self-supervised learning method that can be generalized for tabular data (i.e. most of the existing methods require appropriate tabular datasets and architectures). In this paper, we revisit self-training which can be applied to any kind of algorithm including the most widely used architecture, gradient boosting decision tree, and introduce curriculum pseudo-labeling (a state-of-the-art pseudo-labeling technique in image) for a tabular domain. Furthermore, existing pseudo-labeling techniques do not assure the cluster assumption when computing confidence scores of pseudo-labels generated from unlabeled data. To overcome this issue, we propose a novel pseudo-labeling approach that regularizes the confidence scores based on the likelihoods of the pseudo-labels so that more reliable pseudo-labels which lie in high density regions can be obtained. We exhaustively validate the superiority of our approaches using various models and tabular datasets.
翻訳日:2023-03-01 12:29:48 公開日:2023-02-28
# SpikeGPT:スパイクニューラルネットワークを用いた生成事前学習言語モデル

SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks ( http://arxiv.org/abs/2302.13939v2 )

ライセンス: Link先を確認
Rui-Jie Zhu, Qihang Zhao, Jason K. Eshraghian(参考訳) 大きな言語モデルのサイズが拡大し続けるにつれて、それを実行するのに必要な計算リソースも増えます。 スパイキングニューラルネットワーク(SNN)は、モデル推論に関連する計算オーバーヘッドを低減するためにスパースとイベント駆動のアクティベーションを活用するディープラーニングに対するエネルギー効率の高いアプローチとして登場した。 多くのコンピュータビジョンタスクにおける非スパイキングモデルと競合する一方で、SNNはトレーニングをより困難にしている。 その結果,それらの性能は現代のディープラーニングよりも遅れており,言語生成におけるSNNの有効性はまだ分かっていない。 本稿では,RWKV言語モデルに触発されて,純粋に二進的イベント駆動のスパイクアクティベーションユニットを持つ生成言語モデルである 'SpikeGPT' の実装に成功した。 提案したモデルは,45M,125M,260Mの3種類のモデルで学習する。 我々の知る限りでは、これは今までのどの機能的バックプロップ訓練SNNよりも4倍大きい。 本研究では,マルチヘッド自己注意を置換するために変圧器ブロックを変更し,2次計算複雑性を線形に削減し,シーケンス長を増加させる。 入力トークンは、通常のSNNのように)注意機構に順次ストリームされます。 予備実験により,SpikeGPTは,スパース,イベント駆動型アクティベーションを生かしたニューロモルフィックハードウェア上で処理した際のエネルギー消費量を5倍に抑えつつ,試験ベンチマーク上での非スパイキングモデルとの競争力を維持した。 私たちのコード実装はhttps://github.com/ridgerchu/spikegptで利用可能です。

As the size of large language models continue to scale, so does the computational resources required to run it. Spiking neural networks (SNNs) have emerged as an energy-efficient approach to deep learning that leverage sparse and event-driven activations to reduce the computational overhead associated with model inference. While they have become competitive with non-spiking models on many computer vision tasks, SNNs have also proven to be more challenging to train. As a result, their performance lags behind modern deep learning, and we are yet to see the effectiveness of SNNs in language generation. In this paper, inspired by the RWKV language model, we successfully implement `SpikeGPT', a generative language model with pure binary, event-driven spiking activation units. We train the proposed model on three model variants: 45M, 125M and 260M parameters. To the best of our knowledge, this is 4x larger than any functional backprop-trained SNN to date. We achieve this by modifying the transformer block to replace multi-head self attention to reduce quadratic computational complexity to linear with increasing sequence length. Input tokens are instead streamed in sequentially to our attention mechanism (as with typical SNNs). Our preliminary experiments show that SpikeGPT remains competitive with non-spiking models on tested benchmarks, while maintaining 5x less energy consumption when processed on neuromorphic hardware that can leverage sparse, event-driven activations. Our code implementation is available at https://github.com/ridgerchu/SpikeGPT.
翻訳日:2023-03-01 12:29:30 公開日:2023-02-28
# モード適応線形ユニット(MoLU)

Moderate Adaptive Linear Units (MoLU) ( http://arxiv.org/abs/2302.13696v2 )

ライセンス: Link先を確認
Hankyul Koh, Joon-hyuk Ko, Wonho Jhe(参考訳) 本稿では,ディープニューラルネットワークのための新しい高性能アクティベーション関数,中性適応線形単位(molu)を提案する。 MoLUはシンプルで美しく強力なアクティベーション関数であり、数百のアクティベーション関数の中で優れたメインアクティベーション関数となる。 molu は基本関数から成り立っているため、無限微分同相写像であるだけでなく(すなわち、領域全体にわたって滑らかかつ無限に微分可能である)、訓練時間を短縮する。

We propose a new high-performance activation function, Moderate Adaptive Linear Units (MoLU), for the deep neural network. The MoLU is a simple, beautiful and powerful activation function that can be a good main activation function among hundreds of activation functions. Because the MoLU is made up of the elementary functions, not only it is a infinite diffeomorphism (i.e. smooth and infinitely differentiable over whole domains), but also it decreases training time.
翻訳日:2023-03-01 12:29:00 公開日:2023-02-28
# 大規模な言語モデルをトレーニングするためのオープンソースコードの(ab)使用

The (ab)use of Open Source Code to Train Large Language Models ( http://arxiv.org/abs/2302.13681v2 )

ライセンス: Link先を確認
Ali Al-Kaswan and Maliheh Izadi(参考訳) 近年,Large Language Models (LLM) は,ヒューマンライクなテキストを生成する能力と,ソフトウェア工学などの様々な分野における潜在的な応用能力から,大きな人気を集めている。 LLM for Codeは一般にインターネットから取り除かれた大規模な無害なソースコードコーパスで訓練されている。 これらのデータセットの内容はモデルによって記憶され、しばしば口頭で出力される。 本研究では,記憶のセキュリティ,プライバシ,ライセンスの意義について論じる。 LLMのトレーニングにコピーレフトコードを使うことが法的かつ倫理的なジレンマである理由を論じる。 最後に、この問題に対処するために4つのアクション可能なレコメンデーションを提供します。

In recent years, Large Language Models (LLMs) have gained significant popularity due to their ability to generate human-like text and their potential applications in various fields, such as Software Engineering. LLMs for Code are commonly trained on large unsanitized corpora of source code scraped from the Internet. The content of these datasets is memorized and emitted by the models, often in a verbatim manner. In this work, we will discuss the security, privacy, and licensing implications of memorization. We argue why the use of copyleft code to train LLMs is a legal and ethical dilemma. Finally, we provide four actionable recommendations to address this issue.
翻訳日:2023-03-01 12:28:50 公開日:2023-02-28
# 中国の新しいデータ法の前と後: アプリのプライバシー

Before and after China's new Data Laws: Privacy in Apps ( http://arxiv.org/abs/2302.13585v2 )

ライセンス: Link先を確認
Konrad Kollnig and Lu Zhang and Jun Zhao and Nigel Shadbolt(参考訳) 多くのアプリが大量の機密情報を収集し共有するため、アプリのプライバシーは広く関心を集めている。 これに対し、中国は近年、個人情報保護法(Personal Information Protection Law:PIPL)など、さまざまな新しいデータ保護法を導入している。 これまでのところ、これらの新しい法律がアプリのプライバシー保護に与えた影響に関する研究は限られている。 このギャップに対処するために,本稿では,2020年初頭の1バージョンと2021年後半の1つのバージョンである,中国の634のiosアプリのペアによるデータ収集を分析する。 私たちの研究によると、多くのアプリが同意を実装している。 しかし、同意を拒否するエンドユーザーは、しばしばアプリから立ち去らざるを得なくなる。 アプリの数は少ないが、多くはトラッキングライブラリを統合している。 われわれの発見は、改善の余地のある中国のデータ規制における最初のイテレーションの特徴だと考えている。

Privacy in apps is a topic of widespread interest because many apps collect and share large amounts of highly sensitive information. In response, China introduced a range of new data protection laws over recent years, notably the Personal Information Protection Law (PIPL) in 2021. So far, there exists limited research on the impacts of these new laws on apps' privacy practices. To address this gap, this paper analyses data collection in pairs of 634 Chinese iOS apps, one version from early 2020 and one from late 2021. Our work finds that many more apps now implement consent. Yet, those end-users that decline consent will often be forced to exit the app. Fewer apps now collect data without consent but many still integrate tracking libraries. We see our findings as characteristic of a first iteration at Chinese data regulation with room for improvement.
翻訳日:2023-03-01 12:28:40 公開日:2023-02-28
# ニューラルグラフ露光器

Neural Graph Revealers ( http://arxiv.org/abs/2302.13582v2 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska(参考訳) スパースグラフリカバリ手法は、データが仮定に従っているところでうまく機能するが、下流の確率的クエリのために設計されていないことが多い。 これにより、入力変数間の接続を識別するのみに制限される。 一方、確率グラフモデル (Probabilistic Graphical Models, PGM) は、変数間の基底グラフを仮定し、それらの上の分布を学習する。 推論 \&サンプリングアルゴリズムが効率的であるように、PGM設計選択を慎重に行う。 これは特定の制限をもたらし、しばしば仮定を単純化する。 本研究では,sparse graph recovery 法を pgms と効率的に統合し,単一のフローにマージするニューラルグラフ露光器 (ngrs) を提案する。 問題設定は、d特徴とmサンプルとを備えた入力データxからなり、その課題は、特徴間の接続を示すスパースグラフを復元し、同時にd上の確率分布を学習することである。 NGRはニューラルネットワークを‘ガラスボックス’、あるいはより具体的にはマルチタスク学習フレームワークとみなしている。 ngrは,無向スパースグラフの形式で特徴間の複雑な非線形関数依存性をキャプチャするグラフィカルモデルを学ぶために,'graph-constrained path norm'を導入する。 さらに、NGRは、画像、テキスト、カテゴリデータ、埋め込みなど、既存のメソッドに組み込むのが簡単ではないマルチモーダル入力を処理できる。 ガウス図形モデルと乳幼児死亡率データセットから得られたデータについて,病害管理予防センターによる疎グラフ復元と確率的推測を行い,その実験結果を示す。

Sparse graph recovery methods work well where the data follows their assumptions but often they are not designed for doing downstream probabilistic queries. This limits their adoption to only identifying connections among the input variables. On the other hand, the Probabilistic Graphical Models (PGMs) assume an underlying base graph between variables and learns a distribution over them. PGM design choices are carefully made such that the inference \& sampling algorithms are efficient. This brings in certain restrictions and often simplifying assumptions. In this work, we propose Neural Graph Revealers (NGRs), that are an attempt to efficiently merge the sparse graph recovery methods with PGMs into a single flow. The problem setting consists of an input data X with D features and M samples and the task is to recover a sparse graph showing connection between the features and learn a probability distribution over the D at the same time. NGRs view the neural networks as a `glass box' or more specifically as a multitask learning framework. We introduce `Graph-constrained path norm' that NGRs leverage to learn a graphical model that captures complex non-linear functional dependencies between the features in the form of an undirected sparse graph. Furthermore, NGRs can handle multimodal inputs like images, text, categorical data, embeddings etc. which is not straightforward to incorporate in the existing methods. We show experimental results of doing sparse graph recovery and probabilistic inference on data from Gaussian graphical models and a multimodal infant mortality dataset by Centers for Disease Control and Prevention.
翻訳日:2023-03-01 12:28:28 公開日:2023-02-28
# インテクスト学習支援事例の発見

Finding Supporting Examples for In-Context Learning ( http://arxiv.org/abs/2302.13539v2 )

ライセンス: Link先を確認
Xiaonan Li, Xipeng Qiu(参考訳) In-context Learningは、言語モデルがいくつかの例を観察し、テスト入力の予測を直接出力する新しい学習パラダイムである。 これまでの研究では、コンテキスト内学習は提供された例に敏感であり、ランダムにサンプルされた例は著しく不安定なパフォーマンスを示している。 本稿では,コンテキスト内学習のための ``supporting examples'' を見つけることを提案する。 トレーニングデータセットが与えられた場合,タスクのコンテキスト内学習に役立ち,優れたパフォーマンスを実現するための,いくつかの例の順列をひとつ選択する必要があります。 従来の勾配に基づく学習(例えば微調整)では、データセット全体から ``coreset'' を見つける方法は数多く存在するが、勾配やパラメータの更新なしに言語モデルの推論でコンテキスト内学習が行われるため、その問題には適していない。 さらに、in-contextサンプル間の強い依存により、この問題はnp-hard combinatorial optimization problemとなり、すべての可能な置換を列挙することは不可能である。 そこで本稿では,この問題に対処するための2段階の手法を提案する。 まず, プログレッシブフィルタリング戦略を用いて, 言語モデルのフィードバックに基づいて, 有意な例を選択するための新しい指標を提案する。 そして,選択したサンプルを精錬し,反復的に評価するための多様性誘導ビーム探索法を提案する。 実験の結果,本手法は広い範囲のベースラインを上回っており,さらに解析した結果,提案手法の有効性が示され,サンプルとインコンテキスト学習の特性に光を当てることができた。

In-context learning is a new learning paradigm where a language model observes a few examples and then straightly outputs the test input's prediction. Previous works have shown that in-context learning is sensitive to the provided examples and randomly sampled examples show significantly unstable performance. In this paper, we propose to find ``supporting examples'' for in-context learning: Given the training dataset, we need to select one permutation of a few examples, which are informative for the task's in-context learning and lead to superior performance. Although in traditional gradient-based learning, e.g., fine-tuning, there are numerous methods to find a ``coreset'' from the entire dataset, they are sub-optimal and not suitable for this problem since in-context learning occurs in the language model's inference without gradients or parameter updates. Additionally, the strong dependence among in-context examples makes this problem an NP-hard combinatorial optimization problem and enumerating all possible permutations is infeasible. Hence we propose a two-stage method to tackle this challenge. First we propose a novel metric to select informative examples based on the language model's feedback, with a progressive filtering strategy. And then we propose a diversity-guided beam search method to refine and evaluate the selected examples, iteratively. The experimental results show our method significantly outperforms a wide range of baselines, and further analyses show the effectiveness of our method and shed light on the properties of supporting examples and in-context learning.
翻訳日:2023-03-01 12:28:02 公開日:2023-02-28
# 量子力学と古典力学の波動作用素表現

The wave operator representation of quantum and classical dynamics ( http://arxiv.org/abs/2302.13208v2 )

ライセンス: Link先を確認
Gerard McCaul, Dmitry V. Zhdanov, Denys I. Bondar(参考訳) 物理系を記述する際の数学的表現の選択は大きな結果であり、この選択は通常、目の前の問題の性質によって決定される。 ここでは、量子力学のほとんど知られていない波動演算子表現を調べ、量子力学の標準的な方法との接続について検討する。 この方法は密度行列の平方根を中心対象とし、標準表現よりもいくつかの特異な利点を享受する。 これを量子情報から抽出した浄化技術と組み合わせることで、多くの結果を得ることができる。 この形式主義は、位相とヒルベルト空間の量子力学と古典力学の両方の自然な橋渡しを提供するだけでなく、ウェーブ演算表現は、実時間力学と虚時間力学の両方の新たな半古典的近似を導き、古典的極限への透過的な対応をもたらす。 これは2次および4次ハミルトニアンの例を通して実証され、ウェーブ演算子のポテンシャル拡張とその量子古典ハイブリッドへの応用について論じられる。 我々は、ウェーブ演算子は、それまで無関係な表現をリンクする新しい視点を提供し、肯定性が保証されないシナリオ(ハイブリッドなど)の自然な候補モデルであると主張する。

The choice of mathematical representation when describing physical systems is of great consequence, and this choice is usually determined by the properties of the problem at hand. Here we examine the little-known wave operator representation of quantum dynamics, and explore its connection to standard methods of quantum dynamics. This method takes as its central object the square root of the density matrix, and consequently enjoys several unusual advantages over standard representations. By combining this with purification techniques imported from quantum information, we are able to obtain a number of results. Not only is this formalism able to provide a natural bridge between phase and Hilbert space representations of both quantum and classical dynamics, we also find the waveoperator representation leads to novel semiclassical approximations of both real and imaginary time dynamics, as well as a transparent correspondence to the classical limit. This is demonstrated via the example of quadratic and quartic Hamiltonians, while the potential extensions of the waveoperator and its application to quantum-classical hybrids is discussed. We argue that the wave operator provides a new perspective that links previously unrelated representations, and is a natural candidate model for scenarios (such as hybrids) in which positivity cannot be otherwise guaranteed.
翻訳日:2023-03-01 12:27:35 公開日:2023-02-28
# 安全制約マルコフ決定過程に対するベルマンの最適性と強化学習原理について

On Bellman's principle of optimality and Reinforcement learning for safety-constrained Markov decision process ( http://arxiv.org/abs/2302.13152v2 )

ライセンス: Link先を確認
Rahul Misra, Rafa{\l} Wisniewski and Carsten Skovmose Kalles{\o}e(参考訳) 安全強化学習の枠組みである安全制約付きマルコフ決定プロセスの最適性について検討する。 具体的には、(有限状態と有限動作を持つ)マルコフ決定過程において、決定者のゴールは、ある確率的保証のある安全でない集合を避けながら、目標集合に到達することである。 したがって、任意の制御ポリシーに対するマルコフ連鎖は、定義によってターゲット集合と安全でない集合が存在するため、多重鎖となる。 意思決定者は、目標セットにナビゲートしながら(コスト関数に関して)最適である必要がある。 これは多目的最適化の問題を引き起こす。 ベルマンの最適性原理は、(反例で示されるように)下層のマルチチェーン構造を持つマルコフ決定問題に拘束されないという事実を強調した。 上記の多目的最適化問題をゼロサムゲームとして定式化し、その後ラグランジアンに対する非同期値反復スキームを構築する(シャプリーのアルゴリズムに類似)。 最後に,強化学習問題についても検討し,データからラグランジアンを学習するための修正q学習アルゴリズムを構築した。 また、ラグランジアンとそれに対応する誤差境界の学習に必要な反復数にもより低い境界を与える。

We study optimality for the safety-constrained Markov decision process which is the underlying framework for safe reinforcement learning. Specifically, we consider a constrained Markov decision process (with finite states and finite actions) where the goal of the decision maker is to reach a target set while avoiding an unsafe set(s) with certain probabilistic guarantees. Therefore the underlying Markov chain for any control policy will be multichain since by definition there exists a target set and an unsafe set. The decision maker also has to be optimal (with respect to a cost function) while navigating to the target set. This gives rise to a multi-objective optimization problem. We highlight the fact that Bellman's principle of optimality may not hold for constrained Markov decision problems with an underlying multichain structure (as shown by the counterexample). We resolve the counterexample by formulating the aforementioned multi-objective optimization problem as a zero-sum game and thereafter construct an asynchronous value iteration scheme for the Lagrangian (similar to Shapley's algorithm. Finally, we consider the reinforcement learning problem for the same and construct a modified Q-learning algorithm for learning the Lagrangian from data. We also provide a lower bound on the number of iterations required for learning the Lagrangian and corresponding error bounds.
翻訳日:2023-03-01 12:27:13 公開日:2023-02-28
# 知識グラフを用いた複雑な問合せ回答のための逐次クエリエンコーディング

Sequential Query Encoding For Complex Query Answering on Knowledge Graphs ( http://arxiv.org/abs/2302.13114v2 )

ライセンス: Link先を確認
Jiaxin Bai, Tianshi Zheng, Yangqiu Song(参考訳) 複雑クエリアンサーリング(CQA)は知識グラフ(KG)推論において重要かつ基本的なタスクである。 クエリエンコーディング(QE)は、CQAの高速で堅牢なソリューションとして提案されている。 符号化プロセスでは、既存のほとんどのQEメソッドがまず論理的クエリを実行可能な計算直環状グラフ(DAG)に解析し、次にニューラルネットワークを使って演算子をパラメータ化し、最後にこれらのニューラルネットワーク演算子を再帰的に実行する。 しかし、パラメータ化と実行のパラダイムは、単一のニューラルネットワークエンコーダによって構造的に単純化されるため、過度に複雑化する可能性がある。 一方、LSTMやTransformerのようなシーケンスエンコーダは、関連するタスクのセマンティックグラフの符号化に有効であることが証明された。 そこで我々は,CQAのクエリをエンコードする代わりに,シーケンシャルクエリ符号化(SQE)を提案する。 計算グラフのパラメータ化と実行の代わりに、SQEはまず検索ベースのアルゴリズムを使用して、計算グラフを一連のトークンに線形化し、次にシーケンスエンコーダを使用してベクトル表現を計算する。 次に、このベクトル表現をクエリ埋め込みとして使用し、類似度スコアに従って埋め込み空間から回答を取得する。 そのシンプルさにもかかわらず、sqeはfb15k、fb15k-237、nellで最先端のニューラルネットワーククエリエンコーディング性能を、29種類のin-distributionクエリを含む拡張ベンチマークで実証している。 さらなる実験では、SQEはトレーニングプロセス中にクエリタイプが観察されないアウト・オブ・ディストリビューションクエリに対して、同等の知識推論能力を示す。

Complex Query Answering (CQA) is an important and fundamental task for knowledge graph (KG) reasoning. Query encoding (QE) is proposed as a fast and robust solution to CQA. In the encoding process, most existing QE methods first parse the logical query into an executable computational direct-acyclic graph (DAG), then use neural networks to parameterize the operators, and finally, recursively execute these neuralized operators. However, the parameterization-and-execution paradigm may be potentially over-complicated, as it can be structurally simplified by a single neural network encoder. Meanwhile, sequence encoders, like LSTM and Transformer, proved to be effective for encoding semantic graphs in related tasks. Motivated by this, we propose sequential query encoding (SQE) as an alternative to encode queries for CQA. Instead of parameterizing and executing the computational graph, SQE first uses a search-based algorithm to linearize the computational graph to a sequence of tokens and then uses a sequence encoder to compute its vector representation. Then this vector representation is used as a query embedding to retrieve answers from the embedding space according to similarity scores. Despite its simplicity, SQE demonstrates state-of-the-art neural query encoding performance on FB15k, FB15k-237, and NELL on an extended benchmark including twenty-nine types of in-distribution queries. Further experiment shows that SQE also demonstrates comparable knowledge inference capability on out-of-distribution queries, whose query types are not observed during the training process.
翻訳日:2023-03-01 12:26:38 公開日:2023-02-28