このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230304となっている論文です。

PDF登録状況(公開日: 20230304)

TitleAuthorsAbstract論文公表日・翻訳日
# フェデレートレーティング予測のためのメタマトリックス因子化

Meta Matrix Factorization for Federated Rating Predictions ( http://arxiv.org/abs/1910.10086v4 )

ライセンス: Link先を確認
Yujie Lin, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Dongxiao Yu, Jun Ma, Maarten de Rijke, Xiuzhen Cheng(参考訳) 連合型レコメンダシステムは、データセンターに集中する従来のレコメンダシステムに対して、プライバシ保護の観点から異なるアドバンテージを持つ。 しかし、これまでのフェデレーションレコメンデータシステムの研究は、モバイル環境におけるストレージ、RAM、エネルギ、通信帯域の制限を十分に考慮していない。 提案されたモデルのスケールは、モバイルデバイスで簡単に動作させるには大きすぎる。 また、既存のフェデレーションレコメンデータシステムは、各デバイス上でレコメンデーションモデルを微調整する必要があるため、ユーザ/デバイス間の協調フィルタリング情報を効果的に活用することは困難である。 本稿では,モバイル環境におけるレーティング予測(rp)のための新しい連合学習フレームワークを設計することを目的とする。 メタマトリックス因子化(MetaMF)と呼ばれる,連合行列因子化(MF)フレームワークを導入する。 ユーザが与えられた場合、まず、協調記憶モジュールを用いて有用な情報を収集して協調ベクトルを得る。 次に、メタリコメンダモジュールを使用して、プライベートなアイテム埋め込みを生成し、サーバ内の協調ベクターに基づいてrpモデルを生成する。 多数の高次元項目埋め込みを生成する課題に対処するため,まず低次元項目埋め込み行列と高次元行列を生成し,それを乗算して高次元埋め込みを得る高次元生成戦略を考案する。 生成したモデルを使用して、デバイス上のユーザのプライベートRPを生成します。 MetaMFは、小さなRPモデルでも高いキャパシティを示し、モバイル環境の制限に適応できる。 そこで我々は,MetaMFと既存のMF手法を比較し,MetaMFが競争性能を発揮できることを示す。 さらに,MetaMFは,ユーザ/デバイス間の協調フィルタリングをよりよく活用することにより,既存のフェデレーションメソッドよりも高いRP性能を実現する。

Federated recommender systems have distinct advantages in terms of privacy protection over traditional recommender systems that are centralized at a data center. However, previous work on federated recommender systems does not fully consider the limitations of storage, RAM, energy and communication bandwidth in a mobile environment. The scales of the models proposed are too large to be easily run on mobile devices. And existing federated recommender systems need to fine-tune recommendation models on each device, making it hard to effectively exploit collaborative filtering information among users/devices. Our goal in this paper is to design a novel federated learning framework for rating prediction (RP) for mobile environments. We introduce a federated matrix factorization (MF) framework, named meta matrix factorization (MetaMF). Given a user, we first obtain a collaborative vector by collecting useful information with a collaborative memory module. Then, we employ a meta recommender module to generate private item embeddings and a RP model based on the collaborative vector in the server. To address the challenge of generating a large number of high-dimensional item embeddings, we devise a rise-dimensional generation strategy that first generates a low-dimensional item embedding matrix and a rise-dimensional matrix, and then multiply them to obtain high-dimensional embeddings. We use the generated model to produce private RPs for the given user on her device. MetaMF shows a high capacity even with a small RP model, which can adapt to the limitations of a mobile environment. We conduct extensive experiments on four benchmark datasets to compare MetaMF with existing MF methods and find that MetaMF can achieve competitive performance. Moreover, we find MetaMF achieves higher RP performance over existing federated methods by better exploiting collaborative filtering among users/devices.
翻訳日:2023-03-25 04:12:20 公開日:2023-03-04
# 生物学的に妥当なスキーマを用いた結合ナビゲーションのワンショット学習

One-shot learning of paired association navigation with biologically plausible schemas ( http://arxiv.org/abs/2106.03580v2 )

ライセンス: Link先を確認
M Ganesh Kumar, Cheston Tan, Camilo Libedinsky, Shih-Cheng Yen, Andrew Yong-Yi Tan(参考訳) スキーマはワンショット学習を可能にする知識構造である。 複数対のアソシエーションナビゲーションタスクにおけるrodent one-shot learningは、スキーマ依存であると仮定されている。 しかし、スキーマと神経インプリメンテーションの対応は未だよく分かっておらず、げっ歯類学習の生物学的に妥当な計算モデルが実証されていない。 本稿では,このようなエージェントを,生物学的に妥当な神経インプリメンテーションを用いてスキーマから構成する。 フィードフォワード層またはプラスティック出力重みが新しい4要素報酬変調探索ヒュービアン(eh)規則によって制御される再帰結合ニューロンの貯水池のいずれかのネットワークを用いて実装される、感覚手がかりとゴール座標とのワンショット関連を形成する連想メモリを含む。 アクター批判を追加することで、障害が直接の進路を妨げるとしても、エージェントは成功する。 ワーキングメモリの追加により、げっ歯類動作が複製される。 作業メモリゲートの時間変化学習は、邪魔者にもかかわらずワンショット学習を可能にする。

Schemas are knowledge structures that can enable one-shot learning. Rodent one-shot learning in a multiple paired association navigation task has been postulated to be schema-dependent. However, the correspondence between schemas and neural implementations remains poorly understood, and a biologically plausible computational model of the rodents learning has not been demonstrated. Here, we compose such an agent from schemas with biologically plausible neural implementations. The agent contains an associative memory that can form one-shot associations between sensory cues and goal coordinates, implemented using a network with either a feedforward layer or a reservoir of recurrently connected neurons whose plastic output weights are governed by a novel 4-factor reward modulated Exploratory Hebbian (EH) rule. Adding an actor-critic allows the agent to succeed even if obstacles prevent direct heading. With the addition of working memory, the rodent behavior is replicated. Temporal-difference learning of a working memory gate enables one-shot learning despite distractors.
翻訳日:2023-03-25 03:44:37 公開日:2023-03-04
# 離散的ジェスチャー学習を用いた音声合成

Co-Speech Gesture Synthesis using Discrete Gesture Token Learning ( http://arxiv.org/abs/2303.12822v1 )

ライセンス: Link先を確認
Shuhong Lu, Youngwoo Yoon and Andrew Feng(参考訳) リアルな共同ジェスチャーの合成は、ヒューマノイドロボットが人間と対話し、コミュニケーションをとることができる、信じられないような動きを作る上で、重要かつ未解決な問題である。 こうした能力は、人間のユーザーによるロボットの印象を改善し、教育、訓練、医療サービスに応用される。 共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。 決定論的回帰法は、衝突するサンプルを解くことができず、過剰な運動や減衰運動を生じさせる。 本研究では,ジェスチャセグメントを離散潜在符号としてモデル化することにより,ジェスチャ合成における不確実性問題に対処する2段階モデルを提案する。 本手法は,まずRQ-VAEを用いて,学習データからジェスチャートークンからなる個別のコードブックを学習する。 第2段階では、2段階の自己回帰変換モデルを用いて、入力音声コンテキストに条件付き残符号の事前分布を学習する。 推論はトークンサンプリングとして定式化されるため、トップkサンプリングと同じ音声入力で複数のジェスチャーシーケンスを生成することができる。 定量的な結果とユーザスタディにより,提案手法は従来の手法よりも優れ,現実的で多様なジェスチャー動作を生成できることを示した。

Synthesizing realistic co-speech gestures is an important and yet unsolved problem for creating believable motions that can drive a humanoid robot to interact and communicate with human users. Such capability will improve the impressions of the robots by human users and will find applications in education, training, and medical services. One challenge in learning the co-speech gesture model is that there may be multiple viable gesture motions for the same speech utterance. The deterministic regression methods can not resolve the conflicting samples and may produce over-smoothed or damped motions. We proposed a two-stage model to address this uncertainty issue in gesture synthesis by modeling the gesture segments as discrete latent codes. Our method utilizes RQ-VAE in the first stage to learn a discrete codebook consisting of gesture tokens from training data. In the second stage, a two-level autoregressive transformer model is used to learn the prior distribution of residual codes conditioned on input speech context. Since the inference is formulated as token sampling, multiple gesture sequences could be generated given the same speech input using top-k sampling. The quantitative results and the user study showed the proposed method outperforms the previous methods and is able to generate realistic and diverse gesture motions.
翻訳日:2023-03-25 02:42:57 公開日:2023-03-04
# 測定の絶対性と矛盾する量子相関の実証

Demonstration of quantum correlations that are incompatible with absoluteness of measurement ( http://arxiv.org/abs/2107.08447v3 )

ライセンス: Link先を確認
Shubhayan Sarkar, Debashis Saha(参考訳) ウィグナーの友人思考実験における量子論の2つのダイナミクス(QT)間の緊張を爆発させることで、標準QTは2つの超サーバ間(ウィグナーと彼の学生)の測定結果の観測確率の不整合をもたらすことを指摘した。 このようなQTの不整合予測を避けるために、2つの異なる視点を仮定する。 1つ目は「測定の絶対性」(Absoluteness of Measurement, AoM)であり、任意の測定プロセスは他の観測者に関係なく絶対事象であり、単一の結果をもたらす。 もう1つは、AoMの否定として「測定の絶対性(NoM)」である。 実験の詳細を仮定することなく、量子理論におけるこれらの2つの知覚の妥当性を検証するために、まず1つの友人と2つの空間的分離された友人との操作的アプローチを導入する。 まず、NoM に対して得られる確率の集合は AoM に対して得られる集合よりも厳密に大きいことを示す。 我々は、AoMと互換性のない相関を示すことができるスーパーオブザーバによる1つの量子準備と1つのユニタリ演算を含む、これまでで最も単純なシナリオを提供する。 空間的に分離された観測者のシナリオでは、古典的あるいは局所的リアリスト、AoMの量子理論、NoMの量子理論の3つの理論で観測される確率の集合の中で厳密な階層が提示される。

Exploiting the tension between the two dynamics of quantum theory (QT) in the Wigner's Friend thought experiment, we point out that the standard QT leads to inconsistency in observed probabilities of measurement outcomes between two super-observers - Wigner and his Student. To avoid such inconsistent predictions of QT, we hypothesize two distinct perspectives. The first one is "Absoluteness of measurement (AoM)," that is, any measurement process is an absolute event irrespective of other observers and yields a single outcome. The other is "Non-absoluteness of measurement (NoM)" as the negation of AoM. We introduce an operational approach, first with one friend and then with two spatially separated friends, to test the validity of these two perceptions in quantum theory without assuming the details of the experiment. First, we show that the set of probabilities obtainable for NoM is strictly larger than the set obtainable for AoM. We provide the simplest scenario so far, involving a single quantum preparation and one unitary operation by a super-observer that can demonstrate correlations incompatible with AoM. Remarkably, in the scenario with spatially separated observers, we present a strict hierarchy among the sets of probabilities observed in the following three theories: classical or local realist, quantum theory with AoM, and quantum theory with NoM.
翻訳日:2023-03-21 23:20:10 公開日:2023-03-04
# 大きな言語モデルは意識できるのか?

Could a Large Language Model be Conscious? ( http://arxiv.org/abs/2303.07103v1 )

ライセンス: Link先を確認
David J. Chalmers(参考訳) 最近、大きな言語モデルが知覚的か意識的であるかという議論が広まっている。 このアイデアを真剣に考えるべきか? 根底にある問題を議論し、最強の理由と反対の理由を断ち切る。 意識科学の主流の仮定を考えると、現在のモデルでは意識に重大な障害があることが示唆される。 同時に、これらの障害が今後10年ほどで克服される可能性は極めて高い。 結論として、現在の大きな言語モデルが意識的であるとは考えられませんが、そう遠くない未来において、大きな言語モデルの拡張や後継が意識されている可能性について真剣に考える必要があります。

There has recently been widespread discussion of whether large language models might be sentient or conscious. Should we take this idea seriously? I will discuss the underlying issue and will break down the strongest reasons for and against. I suggest that given mainstream assumptions in the science of consciousness, there are significant obstacles to consciousness in current models: for example, their lack of recurrent processing, a global workspace, and unified agency. At the same time, it is quite possible that these obstacles will be overcome in the next decade or so. I conclude that while it is somewhat unlikely that current large language models are conscious, we should take seriously the possibility that extensions and successors to large language models may be conscious in the not-too-distant future.
翻訳日:2023-03-19 11:58:51 公開日:2023-03-04
# Affordable Artificial Intelligence - AIによる農家の知識向上

Affordable Artificial Intelligence -- Augmenting Farmer Knowledge with AI ( http://arxiv.org/abs/2303.06049v1 )

ライセンス: Link先を確認
Peeyush Kumar, Andrew Nelson, Zerina Kapetanovic, and Ranveer Chandra(参考訳) 農場は毎日何十万ものデータポイントを生産している。 農業の実践とこれらのデータポイントで明らかになった洞察を組み合わせた農業技術は精密農業と呼ばれる。 精密農業技術は農家の土地に関する深い知識を高め、生産をより持続可能で利益を上げる。 農業労働力をより生産的で持続可能なものにするためのMicrosoftのより大きな取り組みの一環として、この論文では、農場の微小気候条件を予測するためのAI技術を提案する。 本項は、国連食糧農業機関によるバンコク国際電気通信連合(2021年)の刊行物である。 農業のための人工知能(AI)に関するこの出版物は、2016年に開始され、FAOとITUが共同で制作したE-agriculture in Actionシリーズの5番目である。 農業における既存のAIアプリケーションに対する認識を高め、ステークホルダーに新しいものの開発と複製を促すことを目的としている。 データのキャプチャと処理のためのキャパシティとツールの改善と機械学習分野の大幅な進歩 意思決定、監督と監視の促進、安全対策(例えば農薬の使用)のタイムラインと有効性の改善、農業における多くのリソース消費タスクの自動化をサポートするデータ駆動ソリューションのための新たな地平線を開く。 この出版物は、AIが農業で使われている様々な方法を強調し、実装プロセス、成功要因、学習した教訓について貴重な洞察を提供する情報的応用のコレクションを読者に提示する。

Farms produce hundreds of thousands of data points on the ground daily. Farming technique which combines farming practices with the insights uncovered in these data points using AI technology is called precision farming. Precision farming technology augments and extends farmers' deep knowledge about their land, making production more sustainable and profitable. As part of the larger effort at Microsoft for empowering agricultural labor force to be more productive and sustainable, this paper presents the AI technology for predicting micro-climate conditions on the farm. This article is a chapter in publication by Food and Agriculture Organization of the United Nations and International Telecommunication Union Bangkok, 2021. This publication on artificial intelligence (AI) for agriculture is the fifth in the E-agriculture in Action series, launched in 2016 and jointly produced by FAO and ITU. It aims to raise awareness about existing AI applications in agriculture and to inspire stakeholders to develop and replicate the new ones. Improvement of capacity and tools for capturing and processing data and substantial advances in the field of machine learning open new horizons for data-driven solutions that can support decision-making, facilitate supervision and monitoring, improve the timeliness and effectiveness of safety measures (e.g. use of pesticides), and support automation of many resource-consuming tasks in agriculture. This publication presents the reader with a collection of informative applications highlighting various ways AI is used in agriculture and offering valuable insights on the implementation process, success factors, and lessons learnt.
翻訳日:2023-03-19 11:57:06 公開日:2023-03-04
# MathPrompter: 大規模言語モデルを用いた数学的推論

MathPrompter: Mathematical Reasoning using Large Language Models ( http://arxiv.org/abs/2303.05398v1 )

ライセンス: Link先を確認
Shima Imani, Liang Du, Harsh Shrivastava(参考訳) 大規模言語モデル (LLM) は算術的推論タスクを解くときの性能に制限があり、しばしば誤った答えを与える。 自然言語理解とは異なり、数学の問題は通常1つの正しい答えを持ち、正確な解を生成する作業はllmにとってより困難である。 我々の知る限りでは、これらのモデルにおける信頼の欠如が採用を妨げるという彼らの反応に対する信頼のレベルを示すLCMを意識していません。 この欠陥に対処するため,算術問題におけるLLMの性能向上と予測への依存度の向上を両立させる手法である'MathPrompter'を提案する。 MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。 これは他のプロンプトベースのCoT法とは対照的であり、続く中間ステップの有効性のチェックがない。 提案手法は、175Bパラメータ GPT-based LLM を用いて評価した MultiArith データセット (78.7\%\rightarrow 92.5\%$) の最先端性を改善する。

Large Language Models (LLMs) have limited performance when solving arithmetic reasoning tasks and often provide incorrect answers. Unlike natural language understanding, math problems typically have a single correct answer, making the task of generating accurate solutions more challenging for LLMs. To the best of our knowledge, we are not aware of any LLMs that indicate their level of confidence in their responses which fuels a trust deficit in these models impeding their adoption. To address this deficiency, we propose `MathPrompter', a technique that improves performance of LLMs on arithmetic problems along with increased reliance in the predictions. MathPrompter uses the Zero-shot chain-of-thought prompting technique to generate multiple Algebraic expressions or Python functions to solve the same math problem in different ways and thereby raise the confidence level in the output results. This is in contrast to other prompt based CoT methods, where there is no check on the validity of the intermediate steps followed. Our technique improves over state-of-the-art on the MultiArith dataset ($78.7\%\rightarrow92.5\%$) evaluated using 175B parameter GPT-based LLM.
翻訳日:2023-03-12 03:32:02 公開日:2023-03-04
# AERK: 連続時間量子ウォークによる配向エントロピー再生カーネル

AERK: Aligned Entropic Reproducing Kernels through Continuous-time Quantum Walks ( http://arxiv.org/abs/2303.03396v1 )

ライセンス: Link先を確認
Lixin Cui, Ming Li, Yue Wang, Lu Bai, Edwin R. Hancock(参考訳) 本研究では,グラフ分類のためのアラインドエントロピー再生カーネル(AERK)を開発した。 我々は、各グラフ構造上で連続時間量子ウォーク(CTQW)を実行し、平均混合行列(AMM)を計算し、CTQWが開始頂点から全ての頂点にアクセスする方法を説明する。 より具体的には、このAMM行列はグラフの各頂点に対して量子シャノンエントロピーを計算することができることを示す。 ペアワイズグラフでは、提案されたAERKカーネルは、それぞれのペアの整列頂点の量子シャノンエントロピー間の再現カーネルに基づく類似性を計算することで定義される。 理論的性質の解析により、提案されたAERKカーネルは、既存のR-畳み込みグラフカーネルで生じるグラフ間の構造対応情報を無視する欠点に対処するだけでなく、既存の頂点ベースのマッチングカーネルで発生する一対の整列頂点間の構造的差異を無視する問題を克服する。 さらに、グラフのグローバル構造情報や局所構造情報のみにフォーカスする既存の古典的グラフカーネルとは異なり、提案されたAERKカーネルは量子シャノンエントロピーを通じてグローバル構造情報と局所構造情報を同時にキャプチャすることができ、グラフのペア間のより正確なカーネルベースの類似度測定を反映している。 上記の理論的性質は提案したカーネルの有効性を説明する。 標準グラフデータセットに対する実験的評価は,提案したAERKカーネルがグラフ分類タスクの最先端グラフカーネルより優れていることを示す。

In this work, we develop an Aligned Entropic Reproducing Kernel (AERK) for graph classification. We commence by performing the Continuous-time Quantum Walk (CTQW) on each graph structure, and computing the Averaged Mixing Matrix (AMM) to describe how the CTQW visit all vertices from a starting vertex. More specifically, we show how this AMM matrix allows us to compute a quantum Shannon entropy for each vertex of a graph. For pairwise graphs, the proposed AERK kernel is defined by computing a reproducing kernel based similarity between the quantum Shannon entropies of their each pair of aligned vertices. The analysis of theoretical properties reveals that the proposed AERK kernel cannot only address the shortcoming of neglecting the structural correspondence information between graphs arising in most existing R-convolution graph kernels, but also overcome the problem of neglecting the structural differences between pairs of aligned vertices arising in existing vertex-based matching kernels. Moreover, unlike existing classical graph kernels that only focus on the global or local structural information of graphs, the proposed AERK kernel can simultaneously capture both global and local structural information through the quantum Shannon entropies, reflecting more precise kernel based similarity measures between pairs of graphs. The above theoretical properties explain the effectiveness of the proposed kernel. The experimental evaluation on standard graph datasets demonstrates that the proposed AERK kernel is able to outperform state-of-the-art graph kernels for graph classification tasks.
翻訳日:2023-03-08 17:40:06 公開日:2023-03-04
# 大規模ネットワークにおける協調ランプ計測と周辺制御のための実証誘導深部強化学習

Demonstration-guided Deep Reinforcement Learning for Coordinated Ramp Metering and Perimeter Control in Large Scale Networks ( http://arxiv.org/abs/2303.03395v1 )

ライセンス: Link先を確認
Zijian Hu and Wei Ma(参考訳) 効率的なトラヒック制御手法は,ネットワークの混雑を緩和する大きな可能性を持っている。 既存の文献は一般に単一の制御アプローチに焦点をあてるが、統合的および協調的な制御アプローチの有効性を探求する研究はほとんどない。 本研究では,高速道路のランプ計測と同質都市道路の周方向制御の2つの代表的な制御手法を考察し,大規模ネットワークのための深部強化学習(DRL)に基づく協調制御フレームワークの開発を目指す。 主な課題は 1)高速道路と都市道路の両方に効率的なダイナミックモデルがないこと。 2) DRL法は, 複雑かつ非定常なネットワーク力学により非効率となる。 そこで本研究では,新しいメソマクロ動的ネットワークモデルを提案し,大規模協調ランプ計測と周辺制御を実現するためのデモ誘導DRL法を開発した。 動的ネットワークモデルはリンクと一般化バスタブモデルをそれぞれハイブリダイズし、高速道路と都市道路の交通動態を記述する。 DRL法では「教師」モデルと「学生」モデルの概念を導入し、DRL法をより良い収束に導くためのデモを取り入れた。 教師モデルは従来のコントローラー(ALINEA、Gatingなど)であり、制御デモを提供する。 学生モデルはDRL法であり、教師から学び、教師のパフォーマンスを上回ることを目的としている。 提案手法を検証するために,香港の小規模ネットワークと実世界の大規模トラヒックネットワークの2つのケーススタディを行った。 研究結果は,大規模ネットワークにおける協調制御のための従来のコントローラとDRLを組み合わせる大きな可能性を明らかにする。

Effective traffic control methods have great potential in alleviating network congestion. Existing literature generally focuses on a single control approach, while few studies have explored the effectiveness of integrated and coordinated control approaches. This study considers two representative control approaches: ramp metering for freeways and perimeter control for homogeneous urban roads, and we aim to develop a deep reinforcement learning (DRL)-based coordinated control framework for large-scale networks. The main challenges are 1) there is a lack of efficient dynamic models for both freeways and urban roads; 2) the standard DRL method becomes ineffective due to the complex and non-stationary network dynamics. In view of this, we propose a novel meso-macro dynamic network model and first time develop a demonstration-guided DRL method to achieve large-scale coordinated ramp metering and perimeter control. The dynamic network model hybridizes the link and generalized bathtub models to depict the traffic dynamics of freeways and urban roads, respectively. For the DRL method, we incorporate demonstration to guide the DRL method for better convergence by introducing the concept of "teacher" and "student" models. The teacher models are traditional controllers (e.g., ALINEA, Gating), which provide control demonstrations. The student models are DRL methods, which learn from the teacher and aim to surpass the teacher's performance. To validate the proposed framework, we conduct two case studies in a small-scale network and a real-world large-scale traffic network in Hong Kong. The research outcome reveals the great potential of combining traditional controllers with DRL for coordinated control in large-scale networks.
翻訳日:2023-03-08 17:39:29 公開日:2023-03-04
# 動的環境におけるリアルタイムslamパイプライン

Real-time SLAM Pipeline in Dynamics Environment ( http://arxiv.org/abs/2303.02272v1 )

ライセンス: Link先を確認
Alex Fu, Lingjie Kong(参考訳) ORB-SLAMとRGB-D SLAMを用いた高密度データ手法の最近の成功に触発されて、動的環境におけるリアルタイムSLAMのより良いパイプラインを提案する。 静的シーンのみを処理できる従来のSLAMとは異なり、RGB-D SLAMとYOLOリアルタイムオブジェクト検出を使って動的シーンを分割・削除し、静的シーン3Dを構築するソリューションを提示している。 我々は、セマンティクス、幾何学、物理学を共同で検討できるデータセットを集め、全ての動的オブジェクトをフィルタリングしながら静的シーンを再構築することを可能にする。

Inspired by the recent success of application of dense data approach by using ORB-SLAM and RGB-D SLAM, we propose a better pipeline of real-time SLAM in dynamics environment. Different from previous SLAM which can only handle static scenes, we are presenting a solution which use RGB-D SLAM as well as YOLO real-time object detection to segment and remove dynamic scene and then construct static scene 3D. We gathered a dataset which allows us to jointly consider semantics, geometry, and physics and thus enables us to reconstruct the static scene while filtering out all dynamic objects.
翻訳日:2023-03-07 20:43:54 公開日:2023-03-04
# Double A3C: OpenAI Gym Gamesの深層強化学習

Double A3C: Deep Reinforcement Learning on OpenAI Gym Games ( http://arxiv.org/abs/2303.02271v1 )

ライセンス: Link先を確認
Yangxin Zhong, Jiajie He, and Lingjie Kong(参考訳) 強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。 エージェントがその状態、報酬、遷移確率について完全な知識を持つ古典的なマルコフ決定プロセス(mdp)とは異なり、強化学習はモデルの不確実性のために探索と搾取を利用する。 通常、モデルが大きな状態空間を持つという条件下では、ニューラルネットワーク(NN)を使用して入力状態をその出力動作に関連付け、エージェントの報酬を最大化することができる。 しかし、効率的なニューラルネットワークの構築とトレーニングは難しい。 ダブルqラーニングと非同期アドバンテージアクタ-クリティック(a3c)アルゴリズムに触発されて,両アルゴリズムの強みを利用して openai gym atari 2600 ゲームをプレイし,プロジェクトのベンチマークを上回り,改良した double a3c アルゴリズムを提案し,実装する。

Reinforcement Learning (RL) is an area of machine learning figuring out how agents take actions in an unknown environment to maximize its rewards. Unlike classical Markov Decision Process (MDP) in which agent has full knowledge of its state, rewards, and transitional probability, reinforcement learning utilizes exploration and exploitation for the model uncertainty. Under the condition that the model usually has a large state space, a neural network (NN) can be used to correlate its input state to its output actions to maximize the agent's rewards. However, building and training an efficient neural network is challenging. Inspired by Double Q-learning and Asynchronous Advantage Actor-Critic (A3C) algorithm, we will propose and implement an improved version of Double A3C algorithm which utilizing the strength of both algorithms to play OpenAI Gym Atari 2600 games to beat its benchmarks for our project.
翻訳日:2023-03-07 20:43:42 公開日:2023-03-04
# フェルミオン符号化における量子誤差緩和のシミュレーション

Simulating quantum error mitigation in fermionic encodings ( http://arxiv.org/abs/2303.02270v1 )

ライセンス: Link先を確認
Riley W. Chien, Kanav Setia, Xavier Bonet-Monroig, Mark Steudtner, James D. Whitfield(参考訳) 雑音量子コンピュータ上で格子フェルミオンをシミュレートする最もスケーラブルな手法は、定数係数の量子ビットと非自明な安定化群を用いる非局所作用素を排除する符号化を用いる。 本研究では, フェルミオン量子シミュレーションの設定に非常に自然である安定化器群, 安定器ポストセレクションを用いた最も簡単な誤差緩和戦略について検討した。 最大42量子ビットまでのシステムおよび非平衡ダイナミクスや変分基底状態計算を含む多くの基本的な量子シミュレーションタスクにおける誤差緩和戦略の性能を数値的に検討する。 妥当なノイズ率とシステムサイズにおいて、計算の忠実度は、標準のjordan-wigner変換によって達成できるよりも大幅に向上し、ショット数を10分の1に増やすことで、近い将来の量子シミュレーションに有意義な向上をもたらす可能性がある。 我々のシミュレーションは、物理的ヒルベルト空間次元よりも論理ヒルベルト空間次元にスケールする新しい古典的シミュレーションアルゴリズムによって実現されている。

The most scalable proposed methods of simulating lattice fermions on noisy quantum computers employ encodings that eliminate nonlocal operators using a constant factor more qubits and a nontrivial stabilizer group. In this work, we investigated the most straightforward error mitigation strategy using the stabilizer group, stabilizer postselection, that is very natural to the setting of fermionic quantum simulation. We numerically investigate the performance of the error mitigation strategy on a range of systems containing up to 42 qubits and on a number of fundamental quantum simulation tasks including non-equilibrium dynamics and variational ground state calculations. We find that at reasonable noise rates and system sizes, the fidelity of computations can be increased significantly beyond what can be achieved with the standard Jordan-Wigner transformation at the cost of increasing the number of shots by less than a factor of 10, potentially providing a meaningful boost to near-term quantum simulations. Our simulations are enabled by new classical simulation algorithms that scale with the logical Hilbert space dimension rather than the physical Hilbert space dimension.
翻訳日:2023-03-07 20:43:24 公開日:2023-03-04
# 光媒体におけるコヒーレントおよびフォック状態符号化による量子ステレオグラフィ

Quantum Steganography via Coherent and Fock State Encoding in an Optical Medium ( http://arxiv.org/abs/2303.02307v1 )

ライセンス: Link先を確認
Bruno Avritzer and Todd Brun(参考訳) ステガノグラフィーは暗号の代替手段であり、情報が秘密裏に保護され、無実のコミュニケーションやノイズに変装される。 本研究では,光通信におけるフォックとコヒーレント状態を用いたステガノグラフィー通信のスキームを開発した。 我々は,全能な盗聴器の場合の効率の限界を導出し,ノイズレスチャネルの場合の符号化と誤り訂正の明確な方法を提供する。

Steganography is an alternative to cryptography, where information is protected by secrecy -- being disguised as innocent communication or noise -- rather than being scrambled. In this work we develop schemes for steganographic communication using Fock and coherent states in optical channels based on disguising the communications as thermal noise. We derive bounds on their efficiency in the case of an all-powerful eavesdropper, and provide explicit methods of encoding and error correction for the noiseless channel case.
翻訳日:2023-03-07 20:35:09 公開日:2023-03-04
# 結合部分微分方程式に対する結合型マルチウェーブレットニューラル演算子学習

Coupled Multiwavelet Neural Operator Learning for Coupled Partial Differential Equations ( http://arxiv.org/abs/2303.02304v1 )

ライセンス: Link先を確認
Xiongye Xiao, Defu Cao, Ruochen Yang, Gaurav Gupta, Gengshuo Liu, Chenzhong Yin, Radu Balan, Paul Bogdan(参考訳) 結合偏微分方程式(英語版)(pdes)は、多くの物理過程の複雑なダイナミクスをモデル化する上で重要なタスクである。 近年、ニューラルネットワークは、積分核を直接フーリエ/ウェーブレット空間で学習することでpdesを解く能力を示しており、結合pdesを解くのは、関数間の結合写像を扱うことに依存する。 そこで本研究では,多重ウェーブレット分解とウェーブレット空間の再構成の過程において結合された積分核を分離することにより,textit{coupled multiwavelets neural operator} (cmwno) 学習方式を提案する。 提案モデルでは,Gray-Scott (GS) 方程式や非局所平均場ゲーム (MFG) 問題を含む結合型 PDE の解法において,従来の学習ベースの解法に比べて精度が大幅に向上する。 実験結果によると, 提案モデルでは, 最先端モデルと比較すると, 相対的な$L$2の誤差に対して2\times \sim 4\times$改善率を示す。

Coupled partial differential equations (PDEs) are key tasks in modeling the complex dynamics of many physical processes. Recently, neural operators have shown the ability to solve PDEs by learning the integral kernel directly in Fourier/Wavelet space, so the difficulty for solving the coupled PDEs depends on dealing with the coupled mappings between the functions. Towards this end, we propose a \textit{coupled multiwavelets neural operator} (CMWNO) learning scheme by decoupling the coupled integral kernels during the multiwavelet decomposition and reconstruction procedures in the Wavelet space. The proposed model achieves significantly higher accuracy compared to previous learning-based solvers in solving the coupled PDEs including Gray-Scott (GS) equations and the non-local mean field game (MFG) problem. According to our experimental results, the proposed model exhibits a $2\times \sim 4\times$ improvement relative $L$2 error compared to the best results from the state-of-the-art models.
翻訳日:2023-03-07 20:34:59 公開日:2023-03-04
# 伝達知識の可視化:教師なしドメイン適応の解釈モデル

Visualizing Transferred Knowledge: An Interpretive Model of Unsupervised Domain Adaptation ( http://arxiv.org/abs/2303.02302v1 )

ライセンス: Link先を確認
Wenxiao Xiao, Zhengming Ding and Hongfu Liu(参考訳) ラベル付きソースドメインからラベル付きターゲットドメインに学習した知識を転送する、教師なしドメイン適応(DA)問題に多くの研究努力が注がれている。 近年,様々なDA手法が予測能力において顕著な成果を上げており,上記の知識伝達の有効性が示唆されている。 しかし、最先端の手法が伝達機構を深く探究することは滅多になく、そのような知識の真の本質は明らかでない。 適応過程におけるその重要性を認識し,伝達知識の謎を視覚的に明らかにする最初の試みとして,教師なしドメイン適応の解釈モデルを提案する。 既存のプロトタイプの概念を視覚的イメージ解釈からDAタスクに適応させることで,ドメイン不変表現から共有情報をプロトタイプベクトルとして抽出する。 さらに,新しい予測校正と知識忠実度保存モジュールを用いて,現在のプロトタイプ手法を拡張し,学習したプロトタイプを実際の伝達知識に指向させる。 これらのプロトタイプを視覚化することにより,ベースモデルの予測を直感的に説明できるだけでなく,画像パッチとソース領域とターゲット領域の両方にまたがる同じ意味を一致させることにより,伝達知識を提示する。 モデル診断を含む下流作業における伝達機構とその可能性を理解する上で,本手法が有効であることを示す。

Many research efforts have been committed to unsupervised domain adaptation (DA) problems that transfer knowledge learned from a labeled source domain to an unlabeled target domain. Various DA methods have achieved remarkable results recently in terms of predicting ability, which implies the effectiveness of the aforementioned knowledge transferring. However, state-of-the-art methods rarely probe deeper into the transferred mechanism, leaving the true essence of such knowledge obscure. Recognizing its importance in the adaptation process, we propose an interpretive model of unsupervised domain adaptation, as the first attempt to visually unveil the mystery of transferred knowledge. Adapting the existing concept of the prototype from visual image interpretation to the DA task, our model similarly extracts shared information from the domain-invariant representations as prototype vectors. Furthermore, we extend the current prototype method with our novel prediction calibration and knowledge fidelity preservation modules, to orientate the learned prototypes to the actual transferred knowledge. By visualizing these prototypes, our method not only provides an intuitive explanation for the base model's predictions but also unveils transfer knowledge by matching the image patches with the same semantics across both source and target domains. Comprehensive experiments and in-depth explorations demonstrate the efficacy of our method in understanding the transferred mechanism and its potential in downstream tasks including model diagnosis.
翻訳日:2023-03-07 20:34:41 公開日:2023-03-04
# メソスコピックスピンアンサンブル間の量子ゲート

Quantum Gates Between Mesoscopic Spin Ensembles ( http://arxiv.org/abs/2303.02300v1 )

ライセンス: Link先を確認
Mohamad Niknam, Robert N. Schwartz, Louis-S. Bouchard(参考訳) 単一スピンの量子アルゴリズムは、精密加工、高速デコヒーレンス、原子スケールのアドレス処理、読み出しなど、深刻な技術的課題を提起する。 原子スケールの課題を回避するため、全角モータ状態がクディット部分多様体にマップされる完全偏光メソスコピックスピンアンサンブル(スピンコヒーレント状態)のケースを検討する。 その結果,アンサンブルのサイズが分離に比べて小さい範囲では,スピン数でスケールする効果的な結合強度を持つ量子ビットとして扱うことができることがわかった。 各アンサンブル内のスピンが分離された場合(例えば、制御フィールド、スピンまたは拡散平均化または材料工学)、1ビットと2ビットのゲート操作は高い忠実さで実装できる。

Quantum algorithmics with single spins poses serious technological challenges such as precision fabrication, rapid decoherence, atomic-scale addressing and readout. To circumvent atomic-scale challenges, we examine the case of fully polarized mesoscopic spin ensembles (spin-coherent states) whose total angular momenta states map to qudit submanifolds. We show that in the limit where the size of the ensembles is small compared to their separation, it is possible to treat them as qubits with an effective coupling strength that scales with the number of spins. If the spins within each ensemble are decoupled (e.g., via control fields, spinning or diffusional averaging or materials engineering), one- and two-qubit gate operations can be implemented with high fidelities.
翻訳日:2023-03-07 20:34:17 公開日:2023-03-04
# 単一磁束量子回路を用いた量子ビットエネルギーチューニング

Qubit Energy Tuner Based on Single Flux Quantum Circuits ( http://arxiv.org/abs/2303.02299v1 )

ライセンス: Link先を確認
Xiao Geng, Rutian Huang, Yongcheng He, Kaiyong He, Genting Dai, Liangliang Yang, Xinyu Wu, Qing Yu, Mingjun Cheng, Guodong Chen, Jianshe Liu and Wei Chen(参考訳) 超伝導量子ビットのZ制御のために、単一磁束量子(SFQ)回路に基づく量子ビットエネルギーチューナ(QET)と呼ばれる装置を提案する。 フラックスデジタルアナログ変換器(flux DAC)の改良により、QETは量子ビットのエネルギーレベルや周波数、特にフラックス可変トランスモンを設定でき、Z制御を必要とするゲート操作を実行することができる。 QETの回路構造は、インダクタループと粗いチューニングや微調整のためのフラックスバイアスユニットから構成される。 QETの鍵となる特徴は、量子ビットの外部フラックスを提供するインダクタループ電流をどのように変化させるかを理解するために分析される。 QETの機能を検証するために,3つのシミュレーションを行った。 まず、インダクタループ電流のSFQパルスに対する応答を検証する。 その結果,インダクタループ電流の解析解とWRSpice時間領域シミュレーションの解との間には相対差が約4.2%あることがわかった。 第2と第3のQuTipによるシミュレーションでは、ZゲートとiSWAPゲートがそれぞれこのQETによって実行可能であることを示し、対応する忠実度99.99884%と99.93906%は特定の初期状態への1回のゲート操作のみである。 これらのシミュレーションは、SFQベースのQETが、大規模超伝導量子コンピュータのデジタルZ制御のためのSFQベースの量子古典インタフェースの効率的なコンポーネントとして機能することを示している。

A device called qubit energy tuner (QET) based on single flux quantum (SFQ) circuits is proposed for Z control of superconducting qubits. Created from the improvement of flux digital-to-analog converters (flux DACs), a QET is able to set the energy levels or the frequencies of qubits, especially flux-tunable transmons, and perform gate operations requiring Z control. The circuit structure of QET is elucidated, which consists of an inductor loop and flux bias units for coarse tuning or fine tuning. The key feature of a QET is analyzed to understand how SFQ pulses change the inductor loop current, which provides external flux for qubits. To verify the functionality of the QET, three simulations are carried out. The first one verifies the responses of the inductor loop current to SFQ pulses. The results show that there is about 4.2% relative deviation between analytical solutions of the inductor loop current and the solutions from WRSpice time-domain simulation. The second and the third simulations with QuTip show how a Z gate and an iSWAP gate can be performed by this QET, respectively, with corresponding fidelities 99.99884% and 99.93906% for only once gate operation to specific initial states. These simulations indicate that the SFQ-based QET could act as an efficient component of SFQ-based quantum-classical interfaces for digital Z control of large-scale superconducting quantum computers.
翻訳日:2023-03-07 20:33:59 公開日:2023-03-04
# ATPGにおける高いカバレッジ率に向けた競合駆動型構造学習

Conflict-driven Structural Learning Towards Higher Coverage Rate in ATPG ( http://arxiv.org/abs/2303.02290v1 )

ライセンス: Link先を確認
Hui-Ling Zhen, Naixing Wang, Junhua Huang, Xinyue Huang, Mingxuan Yuan and Yu Huang(参考訳) 集積回路の設計の複雑さが絶え間なく増大する中で、構造APTG技術に対する堅牢な代替手段としてブーリアン・サチフィビリティ(SAT)が出現している。 しかし、回路試験問題をCNF(Conjunctive Normal Form)に変換するコストが高いため、工業ATPGシナリオにおけるSATの適用が制限され、テストカバレッジが失われる。 そこで本研究では,satソルバにおけるコンフリクト駆動ヒューリスティック手法を,障害伝播とアクティベーションの論理コーン上に直接実装したコンフリクト駆動構造学習(cdsl)atpgアルゴリズムを提案する。 提案したCDSLアルゴリズムは,(1)含意グラフによれば,探索空間を創出するために様々な競合制約が学習されている。 2) コンフリクト駆動の含意と正当化は, 意思決定精度の向上と効率向上に応用されている。 (3)低カバレッジデバッグではコンフリクトに基づく診断法がさらに提案され, 一次入力に対する制約を緩和あるいは修正することにより, 中断故障の検証が可能となった。 産業用回路の広範な実験結果から,提案するcdslアルゴリズムの有効性と効率を示す。 SATベースのATPGと比較すると、提案されたCDSLは平均25.6 %の停止故障を94.51 %の時間で減少させることができる。 2段階の計算フローにより、提案されたCDSLは、1段構造アルゴリズムよりも4,6.37 %$不足の少ない障害につながり、さらに3.19 %$故障カバレッジの改善が示される。 さらに、コンフリクト診断は平均で8.89 %$中止断層を減らし、0.271 %$フォールトカバレッジ率を改善させる。

Due to the increasing challenges posed by the relentless rise in the design complexity of integrated circuits, Boolean Satisfiability (SAT) has emerged as a robust alternative to structural APTG techniques. However, the high cost of transforming a circuit testing problem to a Conjunctive Normal Form (CNF) limits the application of SAT in industrial ATPG scenarios, resulting in a loss of test coverage. In Order to address this problem, this paper proposes a conflict-driven structural learning (CDSL) ATPG algorithm firstly, in which the conflict-driven heuristic methods in modern SAT solver are implemented on the logic cone of fault propagation and activation directly. The proposed CDSL algorithm is composed of three parts: (1) According to the implication graph, various conflict constraints have been learned to prune search space. (2) Conflict-driven implication and justification have been applied to increase decision accuracy and solving efficiency. (3) A conflict-based diagnosis method is further proposed in the case of low coverage debug, leading to making the aborted faults testable by relaxing or modifying some constraints on primary inputs. Extensive experimental results on industrial circuits demonstrate the effectiveness and efficiency of the proposed CDSL algorithm. It is shown that compared with the SAT-based ATPG, the proposed CDSL can on average decrease $25.6\%$ aborted faults with $94.51\%$ less run time. With a two-stage computational flow, it has shown that the proposed CDSL can lead to $46.37\%$ less aborted faults than a one-stage structural algorithm, further with the $3.19\%$ improvement on fault coverage. In addition, the conflict diagnosis can lead to $8.89\%$ less aborted faults on average, and $0.271\%$ improvement in fault coverage rate.
翻訳日:2023-03-07 20:33:35 公開日:2023-03-04
# OASIS:大規模都市歩行者パスの自動評価

OASIS: Automated Assessment of Urban Pedestrian Paths at Scale ( http://arxiv.org/abs/2303.02287v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Suresh Devalapalli, Sachin Mehta, Anat Caspi(参考訳) コミュニティの歩行性、転がりやすさ、安全性、アクティブな輸送性、持続可能性のために構築された環境を監視し維持するためには、アクセシビリティ障壁に対する公共的権利検査(PROW)が必要である。 しかし、測量士や群衆によるPROWの検査は、手間がかかり、一貫性がなく、費用がかかる。 スマートシティ開発の中核は、自治体の資産評価と管理への情報技術の応用である。 サイドウォークは、自動車道路と比較して、市民サービスの最適化や通知を行う情報システムに定期的に統合されていない。 我々は,モバイル機器を用いた歩道ネットワークデータを抽出するために,自由かつオープンソースの自動マッピングシステムであるOpen Automated Sidewalks Inspection System (OASIS)を開発した。 OASISは、ニューラルネットワーク、イメージセンシング、ロケーションベースの方法、コンパクトハードウェアの進歩を活用して、歩道のセグメンテーションとマッピングを行い、障壁の識別を行い、ルーティングと分析および運用レポートに利用可能なGIS歩行者輸送層を生成する。 本稿では,地域交通経路レビューチームの一員である人間測量士とともに,実環境で収集した画像を用いて訓練・テストしたプロトタイプシステムについて述べる。 パイロットは予測精度を示し、経路マッピング(0.94, 0.98)をリコールする。 さらに,調査チームの機能効率も向上した。 設計上、OASISは、システムが政府のパスレビューチームのワークフローと容易に統合できること、そして結果データが公開データコモンと相互運用できることを考慮に入れている。

The inspection of the Public Right of Way (PROW) for accessibility barriers is necessary for monitoring and maintaining the built environment for communities' walkability, rollability, safety, active transportation, and sustainability. However, an inspection of the PROW, by surveyors or crowds, is laborious, inconsistent, costly, and unscalable. The core of smart city developments involves the application of information technologies toward municipal assets assessment and management. Sidewalks, in comparison to automobile roads, have not been regularly integrated into information systems to optimize or inform civic services. We develop an Open Automated Sidewalks Inspection System (OASIS), a free and open-source automated mapping system, to extract sidewalk network data using mobile physical devices. OASIS leverages advances in neural networks, image sensing, location-based methods, and compact hardware to perform sidewalk segmentation and mapping along with the identification of barriers to generate a GIS pedestrian transportation layer that is available for routing as well as analytic and operational reports. We describe a prototype system trained and tested with imagery collected in real-world settings, alongside human surveyors who are part of the local transit pathway review team. Pilots show promising precision and recall for path mapping (0.94, 0.98 respectively). Moreover, surveyor teams' functional efficiency increased in the field. By design, OASIS takes adoption aspects into consideration to ensure the system could be easily integrated with governmental pathway review teams' workflows, and that the outcome data would be interoperable with public data commons.
翻訳日:2023-03-07 20:33:02 公開日:2023-03-04
# オンデバイスキーワードスポッティングのための固定点量子化学習

Fixed-point quantization aware training for on-device keyword-spotting ( http://arxiv.org/abs/2303.02284v1 )

ライセンス: Link先を確認
Sashank Macha, Om Oza, Alex Escott, Francesco Caliva, Robbie Armitano, Santosh Kumar Cheekatmalla, Sree Hari Krishnan Parthasarathi, Yuzong Liu(参考訳) 固定点(FXP)推論は計算資源が限られている組み込みデバイスに適していることが証明されているが、モデルトレーニングは浮動小数点(FLP)で継続的に行われている。 FXPトレーニングは十分に検討されておらず、FLPからFXPへの非自明な変換は避けられないパフォーマンス低下を示す。 本稿では,fxp畳み込みキーワードスポッティング(kws)モデルを訓練し,取得する新しい手法を提案する。 本手法を2つの量子化アウェアトレーニング(qat)手法と組み合わせることで,モデルパラメータに対する質量分布の分散と絶対コサイン正則化を行い,それまでのパラダイムでは無視されていた過渡変数上でqatを拡張する手法を提案する。 Google Speech Commands v2データセットの実験結果は、精度を損なうことなく、モデル精度を4ビットまで削減できることを示している。 さらに, 社内kwsデータセットでは, 完全精度flpモデルと比較して, 8ビットfxp-qatモデルでは, 相対的偽発見率を4-6%向上させた。 推論中、FXP-QATはq-format正規化を排除し、SIMDスループットを最大化しながら低ビットアキュムレータの使用を可能にする。 kwsモデルの予測性能を損なうことなく,あるいはモデルアーキテクチャの変更を必要とすることなく,実行時間を68%削減できることを実証した。 我々の研究は、この分野における将来の研究を支援し、正確かつ効率的なモデルを可能にする新しい発見を提供する。

Fixed-point (FXP) inference has proven suitable for embedded devices with limited computational resources, and yet model training is continually performed in floating-point (FLP). FXP training has not been fully explored and the non-trivial conversion from FLP to FXP presents unavoidable performance drop. We propose a novel method to train and obtain FXP convolutional keyword-spotting (KWS) models. We combine our methodology with two quantization-aware-training (QAT) techniques - squashed weight distribution and absolute cosine regularization for model parameters, and propose techniques for extending QAT over transient variables, otherwise neglected by previous paradigms. Experimental results on the Google Speech Commands v2 dataset show that we can reduce model precision up to 4-bit with no loss in accuracy. Furthermore, on an in-house KWS dataset, we show that our 8-bit FXP-QAT models have a 4-6% improvement in relative false discovery rate at fixed false reject rate compared to full precision FLP models. During inference we argue that FXP-QAT eliminates q-format normalization and enables the use of low-bit accumulators while maximizing SIMD throughput to reduce user perceived latency. We demonstrate that we can reduce execution time by 68% without compromising KWS model's predictive performance or requiring model architectural changes. Our work provides novel findings that aid future research in this area and enable accurate and efficient models.
翻訳日:2023-03-07 20:32:37 公開日:2023-03-04
# 局所グローバル蒸留による不均一データのフェデレーション仮想学習

Federated Virtual Learning on Heterogeneous Data with Local-global Distillation ( http://arxiv.org/abs/2303.02278v1 )

ライセンス: Link先を確認
Chun-Yin Huang, Ruinan Jin, Can Zhao, Daguang Xu, and Xiaoxiao Li(参考訳) 分散学習モデルにおけるフェデレーション学習(fl)のトレンドにもかかわらず、ヘテロジニアスデータでのトレーニングでは、パフォーマンス低下の影響を受けやすい。 近年,ローカルプライベートデータセットでトレーニングされたモデルのパフォーマンスを維持する,より小さな合成データセットを作成することにより,flの効率とスケーラビリティを向上させるためにデータセット蒸留が研究されている。 蒸留したローカルデータセットを使用することで,flの異種性問題の拡大が期待できる。 そこで本研究では,局所蒸留と大域蒸留の組み合わせにより作成した,より小さな合成データセット(仮想データ)を用いてflを訓練する,局所大域蒸留を用いたヘテロジニアスデータ上でのフェデレート・バーチャル・ラーニング(fedlgd)という新しい手法を提案する。 具体的には、同期とクラス不均衡を扱うために、クライアントが同じバランスの取れたローカルな仮想データを持つように反復的分布マッチングを提案し、ドメインシフトを調和させるために、フェデレートしたグラデーションマッチングを使用してクライアントと共有されるグローバルな仮想データを抽出する。 我々は、異なるソースからの異種データを含むベンチマークと実世界のデータセットについて実験する。 提案手法は, 蒸留仮想データ量が非常に少ない設定条件下で, 最先端の異種FLアルゴリズムより優れる。

Despite Federated Learning (FL)'s trend for learning machine learning models in a distributed manner, it is susceptible to performance drops when training on heterogeneous data. Recently, dataset distillation has been explored in order to improve the efficiency and scalability of FL by creating a smaller, synthetic dataset that retains the performance of a model trained on the local private datasets. We discover that using distilled local datasets can amplify the heterogeneity issue in FL. To address this, we propose a new method, called Federated Virtual Learning on Heterogeneous Data with Local-Global Distillation (FEDLGD), which trains FL using a smaller synthetic dataset (referred as virtual data) created through a combination of local and global distillation. Specifically, to handle synchronization and class imbalance, we propose iterative distribution matching to allow clients to have the same amount of balanced local virtual data; to harmonize the domain shifts, we use federated gradient matching to distill global virtual data that are shared with clients without hindering data privacy to rectify heterogeneous local training via enforcing local-global feature similarity. We experiment on both benchmark and real-world datasets that contain heterogeneous data from different sources. Our method outperforms state-of-the-art heterogeneous FL algorithms under the setting with a very limited amount of distilled virtual data.
翻訳日:2023-03-07 20:32:12 公開日:2023-03-04
# 深い回帰のための学習ラベル符号化

Learning Label Encodings for Deep Regression ( http://arxiv.org/abs/2303.02273v1 )

ライセンス: Link先を確認
Deval Shah and Tor M. Aamodt(参考訳) 深い回帰ネットワークは、与えられた入力の連続値を予測する問題に対処するために広く使われている。 回帰ネットワークを訓練するためのタスク特化アプローチは、直接回帰のような一般的なアプローチよりも大幅に改善されている。 最近では、バイナリ符号化ラベルを用いたバイナリ分類による回帰に基づく一般的なアプローチが、直接回帰よりも顕著に改善されている。 回帰のためのラベル符号化の空間は大きい。 これまでは、特定のアプリケーションのための優れたラベルエンコーディングを見つけるための自動化アプローチが欠如していた。 本稿では,ネットワーク全体のエンドツーエンドトレーニングとそのラベル符号化のための正規化ラベル符号化学習(rlel)を提案する。 RLELは回帰に対処するための一般的なアプローチを提供する。 基礎となるrlelは,実数値ラベルエンコーディングの連続探索空間と,特定の特性を持つエンコーディングを促進するように設計された正規化関数を組み合わせることで,ラベルエンコーディングの探索空間を制約し,効率的に探索できるという観測である。 これらの特性は、個々のビットにおける分類エラーの確率とエラー訂正能力とのバランスをとる。 RLELで見つかったラベルエンコーディングは、手動で設計されたラベルエンコーディングよりも低いか同等のエラーをもたらす。 RLELを適用すると、それぞれ直接回帰とマルチクラス分類よりも平均絶対誤差(MAE)が10.9%、12.4%向上する。 評価の結果,RLELは既製の特徴抽出器と組み合わせて,異なるアーキテクチャ,データセット,タスクに適合することがわかった。 コードはhttps://github.com/ubc-aamodt-group/rlel_regressionで入手できる。

Deep regression networks are widely used to tackle the problem of predicting a continuous value for a given input. Task-specialized approaches for training regression networks have shown significant improvement over generic approaches, such as direct regression. More recently, a generic approach based on regression by binary classification using binary-encoded labels has shown significant improvement over direct regression. The space of label encodings for regression is large. Lacking heretofore have been automated approaches to find a good label encoding for a given application. This paper introduces Regularized Label Encoding Learning (RLEL) for end-to-end training of an entire network and its label encoding. RLEL provides a generic approach for tackling regression. Underlying RLEL is our observation that the search space of label encodings can be constrained and efficiently explored by using a continuous search space of real-valued label encodings combined with a regularization function designed to encourage encodings with certain properties. These properties balance the probability of classification error in individual bits against error correction capability. Label encodings found by RLEL result in lower or comparable errors to manually designed label encodings. Applying RLEL results in 10.9% and 12.4% improvement in Mean Absolute Error (MAE) over direct regression and multiclass classification, respectively. Our evaluation demonstrates that RLEL can be combined with off-the-shelf feature extractors and is suitable across different architectures, datasets, and tasks. Code is available at https://github.com/ubc-aamodt-group/RLEL_regression.
翻訳日:2023-03-07 20:31:46 公開日:2023-03-04
# decompose, adjust, compose: ドメイン一般化のための周波数による効果的な正規化

Decompose, Adjust, Compose: Effective Normalization by Playing with Frequency for Domain Generalization ( http://arxiv.org/abs/2303.02328v1 )

ライセンス: Link先を確認
Sangrok Lee, Jongseong Bae, Ha Young Kim(参考訳) ドメイン一般化(DG)はコンピュータビジョンモデルの堅牢性を評価する主要な課題である。 これまでの多くの研究で、DGの正規化が使われてきた。 正規化では、統計と正規化特徴はそれぞれスタイルとコンテンツと見なされる。 しかし、内容とスタイルの境界が不明確であるため、スタイルの削除時にコンテンツの変化が問題となる。 本研究は、振幅と位相をそれぞれスタイルとコンテンツと見なす周波数領域の観点からこの問題に対処する。 まず,フーリエ変換公式の数学的導出を通じて正規化の定量的位相変化を検証する。 そこで本研究では,スペクトル分解による保存コンテンツとしてのみスタイルを除去した新しい正規化法pcnormを提案する。 さらに,コンテンツの変動度とスタイルをそれぞれ調整した,ccnormとscnormを改良したpcnorm変種を提案する。 したがって、彼らはDGのドメインに依存しない表現を学ぶことができる。 正規化手法を用いて,ドメインギャップに頑健なResNet-variantモデルであるDAC-PとDAC-SCを提案する。 提案手法は他のDG法よりも優れている。 DAC-SCはPACS、VLCS、Office-Home、DomainNet、TerraIncognitaの5つのデータセットで65.6%の最先端パフォーマンスを達成した。

Domain generalization (DG) is a principal task to evaluate the robustness of computer vision models. Many previous studies have used normalization for DG. In normalization, statistics and normalized features are regarded as style and content, respectively. However, it has a content variation problem when removing style because the boundary between content and style is unclear. This study addresses this problem from the frequency domain perspective, where amplitude and phase are considered as style and content, respectively. First, we verify the quantitative phase variation of normalization through the mathematical derivation of the Fourier transform formula. Then, based on this, we propose a novel normalization method, PCNorm, which eliminates style only as the preserving content through spectral decomposition. Furthermore, we propose advanced PCNorm variants, CCNorm and SCNorm, which adjust the degrees of variations in content and style, respectively. Thus, they can learn domain-agnostic representations for DG. With the normalization methods, we propose ResNet-variant models, DAC-P and DAC-SC, which are robust to the domain gap. The proposed models outperform other recent DG methods. The DAC-SC achieves an average state-of-the-art performance of 65.6% on five datasets: PACS, VLCS, Office-Home, DomainNet, and TerraIncognita.
翻訳日:2023-03-07 20:25:24 公開日:2023-03-04
# 六方晶窒化ホウ素におけるスピン量子ビットを持つ液体中常磁性スピンの量子センシング

Quantum sensing of paramagnetic spins in liquids with spin qubits in hexagonal boron nitride ( http://arxiv.org/abs/2303.02326v1 )

ライセンス: Link先を確認
Xingyu Gao, Sumukh Vaidya, Peng Ju, Saakshi Dikshit, Kunhong Shen, Yong P. Chen, Tongcang Li(参考訳) 常磁性イオンとラジカルは生物学や医学において必須の役割を担っているが、これらの種を検出するには高感度で環境に優しいセンサーが必要である。 3d半導体のスピン色中心は、スピン磁気ノイズに敏感な常磁性スピンを検出するために用いられてきた。 しかし, スピン色中心とターゲットスピンとの距離は, 3次元材料表面近傍で高品質なスピン欠陥を生じることが困難であるため, 制限されている。 ここでは, 六方晶窒化ホウ素 (hBN) 中のスピン量子ビットは, 層状ファンデルワールス (vdW) 材料であり, 液体中の常磁性スピンをナノスケールで検出するための有望なセンサとして機能することを示す。 我々はまず、hBN表面に近接して浅いスピン欠陥を発生させ、液体中の高コントラスト光磁気共鳴(ODMR)を持続する。 次に、スピン緩和測定に基づいて水中の常磁性イオンのスピンノイズを検知する。 最後に、常磁性イオンはスピン依存蛍光のコントラストを低減し、連続波ODMRによる効率的な検出を可能にすることを示す。 ケミカルおよび生物学的応用のための超薄型hBN量子センサの可能性を示した。

Paramagnetic ions and radicals play essential roles in biology and medicine, but detecting these species requires a highly sensitive and ambient-operable sensor. Optically addressable spin color centers in 3D semiconductors have been used for detecting paramagnetic spins as they are sensitive to the spin magnetic noise. However, the distance between spin color centers and target spins is limited due to the difficulty of creating high-quality spin defects near the surface of 3D materials. Here, we show that spin qubits in hexagonal boron nitride (hBN), a layered van der Waals (vdW) material, can serve as a promising sensor for nanoscale detection of paramagnetic spins in liquids. We first create shallow spin defects in close proximity to the hBN surface, which sustain high-contrast optically detected magnetic resonance (ODMR) in liquids. Then we demonstrate sensing spin noise of paramagnetic ions in water based on spin relaxation measurements. Finally, we show that paramagnetic ions can reduce the contrast of spin-dependent fluorescence, enabling efficient detection by continuous wave ODMR. Our results demonstrate the potential of ultrathin hBN quantum sensors for chemical and biological applications.
翻訳日:2023-03-07 20:25:01 公開日:2023-03-04
# ape:都市歩行者経路ネットワーク学習のためのオープンかつ共有アノテートデータセット

APE: An Open and Shared Annotated Dataset for Learning Urban Pedestrian Path Networks ( http://arxiv.org/abs/2303.02323v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Nicholas Bolten, Sachin Mehta, Anat Caspi(参考訳) 歩道やサイクウェイを含む完全な交通網を推定することは、自動運転、マルチモーダルナビゲーション、旅行計画、移動シミュレーション、貨物管理など、多くの自動化システムにとって重要である。 多くの交通決定は、正確な歩行者ネットワーク、その相互作用、および他の移動モードの道路網との接続に基づいて通知することができる。 歩道や交差点が歩行者と他の交通手段をつなぐため、交通活動には接続された歩行者経路網が不可欠である。 しかし、これらの経路の位置や接続性に関する情報は、都市計画システムや道路探索アプリケーションにおいて欠落または不正確なものが多く、計画家や歩行者に深刻な情報ギャップやエラーを引き起こしている。 この研究は、都市における航空衛星画像、ストリートマップ画像、歩道、交差点、コーナー電球のラスタライズドアノテーションのデータセットを導入することで、この問題に大規模に対処し始めています。 データセットは2,700 km^2$の土地で、6ドルの異なる都市から選ばれた地域をカバーする。 歩行者環境のセグメンテーションや理解に関連する様々な学習タスクに使用できる。 また、道路網情報と提案するデータセットを用いて、接続された歩行者経路ネットワークマップを推定するエンドツーエンドプロセスを提案する。 このプロセスでは、データセットでトレーニングされたマルチ入力セグメンテーションネットワークを使用して、歩行者環境における重要なクラスを予測し、接続された歩行者経路ネットワークを生成する。 以上の結果から,このデータセットは,正確な歩行者経路ネットワークを実現する共通のセグメンテーションモデルの訓練に十分大きいことがわかった。

Inferring the full transportation network, including sidewalks and cycleways, is crucial for many automated systems, including autonomous driving, multi-modal navigation, trip planning, mobility simulations, and freight management. Many transportation decisions can be informed based on an accurate pedestrian network, its interactions, and connectivity with the road networks of other modes of travel. A connected pedestrian path network is vital to transportation activities, as sidewalks and crossings connect pedestrians to other modes of transportation. However, information about these paths' location and connectivity is often missing or inaccurate in city planning systems and wayfinding applications, causing severe information gaps and errors for planners and pedestrians. This work begins to address this problem at scale by introducing a novel dataset of aerial satellite imagery, street map imagery, and rasterized annotations of sidewalks, crossings, and corner bulbs in urban cities. The dataset spans $2,700 km^2$ land area, covering select regions from $6$ different cities. It can be used for various learning tasks related to segmenting and understanding pedestrian environments. We also present an end-to-end process for inferring a connected pedestrian path network map using street network information and our proposed dataset. The process features the use of a multi-input segmentation network trained on our dataset to predict important classes in the pedestrian environment and then generate a connected pedestrian path network. Our results demonstrate that the dataset is sufficiently large to train common segmentation models yielding accurate, robust pedestrian path networks.
翻訳日:2023-03-07 20:24:38 公開日:2023-03-04
# アンサンブルと誤り訂正符号による適応攻撃に対するロバスト性の改善

Improved Robustness Against Adaptive Attacks With Ensembles and Error-Correcting Output Codes ( http://arxiv.org/abs/2303.02322v1 )

ライセンス: Link先を確認
Thomas Philippon and Christian Gagn\'e(参考訳) ニューラルネットワークアンサンブルは、敵対的ロバストネスの文脈で広く研究されており、ほとんどのアンサンブルベースのアプローチは適応攻撃に対して脆弱である。 本稿では,誤り訂正出力符号(ECOC)アンサンブルの頑健性について,アーキテクチャ改善とアンサンブル多様性の促進を通じて検討する。 適応攻撃に対する包括的ロバストネス評価を行い,アンサンブルの多様性とロバスト性との関係について検討する。 本研究は, 畳み込みニューラルネットワーク(CNN)の正規アンサンブルと比較してECOCアンサンブルの強靭性に対する利点を示し, 従来の実装の頑健性に限界があることを示すものである。 また,ECOCアンサンブルに特有の対戦訓練手法を提案し,適応攻撃に対する堅牢性をさらに向上させる。

Neural network ensembles have been studied extensively in the context of adversarial robustness and most ensemble-based approaches remain vulnerable to adaptive attacks. In this paper, we investigate the robustness of Error-Correcting Output Codes (ECOC) ensembles through architectural improvements and ensemble diversity promotion. We perform a comprehensive robustness assessment against adaptive attacks and investigate the relationship between ensemble diversity and robustness. Our results demonstrate the benefits of ECOC ensembles for adversarial robustness compared to regular ensembles of convolutional neural networks (CNNs) and show why the robustness of previous implementations is limited. We also propose an adversarial training method specific to ECOC ensembles that allows to further improve robustness to adaptive attacks.
翻訳日:2023-03-07 20:24:11 公開日:2023-03-04
# 熱画像における実時間ハンドジェスチャ同定

Real-Time Hand Gesture Identification in Thermal Images ( http://arxiv.org/abs/2303.02321v1 )

ライセンス: Link先を確認
James Ballow, Soumyabrata Dey(参考訳) 手のジェスチャーに基づく人間とコンピュータのインタラクションは、カラーカメラデータを用いてよく研究されている重要な問題である。 本研究では,熱画像を用いたハンドジェスチャ検出システムを提案する。 我々のシステムは、フレーム内の複数のハンド領域を処理し、リアルタイムアプリケーションで高速に処理することができる。 本システムでは、背景サブトラクションに基づくハンドマスク生成、k-meansに基づくハンド領域識別、前腕領域を除去するためのハンドセグメンテーション、畳み込みニューラルネットワーク(cnn)ベースのジェスチャー分類を含む一連のステップを実行する。 提案手法は2つの新しいアルゴリズムであるbubble growthとbubble searchを導入し,より高速なハンドセグメンテーションを実現する。 ジェスチャー10のサーマルイメージデータセットを新たに収集し,手動作認識精度97%を報告した。

Hand gesture-based human-computer interaction is an important problem that is well explored using color camera data. In this work we proposed a hand gesture detection system using thermal images. Our system is capable of handling multiple hand regions in a frame and process it fast for real-time applications. Our system performs a series of steps including background subtraction-based hand mask generation, k-means based hand region identification, hand segmentation to remove the forearm region, and a Convolutional Neural Network (CNN) based gesture classification. Our work introduces two novel algorithms, bubble growth and bubble search, for faster hand segmentation. We collected a new thermal image data set with 10 gestures and reported an end-to-end hand gesture recognition accuracy of 97%.
翻訳日:2023-03-07 20:23:58 公開日:2023-03-04
# 隠れた共同ファウンダーによる不規則時系列観測による治療効果の推定

Estimating Treatment Effects from Irregular Time Series Observations with Hidden Confounders ( http://arxiv.org/abs/2303.02320v1 )

ライセンス: Link先を確認
Defu Cao, James Enouen, Yujing Wang, Xiangchen Song, Chuizheng Meng, Hao Niu, Yan Liu(参考訳) 時系列データの因果分析、特に個別化された治療効果(ite)の推定は、金融、小売、医療など、現実世界の多くのアプリケーションにおいて重要なタスクである。 実世界の時系列には、大規模で不規則で断続的な時系列観察が含まれ、治療効果を推定しようとする既存の作業に重大な課題を提起する。 特に、隠れた共同創設者の存在は、偏りのある治療推定につながり、因果的推論プロセスを複雑化する可能性がある。 特に、典型的な範囲を超える異常な隠れた共同設立者は、高い分散推定につながる可能性がある。 さらに、不規則なサンプルを含む連続時間設定では、因果性のダイナミクスを直接扱うことが困難である。 本稿では,リプシッツ正則化とニューラル制御微分方程式(cde)の最近の進歩を活かし,この課題を解決するための効率的かつスケーラブルな解法lipcdeを開発した。 lipcdeは、リプシッツ制約付きニューラルネットワークによって与えられる隠れた共同創設者の境界を考慮して、履歴データと不規則なサンプルによる結果との動的因果関係を直接モデル化することができる。 さらに,lipcdeの有効性と拡張性を示すために,合成データと実世界のデータセットの両方について広範な実験を行った。

Causal analysis for time series data, in particular estimating individualized treatment effect (ITE), is a key task in many real-world applications, such as finance, retail, healthcare, etc. Real-world time series can include large-scale, irregular, and intermittent time series observations, raising significant challenges to existing work attempting to estimate treatment effects. Specifically, the existence of hidden confounders can lead to biased treatment estimates and complicate the causal inference process. In particular, anomaly hidden confounders which exceed the typical range can lead to high variance estimates. Moreover, in continuous time settings with irregular samples, it is challenging to directly handle the dynamics of causality. In this paper, we leverage recent advances in Lipschitz regularization and neural controlled differential equations (CDE) to develop an effective and scalable solution, namely LipCDE, to address the above challenges. LipCDE can directly model the dynamic causal relationships between historical data and outcomes with irregular samples by considering the boundary of hidden confounders given by Lipschitz-constrained neural networks. Furthermore, we conduct extensive experiments on both synthetic and real-world datasets to demonstrate the effectiveness and scalability of LipCDE.
翻訳日:2023-03-07 20:23:45 公開日:2023-03-04
# 異常検出のためのファクトフェアネスの達成

Achieving Counterfactual Fairness for Anomaly Detection ( http://arxiv.org/abs/2303.02318v1 )

ライセンス: Link先を確認
Xiao Han, Lu Zhang, Yongkai Wu, Shuhan Yuan(参考訳) 異常検出モデルにおける公正性の確保は、最近、多くの異常検出アプリケーションが人間を含むため、多くの注目を集めている。 しかし、既存のフェアアノマリー検出アプローチは、主に関連に基づくフェアネス概念に焦点を当てている。 本研究では,因果関係に基づくフェアネスの概念である反事実フェアネスを対象とする。 対実的公正な異常検出の目標は、現実の世界における個人の検出結果が、その個人が別のグループに属していた対実的世界と同じであることを確実にすることである。 そこで本研究では,2つの相,反実データ生成と公正な異常検出からなる,反実的公正な異常検出(CFAD)フレームワークを提案する。 合成データセットと2つの実データセットの実験結果から、CFADは異常を効果的に検出し、反事実的公正性を確保することができる。

Ensuring fairness in anomaly detection models has received much attention recently as many anomaly detection applications involve human beings. However, existing fair anomaly detection approaches mainly focus on association-based fairness notions. In this work, we target counterfactual fairness, which is a prevalent causation-based fairness notion. The goal of counterfactually fair anomaly detection is to ensure that the detection outcome of an individual in the factual world is the same as that in the counterfactual world where the individual had belonged to a different group. To this end, we propose a counterfactually fair anomaly detection (CFAD) framework which consists of two phases, counterfactual data generation and fair anomaly detection. Experimental results on a synthetic dataset and two real datasets show that CFAD can effectively detect anomalies as well as ensure counterfactual fairness.
翻訳日:2023-03-07 20:23:25 公開日:2023-03-04
# マルチモーダル3次元物体検出のための仮想スパース畳み込み

Virtual Sparse Convolution for Multimodal 3D Object Detection ( http://arxiv.org/abs/2303.02314v1 )

ライセンス: Link先を確認
Hai Wu, Chenglu Wen, Shaoshuai Shi, Xin Li, Cheng Wang(参考訳) 近年,RGB画像とLiDARデータを深度でシームレスに融合する仮想・擬似点に基づく3Dオブジェクト検出が注目されている。 しかし、画像から生成される仮想ポイントは非常に密集しており、検出中に大量の冗長な計算をもたらす。 一方、不正確な深度完了によるノイズは検出精度を著しく低下させる。 本稿では,仮想点に基づく3次元物体検出のための新しい演算子 virconv (virtual sparse convolution) に基づいて,高速かつ効果的なバックボーンであるvirconvnetを提案する。 VirConvは、(1)StVD(Stochastic Voxel Discard)と(2)NRConv(Noise-Resistant Submanifold Convolution)の2つの主要な設計で構成されている。 StVDは大量の冗長なボクセルを捨てることで計算問題を緩和する。 NRConvは2次元画像と3次元LiDAR空間のボクセル特徴を符号化することでノイズ問題に取り組む。 VirConvを統合することで、初期の融合設計に基づく効率的なパイプラインVirConv-Lを開発した。 次に,変形したリファインメントスキームに基づいて高精度パイプラインvirconv-tを構築する。 最後に,擬似ラベルフレームワークに基づく半教師付きパイプライン VirConv-S を開発した。 KITTIの3D検出テストリーダーボードでは、VirConv-Lは高速走行速度56msで85%APを達成した。 我々のVirConv-TとVirConv-Sの精度は86.3%と87.2%で、それぞれ2位と1位となっている。 コードはhttps://github.com/hailanyi/virconvで入手できる。

Recently, virtual/pseudo-point-based 3D object detection that seamlessly fuses RGB images and LiDAR data by depth completion has gained great attention. However, virtual points generated from an image are very dense, introducing a huge amount of redundant computation during detection. Meanwhile, noises brought by inaccurate depth completion significantly degrade detection precision. This paper proposes a fast yet effective backbone, termed VirConvNet, based on a new operator VirConv (Virtual Sparse Convolution), for virtual-point-based 3D object detection. VirConv consists of two key designs: (1) StVD (Stochastic Voxel Discard) and (2) NRConv (Noise-Resistant Submanifold Convolution). StVD alleviates the computation problem by discarding large amounts of nearby redundant voxels. NRConv tackles the noise problem by encoding voxel features in both 2D image and 3D LiDAR space. By integrating VirConv, we first develop an efficient pipeline VirConv-L based on an early fusion design. Then, we build a high-precision pipeline VirConv-T based on a transformed refinement scheme. Finally, we develop a semi-supervised pipeline VirConv-S based on a pseudo-label framework. On the KITTI car 3D detection test leaderboard, our VirConv-L achieves 85% AP with a fast running speed of 56ms. Our VirConv-T and VirConv-S attains a high-precision of 86.3% and 87.2% AP, and currently rank 2nd and 1st, respectively. The code is available at https://github.com/hailanyi/VirConv.
翻訳日:2023-03-07 20:23:14 公開日:2023-03-04
# 車両軌道からの異方性ガウス過程による交通状態推定

Traffic State Estimation with Anisotropic Gaussian Processes from Vehicle Trajectories ( http://arxiv.org/abs/2303.02311v1 )

ライセンス: Link先を確認
Fan Wu, Zhanhong Cheng, Huiyu Chen, Tony Z. Qiu, and Lijun Sun(参考訳) 走行時間予測、交通制御、交通安全など、さまざまなアプリケーションにおいて、道路交通状況と速度の正確な監視は不可欠である。 しかし、センサの欠如は、しばしば不完全な交通状態データをもたらすため、意思決定のための信頼できる情報を得ることが困難である。 本稿では,ガウス過程(GP)を用いたトラヒック状態データを計算し,この問題に対処する新しい手法を提案する。 本稿では,標準の等方性gpカーネルを異方性カーネルに変換し,トラヒックフローデータ内のトラヒック波の伝播をモデル化するカーネル回転再パラメータ化スキームを提案する。 この方法は、固定されたセンサーまたはプローブ車両からの交通状態データをインデュートするために適用することができる。 さらに, 回転gp法により, トラヒック状態の統計的不確実性が定量化され, 信頼性が向上した。 また、複数のレーンの交通状態を同時に推定できるマルチ出力GPへのアプローチも拡張しています。 次世代シミュレーション(NGSIM)とHighDプログラムの実際のトラフィックデータを用いて,本手法の評価を行った。 本研究では,人間駆動車両 (cvs) とコネクテッドカー (hvs) の現在および将来の混合交通を考慮し, 混合交通環境における異なるcv浸透率を模倣し, 5%から50%のトラジェクタ間の交通状態推定手法を実験した。 その結果,提案手法は評価精度,効率,ロバスト性において最先端の手法よりも優れていた。

Accurately monitoring road traffic state and speed is crucial for various applications, including travel time prediction, traffic control, and traffic safety. However, the lack of sensors often results in incomplete traffic state data, making it challenging to obtain reliable information for decision-making. This paper proposes a novel method for imputing traffic state data using Gaussian processes (GP) to address this issue. We propose a kernel rotation re-parametrization scheme that transforms a standard isotropic GP kernel into an anisotropic kernel, which can better model the propagation of traffic waves in traffic flow data. This method can be applied to impute traffic state data from fixed sensors or probe vehicles. Moreover, the rotated GP method provides statistical uncertainty quantification for the imputed traffic state, making it more reliable. We also extend our approach to a multi-output GP, which allows for simultaneously estimating the traffic state for multiple lanes. We evaluate our method using real-world traffic data from the Next Generation simulation (NGSIM) and HighD programs. Considering current and future mixed traffic of connected vehicles (CVs) and human-driven vehicles (HVs), we experiment with the traffic state estimation scheme from 5% to 50% available trajectories, mimicking different CV penetration rates in a mixed traffic environment. Results show that our method outperforms state-of-the-art methods in terms of estimation accuracy, efficiency, and robustness.
翻訳日:2023-03-07 20:22:35 公開日:2023-03-04
# IKD+:網膜症分類のための信頼性低複雑性深部モデル

IKD+: Reliable Low Complexity Deep Models For Retinopathy Classification ( http://arxiv.org/abs/2303.02310v1 )

ライセンス: Link先を確認
Shreyas Bhat Brahmavar, Rohit Rajesh, Tirtharaj Dash, Lovekesh Vig, Tanmay Tulsidas Verlekar, Md Mahmudul Hasan, Tariq Khan, Erik Meijering, Ashwin Srinivasan(参考訳) 網膜症に対するディープニューラルネットワーク(DNN)モデルでは、90%中~90%の予測精度が推定されている。 しかし、現状のモデルは複雑で、訓練と展開には相当な計算インフラが必要であり、予測の信頼性は様々である。 本稿では,これらの側面に注目し,サイズ,精度,信頼性のトレードオフを含むIKD+と呼ばれる反復的知識蒸留(IKD)の形式を提案する。 そこで本研究では,約100mのパラメータを持つ効率的ネットのアンサンブルであるベストパーパフォーミングモデルを用いて,モデルキャリブレーション(プレートスケーリングと温度スケーリング)を推定する2つの手法を用いて,ikd+の機能について検討した。 また,IKD+に温度スケーリングを施したモデルでは,500倍程度のパラメータ数が,精度を損なうことなく元のアンサンブルよりも小さくなることを示した。 さらに、IKD+モデルのキャリブレーションスコア(信頼性)はベースモードと同程度である。

Deep neural network (DNN) models for retinopathy have estimated predictive accuracies in the mid-to-high 90%. However, the following aspects remain unaddressed: State-of-the-art models are complex and require substantial computational infrastructure to train and deploy; The reliability of predictions can vary widely. In this paper, we focus on these aspects and propose a form of iterative knowledge distillation(IKD), called IKD+ that incorporates a tradeoff between size, accuracy and reliability. We investigate the functioning of IKD+ using two widely used techniques for estimating model calibration (Platt-scaling and temperature-scaling), using the best-performing model available, which is an ensemble of EfficientNets with approximately 100M parameters. We demonstrate that IKD+ equipped with temperature-scaling results in models that show up to approximately 500-fold decreases in the number of parameters than the original ensemble without a significant loss in accuracy. In addition, calibration scores (reliability) for the IKD+ models are as good as or better than the base mode
翻訳日:2023-03-07 20:22:08 公開日:2023-03-04
# DiTTO: 言語間移動改善のための特徴表現模倣手法

DiTTO: A Feature Representation Imitation Approach for Improving Cross-Lingual Transfer ( http://arxiv.org/abs/2303.02357v1 )

ライセンス: Link先を確認
Shanu Kumar, Abbaraju Soujanya, Sandipan Dandapat, Sunayana Sitaram, Monojit Choudhury(参考訳) ゼロショット言語間転送は有望であるが、低リソース言語間の転送性能が劣る副最適化であることが示されている。 本研究では,言語をゼロショット転送を改善するための領域として,ソースとターゲット言語間の特徴の不整合を共同で低減し,事前学習した多言語変換器の一般化能力を向上させる。 当社のアプローチであるdittoは,対象言語のラベルなしインスタンスのみを使用して,すべての言語にまたがる標準的なゼロショット微調整方法を大幅に上回っていることが分かりました。 実験結果から,複数言語における特徴不整合の低減が言語間移動の成功に不可欠であることが示唆された。 さらに,本モデルでは,小切手設定においても,標準的な微調整法よりも言語間伝達が良好である。

Zero-shot cross-lingual transfer is promising, however has been shown to be sub-optimal, with inferior transfer performance across low-resource languages. In this work, we envision languages as domains for improving zero-shot transfer by jointly reducing the feature incongruity between the source and the target language and increasing the generalization capabilities of pre-trained multilingual transformers. We show that our approach, DiTTO, significantly outperforms the standard zero-shot fine-tuning method on multiple datasets across all languages using solely unlabeled instances in the target language. Empirical results show that jointly reducing feature incongruity for multiple target languages is vital for successful cross-lingual transfer. Moreover, our model enables better cross-lingual transfer than standard fine-tuning methods, even in the few-shot setting.
翻訳日:2023-03-07 20:16:29 公開日:2023-03-04
# 圧縮認識画像再スケーリングのための自己非対称可逆ネットワーク

Self-Asymmetric Invertible Network for Compression-Aware Image Rescaling ( http://arxiv.org/abs/2303.02353v1 )

ライセンス: Link先を確認
Jinhai Yang, Mengxi Guo, Shijie Zhao, Junlin Li, Li Zhang(参考訳) 高解像度(HR)画像は通常、表示性を改善するために低解像度(LR)画像にダウンスケールされる。 画像再スケーリングにおける最近の研究は、統一的なタスクとして、ダウンスケーリングとアップスケーリングを定式化し、可逆ネットワークを介してHRとLRの双対マッピングを学ぶ。 しかし、現実世界のアプリケーション(例えばソーシャルメディア)では、ほとんどの画像は送信のために圧縮される。 損失圧縮はLR画像に不可逆的な情報損失をもたらすため、逆アップスケーリング手順を損傷し、再構成精度を低下させる。 本稿では,圧縮対応画像再スケーリングのための自己非対称可逆ネットワーク(SAIN)を提案する。 分散シフトに取り組むため,我々はまず,高品質画像と圧縮lr画像のための2つの別々の単射写像を持つエンドツーエンド非対称フレームワークを開発した。 そして,この枠組みの実証分析に基づいて,等方性ガウス混合を用いた損失情報(ダウンスケーリングや圧縮を含む)の分布をモデル化し,高画質・圧縮LR画像を1つの前方通過で導出する拡張可逆ブロックを提案する。 さらに,学習したlr画像を正規化し,可逆性を高めるための損失セットを設計する。 大規模な実験では、標準的な画像圧縮フォーマット(JPEGとWebP)の下での定量的および定性的な評価の観点から、様々な画像再スケーリングデータセット間でSAINが一貫した改善を示す。

High-resolution (HR) images are usually downscaled to low-resolution (LR) ones for better display and afterward upscaled back to the original size to recover details. Recent work in image rescaling formulates downscaling and upscaling as a unified task and learns a bijective mapping between HR and LR via invertible networks. However, in real-world applications (e.g., social media), most images are compressed for transmission. Lossy compression will lead to irreversible information loss on LR images, hence damaging the inverse upscaling procedure and degrading the reconstruction accuracy. In this paper, we propose the Self-Asymmetric Invertible Network (SAIN) for compression-aware image rescaling. To tackle the distribution shift, we first develop an end-to-end asymmetric framework with two separate bijective mappings for high-quality and compressed LR images, respectively. Then, based on empirical analysis of this framework, we model the distribution of the lost information (including downscaling and compression) using isotropic Gaussian mixtures and propose the Enhanced Invertible Block to derive high-quality/compressed LR images in one forward pass. Besides, we design a set of losses to regularize the learned LR images and enhance the invertibility. Extensive experiments demonstrate the consistent improvements of SAIN across various image rescaling datasets in terms of both quantitative and qualitative evaluation under standard image compression formats (i.e., JPEG and WebP).
翻訳日:2023-03-07 20:16:12 公開日:2023-03-04
# MetaGrad: Hypernetworksによる適応型グラディエント量子化

MetaGrad: Adaptive Gradient Quantization with Hypernetworks ( http://arxiv.org/abs/2303.02347v1 )

ライセンス: Link先を確認
Kaixin Xu, Alina Hui Xiu Lee, Ziyuan Zhao, Zhe Wang, Min Wu, Weisi Lin(参考訳) ネットワーク圧縮アプローチの一般的なトラックは量子化対応トレーニング(QAT)であり、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。 しかしながら、トレーニング時間の約半分に寄与するにもかかわらず、トレーニング中に後方通過を定量化し、加速する以前の取り組みはあまり行われていない。 これは、後向きの低精度勾配の誤差が、QAT設定のようにトレーニング目標によって補正できないという事実によるものである。 本稿では,ハイパーネットワークによる次のトレーニングイテレーションの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。 異なるCNNネットワークアーキテクチャを用いたCIFAR-10データセットの様々な実験により、我々のハイパーネットワークベースのアプローチは、勾配量子化ノイズの負の効果を効果的に低減し、CIFAR-10上のVGG-16の0.64精度低下でINT4への勾配の量子化に成功した。

A popular track of network compression approach is Quantization aware Training (QAT), which accelerates the forward pass during the neural network training and inference. However, not much prior efforts have been made to quantize and accelerate the backward pass during training, even though that contributes around half of the training time. This can be partly attributed to the fact that errors of low-precision gradients during backward cannot be amortized by the training objective as in the QAT setting. In this work, we propose to solve this problem by incorporating the gradients into the computation graph of the next training iteration via a hypernetwork. Various experiments on CIFAR-10 dataset with different CNN network architectures demonstrate that our hypernetwork-based approach can effectively reduce the negative effect of gradient quantization noise and successfully quantizes the gradients to INT4 with only 0.64 accuracy drop for VGG-16 on CIFAR-10.
翻訳日:2023-03-07 20:15:47 公開日:2023-03-04
# FluidLab: 複雑な流体操作のベンチマークのための異なる環境

FluidLab: A Differentiable Environment for Benchmarking Complex Fluid Manipulation ( http://arxiv.org/abs/2303.02346v1 )

ライセンス: Link先を確認
Zhou Xian, Bo Zhu, Zhenjia Xu, Hsiao-Yu Tung, Antonio Torralba, Katerina Fragkiadaki, Chuang Gan(参考訳) 人間は日常生活で様々な流体を操作する:ラテアートの作成、水から浮遊物体をすくい取る、アイスクリームコーンを転がすなど。 ロボットを使って人間の労働力を増やしたり置き換えたりすることは、流体の多面的複雑さのために難しい課題である。 ロボット流体操作に関するこれまでの研究は、単純なタスク設定(例えば注ぐ)で理想的なニュートンモデルによって制御される流体をほとんど考慮している。 しかし、現実世界の流体系の大部分は、流体の複雑な物質的挙動と多成分相互作用の観点からその複雑さを示しており、どちらも現在の文献の範囲をはるかに超えていた。 このような複雑な流体システムに対する理解と相互作用に関するロボット学習アルゴリズムを評価するためには、多目的シミュレーション機能を備えた総合的な仮想プラットフォームが必要である。 本研究では,複雑な流体力学を含む多様な操作タスクからなるシミュレーション環境であるfluidlabを紹介する。 これらのタスクは、固体と流体、および複数の流体間の相互作用を扱う。 プラットフォームの中心には、GPU加速シミュレーションと様々な材料タイプとその結合の勾配計算を提供する、完全に微分可能な物理シミュレータであるFluidEngineがあります。 プラットフォーム上での強化学習と軌道最適化手法の評価により,流体操作学習の課題をいくつか挙げる。 これらの課題に対処するために,流体系の非凸性および非平滑性に特徴付けられる最適化問題に,経験的に有効であることが示されている,微分可能な物理と組み合わせたいくつかのドメイン固有最適化手法を提案する。 さらに,実世界の環境に最適化トラジェクトリを配置することにより,適切なsim-to-realトランスファーを示す。

Humans manipulate various kinds of fluids in their everyday life: creating latte art, scooping floating objects from water, rolling an ice cream cone, etc. Using robots to augment or replace human labors in these daily settings remain as a challenging task due to the multifaceted complexities of fluids. Previous research in robotic fluid manipulation mostly consider fluids governed by an ideal, Newtonian model in simple task settings (e.g., pouring). However, the vast majority of real-world fluid systems manifest their complexities in terms of the fluid's complex material behaviors and multi-component interactions, both of which were well beyond the scope of the current literature. To evaluate robot learning algorithms on understanding and interacting with such complex fluid systems, a comprehensive virtual platform with versatile simulation capabilities and well-established tasks is needed. In this work, we introduce FluidLab, a simulation environment with a diverse set of manipulation tasks involving complex fluid dynamics. These tasks address interactions between solid and fluid as well as among multiple fluids. At the heart of our platform is a fully differentiable physics simulator, FluidEngine, providing GPU-accelerated simulations and gradient calculations for various material types and their couplings. We identify several challenges for fluid manipulation learning by evaluating a set of reinforcement learning and trajectory optimization methods on our platform. To address these challenges, we propose several domain-specific optimization schemes coupled with differentiable physics, which are empirically shown to be effective in tackling optimization problems featured by fluid system's non-convex and non-smooth properties. Furthermore, we demonstrate reasonable sim-to-real transfer by deploying optimized trajectories in real-world settings.
翻訳日:2023-03-07 20:15:30 公開日:2023-03-04
# 擬似視覚ラベルを用いた視聴覚映像解析の改善

Improving Audio-Visual Video Parsing with Pseudo Visual Labels ( http://arxiv.org/abs/2303.02344v1 )

ライセンス: Link先を確認
Jinxing Zhou, Dan Guo, Yiran Zhong, Meng Wang(参考訳) オーディオ・ビジュアルビデオ解析は、各モダリティの映像セグメントで発生するイベントを予測するタスクである。 しばしば、ビデオイベントラベルのみが提供される、すなわちラベルのモダリティとタイムスタンプが不明な、弱い監督のやり方で実行される。 高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを利用して監督を強化しようとしている。 一般的に使用される戦略は、既知のイベントラベルを各モダリティに分類して擬似ラベルを生成することである。 しかし、ラベルはまだビデオレベルに限定されており、イベントタイムスタンプの時間的境界はラベルを付けていない。 本稿では,オープンワールドから学習した事前知識を利用して,各映像セグメントにラベルを明示的に割り当てることができる擬似ラベル生成戦略を提案する。 具体的には、CLIPモデルを用いて、視覚的モダリティに基づいて各ビデオセグメントの事象を推定し、セグメントレベルの擬似ラベルを生成する。 これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮した新しい損失関数を提案する。 高次2次クロスエントロピー損失が発生するたびにフリップすることで擬似ラベルを改善するためのラベル修飾戦略が採用されている。 我々は,llpデータセットに関する広範囲な実験を行い,提案手法が新たに提案する損失とラベル表示戦略の助けを借りて,高品質セグメントレベル擬似ラベルを生成できることを実証する。 本手法は,最先端のオーディオ映像解析性能を実現する。

Audio-Visual Video Parsing is a task to predict the events that occur in video segments for each modality. It often performs in a weakly supervised manner, where only video event labels are provided, i.e., the modalities and the timestamps of the labels are unknown. Due to the lack of densely annotated labels, recent work attempts to leverage pseudo labels to enrich the supervision. A commonly used strategy is to generate pseudo labels by categorizing the known event labels for each modality. However, the labels are still limited to the video level, and the temporal boundaries of event timestamps remain unlabeled. In this paper, we propose a new pseudo label generation strategy that can explicitly assign labels to each video segment by utilizing prior knowledge learned from the open world. Specifically, we exploit the CLIP model to estimate the events in each video segment based on visual modality to generate segment-level pseudo labels. A new loss function is proposed to regularize these labels by taking into account their category-richness and segmentrichness. A label denoising strategy is adopted to improve the pseudo labels by flipping them whenever high forward binary cross entropy loss occurs. We perform extensive experiments on the LLP dataset and demonstrate that our method can generate high-quality segment-level pseudo labels with the help of our newly proposed loss and the label denoising strategy. Our method achieves state-of-the-art audio-visual video parsing performance.
翻訳日:2023-03-07 20:15:03 公開日:2023-03-04
# IRMのトレーニングと評価に欠けていること 課題と解決策

What Is Missing in IRM Training and Evaluation? Challenges and Solutions ( http://arxiv.org/abs/2303.02343v1 )

ライセンス: Link先を確認
Yihua Zhang and Pranay Sharma and Parikshit Ram and Mingyi Hong and Kush Varshney and Sijia Liu(参考訳) 不変リスク最小化(invariant risk minimization, irm)は、環境に依存しないデータ表現や予測を得る手段として注目され、スプリアス相関が学習されることを防ぎ、モデルの分散的一般化を改善するための原則的な解決策として注目されている。 しかし、近年の研究により、当初提案されたIRM最適化(IRM)の最適性は、実際は損なわれるか、いくつかのシナリオでは達成できない可能性があることが判明した。 そのため、IRMよりも実用的な改善を示す一連の高度なIRMアルゴリズムが開発されている。 本稿では,最近のirmの進歩を振り返り,irmの訓練と評価における3つの実践的限界を特定し,解決する。 まず,前回の研究では,訓練中のバッチサイズの影響が慢性的に見過ごされ,さらなる改善の余地がなくなった。 本稿では,大規模バッチ最適化手法に対する改善点を強調する。 第2に,評価環境の不適切な選択は,irmに対して誤った不均一感を与える可能性がある。 この効果を緩和するため,実適用時のIRMの不均一性を正確に評価するために,多様なテスト時間環境を利用する。 第3に、IRMをアンサンブルゲームに変換するための(Ahuja et al. (2020) の提案を再検討し、個々の予測子のアンサンブルの代わりに単一の不変予測子が望まれる場合の制限を特定する。 本稿では,コンセンサス制約付きバイレベル最適化として,アンサンブルirmゲームの新しい視点に基づいて,この制限に対処する新しいirm変種を提案する。 最後に、IRMトレーニングと評価を原則的に再検討することの実践的意義を正当化するために、広範囲な実験(既存のIRMの7つの変種と7つのデータセット)を行う。

Invariant risk minimization (IRM) has received increasing attention as a way to acquire environment-agnostic data representations and predictions, and as a principled solution for preventing spurious correlations from being learned and for improving models' out-of-distribution generalization. Yet, recent works have found that the optimality of the originally-proposed IRM optimization (IRM) may be compromised in practice or could be impossible to achieve in some scenarios. Therefore, a series of advanced IRM algorithms have been developed that show practical improvement over IRM. In this work, we revisit these recent IRM advancements, and identify and resolve three practical limitations in IRM training and evaluation. First, we find that the effect of batch size during training has been chronically overlooked in previous studies, leaving room for further improvement. We propose small-batch training and highlight the improvements over a set of large-batch optimization techniques. Second, we find that improper selection of evaluation environments could give a false sense of invariance for IRM. To alleviate this effect, we leverage diversified test-time environments to precisely characterize the invariance of IRM when applied in practice. Third, we revisit (Ahuja et al. (2020))'s proposal to convert IRM into an ensemble game and identify a limitation when a single invariant predictor is desired instead of an ensemble of individual predictors. We propose a new IRM variant to address this limitation based on a novel viewpoint of ensemble IRM games as consensus-constrained bi-level optimization. Lastly, we conduct extensive experiments (covering 7 existing IRM variants and 7 datasets) to justify the practical significance of revisiting IRM training and evaluation in a principled manner.
翻訳日:2023-03-07 20:14:39 公開日:2023-03-04
# rolnip: 雑音対比較によるロバスト学習

RoLNiP: Robust Learning Using Noisy Pairwise Comparisons ( http://arxiv.org/abs/2303.02341v1 )

ライセンス: Link先を確認
Samartha S Maheshwara and Naresh Manwani(参考訳) 本稿では,うるさい対数比較から学ぶためのロバストなアプローチを提案する。 本稿では,リスク最小化フレームワークが対等に類似した相似データのノイズに対して頑健になる損失関数に関する十分な条件を提案する。 提案手法では,一様雑音の場合,雑音率の知識は必要としない。 条件付き雑音の場合,提案手法は雑音率に依存する。 このような場合、ノイズ率を推定するための正当なアプローチを提案する。 そこで本研究では,ロバストな分類器を学習するためのエンドツーエンドアプローチを提案する。 提案手法は,雑音に富んだペアワイド比較による学習において,頑健な最先端手法よりも優れていることを示す。

This paper presents a robust approach for learning from noisy pairwise comparisons. We propose sufficient conditions on the loss function under which the risk minimization framework becomes robust to noise in the pairwise similar dissimilar data. Our approach does not require the knowledge of noise rate in the uniform noise case. In the case of conditional noise, the proposed method depends on the noise rates. For such cases, we offer a provably correct approach for estimating the noise rates. Thus, we propose an end-to-end approach to learning robust classifiers in this setting. We experimentally show that the proposed approach RoLNiP outperforms the robust state-of-the-art methods for learning with noisy pairwise comparisons.
翻訳日:2023-03-07 20:14:07 公開日:2023-03-04
# 動的ディープラーニング LESクロージャ - 組込みDNSによるオンライン最適化

Dynamic Deep Learning LES Closures: Online Optimization With Embedded DNS ( http://arxiv.org/abs/2303.02338v1 )

ライセンス: Link先を確認
Justin Sirignano and Jonathan F. MacArt(参考訳) 深層学習(DL)は近年,乱流の大規模渦シミュレーション(LES)の閉鎖モデル候補として浮上している。 高忠実度トレーニングデータは通常、計算コストがかかる(あるいは不可能)レイノルズ数で数値を生成するのに対して、実験データは製造コストが高く、スパース/アグリゲートフロー測定のみを含む。 したがって、実際のトレーニングデータセットには、比較的少数のジオメトリと物理レギュレーションしか含まれない。 限られたデータは過剰フィッティングにつながるため、トレーニングケースとは異なるジオメトリや物理的レジームに対する不正確な予測につながる可能性がある。 我々は,この課題に対処すべく,LESにおけるディープラーニングクロージャモデルのための新しいオンライントレーニング手法を開発した。 深層学習クロージャモデルは,組込み直接数値シミュレーション(DNS)データを用いた大規模シミュレーション(LES)計算中に動的に訓練される。 つまり、ドメインの小さなサブセットでは、フローは les 予測と連動して dns 解像度で計算される。 クロージャモデルは、埋め込みDNSのデータを使用して、その近似を未閉語に調整する。 その結果、閉包モデルは、予測の正確な幾何学的・物理的レジームからのデータに基づいて訓練される。 les組込みdns計算におけるディープラーニングクロージャモデルを動的に学習するために,オンライン最適化アルゴリズムを開発した。

Deep learning (DL) has recently emerged as a candidate for closure modeling of large-eddy simulation (LES) of turbulent flows. High-fidelity training data is typically limited: it is computationally costly (or even impossible) to numerically generate at high Reynolds numbers, while experimental data is also expensive to produce and might only include sparse/aggregate flow measurements. Thus, only a relatively small number of geometries and physical regimes will realistically be included in any training dataset. Limited data can lead to overfitting and therefore inaccurate predictions for geometries and physical regimes that are different from the training cases. We develop a new online training method for deep learning closure models in LES which seeks to address this challenge. The deep learning closure model is dynamically trained during a large-eddy simulation (LES) calculation using embedded direct numerical simulation (DNS) data. That is, in a small subset of the domain, the flow is computed at DNS resolutions in concert with the LES prediction. The closure model then adjusts its approximation to the unclosed terms using data from the embedded DNS. Consequently, the closure model is trained on data from the exact geometry/physical regime of the prediction at hand. An online optimization algorithm is developed to dynamically train the deep learning closure model in the coupled, LES-embedded DNS calculation.
翻訳日:2023-03-07 20:13:59 公開日:2023-03-04
# コード要約モデルが学んだこと

Demystifying What Code Summarization Models Learned ( http://arxiv.org/abs/2303.02333v1 )

ライセンス: Link先を確認
Yu Wang, Ke Wang(参考訳) モデルが学んだ研究パターンは、長い間パターン認識研究の焦点であった。 トレーニングデータからどのようなパターンが検出されるのか、パターンが見えないデータにどのように一般化されるかを説明することは、パターン認識方法を理解し、前進させるのに役立つ。 残念なことに、ほとんどのアプリケーションドメインは、抽出されたパターンが正式に定義できない連続的なデータ(すなわち、統計的な性質)を扱う。 例えば、画像分類では、猫や犬のラベルの原則的定義は存在しない。 自然言語においても、単語の意味は、その単語が囲んでいる文脈によって異なる。 前述のデータフォーマットとは異なり、プログラムは明確な構文とセマンティクスを持つユニークなデータ構造であり、モデルがソースコードから学んだことを形式化する絶好の機会を生み出します。 本稿では、コード要約モデル(体に与えられたメソッドの名前を予測するモデル)によって発見されたパターンを初めて形式的に定義し、学習パターンを形式的に記述する文脈自由文法(CFG)を推論する音響アルゴリズムを提案する。 コード要約モデルによって発見されたパターンを要約するcfgsを生成するpaticのアプローチを実現する。 特に、PATICを評価するために、code2vecとcode2seqという2つの顕著なインスタンスを選択します。 PATICは、各モデルによって抽出されたパターンが局所的および統語的コード構造にほとんど意味を含まないことを示している。 これらの結果に基づき,パターンの形式的定義の2つの例を示す。ロバスト性を評価する新しい手法と,コード要約モデルの精度を向上させる新しい手法である。 私たちの研究は、ソースコードからモデルが学んだことを研究する、エキサイティングで新しい方向性を開きます。

Study patterns that models have learned has long been a focus of pattern recognition research. Explaining what patterns are discovered from training data, and how patterns are generalized to unseen data are instrumental to understanding and advancing the pattern recognition methods. Unfortunately, the vast majority of the application domains deal with continuous data (i.e. statistical in nature) out of which extracted patterns can not be formally defined. For example, in image classification, there does not exist a principle definition for a label of cat or dog. Even in natural language, the meaning of a word can vary with the context it is surrounded by. Unlike the aforementioned data format, programs are a unique data structure with a well-defined syntax and semantics, which creates a golden opportunity to formalize what models have learned from source code. This paper presents the first formal definition of patterns discovered by code summarization models (i.e. models that predict the name of a method given its body), and gives a sound algorithm to infer a context-free grammar (CFG) that formally describes the learned patterns. We realize our approach in PATIC which produces CFGs for summarizing the patterns discovered by code summarization models. In particular, we pick two prominent instances, code2vec and code2seq, to evaluate PATIC. PATIC shows that the patterns extracted by each model are heavily restricted to local, and syntactic code structures with little to none semantic implication. Based on these findings, we present two example uses of the formal definition of patterns: a new method for evaluating the robustness and a new technique for improving the accuracy of code summarization models. Our work opens up this exciting, new direction of studying what models have learned from source code.
翻訳日:2023-03-07 20:13:41 公開日:2023-03-04
# 視覚トランスフォーマーのための高速トレーニングフリー圧縮フレームワーク

A Fast Training-Free Compression Framework for Vision Transformers ( http://arxiv.org/abs/2303.02331v1 )

ライセンス: Link先を確認
Jung Hwan Heo, Arash Fayyazi, Mahdi Nazemi, Massoud Pedram(参考訳) トケンプルーニングは、大きなトランスフォーマーモデルの推論を高速化する有効なソリューションとして登場した。 しかしながら、視覚トランスフォーマー(vit)モデルを加速する以前の作業では、スクラッチからのトレーニングやパラメータの追加による微調整が必要であり、単純なプラグアンドプレイを防止できる。 展開段階における高いトレーニングコストを回避するため,高速なトレーニングフリー圧縮フレームワークを提案する。 (i)初期層における密集した特徴抽出装置 (ii)圧縮性に優れたシャープネス最小化モデル、及び (iii)様々な文脈で空間的関係を活用できる局所的グローバルトークン合併。 我々は,様々なvitモデルとdeitモデルに適用し,従来の手法よりも2桁短いトレーニング時間を節約しつつ,推定スループットの最大2倍のフロップ削減と1.8倍の高速化を達成している。 コードはhttps://github.com/johnheo/fast-compress-vitで入手できる。

Token pruning has emerged as an effective solution to speed up the inference of large Transformer models. However, prior work on accelerating Vision Transformer (ViT) models requires training from scratch or fine-tuning with additional parameters, which prevents a simple plug-and-play. To avoid high training costs during the deployment stage, we present a fast training-free compression framework enabled by (i) a dense feature extractor in the initial layers; (ii) a sharpness-minimized model which is more compressible; and (iii) a local-global token merger that can exploit spatial relationships at various contexts. We applied our framework to various ViT and DeiT models and achieved up to 2x reduction in FLOPS and 1.8x speedup in inference throughput with <1% accuracy loss, while saving two orders of magnitude shorter training times than existing approaches. Code will be available at https://github.com/johnheo/fast-compress-vit
翻訳日:2023-03-07 20:13:17 公開日:2023-03-04
# ランク微分機構による非連続学習の統一的理論的理解に向けて

Towards a Unified Theoretical Understanding of Non-contrastive Learning via Rank Differential Mechanism ( http://arxiv.org/abs/2303.02387v1 )

ライセンス: Link先を確認
Zhijian Zhuo, Yifei Wang, Jinwen Ma, Yisen Wang(参考訳) 近年,非矛盾学習(byol, simsiam, swav, dinoなど)の名の下には,非対称なアーキテクチャ設計が備わっている場合,正のペアのみを整列させることで,自己教師あり視覚学習において良好な性能が得られることを示す手法が数多く提案されている。 特定のモジュール(BYOLの予測器など)についてのいくつかの理解にもかかわらず、これらの一見異なる非対称な設計が特徴の崩壊を避けるための統一的な理論的理解は、特にDINOのような予測器なしでも機能する手法を考えると、まだない。 本研究では,非連続学習の既存変種に対する統一的理論的理解を提案する。 我々の理論はランク微分機構 (RDM) と名付けられ、これらの非対称な設計が2分岐出力特性において一貫した階差を生み出すことを示している。 このランクの違いにより、効果的な次元性が改善され、完全または次元の特徴の崩壊が緩和される。 従来の理論と異なり、我々のRDM理論は(予測子なしで)異なる非対称な設計に適用できるため、既存の非競合学習手法の統一的な理解に役立てることができる。 さらに、我々のRDM理論は、多くの新しい非競合的変種を設計するための実践的なガイドラインも提供する。 これらの変異は、ベンチマークデータセット上の既存のメソッドに匹敵するパフォーマンスを実現しており、その一部はベースラインよりも優れています。 我々のコードは \url{https://github.com/PKU-ML/Rank-Differential-Mechanism} で利用可能です。

Recently, a variety of methods under the name of non-contrastive learning (like BYOL, SimSiam, SwAV, DINO) show that when equipped with some asymmetric architectural designs, aligning positive pairs alone is sufficient to attain good performance in self-supervised visual learning. Despite some understandings of some specific modules (like the predictor in BYOL), there is yet no unified theoretical understanding of how these seemingly different asymmetric designs can all avoid feature collapse, particularly considering methods that also work without the predictor (like DINO). In this work, we propose a unified theoretical understanding for existing variants of non-contrastive learning. Our theory named Rank Differential Mechanism (RDM) shows that all these asymmetric designs create a consistent rank difference in their dual-branch output features. This rank difference will provably lead to an improvement of effective dimensionality and alleviate either complete or dimensional feature collapse. Different from previous theories, our RDM theory is applicable to different asymmetric designs (with and without the predictor), and thus can serve as a unified understanding of existing non-contrastive learning methods. Besides, our RDM theory also provides practical guidelines for designing many new non-contrastive variants. We show that these variants indeed achieve comparable performance to existing methods on benchmark datasets, and some of them even outperform the baselines. Our code is available at \url{https://github.com/PKU-ML/Rank-Differential-Mechanism}.
翻訳日:2023-03-07 20:06:58 公開日:2023-03-04
# 脚ロボットのモジュール型安全臨界制御

Modular Safety-Critical Control of Legged Robots ( http://arxiv.org/abs/2303.02386v1 )

ライセンス: Link先を確認
Berk Tosun and Evren Samur(参考訳) 脚付きロボットの操作における安全性の懸念は、広く使用するために対処する必要がある。 モデルベースの制約を使用する機械学習ベースの制御手法は、ロボットの安全性を改善するための有望な手段を提供する。 本研究は,脚付きロボットの安全性,すなわち転倒の可能性を低下させるモジュール型安全フィルタを提案する。 必須条件は、ロコモーションが可能なロボット、すなわち名目上のコントローラーが利用可能であることである。 移動中、ロボット周辺の地形特性は、最小の受容信号セットを使用する機械学習によって推定される。 効率的なトランスフォーマーアーキテクチャを用いた新しいディープラーニングモデルを用いて地形推定を行う。 二次プログラムは、地形推定を逆ダイナミクスと組み合わせ、名目制御信号のフィルタリングと認証のための新しい指数関数制御バリア関数を制約する。 その結果、フィルタとして機能する最適なコントローラとなる。 フィルタ制御信号はロボットの安全な移動を可能にする。 結果として得られるアプローチは一般化され、他のどのレッグシステムにも少ない労力で移行できる。

Safety concerns during the operation of legged robots must be addressed to enable their widespread use. Machine learning-based control methods that use model-based constraints provide promising means to improve robot safety. This study presents a modular safety filter to improve the safety of a legged robot, i.e., reduce the chance of a fall. The prerequisite is the availability of a robot that is capable of locomotion, i.e., a nominal controller exists. During locomotion, terrain properties around the robot are estimated through machine learning which uses a minimal set of proprioceptive signals. A novel deep-learning model utilizing an efficient transformer architecture is used for the terrain estimation. A quadratic program combines the terrain estimations with inverse dynamics and a novel exponential control barrier function constraint to filter and certify nominal control signals. The result is an optimal controller that acts as a filter. The filtered control signal allows safe locomotion of the robot. The resulting approach is generalizable, and could be transferred with low effort to any other legged system.
翻訳日:2023-03-07 20:06:31 公開日:2023-03-04
# 早期出力を用いた深部ニューラルネットワークの階層的学習

Hierarchical Training of Deep Neural Networks Using Early Exiting ( http://arxiv.org/abs/2303.02384v1 )

ライセンス: Link先を確認
Yamin Sepehri, Pedram Pad, Ahmet Caner Y\"uz\"ug\"uler, Pascal Frossard, L. Andrea Dunbar(参考訳) Deep Neural Networksは、ビジョンタスクの最先端の精度を提供するが、トレーニングにはかなりのリソースを必要とする。 したがって、データを取得するエッジデバイスから遠く離れたクラウドサーバでトレーニングされる。 この問題は通信コスト、ランタイム、プライバシの懸念を高める。 本研究では,エッジとクラウドワーカのアーキテクチャを早期のエグジットで分割することにより,通信コスト,ランタイム,プライバシの懸念を軽減する,ディープニューラルネットワークのための新しい階層的トレーニング手法を提案する。 本手法では,トレーニング期間中のエッジとクラウド間のニューラルネットワークの後方通過を分離するために,早期出口の新しいユースケースを提案する。 我々は、トレーニングフェーズのシーケンシャルな性質のため、同時に階層のレベルをトレーニングできないか、プライバシのコストで実行できない、最も利用可能な階層的トレーニング方法の問題に対処する。 これらの方式とは対照的に,本手法ではエッジとクラウドワーカを同時に使用でき,生の入力データをクラウドと共有せず,後方通過時の通信も不要である。 異なるニューラルネットワークアーキテクチャに対するいくつかのシミュレーションとオンデバイス実験を行い、この手法の有効性を実証した。 VGG-16とResNet-18のCIFAR-10分類実験では,クラウドとの通信を3Gプロトコル上で行うと,29%と61%のランタイムが削減されることがわかった。 この実行時の利得は達成され、精度低下は無視される。 この方法は、エッジクラウドシステムの一部として携帯電話やロボットといった低リソースデバイス上で、高精度なディープニューラルネットワークのオンライン学習を提供することにインスピレーションを与えます。

Deep Neural Networks provide state-of-the-art accuracy for vision tasks but they require significant resources for training. Thus, they are trained on cloud servers far from the edge devices that acquire the data. This issue increases communication cost, runtime and privacy concerns. In this study, a novel hierarchical training method for deep neural networks is proposed that reduces the communication cost, training runtime, and privacy concerns by dividing the architecture between edge and cloud workers using early exits. The method proposes a brand-new use case for early exits to separate the backward pass of neural networks between the edge and the cloud during the training phase. We address the issues of most available hierarchical training methods that due to the sequential nature of the training phase, cannot train the levels of hierarchy at the same time or they do it with the cost of privacy. In contrast to these schemes, our method can use both edge and cloud workers simultaneously, does not share the raw input data with the cloud, and does not require communication during the backward pass. Several simulations and on-device experiments for different neural network architectures are done to demonstrate the effectiveness of this method. It is shown that the method reduces 29% and 61% runtime in CIFAR-10 classification experiment for VGG-16 and ResNet-18 when the communication with the cloud is done over the 3G protocol. This gain in the runtime is achieved whilst the accuracy drop is negligible. This method can be inspirational to provide online learning of high-accuracy deep neural networks on low-resource devices such as mobile phones or robots as a part of an edge-cloud system, making them more flexible in facing new tasks and classes of data in the future.
翻訳日:2023-03-07 20:06:18 公開日:2023-03-04
# ホモトピー型理論における位相量子ゲート

Topological Quantum Gates in Homotopy Type Theory ( http://arxiv.org/abs/2303.02382v1 )

ライセンス: Link先を確認
David Jaz Myers, Hisham Sati and Urs Schreiber(参考訳) スケーラブルな量子コンピュータを実現するためにトポロジカル保護が必要であったにもかかわらず、トポロジカル量子論理ゲートの概念的基盤は、物理的実現と情報理論的性質の両方に関して、明らかに不安定であった。 Building on recent results on defect branes in string/M-theory and on their holographically dual anyonic defects in condensed matter theory, here we explain how the specification of realistic topological quantum gates, operating by anyon defect braiding in topologically ordered quantum materials, has a surprisingly slick formulation in parameterized point-set topology, which is so fundamental that it lends itself to certification in modern homotopically typed programming languages, such as cubical Agda. We propose that this remarkable confluence of concepts may jointly kickstart the development of topological quantum programming proper as well as of real-world application of homotopy type theory, both of which have arguably been falling behind their high expectations; in any case, it provides a powerful paradigm for simulating and verifying topological quantum computing architectures with high-level certification languages aware of the actual physical principles of realistic topological quantum hardware. 関連記事において、我々はこのスキームを自然に、位相的量子ゲートを検証済み量子回路にコンパイルし、量子計測ゲートと古典制御を完備した、完全な量子プログラミング/証明言語へと拡張する「依存線形」ホモトピーデータ型へのさらなる通過について説明する。

Despite the evident necessity of topological protection for realizing scalable quantum computers, the conceptual underpinnings of topological quantum logic gates had arguably remained shaky, both regarding their physical realization as well as their information-theoretic nature. Building on recent results on defect branes in string/M-theory and on their holographically dual anyonic defects in condensed matter theory, here we explain how the specification of realistic topological quantum gates, operating by anyon defect braiding in topologically ordered quantum materials, has a surprisingly slick formulation in parameterized point-set topology, which is so fundamental that it lends itself to certification in modern homotopically typed programming languages, such as cubical Agda. We propose that this remarkable confluence of concepts may jointly kickstart the development of topological quantum programming proper as well as of real-world application of homotopy type theory, both of which have arguably been falling behind their high expectations; in any case, it provides a powerful paradigm for simulating and verifying topological quantum computing architectures with high-level certification languages aware of the actual physical principles of realistic topological quantum hardware. In a companion article, we will explain how further passage to "dependent linear" homotopy data types naturally extends this scheme to a full-blown quantum programming/certification language in which our topological quantum gates may be compiled to verified quantum circuits, complete with quantum measurement gates and classical control.
翻訳日:2023-03-07 20:05:48 公開日:2023-03-04
# 固有デコヒーレンスが2量子スピンスクイーズモデルの不協和様相関測定に及ぼす影響

Effects of intrinsic decoherence on discord-like correlation measures of two-qubit spin squeezing model ( http://arxiv.org/abs/2303.02381v1 )

ライセンス: Link先を確認
Venkat Abhignan, R. Muthuganesan(参考訳) 量子デコヒーレンスは、システムが環境と相互作用するときに起こる。 2量子ビットスピンスクイージングモデルにおける量子相関挙動は、内在的デコヒーレンスの影響下で研究されている。 その結果, エンタングルメント, 局所量子不確かさ, トレース距離の不一致, 不確かさによる量子非局所性など, 量子相関の異なる量子化子をチェックすることにより, 物理系のパラメータに依存することがわかった。 以上の結果から, 絡み合いは内在的な非一貫性に苦しみ, 突然死を呈するが, 他の手段は内在的なデコヒーレンスに対してより強固であることが示された。 さらに,スピンスクイーズ結合定数と磁場の役割を強調した。

Quantum decoherence happens when the system interacts with the environment. Quantum correlation behaviours in the two-qubit spin squeezing model are studied under the influence of intrinsic decoherence. Quantitative results were determined, which depend on parameters of the physical system by checking different quantifiers of quantum correlation such as entanglement, local quantum uncertainty, trace distance discord and uncertainty-induced quantum nonlocality. We show that the entanglement suffers from intrinsic decoherence and exhibits sudden death, whereas the other measures are more robust against intrinsic decoherence. Further, we highlight the role of spin squeezing coupling constant and magnetic field.
翻訳日:2023-03-07 20:05:24 公開日:2023-03-04
# Wasserstein Actor-Critic: 連続反応制御のための最適化による直接探索

Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control ( http://arxiv.org/abs/2303.02378v1 )

ライセンス: Link先を確認
Amarildo Likmeta, Matteo Sacco, Alberto Maria Metelli and Marcello Restelli(参考訳) 不確実性定量化は、強化学習(RL)における効率的な指向探索を実現する手段として広く利用されている。 しかし、継続的なアクションの最先端の手法は、依然として高いサンプル複雑さの要求に悩まされている。 実際、彼らは更新全体を通してててんかんの不確実性を伝播する戦略を全く欠いているか、あるいは完全な戻り分布(例えば、分布RL)を学習しながらアレラトリック不確実性と混合している。 本稿では,最近のWasserstein Q-Learning (WQL) \citep{wql} に触発されたアクター批判型アーキテクチャであるWasserstein Actor-Critic (WAC)を提案する。 WACは、Q値推定の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。 さらに,関数近似を用いた場合の特異な問題と不確実性推定を併用し,不確実性推定のための正規化損失を提案する。 最後に,我々のアルゴリズムを,最先端のベースラインと比較して探索が不可欠である,標準的なMujoCoタスクと一連の連続アクションドメインに基づいて評価する。

Uncertainty quantification has been extensively used as a means to achieve efficient directed exploration in Reinforcement Learning (RL). However, state-of-the-art methods for continuous actions still suffer from high sample complexity requirements. Indeed, they either completely lack strategies for propagating the epistemic uncertainty throughout the updates, or they mix it with aleatoric uncertainty while learning the full return distribution (e.g., distributional RL). In this paper, we propose Wasserstein Actor-Critic (WAC), an actor-critic architecture inspired by the recent Wasserstein Q-Learning (WQL) \citep{wql}, that employs approximate Q-posteriors to represent the epistemic uncertainty and Wasserstein barycenters for uncertainty propagation across the state-action space. WAC enforces exploration in a principled way by guiding the policy learning process with the optimization of an upper bound of the Q-value estimates. Furthermore, we study some peculiar issues that arise when using function approximation, coupled with the uncertainty estimation, and propose a regularized loss for the uncertainty estimation. Finally, we evaluate our algorithm on standard MujoCo tasks as well as suite of continuous-actions domains, where exploration is crucial, in comparison with state-of-the-art baselines.
翻訳日:2023-03-07 20:05:11 公開日:2023-03-04
# 触媒は常に外部量子相関を劣化させる

Catalysis always degrades external quantum correlations ( http://arxiv.org/abs/2303.02376v1 )

ライセンス: Link先を確認
Seok Hyung Lie, Nelly H. Y. Ng(参考訳) 量子資源理論で用いられる触媒は孤立している必要はなく、そのためエージェントがアクセスできない外部系と相関する可能性がある。 このような相関は触媒作用を阻害し、そのような相関の古典性や量子性は重要か? この疑問に答えるために、我々はまず、古典的なシステムと量子システムとを区別する鍵となる性質であるマクロリアリズムを示すため、繰り返し測定で同じ結果をもたらす非侵襲的に測定可能な観測物の存在に焦点を当てる。 その結果, 結合状態が任意の反復可能な量子測定によって常に摂動されるように, 外部系と量子相関した系は一般量子チャネルに対して同じ性質を持つことがわかった。 完全量子システムと呼ばれるそのようなシステムの完全な特徴付けは、[Lie and Jeong, Phys. Rev. 130, 020802 (2023)]で提起されたトモグラフィーに敏感なシステムを特徴づけるというオープンな問題を解決する。 直接の結果として、完全な量子系は、その環境との相関の尺度が任意に低い場合でも、いかなる量子過程も触媒できない。 これは、完全量子系の相互情報も触媒として使用できないという、より強い結果へと一般化する。 これらの結果から, 一般量子触媒と環境との相関から, 古典的相関だけで触媒分解が可能であり, 相関触媒は非相関触媒のアンサンブルと等価である,という結論が得られた。

Catalysts used in quantum resource theories need not be in isolation and therefore are possibly correlated with external systems, which the agent does not have access to. Do such correlations help or hinder catalysis, and does the classicality or quantumness of such correlations matter? To answer this question, we first focus on the existence of a non-invasively measurable observable that yields the same outcomes for repeated measurements, since this signifies macro-realism, a key property distinguishing classical systems from quantum systems. We show that a system quantumly correlated with an external system so that the joint state is necessarily perturbed by any repeatable quantum measurement, also has the same property against general quantum channels. Our full characterization of such systems called totally quantum systems, solves the open problem of characterizing tomographically sensitive systems raised in [Lie and Jeong, Phys. Rev. Lett. 130, 020802 (2023)]. An immediate consequence is that a totally quantum system cannot catalyze any quantum process, even when a measure of correlation with its environment is arbitrarily low. It generalizes to a stronger result, that the mutual information of totally quantum systems cannot be used as a catalyst either. These results culminate in the conclusion that, out of the correlations that a generic quantum catalyst has with its environment, only classical correlations allow for catalysis, and therefore using a correlated catalyst is equivalent to using an ensemble of uncorrelated catalysts.
翻訳日:2023-03-07 20:04:45 公開日:2023-03-04
# neuda:高忠実な暗黙的表面再構成のための神経変形型アンカー

NeuDA: Neural Deformable Anchor for High-Fidelity Implicit Surface Reconstruction ( http://arxiv.org/abs/2303.02375v1 )

ライセンス: Link先を確認
Bowen Cai, Jinchi Huang, Rongfei Jia, Chengfei Lv, Huan Fu(参考訳) 本報告では, 異種線キャストを利用した表面の暗黙的再構成について検討する。 IDRやNeuSといった以前の研究は、表面を予測・レンダリングする際に3次元空間の空間的コンテキストを見落としているため、小さな穴や構造物のような鋭い局所位相を捉えられない可能性がある。 そこで本研究では,階層型ボクセルグリッドであるneural deformable anchor (neuda) を用いた,高忠実度表面再構成のためのフレキシブルニューラルネットワークの暗黙表現を提案する。 NeuDAは、各頂点が直接埋め込み(または特徴)の代わりに3D位置(またはアンカー)を格納する階層的なアンカーグリッドを維持している。 異なる局所幾何構造を適応的に符号化できるようにアンカーグリッドを最適化する。 また,周波数符号化戦略を考察し,階層型アンカー構造の簡易な階層的位置符号化法を導入し,高周波・低周波形状と外観の特性を柔軟に活用する。 DTUとBlendedMVSのデータセットの実験は、NeuDAが有望なメッシュ表面を生成できることを実証している。

This paper studies implicit surface reconstruction leveraging differentiable ray casting. Previous works such as IDR and NeuS overlook the spatial context in 3D space when predicting and rendering the surface, thereby may fail to capture sharp local topologies such as small holes and structures. To mitigate the limitation, we propose a flexible neural implicit representation leveraging hierarchical voxel grids, namely Neural Deformable Anchor (NeuDA), for high-fidelity surface reconstruction. NeuDA maintains the hierarchical anchor grids where each vertex stores a 3D position (or anchor) instead of the direct embedding (or feature). We optimize the anchor grids such that different local geometry structures can be adaptively encoded. Besides, we dig into the frequency encoding strategies and introduce a simple hierarchical positional encoding method for the hierarchical anchor structure to flexibly exploit the properties of high-frequency and low-frequency geometry and appearance. Experiments on both the DTU and BlendedMVS datasets demonstrate that NeuDA can produce promising mesh surfaces.
翻訳日:2023-03-07 20:04:19 公開日:2023-03-04
# 隠れた因果ループ、マクロリアリズム、アインシュタイン-ポドルスキー-ローゼン-ベル相関:前向き確率位相空間シミュレーション

Hidden causal loops, macroscopic realism and Einstein-Podolsky-Rosen-Bell correlations: forward-backward stochastic phase-space simulations ( http://arxiv.org/abs/2303.02373v1 )

ライセンス: Link先を確認
M. D. Reid and P. D. Drummond(参考訳) 我々は、時間方向に前方と後方の両方を伝播する確率振幅のダイナミクスを解くことで、量子測度$\hat{x}$を分析する。 振幅 $x$ と $p$ の瞬時結合密度は、因果一貫性を確立する正の$q(x,p,t)$位相空間分布と等価であることが証明される。 実測値$\hat{x}$を増幅としてモデル化し、固有状態$|x_{j}\rangle$ of $\hat{x}$の重ね合わせで用意されたシステムに対するボルンの規則を確認する。 後方伝播変数 $x$ の軌道は、システムが$|x_{j}\rangle$ の混合物で作成されているかのように、測定設定によって決定される将来の境界条件によって制御される。 因果関係はシミュレーションから推定される。 重ね合わせや絡み合った状態については、観測できない変数の因果ループを識別する。 ハイブリッド因果構造は、マクロ実在論と一致する。 さらに、このモデルはアインシュタイン=ポドルスキー=ローゼンとベルの相関関係のフォワード・バック・シミュレーションを可能にする。 シミュレーションは、測定設定を決定する一元的相互作用の後、システムのために定義された局所リアリズムの弱い形式との整合性を明らかにし、ベルの局所リアリズム条件のサブセットの分解によってベルが違反する。 その結果,隠れた因果ループがベルの非局所性をどのように説明できるかを明らかにすることができた。

We analyze a quantum measurement $\hat{x}$ by solving the dynamics of stochastic amplitudes that propagate both forward and backward in the time direction. The dynamics is derived from quantum mechanics: The instantaneous joint density of amplitudes $x$ and $p$ is proved equivalent to the positive $Q(x,p,t)$ phase-space distribution, which establishes causal consistency. We model the measurement $\hat{x}$ as amplification, confirming Born's rule for a system prepared in a superposition of eigenstates $|x_{j}\rangle$ of $\hat{x}$. The trajectories for the backward-propagating variable $x$ are governed by a future boundary condition determined by the measurement setting, as though the system were prepared in a mixture of $|x_{j}\rangle$. Causal relations are deduced from the simulations. For superpositions and entangled states, we identify causal loops for variables that are not observable. A hybrid causal structure exists that is consistent with macroscopic realism. Further, the model allows forward-backward simulation of Einstein-Podolsky-Rosen and Bell correlations, which addresses a question raised by Schr\"odinger. The simulations reveal consistency with a weak form of local realism defined for the system after the unitary interactions determining the measurement settings, the Bell violations emerging due to a breakdown of a subset of Bell's local-realism conditions. Our results elucidate how hidden causal loops can explain Bell nonlocality, without requiring retrocausality at a macroscopic level.
翻訳日:2023-03-07 20:03:58 公開日:2023-03-04
# 生物にインスパイアされた場所表現一般化のための自己教師あり学習

Self-Supervised Learning for Biologically-Inspired Place Representation Generalization across Appearance Changes ( http://arxiv.org/abs/2303.02370v1 )

ライセンス: Link先を確認
Mohamed Adel Musallam, Vincent Gaudilli\`ere, Djamila Aouada(参考訳) 視覚的な場所認識は、動物、人間、ロボットのための空間ナビゲーションの鍵となる。 生物学的観点から、神経科学の研究は、場所認識能力は、場所の精神的な表現を抽象化して、見えない状態に一般化することを前提としている。 そこで我々は,幾何学的変換に敏感ながら外観変化に敏感な学習特徴を自己指導的に検討した。 この二重目的トレーニングは,2つの自己スーパービジョンのメインパラダイムである \textit{i.e} と予測学習を組み合わせることで実現されている。 標準ベンチマークの結果から,出現非変量および幾何学同変画像記述子を共同学習することで,人間の注釈ラベルを必要とせずに,季節や照明条件の競合的視覚位置認識結果が得られることが明らかとなった。

Visual place recognition is a key to unlocking spatial navigation for animals, humans and robots. From a biological perspective, research in neuroscience has shown that place recognition ability presupposes abstracting mental representations of places so that they can generalize to unseen conditions. Inspired by that, we investigate learning features that are insensitive to appearance modifications while sensitive to geometric transformations in a self-supervised manner. That dual-purpose training is made possible by combining the two self-supervision main paradigms, \textit{i.e.} contrastive and predictive learning. Our results on standard benchmarks reveal that jointly learning such appearance-invariant and geometry-equivariant image descriptors leads to competitive visual place recognition results across adverse seasonal and illumination conditions, without requiring any human-annotated labels
翻訳日:2023-03-07 20:03:29 公開日:2023-03-04
# 薬物・薬物相互作用に基づく慢性疾患の意思決定支援システム

Decision Support System for Chronic Diseases Based on Drug-Drug Interactions ( http://arxiv.org/abs/2303.02405v1 )

ライセンス: Link先を確認
Tian Bian, Yuli Jiang, Jia Li, Tingyang Xu, Yu Rong, Yi Su, Timothy Kwok, Helen Meng, Hong Cheng(参考訳) 慢性疾患の患者の多くは、様々な症状を緩和するために複数の薬物を服用しているため、重度の薬物依存症が深刻な副作用や死に至る可能性があるため、複数の薬物の使用の安全性を懸念する。 本稿では,DSSDDIと呼ばれる薬物と薬物の相互作用に基づく意思決定支援システムを提案する。 DSSDDIには、DDIモジュール、MDモジュール、MSモジュールの3つのモジュールが含まれている。 DDIモジュールは薬物と薬物の相互作用からより安全で効果的な薬物表現を学習する。 MDモジュールは、DDIと薬物使用の因果関係を捉えるために、患者と薬物の表現を文脈として、DDIと患者の類似性を治療として、そして薬物使用を表現学習のための偽のリンクを構築する結果として捉えている。 さらに、MSモジュールは医師に薬の候補に説明を提供する。 香港の慢性疾患研究プロジェクトから収集された慢性データと公衆診断データであるmemmy-iiiによる実験は、dssddiが臨床診断の安全性と効率の点で、基準法と比較して大幅に改善され、医師にとって信頼できる基準となることを証明している。

Many patients with chronic diseases resort to multiple medications to relieve various symptoms, which raises concerns about the safety of multiple medication use, as severe drug-drug antagonism can lead to serious adverse effects or even death. This paper presents a Decision Support System, called DSSDDI, based on drug-drug interactions to support doctors prescribing decisions. DSSDDI contains three modules, Drug-Drug Interaction (DDI) module, Medical Decision (MD) module and Medical Support (MS) module. The DDI module learns safer and more effective drug representations from the drug-drug interactions. To capture the potential causal relationship between DDI and medication use, the MD module considers the representations of patients and drugs as context, DDI and patients' similarity as treatment, and medication use as outcome to construct counterfactual links for the representation learning. Furthermore, the MS module provides drug candidates to doctors with explanations. Experiments on the chronic data collected from the Hong Kong Chronic Disease Study Project and a public diagnostic data MIMIC-III demonstrate that DSSDDI can be a reliable reference for doctors in terms of safety and efficiency of clinical diagnosis, with significant improvements compared to baseline methods.
翻訳日:2023-03-07 19:58:11 公開日:2023-03-04
# ノイズラベルを用いた細粒度分類

Fine-Grained Classification with Noisy Labels ( http://arxiv.org/abs/2303.02404v1 )

ライセンス: Link先を確認
Qi Wei, Lei Feng, Haoliang Sun, Ren Wang, Chenhui Guo, Yilong Yin(参考訳) 雑音ラベル(LNL)を用いた学習は,ラベル破損したトレーニングセットをモデル一般化することを目的としている。 本研究では,細粒度データセット(lnl-fg)におけるlnlのほとんど研究されていないシナリオについて検討する。 我々は,LNL-FGにおいて,LNL-FGの満足度を達成できない既存手法を実証的に示し,LNL-FGの有効解の実用化の必要性を指摘した。 そこで本研究では,ラベル雑音に直面する確率的雑音許容教師付きコントラスト学習(snscl)という新しい枠組みを提案する。 具体的には,雑音ラベル補正のための重み認識機構と,モーメントキューリストを選択的に更新するコントラスト学習損失について設計する。 この機構により、ノイズアンカーの効果を緩和し、モーメント更新キューにノイズラベルを挿入することを避ける。 さらに,コントラスト学習における手作業による拡張戦略を避けるために,生成した分布から埋め込みを抽出し,深層モデルの表現能力を向上させる効率的な確率モジュールを提案する。 SNSCLは汎用的で、LNL-FGの性能を向上させるための堅牢なLNL戦略と互換性がある。 SNSCLの有効性を示す実験が盛んである。

Learning with noisy labels (LNL) aims to ensure model generalization given a label-corrupted training set. In this work, we investigate a rarely studied scenario of LNL on fine-grained datasets (LNL-FG), which is more practical and challenging as large inter-class ambiguities among fine-grained classes cause more noisy labels. We empirically show that existing methods that work well for LNL fail to achieve satisfying performance for LNL-FG, arising the practical need of effective solutions for LNL-FG. To this end, we propose a novel framework called stochastic noise-tolerated supervised contrastive learning (SNSCL) that confronts label noise by encouraging distinguishable representation. Specifically, we design a noise-tolerated supervised contrastive learning loss that incorporates a weight-aware mechanism for noisy label correction and selectively updating momentum queue lists. By this mechanism, we mitigate the effects of noisy anchors and avoid inserting noisy labels into the momentum-updated queue. Besides, to avoid manually-defined augmentation strategies in contrastive learning, we propose an efficient stochastic module that samples feature embeddings from a generated distribution, which can also enhance the representation ability of deep models. SNSCL is general and compatible with prevailing robust LNL strategies to improve their performance for LNL-FG. Extensive experiments demonstrate the effectiveness of SNSCL.
翻訳日:2023-03-07 19:57:47 公開日:2023-03-04
# 3次元点雲における開ボキャブラリーアフォーアンス検出

Open-Vocabulary Affordance Detection in 3D Point Clouds ( http://arxiv.org/abs/2303.02401v1 )

ライセンス: Link先を確認
Toan Ngyen, Minh Nhat Vu, An Vuong, Dzung Nguyen, Thieu Vo, Ngan Le, Anh Nguyen(参考訳) 加速度検出は様々なロボット応用において難しい問題である。 従来のアフォーアンス検出手法は、予め定義されたアフォーアンスラベルに制限されており、複雑な動的環境でのインテリジェントロボットの適応性を制限する可能性がある。 そこで,本稿では,3次元点雲内の無拘束数を検出できるopen-vocabulary affordance detection (openad)法を提案する。 OpenADは、手当テキストとポイント特徴を同時に学習することで、手当間の意味的関係をうまく活用する。 そこで,提案手法では,ゼロショット検出が可能であり,単一アノテーションの例を使わずに,事前に認識した余裕を検出できる。 集中的な実験結果から,OpenADは幅広いアベイランス検出装置で効果的に機能し,他のベースラインよりも大きなマージンで優れていた。 さらに,提案手法を実世界のロボットアプリケーションに適用し,推算速度(約100ms)の速い openad の実用性を示す。

Affordance detection is a challenging problem with a wide variety of robotic applications. Traditional affordance detection methods are limited to a predefined set of affordance labels, hence potentially restricting the adaptability of intelligent robots in complex and dynamic environments. In this paper, we present the Open-Vocabulary Affordance Detection (OpenAD) method, which is capable of detecting an unbounded number of affordances in 3D point clouds. By simultaneously learning the affordance text and the point feature, OpenAD successfully exploits the semantic relationships between affordances. Therefore, our proposed method enables zero-shot detection and can detect previously unseen affordances without a single annotation example. Intensive experimental results show that OpenAD works effectively on a wide range of affordance detection setups and outperforms other baselines by a large margin. Additionally, we demonstrate the practicality of the proposed OpenAD in real-world robotic applications with a fast inference speed (~100 ms).
翻訳日:2023-03-07 19:57:05 公開日:2023-03-04
# 野生の微細画像ネットワーク分類

Fine-Grained ImageNet Classification in the Wild ( http://arxiv.org/abs/2303.02400v1 )

ライセンス: Link先を確認
Maria Lymperaiou, Konstantinos Thomas, Giorgos Stamou(参考訳) 画像分類はディープラーニングにおいて最も人気のあるタスクの1つであり、毎年印象的な実装が数多く見られる。 しかしながら、パフォーマンス指標を継続的に高くする複雑なアーキテクチャの促進には、多くの批判がある。 ロバストネステストは、典型的なモデル評価段階で気づかないいくつかの脆弱性やバイアスを明らかにすることができる。 これまでのところ、分散シフトの下でのモデルロバスト性は主に慎重にキュレートされたデータセットで検討されている。 しかし、そのような手法は、例えば、未処理のWebクローリング画像データを提供する場合など、野生の分類器の実際の応答をテストしない。 本研究では,階層的知識の助けを借りて,密接な関連カテゴリについて詳細な分類を行う。 様々な畳み込みおよびトランスフォーマーベースのアーキテクチャに関する大規模な実験は、この新しい環境でモデルロバスト性を明らかにする。 最後に、階層的知識は再び誤分類を評価し説明するために使われ、任意の分類器に適応可能な情報豊富な評価スキームを提供する。

Image classification has been one of the most popular tasks in Deep Learning, seeing an abundance of impressive implementations each year. However, there is a lot of criticism tied to promoting complex architectures that continuously push performance metrics higher and higher. Robustness tests can uncover several vulnerabilities and biases which go unnoticed during the typical model evaluation stage. So far, model robustness under distribution shifts has mainly been examined within carefully curated datasets. Nevertheless, such approaches do not test the real response of classifiers in the wild, e.g. when uncurated web-crawled image data of corresponding classes are provided. In our work, we perform fine-grained classification on closely related categories, which are identified with the help of hierarchical knowledge. Extensive experimentation on a variety of convolutional and transformer-based architectures reveals model robustness in this novel setting. Finally, hierarchical knowledge is again employed to evaluate and explain misclassifications, providing an information-rich evaluation scheme adaptable to any classifier.
翻訳日:2023-03-07 19:56:38 公開日:2023-03-04
# RweetMiner: 災害時のTwitterにおけるヘルプリクエストの自動識別と分類

RweetMiner: Automatic identification and categorization of help requests on twitter during disasters ( http://arxiv.org/abs/2303.02399v1 )

ライセンス: Link先を確認
Irfan Ullah, Sharifullah Khan, Muhammad Imran, Young-Koo Lee(参考訳) 破滅的な出来事は人道的な組織にとって不確実な状況を生み出す。 災害時にソーシャルメディアで助けを求めたり、他人に救済を求めたりしている人が多い。 しかし、支援を求めるソーシャルメディア投稿の大多数は、騒々しく不作為、適切に検知され、隠されたままであった。 既存のシステムは、ツイートの前処理とツイートのコンテキスト把握のための効果的な戦略を計画していない。 この研究は、まず最初に、ソーシャルネットワークサイトのコンテキストにおけるリクエストのつぶやきを、それぞれのプライマリタイプとサブタイプとともに公式に定義する。 私たちの主な貢献は、rweetの識別と分類です。 rweetの識別には,ルールベースとロジスティック回帰という2つのアプローチを採用し,高い精度とf1スコアを示す。 ロジスティック回帰を用いて、ルウェッツを医療、食品、シェルターなどのサブタイプに分類すると、有望な結果を示し、既存の作品を上回っている。 最後に,中間データを格納し,機械学習分類器の開発プロセスを高速化するアーキテクチャを提案する。

Catastrophic events create uncertain situations for humanitarian organizations locating and providing aid to affected people. Many people turn to social media during disasters for requesting help and/or providing relief to others. However, the majority of social media posts seeking help could not properly be detected and remained concealed because often they are noisy and ill-formed. Existing systems lack in planning an effective strategy for tweet preprocessing and grasping the contexts of tweets. This research, first of all, formally defines request tweets in the context of social networking sites, hereafter rweets, along with their different primary types and sub-types. Our main contributions are the identification and categorization of rweets. For rweet identification, we employ two approaches, namely a rule-based and logistic regression, and show their high precision and F1 scores. The rweets classification into sub-types such as medical, food, and shelter, using logistic regression shows promising results and outperforms existing works. Finally, we introduce an architecture to store intermediate data to accelerate the development process of the machine learning classifiers.
翻訳日:2023-03-07 19:56:17 公開日:2023-03-04
# 環境音の手続き的音響モデル学習のための一般フレームワーク

A General Framework for Learning Procedural Audio Models of Environmental Sounds ( http://arxiv.org/abs/2303.02396v1 )

ライセンス: Link先を確認
Danzel Serrano and Mark Cartwright(参考訳) 本稿では,環境音のプロシージャPAモデルを学習するための一般的なアプローチとしてProVE(Procedural (audio) Variational AutoEncoder)フレームワークを紹介する。 この枠組みは2つの段階からなる。 (i)音声オートエンコーダの訓練により潜在表現空間を定義する音声クラス表現 (ii)オーディオエンコーダを置き換えるために、音声から派生した静的・時間的制御変数と一様ノイズのランダムサンプルとの結合関数を学習する制御マッピング。 各種表面におけるフットステップ音響効果を例に,ProVEの使用例を示した。 以上の結果から,Fr'echet Audio Distance (FAD), Maximum Mean Discrepancy (MMD) および主観的評価により,従来のPAモデルと敵対的アプローチの両面において,音響設計ワークフローのためのツールとして優れていることがわかった。

This paper introduces the Procedural (audio) Variational autoEncoder (ProVE) framework as a general approach to learning Procedural Audio PA models of environmental sounds with an improvement to the realism of the synthesis while maintaining provision of control over the generated sound through adjustable parameters. The framework comprises two stages: (i) Audio Class Representation, in which a latent representation space is defined by training an audio autoencoder, and (ii) Control Mapping, in which a joint function of static/temporal control variables derived from the audio and a random sample of uniform noise is learned to replace the audio encoder. We demonstrate the use of ProVE through the example of footstep sound effects on various surfaces. Our results show that ProVE models outperform both classical PA models and an adversarial-based approach in terms of sound fidelity, as measured by Fr\'echet Audio Distance (FAD), Maximum Mean Discrepancy (MMD), and subjective evaluations, making them feasible tools for sound design workflows.
翻訳日:2023-03-07 19:55:58 公開日:2023-03-04
# Seq-HyGAN:Hypergraph Attention Networkによるシーケンス分類

Seq-HyGAN: Sequence Classification via Hypergraph Attention Network ( http://arxiv.org/abs/2303.02393v1 )

ライセンス: Link先を確認
Khaled Mohammed Saifuddin, Corey May, Farhan Tanvir, Muhammad Ifte Khairul Islam, Esra Akbas(参考訳) シークエンス分類は、健康におけるゲノム分類やビジネスにおける異常検出など、さまざまな領域における幅広い実世界の応用を有する。 しかし、シーケンスデータに明示的な特徴がないため、機械学習モデルでは困難である。 ニューラルネットワーク(NN)モデルは、学習機能によってこの問題に対処するが、隣接する構造的接続をキャプチャし、シーケンス間のグローバルで高次情報を無視している。 シーケンス分類問題におけるこれらの課題に対処するため,我々は新しいハイパーグラフアテンションネットワークモデルseq-hyganを提案する。 シーケンスデータ間の複雑な構造的類似性を捉えるために、まず、シーケンスをハイパーエッジとして、シーケンスから抽出されたサブシーケンスをノードとして表現するハイパーグラフを作成する。 さらに,2段階の注意機構を利用した注意に基づくハイパーグラフニューラルネットワークモデルを提案する。 このモデルは、各シーケンスの重要なサブシーケンスを同時に学習しながら、ハイパーエッジとしてシーケンス表現を生成する。 我々は4つのデータセットについて広範な実験を行い、そのモデルをいくつかの最先端手法と比較した。 実験により,提案したSeq-HyGANモデルにより,シーケンスデータを効果的に分類し,ベースラインを大幅に上回ることを示す。 また,Seq-HyGANにおける各モジュールの寄与を調べるケーススタディも実施する。

Sequence classification has a wide range of real-world applications in different domains, such as genome classification in health and anomaly detection in business. However, the lack of explicit features in sequence data makes it difficult for machine learning models. While Neural Network (NN) models address this with learning features automatically, they are limited to capturing adjacent structural connections and ignore global, higher-order information between the sequences. To address these challenges in the sequence classification problems, we propose a novel Hypergraph Attention Network model, namely Seq-HyGAN. To capture the complex structural similarity between sequence data, we first create a hypergraph where the sequences are depicted as hyperedges and subsequences extracted from sequences are depicted as nodes. Additionally, we introduce an attention-based Hypergraph Neural Network model that utilizes a two-level attention mechanism. This model generates a sequence representation as a hyperedge while simultaneously learning the crucial subsequences for each sequence. We conduct extensive experiments on four data sets to assess and compare our model with several state-of-the-art methods. Experimental results demonstrate that our proposed Seq-HyGAN model can effectively classify sequence data and significantly outperform the baselines. We also conduct case studies to investigate the contribution of each module in Seq-HyGAN.
翻訳日:2023-03-07 19:55:37 公開日:2023-03-04
# ユーザ生成コンテンツの音質評価:データベースと方法

Audio-Visual Quality Assessment for User Generated Content: Database and Method ( http://arxiv.org/abs/2303.02392v1 )

ライセンス: Link先を確認
Yuqin Cao, Xiongkuo Min, Wei Sun, Xiaoping Zhang, Guangtao Zhai(参考訳) ユーザ生成コンテンツ(UGC)の爆発的な増加に伴い,UGCビデオ品質評価(VQA)は,ユーザエクスペリエンスの品質向上(QoE)においてますます重要になっている。 しかしながら、既存のUGC VQA研究のほとんどは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。 本稿では,UGCオーディオと映像品質評価(AVQA)の課題に対処するための最初の研究を行う。 具体的には、sjtu-uavデータベースと呼ばれる最初のucc avqaデータベースを構築し、520個のin-the-wild ugc audio and video (a/v)シーケンスを含む。 SJTU-UAVデータベースの内容は、音声とビデオの両方から分析され、データベースの特徴を示す。 また,サポートベクトル回帰器(SVR)を介して,一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。 提案モデルの有効性を3つのデータベース上で検証する。 実験の結果,VQAモデルは音声信号を用いて知覚品質をより正確に評価できることがわかった。 データベースは、さらなる研究を促進するためにリリースされる。

With the explosive increase of User Generated Content (UGC), UGC video quality assessment (VQA) becomes more and more important for improving users' Quality of Experience (QoE). However, most existing UGC VQA studies only focus on the visual distortions of videos, ignoring that the user's QoE also depends on the accompanying audio signals. In this paper, we conduct the first study to address the problem of UGC audio and video quality assessment (AVQA). Specifically, we construct the first UGC AVQA database named the SJTU-UAV database, which includes 520 in-the-wild UGC audio and video (A/V) sequences, and conduct a user study to obtain the mean opinion scores of the A/V sequences. The content of the SJTU-UAV database is then analyzed from both the audio and video aspects to show the database characteristics. We also design a family of AVQA models, which fuse the popular VQA methods and audio features via support vector regressor (SVR). We validate the effectiveness of the proposed models on the three databases. The experimental results show that with the help of audio signals, the VQA models can evaluate the perceptual quality more accurately. The database will be released to facilitate further research.
翻訳日:2023-03-07 19:55:16 公開日:2023-03-04
# 欠陥認識特徴操作によるFew-Shot欠陥画像生成

Few-Shot Defect Image Generation via Defect-Aware Feature Manipulation ( http://arxiv.org/abs/2303.02389v1 )

ライセンス: Link先を確認
Yuxuan Duan, Yan Hong, Li Niu, Liqing Zhang(参考訳) 欠陥検査の性能は, 産業における欠陥画像の不足によって著しく損なわれ, データの増大に伴い, より多くのサンプルを生成できる。 難易度の低いケースにおいて,最初の欠陥画像生成手法を提案する。 一握りの欠陥画像と、比較的欠陥のない画像を考えると、私たちの目標は、新しい欠陥画像でデータセットを強化することです。 我々の方法は2つの訓練段階からなる。 まず、欠陥のないイメージをバックボーンとして、データ効率のよいStyleGAN2をトレーニングする。 次に, バックボーンに欠陥認識残差ブロックを付加し, 適切な欠陥マスクの生成を学習し, 付加したモジュールを限られた欠陥画像でトレーニングすることにより, マスク領域内の特徴を操作できる。 MVTec ADデータセットの大規模な実験は、現実的で多様な欠陥画像を生成する方法の有効性を検証するだけでなく、下流の欠陥検査タスクにもたらす利点を示す。 コードはhttps://github.com/ldhlwh/dfmganで入手できる。

The performances of defect inspection have been severely hindered by insufficient defect images in industries, which can be alleviated by generating more samples as data augmentation. We propose the first defect image generation method in the challenging few-shot cases. Given just a handful of defect images and relatively more defect-free ones, our goal is to augment the dataset with new defect images. Our method consists of two training stages. First, we train a data-efficient StyleGAN2 on defect-free images as the backbone. Second, we attach defect-aware residual blocks to the backbone, which learn to produce reasonable defect masks and accordingly manipulate the features within the masked regions by training the added modules on limited defect images. Extensive experiments on MVTec AD dataset not only validate the effectiveness of our method in generating realistic and diverse defect images, but also manifest the benefits it brings to downstream defect inspection tasks. Codes are available at https://github.com/Ldhlwh/DFMGAN.
翻訳日:2023-03-07 19:54:54 公開日:2023-03-04
# グラニュラーボールに基づく画像のグラフベース表現

Graph-based Representation for Image based on Granular-ball ( http://arxiv.org/abs/2303.02388v1 )

ライセンス: Link先を確認
Xia Shuyin, Dai Dawei, Yang Long, Zhany Li, Lan Danf, Zhu hao, Wang Guoy(参考訳) 現在の画像処理法は、通常、最も粒度の高い単位、すなわち、深層学習モデルの効率性、堅牢性、理解性の面での課題をもたらすピクセルで機能する。 本稿では,各ノードが画像内の構造的ブロックを表現し,各エッジが2つのノード間の関連を表すグラフとして画像を表現するための改良された粒界計算手法を提案する。 1)画像中のすべての画素を1つのノードと見なすことができる多数の長方形領域に適応的再構成するための勾配に基づく戦略を設計する。 (2) 各ノードは、そのノードが共有するノードとの接続エッジを有する。 (3) 各ノードの属性として低次元ベクトルを設計する。 すべてのノードとそのエッジは、デジタル画像のグラフィカルな表現を形成する。 実験では,画像分類タスクのベンチマークデータセットにグラフ表現を適用し,その効率と良好な理解性から,提案手法が人工知能理論や応用に有意義な可能性を実証した。

Current image processing methods usually operate on the finest-granularity unit; that is, the pixel, which leads to challenges in terms of efficiency, robustness, and understandability in deep learning models. We present an improved granular-ball computing method to represent the image as a graph, in which each node expresses a structural block in the image and each edge represents the association between two nodes. Specifically:(1) We design a gradient-based strategy for the adaptive reorganization of all pixels in the image into numerous rectangular regions, each of which can be regarded as one node. (2) Each node has a connection edge with the nodes with which it shares regions. (3) We design a low-dimensional vector as the attribute of each node. All nodes and their corresponding edges form a graphical representation of a digital image. In the experiments, our proposed graph representation is applied to benchmark datasets for image classification tasks, and the efficiency and good understandability demonstrate that our proposed method offers significant potential in artificial intelligence theory and application.
翻訳日:2023-03-07 19:54:37 公開日:2023-03-04
# 相互作用スカラー量子場理論における相転移の量子計算

Quantum Computation of Phase Transition in Interacting Scalar Quantum Field Theory ( http://arxiv.org/abs/2303.02425v1 )

ライセンス: Link先を確認
Shane Thompson and George Siopsis(参考訳) 1つの空間次元におけるクォート相互作用を持つスカラー量子場理論における相転移の臨界点はガウス効果ポテンシャル(GEP)によって近似できることが示されている。 この臨界点を量子ハードウェアを用いてどのように推定するかを論じる。 様々な格子サイズの量子計算を行い、対称位相から対称性ブロッキング相への遷移の証拠を得る。 離散量子計算と連続変数量子計算の両方を用いる。 我々は,変分量子固有解法(VQE)アルゴリズムを用いて,GEPの最小化と格子レベルの交差の同定を行う。 これらは連続臨界点を見つけるためにシミュレーションによって外挿される。

It has been demonstrated that the critical point of the phase transition in scalar quantum field theory with a quartic interaction in one space dimension can be approximated via a Gaussian Effective Potential (GEP). We discuss how this critical point can be estimated using quantum hardware. We perform quantum computations with various lattice sizes and obtain evidence of a transition from a symmetric to a symmetry-broken phase. We use both discrete- and continuous-variable quantum computation. We implement the ten-site case on IBM quantum hardware using the Variational Quantum Eigensolver (VQE) algorithm to minimize the GEP and identify lattice level-crossings. These are extrapolated via simulations to find the continuum critical point.
翻訳日:2023-03-07 19:48:14 公開日:2023-03-04
# SYK可解モデルにおける強相互作用性フェルミオン超流体の減衰ダイナミクス

Attenuating Dynamics of Strongly Interacting Fermionic Superfluids in SYK Solvable Models ( http://arxiv.org/abs/2303.02422v1 )

ライセンス: Link先を確認
Tian-Gang Zhou and Pengfei Zhang(参考訳) フェルミイオン超流体のクエンチダイナミクスは実験的にも理論的にも活発な話題である。 BCS理論を用いると、そのような非平衡問題は時間依存平均場ペアリング項だけでほとんど独立なスピン力学に還元できる。 これにより、特定のパラメータレジームにおけるパーリング強度の持続的な振動が生じる。 しかし実験では、一元性フェルミガスのような相互作用が強くなると、振動が急速に崩壊することが観察された。 理論的な分析はいまだにない。 本研究では,一次元BCSシステムにおける強い相互作用の効果を解析するためのSYK様モデルを構築する。 我々は、高額なN$近似とグリーン関数に基づく手法を用いて平衡問題の解法とクエンチダイナミクスを解く。 強いSYK相互作用はパーリング順序を抑制する。 さらに,本システムは本態性ペアリング順序と近接効果の両方において,SYK相互作用により急速に熱分解し,振動の強度が急速に低下することを確認する。 崩壊速度はSYK相互作用に対する異なるスケーリング則を示し、ボルツマン方程式で理解することができる。 我々の研究は、強相互作用するフェルミオン超流体の減衰ダイナミクスを理解するための第一歩となる。

Quench dynamics of fermionic superfluids is an active topic both experimentally and theoretically. Using the BCS theory, such non-equilibrium problems can be reduced to nearly independent spin dynamics only with a time-dependent mean-field pairing term. This results in persisting oscillations of the paring strength in certain parameter regimes. In experiments, however, it is observed that the oscillation decays rapidly when the interaction becomes strong, such as in the unitary fermi gas. A theoretical analysis is still absent. In this work, we construct an SYK-like model to analyze the effect of strong interactions in one dimensional BCS system. We utilize the large-$N$ approximation and Green's function-based technique to solve the equilibrium problem and quench dynamics. We find that a strong SYK interaction suppresses the paring order. We further verify that the system quickly thermalizes with SYK interactions for both intrinsic pairing order or proximity effect, which leads to a rapid decay of the strength of the oscillations. The decay rates exhibit different scaling laws against SYK interaction, which can be understood in terms of the Boltzmann equation. Our work makes a first step towards the understanding of attenuating dynamics of strongly interacting fermionic superfluids.
翻訳日:2023-03-07 19:48:04 公開日:2023-03-04
# 生物配列解析におけるGANの可能性を探る

Exploring The Potential Of GANs In Biological Sequence Analysis ( http://arxiv.org/abs/2303.02421v1 )

ライセンス: Link先を確認
Taslim Murad, Sarwan Ali, Murray Patterson(参考訳) 生物学的シーケンス解析は、塩基配列の基盤となる機能、構造、挙動をより深く理解するための重要なステップである。 ウイルスなどの関連生物の特徴を識別し、ウイルスが世界的なパンデミックを引き起こすことが知られているため、その拡散と影響を根絶するための予防メカニズムを構築するのに役立つ。 生物学的配列解析のための新しいツールは機械学習(ML)技術によって提供され、シーケンスの機能と構造を効果的に分析する。 しかし、これらのMLベースの手法は、一般に生物学的なシーケンスデータセットと関連するデータ不均衡の課題を解決し、その性能を阻害する。 合成データを生成するSMOTEアルゴリズムのように、この問題に対処するためには様々な戦略が存在するが、クラス全体の分布ではなく、ローカル情報に焦点を当てている。 本研究では,全体データ分布を用いたgans(generative adversarial network)に基づくデータ不均衡問題を扱うための新しい手法を提案する。 GANは実データとよく似た合成データを生成するために利用されており、この生成データは、生物配列解析のクラス不均衡問題を根絶してMLモデルの性能を向上させるために利用することができる。 Influenza A Virus, PALMdb, VDjDB)を用いて3つの異なる分類処理を行い, GANが全体的な分類性能を向上させることを示す。

Biological sequence analysis is an essential step toward building a deeper understanding of the underlying functions, structures, and behaviors of the sequences. It can help in identifying the characteristics of the associated organisms, like viruses, etc., and building prevention mechanisms to eradicate their spread and impact, as viruses are known to cause epidemics that can become pandemics globally. New tools for biological sequence analysis are provided by machine learning (ML) technologies to effectively analyze the functions and structures of the sequences. However, these ML-based methods undergo challenges with data imbalance, generally associated with biological sequence datasets, which hinders their performance. Although various strategies are present to address this issue, like the SMOTE algorithm, which creates synthetic data, however, they focus on local information rather than the overall class distribution. In this work, we explore a novel approach to handle the data imbalance issue based on Generative Adversarial Networks (GANs) which use the overall data distribution. GANs are utilized to generate synthetic data that closely resembles the real one, thus this generated data can be employed to enhance the ML models' performance by eradicating the class imbalance problem for biological sequence analysis. We perform 3 distinct classification tasks by using 3 different sequence datasets (Influenza A Virus, PALMdb, VDjDB) and our results illustrate that GANs can improve the overall classification performance.
翻訳日:2023-03-07 19:47:44 公開日:2023-03-04
# マルチビヘイビアレコメンデーションのための圧縮相互作用グラフベースフレームワーク

Compressed Interaction Graph based Framework for Multi-behavior Recommendation ( http://arxiv.org/abs/2303.02418v1 )

ライセンス: Link先を確認
Wei Guo, Chang Meng, Enming Yuan, Zhicheng He, Huifeng Guo, Yingxue Zhang, Bo Chen, Yaochen Hu, Ruiming Tang, Xiu Li, Rui Zhang(参考訳) マルチタイプのユーザ行動データ(例えば、クリック、カートの追加、購入など)は、ほとんどの現実世界のレコメンデーションシナリオに記録されており、ユーザの多面的な好みを学ぶのに役立つ。 しかし、不均衡なデータ分布とスパース標的行動のため、マルチタスクデータ「特徴」処理時の高次関係の不適切なモデリング、マルチタスクデータ「ラベル」処理時のマルチタスク学習における勾配競合など、マルチタスクデータの探索は困難である。 本稿では、上記の制限を克服するために、圧縮相互作用グラフベースのフレームワークCIGFを提案する。 具体的には、インスタンスレベルの高次関係を明示的にモデル化する新しい圧縮相互作用グラフ畳み込みネットワーク(CIGCN)を設計する。 マルチタスク学習のためのCIGCNの上部に個別の入力を持つMulti-Expert with Separate Input (MESI) ネットワークを提案する。 3つの大規模な実世界のデータセットに関する総合的な実験は、CIGFの優位性を示している。 アブレーション研究と詳細な分析により,高次関係の獲得と勾配衝突緩和における提案モデルの有効性がさらに検証された。 ソースコードとデータセットはhttps://github.com/MC-CV/CIGFで公開されている。

Multi-types of user behavior data (e.g., clicking, adding to cart, and purchasing) are recorded in most real-world recommendation scenarios, which can help to learn users' multi-faceted preferences. However, it is challenging to explore multi-behavior data due to the unbalanced data distribution and sparse target behavior, which lead to the inadequate modeling of high-order relations when treating multi-behavior data ''as features'' and gradient conflict in multitask learning when treating multi-behavior data ''as labels''. In this paper, we propose CIGF, a Compressed Interaction Graph based Framework, to overcome the above limitations. Specifically, we design a novel Compressed Interaction Graph Convolution Network (CIGCN) to model instance-level high-order relations explicitly. To alleviate the potential gradient conflict when treating multi-behavior data ''as labels'', we propose a Multi-Expert with Separate Input (MESI) network with separate input on the top of CIGCN for multi-task learning. Comprehensive experiments on three large-scale real-world datasets demonstrate the superiority of CIGF. Ablation studies and in-depth analysis further validate the effectiveness of our proposed model in capturing high-order relations and alleviating gradient conflict. The source code and datasets are available at https://github.com/MC-CV/CIGF.
翻訳日:2023-03-07 19:47:22 公開日:2023-03-04
# PixMIM:マズーク画像モデリングにおけるピクセル再構成の再考

PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling ( http://arxiv.org/abs/2303.02416v1 )

ライセンス: Link先を確認
Yuan Liu, Songyang Zhang, Jiacheng Chen, Kai Chen, Dahua Lin(参考訳) Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。 しかし、その後の作業は、新しい補助タスクや予備訓練されたモデルでフレームワークを複雑化し、必然的に計算オーバーヘッドを増加させた。 本稿では,入力画像のパッチと再構成対象について検討する画素再構成の観点から,mimの基本解析を行い,これまで見過ごされていた2つのボトルネックを浮き彫りにする。この分析に基づいて,非常に単純で効果的な方法pixmimを提案する。 1) 再構成対象から高周波成分をフィルタリングし、テクスチャに富む詳細へのネットワークの焦点を強調しない。 2)MIMトレーニングにおける前景不足の問題を軽減するため,保守的なデータ変換戦略を採用する。 PixMIMは、既存のピクセルベースのMIMアプローチ(例えば、生画像を再構成ターゲットとして使用する)に、無視できる追加計算で簡単に統合できる。 ベルとホイッスルがなければ,提案手法は様々な下流タスクにおいて,MAE,ConvMAE,LSMAEの3つのMIMアプローチを一貫して改善する。 我々は,この効果的なプラグアンドプレイ方式が,自己指導型学習の強力なベースラインとなり,MIMフレームワークの今後の改良に対する洞察を提供すると考えている。 コードはhttps://github.com/open-mmlab/mmselfsupで入手できる。

Masked Image Modeling (MIM) has achieved promising progress with the advent of Masked Autoencoders (MAE) and BEiT. However, subsequent works have complicated the framework with new auxiliary tasks or extra pre-trained models, inevitably increasing computational overhead. This paper undertakes a fundamental analysis of MIM from the perspective of pixel reconstruction, which examines the input image patches and reconstruction target, and highlights two critical but previously overlooked bottlenecks.Based on this analysis, we propose a remarkably simple and effective method, PixMIM, that entails two strategies: 1) filtering the high-frequency components from the reconstruction target to de-emphasize the network's focus on texture-rich details and 2) adopting a conservative data transform strategy to alleviate the problem of missing foreground in MIM training. PixMIM can be easily integrated into most existing pixel-based MIM approaches (i.e., using raw images as reconstruction target) with negligible additional computation. Without bells and whistles, our method consistently improves three MIM approaches, MAE, ConvMAE, and LSMAE, across various downstream tasks. We believe this effective plug-and-play method will serve as a strong baseline for self-supervised learning and provide insights for future improvements of the MIM framework. Code will be available at https://github.com/open-mmlab/mmselfsup.
翻訳日:2023-03-07 19:46:58 公開日:2023-03-04
# 可変距離相互作用を有する不整形スピン鎖のエンタングルメントエントロピー成長

Entanglement Entropy Growth in Disordered Spin Chains with Tunable Range Interactions ( http://arxiv.org/abs/2303.02415v1 )

ライセンス: Link先を確認
Youcef Mohdeb, Javad Vahedi, Ravindra N. Bhatt, Stephan Haas, Stefan Kettemann(参考訳) グローバル量子クエンチ後の乱れ多体量子系の非平衡力学は、相互作用と乱れの競合に関する重要な洞察を明らかにし、特に多くの身体局在(MBL)についての洞察に富む視点をもたらす。 それでも、長距離相互作用するスピンチェーンにおける結合ランダム性が量子クエンチダイナミクスに与える影響は、これまで研究されていない。 本稿では、ランダムに配置されたスピンと長距離可変相互作用がパワー$\alpha$で崩壊する量子スピン鎖における大域クエンチ後の絡み合いエントロピー成長について検討する。 強障害再正規化群 (SDRG) の動的バージョンを用いて、$\alpha >\alpha_c$ のエントロピーは時間とともに対数的に増大し、より大きい$\alpha$ が $S(t) = S_p \ln(t)/(2\alpha)$ となる。 ここで、$S_p= 2 \ln2 -1$。 数値的厳密対角化(ed)シミュレーションを用いて、システムサイズを最大$n\sim 16$ スピンで検証し、十分大きな$\alpha > \alpha_c \approx 1.8$ の合意を得る。 0<\gamma(\alpha)<1$ は相互作用指数 $\alpha$ の減衰関数である。

The non-equilibrium dynamics of disordered many-body quantum systems after a global quantum quench unveils important insights about the competition between interactions and disorder, yielding in particular an insightful perspective on many body localization (MBL). Still, the experimentally relevant effect of bond randomness in long-range interacting spin chains on the quantum quench dynamics have so far not been investigated. In this letter, we examine the entanglement entropy growth after a global quench in a quantum spin chain with randomly placed spins and long-range tunable interactions decaying with distance with power $\alpha$. Using a dynamical version of the strong disorder renormalization group (SDRG) we find for $\alpha >\alpha_c$ that the entanglement entropy grows logarithmically with time and becomes smaller with larger $\alpha$ as $S(t) = S_p \ln(t)/(2\alpha)$. Here, $S_p= 2 \ln2 -1$. We use numerical exact diagonalization (ED) simulations to verify our results for system sizes up to $ N\sim 16$ spins, yielding good agreement for sufficiently large $\alpha > \alpha_c \approx 1.8$. For $\alpha<\alpha_c$, we find that the entanglement entropy grows as a power-law with time, $S(t)\sim t^{\gamma(\alpha)}$ with $0<\gamma(\alpha)<1$ a decaying function of the interaction exponent $\alpha$.
翻訳日:2023-03-07 19:46:36 公開日:2023-03-04
# マーカレスポーズ推定のための軌道再構成の改良

Improved Trajectory Reconstruction for Markerless Pose Estimation ( http://arxiv.org/abs/2303.02413v1 )

ライセンス: Link先を確認
R. James Cotton, Anthony Cimorelli, Kunal Shah, Shawana Anarwala, Scott Uhlrich, Tasos Karakostas(参考訳) マーカーレスポーズ推定は、複数の同期および校正されたビューから人間の動きを再構築することができ、歩行分析を含む動き解析を容易かつ迅速にする可能性がある。 これにより、歩行障害のより頻繁で定量的な特徴付けが可能となり、その結果と介入に対する反応をより良く監視することができる。 しかし、異なるキーポイント検出器と再構成アルゴリズムがマーカーレスポーズ推定精度に与える影響は十分に評価されていない。 リハビリテーション病院で見かけた25人の異種サンプルから, マルチカメラシステムから取得したデータに基づいて, これらのアルゴリズムの選択を検証した。 その結果,8mmのGaitRiteウォークウェイに比べて,歩幅推定値にノイズがみられ,上向きのキーポイント検出器と暗黙の関数で軌跡を再構築することで,正確で滑らかで解剖学的に妥当な軌跡が得られた。

Markerless pose estimation allows reconstructing human movement from multiple synchronized and calibrated views, and has the potential to make movement analysis easy and quick, including gait analysis. This could enable much more frequent and quantitative characterization of gait impairments, allowing better monitoring of outcomes and responses to interventions. However, the impact of different keypoint detectors and reconstruction algorithms on markerless pose estimation accuracy has not been thoroughly evaluated. We tested these algorithmic choices on data acquired from a multicamera system from a heterogeneous sample of 25 individuals seen in a rehabilitation hospital. We found that using a top-down keypoint detector and reconstructing trajectories with an implicit function enabled accurate, smooth and anatomically plausible trajectories, with a noise in the step width estimates compared to a GaitRite walkway of only 8mm.
翻訳日:2023-03-07 19:46:05 公開日:2023-03-04
# 最適輸送写像列に基づく進行ベイズ粒子の流れ

Progressive Bayesian Particle Flows based on Optimal Transport Map Sequences ( http://arxiv.org/abs/2303.02412v1 )

ライセンス: Link先を確認
Uwe D. Hanebeck(参考訳) 決定論的粒子を用いた最適ベイズフィルタ法を提案する。 粒子の変性を避けるために、フィルタステップを一度に実行しない。 その代わり、粒子は徐々に前から後へと流れる。 これはフィルタステップを一連のサブステップに分割することで実現される。 各サブステップにおいて、最適再サンプリングは、等重粒子を等重粒子に置き換える写像によって行われる。 写像の反転や単調性制約は不要であり、手続きを大幅に単純化する。 マッピングネットワークのパラメータは、パーティクルセット距離にw.r.t.\を最適化する。 この距離は微分可能であり、等重粒子と等重粒子を比較する。 写像列の合成は、前粒子から後粒子までの最終的なマッピングを提供する。 放射基底関数ニューラルネットワークは地図として使用される。 中間連続密度表現は不要であることが重要である。 フロー全体は粒子表現と直接連携する。 これにより、コストのかかる密度推定が回避される。

We propose a method for optimal Bayesian filtering with deterministic particles. In order to avoid particle degeneration, the filter step is not performed at once. Instead, the particles progressively flow from prior to posterior. This is achieved by splitting the filter step into a series of sub-steps. In each sub-step, optimal resampling is done by a map that replaces non-equally weighted particles with equally weighted ones. Inversions of the maps or monotonicity constraints are not required, greatly simplifying the procedure. The parameters of the mapping network are optimized w.r.t.\ to a particle set distance. This distance is differentiable, and compares non-equally and equally weighted particles. Composition of the map sequence provides a final mapping from prior to posterior particles. Radial basis function neural networks are used as maps. It is important that no intermediate continuous density representation is required. The entire flow works directly with particle representations. This avoids costly density estimation.
翻訳日:2023-03-07 19:45:49 公開日:2023-03-04
# ビシオ言語学習における知識の貢献:課題と課題に関する調査

The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges ( http://arxiv.org/abs/2303.02411v1 )

ライセンス: Link先を確認
Maria Lymperaiou, Giorgos Stamou(参考訳) visiolinguistic(vl)学習の最近の進歩は、視覚と言語の協調を必要とする様々なタスクを現在解決できる、いくつかの印象的な実装を提供する複数のモデルと技術の開発を可能にした。 VL事前学習に用いられる現在のデータセットは、限られた量の視覚的知識と言語的知識しか含んでおらず、多くのVLモデルの一般化能力を著しく制限している。 知識グラフ(kgs)や大規模言語モデル(llm)といった外部知識ソースは、不足した知識を埋め込むことで、そのような一般化ギャップをカバーでき、ハイブリッドアーキテクチャが出現する。 本研究では,このようなハイブリッドアプローチの恩恵を受けたタスクを分析した。 さらに、既存の知識ソースとタイプを分類し、kg対llmジレンマとその将来のハイブリッドアプローチへの潜在的影響について議論する。

Recent advancements in visiolinguistic (VL) learning have allowed the development of multiple models and techniques that offer several impressive implementations, able to currently resolve a variety of tasks that require the collaboration of vision and language. Current datasets used for VL pre-training only contain a limited amount of visual and linguistic knowledge, thus significantly limiting the generalization capabilities of many VL models. External knowledge sources such as knowledge graphs (KGs) and Large Language Models (LLMs) are able to cover such generalization gaps by filling in missing knowledge, resulting in the emergence of hybrid architectures. In the current survey, we analyze tasks that have benefited from such hybrid approaches. Moreover, we categorize existing knowledge sources and types, proceeding to discussion regarding the KG vs LLM dilemma and its potential impact to future hybrid approaches.
翻訳日:2023-03-07 19:45:40 公開日:2023-03-04
# クロス共振型ハードウェアを用いたパルス型変分量子固有解法に関する研究

A study of the pulse-based variational quantum eigensolver on cross-resonance based hardware ( http://arxiv.org/abs/2303.02410v1 )

ライセンス: Link先を確認
Daniel J. Egger, Chiara Capecci, Bibek Pokharel, Panagiotis Kl. Barkoutsos, Laurin E. Fischer, Leonardo Guidoni, and Ivano Tavernelli(参考訳) 最先端のノイズの多いデジタル量子コンピュータは、短距離量子回路しか実行できない。 変分アルゴリズムは、対応する回路の深さがハードウェアが想定する限界よりかなり低いため、ノイズの多い量子コンピュータのポテンシャルを解き放つための有望な経路である。 通常、変動パラメータは、キャリブレーションパルスの位相変化によって実装される仮想$r_z$ゲートアングルに対応する。 変動パラメータをハードウェアパルスの振幅と持続時間に直接エンコードすることで、パルススケジュールと回路全体の持続時間をさらに短縮することに成功した。 これにより、クビットデコヒーレンスとゲートノイズの影響が減少する。 実演として,ibmのクロス共振型ハードウェアを用いて,異なる水素系分子(h$_2$,h$_3$,h$_4$)の基底状態の計算にパルス型変分アルゴリズムを適用した。 我々は,cnot ベースの ans\"atze と比較して,最大 5\times$ のスケジュール期間の削減と,測定エネルギーの削減を観測した。 特に, H$_3$ の最小エネルギー構成を CNOT ベースの変分形式と比較すると, 大幅な改善が見られた。 最後に,ノイズの多い量子デバイス上での大規模システムのシミュレーションに向けてのアプローチをさらに改善するための,エラー軽減スキームやスケジュール最適化などの今後の展開について論じる。

State-of-the-art noisy digital quantum computers can only execute short-depth quantum circuits. Variational algorithms are a promising route to unlock the potential of noisy quantum computers since the depth of the corresponding circuits can be kept well below hardware-imposed limits. Typically, the variational parameters correspond to virtual $R_Z$ gate angles, implemented by phase changes of calibrated pulses. By encoding the variational parameters directly as hardware pulse amplitudes and durations we succeed in further shortening the pulse schedule and overall circuit duration. This decreases the impact of qubit decoherence and gate noise. As a demonstration, we apply our pulse-based variational algorithm to the calculation of the ground state of different hydrogen-based molecules (H$_2$, H$_3$ and H$_4$) using IBM cross-resonance-based hardware. We observe a reduction in schedule duration of up to $5\times$ compared to CNOT-based Ans\"atze, while also reducing the measured energy. In particular, we observe a sizable improvement of the minimal energy configuration of H$_3$ compared to a CNOT-based variational form. Finally, we discuss possible future developments including error mitigation schemes and schedule optimizations, which will enable further improvements of our approach paving the way towards the simulation of larger systems on noisy quantum devices.
翻訳日:2023-03-07 19:45:24 公開日:2023-03-04
# DAG Matters! グラフニューラルネットワークのためのgflownets拡張説明器

DAG Matters! GFlowNets Enhanced Explainer For Graph Neural Networks ( http://arxiv.org/abs/2303.02448v1 )

ライセンス: Link先を確認
Wenqian Li, Yinchuan Li, Zhigang Li, Jianye Hao, Yan Pang(参考訳) グラフニューラルネットワーク(gnns)の予測の背後にある根拠を明らかにすることは、長年にわたって注目を集めてきた。 現存する文献は主に、組合せ最適化を通じて、忠実な説明を提供するサブグラフの選択に焦点を当てている。 しかし、候補部分グラフの指数的サイズは、大規模GNNへの最先端手法の適用性を制限している。 GFlowNetsベースのGNN Explainer(GFlowExplainer)を提案することによって、最適化問題をステップバイステップの生成問題に変換する。 我々のGFlowExplainerは、サブグラフの確率がその報酬に比例するサブグラフの分布を生成するポリシーを学習することを目的としています。 提案手法は,ノードシーケンスの影響を排除し,事前学習戦略を必要としない。 また,GFlowNets構造に対する親状態の探索を効率的に行うために,カット頂点行列を提案する。 我々は合成データと実データの両方について広範な実験を行い、質的および定量的な結果はGFlowExplainerの優位性を示している。

Uncovering rationales behind predictions of graph neural networks (GNNs) has received increasing attention over the years. Existing literature mainly focus on selecting a subgraph, through combinatorial optimization, to provide faithful explanations. However, the exponential size of candidate subgraphs limits the applicability of state-of-the-art methods to large-scale GNNs. We enhance on this through a different approach: by proposing a generative structure -- GFlowNets-based GNN Explainer (GFlowExplainer), we turn the optimization problem into a step-by-step generative problem. Our GFlowExplainer aims to learn a policy that generates a distribution of subgraphs for which the probability of a subgraph is proportional to its' reward. The proposed approach eliminates the influence of node sequence and thus does not need any pre-training strategies. We also propose a new cut vertex matrix to efficiently explore parent states for GFlowNets structure, thus making our approach applicable in a large-scale setting. We conduct extensive experiments on both synthetic and real datasets, and both qualitative and quantitative results show the superiority of our GFlowExplainer.
翻訳日:2023-03-07 19:39:28 公開日:2023-03-04
# マルチメディア応用に基づく教師なし・教師なし学習法の比較研究

Comparative Studies of Unsupervised and Supervised Learning Methods based on Multimedia Applications ( http://arxiv.org/abs/2303.02446v1 )

ライセンス: Link先を確認
Amitesh Kumar Singam, Benny L\"ovstr\"om, Wlodek J. Kulesza(参考訳) モバイル通信分野では、ビデオアプリケーションの一部は、ビデオ品質評価のための堅牢な手法の関心を高めた。 既存のすべての手法の中で、参照ビデオの品質評価は、参照ビデオが部分的に利用できる状況において最も必要である。 我々の研究の関心は、人間の視覚的特徴に基づく1つのモデルに効果的な特徴を定式化し、融合することにある。 本研究は,教師なし学習法と教師なし学習法の比較研究である。 そこで我々は, 簡易な入力特徴を持つ品質推定のために, NRベースのビデオ品質基準(VQM)としてサポートベクタ回帰アルゴリズムを実装した。 提案手法は,SSIM品質測定値の客観的スコアに対して,次元の縮小後も疎度を示した。

In the mobile communication field, some of the video applications boosted the interest of robust methods for video quality assessment. Out of all existing methods, We Preferred, No Reference Video Quality Assessment is the one which is most needed in situations where the handiness of reference video is partially available. Our research interest lies in formulating and melding effective features into one model based on human visualizing characteristics. Our work explores comparative study between Supervised and unsupervised learning methods. Therefore, we implemented support vector regression algorithm as NR-based Video Quality Metric(VQM) for quality estimation with simplified input features. We concluded that our proposed model exhibited sparseness even after dimension reduction for objective scores of SSIM quality metric.
翻訳日:2023-03-07 19:39:09 公開日:2023-03-04
# アノテーションによる半教師付き学習

Federated Semi-Supervised Learning with Annotation Heterogeneity ( http://arxiv.org/abs/2303.02445v1 )

ライセンス: Link先を確認
Xinyi Shang, Gang Huang, Yang Lu, Jian Lou, Bo Han, Yiu-ming Cheung, Hanzi Wang(参考訳) Federated Semi-Supervised Learning (FSSL)は、ラベル付きデータとラベルなしデータの両方を使って、異なるクライアントからグローバルモデルを学ぶことを目的としている。 既存のFSSLの作業の多くは、一般的に、両方のタイプのデータが各クライアントで利用可能であると仮定している。 本稿では,各クライアントがラベル付きデータの任意のパーセンテージ(0%-100%)を保持可能なアノテーション不均一性を持つFSSLのより一般的な問題設定について検討する。 そこで本研究では, Heterogenely Annotated Semi-Supervised LEarning (HASSLE) と呼ばれる新しいFSSLフレームワークを提案する。 具体的には、2つのモデルをラベル付きデータとラベル付きデータに分離してトレーニングしたデュアルモデルフレームワークで、任意のラベル付率でクライアントに単純に適用することができる。 さらに,大域的残差アライメントとモデル近接アライメントを有するHASSLE内の双対モデルに対して,SUMA(Supervised-Unsupervised Mutual Alignment)と呼ばれる相互学習戦略を提案する。 その後、二重モデルは異なるクライアントにわたる両方のデータから暗黙的に学習できるが、それぞれの二重モデルは単一のデータに対してのみローカルに訓練される。 実験は、sumaが学習したハッスルの双対モデルが相互に学習できることを検証し、異なるクライアント間での両方の種類のデータの情報を効果的に活用する。

Federated Semi-Supervised Learning (FSSL) aims to learn a global model from different clients in an environment with both labeled and unlabeled data. Most of the existing FSSL work generally assumes that both types of data are available on each client. In this paper, we study a more general problem setup of FSSL with annotation heterogeneity, where each client can hold an arbitrary percentage (0%-100%) of labeled data. To this end, we propose a novel FSSL framework called Heterogeneously Annotated Semi-Supervised LEarning (HASSLE). Specifically, it is a dual-model framework with two models trained separately on labeled and unlabeled data such that it can be simply applied to a client with an arbitrary labeling percentage. Furthermore, a mutual learning strategy called Supervised-Unsupervised Mutual Alignment (SUMA) is proposed for the dual models within HASSLE with global residual alignment and model proximity alignment. Subsequently, the dual models can implicitly learn from both types of data across different clients, although each dual model is only trained locally on a single type of data. Experiments verify that the dual models in HASSLE learned by SUMA can mutually learn from each other, thereby effectively utilizing the information of both types of data across different clients.
翻訳日:2023-03-07 19:38:59 公開日:2023-03-04
# スパースガウス過程による変圧器の校正

Calibrating Transformers via Sparse Gaussian Processes ( http://arxiv.org/abs/2303.02444v1 )

ライセンス: Link先を確認
Wenlong Chen, Yingzhen Li(参考訳) トランスフォーマーモデルは、自然言語処理、音声認識、コンピュータビジョンにおける幅広い応用において、予測タスクにおいて大きな成功を収めている。 トランスフォーマーの成功を安全クリティカルな領域に拡張するには、不確かさの校正が必要となる。 そこで本研究では,マルチヘッドアテンションブロック(mhas)の出力空間に直接ベイズ推定を行い,その不確かさを校正するsparse gaussian process attention (sgpa)を提案する。 スケールされたドット積演算を有効な対称カーネルに置き換え、スパースガウス過程(SGP)技術を用いてMHA出力の後方過程を近似する。 SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。

Transformer models have achieved profound success in prediction tasks in a wide range of applications in natural language processing, speech recognition and computer vision. Extending Transformer's success to safety-critical domains requires calibrated uncertainty estimation which remains under-explored. To address this, we propose Sparse Gaussian Process attention (SGPA), which performs Bayesian inference directly in the output space of multi-head attention blocks (MHAs) in transformer to calibrate its uncertainty. It replaces the scaled dot-product operation with a valid symmetric kernel and uses sparse Gaussian processes (SGP) techniques to approximate the posterior processes of MHA outputs. Empirically, on a suite of prediction tasks on text, images and graphs, SGPA-based Transformers achieve competitive predictive accuracy, while noticeably improving both in-distribution calibration and out-of-distribution robustness and detection.
翻訳日:2023-03-07 19:38:35 公開日:2023-03-04
# ニューラル空港の接地

Neural Airport Ground Handling ( http://arxiv.org/abs/2303.02442v1 )

ライセンス: Link先を確認
Yaoxin Wu, Jianan Zhou, Yunwen Xia, Xianli Zhang, Zhiguang Cao, Jie Zhang(参考訳) 空港の地上取扱い(agh: airport ground handling)は、空港運営の効率化と航空経済学において重要な役割を担っている。 このような問題は、複雑な制約を持つNPハード問題につながる操作間の相互作用を伴う。 したがって、既存のAGHの手法は通常、膨大なドメイン知識で設計されるが、高品質なソリューションを効率よく得られない。 本稿では,AGHの解法品質と計算効率を向上させることを目的とする。 特に, 優先性, 時間窓, キャパシティといった雑な制約を伴って, マルチフライ車両ルーティング問題 (VRP) としてAGHをモデル化した。 次に,AGHをサブプロブレム(すなわちVRP)に分解する構築フレームワークを提案し,これらのサブプロブレムに対するルーティングソリューションを構築するためのニューラルネットワークを提案する。 具体的には、すべてのサブプロブレム間で共有される強化学習で訓練された注意に基づくニューラルネットワークを用いて、建設ヒューリスティックな政策を深く学習し、パラメータ化する。 大規模な実験により,本手法は古典的メタヒューリスティックス,建設ヒューリスティックス,およびAGHの特殊手法よりも優れていた。 さらに,我々のニューラルメソッドは,多数のフライトやパラメータの異なるインスタンスによく一般化し,確率的なフライト到着を伴うリアルタイムAGHの解決に容易に適応可能であることを実証的に検証した。 私たちのコードは、https://github.com/RoyalSkye/AGH.comで公開されています。

Airport ground handling (AGH) offers necessary operations to flights during their turnarounds and is of great importance to the efficiency of airport management and the economics of aviation. Such a problem involves the interplay among the operations that leads to NP-hard problems with complex constraints. Hence, existing methods for AGH are usually designed with massive domain knowledge but still fail to yield high-quality solutions efficiently. In this paper, we aim to enhance the solution quality and computation efficiency for solving AGH. Particularly, we first model AGH as a multiple-fleet vehicle routing problem (VRP) with miscellaneous constraints including precedence, time windows, and capacity. Then we propose a construction framework that decomposes AGH into sub-problems (i.e., VRPs) in fleets and present a neural method to construct the routing solutions to these sub-problems. In specific, we resort to deep learning and parameterize the construction heuristic policy with an attention-based neural network trained with reinforcement learning, which is shared across all sub-problems. Extensive experiments demonstrate that our method significantly outperforms classic meta-heuristics, construction heuristics and the specialized methods for AGH. Besides, we empirically verify that our neural method generalizes well to instances with large numbers of flights or varying parameters, and can be readily adapted to solve real-time AGH with stochastic flight arrivals. Our code is publicly available at: https://github.com/RoyalSkye/AGH.
翻訳日:2023-03-07 19:38:17 公開日:2023-03-04
# ConZIC:サンプリングベースポリシングによる制御可能なゼロショット画像キャプション

ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing ( http://arxiv.org/abs/2303.02437v1 )

ライセンス: Link先を確認
Zequn Zeng, Hao Zhang, Zhengjue Wang, Ruiying Lu, Dongsheng Wang, Bo Chen(参考訳) ゼロショットの能力は、ディープラーニングの新しい革命と見なされ、機械が訓練データなしでタスクをこなせるようになった。 ゼロショット画像キャプション(ic)のよいスタートと唯一の既存の結果として、zerocapは教師付きトレーニングを放棄し、大規模な事前学習モデルの知識を用いてキャプション内のすべての単語を順次検索する。 効果はあるものの、自己回帰生成と勾配指向探索機構はそれぞれキャプションの多様性と推論速度を制限する。 さらに、ZeroCapはゼロショットICの可制御性の問題を考慮していない。 本研究では,制御可能なゼロショットICのフレームワークであるConZICを提案する。 conzicの中核は、新しいサンプリングベースの非自己回帰言語モデルgibbsbertであり、すべての単語を生成および連続的に磨くことができる。 ゼロショットICと制御可能なゼロショットICの両方に対して提案したConZICの優れた性能を示す。 特に、ConZICはZeroCapよりも約5倍高速で、1.5倍高い多様性スコアを達成し、正確な生成には異なる制御信号が与えられる。

Zero-shot capability has been considered as a new revolution of deep learning, letting machines work on tasks without curated training data. As a good start and the only existing outcome of zero-shot image captioning (IC), ZeroCap abandons supervised training and sequentially searches every word in the caption using the knowledge of large-scale pretrained models. Though effective, its autoregressive generation and gradient-directed searching mechanism limit the diversity of captions and inference speed, respectively. Moreover, ZeroCap does not consider the controllability issue of zero-shot IC. To move forward, we propose a framework for Controllable Zero-shot IC, named ConZIC. The core of ConZIC is a novel sampling-based non-autoregressive language model named GibbsBERT, which can generate and continuously polish every word. Extensive quantitative and qualitative results demonstrate the superior performance of our proposed ConZIC for both zero-shot IC and controllable zero-shot IC. Especially, ConZIC achieves about 5x faster generation speed than ZeroCap, and about 1.5x higher diversity scores, with accurate generation given different control signals.
翻訳日:2023-03-07 19:37:53 公開日:2023-03-04
# NTRU暗号系からのGottesman-Kitaev-Preskill符号

Good Gottesman-Kitaev-Preskill codes from the NTRU cryptosystem ( http://arxiv.org/abs/2303.02432v1 )

ライセンス: Link先を確認
Jonathan Conrad, Jens Eisert, Jean-Pierre Seifert(参考訳) 我々は,いわゆるNTRU暗号系の暗号解析から得られた,ランダムなGottesman-Kitaev-Preskill(GKP)符号のクラスを導入する。 導出符号は、一定レートおよび平均距離スケーリング$\Delta \propto \sqrt{n}$を高い確率で示すのがよいが、$n$はボソニックモードの数であり、これは単一モードGKP符号を線形距離で量子量子誤り訂正符号に変換することで得られるGKP符号と等価な距離スケーリングである。 NTRU-GKP符号の派生型は、確率的変位ノイズモデルの復号化がNTRU暗号システムの復号化と等価であるという付加的な性質を持ち、コードのランダムなインスタンスは、自然に効率的な復号器が付属する。 この構造は、GKPコードがどのように古典的誤り訂正、量子誤り訂正、およびポスト量子暗号の側面を橋渡しするかを強調している。 我々は,gkp符号の復号化の計算の難しさを議論し,ntru暗号システムからセキュリティを継承した,簡単な公開鍵量子通信プロトコルを提案する。

We introduce a new class of random Gottesman-Kitaev-Preskill (GKP) codes derived from the cryptanalysis of the so-called NTRU cryptosystem. The derived codes are good in that they exhibit constant rate and average distance scaling $\Delta \propto \sqrt{n}$ with high probability, where $n$ is the number of bosonic modes, which is a distance scaling equivalent to that of a GKP code obtained by concatenating single mode GKP codes into a qubit-quantum error correcting code with linear distance. The derived class of NTRU-GKP codes has the additional property that decoding for a stochastic displacement noise model is equivalent to decrypting the NTRU cryptosystem, such that every random instance of the code naturally comes with an efficient decoder. This construction highlights how the GKP code bridges aspects of classical error correction, quantum error correction as well as post-quantum cryptography. We underscore this connection by discussing the computational hardness of decoding GKP codes and propose, as a new application, a simple public key quantum communication protocol with security inherited from the NTRU cryptosystem.
翻訳日:2023-03-07 19:37:32 公開日:2023-03-04
# CFlowNets: 生成フローネットワークによる継続的制御

CFlowNets: Continuous Control with Generative Flow Networks ( http://arxiv.org/abs/2303.02430v1 )

ライセンス: Link先を確認
Yinchuan Li, Shuang Luo, Haozhi Wang and Jianye Hao(参考訳) 創発的フローネットワーク(gflownets)は、探索的制御タスクのための強化学習の代替として使用できる。 GFlowNetは、終了状態よりも報酬に比例した分布を生成し、アクティブな学習方法で異なる候補をサンプリングすることを目的としている。 GFlowNetsはDAGを形成し、トラジェクトリ内の各ノードのインフローとアウトフローをトラバースすることでフローマッチング損失を計算する必要がある。 GFlowNetsが継続的タスクに使用できると結論づける実験はまだない。 本稿では,連続制御タスクに適用可能な生成型連続フローネットワーク(cflownets)を提案する。 まず,CFlowNetの理論的定式化について述べる。 次に,cflownetsのための学習フレームワークを提案する。アクション選択プロセス,フロー近似アルゴリズム,連続フローマッチング損失関数などだ。 その後、理論上は流れ近似の誤差境界が証明される。 フローサンプル数が増加すると、エラーは急速に減少する。 最後に、連続制御タスクの実験結果から、特に探索能力に関する強化学習法と比較して、CFlowNetsの性能上の利点を示す。

Generative flow networks (GFlowNets), as an emerging technique, can be used as an alternative to reinforcement learning for exploratory control tasks. GFlowNet aims to generate distribution proportional to the rewards over terminating states, and to sample different candidates in an active learning fashion. GFlowNets need to form a DAG and compute the flow matching loss by traversing the inflows and outflows of each node in the trajectory. No experiments have yet concluded that GFlowNets can be used to handle continuous tasks. In this paper, we propose generative continuous flow networks (CFlowNets) that can be applied to continuous control tasks. First, we present the theoretical formulation of CFlowNets. Then, a training framework for CFlowNets is proposed, including the action selection process, the flow approximation algorithm, and the continuous flow matching loss function. Afterward, we theoretically prove the error bound of the flow approximation. The error decreases rapidly as the number of flow samples increases. Finally, experimental results on continuous control tasks demonstrate the performance advantages of CFlowNets compared to many reinforcement learning methods, especially regarding exploration ability.
翻訳日:2023-03-07 19:37:09 公開日:2023-03-04
# 教師なし言語間トークン化のための自己チューニングハイパーパラメータ

Self-tuning hyper-parameters for unsupervised cross-lingual tokenization ( http://arxiv.org/abs/2303.02427v1 )

ライセンス: Link先を確認
Anton Kolonin(参考訳) 言語に依存しない英語・ロシア語・中国語におけるメタラーニングの可能性を検討する。 先行研究で提案されている非教師付きトークン化モデルのハイパーパラメータ自動決定のためのメタラーニング手法を実装し,正規化アンチエントロピー,圧縮係数,クロススプリットf1スコアなどの人間に依存しない適合度関数と,これら3つの指標の加法および乗法的複合組み合わせを組み合わせることにより,従来のf1トークン化スコアに対してテストを行った。 後者と、英語とロシア語の3つの指標の付加的な組み合わせとの間には、かなり良い相関関係がある。 中国語の場合,F1スコアと圧縮係数との間に有意な相関が認められた。 この結果から,低リソース言語とデッド言語の堅牢な非教師付きトークン化の可能性が示唆され,異なる人間の文化で進化した異なる構造的最適化スキームを持つ効率的な記号的通信符号の進化の観点から,人間の言語を考えることが可能となった。

We explore the possibility of meta-learning for the language-independent unsupervised tokenization problem for English, Russian, and Chinese. We implement the meta-learning approach for automatic determination of hyper-parameters of the unsupervised tokenization model proposed in earlier works, relying on various human-independent fitness functions such as normalised anti-entropy, compression factor and cross-split F 1 score, as well as additive and multiplicative composite combinations of the three metrics, testing them against the conventional F1 tokenization score. We find a fairly good correlation between the latter and the additive combination of the former three metrics for English and Russian. In case of Chinese, we find a significant correlation between the F 1 score and the compression factor. Our results suggest the possibility of robust unsupervised tokenization of low-resource and dead languages and allow us to think about human languages in terms of the evolution of efficient symbolic communication codes with different structural optimisation schemes that have evolved in different human cultures.
翻訳日:2023-03-07 19:36:54 公開日:2023-03-04
# Transformer-based 法による歯冠質の向上

Improving the quality of dental crown using a Transformer-based method ( http://arxiv.org/abs/2303.02426v1 )

ライセンス: Link先を確認
Golriz Hosseinimanesh, Farnoosh Ghadiri, Ammar Alsheghri, Ying Zhang, Julia Keren, Farida Cheriet, Francois Guibault(参考訳) 合成クラウンの設計は、時間がかかり、一貫性がなく、労働集約的なプロセスである。 本研究では,人間設計の歯冠を学習するだけでなく,歯冠の一貫性,機能,審美性も向上させる完全自動的手法を提案する。 変圧器ネットワークを用いたポイントクラウドの完成に成功し, 歯の周辺におけるポイントクラウドの完成としてクラウン生成の問題に取り組む。 この目的のために, 歯冠形成に幾何学対応トランスを用いた。 我々の主な貢献は, マージン線情報をネットワークに付加することであり, 正確なマージン線を直接生成する精度から, 設計したクラウンと準備歯とが密に一致するかどうかを判断し, マージン線をスプラインとして抽出し, スプラインを1000点にサンプリングすることができる。 得られた辺縁線は, 歯の隣接歯2本, 対面顎に最も近い歯3本と共に供給する。 また、マージンラインの解像度を高めるために、マージンラインポイントを地平線クラウンに追加します。 以上の結果から, 歯冠とマージン線からなる実際のコンテクストと, 空空間で生成したクラウンとの対比により, 設計クラウンの品質が向上することを示した。

Designing a synthetic crown is a time-consuming, inconsistent, and labor-intensive process. In this work, we present a fully automatic method that not only learns human design dental crowns, but also improves the consistency, functionality, and esthetic of the crowns. Following success in point cloud completion using the transformer-based network, we tackle the problem of the crown generation as a point-cloud completion around a prepared tooth. To this end, we use a geometry-aware transformer to generate dental crowns. Our main contribution is to add a margin line information to the network, as the accuracy of generating a precise margin line directly,determines whether the designed crown and prepared tooth are closely matched to allowappropriateadhesion.Using our ground truth crown, we can extract the margin line as a spline and sample the spline into 1000 points. We feed the obtained margin line along with two neighbor teeth of the prepared tooth and three closest teeth in the opposing jaw. We also add the margin line points to our ground truth crown to increase the resolution at the margin line. Our experimental results show an improvement in the quality of the designed crown when considering the actual context composed of the prepared tooth along with the margin line compared with a crown generated in an empty space as was done by other studies in the literature.
翻訳日:2023-03-07 19:36:33 公開日:2023-03-04
# SemEval-2023タスク11におけるLon-e{\aa}:ソフトおよびハードラベル予測のための\\Activation関数の比較

Lon-e{\aa} at SemEval-2023 Task 11: A Comparison of\\Activation Functions for Soft and Hard Label Prediction ( http://arxiv.org/abs/2303.02468v1 )

ライセンス: Link先を確認
Peyman Hosseini, Mehran Hosseini, Sana Sabah Al-Azzawi, Marcus Liwicki, Ignacio Castro, Matthew Purver(参考訳) 深層ニューラルネットワークモデルの出力層における異なるアクティベーション関数の影響について,不一致タスクの学習におけるソフトラベルとハードラベルの予測について検討した。 このタスクでは、ソフトラベルの予測を通じて不一致の量を定量化することが目標です。 ソフトラベルの予測にはbertベースのプリプロセッサとエンコーダを使用し、他のパラメータを一定に保ちながら出力層で使用されるアクティベーション関数を変化させる。 ソフトラベルはハードラベル予測に使用される。 検討した活性化関数はsgmoidであり、トレーニング後のモデルに追加されるステップ関数と、本論文で初めて導入された正弦波活性化関数である。

We study the influence of different activation functions in the output layer of deep neural network models for soft and hard label prediction in the learning with disagreement task. In this task, the goal is to quantify the amount of disagreement via predicting soft labels. To predict the soft labels, we use BERT-based preprocessors and encoders and vary the activation function used in the output layer, while keeping other parameters constant. The soft labels are then used for the hard label prediction. The activation functions considered are sigmoid as well as a step-function that is added to the model post-training and a sinusoidal activation function, which is introduced for the first time in this paper.
翻訳日:2023-03-07 19:30:18 公開日:2023-03-04
# 回帰アルゴリズム比較のための睡眠品質データセットを用いた特徴選択手法の統合

Integration of Feature Selection Techniques using a Sleep Quality Dataset for Comparing Regression Algorithms ( http://arxiv.org/abs/2303.02467v1 )

ライセンス: Link先を確認
Sai Rohith Tanuku and Venkat Tummala(参考訳) 本研究は,様々な特徴選択法と回帰アルゴリズムの統合による睡眠品質予測の有用性を検討することを目的とした。 一般にアクセス可能な睡眠品質データセットを使用して、線形回帰、リッジ回帰、ラッソ回帰、ランダムフォレスト回帰という4つの回帰アルゴリズムのパフォーマンスに対する異なる特徴選択テクニックの効果を分析する。 この結果を比較し,特徴選択手法と回帰アルゴリズムの最適組み合わせを決定する。 本研究の結論は、睡眠品質予測に機械学習を用いた最近の文献を豊かにするとともに、個人の睡眠推奨をパーソナライズするための実践的意義を有する。

This research aims to examine the usefulness of integrating various feature selection methods with regression algorithms for sleep quality prediction. A publicly accessible sleep quality dataset is used to analyze the effect of different feature selection techniques on the performance of four regression algorithms - Linear regression, Ridge regression, Lasso Regression and Random Forest Regressor. The results are compared to determine the optimal combination of feature selection techniques and regression algorithms. The conclusion of the study enriches the current literature on using machine learning for sleep quality prediction and has practical significance for personalizing sleep recommendations for individuals.
翻訳日:2023-03-07 19:30:03 公開日:2023-03-04
# 非線形確率力学系の効率的な量子アルゴリズム

Efficient Quantum Algorithms for Nonlinear Stochastic Dynamical Systems ( http://arxiv.org/abs/2303.02463v1 )

ライセンス: Link先を確認
Abeynaya Gnanasekaran, Amit Surana, Tuhin Sahai(参考訳) 本稿では、Fokker-Planck方程式(FPE)を用いて非線形確率微分方程式(SDE)を解くための効率的な量子アルゴリズムを提案する。 空間と時間におけるFPEの離散化をChang-Cooperスキームを用いて行い、量子線形系アルゴリズムを用いて線形方程式の解を求める。 チャン=クーパースキームは二階精度であり、その解の保守性と正しさを満たす。 量子線形系chang-cooperアルゴリズム (qlscca) と呼ばれる提案する量子スキームが, 条件次元 $d$ に対する多項式依存性を持つ, 所定の $\epsilon$ 誤差境界内で, fpe に対する解を計算することを実証した。 古典的数値法は次元と指数関数的にスケールするので、我々の手法は従来の手法よりも高速である。

In this paper, we propose an efficient quantum algorithm for solving nonlinear stochastic differential equations (SDE) via the associated Fokker-Planck equation (FPE). We discretize FPE in space and time using the Chang-Cooper scheme, and compute the solution of the resulting system of linear equations using the quantum linear systems algorithm. The Chang-Cooper scheme is second order accurate and satisfies conservativeness and positivity of the solution. We present detailed error and complexity analyses that demonstrate that our proposed quantum scheme, which we call the Quantum Linear Systems Chang-Cooper Algorithm (QLSCCA), computes the solution to the FPE within prescribed $\epsilon$ error bounds with polynomial dependence on state dimension $d$. Classical numerical methods scale exponentially with dimension, thus, our approach provides an \emph{exponential speed-up} over traditional approaches.
翻訳日:2023-03-07 19:29:51 公開日:2023-03-04
# 正のアンラベル学習による不正ノード検出の改善

Towards Improved Illicit Node Detection with Positive-Unlabelled Learning ( http://arxiv.org/abs/2303.02462v1 )

ライセンス: Link先を確認
Junliang Luo, Farimah Poursafaei, Xue Liu(参考訳) ブロックチェーンネットワーク上の不正なノードを検出することは、将来の規制を強化する上で貴重なタスクである。 タスクに対処するために提案されている機械学習ベースの最近の手法は、一部のブロックチェーントランザクションデータセットを使用して、少数のサンプルに正のラベルが付けられ、残りは非ラベリング(PU)されている。 未ラベルノードのランダムなサンプルが正規ノードであるという仮定はいくつかの研究で用いられているが、隠れた正のラベルに対するラベル機構の仮定とその評価指標への影響を考える価値がある。 さらに,隠された正のラベルを扱うPU分類器は,通常の機械学習モデルと比較して性能が向上する可能性についても検討する。 我々は、同一データに対して異なる特徴分布を求めるグラフ表現学習手法のリストを用いてPU分類器を試験し、より信頼性の高い結果を得る。

Detecting illicit nodes on blockchain networks is a valuable task for strengthening future regulation. Recent machine learning-based methods proposed to tackle the tasks are using some blockchain transaction datasets with a small portion of samples labeled positive and the rest unlabelled (PU). Albeit the assumption that a random sample of unlabeled nodes are normal nodes is used in some works, we discuss that the label mechanism assumption for the hidden positive labels and its effect on the evaluation metrics is worth considering. We further explore that PU classifiers dealing with potential hidden positive labels can have improved performance compared to regular machine learning models. We test the PU classifiers with a list of graph representation learning methods for obtaining different feature distributions for the same data to have more reliable results.
翻訳日:2023-03-07 19:29:35 公開日:2023-03-04
# 拡大農業ビジョン:農業パターン解析のための大規模航空画像データセットの拡張

Extended Agriculture-Vision: An Extension of a Large Aerial Image Dataset for Agricultural Pattern Analysis ( http://arxiv.org/abs/2303.02460v1 )

ライセンス: Link先を確認
Jing Wu, David Pichler, Daniel Marley, David Wilson, Naira Hovakimyan, Jennifer Hobbs(参考訳) リモートセンシングと地球観測データにおける機械学習の作業の多くにとって重要な課題は、大量の正確なラベル付きデータを取得することの難しさである。 これは特にセマンティックセグメンテーションタスクに当てはまるが、これはリモートセンシングドメインではあまり一般的ではない。 近年の取り組みは、教師付きデータセットの作成と自己教師付き手法の適用を通じて、これらの課題に対処している。 これらの努力は両面で継続する。 まず、より実験的な柔軟性を高めるために、生のフルフィールド画像を含む農業ビジョンデータセット(Chiu et al., 2020b)の改良版を作成し、リリースする。 第2に、このデータセットを3600個の大きな高解像度(10cm/ピクセル)、フルフィールド、赤緑色、近赤外画像を事前トレーニング用にリリースすることで拡張する。 第3に、元々SimCLRフレームワーク上に構築されたPixel-to-Propagation Module Xie et al. (2021b)をMoCo-V2 Chen et alのフレームワークに組み込む。 (2020年) 最後に,下流分類とセマンティクスセグメンテーションタスクの両方において,異なるコントラスト学習アプローチをベンチマークすることにより,このデータの有用性を示す。 CNN と Swin Transformer Liu et al. (2021a) アーキテクチャを,MoCo-V2 に基づいたさまざまなフレームワークで検討する。 これらの手法により、航空画像から各分野の農業における重要な関心パターンをよりよく検出し、農家がタイムリーに問題領域に警告を受け、経営決定を通知することができる。 さらに、これらのデータセットのリリースは、農業のためのリモートセンシングにおけるコンピュータビジョンのための多くの研究方法をサポートする。

A key challenge for much of the machine learning work on remote sensing and earth observation data is the difficulty in acquiring large amounts of accurately labeled data. This is particularly true for semantic segmentation tasks, which are much less common in the remote sensing domain because of the incredible difficulty in collecting precise, accurate, pixel-level annotations at scale. Recent efforts have addressed these challenges both through the creation of supervised datasets as well as the application of self-supervised methods. We continue these efforts on both fronts. First, we generate and release an improved version of the Agriculture-Vision dataset (Chiu et al., 2020b) to include raw, full-field imagery for greater experimental flexibility. Second, we extend this dataset with the release of 3600 large, high-resolution (10cm/pixel), full-field, red-green-blue and near-infrared images for pre-training. Third, we incorporate the Pixel-to-Propagation Module Xie et al. (2021b) originally built on the SimCLR framework into the framework of MoCo-V2 Chen et al.(2020b). Finally, we demonstrate the usefulness of this data by benchmarking different contrastive learning approaches on both downstream classification and semantic segmentation tasks. We explore both CNN and Swin Transformer Liu et al. (2021a) architectures within different frameworks based on MoCo-V2. Together, these approaches enable us to better detect key agricultural patterns of interest across a field from aerial imagery so that farmers may be alerted to problematic areas in a timely fashion to inform their management decisions. Furthermore, the release of these datasets will support numerous avenues of research for computer vision in remote sensing for agriculture.
翻訳日:2023-03-07 19:29:21 公開日:2023-03-04
# DistilPose:ヒートマップ蒸留によるトークン化ポス回帰

DistilPose: Tokenized Pose Regression with Heatmap Distillation ( http://arxiv.org/abs/2303.02455v1 )

ライセンス: Link先を確認
Suhang Ye, Yingyi Zhang, Jie Hu, Liujuan Cao, Shengchuan Zhang, Lei Shen, Jun Wang, Shouhong Ding, Rongrong Ji(参考訳) 人間のポーズ推定の分野では、回帰に基づく手法は速度の点で支配的であり、ヒートマップに基づく手法は性能の面ではるかに優れている。 両方のスキームを利用する方法はまだ難しい問題だ。 本稿では,熱マップに基づく手法と回帰に基づく手法のギャップを埋める,DistolPoseと呼ばれる新しいポーズ推定フレームワークを提案する。 具体的には,教師モデル(ヒートマップベース)から生徒モデル(レグレッションベース)への知識伝達を,Token-distilling Encoder (TDE) と Simulated Heatmaps を通じて最大化する。 TDEはトークン化を導入することで、ヒートマップと回帰モデルの特徴空間を整列させ、シミュレートされたヒートマップは教師のヒートマップから学生モデルへの明示的なガイダンス(分布と信頼)を伝達する。 広範な実験により, 提案手法は, 効率を維持しつつ, 回帰モデルの性能を著しく向上できることがわかった。 具体的には、MSCOCO検証データセットにおいて、DistilPose-Sは71.6%のmAPを5.36Mパラメータ、2.38 GFLOP、40.2 FPSで取得し、12.95x、7.16倍の計算コストを節約し、0.9ポイントのパフォーマンス低下しか持たない教師モデルよりも4.9倍高速である。 さらに、DistilPose-LはMSCOCO検証データセット上で74.4%のmAPを取得し、主要な回帰モデルの中で新しい最先端のモデルを実現する。

In the field of human pose estimation, regression-based methods have been dominated in terms of speed, while heatmap-based methods are far ahead in terms of performance. How to take advantage of both schemes remains a challenging problem. In this paper, we propose a novel human pose estimation framework termed DistilPose, which bridges the gaps between heatmap-based and regression-based methods. Specifically, DistilPose maximizes the transfer of knowledge from the teacher model (heatmap-based) to the student model (regression-based) through Token-distilling Encoder (TDE) and Simulated Heatmaps. TDE aligns the feature spaces of heatmap-based and regression-based models by introducing tokenization, while Simulated Heatmaps transfer explicit guidance (distribution and confidence) from teacher heatmaps into student models. Extensive experiments show that the proposed DistilPose can significantly improve the performance of the regression-based models while maintaining efficiency. Specifically, on the MSCOCO validation dataset, DistilPose-S obtains 71.6% mAP with 5.36M parameter, 2.38 GFLOPs and 40.2 FPS, which saves 12.95x, 7.16x computational cost and is 4.9x faster than its teacher model with only 0.9 points performance drop. Furthermore, DistilPose-L obtains 74.4% mAP on MSCOCO validation dataset, achieving a new state-of-the-art among predominant regression-based models.
翻訳日:2023-03-07 19:28:52 公開日:2023-03-04
# 重み共有アグリゲーションによる暗黙的剛性制約の活用によるポイントクラウドからのシーンフロー推定

Exploiting Implicit Rigidity Constraints via Weight-Sharing Aggregation for Scene Flow Estimation from Point Clouds ( http://arxiv.org/abs/2303.02454v1 )

ライセンス: Link先を確認
Yun Wang, Cheng Chi, Xin Yang(参考訳) 点雲からシーンポイントの3次元運動を予測するシーンフロー推定は、自動運転やその他の多くの3次元視覚アプリケーションにおける中核的なタスクである。 既存の手法では、剛体運動の一貫性の欠如や、明示的なポーズ推定と3dオブジェクトのセグメンテーションを必要とする。 推定ポーズとセグメンテーションオブジェクトの誤差は不正確な剛性制約をもたらし、結果として誤解を招くシーンフロー推定となる。 本稿では,特徴量とシーンフローのアップサンプリングのための新しいウェイトシェアリングアグリゲーション(WSA)手法を提案する。 wsaは推定されたポーズやセグメンテーションされたオブジェクトには依存せず、暗黙的に剛性制約を強制し、シーンフロー推定における構造歪みを回避することができる。 幾何情報をさらに活用し,局所構造を保存するために,局所領域の不変性を維持するための移動コストボリュームを設計する。 我々は、ポイントPWC-Netを修正し、提案したWSAを統合し、コストを拡張されたポイントPWC-Netに移行し、WSAFlowNetと呼ばれるエンドツーエンドのシーンフロー推定ネットワークを導出する。 FlyingThings3D [19] と KITTI [21] データセットの大規模な実験結果から,WSAFlowNet が最先端の性能を達成し,従来の手法よりも大きなマージンで性能を向上することが示された。 ソースコードはhttps://github.com/wangyunlhr/WSAFlowNet.gitで公開します。

Scene flow estimation, which predicts the 3D motion of scene points from point clouds, is a core task in autonomous driving and many other 3D vision applications. Existing methods either suffer from structure distortion due to ignorance of rigid motion consistency or require explicit pose estimation and 3D object segmentation. Errors of estimated poses and segmented objects would yield inaccurate rigidity constraints and in turn mislead scene flow estimation. In this paper, we propose a novel weight-sharing aggregation (WSA) method for feature and scene flow up-sampling. WSA does not rely on estimated poses and segmented objects, and can implicitly enforce rigidity constraints to avoid structure distortion in scene flow estimation. To further exploit geometric information and preserve local structure, we design a moving cost volume aim to keep the local region invariance. We modify the PointPWC-Net and integrate the proposed WSA and moving cost volume into the enhanced PointPWC-Net to derive an end-to-end scene flow estimation network, called WSAFlowNet. Extensive experimental results on the FlyingThings3D [19] and KITTI [21]datasets demonstrate that our WSAFlowNet achieves the state-ofthe-art performance and outperforms previous methods by a large margin. We will release the source code at https://github.com/wangyunlhr/WSAFlowNet.git
翻訳日:2023-03-07 19:28:21 公開日:2023-03-04
# トレーニング用バイナリネットワークにおける重み値超パラメータの理解

Understanding weight-magnitude hyperparameters in training binary networks ( http://arxiv.org/abs/2303.02452v1 )

ライセンス: Link先を確認
Joris Quist, Yunqiang Li, Jan van Gemert(参考訳) バイナリニューラルネットワーク(BNN)は、実数値重みの代わりに二重みを用いてコンパクトで効率的である。 現在のbnnは、トレーニング中に潜在実数値重みを使い、いくつかのトレーニングハイパーパラメータが実数値ネットワークから継承される。 これらのハイパーパラメータの解釈は、実数値の重みの大きさに基づいている。 しかし、BNNにとって二乗重みの大きさは意味を持たず、これらのハイパーパラメータが実際に何をしているのかは不明である。 例えば、重みのデカイは、実際の重みの規模を小さくすることを目的としている。 その他の例としては、潜時体重初期化、学習速度、学習速度減衰があり、これは実数値重量の大きさに影響を与える。 この大きさは実数値の重みに対して解釈できるが、二元重みに対するその意味は失われる。 本稿では,ネットワーク最適化中の高次勾配フィルタリングに基づく等級に基づくハイパーパラメータの新たな解釈を提案する。 本解析により,実値の解釈に依存しないバイナリニューラルネット用に特別に設計された新しい最適化フィルタを実現するために,大きさベースのハイパーパラメータがバイナリネットワークのトレーニングにどのように影響するかを理解することができる。 さらに,改良された理解によりハイパーパラメータの数が減少し,その結果,ハイパーパラメータチューニング作業が簡単になり,精度が向上する可能性がある。 コードはhttps://github.com/jorisquist/Understanding-WM-HP-in-BNNsで入手できる。

Binary Neural Networks (BNNs) are compact and efficient by using binary weights instead of real-valued weights. Current BNNs use latent real-valued weights during training, where several training hyper-parameters are inherited from real-valued networks. The interpretation of several of these hyperparameters is based on the magnitude of the real-valued weights. For BNNs, however, the magnitude of binary weights is not meaningful, and thus it is unclear what these hyperparameters actually do. One example is weight-decay, which aims to keep the magnitude of real-valued weights small. Other examples are latent weight initialization, the learning rate, and learning rate decay, which influence the magnitude of the real-valued weights. The magnitude is interpretable for real-valued weights, but loses its meaning for binary weights. In this paper we offer a new interpretation of these magnitude-based hyperparameters based on higher-order gradient filtering during network optimization. Our analysis makes it possible to understand how magnitude-based hyperparameters influence the training of binary networks which allows for new optimization filters specifically designed for binary neural networks that are independent of their real-valued interpretation. Moreover, our improved understanding reduces the number of hyperparameters, which in turn eases the hyperparameter tuning effort which may lead to better hyperparameter values for improved accuracy. Code is available at https://github.com/jorisquist/Understanding-WM-HP-in-BNNs
翻訳日:2023-03-07 19:27:55 公開日:2023-03-04
# マルチタスク回帰のためのテンソル化LSSVM

Tensorized LSSVMs for Multitask Regression ( http://arxiv.org/abs/2303.02451v1 )

ライセンス: Link先を確認
Jiani Liu, Qinghua Tao, Ce Zhu, Yipeng Liu, Johan A.K. Suykens(参考訳) マルチタスク学習(MTL)は、複数のタスク間の関連性を利用してパフォーマンスを向上させる。 マルチモーダルデータの出現により、タスクは複数のインデックスによって参照される。 高階テンソルは、構造的タスク相関を維持しながら、そのようなタスクの効率的な表現を提供することができる。 本稿では,低ランクテンソル解析とテンソル化Least Squares Support Vector Machines(tLSSVM-MTL)の構築により,マルチ線形モデリングとその非線形拡張を柔軟に行うことができる新しいMTL法を提案する。 我々は,指数に関連する各モードに高次テンソルを用い,それをCP分解で分解し,すべてのタスクに共有因子を割り当て,各インデックスに沿ってタスク固有の潜在因子を保持する。 その後、非凸最適化のために交互アルゴリズムが導出され、各サブプロブレムは線形系によって解かれる。 実験結果はtlssvm-mtlの性能を示す。

Multitask learning (MTL) can utilize the relatedness between multiple tasks for performance improvement. The advent of multimodal data allows tasks to be referenced by multiple indices. High-order tensors are capable of providing efficient representations for such tasks, while preserving structural task-relations. In this paper, a new MTL method is proposed by leveraging low-rank tensor analysis and constructing tensorized Least Squares Support Vector Machines, namely the tLSSVM-MTL, where multilinear modelling and its nonlinear extensions can be flexibly exerted. We employ a high-order tensor for all the weights with each mode relating to an index and factorize it with CP decomposition, assigning a shared factor for all tasks and retaining task-specific latent factors along each index. Then an alternating algorithm is derived for the nonconvex optimization, where each resulting subproblem is solved by a linear system. Experimental results demonstrate promising performances of our tLSSVM-MTL.
翻訳日:2023-03-07 19:27:36 公開日:2023-03-04
# 爆発的CAMそれ自体:弱監視セマンティックセグメンテーションのための補完学習システム

Exploit CAM by itself: Complementary Learning System for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.02449v1 )

ライセンス: Link先を確認
Jiren Mai and Fei Zhang and Junjie Ye and Marcus Kalander and Xian Zhang and WanKou Yang and Tongliang Liu and Bo Han(参考訳) 画像レベルのラベルを持つWSSS(Weakly Supervised Semantic Segmentation)は、セマンティックセグメンテーションのためのきめ細かいマスクを生成することができないクラスアクティベーションマップ(CAM)によって導かれる断片的なオブジェクト領域に長年悩まされてきた。 そこで本論文は,CAMがより非識別なオブジェクトパターンを見つけるためのガイドとして,CLS(Complementary Learning System)というエージェント学習における興味深い作業機構について述べる。 clsは、新皮質は一般的な知識の感覚を生じさせ、海馬は特定の詳細を特別に学び、学習されたパターンを完成させる。 このシンプルだが効果的な学習パターンにより、粗いCAMをきめ細かな擬似マスクに明示的に駆動する汎用学習機構(GSLM)を提案する。 具体的には、一般学習モジュール(GLM)と特定学習モジュール(SLM)を開発する。 GLMは、CAMから粗い局所化表現と一般的な局在化表現を抽出するために、画像レベルの監督を訓練されている。 GLMの一般的な知識に基づいて、SLMは局所化表現から空間的知識を段階的に活用し、CAMを明示的な方法で拡張する。 そこで本研究では,SLMによる非識別領域の再活性化を支援するために,活性化値の境界を設定し,CAMのより多くの領域を連続的に識別するSeed Reactivationを提案する。 新たな改良プロセスがなければ,PASCAL VOC 2012では20.0% mIoU,MS COCO 2014データセットでは10.0% mIoU,既存のWSSS手法では10.0% mIoU,CAMでは20.0% mIoU以上の画期的な改善が達成できる。

Weakly Supervised Semantic Segmentation (WSSS) with image-level labels has long been suffering from fragmentary object regions led by Class Activation Map (CAM), which is incapable of generating fine-grained masks for semantic segmentation. To guide CAM to find more non-discriminating object patterns, this paper turns to an interesting working mechanism in agent learning named Complementary Learning System (CLS). CLS holds that the neocortex builds a sensation of general knowledge, while the hippocampus specially learns specific details, completing the learned patterns. Motivated by this simple but effective learning pattern, we propose a General-Specific Learning Mechanism (GSLM) to explicitly drive a coarse-grained CAM to a fine-grained pseudo mask. Specifically, GSLM develops a General Learning Module (GLM) and a Specific Learning Module (SLM). The GLM is trained with image-level supervision to extract coarse and general localization representations from CAM. Based on the general knowledge in the GLM, the SLM progressively exploits the specific spatial knowledge from the localization representations, expanding the CAM in an explicit way. To this end, we propose the Seed Reactivation to help SLM reactivate non-discriminating regions by setting a boundary for activation values, which successively identifies more regions of CAM. Without extra refinement processes, our method is able to achieve breakthrough improvements for CAM of over 20.0% mIoU on PASCAL VOC 2012 and 10.0% mIoU on MS COCO 2014 datasets, representing a new state-of-the-art among existing WSSS methods.
翻訳日:2023-03-07 19:27:21 公開日:2023-03-04
# 深層不均衡学習のためのグループ分布ロバスト最適化の検討:二項タブラルデータ分類を事例として

Investigating Group Distributionally Robust Optimization for Deep Imbalanced Learning: A Case Study of Binary Tabular Data Classification ( http://arxiv.org/abs/2303.02505v1 )

ライセンス: Link先を確認
Ismail. B. Mustapha, Shafaatunnur Hasan, Hatem S Y Nabbus, Mohamed Mostafa Ali Montaser, Sunday Olusanya Olatunji, Siti Maryam Shamsuddin(参考訳) 最近の研究でよく研究されている機械学習の課題の1つは、ディープニューラルネットワークがクラス不均衡問題に感受性があることである。 近年,この方向への協調的な研究努力が注目されているが,従来の学習目標である経験的リスク最小化(ERM, empirical risk minimization)は,多数派に対する偏見から,ディープニューラルネットワークにおける最適不均衡学習を達成できないことが示唆されている。 本研究は, 深層不均衡学習研究を支配した画像データに対して, 表層不均衡データに着目し, 不均衡学習のためのグループ分散ロバスト最適化(gDRO)について検討した。 ERMのようにインスタンス単位の平均損失を最小限に抑えるのとは対照的に、gDROはトレーニングデータに対するグループ損失を最小化しようとしている。 ERM法と古典的不均衡法との比較実験により, 異なる不均衡比のベンチマーク不均衡二分グラフデータを用いて, g-mean と roc-auc で比較した手法よりも優れた性能を示した。

One of the most studied machine learning challenges that recent studies have shown the susceptibility of deep neural networks to is the class imbalance problem. While concerted research efforts in this direction have been notable in recent years, findings have shown that the canonical learning objective, empirical risk minimization (ERM), is unable to achieve optimal imbalance learning in deep neural networks given its bias to the majority class. An alternative learning objective, group distributionally robust optimization (gDRO), is investigated in this study for imbalance learning, focusing on tabular imbalanced data as against image data that has dominated deep imbalance learning research. Contrary to minimizing average per instance loss as in ERM, gDRO seeks to minimize the worst group loss over the training data. Experimental findings in comparison with ERM and classical imbalance methods using four popularly used evaluation metrics in imbalance learning across several benchmark imbalance binary tabular data of varying imbalance ratios reveal impressive performance of gDRO, outperforming other compared methods in terms of g-mean and roc-auc.
翻訳日:2023-03-07 19:21:55 公開日:2023-03-04
# 非定常環境におけるMNL-Bandit

MNL-Bandit in non-stationary environments ( http://arxiv.org/abs/2303.02504v1 )

ライセンス: Link先を確認
Ayoub Foussoul, Vineet Goyal, Varun Gupta(参考訳) 本稿では、非定常環境におけるMNL-Bandit問題について検討し、最悪のケースで、$\tilde{O}\left( \min \left\{ \sqrt{NTL}\;,\; N^{\frac{1}{3}}(\Delta_{\infty}^{K})^{\frac{1}{3}} T^{\frac{2}{3}} + \sqrt{NT}\right\right)$の動的後悔を伴うアルゴリズムを提案する。 ここで$N$は腕の数、$L$はスイッチの数、$\Delta_{\infty}^K$は未知のパラメータの変動測度である。 また、このアルゴリズムは(対数因子まで)ほぼ最適であることを示す。 提案アルゴリズムは,Agrawal et al. 2016における定常MNL-Banditのエポックアルゴリズムに基づく。 しかし、非定常性にはいくつかの課題があり、それに対処するために新しい技術とアイデアを導入します。 特に、非定常性による推定子に導入されたバイアスの厳密な特徴付けを行い、新しい濃度境界を導出する。

In this paper, we study the MNL-Bandit problem in a non-stationary environment and present an algorithm with worst-case dynamic regret of $\tilde{O}\left( \min \left\{ \sqrt{NTL}\;,\; N^{\frac{1}{3}}(\Delta_{\infty}^{K})^{\frac{1}{3}} T^{\frac{2}{3}} + \sqrt{NT}\right\}\right)$. Here $N$ is the number of arms, $L$ is the number of switches and $\Delta_{\infty}^K$ is a variation measure of the unknown parameters. We also show that our algorithm is near-optimal (up to logarithmic factors). Our algorithm builds upon the epoch-based algorithm for stationary MNL-Bandit in Agrawal et al. 2016. However, non-stationarity poses several challenges and we introduce new techniques and ideas to address these. In particular, we give a tight characterization for the bias introduced in the estimators due to non stationarity and derive new concentration bounds.
翻訳日:2023-03-07 19:21:32 公開日:2023-03-04
# Wi-Fi電波伝送と機械学習を用いたゼロエフォート2要素認証

Zero-Effort Two-Factor Authentication Using Wi-Fi Radio Wave Transmission and Machine Learning ( http://arxiv.org/abs/2303.02503v1 )

ライセンス: Link先を確認
Ali Abdullah S. AlQahtani, Thamraa Alshayeb(参考訳) オンラインに保存されているセンシティブな情報の拡散は、安全で効率的なユーザ認証方法の必要性を強調している。 そこで本稿では,ユーザ環境と機械学習(ml)のユニークな特徴を組み合わせることにより,そのアイデンティティを確認する新しいゼロ・エフォート二要素認証(zero-effort two-factor authentication, 2fa)手法を提案する。 提案手法は、Wi-Fi電波伝送とMLアルゴリズムを用いてビーコンフレーム特性と受信信号強度指標(RSSI)値をWi-Fiアクセスポイントから解析し、ユーザ位置を決定する。 目的は、ハードウェアやソフトウェアを追加することなく、セキュアで効率的な認証方法を提供することである。 raspberry piデバイスを用いたプロトタイプを開発し,提案手法の有効性と実用性を示す実験を行った。 その結果,本システムは金融,医療,小売など様々な産業における機密情報のセキュリティを著しく向上させることができることがわかった。 この研究は、ユーザ認証の手段としてのWi-Fi電波とRSSI値の可能性と、セキュリティのために無線信号のパターンを識別するMLのパワーに光を当てる。 提案システムは2FAとユーザ認証の分野に革命をもたらし、機密情報への安全でシームレスなアクセスの新たな時代を提供する。

The proliferation of sensitive information being stored online highlights the pressing need for secure and efficient user authentication methods. To address this issue, this paper presents a novel zero-effort two-factor authentication (2FA) approach that combines the unique characteristics of a users environment and Machine Learning (ML) to confirm their identity. Our proposed approach utilizes Wi-Fi radio wave transmission and ML algorithms to analyze beacon frame characteristics and Received Signal Strength Indicator (RSSI) values from Wi-Fi access points to determine the users location. The aim is to provide a secure and efficient method of authentication without the need for additional hardware or software. A prototype was developed using Raspberry Pi devices and experiments were conducted to demonstrate the effectiveness and practicality of the proposed approach. Results showed that the proposed system can significantly enhance the security of sensitive information in various industries such as finance, healthcare, and retail. This study sheds light on the potential of Wi-Fi radio waves and RSSI values as a means of user authentication and the power of ML to identify patterns in wireless signals for security purposes. The proposed system holds great promise in revolutionizing the field of 2FA and user authentication, offering a new era of secure and seamless access to sensitive information.
翻訳日:2023-03-07 19:21:04 公開日:2023-03-04
# 拡散モデルが画家のようなイメージを生成する:まずアウトラインの分析理論、その後の詳細

Diffusion Models Generate Images Like Painters: an Analytical Theory of Outline First, Details Later ( http://arxiv.org/abs/2303.02490v1 )

ライセンス: Link先を確認
Binxu Wang, John J. Vastola(参考訳) 拡散生成モデルは純粋雑音を意味のある画像に変換するか? 世代はまずアウトラインにコミットし、次により細かい詳細をコミットする、と主張する。 対応する逆拡散過程は、ガウスモードで満たされた(時間に依存した)高次元の風景のダイナミクスによってモデル化することができる。 (i)個々の軌道は非常に低次元である傾向がある。 (ii)訓練データ内でより異なるシーン要素がより早く出現する傾向があること。 (3)早期摂動は後期摂動よりも画像内容が大きく変化する。 安定拡散のような様々な訓練された無条件および条件拡散モデルの挙動はこれらの予測と一致していることを示す。 最後に,本理論を用いて拡散モデルの潜在像多様体を探索し,解釈可能な画像変動を生成する新しい方法を提案する。 我々はganと拡散モデルによる生成が予期せぬ類似性を持つことを示唆する。

How do diffusion generative models convert pure noise into meaningful images? We argue that generation involves first committing to an outline, and then to finer and finer details. The corresponding reverse diffusion process can be modeled by dynamics on a (time-dependent) high-dimensional landscape full of Gaussian-like modes, which makes the following predictions: (i) individual trajectories tend to be very low-dimensional; (ii) scene elements that vary more within training data tend to emerge earlier; and (iii) early perturbations substantially change image content more often than late perturbations. We show that the behavior of a variety of trained unconditional and conditional diffusion models like Stable Diffusion is consistent with these predictions. Finally, we use our theory to search for the latent image manifold of diffusion models, and propose a new way to generate interpretable image variations. Our viewpoint suggests generation by GANs and diffusion models have unexpected similarities.
翻訳日:2023-03-07 19:20:44 公開日:2023-03-04
# capdet: 密集したキャプションとオープンワールド検出の事前学習を統一する

CapDet: Unifying Dense Captioning and Open-World Detection Pretraining ( http://arxiv.org/abs/2303.02489v1 )

ライセンス: Link先を確認
Yanxin Long, Youpeng Wen, Jianhua Han, Hang Xu, Pengzhen Ren, Wei Zhang, Shen Zhao, Xiaodan Liang(参考訳) 画像テキストペアによる大規模視覚言語事前学習の恩恵を受け、ゼロショットまたは少数ショット検出設定下では、オープンワールド検出手法が優れた一般化能力を示している。 しかし、既に定義された圏空間は、既存の手法の推論段階で必要であり、その空間に属する対象だけが予測される。 本稿では,「現実」のオープンワールド検出器を導入するため,与えられたカテゴリリストの下で予測するか,予測されたバウンディングボックスのカテゴリを直接生成するcapdetという新しい手法を提案する。 具体的には, 地域別キャプションを生成するために, 新たなキャプションヘッドを導入することで, オープンワールド検出と高密度キャプションタスクを, 単一の有効なフレームワークに統合する。 さらに、キャプション処理を追加することは、キャプションデータセットがより多くの概念をカバーするため、検出性能の一般化に役立つ。 実験の結果,高密度キャプションタスクを統一することにより,LVIS(1203クラス)のベースライン法よりも高い性能(例えば,LVISレアクラスでは+2.1% mAP)が得られた。 さらに、当社のCapDetは、VG V1.2では15.44% mAP、VG-COCOデータセットでは13.98%といった、高密度キャプションタスクの最先端のパフォーマンスも達成しています。

Benefiting from large-scale vision-language pre-training on image-text pairs, open-world detection methods have shown superior generalization ability under the zero-shot or few-shot detection settings. However, a pre-defined category space is still required during the inference stage of existing methods and only the objects belonging to that space will be predicted. To introduce a "real" open-world detector, in this paper, we propose a novel method named CapDet to either predict under a given category list or directly generate the category of predicted bounding boxes. Specifically, we unify the open-world detection and dense caption tasks into a single yet effective framework by introducing an additional dense captioning head to generate the region-grounded captions. Besides, adding the captioning task will in turn benefit the generalization of detection performance since the captioning dataset covers more concepts. Experiment results show that by unifying the dense caption task, our CapDet has obtained significant performance improvements (e.g., +2.1% mAP on LVIS rare classes) over the baseline method on LVIS (1203 classes). Besides, our CapDet also achieves state-of-the-art performance on dense captioning tasks, e.g., 15.44% mAP on VG V1.2 and 13.98% on the VG-COCO dataset.
翻訳日:2023-03-07 19:20:33 公開日:2023-03-04
# マルチサイメトリアンサンブル:対向対称性による多様性と一般化の改善

Multi-Symmetry Ensembles: Improving Diversity and Generalization via Opposing Symmetries ( http://arxiv.org/abs/2303.02484v1 )

ライセンス: Link先を確認
Charlotte Loh, Seungwook Han, Shivchander Sudalairaj, Rumen Dangovski, Kai Xu, Florian Wenzel, Marin Soljacic, Akash Srivastava(参考訳) 深層アンサンブル(DE)は,ランダム初期化の確率性を通じて,多様なメンバーを学習することで,モデル性能の向上に成功している。 近年の研究では、超パラメータによるdeのさらなる多様性の促進や損失関数の定式化が試みられているが、これらの手法は主に仮説空間を探索するための確率的アプローチに依存している。 本研究では,モデル重みとハイパーパラメータの確率的摂動を超えた仮説空間を探索し,対称性軸に沿った仮説の多重性を捉え,多様なアンサンブルを構築するためのフレームワークであるマルチサイメトリ・アンサンブル(MSE)を提案する。 コントラスト表現学習の最近の進歩を利用して、不変および同変対称性の対向仮説を別々に捉えるモデルを作成し、与えられたタスクの適切な仮説を効率的に結合する単純な感覚的アプローチを提案する。 MSEは、ImageNetのような大規模で多様なデータセットでしばしば必要とされる矛盾する仮説の多重性を効果的に捉えていることを示す。 その固有の多様性の結果、MSEは分類性能、不確実な定量化、一連の伝達タスクの一般化を改善している。

Deep ensembles (DE) have been successful in improving model performance by learning diverse members via the stochasticity of random initialization. While recent works have attempted to promote further diversity in DE via hyperparameters or regularizing loss functions, these methods primarily still rely on a stochastic approach to explore the hypothesis space. In this work, we present Multi-Symmetry Ensembles (MSE), a framework for constructing diverse ensembles by capturing the multiplicity of hypotheses along symmetry axes, which explore the hypothesis space beyond stochastic perturbations of model weights and hyperparameters. We leverage recent advances in contrastive representation learning to create models that separately capture opposing hypotheses of invariant and equivariant symmetries and present a simple ensembling approach to efficiently combine appropriate hypotheses for a given task. We show that MSE effectively captures the multiplicity of conflicting hypotheses that is often required in large, diverse datasets like ImageNet. As a result of their inherent diversity, MSE improves classification performance, uncertainty quantification, and generalization across a series of transfer tasks.
翻訳日:2023-03-07 19:20:07 公開日:2023-03-04
# FAME-ViL:異種ファッションタスクのためのマルチタスク視覚言語モデル

FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks ( http://arxiv.org/abs/2303.02483v1 )

ライセンス: Link先を確認
Xiao Han, Xiatian Zhu, Licheng Yu, Li Zhang, Yi-Zhe Song, Tao Xiang(参考訳) ファッション領域には、クロスモーダル検索、テキスト誘導画像検索、マルチモーダル分類、画像キャプションなど、様々な視覚と言語(V+L)タスクが存在する。 個々の入力/出力フォーマットとデータセットサイズで大きく異なる。 タスク固有のモデルを設計し、事前訓練されたV+Lモデル(例えばCLIP)から独立して微調整することが一般的である。 その結果、パラメータの非効率性とタスク間の関連性を活用できない。 本研究では,ファシオンに着目した視覚・言語タスク(FAME-ViL)のための多タスク学習手法を提案する。 既存のアプローチと比較して、FAME-ViLは複数の異種ファッションタスクに対して単一のモデルを適用するため、パラメータ効率ははるかに高い。 本手法は,(1)クロスアテンションアダプタとタスク固有アダプタを統合V+Lモデルに統合したタスク可逆アーキテクチャ,(2)異種データからの学習を支援する安定かつ効果的なマルチタスク学習戦略,および負の転送を防止する。 4つのファッションタスクに関する大規模な実験は、FAME-ViLが代替案よりも61.5%のパラメータを節約できることを示している。 コードはhttps://github.com/BrandonHanx/FAME-ViL.comで入手できる。

In the fashion domain, there exists a variety of vision-and-language (V+L) tasks, including cross-modal retrieval, text-guided image retrieval, multi-modal classification, and image captioning. They differ drastically in each individual input/output format and dataset size. It has been common to design a task-specific model and fine-tune it independently from a pre-trained V+L model (e.g., CLIP). This results in parameter inefficiency and inability to exploit inter-task relatedness. To address such issues, we propose a novel FAshion-focused Multi-task Efficient learning method for Vision-and-Language tasks (FAME-ViL) in this work. Compared with existing approaches, FAME-ViL applies a single model for multiple heterogeneous fashion tasks, therefore being much more parameter-efficient. It is enabled by two novel components: (1) a task-versatile architecture with cross-attention adapters and task-specific adapters integrated into a unified V+L model, and (2) a stable and effective multi-task training strategy that supports learning from heterogeneous data and prevents negative transfer. Extensive experiments on four fashion tasks show that our FAME-ViL can save 61.5% of parameters over alternatives, while significantly outperforming the conventional independently trained single-task models. Code is available at https://github.com/BrandonHanx/FAME-ViL.
翻訳日:2023-03-07 19:19:48 公開日:2023-03-04
# 確率的拡散モデルを用いた合成ECG信号生成

Synthetic ECG Signal Generation using Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.02475v1 )

ライセンス: Link先を確認
Edmond Adib, Amanda Fernandez, Fatemeh Afghah and John Jeff Prevost(参考訳) ディープラーニング画像処理モデルは,近年,高品質な画像生成において顕著な成功を収めている。 特に, 改良型脱ノイズ拡散確率モデル (DDPM) では, 画像品質が最先端生成モデルよりも優れており, 合成心電図(ECG)信号の生成能力について検討する動機となった。 本研究では,改良ddpmおよび勾配ペナルティ(wgangp)モデルを用いたwasserstein ganにより合成心電図信号を生成し,比較する。 この目的のために、DDPMを元の2D形式で利用するパイプラインを考案した。 まず, 1次元ecg時系列データを2次元空間に埋め込み, グラミアン角和・差分場 (gasf/gadf) とマルコフ遷移場 (mtf) を用いて各ecg時系列から3つの2次元行列を生成し, 3チャンネルの2次元ダムを形成する。 次に、2D DDPMを用いて2D3チャネル合成ECG画像を生成する。 1D ECG信号は、2D生成したイメージファイルを1D空間に再埋め込みすることで生成される。 本研究は,mit bih arrhythmiaデータセットからの正規クラスをトレーニングフェーズとして使用する非条件モデルと正常心電図信号のみの生成に焦点を当てている。 各モデルによる生成したECG信号の品質,分布,信頼性を比較した。 その結果,提案したパイプラインでは,WGAN-GPモデルの方がDDPMよりもはるかに優れていることがわかった。

Deep learning image processing models have had remarkable success in recent years in generating high quality images. Particularly, the Improved Denoising Diffusion Probabilistic Models (DDPM) have shown superiority in image quality to the state-of-the-art generative models, which motivated us to investigate its capability in generation of the synthetic electrocardiogram (ECG) signals. In this work, synthetic ECG signals are generated by the Improved DDPM and by the Wasserstein GAN with Gradient Penalty (WGANGP) models and then compared. To this end, we devise a pipeline to utilize DDPM in its original 2D form. First, the 1D ECG time series data are embedded into the 2D space, for which we employed the Gramian Angular Summation/Difference Fields (GASF/GADF) as well as Markov Transition Fields (MTF) to generate three 2D matrices from each ECG time series that, which when put together, form a 3-channel 2D datum. Then 2D DDPM is used to generate 2D 3-channel synthetic ECG images. The 1D ECG signals are created by de-embedding the 2D generated image files back into the 1D space. This work focuses on unconditional models and the generation of only Normal ECG signals, where the Normal class from the MIT BIH Arrhythmia dataset is used as the training phase. The quality, distribution, and the authenticity of the generated ECG signals by each model are compared. Our results show that, in the proposed pipeline, the WGAN-GP model is superior to DDPM by far in all the considered metrics consistently.
翻訳日:2023-03-07 19:19:21 公開日:2023-03-04
# ESD: チューニング不要なトレーニング可能な校正尺度としての正方形差を期待

ESD: Expected Squared Difference as a Tuning-Free Trainable Calibration Measure ( http://arxiv.org/abs/2303.02472v1 )

ライセンス: Link先を確認
Hee Suk Yoon, Joshua Tian Jin Tee, Eunseop Yoon, Sunjae Yoon, Gwangsu Kim, Yingzhen Li, Chang D. Yoo(参考訳) 研究によると、現代のニューラルネットワークは過信の予測のために校正が不十分である傾向がある。 伝統的に、後処理法は訓練後のモデルの校正に使われてきた。 近年、トレーニングプロセスに直接組み込むための様々なトレーニング可能な校正策が提案されている。 しかし、これらの手法はすべて内部のハイパーパラメータを取り入れており、これらのキャリブレーション目標の性能はこれらのハイパーパラメータのチューニングに依存しており、ニューラルネットワークやデータセットのサイズが大きくなるにつれて計算コストが増大する。 そこで我々は,2つの期待値の2乗差の観点からキャリブレーション誤差を考慮し,チューニング不要な(ハイパーパラメータフリー)トレーニング可能なキャリブレーション目標損失である期待正方形差(ESD)を提示する。 複数のアーキテクチャ(CNN, Transformer)とデータセットの広範な実験により,(1)内部ハイパーパラメータチューニングを必要とせずに,トレーニングにESDを組み込むことで,各種バッチサイズ設定におけるモデルキャリブレーションが向上すること,(2)ESDが従来の手法と比較して最高のキャリブレーション結果が得られること,(3)内部ハイパーパラメータの欠如によるトレーニング中のキャリブレーションに要する計算コストが劇的に向上すること,などが示されている。 コードはhttps://github.com/hee-suk-yoon/esdで公開されている。

Studies have shown that modern neural networks tend to be poorly calibrated due to over-confident predictions. Traditionally, post-processing methods have been used to calibrate the model after training. In recent years, various trainable calibration measures have been proposed to incorporate them directly into the training process. However, these methods all incorporate internal hyperparameters, and the performance of these calibration objectives relies on tuning these hyperparameters, incurring more computational costs as the size of neural networks and datasets become larger. As such, we present Expected Squared Difference (ESD), a tuning-free (i.e., hyperparameter-free) trainable calibration objective loss, where we view the calibration error from the perspective of the squared difference between the two expectations. With extensive experiments on several architectures (CNNs, Transformers) and datasets, we demonstrate that (1) incorporating ESD into the training improves model calibration in various batch size settings without the need for internal hyperparameter tuning, (2) ESD yields the best-calibrated results compared with previous approaches, and (3) ESD drastically improves the computational costs required for calibration during training due to the absence of internal hyperparameter. The code is publicly accessible at https://github.com/hee-suk-yoon/ESD.
翻訳日:2023-03-07 19:18:52 公開日:2023-03-04
# 自然言語テキストの変分量子分類器

Variational Quantum Classifiers for Natural-Language Text ( http://arxiv.org/abs/2303.02469v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 量子自然言語処理(QNLP)に関する最近の研究の一環として、変分量子文分類器(VQSC)が、文の意味のDisCoCatモデルに基づいてlambeq / DisCoPyで実装されサポートされている。 本稿では,圏論,文を文字列図としてモデル化するDisCoCat,パラメータ化量子回路として文字列図を符号化するDisCoPyなど,VQSCの詳細について論じる。 しかし、多くのNLPタスクは、lambeq / DisCoPyではサポートされていない複数の文からなるテキストの処理を必要とする。 よい例は、顧客のフィードバックの感情分類や製品レビューです。 本稿では,変分量子テキスト分類器(VQTC)に対する3つの潜在的アプローチについて検討する。 1つ目は、テキストをタスク固有の文重み付けを伴う独立した文のグループとして扱う重み付けされたbag-of-sencesアプローチである。 第2のアプローチは、テキストをメンバー文と、それらの間の共参照の統合として扱う共参照解決アプローチである。 どちらのアプローチもDisCoCatモデルに基づいており、lambeq / DisCoCatで実装する必要がある。 一方,第3のアプローチは,文の順序付けと文の意味の合成における単語の相互作用を考慮したDisCoCircモデルに基づいている。 DisCoCircの文は単語の意味を更新するので、DisCoCircはDisCoCatを根本的に変更するが、DisCoCatではすべての意味が静的である。 DisCoCatを壊さずに、DisCoCircがlambeq / DisCoCatで実装できるかどうかは不明だ。

As part of the recent research effort on quantum natural language processing (QNLP), variational quantum sentence classifiers (VQSCs) have been implemented and supported in lambeq / DisCoPy, based on the DisCoCat model of sentence meaning. We discuss in some detail VQSCs, including category theory, DisCoCat for modeling sentence as string diagram, and DisCoPy for encoding string diagram as parameterized quantum circuit. Many NLP tasks, however, require the handling of text consisting of multiple sentences, which is not supported in lambeq / DisCoPy. A good example is sentiment classification of customer feedback or product review. We discuss three potential approaches to variational quantum text classifiers (VQTCs), in line with VQSCs. The first is a weighted bag-of-sentences approach which treats text as a group of independent sentences with task-specific sentence weighting. The second is a coreference resolution approach which treats text as a consolidation of its member sentences with coreferences among them resolved. Both approaches are based on the DisCoCat model and should be implementable in lambeq / DisCoCat. The third approach, on the other hand, is based on the DisCoCirc model which considers both ordering of sentences and interaction of words in composing text meaning from word and sentence meanings. DisCoCirc makes fundamental modification of DisCoCat since a sentence in DisCoCirc updates meanings of words, whereas all meanings are static in DisCoCat. It is not clear if DisCoCirc can be implemented in lambeq / DisCoCat without breaking DisCoCat.
翻訳日:2023-03-07 19:18:25 公開日:2023-03-04
# T2強調MR画像前処理のための注意に基づく畳み込みニューラルネットワーク

Attention-based convolutional neural network for perfusion T2-weighted MR images preprocessing ( http://arxiv.org/abs/2303.02518v1 )

ライセンス: Link先を確認
Svitlana Alkhimova, Oleksii Diumin(参考訳) ダイナミック・サセプティビリティ・コントラスト強化灌流磁気共鳴データ解析において、正確な頭蓋骨切断は重要な前処理である。 非脳組織の存在は灌流パラメータ評価に影響を及ぼす。 本研究では,標準sce,scse-pre,scse-post,およびsceブロックをresnetバックボーンに挿入するsce識別戦略を提供するため,u-net+resnetニューラルネットワークアーキテクチャにおける空間的およびチャネル的圧縮および興奮的注意機構の異なる統合戦略を提案する。 脳解剖学的異常を伴うT2-stared MR画像における頭蓋骨切り術の性能を総合的に検討した。 提案した戦略のいずれかを活用することで、頭蓋骨切断の堅牢性が得られる。 しかし、scse-post統合戦略は平均サイコロ係数 0.9810 で最良の結果を与える。

Accurate skull-stripping is crucial preprocessing in dynamic susceptibility contrast-enhanced perfusion magnetic resonance data analysis. The presence of non-brain tissues impacts the perfusion parameters assessment. In this study, we propose different integration strategies for the spatial and channel squeeze and excitation attention mechanism into the baseline U-Net+ResNet neural network architecture to provide automatic skull-striping i.e., Standard scSE, scSE-PRE, scSE-POST, and scSE Identity strategies of plugging of scSE block into the ResNet backbone. We comprehensively investigate the performance of skull-stripping in T2-star weighted MR images with abnormal brain anatomy. The comparison that utilizing any of the proposed strategies provides the robustness of skull-stripping. However, the scSE-POST integration strategy provides the best result with an average Dice Coefficient of 0.9810.
翻訳日:2023-03-07 19:10:25 公開日:2023-03-04
# DSC-MRIデータを用いた動脈入力関数の検出

Detection of the Arterial Input Function Using DSC-MRI Data ( http://arxiv.org/abs/2303.02516v1 )

ライセンス: Link先を確認
Svitlana Alkhimova, Kateryna Sazonova(参考訳) 動脈入力関数の正確な検出は,ダイナミックサーセシビリティコントラスト強調mriを用いた灌流血行動態パラメータを得る上で重要なステップである。 灌流定量化の入力として必要であり、デコンボリューション演算の結果に大きな影響を及ぼす。 動脈入力関数検出の再現性と信頼性を向上させるために, 半自動的, 完全自動的手法が提案されている。 本研究では,動脈入力機能検出の現状について概説する。 半自動および完全自動動脈入力機能検出に最も一般的に用いられる手法をレビューし、その利点と欠点をリストアップする。

Accurate detection of arterial input function is a crucial step in obtaining perfusion hemodynamic parameters using dynamic susceptibility contrast-enhanced magnetic resonance imaging. It is required as input for perfusion quantification and has a great impact on the result of the deconvolution operation. To improve the reproducibility and reliability of arterial input function detection, several semi- or fully automatic methods have been proposed. This study provides an overview of the current state of the field of arterial input function detection. Methods most commonly used for semi- and fully automatic arterial input function detection are reviewed, and their advantages and disadvantages are listed.
翻訳日:2023-03-07 19:10:09 公開日:2023-03-04
# 多言語ヘイトスピーチ検出のためのモデル非依存メタラーニング

Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection ( http://arxiv.org/abs/2303.02513v1 )

ライセンス: Link先を確認
Md Rabiul Awal, Roy Ka-Wei Lee, Eshaan Tanwar, Tanmay Garg, Tanmoy Chakraborty(参考訳) ソーシャルメディアにおけるヘイトスピーチは成長する現象であり、このような有害なコンテンツの検出は研究コミュニティで最近大きな注目を集めている。 既存の研究では、ヘイトスピーチ検出を行うための微調整言語モデル(LM)が検討されており、これらのソリューションは大きなパフォーマンスをもたらしている。 しかし、これらの研究のほとんどは英語のみのヘイトスピーチの検出に限定されており、他の言語、特に低リソース言語で発生するヘイトスピーチコンテンツの大部分を無視している。 限られたデータで低リソース言語でヘイトスピーチとニュアンスをキャプチャする分類器の開発は非常に難しい。 研究ギャップを埋めるため,低リソース言語でのヘイトスピーチ検出を効果的に行うモデルに依存しないメタラーニングベースのフレームワークであるHateMAMLを提案する。 HateMAMLは、データ不足の限界を克服するためにセルフスーパービジョン戦略を利用し、未確認のターゲット言語(言語間移動)や他のヘイトスピーチデータセット(ドメイン一般化)への迅速な適応のために、より良いLM初期化を生成する。 8つの異なる低リソース言語にまたがる5つのデータセットに関する広範な実験が行われた。 その結果,HateMAMLはクロスドメイン多言語転送設定において,最先端のベースラインを3%以上上回っていることがわかった。 また,HateMAMLの特性分析のためのアブレーション研究も行った。

Hate speech in social media is a growing phenomenon, and detecting such toxic content has recently gained significant traction in the research community. Existing studies have explored fine-tuning language models (LMs) to perform hate speech detection, and these solutions have yielded significant performance. However, most of these studies are limited to detecting hate speech only in English, neglecting the bulk of hateful content that is generated in other languages, particularly in low-resource languages. Developing a classifier that captures hate speech and nuances in a low-resource language with limited data is extremely challenging. To fill the research gap, we propose HateMAML, a model-agnostic meta-learning-based framework that effectively performs hate speech detection in low-resource languages. HateMAML utilizes a self-supervision strategy to overcome the limitation of data scarcity and produces better LM initialization for fast adaptation to an unseen target language (i.e., cross-lingual transfer) or other hate speech datasets (i.e., domain generalization). Extensive experiments are conducted on five datasets across eight different low-resource languages. The results show that HateMAML outperforms the state-of-the-art baselines by more than 3% in the cross-domain multilingual transfer setting. We also conduct ablation studies to analyze the characteristics of HateMAML.
翻訳日:2023-03-07 19:09:58 公開日:2023-03-04
# 自律運転における深部視覚検出のための視力誘導型チャネルプルーニング

Visual Saliency-Guided Channel Pruning for Deep Visual Detectors in Autonomous Driving ( http://arxiv.org/abs/2303.02512v1 )

ライセンス: Link先を確認
Jung Im Choi and Qing Tian(参考訳) 深層ニューラルネットワーク(DNN)プルーニングは、推論時のメモリ要求と計算コストを削減できるため、リソース制約のあるデバイスにデプロイするデファクトコンポーネントになっている。 特にチャネルプルーニングは、構造的な性質と一般的なハードウェアへの直接的節約により、より人気を博した。 しかしながら、既存のプルーニングアプローチの多くは、タスクユーティリティに直接関係しない重要度測定を利用する。 さらに,視覚検出モデルに注目した文献は少ない。 これらのギャップを埋めるために,視覚検出のための新しい勾配に基づく塩分測定法を提案し,チャネルプルーニングのガイドに利用する。 KITTIおよびCOCOトラヒックデータセットの実験は、最先端の競合するアプローチよりもプルーニング手法の有効性と優位性を示す。 元のモデルよりも少ないパラメータでパフォーマンスも向上できる。 我々の刈り取りは、小規模なオブジェクトを扱う大きな可能性を示す。

Deep neural network (DNN) pruning has become a de facto component for deploying on resource-constrained devices since it can reduce memory requirements and computation costs during inference. In particular, channel pruning gained more popularity due to its structured nature and direct savings on general hardware. However, most existing pruning approaches utilize importance measures that are not directly related to the task utility. Moreover, few in the literature focus on visual detection models. To fill these gaps, we propose a novel gradient-based saliency measure for visual detection and use it to guide our channel pruning. Experiments on the KITTI and COCO traffic datasets demonstrate our pruning method's efficacy and superiority over state-of-the-art competing approaches. It can even achieve better performance with fewer parameters than the original model. Our pruning also demonstrates great potential in handling small-scale objects.
翻訳日:2023-03-07 19:09:36 公開日:2023-03-04
# 実用的かつ持続的なDNNトレーニングのための低炭素電気椅子

Chasing Low-Carbon Electricity for Practical and Sustainable DNN Training ( http://arxiv.org/abs/2303.02508v1 )

ライセンス: Link先を確認
Zhenning Yang, Luoxi Meng, Jae-Won Chung, Mosharaf Chowdhury(参考訳) 近年、ディープラーニングは大きな成長を遂げており、GPUによる深層ニューラルネットワーク(DNN)のトレーニングによるエネルギー消費と二酸化炭素排出量の増加につながっている。 持続可能性を求める従来の解決策は、炭素強度の低い場所や時間枠にトレーニングジョブを移動させようと試みてきた。 しかし、ジョブを他の場所に移行することは、データセットのサイズやデータ規制が大きいため、必ずしも実現可能であるとは限らない。 さらに、サービスを支援するDNNがタイムリーに更新されないため、延期トレーニングはアプリケーションサービス品質に悪影響を及ぼす可能性がある。 本研究では,DNNトレーニングの炭素フットプリントを,ジョブの移動や延期を伴わない実用的なソリューションを提案する。 具体的には、トレーニング中のリアルタイム炭素強度変化を観察し、GPUのエネルギー消費を制御し、トレーニング性能を維持しながら炭素フットプリントを削減する。 さらに,炭素強度の変化に積極的に適応するために,今後の時間枠の炭素強度を予測する軽量機械学習アルゴリズムを提案する。 私たちのソリューションであるChaseは、ImageNet上でのResNet-50のトレーニングの総炭素フットプリントを13.6%削減します。

Deep learning has experienced significant growth in recent years, resulting in increased energy consumption and carbon emission from the use of GPUs for training deep neural networks (DNNs). Answering the call for sustainability, conventional solutions have attempted to move training jobs to locations or time frames with lower carbon intensity. However, moving jobs to other locations may not always be feasible due to large dataset sizes or data regulations. Moreover, postponing training can negatively impact application service quality because the DNNs backing the service are not updated in a timely fashion. In this work, we present a practical solution that reduces the carbon footprint of DNN training without migrating or postponing jobs. Specifically, our solution observes real-time carbon intensity shifts during training and controls the energy consumption of GPUs, thereby reducing carbon footprint while maintaining training performance. Furthermore, in order to proactively adapt to shifting carbon intensity, we propose a lightweight machine learning algorithm that predicts the carbon intensity of the upcoming time frame. Our solution, Chase, reduces the total carbon footprint of training ResNet-50 on ImageNet by 13.6% while only increasing training time by 2.5%.
翻訳日:2023-03-07 19:09:23 公開日:2023-03-04
# 位置依存質量を持つ運動ハミルトニアン

The kinetic Hamiltonian with position-dependent mass ( http://arxiv.org/abs/2303.02507v1 )

ライセンス: Link先を確認
R.M. Lima and H.R. Christiansen(参考訳) 本稿では,5つの異なる位置依存質量 (pdm) プロファイル (ソリトン様, 逆二次, 双二次, 指数的, 放物型) に対して, 純粋運動論的ハミルトンの最も関連する順序を体系的に検討する。 運動量と位置演算子の非可換性の結果、有効なポテンシャルの多様性が生成される。 我々は、セット全体を分析し、予期せぬ偶然とそれらの間の不一致を見つける。 検討した25例のエネルギーと解の完全なスペクトルを解析的に求めた。 単純な常定数解が、超越関数と引数の様々な複雑な組み合わせにどのように変換されるかを示す。 非一様質量密度を持つ粒子は、有界であるか否かに関わらず、離散エネルギースペクトルと連続エネルギースペクトルを呈することができる。 これらの結果は、外部ポテンシャルがゼロであるにもかかわらず、pdm固有関数は実際の自由状態ではなく、固体試料中のある種の有効波であるという事実と一致する。 これはまさに位置依存質量の起源である。 すべての事象において、完全に完全なスペクトル表現を得る。 そこで本手法では,ハミルトン種子の多様性を同等の足場に配置し,比較を行った。 これにより、与えられた物質のスペクトルが実験的に利用可能になると、特定の固体またはヘテロ構造をモデル化するより良い配置を選択することができる。 最後に, 界面領域に放物型pdm粒子を持つ二重ヘテロ構造の1次元モデル計算を行う。 また,外部電位を付加した材料構造物内部の応用についても検討した。

In the present paper we examine in a systematic way the most relevant orderings of pure kinetic Hamiltonians for five different position-dependent mass (PDM) profiles: soliton-like, reciprocal quadratic and biquadratic, exponential and parabolic. As a result of the non-commutativity between momentum and position operators, a diversity of effective potentials is generated. We analyze the whole set and find unexpected coincidences as well as discrepancies among them. We obtain analytically the full-spectrum of energies and solutions in the twenty-five cases considered. It is shown how the simple ordinary constant-mass solutions are transformed into a variety of complex combinations of transcendental functions and arguments. We find that particles with a non-uniform mass density can present discrete energy spectra as well as continuous ones which can be bounded or not. These results are consistent with the fact that although the external potential is zero, PDM eigenfunctions are not actual free states but a sort of effective waves in a solid-state sample. This is precisely the origin of the position-dependent mass. In all the events we obtain exact complete spectral expressions. Our methodological procedure thus puts a wide diversity of Hamiltonian seeds on an equal footing in order to be compared. This allows choosing the better arrangement to model a specific solid or heterostructure once the spectrum of a given material is experimentally available. Finally, we perform a one-dimensional model calculation of a double heterostructure with a parabolic PDM particle in the interface region. Our study is also indicated for applications inside material structures with the addition of external potentials.
翻訳日:2023-03-07 19:09:04 公開日:2023-03-04
# prismer: 専門家のアンサンブルを備えたビジョン言語モデル

Prismer: A Vision-Language Model with An Ensemble of Experts ( http://arxiv.org/abs/2303.02506v1 )

ライセンス: Link先を確認
Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar(参考訳) 最近の視覚言語モデルは印象的なマルチモーダル生成能力を示している。 しかし、通常、巨大なデータセットで巨大なモデルをトレーニングする必要がある。 よりスケーラブルな代替手段として、ドメインエキスパートのアンサンブルを利用するデータおよびパラメータ効率のよいビジョン言語モデルであるprismerを紹介します。 Prismerは少数のコンポーネントのトレーニングしか必要とせず、ネットワークの重量の大部分は、容易に利用できる、トレーニング済みのドメインエキスパートから受け継がれ、トレーニング中に凍結される。 幅広い分野の専門家を活用することで、Prismerはこの専門家の知識を効率的にプールし、様々な視覚言語推論タスクに適応できることを示す。 実験では,最大2桁のトレーニングデータを必要とする一方で,現在の最先端モデルに匹敵する微調整と少数ショットの学習性能を実現することを実証した。 コードはhttps://github.com/NVlabs/prismer.comで入手できる。

Recent vision-language models have shown impressive multi-modal generation capabilities. However, typically they require training huge models on massive datasets. As a more scalable alternative, we introduce Prismer, a data- and parameter-efficient vision-language model that leverages an ensemble of domain experts. Prismer only requires training of a small number of components, with the majority of network weights inherited from readily-available, pre-trained domain experts, and kept frozen during training. By leveraging experts from a wide range of domains, we show that Prismer can efficiently pool this expert knowledge and adapt it to various vision-language reasoning tasks. In our experiments, we show that Prismer achieves fine-tuned and few-shot learning performance which is competitive with current state-of-the-art models, whilst requiring up to two orders of magnitude less training data. Code is available at https://github.com/NVlabs/prismer.
翻訳日:2023-03-07 19:08:42 公開日:2023-03-04
# クロススケール歪みを考慮した室内パノラマルームレイアウト推定のための直交面の分離

Disentangling Orthogonal Planes for Indoor Panoramic Room Layout Estimation with Cross-Scale Distortion Awareness ( http://arxiv.org/abs/2303.00971v2 )

ライセンス: Link先を確認
Zhijie Shen, Zishuo Zheng, Chunyu Lin, Lang Nie, Kang Liao, Shuai Zheng and Yao Zhao(参考訳) マンハッタン世界想定に基づき、既存の屋内レイアウト推定スキームのほとんどは、垂直圧縮された1dシーケンスからレイアウトを復元することに焦点を当てている。 しかし、圧縮手順は異なる平面のセマンティクスを混乱させ、不明瞭な解釈性で劣る性能をもたらす。 そこで本研究では, 複雑なシーンから直交面(垂直面と水平面)を事前セグメンテーションし, 室内レイアウト推定のための幾何学的手がかりを明示的に捉えることにより, この1次元表現を解消する。 床の境界と天井の境界の対称性を考慮し,プレセグメンテーションを支援するソフトフリップ融合戦略を設計する。 さらに,浅層・深部の特徴と歪み分布認識を効果的に統合する機能組立機構を提案する。 プレセグメンテーションにおける潜在的なエラーを補うために,さらに3重の注意を生かして,絡み合ったシーケンスを再構築し,性能を向上する。 4つの人気のあるベンチマークの実験は、既存のSoTAソリューション、特に3DIoUメトリックよりも優れていることを示している。 コードは \url{https://github.com/zhijieshen-bjtu/dopnet} で入手できる。

Based on the Manhattan World assumption, most existing indoor layout estimation schemes focus on recovering layouts from vertically compressed 1D sequences. However, the compression procedure confuses the semantics of different planes, yielding inferior performance with ambiguous interpretability. To address this issue, we propose to disentangle this 1D representation by pre-segmenting orthogonal (vertical and horizontal) planes from a complex scene, explicitly capturing the geometric cues for indoor layout estimation. Considering the symmetry between the floor boundary and ceiling boundary, we also design a soft-flipping fusion strategy to assist the pre-segmentation. Besides, we present a feature assembling mechanism to effectively integrate shallow and deep features with distortion distribution awareness. To compensate for the potential errors in pre-segmentation, we further leverage triple attention to reconstruct the disentangled sequences for better performance. Experiments on four popular benchmarks demonstrate our superiority over existing SoTA solutions, especially on the 3DIoU metric. The code is available at \url{https://github.com/zhijieshen-bjtu/DOPNet}.
翻訳日:2023-03-07 12:19:30 公開日:2023-03-04